Los científicos convierten los escáneres cerebrales en un habla inteligible con una red neuronal

Stephen Hawking fue quizás el usuario más famoso del hardware de síntesis de voz “vocoder”, pero no estaba solo. Las personas de todo el mundo son incapaces de hablar por sí mismas, pero la ciencia puede estar acercándose a un punto en el que pueden convertir sus pensamientos internos en palabras sin tedioso tecleo o clic. Un equipo del Laboratorio de Procesamiento Acústico Neural de la Universidad de Columbia ha ideado un modelo de IA que puede convertir los escáneres cerebrales en un habla inteligible .



La investigación combina varios avances en el aprendizaje automático para interpretar los patrones de actividad en el cerebro y descubrir lo que alguien quiere decir incluso si no es físicamente capaz de hacer ruido. Esta no es una máquina de leer la mente: las señales provienen de la corteza auditiva donde su cerebro procesa el habla. Por lo tanto, puede comprender el habla real y no el llamado 'discurso imaginado' que podría contener sus secretos más profundos y oscuros.



La tecnología es todavía un trabajo en progreso; más una prueba de concepto que algo que puedas engancharte a la cabeza. El estudio utilizó señales neuronales registradas desde la superficie del cerebro durante la cirugía de la epilepsia, un proceso llamado electrocorticografía invasiva (ECoG). Los investigadores, dirigidos por Nima Mesgarani, utilizaron pacientes con epilepsia porque a menudo tienen que someterse a una cirugía cerebral que implica pruebas neurológicas.





Los investigadores registraron la actividad cerebral mientras los sujetos escuchaban a las personas recitar palabras seleccionadas como los números del cero al nueve. Esto es importante porque todo el mundo tiene diferente patrones de ondas cerebrales al procesar el habla. Entonces, Mesgarani y el equipo entrenaron una red neuronal que era específica para cada paciente. Solo tenían 30 minutos de datos, lo que limita la efectividad del modelo. Sin embargo, los resultados siguen siendo impresionantes. El equipo introdujo los escaneos ECoG sin procesar y la red generó voz con un codificador de voz. Puedes escuchar una muestra de los modelos aquí . Hay cuatro modelos, el último de los cuales debería ser el más realista.



Todo es un poco robótico y los primeros números son difíciles de entender. Sin embargo, el equipo dice que aproximadamente las tres cuartas partes de las personas encuestadas pudieron comprender la salida del codificador de voz. Para crear mejores redes neuronales, necesita más datos. Recopilar datos personalizados de ondas cerebrales de todos los que utilizan electrocorticografía invasiva no es exactamente práctico. Un día, podríamos encontrar algo en común que haga que la traducción de ondas cerebrales sea universal, como el reconocimiento de voz. Pero por ahora, este es un primer paso impresionante, aunque poco práctico.