Robots que entienden tu voz

El Dr. Irvin Dongo, director del CIIET-UCSP, expone los avances en inteligencia artificial para mejorar la seguridad y la comunicación entre humanos y robots.

En la actualidad, los robots sociales juegan un papel importante en la mejora de la calidad de vida de las personas en diversas áreas, como la medicina y la educación. Diseñados para interactuar y comunicarse con seres humanos, estos robots han demostrado ser eficaces en tareas como el acompañamiento de personas mayores, la enseñanza a niños o la orientación en museos.

De hecho, en cierto modo, todos llevamos en el bolsillo una especie de “robot social”, gracias a las aplicaciones de asistencia por voz que usamos cotidianamente. Pero, ¿cómo funciona la tecnología que hace posible todo esto?

La Interacción Humano-Robot (HRI, por sus siglas en inglés) ha emergido como una línea de investigación centrada en desarrollar nuevas estrategias para mejorar y enriquecer el comportamiento de los robots. Uno de los elementos clave para lograr una interacción más natural es el reconocimiento de emociones. Si los robots pueden interpretar cómo se siente una persona —a partir de su rostro o su voz—, podrán responder de forma más adecuada. No obstante, trasladar este tipo de capacidades del laboratorio a entornos reales, complejos y ruidosos, sigue siendo un gran desafío.

El reto del ruido y la mezcla de voces

Fotografía del Director del Centro de Investigación e Innovación en Electrónica y Telecomunicaciones de la UCSP, Dr. Irvin Dongo Escalante.

Uno de los principales obstáculos en estos sistemas es la disminución de la precisión en escenarios no controlados. Ambientes con ruido de fondo o con múltiples interlocutores dificultan una detección emocional precisa. Para abordar este problema, los investigadores han desarrollado técnicas de separación de fuentes de voz, es decir, métodos que permiten distinguir diferentes voces dentro de una misma grabación.

Estas técnicas se clasifican en dos tipos: multicanal y monocanal. La separación multicanal utiliza varios micrófonos —como ocurre en las salas de conferencias—, mientras que la monocanal, más común en dispositivos de uso cotidiano, busca aislar voces usando una sola fuente de audio.

Inicialmente, la separación de voces se basaba en modelos estadísticos, que no eran adecuados para aplicaciones en tiempo real. Hoy, gracias al avance de los algoritmos de inteligencia artificial, especialmente los basados en aprendizaje profundo (deep learning), estas limitaciones están siendo superadas. Las redes neuronales pueden entrenarse con grandes volúmenes de datos y adaptarse a distintos tipos de voces y entornos, logrando una precisión significativamente mayor.

De los modelos estadísticos al aprendizaje profundo

Los enfoques más recientes operan en dos dominios: tiempo-frecuencia y temporal. En el primero, la señal se transforma en una representación compleja que permite diferenciar voces según sus frecuencias. Sin embargo, este enfoque puede provocar demoras en sistemas que requieren respuestas inmediatas.

En cambio, los métodos de aprendizaje profundo aplicados al dominio temporal funcionan en tres etapas: convierten el audio en datos, separan las voces y luego las reconstruyen de manera clara y comprensible. Los algoritmos más utilizados en este proceso son las Redes Neuronales Recurrentes (RNN), las Redes Neuronales Convolucionales (CNN) y los modelos Transformer.

El avance constante de la inteligencia artificial permite desarrollar soluciones cada vez más eficaces para la separación de fuentes de voz, lo que mejora la capacidad de percepción y respuesta de los robots. Esto representa un paso clave hacia interacciones más naturales, empáticas y efectivas entre humanos y máquinas. En definitiva, separar correctamente las voces no es solo un desafío técnico, sino un elemento esencial para que los robots comprendan mejor a las personas y se adapten a sus necesidades.

También te puede interesar: Incendian vehículos Tesla como acto político