NVIDIA Comparte la Investigación de Síntesis de Voz Expresiva en Interspeech

septiembre 1, 2021 Desactivado Por Redacción

NVIDIA permite a los desarrolladores y creadores de IA conversacional con modelos de vanguardia para la síntesis de voz expresiva que pueden expresar personajes, asistentes virtuales y avatares personalizados.

La IA ha transformado el habla sintetizada del tono monótono de las llamadas automáticas y los primeros sistemas de navegación GPS al tono profesional y fresco de los asistentes virtuales en los smartphones y los altavoces. Pero todavía existe una brecha entre el habla sintetizada por IA y el habla humana que escuchamos en la conversación diaria y en los medios de comunicación.

La gente habla con un ritmo, entonación y timbre complejos que es un desafío para la IA emular. Para ayudar a los desarrolladores y creadores, los investigadores de NVIDIA están creando modelos y herramientas para una síntesis de voz controlable y de alta calidad que captura la riqueza del habla humana; sin artefactos de audio.

Estos modelos pueden ayudar a las líneas de servicio al cliente automatizadas por voz para bancos y minoristas; dar vida a personajes de videogames o libros y proporcionar síntesis de voz en tiempo real para avatares digitales. El equipo creativo interno de NVIDIA utiliza la tecnología para producir una narración emotiva para una serie de videos sobre el poder de la IA.

La síntesis de voz expresiva es solo un elemento del trabajo del Area de Investigación de NVIDIA en IA conversacional, un campo que también abarca el procesamiento del lenguaje natural, el reconocimiento automático de voz, la detección de palabras clave, la mejora de audio y más. Optimizadas para ejecutarse de manera eficiente en las GPUs NVIDIA; las herramientas de inteligencia artificial conversacionales de última generación de NVIDIA se lanzan en el kit de herramientas de código abierto NVIDIA NeMo.

Algunos de los últimos proyectos de síntesis de voz y reconocimiento de voz de NVIDIA Research se exhibirán en la conferencia INTERSPEECH 2021, que se extenderá hasta el 3 de septiembre.

Detrás de las Escenas de: I AM AI

Los investigadores y profesionales creativos de NVIDIA no se limitan a hablar sobre la IA conversacional; sino que hacen lo propio y ponen en práctica modelos innovadores de síntesis de voz en nuestra serie de vídeos I AM AI.

Estos videos destacan las vastas aplicaciones de la IA en todas las industrias, pero hasta hace poco, fueron siempre narrados por un ser humano. Los modelos de síntesis de voz existentes ofrecían un control limitado sobre el ritmo y el tono de una voz sintetizada; por lo que los intentos de narración de IA no evocaban la respuesta emocional en los espectadores que un locutor humano talentoso podía lograr.

Interfaz RAD-TTS

Eso cambió el año pasado, cuando nuestro equipo de investigación de texto a voz desarrolló modelos de síntesis de voz más potentes y controlables como RAD-TTS; que se utiliza en la demostración ganadora de NVIDIA en la competencia SIGGRAPH Real-Time Live. Al alimentar el modelo de texto a voz entre 5 y 30 minutos de audio de entrenamiento del habla de un individuo; la IA puede convertir cualquier mensaje de texto en la voz del hablante.

Otra de sus funciones es la conversión de voz, en la que las palabras de un hablante se transmiten con la voz de otro hablante. Inspirada en la idea de la voz humana como instrumento musical; la interfaz RAD-TTS brinda a los usuarios un control detallado a nivel de cuadro sobre el tono, la duración y la energía de la voz sintetizada.

Con esta interfaz, nuestro productor de video podría grabarse a sí mismo leyendo el guión del video y luego usar el modelo de IA para convertir su discurso en la voz de la narradora. Usando esta narración de línea de base, el productor podría dirigir la IA como un actor de voz; ajustando el discurso sintetizado para enfatizar palabras específicas y modificando el ritmo de la narración para expresar mejor el tono del video.

Las capacidades del modelo de inteligencia artificial van más allá del trabajo de voz en off; la conversión de texto a voz se puede utilizar en games; para ayudar a las personas con discapacidades vocales o incluso para ayudar a los usuarios a traducir entre idiomas con su propia voz. Incluso puede recrear las actuaciones de cantantes icónicos, haciendo coincidir no solo la melodía de una canción; sino también la expresión emocional detrás de las voces.

Para conocer más noticias sobre tecnología, negocios, política u otros temas de tu interés, visita este enlace