OpenAI ha revelado sus últimos avances en el terreno de la generación de voces sintéticas. La compañía ha compartido un comunicado donde explica cómo su sistema Voice Engine, mostrado por primera vez a finales de 2022, ahora es capaz de clonar cualquier voz con exactitud a partir de una muestra de audio de solo 15 segundos de duración.
Las demostraciones compartidas por la compañía son simplemente espectaculares. Voice Engine es capaz de generar voces ultra realistas partiendo de muestras breves, abriendo así la puerta a diferentes usos como asistencia a la lectura, traducción de contenido o ayuda a personas con problemas en el habla.
La IA de OpenAI solo necesita 15 segundos de audio para clonar una voz
Su funcionamiento es (aparentemente) simple: el usuario solo tendría que proporcionar una grabación de voz de 15 segundos de duración y un texto. La IA será capaz de "clonar" la voz y narrar el contenido del texto de manera "realista y emotiva".
A continuación, se pueden escuchar algunas de las muestras compartidas por OpenAI de audios generados por Voice Engine, así como el audio de referencia usado por la IA para "clonar" la voz.
OpenAI valorará el posible impacto de esta tecnología antes de ofrecerla al público
Por ello, de momento no se encuentra disponible de cara al público, y la compañía no ha revelado si planea lanzar esta herramienta como un servicio accesible a todo el mundo al estilo de ChatGPT. Aseguran que estas pruebas a pequeña escala servirán para tomar una decisión sobre si implementar esta tecnología en sus servicios.
Comentarios