¿Quién grabará los podcasts en 2040: humanos o computadoras?

La próxima vez que veas una película, escuches un podcast o un audiolibro, fíjate bien en quién te habla. Puede que sea un robot. De unos años a esta parte las computadoras han empezado a hablar y su labia ya es notable. Comenzaron respondiendo a nuestras preguntas tímidamente. Alexa, Siri y un batallón de asistentes virtuales cambiaron la forma que teníamos de comunicarnos con las máquinas, haciéndola más natural y fluida.

Pero sus voces eran monocordes y átonas, y era difícil mantener la atención del oyente en un discurso largo. Desde entonces, las voces sintéticas se han perfeccionado hasta llegar al punto en que hoy es posible clonar la voz de cualquier humano de forma que sea indistinguible de la original.

Accede a las historias más relevantes de negocios, bienestar y tecnología. Entérate de nuestros rankings y eventos exclusivos. Suscríbete y recibe en tu correo el mejor contenido de Mercado.

Acepto recibir los contenidos

El caso de la serie ‘The Mandalorian’

Sucedió hace un par de años con la serie ‘The Mandalorian’. Cuando apareció Luke Skywalker en pantalla, muchos se dieron cuenta de que el joven actor Mark Hamill había sido recreado por computadora. Pero pocos notaron que su voz también era sintética. La empresa ucraniana Respeecher se había encargado de reproducirla usando viejas grabaciones. Una persona leyó las frases del guion y el algoritmo cambió su entonación para que la voz sonara como la de Hamill.

Para Respeecher aquello fue un hito, pero no se durmieron en los laureles y siguieron perfeccionando su software. Ahora es capaz de usar la voz de un actor para que entone un discurso en otro idioma. La idea era demostrarlo en alguna película que fuera doblada de forma automática, usando la voz original de los propios actores. Pero no fue posible. Las bombas empezaron a caer.

Las calles de Kiev, sede de Respeecher, se llenaron de tanques y barricadas y los planes se truncaron. Ellos decidieron quedarse en Ucrania y seguir trabajando. Y demostraron el potencial de su tecnología traduciendo al ucraniano los mensajes de apoyo que les mandan famosos internacionales.

«Si le hablas a un hombre en un idioma que entiende, el mensaje le llega a la cabeza. Si le hablas en su propio idioma, le llega al corazón». La frase es de Nelson Mandela, pero la repite Alex Serdiuk, director de Respeecher. Y parece cobrar un nuevo sentido. «Rusia quiere destruir nuestro idioma por ser parte de nuestra historia», asegura. «Por eso estos mensajes han tenido especial eco en la sociedad».

Las voces de personas que ya no están

Es un ejemplo del potencial de esta tecnología, pero quizá no el más habitual. También sirve para:

Traer a la vida las voces de quienes ya no están, como sucedió en el concierto tributo al DJ Avicii.
Doblar películas con las voces de los actores originales.
Rejuvenecer o envejecer una voz,
Cambiar una voz de género.

Todo esto tiene aplicaciones en el mundo del ocio, los servicios o incluso en la sanidad. «Acabamos de crear un departamento de salud que trabaja para que personas que han perdido el habla puedan expresarse con su antigua voz gracias a la clonación», señala Serdiuk.

El cambio de método, clave

Mireia Farrús Cabeceran, profesora de Lingüística Computacional en la Universidad de Barcelona, explica que el salto cualitativo en esta tecnología se debe a cómo ha cambiado la forma de producir las voces. «Uno de los métodos más utilizados hasta ahora era la concatenación: se juntaban segmentos de voces pregrabadas y se unían para lograr el mensaje que interesara», explica. Era como un puzle de sonidos.

Pero en los últimos años el método ha cambiado. «Ahora se basa en el uso de redes neuronales, algoritmos matemáticos que tratan de imitar cómo se conectan las neuronas en nuestro cerebro«. Con este método, mucho más sofisticado y complejo, las voces pueden imitar las inflexiones, tonos y sentimientos de una persona real. Y esto abre un nuevo abanico de posibilidades.

Imagina que tu jefe, en lugar de enviarte informes, memorandos y balances, te pasara un audio. Que pudiera ponerse al día mientras da un paseo, hace deporte o limpia su casa. No es ciencia ficción, es lo que hacen muchas empresas que acuden a Voikers. Esta compañía crea podcasts, audiolibros y otros contenidos de audio para marcas sirviéndose de voces reales y sintéticas. «Estas últimas han avanzado muchísimo», señala su director, Roberto Carreras.

«En inglés es prácticamente imposible distinguir una voz sintética de una original. En español aún no, pero llegaremos, porque la cosa está avanzando a un ritmo exponencial», afirma. Ayudará, y mucho, el Proyecto Estratégico para la Recuperación y Transformación Económica de US$1.1 mil millones. El dinero se destinará a la nueva economía de la lengua, para conseguir una inteligencia artificial que piense en español. “Creo que dentro de cinco años, el audio estará mucho más presente en toda nuestra vida», sentencia Carreras.

Un negocio en pleno despunte

No es el único que lo ve así. Según un análisis de McKinsey & Company, una consultora de gestión, el mercado de las voces artificiales alcanzará más de US$1,000 millones en los próximos cinco años.

Los podcasts y los audiolibros son las industrias donde más impactará esta tecnología. Y no son dos mercados menores. Según Statista, la audiencia global del podcast supera los 621 millones de oyentes al año. En 2021 movió más de US$14 mil millones y se espera que para 2028 supere los US$94 mil millones.

Por su parte, el mercado editorial ha encontrado en el audio un empuje en sus balances. «El audiolibro está siendo la mayor revolución desde la aparición del libro de bolsillo», asegura Raúl Pérez, director del Área Editorial de Planeta. «Lleva creciendo, de forma constante, desde hace cinco años”, reconoce. Y todos los indicadores sugieren que seguirá haciéndolo.

Los ingresos totales de las editoriales de libros de EE.UU. disminuyeron ligeramente entre 2015 y 2020 y los de los libros electrónicos se redujeron, pero los de los audiolibros aumentaron un 157%, según datos de la Asociación de Editores Estadounidenses. Estas cifras podrían dispararse cuando la tecnología permita convertir en audio cualquier libro.

La evolución del sector y de la tecnología relacionada es imparable. Por ello, la pregunta está en el aire: ¿quién será la voz de un podcast en el año 2040?

Artículo publicado en la edición julio-agosto de la revista Technology

Suscríbete a la revista y regístrate a nuestros newsletters para recibir el mejor contenido en tu buzón de entrada.

Te podría interesar

Del experimento a la práctica: inversión en IA generativa ya es fundamental

Del experimento a la práctica: inversión en IA generativa ya es fundamental

TikTok vs. Xiaohongshu: El impacto económico y social del posible cierre en Estados Unidos

¿Cuáles son las tendencias para 2025 en la medicina digital?