Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar. 

Image description
Image description

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

Tu opinión enriquece este artículo:

El que sale a la hora 16 (y a otras horas, también): cómo opera y qué recorridos realiza el Tren de las Sierras (el tramo más caro a $ 160)

(Por Rocío Vexenat) Citando al gran Pappo Napolitano en su famosa canción "el Tren de las 16" (y tarareada por el mismísimo Pepe Argento en un capítulo de Casados con Hijos), el Tren de las Sierras es un servicio turístico que recorre todo el Valle de Punilla en la provincia de Córdoba. ¿Solo sale a las 16? No, tiene varias frecuencias, recorridos y horarios, y su particularidad es el tan bajo costo que tienen los pasajes a sus respectivos destinos. En la nota te cuento un poco más.

Casa FOA, la vidriera de Proaco para acercar marcas a Pocito Mall (el shopping abriría sus puertas a fin de año)

(Por Soledad Huespe) Mañana abre sus puertas al público Casa FOA, la segunda edición federal de la muestra de diseño y arquitectura más importante del país. La sede elegida es Pocito Social Life, el mega emprendimiento de Grupo Proaco. La apuesta de la desarrollista es grande: esperan que sea el empujón para que Pocito Mall (el shopping que se emplazará en el primer y segundo piso de la torre que asoma sobre Vélez Sarsfield) abra sus puertas en diciembre de 2024. Mano a mano con Lucas Salim, en el primer estudio de streaming montado en una muestra de FOA.

¿Disney o fiesta de 15?: con un dólar estable cuánto sale hoy el viaje mágico y soñado (mano a mano con Juan Toselli)

(Por Diana Lorenzatti) El dólar hizo la “plancha” y las quinceañeras la hacen en Cocoa Beach, una de las paradas incluidas en el viaje a Disney que ofrece la operadora cordobesa Toselli. En esta coyuntura, cómo repuntó este viaje soñado -a pesar de la crisis económica- y cuánto sale hoy. Lo comparamos con el que hacen a Europa, en este mano a mano con Juan Toselli.

A los "pituquitos de Recoleta" (y a los "carrasquitos") les conviene vender y mudarse a Córdoba (a cuánto el m2 en las principales ciudades)

Los habitantes de los barrios más “pituquitos” de Buenos Aires, enfrentan un panorama inmobiliario que podría invitarlos a considerar nuevas opciones residenciales. ¿Por qué? Simple. Según el último relevamiento de ZonaProp y la Universidad Di Tella, los precios de los inmuebles ahí suben un 3% en dólares, mientras que caen un 33% en pesos ajustados por inflación, destacando la volatilidad y la compleja economía argentina. Buenos Aires se posiciona como la sexta ciudad más cara de América Latina en términos de precio por metro cuadrado. La primera es Montevideo. ¿Y si se mudan a Córdoba?

 

Nala Masa Madre, el emprendimiento “de la Villa” de panes y pastelería artesanal (agroecológica y natural)

Victoria Vera es la creadora de este proyecto que tiene más de 10 años de trabajo, esfuerzo y aprendizaje. ¿Qué elabora? Todo tipo de panes, panificados y hasta avena con masa madre, este fermento que fue tendencia en la pandemia (pero que tiene muchos años de uso), y que tiene muchos beneficios a la hora de consumirlo por todas sus buenas propiedades. ¿Conocemos un poco más? Seguí leyendo la nota.

Pampita es “nuevocentrista”: pasó por Nuevocentro Shopping y reveló qué tiene que tener una marca (para trabajar con ella)

La reconocida modelo y conductora argentina Carolina "Pampita" Ardohain compartió una tarde con más de 70 mujeres en Nuevocentro Shopping para hablar sobre su vida personal y profesional. Fue invitada en el marco de la nueva campaña del shopping: “Nuevocentristas”. InfoNegocios estuvo presente y aprovechamos la oportunidad para preguntarle acerca de su marca personal, su sostenibilidad en el tiempo y el impacto en el mundo de los negocios.

Los remedios están cada vez más caros: en dos años la T4 aumentó un 837% (mucho más que la inflación)

(Por SH) Un viral de TikTok prendió la alarma: el especialista en comunicación política Jaime Durán Barba revela que en Ecuador gasta 310 dólares mensuales en pastillas, en México compra lo mismo por 200 dólares y en Argentina paga… ¡casi cuatro veces más que en México! Sus remedios le cuestan el equivalente a 780 dólares (con los descuentos de la obra social). En los últimos años, la industria farmacéutica no encuentra techo. A modo de ejemplo tomamos la levotiroxina, una droga para tratar los problemas de tiroides: ¿cuánto costaba la T4 en 2022 y cuánto ahora?