He probado a transcribir una entrevista con Transcripción instantánea de Google y ha sido un desastre, pero no todo está perdido
Los periodistas llevamos años soñando con una solución que nos ayude a transcribir entrevistas. Aún recuerdo las casi 15 páginas transcritas a mano (a oreja, más bien) después de una charla de hora y media con cierto ejecutivo de telecomunicaciones español. Siempre tienes la opción de saltarte cosas o transcribir solo las partes más interesantes, pero, incluso así, es un proceso tedioso y no siempre fácil (por el ruido ambiente, por ejemplo).
Como Google acaba de presentar su aplicación Transcripción instantánea no hemos dudado ni un momento. La he puesto a prueba con una de las entrevistas que pronto publicaremos en Xataka y con otro tipo de situaciones. Allá vamos.
No es una aplicación hecha para transcribir entrevistas
Lo primero que hay que enfatizar es que esta aplicación no está hecha para transcribir entrevistas, si no para ayudar a personas con dificultades auditivas. Se engloba dentro de las herramientas de accesibilidad de Google y, por tanto, hace más cosas además de intentar transformar en texto un mensaje de voz.
Por ejemplo, es capaz de detectar e identificar diferentes sonidos: chasquidos de dedos, palmadas (aplausos), cuando llaman a la puerta, agua cayendo, e incluso puede distinguir en una canción cuando suena un piano, una guitarra o de qué estilo musical se trata.
Para facilitarle la comunicación a las personas con problemas auditivos, también da la opción de contestar a nuestro interlocutor con un texto a través de la propia aplicación. Escribes tu respuesta y se la enseñas desde la pantalla de tu móvil a la otra persona.
Es compatible con 70 idiomas, incluyendo español, catalán, esukera o galego, y puedes establecer un idioma principal y uno secundario que puedes intercambiar fácilmente en tiempo real pulsando en la barra inferior.
Aclarado esto, vamos con nuestras pruebas para transcribir entrevistas.
Primera prueba: una entrevista con ruido de fondo
Empezamos con una entrevista en español hecha en medio de un evento en el que se escucha bullicio de fondo. Para mí no hay ningún tipo de dificultad para entender lo que la entrevistada me dijo, pero a Transcripción instantánea se le atasca por completo.
La interfaz de la aplicación tiene un indicador arriba a la derecha en color azul. Es un círculo para medir la claridad o nitidez del audio que, a su vez, se divide en dos círculos más. El de color azul intenso refleja el ruido y el de color azul más claro representa el volumen actual de la señal de audio que está percibiendo. Básicamente, si la voz de la persona que te está hablando supera en volumen al ruido de fondo, la aplicación no debería tener problemas para transcribir.
¿Qué sucede con la grabación de mi entrevista «bulliciosa»? Que el ruido de fondo que detecta la aplicación es demasiado y sólo es capaz de captar palabras sueltas de mi entrevistada.
He probado a reproducir la grabación desde el propio teléfono y también en el ordenador con más volumen, pero el resultado es igual de frustrante, así que abro Cubase y limpio las frecuencias en las que resuena más el ruido y le aplico un filtro atenuante. He conseguido que a mis oídos de humano se entienda mucho mejor a la entrevistada porque no hay una distracción constante de fondo. Sin embargo, la aplicación no mejora y sigue considerando que hay mucho ruido. Mi gozo en un pozo.
Segunda prueba: una entrevista con el mismo ruido de fondo pero en inglés
Justo el mismo día de la entrevista que acabo de intentar de transcribir sin éxito hice otra. Esta vez el entrevistado era estadounidense y, por tanto, conversamos en inglés. Fue exactamente en la misma sala y con el mismo bullicio de fondo. Sin embargo, Transcripción instantánea logra hacer su trabajo casi sin problemas.
Capta la mayoría de las cosas que me decía y aquí parto con la ventaja de poder comprobarlo en tiempo real porque ya la tenía transcrita, así que era fácil ver dónde acertaba y dónde no. El porcentaje de acierto es bastante alto, con tan solo algunas expresiones y conectores que no transcribe bien, pero el mensaje y sentido principal de la entrevista se mantienen intactos.
Que la aplicación haya sido desarrollada junto a una universidad estadounidense implica que, a día de hoy, funciona mejor transcribiendo voces en inglés
Esto puede ser debido a que la aplicación de Google ha sido desarrollada en Estados Unidos junto a la Gallaudet University, especializada en educación para personas sordas y con discapacidad auditiva, y que desarrolla su actividad principal en inglés. Posiblemente la tecnología de reconocimiento automático de voz haya recibido más entrenamiento en inglés que en español, de ahí que ante el mismo ruido de fondo trabaje mejor con una voz hablando en inglés.
Puede haber otras variables, como el tono o timbre del entrevistado, que funcione mejor o peor con voces agudas o graves, pero para eso habría que hacer muchas más pruebas, más rigurosas y exhaustivas.
¿Y con música, series o la radio?
Si a nosotros se nos ha ocurrido que un posible uso para esta aplicación es transcribir entrevistas, ¿por qué no para transcribir letras de canciones, diálogos de series o películas o programas de radio? Como la propia app permite guardar en tu dispositivo las transcripciones por tres días y permite copiar y pegar el texto, hay un potencial ahí para gente que trabaja subtitulando contenidos, por ejemplo.
Hemos probado con varias canciones, de diferentes estilos, épocas y tanto en español como en inglés, y hay un patrón común: identifica que es música, incluso detecta si es música clásica, new age o jazz, pero no transcribe la letra. Desconocemos si por incapacidad (al detectar diferentes sonidos es posible que sea demasiado como para que pueda aislar solo la voz y transcribirla) o porque no es el uso principal de la aplicación (recordamos, está hecha para ayudar en la vida cotidiana a personas con dificultades auditivas).
Cuando recurres a un programa de televisión, una serie o un vídeo en YouTube la cosa cambia mucho. Salvo que haya una música de fondo muy marcada o que la persona hable muy rápido o con mala dicción, el resultado es bastante aceptable. Siempre se le escapan cosas a la hora de transcribir, pero para captar el sentido de lo que se dice es más que suficiente.
Por último, hemos hecho un combo: una entrevista que hicimos en español para nuestro canal de YouTube y podcast hablando sobre Netflix y su modelo de producción de contenidos, que grabamos con micros profesionales y en las mejores condiciones.
Aquí Transcripción instantánea hace un buen trabajo, incluso es capaz de seguirle el ritmo a nuestra experta, que habla muy rápido. Se deja por el camino algunas palabras, pero, desde luego, si tuviera que transcribir ahora esta entrevista tendría mucho trabajo adelantado.
No todo está perdido.