• diciembre 12, 2024

Nvidia quiere que sepas que tus caprichos más extraños en cuanto a audio ahora son posibles. El último proyecto de inteligencia artificial de la compañía, junto con sus NPCs de IA y su chatbot para videojuegos, es una IA de texto a audio llamada Fugatto. Al igual que otros modelos, esta IA puede crear pistas a partir de una simple descripción, pero también es capaz de generar “sonidos nunca antes escuchados”, como un “aullido de saxofón”, lo que sea que eso signifique.

En un artículo de su blog, Nvidia afirmó que su modelo de IA, descrito como una “navaja suiza del sonido”, puede modificar sonidos existentes o crear paisajes sonoros desde cero. Fugatto es en realidad un acrónimo del larguísimo “Transformador Generativo de Audio Fundamental Opus 1” (Foundational Generative Audio Transformer Opus 1). Este modelo puede procesar voces, música y ruido de fondo, combinándolos en una sola pista de audio. Además, también puede modificar fuentes de sonido ya existentes.

Es un poco exagerado afirmar que algo es “un sonido nunca antes escuchado”, especialmente si proviene de una IA. Cualquiera que sea el resultado, el audio generado por IA es simplemente un algoritmo que utiliza fuentes ya existentes en sus datos de entrenamiento para aproximarse a lo solicitado. Nvidia asegura que su modelo es único, ya que puede combinar instrucciones que fueron separadas durante su entrenamiento y “crear paisajes sonoros que nunca antes había visto”. Por ejemplo, en un video, Nvidia mostró cómo puede generar el sonido de un tren que se transforma en una partitura orquestal o el sonido de una tormenta que se desvanece en la distancia.

Estas son capacidades que no habíamos visto antes. Más allá de una demostración con “música electrónica acompañada por ladridos de perros al ritmo de la música”, Nvidia asegura que su herramienta ofrece un “control detallado” sobre los paisajes sonoros creados. Nvidia también afirmó que el narrador del video era una versión generada por IA de su CEO, Jensen Huang, aunque si Fugatto fue el responsable de esa voz claramente artificial, el modelo necesita mejoras antes de ser usado en proyectos de deepfake.

Existen muchas herramientas de audio por IA que ya convierten descripciones de texto en pistas de audio. Adobe, por ejemplo, promociona su proyecto MusicGenAI Control para músicos poco éticos. Compañías tecnológicas como Meta también han impulsado sus modelos de audio en la industria cinematográfica. El mes pasado, Meta presentó Movie Gen, capaz de generar paisajes sonoros para películas creadas con IA.

Nvidia cita a la investigadora de IA Rohana Badlani, quien afirmó que el modelo “me hizo sentir un poco como una artista”, aunque, claro, la IA se basa en miles de gigabytes de música y datos de audio preexistentes. Nvidia no compartió detalles exactos sobre su conjunto de datos, solo mencionó que incluye “millones de muestras de audio utilizadas para el entrenamiento”. La versión completa de Fugatto es un modelo de 2.500 millones de parámetros entrenado en las reconocidas GPU H100 de Nvidia.

Esto podría ser una mala noticia para los artistas de foley, quienes han convertido la creación de efectos de sonido en una forma de arte. Nvidia señala que Fugatto podría ser una herramienta útil para agencias de publicidad, desarrolladores de videojuegos o músicos que quieran hacer cambios a su trabajo sin demasiado esfuerzo adicional. Sin embargo, la otra cara de la moneda es el riesgo de que más personas lo usen para crear “nuevos activos”, lo que podría aumentar la cantidad de contenido mediocre generado por IA.

Fugatto tiene potencial más allá de reemplazar a los ingenieros de audio en la producción de películas. Nvidia afirma que puede eliminar o agregar instrumentos a música existente, así como aislar y modificar ruidos específicos de fuentes ya grabadas. Quizá puedas salir del paso generando ritmos básicos para acompañar un sintetizador, pero una banda sonora completamente generada por IA no es lo que la mayoría de la gente espera cuando compra una entrada al cine.

Vía | Nuevas fronteras del audio: IA de Nvidia crea sonidos nunca escuchados – Tecnología con Juancho