Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que aumenta el tamaño de los modelos preentrenados de reconocimiento de voz, ejecutar estos modelos grandes en entornos de baja latencia o con recursos limitados se vuelve un desafío. En este trabajo, aprovechamos el etiquetado pseudo-supervisado para ensamblar un conjunto de datos de gran escala de código abierto, el cual utilizamos para destilar el modelo Whisper en una variante más pequeña, llamada Distil-Whisper. Utilizando una heurística simple basada en la tasa de error de palabras (WER), seleccionamos solo las pseudo-etiquetas de mayor calidad para el entrenamiento. El modelo destilado es 5.8 veces más rápido y tiene un 51% menos de parámetros, mientras que su rendimiento se mantiene dentro de un 1% de WER en datos de prueba fuera de distribución en un escenario de transferencia zero-shot. Distil-Whisper conserva la robustez del modelo Whisper frente a condiciones acústicas difíciles, al mismo tiempo que es menos propenso a errores de alucinación en audios de larga duración. Distil-Whisper está diseñado para ser utilizado junto con Whisper en un esquema de decodificación especulativa, logrando una aceleración de 2 veces mientras se garantiza matemáticamente que las salidas sean idénticas a las del modelo original. Para facilitar futuras investigaciones en este ámbito, hemos hecho públicos nuestro código de entrenamiento, código de inferencia y modelos.
LLaVA-Interactive es un prototipo de investigación para la interacción multimodal entre humanos e IA. El sistema puede mantener diálogos de múltiples turnos con usuarios humanos al recibir entradas multimodales y generar respuestas multimodales. Es importante destacar que LLaVA-Interactive va más allá de los comandos de lenguaje, ya que habilita el uso de comandos visuales para alinear las intenciones humanas durante la interacción. El desarrollo de LLaVA-Interactive es extremadamente eficiente en costos, ya que el sistema combina tres habilidades multimodales de modelos de IA preexistentes sin necesidad de entrenamiento adicional: el chat visual de LLaVA, la segmentación de imágenes de SEEM, así como la generación y edición de imágenes de GLIGEN. Se presenta un conjunto diverso de escenarios de aplicación para demostrar las promesas de LLaVA-Interactive e inspirar futuras investigaciones en sistemas interactivos multimodales.
Demostramos cómo la generación condicional a partir de modelos de difusión puede utilizarse para abordar una variedad de tareas realistas en la producción de música en audio estéreo a 44.1 kHz con guía en el tiempo de muestreo. Los escenarios que consideramos incluyen la continuación, la restauración y la regeneración de audio musical, la creación de transiciones suaves entre dos pistas musicales diferentes, y la transferencia de características estilísticas deseadas a clips de audio existentes. Logramos esto aplicando guía en el tiempo de muestreo dentro de un marco simple que admite tanto pérdidas de reconstrucción como de clasificación, o cualquier combinación de ambas. Este enfoque garantiza que el audio generado pueda coincidir con su contexto circundante o ajustarse a una distribución de clases o representación latente especificada en relación con cualquier clasificador o modelo de embeddings preentrenado adecuado.
Demostramos que el texto es una interfaz multimodal robusta. En lugar de depender de incrustaciones profundas para conectar imágenes y lenguaje como representación de la interfaz, nuestro enfoque representa una imagen como texto, del cual aprovechamos la interpretabilidad y flexibilidad inherentes al lenguaje natural. Empleamos un autoencoder que utiliza un modelo de difusión texto-a-imagen preentrenado para la decodificación. El codificador se entrena para transformar una imagen de entrada en texto, el cual luego se introduce en el decodificador fijo de difusión texto-a-imagen para reconstruir la entrada original — un proceso que denominamos De-Difusión. Los experimentos validan tanto la precisión como la exhaustividad del texto generado por De-Difusión para representar imágenes, de modo que puede ser fácilmente procesado por herramientas texto-a-imagen estándar y modelos de lenguaje grandes (LLMs) para diversas tareas multimodales. Por ejemplo, un único modelo De-Difusión puede generalizarse para proporcionar indicaciones transferibles a diferentes herramientas texto-a-imagen, y también alcanza un nuevo estado del arte en tareas abiertas de visión y lenguaje simplemente utilizando ejemplos de pocos disparos con modelos de lenguaje grandes.
La reciente ola de inteligencia artificial generativa ha despertado una atención global sin precedentes, con tanto entusiasmo como preocupación por los niveles potencialmente sobrehumanos de inteligencia artificial: los modelos ahora tardan solo segundos en producir resultados que desafiarían o superarían las capacidades incluso de humanos expertos. Al mismo tiempo, los modelos aún cometen errores básicos de comprensión que no se esperarían ni en humanos no expertos. Esto nos presenta una aparente paradoja: ¿cómo reconciliamos capacidades aparentemente sobrehumanas con la persistencia de errores que pocos humanos cometerían? En este trabajo, postulamos que esta tensión refleja una divergencia en la configuración de la inteligencia en los modelos generativos actuales en comparación con la inteligencia humana. Específicamente, proponemos y probamos la hipótesis de la Paradoja de la IA Generativa: los modelos generativos, habiendo sido entrenados directamente para reproducir resultados similares a los de expertos, adquieren capacidades generativas que no dependen —y por lo tanto pueden superar— su capacidad para comprender esos mismos tipos de resultados. Esto contrasta con los humanos, para quienes la comprensión básica casi siempre precede a la capacidad de generar resultados de nivel experto. Probamos esta hipótesis mediante experimentos controlados que analizan la generación versus la comprensión en modelos generativos, tanto en modalidades de lenguaje como de imágenes. Nuestros resultados muestran que, aunque los modelos pueden superar a los humanos en generación, consistentemente se quedan cortos en las medidas de comprensión, así como una correlación más débil entre el rendimiento de generación y comprensión, y una mayor fragilidad frente a entradas adversarias. Nuestros hallazgos respaldan la hipótesis de que la capacidad generativa de los modelos puede no depender de su capacidad de comprensión, y llaman a la precaución al interpretar la inteligencia artificial por analogía con la inteligencia humana.
Los modelos de lenguaje basados en píxeles procesan texto renderizado como imágenes, lo que les permite manejar cualquier escritura, convirtiéndolos en un enfoque prometedor para el modelado de lenguaje de vocabulario abierto. Sin embargo, los enfoques recientes utilizan renderizadores de texto que producen un gran conjunto de parches de entrada casi equivalentes, lo que puede resultar subóptimo para tareas posteriores debido a la redundancia en las representaciones de entrada. En este artículo, investigamos cuatro enfoques para renderizar texto en el modelo PIXEL (Rust et al., 2023), y encontramos que el renderizado simple de bigramas de caracteres mejora el rendimiento en tareas a nivel de oración sin comprometer el rendimiento en tareas a nivel de token o multilingües. Esta nueva estrategia de renderizado también hace posible entrenar un modelo más compacto con solo 22M de parámetros que rinde a la par con el modelo original de 86M de parámetros. Nuestros análisis muestran que el renderizado de bigramas de caracteres conduce a un modelo consistentemente mejor, pero con un espacio de incrustación de parches anisotrópico, impulsado por un sesgo en la frecuencia de los parches, destacando las conexiones entre los modelos de lenguaje basados en parches de imagen y los basados en tokenización.
Los grandes modelos de lenguaje han demostrado un buen rendimiento en la generación de código para cumplir con los requisitos humanos. Sin embargo, los requisitos humanos expresados en lenguajes naturales pueden ser vagos, incompletos y ambiguos, lo que lleva a los grandes modelos de lenguaje a malinterpretar los requisitos humanos y cometer errores. Peor aún, es difícil para un usuario humano refinar el requisito. Para ayudar a los usuarios humanos a refinar sus requisitos y mejorar el rendimiento de los grandes modelos de lenguaje en la generación de código, proponemos ChatCoder: un método para refinar los requisitos mediante el chat con grandes modelos de lenguaje. Diseñamos un esquema de chat en el que los grandes modelos de lenguaje guiarán a los usuarios humanos para refinar su expresión de requisitos, haciéndolos más precisos, inequívocos y completos que antes. Los experimentos muestran que ChatCoder ha mejorado significativamente el rendimiento de los grandes modelos de lenguaje existentes. Además, ChatCoder tiene ventajas sobre los métodos basados en refinamiento y los grandes modelos de lenguaje ajustados mediante respuestas humanas.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en diversas tareas posteriores. Al entrenar estos modelos, existe una creciente tendencia a procesar más tokens en escalas de entrenamiento más grandes, pero con tamaños de modelo relativamente más pequeños. El Optimizador de Redundancia Cero (ZeRO), aunque efectivo en entornos de entrenamiento convencionales, enfrenta desafíos de escalabilidad cuando se enfrenta a este paradigma emergente. Con este fin, proponemos un nuevo marco de entrenamiento para LLMs llamado AMSP, que realiza una partición granular de los estados del modelo, incluyendo parámetros (P), gradientes (G) y estados del optimizador (OS). Específicamente, AMSP (1) construye un espacio de partición unificado, permitiendo estrategias de partición independientes para P, G y OS; (2) incorpora un particionador consciente de la escala para buscar automáticamente estrategias de partición óptimas; y (3) diseña un optimizador de comunicación dedicado para garantizar una gestión eficiente de las discrepancias en la ubicación de datos que surgen de diversas estrategias de partición. Nuestras evaluaciones muestran que AMSP alcanza una eficiencia de escalabilidad de hasta el 90.3% en 1024 GPUs.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) se entrenan con grandes cantidades de datos capturados por humanos, emulando nuestra comprensión del mundo. Sin embargo, conocidas como ilusiones visuales, la percepción humana de la realidad no siempre es fiel al mundo físico. Esto plantea una pregunta clave: ¿los VLMs experimentan ilusiones similares a las de los humanos, o aprenden a representar la realidad de manera fiel? Para investigar esta cuestión, construimos un conjunto de datos que contiene cinco tipos de ilusiones visuales y formulamos cuatro tareas para examinar estas ilusiones en los VLMs más avanzados. Nuestros hallazgos han demostrado que, aunque la alineación general es baja, los modelos más grandes se acercan más a la percepción humana y son más susceptibles a las ilusiones visuales. Nuestro conjunto de datos y los resultados iniciales promoverán una mejor comprensión de las ilusiones visuales en humanos y máquinas, y servirán como punto de partida para futuros modelos computacionales que puedan alinear mejor a humanos y máquinas en la percepción y comunicación sobre el mundo visual compartido. El código y los datos están disponibles en https://github.com/vl-illusion/dataset.