Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un enfoque prometedor para mejorar el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Sin embargo, la mayoría de los esfuerzos abiertos se centran de manera estrecha en matemáticas y código, lo que limita nuestra comprensión de su aplicabilidad más amplia al razonamiento general. Un desafío clave radica en la falta de señales de recompensa de RL confiables y escalables en diversos dominios de razonamiento. Presentamos Guru, un corpus de razonamiento RL curado que consta de 92K ejemplos verificables que abarcan seis dominios de razonamiento—Matemáticas, Código, Ciencia, Lógica, Simulación y Tabular—, cada uno construido mediante un diseño de recompensas específico del dominio, deduplicación y filtrado para garantizar la confiabilidad y efectividad en el entrenamiento de RL. Basándonos en Guru, revisamos sistemáticamente hallazgos establecidos en RL para el razonamiento de LLM y observamos una variación significativa entre dominios. Por ejemplo, mientras que trabajos previos sugieren que el RL principalmente extrae conocimiento existente de modelos preentrenados, nuestros resultados revelan un patrón más matizado: los dominios frecuentemente vistos durante el preentrenamiento (Matemáticas, Código, Ciencia) se benefician fácilmente del entrenamiento RL entre dominios, mientras que los dominios con exposición limitada durante el preentrenamiento (Lógica, Simulación y Tabular) requieren entrenamiento dentro del dominio para lograr mejoras significativas en el rendimiento, lo que sugiere que el RL probablemente facilita la adquisición genuina de habilidades. Finalmente, presentamos Guru-7B y Guru-32B, dos modelos que alcanzan un rendimiento de vanguardia entre los modelos abiertos entrenados con RL utilizando datos disponibles públicamente, superando a los mejores modelos de referencia en un 7.9% y 6.7% en nuestra suite de evaluación de 17 tareas que abarca seis dominios de razonamiento. También demostramos que nuestros modelos mejoran efectivamente el rendimiento Pass@k de sus modelos base, particularmente en tareas complejas que es menos probable que aparezcan en los datos de preentrenamiento. Publicamos datos, modelos, código de entrenamiento y evaluación para facilitar el razonamiento de propósito general en: https://github.com/LLM360/Reasoning360.
Este artículo presenta modelos multimodales unificados nativos mejorados, denominados Show-o2, que aprovechan el modelado autorregresivo y la coincidencia de flujo. Construidos sobre un espacio de autoencoder variacional causal 3D, se construyen representaciones visuales unificadas a través de una vía dual de fusión espacial (-temporal), permitiendo escalabilidad en las modalidades de imagen y video mientras se garantiza una comprensión y generación multimodal efectiva. Basándose en un modelo de lenguaje, el modelado autorregresivo y la coincidencia de flujo se aplican de manera nativa a la cabeza de lenguaje y la cabeza de flujo, respectivamente, para facilitar la predicción de tokens de texto y la generación de imágenes/videos. Se diseña una receta de entrenamiento en dos etapas para aprender y escalar de manera efectiva a modelos más grandes. Los modelos Show-o2 resultantes demuestran versatilidad en el manejo de una amplia gama de tareas de comprensión y generación multimodal en diversas modalidades, incluyendo texto, imágenes y videos. El código y los modelos están disponibles en https://github.com/showlab/Show-o.
El avance de los modelos de conversión de texto a voz y generación de audio requiere puntos de referencia robustos para evaluar las capacidades de comprensión emocional de los sistemas de inteligencia artificial. Los conjuntos de datos actuales de reconocimiento de emociones en el habla (SER, por sus siglas en inglés) suelen presentar limitaciones en la granularidad emocional, preocupaciones de privacidad o dependencia de representaciones actuadas. Este artículo presenta EmoNet-Voice, un nuevo recurso para la detección de emociones en el habla, que incluye EmoNet-Voice Big, un conjunto de datos de preentrenamiento a gran escala (con más de 4,500 horas de habla en 11 voces, 40 emociones y 4 idiomas), y EmoNet-Voice Bench, un nuevo conjunto de datos de referencia con anotaciones de expertos humanos. EmoNet-Voice está diseñado para evaluar modelos SER en un espectro detallado de 40 categorías emocionales con diferentes niveles de intensidad. Aprovechando la generación de voz de última generación, seleccionamos fragmentos de audio sintéticos que simulan actores representando escenas diseñadas para evocar emociones específicas. De manera crucial, realizamos una validación rigurosa por parte de expertos en psicología que asignaron etiquetas de intensidad percibida. Este enfoque sintético y respetuoso con la privacidad permite la inclusión de estados emocionales sensibles que a menudo están ausentes en los conjuntos de datos existentes. Por último, presentamos los modelos Empathic Insight Voice, que establecen un nuevo estándar en el reconocimiento de emociones en el habla con un alto acuerdo con los expertos humanos. Nuestras evaluaciones en el panorama actual de modelos exhiben hallazgos valiosos, como que las emociones de alta activación, como la ira, son mucho más fáciles de detectar que los estados de baja activación, como la concentración.
Recientemente, los modelos de lenguaje multimodal de gran escala (MLLMs) han atraído una creciente atención en la investigación debido a sus potentes capacidades de comprensión visual. Aunque han logrado resultados impresionantes en diversas tareas de visión, su rendimiento en la generación de código a partir de gráficos sigue siendo subóptimo. Esta tarea requiere que los MLLMs generen código ejecutable que pueda reproducir un gráfico dado, lo que exige no solo una comprensión visual precisa, sino también una traducción exacta de los elementos visuales en código estructurado. Solicitar directamente a los MLLMs que realicen esta tarea compleja a menudo produce resultados insatisfactorios. Para abordar este desafío, proponemos {ChartIR}, un método de refinamiento iterativo basado en instrucciones estructuradas. En primer lugar, distinguimos dos tareas: comprensión visual y traducción de código. Para lograr el componente de comprensión visual, diseñamos dos tipos de instrucciones estructuradas: descripción y diferencia. La instrucción de descripción captura los elementos visuales del gráfico de referencia, mientras que la instrucción de diferencia caracteriza las discrepancias entre el gráfico de referencia y el gráfico generado. Estas instrucciones transforman eficazmente las características visuales en representaciones lingüísticas, facilitando así el proceso posterior de traducción de código. En segundo lugar, descomponemos la canalización general de generación de gráficos en dos etapas: generación inicial de código y refinamiento iterativo, lo que permite una mejora progresiva del resultado final. Los resultados experimentales muestran que, en comparación con otros métodos, nuestro método logra un rendimiento superior tanto en el modelo de código abierto Qwen2-VL como en el modelo de código cerrado GPT-4o.
Las descripciones detalladas que reflejan con precisión las características de una pieza musical pueden enriquecer las bases de datos de música y avanzar la investigación en IA musical. Este artículo presenta un modelo multitarea de descripción musical, SonicVerse, que integra la generación de descripciones con tareas auxiliares de detección de características musicales, como la detección de tonalidad, la detección de voces y más, con el fin de capturar directamente tanto detalles acústicos de bajo nivel como atributos musicales de alto nivel. La contribución clave es una arquitectura basada en proyección que transforma la entrada de audio en tokens de lenguaje, mientras detecta simultáneamente características musicales a través de cabezales auxiliares dedicados. Las salidas de estos cabezales también se proyectan en tokens de lenguaje, para mejorar la entrada de la descripción. Este marco no solo produce descripciones ricas y detalladas para fragmentos musicales cortos, sino que también permite directamente la generación de descripciones detalladas y temporizadas para piezas musicales más largas, encadenando las salidas utilizando un modelo de lenguaje grande. Para entrenar el modelo, ampliamos el conjunto de datos MusicBench anotándolo con características musicales utilizando MIRFLEX, un extractor modular de características musicales, lo que resultó en datos emparejados de audio, descripciones y características musicales. Los resultados experimentales muestran que la incorporación de características de esta manera mejora la calidad y el detalle de las descripciones generadas.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes han reportado una alta precisión en benchmarks de razonamiento. Sin embargo, aún no está claro si los resultados observados surgen de un razonamiento verdadero o de la recuperación estadística del conjunto de entrenamiento. Inspirado por la escalera de la causalidad (Pearl, 2009) y sus tres niveles (asociaciones, intervenciones y contrafácticos), este artículo presenta RE-IMAGINE, un marco para caracterizar una jerarquía de habilidades de razonamiento en LLMs, junto con una pipeline automatizada para generar variaciones de problemas en diferentes niveles de la jerarquía. Al modificar problemas en una representación simbólica intermedia, RE-IMAGINE genera un número arbitrario de problemas que no pueden resolverse únicamente mediante memorización. Además, el marco es general y puede aplicarse en diversos dominios de razonamiento, incluyendo matemáticas, código y lógica. Demostramos nuestro marco en cuatro benchmarks ampliamente utilizados para evaluar varias familias de LLMs, y observamos reducciones en el rendimiento cuando los modelos son consultados con variaciones de problemas. Estas evaluaciones indican un grado de dependencia en la recuperación estadística para el desempeño pasado, y abren la puerta a investigaciones futuras dirigidas a habilidades a lo largo de la jerarquía de razonamiento.