Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

START: Razonador Autodidacta con Herramientas
START: Self-taught Reasoner with Tools

Mar 6, 2025

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu

1146

Los grandes modelos de razonamiento (LRMs, por sus siglas en inglés) como OpenAI-o1 y DeepSeek-R1 han demostrado capacidades notables en tareas de razonamiento complejo mediante el uso de largas cadenas de pensamiento (Chain-of-thought, CoT). Sin embargo, estos modelos a menudo sufren de alucinaciones e ineficiencias debido a su dependencia exclusiva de procesos de razonamiento internos. En este artículo, presentamos START (Self-Taught Reasoner with Tools), un novedoso modelo de lenguaje de razonamiento CoT largo integrado con herramientas que mejora significativamente las capacidades de razonamiento al aprovechar herramientas externas. A través de la ejecución de código, START es capaz de realizar cálculos complejos, auto-verificarse, explorar diversos métodos y auto-depurarse, abordando así las limitaciones de los LRMs. La innovación central de START radica en su marco de autoaprendizaje, que comprende dos técnicas clave: 1) Hint-infer: Demostramos que insertar pistas diseñadas artificialmente (por ejemplo, "Espera, tal vez usar Python aquí sea una buena idea") durante el proceso de inferencia de un LRM estimula efectivamente su capacidad para utilizar herramientas externas sin necesidad de datos de demostración. Hint-infer también puede servir como un método simple y efectivo de escalado secuencial en tiempo de prueba; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer y RFT al puntuar, filtrar y modificar las trayectorias de razonamiento con invocación de herramientas generadas por un LRM mediante Hint-infer, seguido de un ajuste fino del LRM. A través de este marco, hemos ajustado el modelo QwQ-32B para lograr START. En preguntas de ciencias de nivel de doctorado (GPQA), benchmarks de matemáticas de nivel de competencia (AMC23, AIME24, AIME25) y el benchmark de código de nivel de competencia (LiveCodeBench), START alcanza tasas de precisión del 63.6%, 95.0%, 66.7%, 47.1% y 47.3%, respectivamente. Supera significativamente al modelo base QwQ-32B y logra un rendimiento comparable al modelo de peso abierto de última generación R1-Distill-Qwen-32B y al modelo propietario o1-Preview.

Comprensión eficiente de videos largos mediante tokens para modelos de lenguaje multimodal (LLMs)
Token-Efficient Long Video Understanding for Multimodal LLMs

Mar 6, 2025

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon

952

Los recientes avances en los modelos de lenguaje multimodal basados en video (Video-LLMs) han mejorado significativamente la comprensión de videos al procesarlos como secuencias de fotogramas de imagen. Sin embargo, muchos métodos existentes tratan los fotogramas de manera independiente en el núcleo de visión, careciendo de un modelado temporal explícito, lo que limita su capacidad para capturar patrones dinámicos y manejar eficientemente videos largos. Para abordar estas limitaciones, presentamos STORM (Reducción Espaciotemporal de Tokens para LLMs Multimodales), una arquitectura novedosa que incorpora un codificador temporal dedicado entre el codificador de imágenes y el LLM. Nuestro codificador temporal aprovecha el Modelo de Espacio de Estados Mamba para integrar información temporal en los tokens de imagen, generando representaciones enriquecidas que preservan la dinámica inter-fotograma a lo largo de toda la secuencia de video. Esta codificación enriquecida no solo mejora las capacidades de razonamiento de video, sino que también permite estrategias efectivas de reducción de tokens, incluyendo muestreo en tiempo de prueba y agrupación temporal y espacial basada en entrenamiento, reduciendo sustancialmente las demandas computacionales en el LLM sin sacrificar información temporal clave. Al integrar estas técnicas, nuestro enfoque reduce simultáneamente la latencia de entrenamiento e inferencia mientras mejora el rendimiento, permitiendo una comprensión de video eficiente y robusta en contextos temporales extendidos. Evaluaciones exhaustivas muestran que STORM logra resultados de vanguardia en varios puntos de referencia de comprensión de videos largos (más del 5% de mejora en MLVU y LongVideoBench) mientras reduce los costos de computación hasta 8 veces y la latencia de decodificación entre 2.4 y 2.9 veces para un número fijo de fotogramas de entrada. La página del proyecto está disponible en https://research.nvidia.com/labs/lpr/storm.

LLMVoX: Modelo de Texto a Voz Autoregresivo en Streaming para Cualquier LLM
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Mar 6, 2025

Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal

695

Los avances recientes en los sistemas de diálogo de voz a voz aprovechan los LLM para interacciones multimodales, pero siguen limitados por los requisitos de ajuste fino, el alto costo computacional y la desalineación entre texto y voz. Los LLM habilitados para voz existentes suelen degradar la calidad conversacional al modificar el LLM, comprometiendo así sus capacidades lingüísticas. En contraste, proponemos LLMVoX, un sistema ligero de TTS autoregresivo en streaming de 30M parámetros, independiente del LLM, que genera voz de alta calidad con baja latencia, preservando completamente las capacidades del LLM base. Nuestro enfoque logra una tasa de error de palabras significativamente menor en comparación con los LLM habilitados para voz, operando con una latencia y puntuación UTMOS comparables. Al desacoplar la síntesis de voz del procesamiento del LLM mediante un sistema de streaming de tokens con múltiples colas, LLMVoX permite diálogos fluidos y de longitud infinita. Su diseño plug-and-play también facilita la extensión a diversas tareas con diferentes arquitecturas base. Además, LLMVoX se generaliza a nuevos idiomas con solo adaptación del conjunto de datos, alcanzando una baja tasa de error de caracteres en una tarea de voz en árabe. Adicionalmente, hemos integrado LLMVoX con un Modelo de Lenguaje-Visión para crear un modelo omni con capacidades de voz, texto y visión, sin requerir entrenamiento multimodal adicional. Nuestro código base y página del proyecto están disponibles en https://mbzuai-oryx.github.io/LLMVoX.

EgoLife: Hacia un Asistente de Vida Egocéntrico
EgoLife: Towards Egocentric Life Assistant

Mar 5, 2025

Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu

452

Presentamos EgoLife, un proyecto para desarrollar un asistente vital egocéntrico que acompaña y mejora la eficiencia personal a través de gafas inteligentes potenciadas por IA. Para sentar las bases de este asistente, realizamos un estudio exhaustivo de recopilación de datos en el que seis participantes convivieron durante una semana, registrando continuamente sus actividades diarias —incluyendo discusiones, compras, cocina, socialización y entretenimiento— utilizando gafas IA para la captura multimodal de video egocéntrico, junto con referencias de video sincronizadas en tercera persona. Este esfuerzo resultó en el Conjunto de Datos EgoLife, un extenso conjunto de datos de 300 horas de vida diaria egocéntrica, interpersonal, multivista y multimodal con anotaciones intensivas. Aprovechando este conjunto de datos, presentamos EgoLifeQA, una serie de tareas de respuesta a preguntas de largo contexto orientadas a la vida, diseñadas para brindar asistencia significativa en la vida cotidiana al abordar preguntas prácticas como recordar eventos relevantes pasados, monitorear hábitos de salud y ofrecer recomendaciones personalizadas. Para abordar los desafíos técnicos clave de (1) desarrollar modelos visual-auditivos robustos para datos egocéntricos, (2) habilitar el reconocimiento de identidad y (3) facilitar la respuesta a preguntas de largo contexto sobre información temporal extensa, introducimos EgoButler, un sistema integrado que comprende EgoGPT y EgoRAG. EgoGPT es un modelo omni-modal entrenado en conjuntos de datos egocéntricos, logrando un rendimiento de vanguardia en la comprensión de video egocéntrico. EgoRAG es un componente basado en recuperación que respalda la respuesta a preguntas de contexto ultra largo. Nuestros estudios experimentales verifican sus mecanismos de funcionamiento y revelan factores críticos y cuellos de botella, guiando futuras mejoras. Al liberar nuestros conjuntos de datos, modelos y puntos de referencia, buscamos estimular más investigaciones en asistentes IA egocéntricos.

LLM como un Teléfono Descompuesto: La Generación Iterativa Distorsiona la Información
LLM as a Broken Telephone: Iterative Generation Distorts Information

Feb 27, 2025

Amr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang

272

A medida que los modelos de lenguaje de gran escala son cada vez más responsables del contenido en línea, surgen preocupaciones sobre el impacto de procesar repetidamente sus propias salidas. Inspirado por el efecto del "teléfono descompuesto" en la comunicación humana encadenada, este estudio investiga si los LLM distorsionan de manera similar la información a través de la generación iterativa. Mediante experimentos basados en traducción, encontramos que la distorsión se acumula con el tiempo, influenciada por la elección del idioma y la complejidad de la cadena. Si bien la degradación es inevitable, puede mitigarse mediante técnicas estratégicas de prompting. Estos hallazgos contribuyen a las discusiones sobre los efectos a largo plazo de la propagación de información mediada por IA, planteando preguntas importantes sobre la confiabilidad del contenido generado por LLM en flujos de trabajo iterativos.

LINGOLY-TOO: Desenredando la memorización del razonamiento mediante la plantilla lingüística y la ofuscación ortográfica
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Mar 4, 2025

Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi

253

La evaluación efectiva de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) es susceptible de sobreestimación debido a la exposición de datos en los benchmarks de evaluación. Introducimos un marco para generar problemas de razonamiento lingüístico que reduce el efecto de la memorización en las estimaciones del rendimiento del modelo, y aplicamos este marco para desarrollar LINGOLY-TOO, un benchmark de evaluación desafiante para el razonamiento lingüístico. Mediante el desarrollo de plantillas ortográficas, ofuscamos dinámicamente los sistemas de escritura de lenguas reales para generar numerosas variaciones de preguntas. Estas variaciones preservan los pasos de razonamiento requeridos para cada solución mientras reducen la probabilidad de que instancias específicas de problemas aparezcan en los datos de entrenamiento del modelo. Nuestros experimentos demuestran que los modelos de vanguardia, incluyendo OpenAI o1-preview y DeepSeem R1, tienen dificultades con el razonamiento avanzado. Nuestro análisis también muestra que los LLMs exhiben una variabilidad notable en la precisión entre permutaciones del mismo problema, y en promedio obtienen mejores resultados en preguntas que aparecen en su ortografía original. Nuestros hallazgos resaltan la naturaleza opaca de la generación de respuestas en los LLMs y proporcionan evidencia de que la exposición previa a datos contribuye a sobreestimar las capacidades de razonamiento de los modelos de vanguardia.

Audio Flamingo 2: Un modelo de lenguaje-audio con comprensión de audio largo y capacidades de razonamiento experto
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Mar 6, 2025

Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro

242

Comprender y razonar sobre sonidos no verbales y música es crucial tanto para los humanos como para los agentes de IA para interactuar de manera efectiva con sus entornos. En este artículo, presentamos Audio Flamingo 2 (AF2), un Modelo de Audio-Lenguaje (ALM) con capacidades avanzadas de comprensión y razonamiento de audio. AF2 aprovecha (i) un modelo CLAP personalizado, (ii) datos sintéticos de Preguntas y Respuestas de Audio para un razonamiento de audio detallado, y (iii) una estrategia de aprendizaje curricular en múltiples etapas. AF2 logra un rendimiento de vanguardia con un modelo de lenguaje pequeño de solo 3B parámetros, superando a modelos grandes de código abierto y propietarios en más de 20 benchmarks. A continuación, por primera vez, extendemos la comprensión de audio a segmentos largos de audio (de 30 segundos a 5 minutos) y proponemos LongAudio, un conjunto de datos grande y novedoso para entrenar ALMs en tareas de subtitulación y preguntas y respuestas de audio largo. El ajuste fino de AF2 en LongAudio conduce a un rendimiento excepcional en nuestro LongAudioBench propuesto, un benchmark anotado por expertos para evaluar las capacidades de comprensión de audio largo en ALMs. Realizamos extensos estudios de ablación para confirmar la eficacia de nuestro enfoque. Sitio web del proyecto: https://research.nvidia.com/labs/adlr/AF2/.

L^2M: Ley de Escalado de Información Mutua para Modelado de Lenguaje de Contexto Largo
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

Mar 6, 2025

Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić

212

Establecemos rigurosamente una ley de escalado de información mutua bipartita en el lenguaje natural que gobierna las dependencias de largo alcance. Esta ley de escalado, que demostramos es distinta y escala de manera independiente a la información mutua convencional de dos puntos, es clave para comprender el modelado de lenguaje de contexto largo. Utilizando esta ley de escalado, formulamos la condición de Modelado de Lenguaje de Contexto Largo (L^2M), que relaciona la capacidad de un modelo para el modelado efectivo de contextos largos con el escalado del tamaño de su estado latente para almacenar información pasada. Nuestros resultados se validan mediante experimentos tanto en transformadores como en modelos de espacio de estados. Este trabajo establece una base teórica que guía el desarrollo de modelos de lenguaje grandes hacia longitudes de contexto más extensas.

IFIR: Un punto de referencia integral para evaluar el seguimiento de instrucciones en la recuperación de información de dominio experto
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Mar 6, 2025

Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao

212

Presentamos IFIR, el primer punto de referencia integral diseñado para evaluar la recuperación de información basada en instrucciones (IR, por sus siglas en inglés) en dominios expertos. IFIR incluye 2,426 ejemplos de alta calidad y abarca ocho subconjuntos en cuatro dominios especializados: finanzas, derecho, atención médica y literatura científica. Cada subconjunto aborda una o más tareas de recuperación específicas del dominio, replicando escenarios del mundo real donde las instrucciones personalizadas son cruciales. IFIR permite un análisis detallado de las capacidades de recuperación basadas en instrucciones al incorporar instrucciones con diferentes niveles de complejidad. También proponemos un nuevo método de evaluación basado en modelos de lenguaje grandes (LLM) para proporcionar una evaluación más precisa y confiable del rendimiento de los modelos al seguir instrucciones. A través de experimentos exhaustivos en 15 modelos de recuperación de vanguardia, incluidos aquellos basados en LLM, nuestros resultados revelan que los modelos actuales enfrentan desafíos significativos para seguir de manera efectiva instrucciones complejas y específicas del dominio. Además, ofrecemos análisis en profundidad para resaltar estas limitaciones, proporcionando ideas valiosas para guiar futuros avances en el desarrollo de sistemas de recuperación.

HybridNorm: Hacia un entrenamiento estable y eficiente de Transformers mediante normalización híbrida
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

Mar 6, 2025

Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma

208

Los Transformers se han convertido en la arquitectura de facto para una amplia gama de tareas de aprendizaje automático, particularmente en los modelos de lenguaje extenso (LLMs, por sus siglas en inglés). A pesar de su notable rendimiento, persisten desafíos en el entrenamiento de redes Transformer profundas, especialmente en lo que respecta a la ubicación de la normalización por capas. Si bien las estructuras Pre-Norm facilitan un entrenamiento más sencillo debido a su ruta de identidad más prominente, a menudo ofrecen un rendimiento subóptimo en comparación con Post-Norm. En este artículo, proponemos HybridNorm, una estrategia de normalización híbrida sencilla pero efectiva que integra las ventajas de los enfoques Pre-Norm y Post-Norm. Específicamente, HybridNorm emplea la normalización QKV dentro del mecanismo de atención y Post-Norm en la red de alimentación directa (FFN) de cada bloque Transformer. Este diseño no solo estabiliza el entrenamiento, sino que también mejora el rendimiento, particularmente en el contexto de los LLMs. Experimentos exhaustivos en arquitecturas densas y dispersas muestran que HybridNorm supera consistentemente tanto a los enfoques Pre-Norm como Post-Norm, logrando resultados de vanguardia en varios benchmarks. Estos hallazgos resaltan el potencial de HybridNorm como una técnica más estable y efectiva para mejorar el entrenamiento y el rendimiento de los modelos Transformer profundos. %El código estará disponible públicamente. El código está disponible en https://github.com/BryceZhuo/HybridNorm.

FuseChat-3.0: Optimización de Preferencias se Encuentra con la Fusión de Modelos Heterogéneos
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Mar 6, 2025

Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan

153

Presentamos FuseChat-3.0, un conjunto de modelos de lenguaje de gran escala (LLMs) desarrollado mediante la integración de las fortalezas de LLMs fuente heterogéneos en LLMs objetivo más compactos. Nuestros modelos fuente incluyen el potente Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct y Llama-3.1-70B-Instruct. Para los modelos objetivo, nos centramos en tres variantes más pequeñas ampliamente utilizadas: Llama-3.1-8B-Instruct, Gemma-2-9B-it y Qwen-2.5-7B-Instruct, junto con dos opciones ultracompactas, Llama-3.2-3B-Instruct y Llama-3.2-1B-Instruct. Para aprovechar las diversas capacidades de estos modelos fuente, desarrollamos un protocolo especializado de construcción de datos adaptado a diversas tareas y dominios. El pipeline de entrenamiento de FuseChat-3.0 consta de dos etapas clave: (1) ajuste fino supervisado (SFT) para alinear las distribuciones de los modelos objetivo y fuente, y (2) Optimización Directa de Preferencias (DPO) para aplicar preferencias de múltiples LLMs fuente en el ajuste fino del modelo objetivo. Los modelos resultantes de FuseChat-3.0 muestran mejoras significativas en tareas como seguimiento de instrucciones, conocimiento general, matemáticas y programación. Como se ilustra en la Figura 1, utilizando Llama-3.1-8B-Instruct como modelo objetivo, nuestro enfoque de fusión logra una mejora promedio de 6.8 puntos en 14 benchmarks. Además, demuestra ganancias notables de 37.1 puntos y 30.1 puntos en los benchmarks de seguimiento de instrucciones AlpacaEval-2 y Arena-Hard, respectivamente. Nuestro código, modelos y conjuntos de datos están disponibles en https://github.com/SLIT-AI/FuseChat-3.0.

PokéChamp: un Agente de Lenguaje Minimax de Nivel Experto
PokéChamp: an Expert-level Minimax Language Agent

Mar 6, 2025

Seth Karten, Andy Luu Nguyen, Chi Jin

122

Presentamos Pok\'eChamp, un agente minimax impulsado por Modelos de Lenguaje de Gran Escala (LLMs) para batallas de Pok\'emon. Construido sobre un marco general para juegos competitivos de dos jugadores, Pok\'eChamp aprovecha las capacidades generalistas de los LLMs para mejorar la búsqueda en árbol minimax. Específicamente, los LLMs reemplazan tres módulos clave: (1) muestreo de acciones del jugador, (2) modelado del oponente, y (3) estimación de la función de valor, permitiendo que el agente utilice efectivamente el historial de juego y el conocimiento humano para reducir el espacio de búsqueda y abordar la observabilidad parcial. Cabe destacar que nuestro marco no requiere entrenamiento adicional de los LLMs. Evaluamos Pok\'eChamp en el popular formato Gen 9 OU. Cuando es impulsado por GPT-4o, alcanza una tasa de victorias del 76% contra el mejor bot basado en LLMs existente y del 84% contra el bot basado en reglas más fuerte, demostrando su rendimiento superior. Incluso con un modelo Llama 3.1 de 8 mil millones de parámetros de código abierto, Pok\'eChamp supera consistentemente al mejor bot basado en LLMs anterior, Pok\'ellmon impulsado por GPT-4o, con una tasa de victorias del 64%. Pok\'eChamp alcanza un Elo proyectado de 1300-1500 en la escalera en línea de Pok\'emon Showdown, situándolo entre el 30%-10% superior de los jugadores humanos. Además, este trabajo compila el mayor conjunto de datos de batallas de Pok\'emon de jugadores reales, con más de 3 millones de partidas, incluyendo más de 500k partidas de alto Elo. Basándonos en este conjunto de datos, establecemos una serie de puntos de referencia y rompecabezas de batalla para evaluar habilidades específicas de combate. También proporcionamos actualizaciones clave al motor de juego local. Esperamos que este trabajo fomente más investigaciones que utilicen las batallas de Pok\'emon como punto de referencia para integrar tecnologías de LLMs con algoritmos de teoría de juegos que aborden problemas generales de multiagentes. Videos, código y conjunto de datos disponibles en https://sites.google.com/view/pokechamp-llm.

¿Cómo Dirigir los Latentes de los Modelos de Lenguaje para la Detección de Alucinaciones?
How to Steer LLM Latents for Hallucination Detection?

Mar 1, 2025

Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li

112

Las alucinaciones en los LLMs (Modelos de Lenguaje de Gran Escala) representan una preocupación significativa para su implementación segura en aplicaciones del mundo real. Enfoques recientes han aprovechado el espacio latente de los LLMs para la detección de alucinaciones, pero sus embeddings, optimizados para coherencia lingüística en lugar de precisión factual, a menudo no logran separar claramente el contenido veraz del alucinado. Con este fin, proponemos el Vector Separador de Veracidad (TSV, por sus siglas en inglés), un vector de dirección ligero y flexible que remodela el espacio de representación del LLM durante la inferencia para mejorar la separación entre salidas veraces y alucinadas, sin alterar los parámetros del modelo. Nuestro marco de trabajo de dos etapas primero entrena el TSV en un pequeño conjunto de ejemplos etiquetados para formar grupos compactos y bien separados. Luego, amplía el conjunto de ejemplos con generaciones no etiquetadas del LLM, empleando un algoritmo basado en transporte óptimo para el pseudo-etiquetado combinado con un proceso de filtrado basado en la confianza. Experimentos extensivos demuestran que el TSV alcanza un rendimiento de vanguardia con datos etiquetados mínimos, mostrando una fuerte generalización entre conjuntos de datos y proporcionando una solución práctica para aplicaciones de LLM en el mundo real.

Lo mejor de ambos mundos: Integración de modelos de lenguaje y modelos de difusión para la generación de videos
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Mar 6, 2025

Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

Los avances recientes en la generación de texto a video (T2V) han sido impulsados por dos paradigmas en competencia: los modelos de lenguaje autoregresivos y los modelos de difusión. Sin embargo, cada paradigma tiene limitaciones intrínsecas: los modelos de lenguaje luchan con la calidad visual y la acumulación de errores, mientras que los modelos de difusión carecen de comprensión semántica y modelado causal. En este trabajo, proponemos LanDiff, un marco híbrido que sinergiza las fortalezas de ambos paradigmas a través de una generación de lo general a lo detallado. Nuestra arquitectura introduce tres innovaciones clave: (1) un tokenizador semántico que comprime características visuales 3D en representaciones discretas 1D compactas mediante compresión semántica eficiente, logrando una relación de compresión de 14,000 veces; (2) un modelo de lenguaje que genera tokens semánticos con relaciones semánticas de alto nivel; (3) un modelo de difusión en flujo que refina la semántica general en videos de alta fidelidad. Los experimentos muestran que LanDiff, un modelo de 5B, alcanza una puntuación de 85.43 en el benchmark T2V de VBench, superando a los modelos de código abierto más avanzados como Hunyuan Video (13B) y otros modelos comerciales como Sora, Keling y Hailuo. Además, nuestro modelo también logra un rendimiento de vanguardia en la generación de videos largos, superando a otros modelos de código abierto en este campo. Nuestra demostración puede verse en https://landiff.github.io/.

Unión de Expertos: Adaptación del Enrutamiento Jerárquico al Transformador Descompuesto de Forma Equivalente
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Mar 4, 2025

Yujiao Yang, Jing Lian, Linhui Li

Mixture-of-Experts (MoE) mejora el rendimiento del modelo mientras mantiene la eficiencia computacional, lo que lo hace adecuado para aplicaciones a gran escala. Sin embargo, en el paradigma actual de MoE, cada experto funciona de manera individual, careciendo así de interacciones de alta calidad entre expertos. Además, no se han extendido eficazmente a los bloques de atención, lo que limita mejoras adicionales en la eficiencia. Para abordar estos problemas, proponemos Union-of-Experts (UoE), que descompone el transformador en un grupo equivalente de expertos y luego implementa enrutamiento dinámico sobre los datos de entrada y los expertos. Nuestro enfoque avanza el diseño de MoE con tres innovaciones clave: (1) Realizamos una descomposición equivalente de expertos tanto en bloques MLP como en bloques de atención basada en la partición de matrices en paralelismo tensorial. (2) Desarrollamos dos paradigmas de enrutamiento: selección de datos por parches y selección de expertos, para aplicar el enrutamiento en diferentes niveles. (3) Diseñamos la arquitectura del modelo UoE, incluyendo Atención Multi-Cabezal Selectiva (SMHA) y Union-of-MLP-Experts (UoME). (4) Implementamos en paralelo las operaciones de enrutamiento y cálculo de UoE, y optimizamos la eficiencia basándonos en el análisis del procesamiento hardware. Los experimentos demuestran que el modelo equipado con UoE supera a Full Attention, a los MoE de última generación y a los transformadores eficientes en varias tareas de los dominios de imágenes y lenguaje natural. Los códigos fuente están disponibles en https://github.com/YujiaoYang-work/UoE.

Identificación de Pesos Sensibles mediante Integral Post-cuantización
Identifying Sensitive Weights via Post-quantization Integral

Feb 28, 2025

Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen

Servir modelos de lenguaje grandes (LLMs) es costoso. Sin embargo, la cuantización de pesos post-entrenamiento puede abordar este problema al comprimir su tamaño para memoria limitada y ahorrar ancho de banda para aceleración. Dado que no todas las dimensiones de los pesos son igualmente importantes, estos métodos suelen basarse en una métrica de sensibilidad, que indica la influencia elemento por elemento de los pesos en la función de pérdida y se utiliza para preprocesar los pesos originales para una mejor cuantización. En este trabajo, realizamos un estudio empírico sobre la precisión de la métrica de sensibilidad y encontramos que las métricas existentes basadas en gradiente y Hessiano son muy imprecisas: subestiman el impacto de la cuantización en la función de pérdida en órdenes de magnitud, principalmente debido al pequeño radio de convergencia de la aproximación local de segundo orden, es decir, el término de gradiente y Hessiano en la fórmula de Taylor. Para abordar este problema, proponemos la Integral Post-cuantización (PQI), una métrica precisa para estimar la sensibilidad posterior de manera detallada. Para aprovechar esta métrica precisa, proponemos además ReQuant, un marco simple pero potente que consta principalmente de dos componentes Denso-y-Escaso desacoplados: selección de valores atípicos auto-adaptativa y desacoplamiento paso a paso de pesos significativos. Los resultados muestran que ReQuant mejora los métodos de cuantización post-entrenamiento más avanzados, con una mejora notable de 2.66 en la ganancia de perplejidad en Llama 3.2 1B con QTIP.

Los modelos dedicados de retroalimentación y edición potencian la escalabilidad en tiempo de inferencia para tareas de dominio general de naturaleza abierta.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Mar 6, 2025

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

El escalado en tiempo de inferencia ha sido crucial para el éxito de modelos recientes como OpenAI o1 y DeepSeek R1. Sin embargo, muchas técnicas utilizadas para entrenar modelos para el escalado en tiempo de inferencia requieren que las tareas tengan respuestas que puedan verificarse, lo que limita su aplicación a dominios como matemáticas, programación y razonamiento lógico. Nos inspiramos en cómo los humanos realizan primeros intentos, solicitan retroalimentación detallada de otros y realizan mejoras basadas en dicha retroalimentación en una amplia gama de actividades de final abierto. Con este fin, recopilamos datos y entrenamos modelos dedicados de Retroalimentación y Edición que son capaces de realizar escalado en tiempo de inferencia para tareas generales de final abierto. En nuestra configuración, un modelo genera una respuesta inicial, que recibe retroalimentación de un segundo modelo, la cual es utilizada por un tercer modelo para editar la respuesta. Demostramos que el rendimiento en Arena Hard, un punto de referencia altamente predictivo del Elo de Chatbot Arena, puede mejorarse escalando el número de borradores de respuestas iniciales, retroalimentación efectiva y respuestas editadas. Cuando se escala de manera óptima, nuestra configuración basada en modelos de 70B de la familia Llama 3 puede alcanzar un rendimiento de vanguardia en Arena Hard con 92.7 al 5 de marzo de 2025, superando a OpenAI o1-preview-2024-09-12 con 90.4 y a DeepSeek R1 con 92.3.

Perdidos en el literalismo: Cómo el entrenamiento supervisado moldea el "traduccionés" en los LLM
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Mar 6, 2025

Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en la traducción automática, demostrando un rendimiento impresionante en diversos idiomas. Sin embargo, el "translationese", caracterizado por traducciones excesivamente literales y poco naturales, sigue siendo un desafío persistente en los sistemas de traducción basados en LLMs. A pesar de su preentrenamiento en vastos corpus de expresiones naturales, los LLMs presentan errores de translationese y generan traducciones inesperadamente poco naturales, derivados de sesgos introducidos durante el ajuste fino supervisado (SFT). En este trabajo, evaluamos sistemáticamente la prevalencia del translationese en las traducciones generadas por LLMs e investigamos sus raíces durante el entrenamiento supervisado. Introducimos métodos para mitigar estos sesgos, incluyendo el pulido de referencias doradas y la filtración de instancias de entrenamiento poco naturales. Las evaluaciones empíricas demuestran que estos enfoques reducen significativamente el translationese mientras mejoran la naturalidad de las traducciones, validado tanto por evaluaciones humanas como por métricas automáticas. Nuestros hallazgos resaltan la necesidad de ajustes conscientes del entrenamiento para optimizar las salidas de traducción de los LLMs, allanando el camino para traducciones más fluidas y consistentes con el idioma objetivo. Publicamos los datos y el código en https://github.com/yafuly/LLM_Translationese.

Combinación de Flow Matching y Transformers para la Solución Eficiente de Problemas Inversos Bayesianos
Combining Flow Matching and Transformers for Efficient Solution of Bayesian Inverse Problems

Mar 3, 2025

Daniil Sherki, Ivan Oseledets, Ekaterina Muravleva

Resolver problemas inversos bayesianos de manera eficiente sigue siendo un desafío significativo debido a la complejidad de las distribuciones posteriores y al costo computacional de los métodos tradicionales de muestreo. Dada una serie de observaciones y el modelo directo, buscamos recuperar la distribución de los parámetros, condicionada a los datos experimentales observados. Demostramos que, al combinar Conditional Flow Matching (CFM) con una arquitectura basada en transformadores, podemos muestrear eficientemente este tipo de distribución, condicionada a un número variable de observaciones.

Sobre la Adquisición de Representaciones Gramaticales Compartidas en Modelos de Lenguaje Bilingües
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Mar 5, 2025

Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen

Si bien la transferencia interlingüística es crucial para las capacidades multilingües de los modelos de lenguaje contemporáneos, no se comprende bien cómo ocurre. En este artículo, nos preguntamos qué le sucede a un modelo de lenguaje monolingüe cuando comienza a ser entrenado en un segundo idioma. Específicamente, entrenamos modelos bilingües pequeños para los cuales controlamos la cantidad de datos para cada idioma y el orden de exposición a los idiomas. Para encontrar evidencia de representaciones multilingües compartidas, recurrimos al priming estructural, un método utilizado para estudiar representaciones gramaticales en humanos. Primero replicamos resultados previos de priming estructural interlingüístico y encontramos que, después de controlar la cantidad de datos de entrenamiento y la exposición al idioma, existen efectos asimétricos entre pares de idiomas y direcciones. Argumentamos que esta asimetría podría dar forma a hipótesis sobre los efectos de priming estructural en humanos. También encontramos que los efectos de priming estructural son menos robustos para pares de idiomas menos similares, destacando las posibles limitaciones del aprendizaje por transferencia interlingüística y las representaciones compartidas para idiomas tipológicamente diversos.

Comprensión y predicción de descarrilamientos en conversaciones tóxicas en GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub

Mar 4, 2025

Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski

Los proyectos de software prosperan gracias a la participación y contribuciones de personas de diversos orígenes. Sin embargo, el lenguaje tóxico y las interacciones negativas pueden obstaculizar la participación y retención de colaboradores, además de alienar a los recién llegados. Las estrategias de moderación proactiva buscan prevenir la toxicidad abordando conversaciones que se han desviado de su propósito original. Este estudio tiene como objetivo comprender y predecir el desvío conversacional que conduce a la toxicidad en GitHub. Para facilitar esta investigación, hemos creado un nuevo conjunto de datos que incluye 202 conversaciones tóxicas de GitHub con puntos de desvío anotados, junto con 696 conversaciones no tóxicas como referencia. Basándonos en este conjunto de datos, identificamos características únicas de las conversaciones tóxicas y los puntos de desvío, incluyendo marcadores lingüísticos como pronombres en segunda persona, términos de negación y tonos de Frustración Amarga e Impaciencia, así como patrones en la dinámica conversacional entre colaboradores del proyecto y participantes externos. Aprovechando estas observaciones empíricas, proponemos un enfoque de moderación proactiva para detectar y abordar automáticamente conversaciones potencialmente dañinas antes de que escalen. Utilizando modelos de lenguaje modernos (LLMs), desarrollamos una técnica de resumen de trayectoria conversacional que captura la evolución de las discusiones e identifica señales tempranas de desvío. Nuestros experimentos demuestran que los prompts de LLMs diseñados para proporcionar resúmenes de conversaciones en GitHub alcanzan un F1-Score del 69% en la predicción del desvío conversacional, superando significativamente un conjunto de enfoques de referencia.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

START: Razonador Autodidacta con Herramientas
START: Self-taught Reasoner with Tools

Mar 6, 2025

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu

1146

Comprensión eficiente de videos largos mediante tokens para modelos de lenguaje multimodal (LLMs)
Token-Efficient Long Video Understanding for Multimodal LLMs

Mar 6, 2025

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon

952