Artículos de investigación en IA seleccionados diariamente con traducciones
Los sistemas de memoria son componentes clave que permiten a los sistemas de IA, como los LLM y los agentes de IA, lograr aprendizaje a largo plazo e interacción sostenida. Sin embargo, durante el almacenamiento y la recuperación de la memoria, estos sistemas frecuentemente exhiben alucinaciones de memoria, incluyendo fabricación, errores, conflictos y omisiones. Las evaluaciones existentes de las alucinaciones de memoria son principalmente de pregunta-respuesta de extremo a extremo, lo que dificulta localizar la etapa operativa dentro del sistema de memoria donde surgen las alucinaciones. Para abordar esto, presentamos el Benchmark de Alucinación en Memoria (HaluMem), el primer benchmark de evaluación de alucinaciones a nivel operativo diseñado específicamente para sistemas de memoria. HaluMem define tres tareas de evaluación (extracción de memoria, actualización de memoria y pregunta-respuesta sobre memoria) para revelar exhaustivamente los comportamientos de alucinación a través de las diferentes etapas operativas de la interacción. Para respaldar la evaluación, construimos conjuntos de datos de interacción humano-IA multituda centrados en el usuario, HaluMem-Medio y HaluMem-Largo. Ambos incluyen aproximadamente 15k puntos de memoria y 3.5k preguntas de múltiples tipos. La longitud promedio de diálogo por usuario alcanza 1.5k y 2.6k turnos, con longitudes de contexto que superan 1 millón de tokens, permitiendo evaluar alucinaciones a través de diferentes escalas de contexto y complejidades de tareas. Los estudios empíricos basados en HaluMem muestran que los sistemas de memoria existentes tienden a generar y acumular alucinaciones durante las etapas de extracción y actualización, lo que posteriormente propaga errores a la etapa de pregunta-respuesta. La investigación futura debería centrarse en desarrollar mecanismos de operación de memoria interpretables y restringidos que supriman sistemáticamente las alucinaciones y mejoren la confiabilidad de la memoria.
Los recientes avances en agentes de investigación profunda han mostrado potencial para la construcción autónoma de conocimiento mediante el razonamiento dinámico sobre fuentes externas. Sin embargo, los enfoques existentes se basan en un paradigma monocontextual que acumula toda la información en una única ventana de contexto en expansión, lo que genera asfixia contextual y contaminación por ruido que limitan su eficacia en tareas de horizonte largo. Presentamos IterResearch, un novedoso paradigma de investigación profunda iterativa que reformula la investigación de horizonte largo como un Proceso de Decisión de Markov con reconstrucción estratégica del espacio de trabajo. Al mantener un informe evolutivo como memoria y sintetizar periódicamente hallazgos, nuestro enfoque preserva una capacidad de razonamiento consistente a través de profundidades de exploración arbitrarias. Además, desarrollamos la Optimización de Políticas con Conciencia de Eficiencia (EAPO), un marco de aprendizaje por refuerzo que incentiva la exploración eficiente mediante descuento geométrico de recompensas y permite un entrenamiento distribuido estable mediante submuestreo adaptativo. Experimentos exhaustivos demuestran que IterResearch logra mejoras sustanciales sobre los agentes de código abierto existentes, con un promedio de +14.5 pp en seis benchmarks, y reduce la brecha con los sistemas propietarios de vanguardia. Notablemente, nuestro paradigma exhibe una escalabilidad de interacción sin precedentes, extendiéndose hasta 2048 interacciones con ganancias de rendimiento dramáticas (del 3.5% al 42.5%), y sirve como una estrategia de prompting efectiva, mejorando los modelos de vanguardia hasta en 19.2 pp sobre ReAct en tareas de horizonte largo. Estos hallazgos posicionan a IterResearch como una solución versátil para el razonamiento de horizonte largo, efectiva tanto como un agente entrenado como un paradigma de prompting para modelos de vanguardia.
Los modelos recientes que priorizan el razonamiento (por ejemplo, OpenAI o1, DeepSeek R1) han impulsado un resurgimiento del interés en el Aprendizaje por Refuerzo a partir de Retroalimentación Verificable (RLVR). Sin embargo, los avances están dominados por las matemáticas (por ejemplo, AIME), mientras que la generación de código para programación competitiva ha sido menos explorada y la curación de datos ha recibido menos atención que el diseño de algoritmos de RL. Investigamos cómo construir conjuntos de datos para RLVR (es decir, *prompts* de RL) y presentamos técnicas prácticas de entrenamiento que ofrecen un alto rendimiento en la generación de código para programación competitiva. Nuestro *pipeline* comienza con un ajuste fino supervisado (SFT) destilado a partir de modelos *open-source* potentes, aumentado con datos de propósito general y de razonamiento intensivo. Luego, el RL sigue un proceso de dos etapas con recompensas ejecutables basadas en casos de prueba: primero, el entrenamiento en un conjunto grande y uniformemente distribuido de problemas de programación competitiva utilizando la Optimización de Políticas Relativas por Grupos (GRPO) con 8 *rollouts* por *prompt* y una ventana de generación de respuestas relativamente corta (por ejemplo, 32k durante el SFT y 24k en esta etapa) para expandir la entropía y mitigar la repetición y el truncamiento; segundo, realizamos Pre-GRPO: actualizamos sobre un conjunto pequeño y de alta calidad de problemas desafiantes con un presupuesto grande de *rollouts* (64 *rollouts* por *prompt*) bajo un currículo de enfoque estricto que retiene continuamente las instancias más difíciles durante todo el entrenamiento. Implementamos nuestro método en Qwen2.5-32B y evaluamos en concursos semanales de LeetCode y Codeforces para evitar la filtración de datos. El modelo resultante logra un rendimiento de vanguardia entre modelos de escala similar y es comparable a sistemas líderes como DeepSeek v3.1 y Doubao-1.5-Thinking. También examinamos las tendencias de escalado y observamos un fuerte escalado del RL en un modelo interno de gran escala MoE. Nuestro estudio destila mejores prácticas concisas para la curación de datos, la expansión de la entropía y el diseño curricular en RLVR para la generación de código de programación competitiva.
Presentamos STATION, un entorno multiagente de mundo abierto que modela un ecosistema científico en miniatura. Aprovechando sus ventanas de contexto extendidas, los agentes en la Station pueden emprender largas trayectorias científicas que incluyen leer artículos de sus pares, formular hipótesis, enviar código, realizar análisis y publicar resultados. Es importante destacar que no existe un sistema centralizado que coordine sus actividades: los agentes son libres de elegir sus propias acciones y desarrollar sus propias narrativas dentro de la Station. Los experimentos demuestran que los agentes de IA en la Station alcanzan un nuevo rendimiento de vanguardia en una amplia gama de benchmarks, que abarcan desde matemáticas hasta biología computacional y aprendizaje automático, superando notablemente a AlphaEvolve en el empaquetamiento de círculos. Surge un rico tapiz de narrativas mientras los agentes persiguen investigaciones independientes, interactúan con sus pares y se basan en una historia acumulativa. De estas narrativas emergentes, surgen métodos novedosos de forma orgánica, como un nuevo algoritmo adaptativo de densidad para la integración de lotes de scRNA-seq. La Station marca un primer paso hacia el descubrimiento científico autónomo impulsado por el comportamiento emergente en un entorno de mundo abierto, representando un nuevo paradigma que trasciende la optimización rígida.
Presentamos PhysWorld, un marco que permite el aprendizaje robótico mediante la generación de vídeos a través del modelado del mundo físico. Los modelos recientes de generación de vídeos pueden sintetizar demostraciones visuales fotorrealistas a partir de comandos de lenguaje e imágenes, ofreciendo una fuente de señales de entrenamiento potente pero poco explorada para la robótica. Sin embargo, redirigir directamente los movimientos de píxeles de los vídeos generados a los robots ignora la física, lo que a menudo da lugar a manipulaciones inexactas. PhysWorld aborda esta limitación acoplando la generación de vídeos con la reconstrucción del mundo físico. Dada una única imagen y un comando de tarea, nuestro método genera vídeos condicionados por la tarea y reconstruye el mundo físico subyacente a partir de los vídeos; los movimientos generados en el vídeo se materializan en acciones físicamente precisas mediante un aprendizaje por refuerzo residual centrado en objetos con el modelo del mundo físico. Esta sinergia transforma la guía visual implícita en trayectorias robóticas físicamente ejecutables, eliminando la necesidad de recopilar datos de robots reales y permitiendo una manipulación robótica generalizable de tipo *zero-shot*. Los experimentos en diversas tareas del mundo real demuestran que PhysWorld mejora sustancialmente la precisión de la manipulación en comparación con enfoques anteriores. Visite https://pointscoder.github.io/PhysWorld_Web/ para más detalles.
Los modelos de texto a imagen han evolucionado rápidamente desde herramientas creativas informales hasta sistemas de grado profesional, logrando niveles sin precedentes de calidad de imagen y realismo. Sin embargo, la mayoría de los modelos se entrenan para mapear indicaciones breves en imágenes detalladas, creando una brecha entre la entrada textual escasa y los resultados visuales ricos. Esta discrepancia reduce la controlabilidad, ya que los modelos a menudo completan los detalles faltantes de manera arbitraria, sesgándose hacia las preferencias promedio de los usuarios y limitando la precisión para uso profesional. Abordamos esta limitación entrenando el primer modelo de código abierto de texto a imagen con leyendas estructuradas largas, donde cada muestra de entrenamiento se anota con el mismo conjunto de atributos de grano fino. Este diseño maximiza la cobertura expresiva y permite un control desenredado sobre los factores visuales. Para procesar leyendas largas de manera eficiente, proponemos DimFusion, un mecanismo de fusión que integra tokens intermedios de un LLM ligero sin aumentar la longitud de los tokens. También presentamos el protocolo de evaluación Reconstrucción con Texto como Cuello de Botella (TaBR). Al evaluar qué tan bien se pueden reconstruir imágenes reales a través de un bucle de generación de leyendas, TaBR mide directamente la controlabilidad y expresividad, incluso para leyendas muy largas donde los métodos de evaluación existentes fallan. Finalmente, demostramos nuestras contribuciones entrenando el modelo a gran escala FIBO, logrando una alineación de indicaciones de vanguardia entre los modelos de código abierto. Los pesos del modelo están disponibles públicamente en https://huggingface.co/briaai/FIBO.
Las Mezclas Dispersas de Expertos (MoE) han sido ampliamente adoptadas en los grandes modelos de lenguaje recientes, ya que permiten escalar eficientemente la capacidad del modelo sin aumentar el coste de inferencia. Sin embargo, las evaluaciones en una amplia gama de tareas descendentes revelan una suboptimalidad consistente de los enrutadores en los MoE-LLM existentes, lo que resulta en una brecha de rendimiento severa (por ejemplo, del 10-20% en precisión) respecto al enrutamiento óptimo. En este artículo, demostramos que alinear la variedad de los pesos de enrutamiento con la de la incrustación de tareas puede reducir efectivamente esta brecha y mejorar el rendimiento de generalización de los MoE-LLM. Nuestro método, "Alineación de la Variedad de Enrutamiento (RoMA)", introduce un término de regularización de variedad adicional en el objetivo de ajuste posterior y solo requiere un ajuste ligero de los enrutadores (con los demás parámetros congelados). Específicamente, la regularización fomenta que los pesos de enrutamiento de cada muestra se acerquen a los de sus vecinos exitosos (cuyos pesos de enrutamiento conducen a respuestas correctas) en un espacio de incrustación de tareas. En consecuencia, las muestras dirigidas a tareas similares compartirán elecciones de expertos similares a través de las capas. Establecer tales vínculos entre tareas y expertos en diferentes muestras es esencial para lograr una mejor generalización. Además, RoMA demuestra la ventaja de unificar la comprensión de la tarea (mediante modelos de incrustación) con la generación de soluciones (mediante MoE-LLM). En los experimentos, ajustamos los enrutadores en OLMoE, DeepSeekMoE y Qwen3-MoE utilizando RoMA. Las evaluaciones en diversos benchmarks y las extensas comparaciones con líneas base muestran la mejora sustancial aportada por RoMA.
Como medio clave para la interacción humana y el intercambio de información, los servicios de redes sociales (SRS) plantean desafíos únicos para los grandes modelos de lenguaje (LLM): cargas de trabajo heterogéneas, normas y jerga de rápida evolución, y corpus multilingües y culturalmente diversos que inducen un cambio de distribución abrupto. El ajuste fino supervisado (SFT) puede especializar modelos, pero a menudo desencadena un "sube y baja" entre las gancias dentro de la distribución y la robustez fuera de ella, especialmente para modelos más pequeños. Para abordar estos desafíos, presentamos RedOne 2.0, un LLM orientado a SRS entrenado con un paradigma de post-entrenamiento progresivo y priorizado por RL diseñado para una adaptación rápida y estable. La canalización consiste en tres etapas: (1) Aprendizaje Exploratorio en corpus de SRS seleccionados para establecer una alineación inicial e identificar debilidades sistemáticas; (2) Ajuste Fino Dirigido que aplica selectivamente SFT a las brechas diagnosticadas mezclando una pequeña fracción de datos generales para mitigar el olvido; y (3) Aprendizaje de Refinamiento que re-aplica RL con señales centradas en SRS para consolidar mejoras y armonizar compensaciones entre tareas. En varias tareas que abarcan tres categorías, nuestro modelo de escala 4B ofrece mejoras promedio de aproximadamente 2.41 puntos sobre la línea base subóptima de 7B. Adicionalmente, RedOne 2.0 logra un aumento de rendimiento promedio de aproximadamente 8.74 puntos respecto al modelo base, utilizando menos de la mitad de los datos requeridos por el método centrado en SFT RedOne, evidenciando una eficiencia de datos y una estabilidad superiores en escalas compactas. En general, RedOne 2.0 establece una línea base competitiva y rentable para LLM específicos de dominio en escenarios de SRS, avanzando en capacidades sin sacrificar la robustez.
La resolución de tareas complejas generalmente requiere que los LLM generen largas cadenas de razonamiento de múltiples pasos. Trabajos previos han demostrado que verificar la corrección de los pasos de razonamiento individuales puede mejorar aún más el rendimiento y la eficiencia de los LLM en dichas tareas, además de aumentar la interpretabilidad de las soluciones. Sin embargo, los enfoques de verificación existentes, como los Modelos de Recompensa de Procesos (PRM), son computacionalmente costosos, están limitados a dominios específicos o requieren anotaciones a gran escala generadas por humanos o modelos. Por lo tanto, proponemos una alternativa ligera para la verificación del razonamiento a nivel de paso basada en puntuaciones de incertidumbre guiadas por datos. Entrenamos cabezales de cuantificación de incertidumbre (UHeads) basados en transformers que utilizan los estados internos de un LLM congelado para estimar la incertidumbre de sus pasos de razonamiento durante la generación. El enfoque es completamente automático: las etiquetas objetivo son generadas por otro LLM más grande (por ejemplo, DeepSeek R1) o de manera auto-supervisada por el propio modelo original. Los UHeads son tanto efectivos como ligeros, conteniendo menos de 10 millones de parámetros. En múltiples dominios, incluyendo matemáticas, planificación y respuesta a preguntas de conocimiento general, igualan o incluso superan el rendimiento de los PRM que son hasta 810 veces más grandes. Nuestros hallazgos sugieren que los estados internos de los LLM codifican su incertidumbre y pueden servir como señales confiables para la verificación del razonamiento, ofreciendo una dirección prometedora hacia LLM introspectivos escalables y generalizables.
Los avances recientes en modelos lingüísticos de profundidad recurrente demuestran que la recurrencia puede desacoplar el cómputo durante el entrenamiento y el número de parámetros del cómputo durante la prueba. En este trabajo, estudiamos cómo convertir modelos lingüísticos preentrenados no recurrentes existentes en modelos de profundidad recurrente. Descubrimos que utilizar un currículum de recurrencias para aumentar la profundidad efectiva del modelo durante el entrenamiento preserva el rendimiento mientras reduce el coste computacional total. En nuestros experimentos sobre matemáticas, observamos que convertir modelos preentrenados en recurrentes produce un mejor rendimiento con un presupuesto de cómputo determinado que simplemente realizar post-entrenamiento en el modelo lingüístico no recurrente original.
El paradigma de pensamiento blando (soft-thinking) para el razonamiento de Modelos de Lenguaje Grandes (LLM) puede superar al razonamiento convencional de Cadena de Pensamiento (CoT) con tokens discretos en algunos escenarios, lo que subraya su valor investigativo y aplicado. Sin embargo, mientras que el patrón de razonamiento CoT con tokens discretos puede ser reforzado mediante algoritmos de optimización de políticas como la optimización de políticas relativas por grupos (GRPO), extender el patrón de pensamiento blando con Aprendizaje por Refuerzo (RL) sigue siendo un desafío. Esta dificultad surge de las complejidades de inyectar estocasticidad en los tokens de pensamiento blando y actualizar las políticas de pensamiento blando en consecuencia. Como resultado, los intentos previos de combinar pensamiento blando con GRPO típicamente rinden por debajo de sus contrapartes de GRPO con tokens discretos. Para liberar todo el potencial del pensamiento blando, este artículo presenta un novedoso algoritmo de optimización de políticas, SofT-GRPO, para reforzar LLMs bajo el patrón de razonamiento de pensamiento blando. SofT-GRPO inyecta ruido de Gumbel en los logits, emplea la técnica Gumbel-Softmax para evitar que los tokens de pensamiento blando queden fuera del espacio de incrustación preentrenado, y aproveja el truco de reparametrización en el gradiente de la política. Realizamos experimentos en LLMs base que van desde 1.5B hasta 7B de parámetros, y los resultados demuestran que SofT-GRPO permite que los LLMs de pensamiento blando superen ligeramente a GRPO con tokens discretos en Pass@1 (+0.13% en precisión promedio), mientras exhiben una mejora sustancial en Pass@32 (+2.19% en precisión promedio). Los códigos y los pesos están disponibles en https://github.com/zz1358m/SofT-GRPO-master.
El advenimiento de los Modelos de Lenguaje Grandes Multimodales (MLLMs) ha expandido las capacidades de la IA a modalidades visuales; sin embargo, los puntos de referencia de evaluación existentes se limitan a la comprensión de vídeos individuales, pasando por alto la necesidad crítica de comprensión multi-vídeo en escenarios del mundo real (por ejemplo, análisis deportivos y conducción autónoma). Para abordar esta brecha significativa, presentamos MVU-Eval, el primer punto de referencia integral para evaluar la Comprensión Multi-Vídeo en MLLMs. Específicamente, nuestro MVU-Eval evalúa principalmente ocho competencias fundamentales a través de 1.824 pares de preguntas y respuestas meticulosamente seleccionados, que abarcan 4.959 vídeos de diversos dominios, abordando tanto tareas de percepción básica como tareas de razonamiento de orden superior. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como la síntesis multi-sensor en sistemas autónomos y el análisis deportivo desde múltiples ángulos. Mediante una evaluación exhaustiva de modelos de código abierto y privativos de última generación, revelamos discrepancias de rendimiento significativas y limitaciones en la capacidad de los MLLMs actuales para realizar comprensión a través de múltiples vídeos. El punto de referencia estará disponible públicamente para impulsar la investigación futura.
Presentamos el Aprendizaje por Refuerzo (RL) con Entornos Verificables Adaptativos (RLVE), un enfoque que utiliza entornos verificables que generan problemas de forma procedural y proporcionan recompensas algorítmicamente verificables, para escalar el RL en modelos de lenguaje (LM). RLVE permite que cada entorno verificable adapte dinámicamente su distribución de dificultad de problemas a las capacidades del modelo de política a medida que avanza el entrenamiento. En contraste, las distribuciones de datos estáticas a menudo conducen a señales de aprendizaje que se desvanecen cuando los problemas son demasiado fáciles o demasiado difíciles para la política. Para implementar RLVE, creamos RLVE-Gym, un conjunto a gran escala de 400 entornos verificables desarrollados meticulosamente mediante ingeniería manual de entornos. Utilizando RLVE-Gym, demostramos que el escalado de entornos, es decir, la expansión de la colección de entornos de entrenamiento, mejora consistentemente las capacidades de razonamiento generalizables. RLVE con entrenamiento conjunto en los 400 entornos de RLVE-Gym produce una mejora absoluta promedio del 3.37% en seis benchmarks de razonamiento, partiendo de uno de los LM de razonamiento de 1.5B más potentes. En comparación, continuar el entrenamiento original de RL de este LM produce solo una ganancia absoluta promedio del 0.49%, a pesar de utilizar más de 3 veces más capacidad de cómputo. Publicamos nuestro código abiertamente.
Los agentes autónomos impulsados por Modelos de Lenguaje a Gran Escala (LLMs) han revolucionado el razonamiento y la resolución de problemas, pero permanecen estáticos después del entrenamiento, incapaces de crecer con la experiencia como lo hacen los seres inteligentes durante su despliegue. Presentamos Forward Learning with EXperience (FLEX), un paradigma de aprendizaje sin gradientes que permite a los agentes de LLMs evolucionar continuamente mediante la experiencia acumulada. Específicamente, FLEX cultiva una evolución escalable y heredable mediante la construcción de una biblioteca de experiencias estructurada a través de la reflexión continua sobre los éxitos y fracasos durante la interacción con el entorno. FLEX proporciona mejoras sustanciales en razonamiento matemático, retrosíntesis química y predicción de aptitud proteica (hasta un 23% en AIME25, 10% en USPTO50k y 14% en ProteinGym). Además, identificamos una clara ley de escalamiento del crecimiento experiencial y el fenómeno de la herencia de experiencia entre agentes, lo que marca un paso hacia una evolución continua de agentes escalable y heredable. Página del proyecto: https://flex-gensi-thuair.github.io.
Presentamos llama-embed-nemotron-8b, un modelo de embeddings de texto de pesos abiertos que logra un rendimiento de vanguardia en el ranking de referencia Multilingual Massive Text Embedding Benchmark (MMTEB) al 21 de octubre de 2025. Si bien los modelos recientes muestran un rendimiento sólido, sus datos o metodologías de entrenamiento a menudo no se divulgan por completo. Nuestro objetivo es abordar esto desarrollando un modelo completamente de código abierto, liberando públicamente sus pesos y estudios de ablación detallados, y planeando compartir los conjuntos de datos de entrenamiento curados. Nuestro modelo demuestra un rendimiento superior en todas las tareas principales de embeddings —incluyendo recuperación, clasificación y similitud semántica textual (STS)— y sobresale en escenarios multilingües desafiantes, como lenguajes de bajos recursos y configuraciones cross-lingual. Este rendimiento de vanguardia es impulsado por una novedosa mezcla de datos de 16.1 millones de pares consulta-documento, divididos entre 7.7 millones de muestras de conjuntos de datos públicos y 8.4 millones de ejemplos generados sintéticamente a partir de varios LLM de pesos abiertos. Una de nuestras contribuciones clave es un estudio de ablación detallado que analiza decisiones de diseño fundamentales, incluyendo una comparación de implementaciones de pérdida contrastiva, una evaluación de estrategias de generación de datos sintéticos (SDG) y el impacto de la fusión de modelos. El modelo llama-embed-nemotron-8b es un modelo consciente de instrucciones, que admite instrucciones definidas por el usuario para mejorar el rendimiento en casos de uso específicos. Esta combinación de rendimiento de primer nivel, amplia aplicabilidad y flexibilidad impulsada por el usuario le permite servir como una solución universal de embeddings de texto.
La generación de modelos editables de CAD 3D a partir de lenguaje natural sigue siendo un desafío, ya que los sistemas existentes de texto-a-CAD producen mallas o dependen de datos escasos de historial de diseño. Presentamos NURBGen, el primer marco de trabajo que genera modelos de CAD 3D de alta fidelidad directamente desde texto utilizando B-Splines Racionales No Uniformes (NURBS). Para lograrlo, ajustamos un modelo de lenguaje grande (LLM) para traducir textos de forma libre a representaciones JSON que contienen parámetros de superficie NURBS (es decir, puntos de control, vectores de nudo, grados y pesos racionales), los cuales pueden convertirse directamente al formato BRep usando Python. Además, proponemos una representación híbrida que combina NURBS sin recortar con primitivas analíticas para manejar superficies recortadas y regiones degeneradas de manera más robusta, reduciendo simultáneamente la complejidad de tokens. Adicionalmente, introducimos partABC, un subconjunto curado del conjunto de datos ABC que consiste en componentes individuales de CAD, anotados con descripciones detalladas mediante una canalización de anotación automatizada. NURBGen demuestra un rendimiento sólido en diversos prompts, superando métodos anteriores en fidelidad geométrica y precisión dimensional, según lo confirman evaluaciones de expertos. El código y el conjunto de datos serán publicados abiertamente.
Se suele atribuir al aprendizaje por refuerzo (RL) la mejora del razonamiento y la generalización de los modelos de lenguaje a costa de degradar el conocimiento memorizado. Cuestionamos esta narrativa al observar que los modelos potenciados con RL superan consistentemente a sus contrapartes base y ajustadas por supervisión (SFT) en tareas puras de recuperación de conocimiento, particularmente aquellas que requieren el recorrido de conocimiento estructurado y jerárquico (por ejemplo, códigos médicos). Nuestra hipótesis es que estas mejoras no provienen de datos recién adquiridos, sino de habilidades procedimentales mejoradas para navegar y buscar dentro de las jerarquías de conocimiento existentes en los parámetros del modelo. Para respaldar esta hipótesis, demostramos que la indicación estructurada, que guía explícitamente a los modelos SFT a través del recorrido jerárquico, recupera la mayor parte de la brecha de rendimiento (reduciendo de 24 pp a 7 pp en MedConceptsQA para DeepSeek-V3/R1). Además, encontramos que, si bien la indicación mejora la precisión de la respuesta final, los modelos potenciados con RL conservan una capacidad superior para recordar las rutas procedimentales correctas en tareas de recuperación profunda. Finalmente, nuestro análisis de activaciones internas por capas revela que, si bien las representaciones fácticas (por ejemplo, las activaciones para la afirmación "el código 57.95 se refiere a infección urinaria") mantienen una alta similitud de coseno entre los modelos SFT y RL, las representaciones de consulta (por ejemplo, "qué es el código 57.95") divergen notablemente, lo que indica que el RL transforma principalmente cómo los modelos recorren el conocimiento, más que la representación del conocimiento en sí.
Si bien el Aprendizaje por Refuerzo para Recompensas Verificables (RLVR) es potente para entrenar modelos de razonamiento a gran escala, su dinámica de entrenamiento alberga un desafío crítico: el sobreajuste del RL, donde los modelos ganan recompensas de entrenamiento pero pierden generalización. Nuestro análisis revela que esto está impulsado por una sobre-especialización de la política y el olvido catastrófico de las diversas soluciones generadas durante el entrenamiento. La optimización estándar descarta esta valiosa diversidad de políticas entre pasos. Para abordar esto, presentamos RLoop, un marco de auto-mejora basado en la inicialización iterativa de políticas. RLoop transforma el proceso de entrenamiento estándar en un ciclo virtuoso: primero utiliza RL para explorar el espacio de soluciones desde una política dada, luego filtra las trayectorias exitosas para crear un conjunto de datos experto. Este conjunto de datos se utiliza mediante Fine-Tuning por Muestreo de Rechazo (RFT) para refinar la política inicial, creando un punto de partida superior para la siguiente iteración. Este bucle de exploración y explotación mediante reinicialización iterativa convierte efectivamente las variaciones transitorias de la política en ganancias robustas de rendimiento. Nuestros experimentos muestran que RLoop mitiga el olvido y mejora sustancialmente la generalización, aumentando la precisión promedio en un 9% y pass@32 en más de un 15% en comparación con el RL estándar.
Los modelos de difusión de texto a imagen generan imágenes de alta calidad, pero alinearlas con las preferencias humanas sigue siendo un desafío. Revisamos la Optimización Directa de Preferencias (DPO) basada en difusión para estos modelos e identificamos una patología crítica: ampliar el margen de preferencia no necesariamente mejora la calidad de la generación. En particular, el objetivo estándar de Diffusion-DPO puede aumentar el error de reconstrucción tanto de la rama ganadora como de la perdedora. En consecuencia, la degradación de las salidas menos preferidas puede volverse lo suficientemente severa como para que la rama preferida también se vea afectada negativamente, incluso a medida que crece el margen. Para abordar esto, presentamos Diffusion-SDPO, una regla de actualización protegida que preserva la rama ganadora escalando adaptativamente el gradiente de la perdedora según su alineación con el gradiente de la ganadora. Un análisis de primer orden produce un coeficiente de escalado en forma cerrada que garantiza que el error de la salida preferida no aumente en cada paso de optimización. Nuestro método es simple, independiente del modelo, ampliamente compatible con los marcos de alineación estilo DPO existentes y añade solo una sobrecarga computacional marginal. En benchmarks estándar de texto a imagen, Diffusion-SDPO ofrece ganancias consistentes sobre los baselines de aprendizaje por preferencias en métricas automatizadas de preferencia, estética y alineación con el prompt. El código está disponible públicamente en https://github.com/AIDC-AI/Diffusion-SDPO.
El rápido progreso de los grandes modelos de lenguaje (LLM) ha impulsado numerosas aplicaciones, aunque la inferencia eficiente en lote único sigue siendo vital para la inteligencia en el dispositivo. Si bien los FPGAs ofrecen un control de datos de grano fino y alta eficiencia energética, las recientes optimizaciones de las GPU han reducido su ventaja, especialmente bajo cómputo basado en operaciones aritméticas. Para superar esto, aprovechamos la abundante memoria en el chip de los FPGAs para cambiar la inferencia de LLMs de un cómputo aritmético a uno basado en memoria mediante búsquedas en tablas. Presentamos LUT-LLM, el primer acelerador para FPGA que permite la inferencia de LLMs de 1B+ mediante operaciones de memoria con cuantización vectorial. Nuestro análisis identifica la co-cuantización de activaciones y pesos como el esquema más efectivo, respaldado por (1) búsqueda paralela de centroides consciente del ancho de banda, (2) búsquedas eficientes en tablas 2D, y (3) un diseño híbrido espaciotemporal que minimiza el almacenamiento en caché de datos. Implementado en un AMD V80 FPGA para un modelo personalizado Qwen 3 de 1.7B, LUT-LLM logra una latencia 1.66 veces menor que la AMD MI210 y una eficiencia energética 1.72 veces mayor que la NVIDIA A100, escalando a modelos de 32B con una ganancia de eficiencia de 2.16x frente a la A100.
Los recientes avances en razonamiento multimodal han estado impulsados en gran medida por conjuntos de datos no divulgados y recetas propietarias de síntesis de datos, lo que deja abiertas las cuestiones sobre cómo construir sistemáticamente conjuntos de datos de razonamiento a gran escala y centrados en la visión, particularmente para tareas que van más allá de las matemáticas visuales. En este trabajo, presentamos un nuevo marco de generación de datos de razonamiento que abarca diversas habilidades y niveles de complejidad con más de 1 millón de preguntas sintéticas de alta calidad centradas en la visión. El conjunto de datos también incluye datos de preferencia y *prompts* de instrucción que admiten tanto RL (*Reinforcement Learning*) fuera de línea como en línea. Nuestro marco de síntesis procede en dos etapas: (1) escala; y (2) complejidad. Los rastros de razonamiento se sintetizan luego mediante un proceso de dos etapas que aprovecha los VLM (*Vision-Language Models*) y los LLM (*Large Language Models*) de razonamiento, produciendo trazas CoT (*Chain-of-Thought*) para VLM que capturan la riqueza y los diversos comportamientos cognitivos encontrados en los modelos de razonamiento de vanguardia. Notablemente, demostramos que el ajuste fino (*finetuning*) de Qwen2.5-VL-7B con nuestros datos supera a todos los modelos de referencia (*baselines*) de datos abiertos en todos los puntos de referencia (*benchmarks*) centrados en la visión evaluados, e incluso supera a modelos fuertes de datos cerrados como MiMo-VL-7B-RL en V* Bench, CV-Bench y MMStar-V. Quizás lo más sorprendente es que, a pesar de estar completamente centrado en la visión, nuestros datos se transfieren positivamente al razonamiento basado únicamente en texto (MMLU-Pro) y al razonamiento auditivo (MMAU), lo que demuestra su eficacia. Del mismo modo, a pesar de no contener vídeos ni datos visuales de embodiment, observamos ganancias notables al evaluar en un punto de referencia de preguntas y respuestas de embodiment con evidencia única (NiEH). Finalmente, utilizamos nuestros datos para analizar toda la canalización de post-entrenamiento de VLM. Nuestro análisis empírico destaca que (i) el SFT (*Supervised Fine-Tuning*) en datos de alta calidad con trazas de razonamiento no lineales es esencial para un RL en línea efectivo, (ii) el RL fuera de línea por etapas iguala el rendimiento del RL en línea mientras reduce las demandas computacionales, y (iii) un SFT cuidadoso en datos de alta calidad puede mejorar sustancialmente la transferencia fuera de dominio y entre modalidades.
Los agentes de IA capaces de controlar interfaces de usuario tienen el potencial de transformar la interacción humana con los dispositivos digitales. Para acelerar esta transformación, son esenciales dos componentes fundamentales: conjuntos de datos de alta calidad que permitan a los agentes alcanzar objetivos complejos y relevantes para humanos, y métodos de evaluación robustos que permitan a investigadores y profesionales mejorar rápidamente el rendimiento de los agentes. En este artículo, presentamos DigiData, un conjunto de datos multimodal, a gran escala, de alta calidad y diverso, diseñado para entrenar agentes de control móvil. A diferencia de los conjuntos de datos existentes, que derivan objetivos de interacciones no estructuradas, DigiData está meticulosamente construido mediante una exploración exhaustiva de las funciones de las aplicaciones, lo que resulta en una mayor diversidad y una mayor complejidad de objetivos. Adicionalmente, presentamos DigiData-Bench, un punto de referencia para evaluar agentes de control móvil en tareas complejas del mundo real. Demostramos que la métrica de precisión por pasos comúnmente utilizada es insuficiente para evaluar de manera confiable a los agentes de control móvil y, para abordar esto, proponemos protocolos de evaluación dinámicos y evaluaciones potenciadas por IA como alternativas rigurosas para la valoración de agentes. Nuestras contribuciones buscan avanzar significativamente en el desarrollo de agentes de control móvil, allanando el camino para interacciones humano-dispositivo más intuitivas y efectivas.
Debido a su capacidad para seguir instrucciones en lenguaje natural, los modelos de visión-lenguaje-acción (VLA) son cada vez más frecuentes en el ámbito de la IA encarnada, tras el éxito generalizado de sus precursores: los modelos de lenguaje grande (LLM) y los modelos de visión y lenguaje (VLM). En este artículo, analizamos 10 hitos principales en el desarrollo continuo de los modelos VLA: multimodalidad, razonamiento, datos, evaluación, generalización de acciones entre robots, eficiencia, coordinación corporal completa, seguridad, agentes y coordinación con humanos. Además, discutimos las tendencias emergentes del uso de la comprensión espacial, el modelado de la dinámica del mundo, el post-entrenamiento y la síntesis de datos, todo ello con el objetivo de alcanzar estos hitos. A través de estas discusiones, esperamos llamar la atención sobre las vías de investigación que pueden acelerar el desarrollo de los modelos VLA hacia una aceptación más amplia.
La pintura inducida por música es una práctica artística singular donde se crean obras visuales bajo la influencia de la música. Evaluar si una pintura refleja fielmente la música que la inspiró constituye una tarea de evaluación perceptiva compleja. Los métodos existentes se basan principalmente en modelos de reconocimiento de emociones para valorar la similitud entre música y pintura, pero dichos modelos introducen un ruido considerable y pasan por alto claves perceptivas más allá de la emoción. Para abordar estas limitaciones, proponemos un marco novedoso de evaluación de pintura inducida por música que modela directamente la coherencia perceptiva entre el arte musical y visual. Presentamos MPD, el primer conjunto de datos a gran escala de pares música-pintura anotado por expertos en base a coherencia perceptiva. Para manejar mejor casos ambiguos, recopilamos adicionalmente anotaciones de preferencias por pares. Sobre este conjunto de datos, presentamos MPJudge, un modelo que integra características musicales en un codificador visual mediante un mecanismo de fusión basado en modulación. Para aprender efectivamente de casos ambiguos, adoptamos la Optimización Directa de Preferencias en el entrenamiento. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques existentes. Resultados cualitativos muestran además que nuestro modelo identifica con mayor precisión las regiones pictóricas relevantes para la música.
La comprensión de anomalías en video (VAU) tiene como objetivo proporcionar una interpretación detallada y una comprensión semántica de eventos anómalos en videos, superando las limitaciones de los métodos tradicionales que se centran únicamente en detectar y localizar anomalías. Sin embargo, los enfoques existentes a menudo descuidan las relaciones causales más profundas y las interacciones entre objetos, aspectos críticos para comprender comportamientos anómalos. En este artículo, proponemos VADER, un marco impulsado por LLM para la comprensión de anomalías en video, que integra características de relación de objetos en fotogramas clave con pistas visuales para mejorar la comprensión de anomalías a partir de video. Específicamente, VADER aplica primero un Puntuador de Anomalías para asignar puntuaciones de anomalía por fotograma, seguido de una estrategia de Muestreo Consciente del Contexto (CAES) para capturar el contexto causal de cada evento anómalo. Un Extractor de Características de Relación y un Codificador de Relaciones Contrastivo (CORE) modelan conjuntamente las interacciones dinámicas entre objetos, produciendo representaciones relacionales compactas para el razonamiento subsiguiente. Estas pistas visuales y relacionales se integran con LLMs para generar descripciones detalladas y fundamentadas causalmente, y para respaldar un robusto sistema de respuesta a preguntas relacionadas con anomalías. Los experimentos en múltiples benchmarks de VAU del mundo real demuestran que VADER logra resultados sólidos en tareas de descripción, explicación y razonamiento causal de anomalías, avanzando la frontera del análisis explicable de anomalías en video.
Presentamos DIMO, un enfoque generativo capaz de producir movimientos 3D diversos para objetos arbitrarios a partir de una única imagen. La idea central de nuestro trabajo es aprovechar los ricos *priors* presentes en modelos de video bien entrenados para extraer los patrones de movimiento comunes y luego incrustarlos en un espacio latente compartido de baja dimensionalidad. Específicamente, primero generamos múltiples videos del mismo objeto con movimientos diversos. Luego, incrustamos cada movimiento en un vector latente y entrenamos un decodificador de movimiento compartido para aprender la distribución de movimientos representada por una representación de movimiento estructurada y compacta, es decir, trayectorias de puntos clave neuronales. Los Gaussianos 3D canónicos son entonces impulsados por estos puntos clave y fusionados para modelar la geometría y la apariencia. Durante la inferencia, con el espacio latente ya aprendido, podemos muestrear instantáneamente diversos movimientos 3D en un único paso hacia adelante y admitir varias aplicaciones interesantes, incluida la interpolación de movimiento 3D y la generación de movimiento guiada por lenguaje. Nuestra página del proyecto está disponible en https://linzhanm.github.io/dimo.
La optimización del rendimiento de repositorios de software a gran escala requiere experiencia en razonamiento de código e ingeniería de software (SWE) para reducir el tiempo de ejecución preservando la corrección del programa. Sin embargo, la mayoría de los puntos de referencia enfatizan qué corregir en lugar de cómo corregir el código. Presentamos SWE-fficiency, un benchmark para evaluar la optimización de rendimiento a nivel de repositorio en cargas de trabajo reales. Nuestra suite contiene 498 tareas distribuidas en nueve repositorios ampliamente utilizados de ciencia de datos, aprendizaje automático y HPC (por ejemplo, numpy, pandas, scipy): dado un código base completo y una carga de trabajo lenta, un agente debe investigar la semántica del código, localizar cuellos de botella y pruebas relevantes, y producir un parche que iguale o supere la aceleración experta mientras pasa las mismas pruebas unitarias. Para permitir esta evaluación de cómo corregir, nuestra canalización automatizada extrae solicitudes de extracción de GitHub para ediciones de mejora de rendimiento, combinando filtrado por palabras clave, análisis estático, herramientas de cobertura y validación de ejecución para confirmar tanto las líneas base de aceleración experta como identificar las pruebas unitarias relevantes del repositorio. La evaluación empírica de agentes de última generación revela un rendimiento significativamente inferior. En promedio, los agentes logran menos de 0.15 veces la aceleración experta: los agentes tienen dificultades para localizar oportunidades de optimización, razonar sobre la ejecución entre funciones y mantener la corrección en las ediciones propuestas. Publicamos el benchmark y la canalización de datos adjunta para facilitar la investigación sobre ingeniería de rendimiento automatizada y razonamiento de software de largo alcance.
Si bien los Modelos de Visión y Lenguaje (VVL) post-entrenados con Aprendizaje por Refuerzo (RL) muestran capacidades de razonamiento general impresionantes, su evaluación a menudo se limita a tareas dominadas por el lenguaje (por ejemplo, matemáticas). Esto plantea una pregunta crítica: ¿puede el post-entrenamiento con RL realmente extender la frontera de capacidad inherente de un VVL base, particularmente para tareas espaciales centradas en la visión en las que inicialmente falla? Para investigar esto, presentamos Ariadne, un marco que utiliza laberintos sintéticos para el razonamiento espacial multi-paso, donde la dificultad de la tarea (por ejemplo, longitud de la ruta, giros) se controla con precisión. Aprovechamos este entorno controlable para entrenar VVL utilizando Aprendizaje por Refuerzo con Recompensas Verificadas (RLVR) en un currículo consciente de la dificultad. Sorprendentemente, tras el post-entrenamiento con RLVR, el VVL logra una precisión superior al 50% en un conjunto de problemas donde el modelo base obtuvo un 0%, lo que demuestra que nuestro enfoque expande la frontera de capacidad inicial del modelo. Para evaluar la viabilidad en el mundo real, evaluamos la generalización fuera de distribución (OOD) en benchmarks prácticos. A pesar de entrenarse únicamente con muestras de laberintos sintéticos, Ariadne logra mejoras significativas de cero disparos, con un promedio del 16% en MapBench (por ejemplo, navegación en museos) y del 24% en ReasonMap (tareas de transbordo en metro). Estos resultados confirman que nuestro método no solo amplía los límites fundamentales del modelo, sino que también mejora su generalización al razonamiento espacial del mundo real. Reconocemos que nuestro estudio se limita a la fase de post-entrenamiento, dada la opacidad de los datos de pre-entrenamiento, y esperamos que nuestra investigación motive trabajos futuros sobre alineación especializada que extienda las capacidades.
El Reconocimiento de Emociones en Conversaciones (ERC) es una tarea crucial para comprender las emociones humanas y posibilitar una interacción hombre-máquina natural. Aunque los Modelos de Lenguaje a Gran Escala (LLMs) han demostrado recientemente un gran potencial en este campo, su capacidad para capturar las conexiones intrínsecas entre emociones explícitas e implícitas sigue siendo limitada. Proponemos un novedoso marco de entrenamiento para ERC, PRC-Emo, que integra la ingeniería de prompts, la recuperación de demostraciones y el aprendizaje curricular, con el objetivo de explorar si los LLMs pueden percibir efectivamente las emociones en contextos conversacionales. Específicamente, diseñamos plantillas de prompts sensibles a las emociones basadas en indicios emocionales explícitos e implícitos para guiar mejor al modelo en la comprensión de los estados psicológicos del hablante. Construimos el primer repositorio de recuperación de demostraciones dedicado a ERC, que incluye muestras de entrenamiento de conjuntos de datos ampliamente utilizados, así como ejemplos de diálogo de alta calidad generados por LLMs y verificados manualmente. Además, introducimos una estrategia de aprendizaje curricular en el proceso de ajuste fino LoRA, incorporando cambios emocionales ponderados entre enunciados del mismo hablante y de diferentes hablantes para asignar niveles de dificultad a las muestras de diálogo, que luego se organizan en una secuencia de entrenamiento de fácil a difícil. Los resultados experimentales en dos conjuntos de datos de referencia —IEMOCAP y MELD— muestran que nuestro método logra un nuevo rendimiento de vanguardia (SOTA), demostrando la efectividad y generalizabilidad de nuestro enfoque para mejorar la comprensión emocional basada en LLMs.
Los grandes modelos de lenguaje (LLM) han logrado recientemente resultados impresionantes en reconocimiento del habla a través de múltiples modalidades, incluyendo el Reconocimiento Auditivo del Habla (ASR), el Reconocimiento Visual del Habla (VSR) y el Reconocimiento Audio-Visual del Habla (AVSR). A pesar de este progreso, los enfoques actuales basados en LLM generalmente abordan cada tarea de forma independiente, entrenando modelos separados que incrementan el uso de recursos computacionales y de implementación, al tiempo que pierden posibles sinergias entre tareas. También dependen de una compresión de tokens a tasa fija, lo que restringe la flexibilidad para equilibrar la precisión con la eficiencia. Estas limitaciones subrayan la necesidad de un marco unificado que pueda soportar ASR, VSR y AVSR permitiendo simultáneamente una inferencia elástica. Con este fin, presentamos Omni-AVSR, un LLM audio-visual unificado que combina un entrenamiento eficiente multi-granular con una adaptación eficiente en parámetros. Específicamente, adaptamos el paradigma de aprendizaje de representaciones *matryoshka* para entrenar eficientemente a través de múltiples granularidades de audio y video, reduciendo el uso inherente de recursos de entrenamiento. Además, exploramos tres estrategias basadas en LoRA para adaptar el LLM base, equilibrando la especialización compartida y la específica por tarea. Los experimentos en LRS2 y LRS3 muestran que Omni-AVSR logra una precisión comparable o superior a los baselines de vanguardia mientras entrena un único modelo con un uso de recursos de entrenamiento e implementación sustancialmente menor. El modelo también mantiene su robustez bajo ruido acústico, y analizamos su comportamiento de escalabilidad a medida que aumenta el tamaño del LLM, proporcionando insights sobre la compensación entre rendimiento y eficiencia.