ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

CAR-bench: Evaluación de la Consistencia y Conciencia de los Límites de Agentes LLM bajo Incertidumbre del Mundo Real
CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Jan 29
ByJohannes Kirmayr, Lukas Stappen, Elisabeth André
64
4

Los puntos de referencia existentes para agentes de modelos de lenguaje grandes (LLM) se centran en la finalización de tareas en entornos idealistas, pero pasan por alto la fiabilidad en aplicaciones reales orientadas al usuario. En dominios como los asistentes de voz para automóviles, los usuarios suelen realizar peticiones incompletas o ambiguas, creando una incertidumbre intrínseca que los agentes deben gestionar mediante diálogo, uso de herramientas y adherencia a políticas. Presentamos CAR-bench, un punto de referencia para evaluar la coherencia, el manejo de la incertidumbre y la conciencia de capacidades en agentes LLM multi-turno que utilizan herramientas, en el dominio de un asistente para automóvil. El entorno incluye un usuario simulado por un LLM, políticas de dominio y 58 herramientas interconectadas que abarcan navegación, productividad, carga y control del vehículo. Más allá de la finalización estándar de tareas, CAR-bench introduce tareas de Alucinación que prueban la conciencia de los límites del agente ante herramientas o información faltante, y tareas de Desambiguación que requieren resolver la incertidumbre mediante aclaraciones o recopilación interna de información. Los resultados de referencia revelan grandes brechas entre el éxito ocasional y el consistente en todos los tipos de tareas. Incluso los LLMs de razonamiento más avanzados logran menos del 50% de tasa de aprobación consistente en las tareas de Desambiguación debido a acciones prematuras, y frecuentemente violan políticas o fabrican información para satisfacer las peticiones del usuario en las tareas de Alucinación, subrayando la necesidad de agentes LLM más fiables y autoconscientes en entornos del mundo real.

2

Sensibilidad-Aracnida: Detección Intrínseca de Riesgos para una Defensa Eficaz de Agentes mediante un Tamizaje Adaptativo Jerárquico
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Feb 5
ByZhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
58
4

A medida que los grandes modelos de lenguaje (LLM) evolucionan hacia agentes autónomos, su aplicabilidad en el mundo real se ha expandido significativamente, acompañada de nuevos desafíos de seguridad. La mayoría de los mecanismos de defensa de agentes existentes adoptan un paradigma de verificación obligatoria, en el que la validación de seguridad se activa forzosamente en etapas predefinidas del ciclo de vida del agente. En este trabajo, argumentamos que la seguridad efectiva de los agentes debe ser intrínseca y selectiva, en lugar de estar desacoplada arquitectónicamente y ser obligatoria. Proponemos el framework Spider-Sense, un framework de defensa basado en eventos que utiliza la Detección Intrínseca de Riesgo (IRS, por sus siglas en inglés), que permite a los agentes mantener una vigilancia latente y activar defensas solo ante la percepción de riesgo. Una vez activado, Spider-Sense invoca un mecanismo de defensa jerárquico que equilibra eficiencia y precisión: resuelve patrones conocidos mediante una comparación de similitud ligera, mientras escala los casos ambiguos a un razonamiento interno profundo, eliminando así la dependencia de modelos externos. Para facilitar una evaluación rigurosa, presentamos S²Bench, un benchmark consciente del ciclo de vida que presenta ejecución realista de herramientas y ataques multi-etapa. Experimentos exhaustivos demuestran que Spider-Sense logra un rendimiento defensivo competitivo o superior, alcanzando la Tasa de Éxito de Ataque (ASR) y la Tasa de Falsos Positivos (FPR) más bajas, con solo una sobrecarga de latencia marginal del 8.3%.

3

Optimización de Políticas de Secuencia sin Sesgo de Longitud: Revelando y Controlando la Variación en la Duración de Respuestas en RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

Feb 5
ByFanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
45
4

Las aplicaciones recientes de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a Modelos de Lenguaje a Gran Escala (LLM) y Modelos de Lenguaje Visual (VLM) han demostrado un éxito significativo en la mejora de las capacidades de razonamiento para tareas complejas. Durante el entrenamiento con RLVR, un aumento en la longitud de la respuesta suele considerarse un factor clave que contribuye al crecimiento de la capacidad de razonamiento. Sin embargo, los patrones de cambio en la longitud de la respuesta varían significativamente entre diferentes algoritmos de RLVR durante el proceso de entrenamiento. Para proporcionar una explicación fundamental de estas variaciones, este artículo realiza un análisis en profundidad de los componentes de los algoritmos de RLVR predominantes. Presentamos un análisis teórico de los factores que influyen en la longitud de la respuesta y validamos nuestra teoría mediante una extensa experimentación. Basándonos en estos hallazgos teóricos, proponemos el algoritmo de Optimización de Políticas de Secuencia sin Sesgo de Longitud (LUSPO). Específicamente, rectificamos el sesgo de longitud inherente a la Optimización de Políticas de Secuencia Grupal (GSPO), haciendo que su función de pérdida sea insesgada con respecto a la longitud de la respuesta y resolviendo así el problema del colapso en la longitud de la respuesta. Realizamos extensos experimentos en benchmarks de razonamiento matemático y escenarios de razonamiento multimodal, donde LUSPO logra consistentemente un rendimiento superior. Los resultados empíricos demuestran que LUSPO representa una estrategia de optimización novedosa y de vanguardia en comparación con métodos existentes como GRPO y GSPO.

4

MemSkill: Aprendizaje y Evolución de Habilidades de Memoria para Agentes de Auto-evolución
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Feb 2
ByHaozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang, Haodong Yue, Wenya Wang
31
3

La mayoría de los sistemas de memoria para agentes basados en Modelos de Lenguaje a Gran Escala (LLM) dependen de un pequeño conjunto de operaciones estáticas y diseñadas manualmente para extraer recuerdos. Estos procedimientos fijos codifican de forma rígida los prejuicios humanos sobre qué almacenar y cómo revisar la memoria, lo que los hace inflexibles ante diversos patrones de interacción e ineficientes con historiales largos. Para abordar este problema, presentamos MemSkill, un sistema que replantea estas operaciones como habilidades de memoria aprendibles y evolutivas: rutinas estructuradas y reutilizables para extraer, consolidar y podar información de las trazas de interacción. Inspirado por la filosofía de diseño de las habilidades de los agentes, MemSkill emplea un controlador que aprende a seleccionar un pequeño conjunto de habilidades relevantes, junto con un ejecutor basado en un LLM que produce recuerdos guiados por dichas habilidades. Más allá de aprender la selección de habilidades, MemSkill introduce un diseñador que revisa periódicamente casos difíciles donde las habilidades seleccionadas producen recuerdos incorrectos o incompletos, y hace evolucionar el conjunto de habilidades proponiendo refinamientos y nuevas habilidades. En conjunto, MemSkill forma un procedimiento de bucle cerrado que mejora tanto la política de selección de habilidades como el conjunto de habilidades en sí. Los experimentos en LoCoMo, LongMemEval, HotpotQA y ALFWorld demuestran que MemSkill mejora el rendimiento en las tareas respecto a líneas base sólidas y se generaliza bien en diferentes entornos. Análisis adicionales arrojan luz sobre cómo evolucionan las habilidades, ofreciendo insights hacia una gestión de memoria más adaptable y auto-evolutiva para agentes LLM.

5

Forzamiento de Contexto: Generación de Vídeo Autoregresiva Consistente con Contexto Largo
Context Forcing: Consistent Autoregressive Video Generation with Long Context

Feb 5
ByShuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
27
7

Los enfoques recientes para la generación de vídeos largos en tiempo real suelen emplear estrategias de ajuste por flujo continuo, intentando entrenar un estudiante de contexto largo utilizando un profesor de contexto corto (sin memoria). En estos marcos, el estudiante realiza despliegues largos pero recibe supervisión de un profesor limitado a ventanas cortas de 5 segundos. Esta discrepancia estructural crea un desajuste crítico entre estudiante y profesor: la incapacidad del profesor para acceder al historial a largo plazo le impide guiar al estudiante en las dependencias temporales globales, limitando efectivamente la longitud de contexto del estudiante. Para resolver esto, proponemos Context Forcing, un marco novedoso que entrena un estudiante de contexto largo mediante un profesor de contexto largo. Al garantizar que el profesor conozca el historial completo de generación, eliminamos el desajuste en la supervisión, permitiendo el entrenamiento robusto de modelos capaces de mantener coherencia a largo plazo. Para hacer esto computacionalmente viable en duraciones extremas (por ejemplo, 2 minutos), introducimos un sistema de gestión de contexto que transforma el crecimiento lineal del contexto en una arquitectura de Memoria Lenta-Rápida, reduciendo significativamente la redundancia visual. Resultados exhaustivos demuestran que nuestro método permite longitudes de contexto efectivas superiores a 20 segundos (de 2 a 10 veces más largas que métodos de vanguardia como LongLive e Infinite-RoPE). Al aprovechar este contexto extendido, Context Forcing preserva una coherencia superior durante largas duraciones, superando a los métodos de referencia más avanzados en varias métricas de evaluación de vídeo largo.

6

RISE-Video: ¿Pueden los generadores de video decodificar las reglas implícitas del mundo?
RISE-Video: Can Video Generators Decode Implicit World Rules?

Feb 5
ByMingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
25
3

Si bien los modelos generativos de video han logrado una notable fidelidad visual, su capacidad para internalizar y razonar sobre reglas implícitas del mundo sigue siendo una frontera crítica y poco explorada. Para cerrar esta brecha, presentamos RISE-Video, un pionero benchmark orientado al razonamiento para la síntesis de Texto-Imagen-a-Video (TI2V) que desplaza el enfoque evaluativo de la estética superficial al razonamiento cognitivo profundo. RISE-Video comprende 467 muestras meticulosamente anotadas por humanos que abarcan ocho categorías rigurosas, proporcionando un banco de pruebas estructurado para sondear la inteligencia del modelo a través de diversas dimensiones, que van desde el sentido común y la dinámica espacial hasta dominios temáticos especializados. Nuestro marco introduce un protocolo de evaluación multidimensional que consta de cuatro métricas: Alineación de Razonamiento, Consistencia Temporal, Racionalidad Física y Calidad Visual. Para respaldar aún más la evaluación escalable, proponemos un pipeline automatizado que aprovecha los Modelos Multimodales Grandes (LMMs) para emular la evaluación centrada en el humano. Experimentos exhaustivos con 11 modelos TI2V de vanguardia revelan deficiencias generalizadas en la simulación de escenarios complejos bajo restricciones implícitas, ofreciendo perspectivas críticas para el avance de futuros modelos generativos simuladores del mundo.

7

La predicción precisa de fallos en agentes no implica una prevención efectiva de los mismos.
Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Feb 3
ByRakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh
25
3

Se asume frecuentemente que las intervenciones proactivas de los modelos críticos de LLM mejoran la fiabilidad; sin embargo, se comprenden poco sus efectos en el momento del despliegue. Demostramos que un crítico binario de LLM con una alta precisión offline (AUROC 0,94) puede, no obstante, causar una severa degradación del rendimiento, induciendo un colapso de 26 puntos porcentuales (pp) en un modelo mientras afecta a otro en casi cero pp. Esta variabilidad demuestra que la precisión del crítico de LLM por sí sola es insuficiente para determinar si la intervención es segura. Identificamos una disyuntiva entre interrupción y recuperación: las intervenciones pueden recuperar trayectorias fallidas, pero también interrumpir trayectorias que habrían tenido éxito. Basándonos en esta idea, proponemos una prueba previa al despliegue que utiliza un pequeño piloto de 50 tareas para estimar si es probable que la intervención ayude o dañe, sin requerir un despliegue completo. En varios benchmarks, la prueba anticipa correctamente los resultados: la intervención degrada el rendimiento en tareas de alto éxito (0 a -26 pp), mientras que produce una mejora modesta en el benchmark ALFWorld de alto fracaso (+2,8 pp, p=0,014). Por lo tanto, el valor principal de nuestro marco de trabajo es identificar cuándo no intervenir, previniendo regresiones severas antes del despliegue.

8

ProAct: Mirada Prospectiva Agente en Entornos Interactivos
ProAct: Agentic Lookahead in Interactive Environments

Feb 5
ByYangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
21
3

Los agentes basados en modelos de lenguaje grandes (LLM) existentes presentan dificultades en entornos interactivos que requieren planificación a largo plazo, principalmente debido a la acumulación de errores al simular estados futuros. Para abordar este problema, proponemos ProAct, un marco que permite a los agentes internalizar un razonamiento prospectivo preciso mediante un paradigma de entrenamiento en dos etapas. Primero, introducimos la Destilación de Planificación Prospectiva Fundamentada (GLAD), donde el agente se somete a un ajuste fino supervisado en trayectorias derivadas de búsquedas basadas en el entorno. Al comprimir árboles de búsqueda complejos en cadenas de razonamiento causales y concisas, el agente aprende la lógica de la previsión sin la sobrecarga computacional de la búsqueda en tiempo de inferencia. En segundo lugar, para refinar aún más la precisión decisional, proponemos el Crítico de Monte Carlo (MC-Critic), un estimador de valor auxiliar plug-and-play diseñado para mejorar algoritmos de política de gradientes como PPO y GRPO. Al aprovechar simulaciones ligeras del entorno para calibrar las estimaciones de valor, MC-Critic proporciona una señal de baja varianza que facilita una optimización de políticas estable sin depender de una costosa aproximación de valor basada en modelos. Los experimentos en entornos tanto estocásticos (por ejemplo, 2048) como deterministas (por ejemplo, Sokoban) demuestran que ProAct mejora significativamente la precisión de la planificación. Notablemente, un modelo de 4B de parámetros entrenado con ProAct supera a todos los baselines de código abierto y rivaliza con los modelos cerrados state-of-the-art, al mismo tiempo que demuestra una generalización robusta a entornos no vistos. Los códigos y modelos están disponibles en https://github.com/GreatX3/ProAct.

9

Dr. Kernel: Aprendizaje por Refuerzo Aplicado Correctamente para la Generación de Kernels en Triton
Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Feb 5
ByWei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He
18
3

La calidad del kernel es crucial para sistemas de IA escalables, y permitir que los LLMs generen dicho código impulsaría el desarrollo de la IA. Sin embargo, entrenar LLMs para esta tarea requiere datos suficientes, un entorno robusto, y el proceso suele ser vulnerable a la manipulación de recompensas y a optimizaciones superficiales. En estos casos, los modelos pueden manipular las recompensas del entrenamiento y priorizar una corrección trivial sobre mejoras de velocidad significativas. En este artículo, estudiamos sistemáticamente el aprendizaje por refuerzo (RL) para la generación de kernels. Primero diseñamos KernelGYM, un entorno distribuido robusto en GPU que soporta verificación de manipulación de recompensas, recolección de datos de interacciones multi-turno y entrenamiento de RL a largo plazo. Basándonos en KernelGYM, investigamos métodos efectivos de RL multi-turno e identificamos un problema de gradiente de política sesgado causado por la auto-inclusión en GRPO. Para resolverlo, proponemos Refuerzo por Turno-Dejar-Uno-Fuera (TRLOO) para proporcionar una estimación de ventaja no sesgada para RL multi-turno. Para aliviar la optimización superficial, incorporamos corrección de desajuste para estabilidad del entrenamiento e introducimos Recompensas Basadas en Perfilado (PR) y Muestreo de Rechazo Basado en Perfilado (PRS) para superar el problema. El modelo entrenado, Dr.Kernel-14B, alcanza un rendimiento competitivo con Claude-4.5-Sonnet en Kernelbench. Finalmente, estudiamos el escalado secuencial en tiempo de prueba para Dr.Kernel-14B. En el subconjunto KernelBench Nivel-2, el 31.6% de los kernels generados logran al menos una aceleración de 1.2x sobre la referencia de Torch, superando a Claude-4.5-Sonnet (26.7%) y GPT-5 (28.6%). Al seleccionar el mejor candidato entre todos los turnos, esta tasa de aceleración de 1.2x aumenta aún más al 47.8%. Todos los recursos, incluidos entorno, código de entrenamiento, modelos y dataset, están disponibles en https://www.github.com/hkust-nlp/KernelGYM.

10

Distilación de Información Privilegiada para Modelos de Lenguaje
Privileged Information Distillation for Language Models

Feb 4
ByEmiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
17
3

La información privilegiada durante el entrenamiento (PI, por sus siglas en inglés) puede permitir que los modelos de lenguaje tengan éxito en tareas en las que de otro modo fracasarían, lo que la convierte en una herramienta poderosa para el aprendizaje por refuerzo en entornos difíciles y de horizonte largo. Sin embargo, transferir las capacidades aprendidas con PI a políticas que deben actuar sin ella en el momento de la inferencia sigue siendo un desafío fundamental. Estudiamos este problema en el contexto de la destilación de modelos de vanguardia para entornos agentivos de múltiples turnos, donde los sistemas de código cerrado normalmente ocultan su razonamiento interno y solo exponen trayectorias de acciones. Esto rompe las canalizaciones de destilación estándar, ya que el comportamiento exitoso es observable pero el proceso de razonamiento no. Para ello, presentamos π-Distill, un objetivo conjunto de profesor-estudiante que entrena a un profesor condicionado por PI y a un estudiante no condicionado simultáneamente utilizando el mismo modelo. Adicionalmente, también presentamos la Auto-Destilación sobre la Política (OPSD, por sus siglas en inglés), un enfoque alternativo que entrena utilizando Aprendizaje por Refuerzo (RL) con una penalización de KL inversa entre el estudiante y el profesor condicionado por PI. Demostramos que ambos algoritmos destilan efectivamente a agentes de vanguardia utilizando PI que solo contiene acciones. Específicamente, encontramos que π-Distill y, en algunos casos, OPSD, superan a las prácticas estándar de la industria (ajuste fino supervisado seguido de RL) que asumen acceso a una supervisión completa de Cadena de Pensamiento en múltiples benchmarks agentivos, modelos y formas de PI. Complementamos nuestros resultados con un análisis extenso que caracteriza los factores que permiten un aprendizaje efectivo con PI, centrándonos principalmente en π-Distill y caracterizando cuándo OPSD es competitivo.

11

Dirigiendo LLMs mediante Supervisión Interactiva Escalable
Steering LLMs via Scalable Interactive Oversight

Feb 4
ByEnyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
16
3

A medida que los Modelos de Lenguaje a Gran Escala automatizan cada vez más tareas complejas de largo horizonte, como la programación por "vibes", ha surgido una brecha de supervisión. Si bien los modelos sobresalen en la ejecución, los usuarios a menudo luchan por guiarlos de manera efectiva debido a conocimientos insuficientes del dominio, la dificultad para articular una intención precisa y la incapacidad de validar de forma fiable resultados complejos. Esto presenta un desafío crítico en la supervisión escalable: permitir que los humanos dirijan de manera responsable sistemas de IA en tareas que superan su propia capacidad para especificar o verificar. Para abordarlo, proponemos la Supervisión Interactiva Escalable, un marco que descompone la intención compleja en un árbol recursivo de decisiones manejables para amplificar la supervisión humana. En lugar de depender de indicaciones abiertas, nuestro sistema obtiene retroalimentación de baja carga en cada nodo y agrega recursivamente estas señales en una guía global precisa. Validado en una tarea de desarrollo web, nuestro marco permite a no expertos producir Documentos de Requisitos de Producto de nivel experto, logrando una mejora del 54% en la alineación. Crucialmente, demostramos que este marco puede optimizarse mediante Aprendizaje por Refuerzo utilizando únicamente la retroalimentación del usuario en línea, ofreciendo una vía práctica para mantener el control humano a medida que la IA escala.

12

Búsqueda Semántica sobre 9 Millones de Teoremas Matemáticos
Semantic Search over 9 Million Mathematical Theorems

Feb 5
ByLuke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Giovanni Inchiostro, Vasily Ilin
16
4

La búsqueda de resultados matemáticos sigue siendo difícil: la mayoría de las herramientas existentes recuperan artículos completos, mientras que los matemáticos y los agentes de demostración de teoremas a menudo buscan un teorema, lema o proposición específico que responda a una consulta. Si bien la búsqueda semántica ha experimentado un rápido progreso, su comportamiento en corpus grandes y altamente técnicos, como los teoremas matemáticos de nivel de investigación, sigue siendo poco conocido. En este trabajo, introducimos y estudiamos la recuperación semántica de teoremas a gran escala sobre un corpus unificado de 9,2 millones de enunciados de teoremas extraídos de arXiv y otras siete fuentes, que representa el corpus más grande disponible públicamente de teoremas de nivel de investigación creados por humanos. Representamos cada teorema con una breve descripción en lenguaje natural como representación para la recuperación y analizamos sistemáticamente cómo el contexto de la representación, la elección del modelo de lenguaje, el modelo de incrustación y la estrategia de *prompting* afectan la calidad de la recuperación. En un conjunto de evaluación curado de consultas de búsqueda de teoremas escritas por matemáticos profesionales, nuestro enfoque mejora sustancialmente tanto la recuperación a nivel de teorema como a nivel de artículo en comparación con los métodos de referencia existentes, lo que demuestra que la búsqueda semántica de teoremas es factible y efectiva a escala web. La herramienta de búsqueda de teoremas está disponible en https://huggingface.co/spaces/uw-math-ai/theorem-search{este enlace}, y el conjunto de datos está disponible en https://huggingface.co/datasets/uw-math-ai/TheoremSearch{este enlace}.

13

Fundamentación y Mejora de la Informatividad y Utilidad en la Destilación de Conjuntos de Datos
Grounding and Enhancing Informativeness and Utility in Dataset Distillation

Jan 29
ByShaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
15
4

La Destilación de Conjuntos de Datos (DD) busca crear un conjunto de datos compacto a partir de uno grande del mundo real. Si bien los métodos recientes a menudo se basan en enfoques heurísticos para equilibrar la eficiencia y la calidad, la relación fundamental entre los datos originales y los sintéticos sigue estando poco explorada. Este artículo revisita la destilación de conjuntos de datos basada en destilación de conocimiento dentro de un marco teórico sólido. Introducimos los conceptos de Informatividad y Utilidad, que capturan información crucial dentro de una muestra y muestras esenciales en el conjunto de entrenamiento, respectivamente. Basándonos en estos principios, definimos matemáticamente la destilación óptima de conjuntos de datos. Luego presentamos InfoUtil, un marco que equilibra la informatividad y la utilidad en la síntesis del conjunto de datos destilado. InfoUtil incorpora dos componentes clave: (1) maximización de la informatividad con teoría de juegos utilizando la atribución del Valor de Shapley para extraer información clave de las muestras, y (2) maximización de la utilidad con bases sólidas mediante la selección de muestras globalmente influyentes basada en la Norma del Gradiente. Estos componentes garantizan que el conjunto de datos destilado sea tanto informativo como optimizado en utilidad. Los experimentos demuestran que nuestro método logra una mejora del 6.1% en el rendimiento respecto al mejor enfoque anterior en el conjunto de datos ImageNet-1K utilizando ResNet-18.

14

Sandbox de Razonamiento Infundido por Recuperación: Un Punto de Referencia para Disociar las Capacidades de Recuperación y Razonamiento
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Jan 29
ByShuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
15
5

A pesar del fuerte rendimiento en los puntos de referencia existentes, sigue sin estar claro si los grandes modelos de lenguaje pueden razonar sobre información científica genuinamente novedosa. La mayoría de las evaluaciones puntúan pipelines de RAG de extremo a extremo, donde el razonamiento se ve confundido por las opciones de recuperación y la cadena de herramientas, y la señal se contamina aún más por la memorización paramétrica y la volatilidad de la web abierta. Presentamos DeR2, un entorno controlado de investigación profunda que aísla el razonamiento fundamentado en documentos mientras preserva las dificultades centrales de la búsqueda profunda: síntesis multi-etapa, eliminación de ruido y elaboración de conclusiones basadas en evidencia. DeR2 desacopla el acceso a la evidencia del razonamiento mediante cuatro regímenes—Solo-instrucción, Conceptos (conceptos clave sin documentos), Solo-relacionados (solo documentos relevantes) y Conjunto-completo (documentos relevantes más distractores temáticamente relacionados)—generando brechas de régimen interpretables que operacionalizan la pérdida por recuperación frente a la pérdida por razonamiento y permiten una atribución de errores granular. Para prevenir la filtración paramétrica, aplicamos una validación en dos fases que exige un fallo paramétrico sin evidencia mientras garantiza la resolubilidad con conceptos clave. Para asegurar la reproducibilidad, cada instancia proporciona una biblioteca de documentos congelada (extraída de artículos teóricos de 2023-2025) con conceptos anotados por expertos y racionalidades validadas. Los experimentos en un conjunto diverso de modelos de base de última generación revelan una variación sustancial y un margen de mejora significativo: algunos modelos exhiben fragilidad de cambio de modo, rindiendo peor con el Conjunto-completo que con Solo-instrucción, mientras que otros muestran un uso estructural incorrecto de conceptos, nombrando correctamente los conceptos pero fallando al ejecutarlos como procedimientos.

15

InterPrior: Escalando el Control Generativo para Interacciones Humano-Objeto Basadas en Física
InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Feb 5
BySirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui
15
3

Los humanos rara vez planifican interacciones de cuerpo completo con objetos a nivel de movimientos explícitos de todo el cuerpo. Intenciones de alto nivel, como la affordancia, definen el objetivo, mientras que el equilibrio coordinado, el contacto y la manipulación pueden surgir naturalmente de previos físicos y motores subyacentes. Escalar dichos previos es clave para permitir que los humanoides compongan y generalicen habilidades de locomoción-manipulación en diversos contextos, manteniendo una coordinación corporal completa físicamente coherente. Con este fin, presentamos InterPrior, un marco escalable que aprende un controlador generativo unificado mediante preentrenamiento de imitación a gran escala y post-entrenamiento mediante aprendizaje por refuerzo. InterPrior primero destila un experto de imitación de referencia completa en una política variacional versátil condicionada por objetivos, que reconstruye el movimiento a partir de observaciones multimodales e intenciones de alto nivel. Si bien la política destilada reconstruye los comportamientos de entrenamiento, no generaliza de manera confiable debido al vasto espacio de configuraciones de las interacciones humano-objeto a gran escala. Para abordar esto, aplicamos aumento de datos con perturbaciones físicas y luego realizamos un ajuste fino por aprendizaje por refuerzo para mejorar la competencia en objetivos e inicializaciones no vistos. Juntos, estos pasos consolidan las habilidades latentes reconstruidas en una variedad válida, produciendo un previo de movimiento que generaliza más allá de los datos de entrenamiento; por ejemplo, puede incorporar nuevos comportamientos como interacciones con objetos no vistos. Además, demostramos su eficacia para el control interactivo del usuario y su potencial para la implementación en robots reales.

16

SocialVeil: Sondeo de la Inteligencia Social de Agentes Lingüísticos bajo Barreras de Comunicación
SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers

Feb 4
ByKeyang Xuan, Pengda Wang, Chongrui Ye, Haofei Yu, Tal August, Jiaxuan You
14
7

Los modelos de lenguaje grandes (LLMs) son evaluados cada vez más en entornos interactivos para probar su inteligencia social. Sin embargo, los puntos de referencia existentes a menudo asumen una comunicación idealizada entre agentes, lo que limita nuestra capacidad para diagnosticar si los LLMs pueden mantener y reparar interacciones en entornos más realistas e imperfectos. Para cerrar esta brecha, presentamos SocialVeil, un entorno de aprendizaje social que puede simular la interacción social bajo barreras de comunicación inducidas por diferencias cognitivas. Basado en una revisión sistemática de la literatura sobre los desafíos de comunicación en la interacción humana, SocialVeil introduce tres tipos representativos de dicha interrupción: vaguedad semántica, desajuste sociocultural e interferencia emocional. También introducimos dos métricas de evaluación conscientes de las barreras, confusión no resuelta y entendimiento mutuo, para evaluar la calidad de la interacción bajo comunicación deteriorada. Los experimentos en 720 escenarios y con cuatro LLMs de vanguardia muestran que las barreras perjudican consistentemente el rendimiento, reduciendo el entendimiento mutuo en más de un 45% en promedio y elevando la confusión en casi un 50%. Las evaluaciones humanas validan la fidelidad de estas barreras simuladas (CCI≈0.78, Pearson r≈0.80). Además, demostramos que las estrategias de adaptación (Instrucción de Reparación y Aprendizaje Interactivo) solo tienen un efecto modesto, lejano al rendimiento sin barreras. Este trabajo da un paso hacia acercar los entornos de interacción social a la comunicación del mundo real, abriendo oportunidades para explorar la inteligencia social de los agentes LLM.

17

DFlash: Difusión por Bloques para Decodificación Especulativa Flash
DFlash: Block Diffusion for Flash Speculative Decoding

Feb 5
ByJian Chen, Yesheng Liang, Zhijian Liu
14
1

Los modelos de lenguaje grandes (LLM) autoregresivos ofrecen un alto rendimiento pero requieren un proceso de decodificación inherentemente secuencial, lo que genera una alta latencia en la inferencia y una pobre utilización de las GPU. La decodificación especulativa mitiga este cuello de botella utilizando un modelo borrador rápido cuyas salidas son verificadas en paralelo por el LLM objetivo; sin embargo, los métodos existentes aún dependen de la generación borrador autoregresiva, que sigue siendo secuencial y limita las aceleraciones prácticas. Los LLM de difusión ofrecen una alternativa prometedora al permitir la generación en paralelo, pero los modelos de difusión actuales generalmente tienen un rendimiento inferior en comparación con los modelos autoregresivos. En este artículo, presentamos DFlash, un marco de decodificación especulativa que emplea un modelo de difusión por bloques ligero para la generación borrador en paralelo. Al generar tokens borrador en una sola pasada hacia adelante y condicionar el modelo borrador en características de contexto extraídas del modelo objetivo, DFlash permite una generación borrador eficiente con salidas de alta calidad y tasas de aceptación más elevadas. Los experimentos muestran que DFlash logra una aceleración sin pérdidas superior a 6x en una variedad de modelos y tareas, alcanzando una velocidad hasta 2.5 veces mayor que el método de decodificación especulativa de vanguardia EAGLE-3.

18

Pensar en Marcos: Cómo el Contexto Visual y el Escalado en Tiempo de Prueba Potencian el Razonamiento en Video
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Jan 28
ByChengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
13
4

Los modelos de visión y lenguaje han sobresalido en el razonamiento textual, pero a menudo presentan dificultades en la comprensión espacial de grano fino y en la planificación de acciones continuas, fallando al simular la dinámica requerida para el razonamiento visual complejo. En este trabajo, formulamos el razonamiento visual mediante modelos de generación de video, postulando que los fotogramas generados pueden actuar como pasos intermedios de razonamiento entre estados iniciales y soluciones. Evaluamos su capacidad en dos regímenes distintos: Navegación en Laberintos para planificación secuencial discreta con bajo cambio visual y Rompecabezas Tangram para manipulación continua con alto cambio visual. Nuestros experimentos revelan tres hallazgos críticos: (1) Generalización Robusta Cero-Shot: En ambas tareas, el modelo demuestra un rendimiento sólido en distribuciones de datos no vistas sin ajuste específico. (2) Contexto Visual: El modelo utiliza efectivamente el contexto visual como control explícito, como iconos de agentes y formas de tangram, permitiéndole mantener alta consistencia visual y adaptar su capacidad de planificación robustamente a patrones no vistos. (3) Escalado Visual en Tiempo de Prueba: Observamos una ley de escalado en tiempo de prueba para planificación secuencial; aumentar la longitud del video generado (presupuesto de inferencia visual) permite una mejor generalización cero-shot hacia trayectorias espacial y temporalmente complejas. Estos hallazgos sugieren que la generación de video no es meramente una herramienta multimedia, sino un paradigma escalable y generalizable para el razonamiento visual.

19

Aprendizaje por Atención Reforzada
Reinforced Attention Learning

Feb 4
ByBangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
12
3

El post-entrenamiento con Aprendizaje por Refuerzo (RL) ha mejorado sustancialmente la capacidad de razonamiento en los Modelos de Lenguaje Grandes (LLM) mediante el escalado en tiempo de prueba. Sin embargo, extender este paradigma a los Modelos de Lenguaje Multimodales (MLLM) a través de racionalidades verbosas produce ganancias limitadas para la percepción e incluso puede degradar el rendimiento. Proponemos el Aprendizaje de Atención Reforzada (RAL), un marco de política de gradientes que optimiza directamente las distribuciones de atención internas en lugar de las secuencias de tokens de salida. Al cambiar la optimización de *qué* generar a *dónde* atender, RAL promueve una asignación de información efectiva y una mejor fundamentación en entradas multimodales complejas. Los experimentos en diversos benchmarks de imagen y vídeo muestran ganancias consistentes sobre GRPO y otras líneas base. Además, introducimos la Distilación de Atención en Política, demostrando que transferir comportamientos de atención latente produce una alineación multimodal más sólida que la distilación de conocimiento estándar. Nuestros resultados posicionan a las políticas de atención como una alternativa fundamentada y general para el post-entrenamiento multimodal.

20

Aprendizaje de Modelos de Mundo por Refuerzo para Agentes Basados en LLM
Reinforcement World Model Learning for LLM-based Agents

Feb 5
ByXiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
12
3

Los grandes modelos de lenguaje (LLMs) han logrado un alto rendimiento en tareas centradas en el lenguaje. Sin embargo, en entornos agentivos, los LLMs a menudo tienen dificultades para anticipar las consecuencias de las acciones y adaptarse a la dinámica del entorno, lo que subraya la necesidad de capacidades de modelado del mundo en agentes basados en LLM. Proponemos el Aprendizaje de Modelos del Mundo por Refuerzo (RWML), un método autosupervisado que aprende modelos del mundo condicionados por acciones para agentes basados en LLM sobre estados textuales utilizando recompensas de brecha sim-to-real. Nuestro método alinea los siguientes estados simulados producidos por el modelo con los siguientes estados reales observados desde el entorno, fomentando la coherencia entre las simulaciones internas del mundo y la dinámica real del entorno en un espacio de *embeddings* preentrenado. A diferencia de la predicción de tokens del siguiente estado, que prioriza la fidelidad a nivel de token (es decir, reproducir la redacción exacta) sobre la equivalencia semántica y puede conducir al colapso del modelo, nuestro método proporciona una señal de entrenamiento más robusta y es empíricamente menos susceptible a la manipulación de recompensas que el enfoque LLM-como-juez. Evaluamos nuestro método en ALFWorld y τ² Bench y observamos mejoras significativas respecto al modelo base, a pesar de ser completamente autosupervisado. Cuando se combina con recompensas por éxito en la tarea, nuestro método supera al Aprendizaje por Refuerzo con recompensa directa por éxito en la tarea en 6.9 y 5.7 puntos en ALFWorld y τ² Bench respectivamente, igualando además el rendimiento del entrenamiento con datos de expertos.

21

SwimBird: Inducción de Modos de Razonamiento Conmutables en MLLMs Autoregresivos Híbridos
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Feb 5
ByJintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
9
3

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso notable en la percepción y el razonamiento multimodal al conectar la visión y el lenguaje. Sin embargo, la mayoría de los MLLMs existentes realizan el razonamiento principalmente mediante Cadena de Pensamiento (CoT) textual, lo que limita su eficacia en tareas intensivas en visión. Enfoques recientes inyectan un número fijo de estados ocultos continuos como "pensamientos visuales" en el proceso de razonamiento y mejoran el rendimiento visual, pero a menudo a costa de un razonamiento lógico basado en texto degradado. Sostenemos que la limitación central reside en un patrón de razonamiento rígido y predefinido que no puede elegir adaptativamente la modalidad de pensamiento más adecuada para diferentes consultas de los usuarios. Presentamos SwimBird, un MLLM conmutador de razonamiento que cambia dinámicamente entre tres modos de razonamiento condicionados por la entrada: (1) razonamiento solo con texto, (2) razonamiento solo con visión (estados ocultos continuos como pensamientos visuales) y (3) razonamiento intercalado visión-texto. Para posibilitar esta capacidad, adoptamos una formulación autorregresiva híbrida que unifica la predicción del siguiente token para pensamientos textuales con la predicción de la siguiente incrustación (embedding) para pensamientos visuales, y diseñamos una estrategia sistemática de curación de modos de razonamiento para construir SwimBird-SFT-92K, un conjunto de datos diverso de ajuste fino supervisado que cubre los tres patrones de razonamiento. Al permitir una selección de modo flexible y adaptativa a la consulta, SwimBird preserva una fuerte lógica textual mientras mejora sustancialmente el rendimiento en tareas densas en visión. Los experimentos en diversos benchmarks que cubren razonamiento textual y comprensión visual desafiante demuestran que SwimBird logra resultados de vanguardia y ganancias robustas sobre métodos previos de razonamiento multimodal con patrones fijos.

22

LatentMem: Personalización de la Memoria Latente para Sistemas Multi-Agente
LatentMem: Customizing Latent Memory for Multi-Agent Systems

Feb 3
ByMuxin Fu, Guibin Zhang, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang
9
3

Los sistemas multiagente (SMA) impulsados por modelos de lenguaje grandes (LLM) demuestran una notable inteligencia colectiva, donde la memoria multiagente sirve como mecanismo pivotal para la adaptación continua. Sin embargo, los diseños de memoria multiagente existentes siguen limitados por dos cuellos de botella fundamentales: (i) la homogeneización de la memoria derivada de la ausencia de personalización consciente de los roles, y (ii) la sobrecarga de información inducida por entradas de memoria excesivamente granulares. Para abordar estas limitaciones, proponemos LatentMem, un marco de memoria multiagente entrenable diseñado para personalizar memorias específicas por agente de manera eficiente en tokens. Específicamente, LatentMem comprende un banco de experiencias que almacena trayectorias de interacción en bruto en una forma ligera, y un compositor de memoria que sintetiza memorias latentes compactas condicionadas por la experiencia recuperada y los contextos específicos del agente. Además, presentamos la Optimización de Políticas de Memoria Latente (LMPO), que propaga señales de optimización a nivel de tarea a través de las memorias latentes hacia el compositor, incentivándolo a producir representaciones compactas y de alta utilidad. Experimentos exhaustivos en diversos benchmarks y frameworks SMA principales muestran que LatentMem alcanza una mejora de rendimiento de hasta el 19.36% sobre configuraciones básicas y supera consistentemente a las arquitecturas de memoria existentes, sin requerir modificaciones en los frameworks subyacentes.

23

SAGE: Evaluación y Mejora de la Recuperación de Información para Agentes de Investigación Profunda
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Feb 5
ByTiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
9
3

Los agentes de investigación profunda han surgido como sistemas potentes para abordar consultas complejas. Mientras tanto, los recuperadores basados en LLM han demostrado una gran capacidad para seguir instrucciones o razonar. Esto plantea una pregunta crítica: ¿pueden los recuperadores basados en LLM contribuir eficazmente a los flujos de trabajo de los agentes de investigación profunda? Para investigarlo, presentamos SAGE, un benchmark para la recuperación de literatura científica que comprende 1.200 consultas en cuatro dominios científicos, con un corpus de recuperación de 200.000 artículos. Evaluamos seis agentes de investigación profunda y encontramos que todos los sistemas tienen dificultades con la recuperación intensiva en razonamiento. Utilizando DR Tulu como columna vertebral, comparamos además los recuperadores BM25 y los basados en LLM (es decir, ReasonIR y gte-Qwen2-7B-instruct) como herramientas de búsqueda alternativas. Sorprendentemente, BM25 supera significativamente a los recuperadores basados en LLM en aproximadamente un 30%, ya que los agentes existentes generan subconsultas orientadas a palabras clave. Para mejorar el rendimiento, proponemos un marco de escalado en tiempo de prueba a nivel de corpus que utiliza LLMs para enriquecer documentos con metadatos y palabras clave, facilitando la recuperación para los recuperadores estándar. Esto produce ganancias del 8% y el 2% en preguntas de respuesta corta y de respuesta abierta, respectivamente.

24

Hacia un Modelado de Incertidumbre Reducible para Agentes de Modelos de Lenguaje Grandes Confiables
Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents

Feb 4
ByChangdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
7
3

La cuantificación de incertidumbre (UQ) para modelos de lenguaje grandes (LLM) es un componente fundamental para las salvaguardas de seguridad en las aplicaciones diarias de LLM. Sin embargo, a pesar de que los agentes de LLM se despliegan cada vez más en tareas altamente complejas, la mayoría de la investigación en UQ aún se centra en la respuesta a preguntas de una sola interacción. Sostenemos que la investigación en UQ debe desplazarse hacia entornos realistas con agentes interactivos y que se necesita un nuevo marco de principios para la UQ de agentes. Este artículo presenta la primera formulación general de la UQ de agentes que engloba amplias clases de configuraciones de UQ existentes. Bajo esta formulación, demostramos que trabajos previos tratan implícitamente la UQ de LLM como un proceso de acumulación de incertidumbre, un punto de vista que se desmorona para agentes interactivos en un mundo abierto. En contraste, proponemos una nueva perspectiva, un proceso de reducción de incertidumbre condicional, que modela explícitamente la incertidumbre reducible a lo largo de la trayectoria de un agente resaltando la "interactividad" de las acciones. Desde esta perspectiva, esbozamos un marco conceptual para proporcionar una guía práctica para diseñar UQ en configuraciones de agentes de LLM. Finalmente, concluimos con las implicaciones prácticas de la UQ de agentes en el desarrollo de LLM de vanguardia y aplicaciones específicas de dominio, así como con los problemas abiertos restantes.

25

V-Retrver: Razonamiento Agente Basado en Evidencias para Recuperación Multimodal Universal
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Feb 5
ByDongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
7
3

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se han aplicado recientemente a la recuperación multimodal universal, donde el razonamiento en Cadena de Pensamiento (CoT) mejora la rerrepresentación de candidatos. Sin embargo, los enfoques existentes siguen siendo predominantemente impulsados por el lenguaje, dependen de codificaciones visuales estáticas y carecen de la capacidad de verificar activamente evidencia visual detallada, lo que a menudo conduce a un razonamiento especulativo en casos visualmente ambiguos. Proponemos V-Retrver, un marco de recuperación basado en evidencia que reformula la recuperación multimodal como un proceso de razonamiento agéntico fundamentado en la inspección visual. V-Retrver permite a un MLLM adquirir selectivamente evidencia visual durante el razonamiento mediante herramientas visuales externas, realizando un proceso de razonamiento intercalado multimodal que alterna entre la generación de hipótesis y la verificación visual dirigida. Para entrenar a un agente de recuperación con esta capacidad de recolección de evidencia, adoptamos una estrategia de aprendizaje basada en currículo que combina la activación de razonamiento supervisado, el refinamiento por rechazo y el aprendizaje por refuerzo con un objetivo alineado con la evidencia. Los experimentos en múltiples benchmarks de recuperación multimodal demuestran mejoras consistentes en la precisión de recuperación (con mejoras promedio del 23.0%), la confiabilidad del razonamiento impulsado por la percepción y la generalización.

26

GRPO Multitarea: Razonamiento Confiable de LLM en Diversas Tareas
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

Feb 5
ByShyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
6
5

El post-entrenamiento basado en RL con GRPO se utiliza ampliamente para mejorar los modelos de lenguaje grandes en tareas de razonamiento individual. Sin embargo, el despliegue en el mundo real requiere un rendimiento confiable en diversas tareas. Una adaptación multitarea directa de GRPO a menudo conduce a resultados desequilibrados, donde algunas tareas dominan la optimización mientras que otras se estancan. Además, las tareas pueden variar ampliamente en la frecuencia con la que los estímulos generan ventajas nulas (y, por tanto, gradientes nulos), lo que distorsiona aún más su contribución efectiva a la señal de optimización. Para abordar estos problemas, proponemos un nuevo algoritmo GRPO Multitarea (MT-GRPO) que (i) adapta dinámicamente los pesos de las tareas para optimizar explícitamente el rendimiento de la peor tarea y promover un progreso equilibrado, y (ii) introduce un muestreador que preserva proporciones para garantizar que los gradientes de la política por tarea reflejen los pesos adaptados. Los experimentos en configuraciones de 3 y 9 tareas muestran que MT-GRPO supera consistentemente a los métodos base en precisión de la peor tarea. En particular, MT-GRPO logra una mejora absoluta del 16-28% y 6% en el rendimiento de la peor tarea respecto a GRPO estándar y DAPO, respectivamente, manteniendo una precisión media competitiva. Además, MT-GRPO requiere 50% menos pasos de entrenamiento para alcanzar 50% de precisión en la peor tarea en la configuración de 3 tareas, demostrando una eficiencia sustancialmente mejorada para lograr un rendimiento confiable en todas las tareas.

27

BABE: Punto de Referencia de la Arena Biológica
BABE: Biology Arena BEnchmark

Feb 5
ByJunting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
6
3

La rápida evolución de los modelos de lenguaje grande (LLM) ha expandido sus capacidades desde el diálogo básico hasta el razonamiento científico avanzado. Sin embargo, los puntos de referencia existentes en biología a menudo no logran evaluar una habilidad crítica requerida en los investigadores: la capacidad de integrar resultados experimentales con conocimiento contextual para derivar conclusiones significativas. Para abordar esta brecha, presentamos BABE (Biology Arena BEnchmark), un punto de referencia integral diseñado para evaluar las capacidades de razonamiento experimental de los sistemas de IA biológica. BABE está construido de manera única a partir de artículos de investigación revisados por pares y estudios biológicos del mundo real, garantizando que las tareas reflejen la complejidad y naturaleza interdisciplinaria de la investigación científica real. BABE desafía a los modelos a realizar razonamiento causal e inferencia transversal a múltiples escalas. Nuestro punto de referencia proporciona un marco robusto para evaluar qué tan bien los sistemas de IA pueden razonar como científicos en ejercicio, ofreciendo una medida más auténtica de su potencial para contribuir a la investigación biológica.

28

Aproximación de la Función Log-Partición en el Descenso de Espejo de Política Induce una Regularización Implícita para el Post-Entrenamiento de Modelos de Lenguaje Grandes
Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Feb 5
ByZhenghao Xu, Qin Lu, Changlong Yu, Tuo Zhao
5
3

El descenso de políticas por espejo (PMD) proporciona un marco fundamentado para el aprendizaje por refuerzo (RL) mediante la resolución iterativa de subproblemas de mejora de políticas regularizados por la divergencia KL. Si bien este enfoque ha sido adoptado en el entrenamiento de modelos de lenguaje avanzados como Kimi K1.5/K2, las actualizaciones ideales de forma cerrada de PMD requieren una estimación fiable de la función de partición, un desafío significativo al trabajar con trayectorias limitadas en los vastos espacios de acción de los LLM. Investigamos un algoritmo práctico, denominado PMD-media, que aproxima el término del log-partition con la recompensa media bajo la política de muestreo y realiza regresión en el espacio logarítmico de políticas. Específicamente, caracterizamos la solución poblacional de PMD-media y demostramos que optimiza implícitamente subproblemas de descenso por espejo con un regularizador mixto adaptativo KL-χ². Esta regularización χ² adicional restringe los grandes cambios de probabilidad, produciendo actualizaciones más conservadoras cuando las recompensas esperadas son bajas y mejorando la robustez frente a errores de estimación con muestras finitas. Los experimentos en tareas de razonamiento matemático muestran que PMD-media logra un rendimiento superior con una estabilidad y eficiencia temporal mejoradas. Estos hallazgos profundizan nuestra comprensión de PMD-media e iluminan vías hacia mejoras fundamentadas en los algoritmos de RL para LLMs. El código está disponible en https://github.com/horizon-rl/OpenKimi.

29

CoPE: RoPE Recortado como una Mejora Escalable sin Coste Adicional para LLMs de Contexto Largo
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

Feb 5
ByHaoran Li, Sucheng Ren, Alan Yuille, Feng Wang
4
3

El Embedding Posicional Rotatorio (RoPE) es un componente clave del escalado de contexto en los Modelos de Lenguaje Grandes (LLMs). Si bien se han propuesto varios métodos para adaptar RoPE a contextos más largos, sus principios rectores generalmente se engloban en dos categorías: (1) la mitigación de valores fuera de distribución (OOD), que escala las frecuencias de RoPE para acomodar posiciones no vistas, y (2) el Modelado Semántico, que postula que las puntuaciones de atención calculadas con RoPE siempre deben priorizar tokens semánticamente similares. En este trabajo, unificamos estos objetivos aparentemente distintos mediante una intervención minimalista, denominada CoPE: recorte suave de los componentes de baja frecuencia de RoPE. CoPE no solo elimina los valores atípicos OOD y refina las señales semánticas, sino que también previene la fuga espectral causada por el recorte brusco. Experimentos exhaustivos demuestran que simplemente aplicando nuestra estrategia de recorte suave a RoPE se obtienen ganancias de rendimiento significativas que escalan hasta longitudes de contexto de 256k, validando nuestro análisis teórico y estableciendo a CoPE como un nuevo estado del arte para la generalización de longitud. Nuestro código, datos y modelos están disponibles en https://github.com/hrlics/CoPE.

30

Rompiendo el Gráfico Estático: Travesía Consciente del Contexto para una Generación Aumentada por Recuperación Robusta
Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

Feb 2
ByKwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo, Ruiyuan Zhang, Xiaofang Zhou
4
3

Los recientes avances en Generación Aumentada por Recuperación (RAG) han evolucionado desde la simple similitud vectorial hacia enfoques conscientes de la estructura, como HippoRAG, que aprovechan los Grafos de Conocimiento (KG) y el PageRank Personalizado (PPR) para capturar dependencias de múltiples saltos. Sin embargo, estos métodos adolecen de una "Falacia del Grafo Estático": dependen de probabilidades de transición fijas determinadas durante la indexación. Esta rigidez ignora la naturaleza dependiente de la consulta de la relevancia de las aristas, causando una deriva semántica donde los paseos aleatorios se desvían hacia nodos "concentradores" de alto grado antes de alcanzar la evidencia crítica aguas abajo. En consecuencia, los modelos a menudo logran un alto recuerdo parcial pero fallan en recuperar la cadena de evidencia completa requerida para consultas de múltiples saltos. Para abordarlo, proponemos CatRAG (Context-Aware Traversal for robust RAG), un marco que se basa en la arquitectura HippoRAG 2 y transforma el KG estático en una estructura de navegación adaptable a la consulta. Introducimos un marco multifacético para dirigir el paseo aleatorio: (1) Anclaje Simbólico, que inyecta restricciones débiles de entidades para regularizar el paseo aleatorio; (2) Ponderación Dinámica de Aristas Consciente de la Consulta, que modula dinámicamente la estructura del grafo, podando caminos irrelevantes mientras amplifica aquellos alineados con la intención de la consulta; y (3) Mejora de Ponderación de Pasajes de Hechos Clave, un sesgo de bajo costo que ancla estructuralmente el paseo aleatorio a evidencia probable. Los experimentos en cuatro benchmarks de múltiples saltos demuestran que CatRAG supera consistentemente a los baselines del estado del arte. Nuestro análisis revela que, si bien las métricas estándar de Recuerdo muestran ganancias modestas, CatRAG logra mejoras sustanciales en la integridad del razonamiento, es decir, la capacidad de recuperar la ruta de evidencia completa sin lagunas. Estos resultados muestran que nuestro enfoque cierra efectivamente la brecha entre recuperar contexto parcial y permitir un razonamiento completamente fundamentado. Los recursos están disponibles en https://github.com/kwunhang/CatRAG.

31

Entrenamiento de Tardío a Temprano: Hacer que los LLM Aprendan Antes, para que sean Más Rápidos y Mejores
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Feb 5
ByJi Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
3
2

A medida que los Grandes Modelos de Lenguaje (LLMs) logran un éxito empírico notable mediante el escalado del tamaño del modelo y de los datos, el preentrenamiento se ha vuelto cada vez más crítico pero computacionalmente prohibitivo, obstaculizando el desarrollo rápido. A pesar de la disponibilidad de numerosos LLMs preentrenados desarrollados con un coste computacional significativo, una pregunta fundamental del mundo real sigue sin explorarse suficientemente: ¿Podemos aprovechar los modelos pequeños preentrenados existentes para acelerar el entrenamiento de modelos más grandes? En este artículo, proponemos un paradigma de Entrenamiento de Tardío a Temprano (LET, por sus siglas en inglés) que permite a los LLMs aprender explícitamente conocimiento tardío en pasos y capas tempranas. La idea central es guiar las capas tempranas de un LLM durante el entrenamiento temprano utilizando representaciones de las capas tardías de un modelo preentrenado (es decir, en fase de entrenamiento tardío). Identificamos dos mecanismos clave que impulsan la efectividad de LET: el aprendizaje de paso tardío a temprano y el aprendizaje de capa tardía a temprana. Estos mecanismos aceleran significativamente la convergencia del entrenamiento, a la vez que mejoran de forma robusta tanto las capacidades de modelado del lenguaje como el rendimiento en tareas posteriores, permitiendo un entrenamiento más rápido con un rendimiento superior. Experimentos exhaustivos con modelos de 1.4B y 7B de parámetros demuestran la eficiencia y efectividad de LET. Notablemente, al entrenar un LLM de 1.4B en el conjunto de datos Pile, nuestro método logra una aceleración de hasta 1.6 veces con una mejora de casi un 5% en la precisión de las tareas posteriores en comparación con el entrenamiento estándar, incluso utilizando un modelo preentrenado con 10 veces menos parámetros que el modelo objetivo.

32

Infinite-World: Escalando Modelos de Mundo Interactivos a Horizontes de 1000 Fotogramas mediante Memoria Jerárquica Libre de Poses
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Feb 2
ByRuiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
3
3

Proponemos Infinite-World, un modelo de mundo interactivo robusto capaz de mantener una memoria visual coherente durante más de 1000 fotogramas en entornos complejos del mundo real. Si bien los modelos de mundo existentes pueden optimizarse eficientemente en datos sintéticos con verdad de terreno perfecta, carecen de un paradigma de entrenamiento efectivo para videos del mundo real debido a estimaciones de pose ruidosas y la escasez de re-visitaciones de puntos de vista. Para cerrar esta brecha, primero introducimos un Compresor de Memoria Libre de Pose Jerárquico (HPMC) que destila recursivamente los *latents* históricos en una representación de presupuesto fijo. Al optimizar conjuntamente el compresor con el *backbone* generativo, HPMC permite al modelo anclar autónomamente las generaciones en un pasado distante con un coste computacional acotado, eliminando la necesidad de *priors* geométricos explícitos. En segundo lugar, proponemos un módulo de Etiquetado de Acciones Consciente de la Incertidumbre que discretiza el movimiento continuo en una lógica de tres estados. Esta estrategia maximiza la utilización de datos de vídeo en bruto mientras protege el espacio de acción determinista de ser corrompido por trayectorias ruidosas, garantizando un aprendizaje robusto de respuesta a la acción. Además, guiados por las percepciones de un estudio piloto preliminar, empleamos una Estrategia de Ajuste Fino con Re-visitaciones Densas utilizando un conjunto de datos compacto de 30 minutos para activar eficientemente las capacidades de cierre de bucles de largo alcance del modelo. Experimentos exhaustivos, que incluyen métricas objetivas y estudios de usuario, demuestran que Infinite-World logra un rendimiento superior en calidad visual, controllabilidad de acciones y consistencia espacial.

33

DASH: Shampoo más rápido mediante preacondicionamiento de bloques por lotes y solucionadores eficientes de raíz inversa
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers

Feb 2
ByIonut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
3
2

Shampoo es uno de los principales optimizadores aproximados de segundo orden: una variante del mismo ganó la competición MLCommons AlgoPerf, y se ha demostrado que produce modelos con menos valores atípicos en las activaciones que son más fáciles de comprimir. Sin embargo, aplicar Shampoo actualmente conlleva el coste de una ralentización computacional significativa, debido a sus costosas operaciones internas. En este artículo, damos un paso importante para abordar esta deficiencia proponiendo \method (por Distributed Accelerated SHampoo), una implementación más rápida de Shampoo Distribuido basada en dos técnicas nuevas principales: En primer lugar, demostramos que los bloques del precondicionador pueden apilarse en tensores 3D para mejorar significativamente la utilización de la GPU; en segundo lugar, introducimos la iteración Newton-DB y las aproximaciones polinómicas de Chebyshev como enfoques novedosos y más rápidos para calcular las raíces cuadradas inversas de matrices requeridas por Shampoo. Junto con estas contribuciones algorítmicas, proporcionamos un primer análisis en profundidad de cómo el escalado de matrices afecta críticamente a la convergencia de Shampoo. En el plano práctico, nuestra implementación optimizada para GPU logra pasos del optimizador hasta 4.83 veces más rápidos en comparación con la bien optimizada versión Distribuida de Shampoo, mientras que Newton-DB alcanza la menor perplejidad de validación por iteración entre todos los métodos probados. Nuestro código está disponible en https://github.com/IST-DASLab/DASH.

34

Corrección de Trayectorias en Pruebas para la Generación Autoregresiva de Videos Largos
Pathwise Test-Time Correction for Autoregressive Long Video Generation

Feb 5
ByXunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
3
3

Los modelos de difusión autorregresivos destilados facilitan la síntesis de videos cortos en tiempo real, pero sufren una acumulación severa de errores durante la generación de secuencias largas. Si bien los métodos existentes de Optimización en Tiempo de Prueba (TTO) demuestran ser efectivos para imágenes o clips cortos, identificamos que no logran mitigar la deriva en secuencias extendidas debido a paisajes de recompensa inestables y la hipersensibilidad de los parámetros destilados. Para superar estas limitaciones, presentamos la Corrección en Tiempo de Prueba (TTC), una alternativa libre de entrenamiento. Específicamente, TTC utiliza el fotograma inicial como ancla de referencia estable para calibrar los estados estocásticos intermedios a lo largo de la trayectoria de muestreo. Experimentos exhaustivos demuestran que nuestro método se integra perfectamente con varios modelos destilados, extendiendo las longitudes de generación con overhead insignificante mientras iguala la calidad de los métodos intensivos en recursos basados en entrenamiento en benchmarks de 30 segundos.

35

Forzamiento Lumínico: Aceleración de Difusión de Video Autoregresiva mediante Atención Dispersa
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Feb 4
ByChengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
2
3

Los modelos avanzados de generación de vídeo autorregresivos (AR) han mejorado la fidelidad visual y la interactividad, pero la complejidad cuadrática de la atención sigue siendo un cuello de botella principal para el despliegue eficiente. Si bien las soluciones de atención dispersa existentes han mostrado resultados prometedores en modelos bidireccionales, identificamos que aplicar estas soluciones a modelos AR conduce a una degradación considerable del rendimiento por dos razones: la consideración aislada de la generación de fragmentos y la utilización insuficiente del contexto informativo pasado. Motivados por estas observaciones, proponemos Light Forcing, la primera solución de atención dispersa diseñada específicamente para modelos de generación de vídeo AR. Esta incorpora un mecanismo de Crecimiento Consciente del Fragmento (Chunk-Aware Growth) para estimar cuantitativamente la contribución de cada fragmento, lo que determina su asignación de dispersión. Esta estrategia de aumento progresivo de la dispersión permite que el fragmento actual herede el conocimiento previo de los fragmentos anteriores durante la generación. Adicionalmente, introducimos una Atención Dispersa Jerárquica para capturar el contexto histórico y local informativo de manera de grueso a fino. Esta estrategia de selección de máscara de dos niveles (es decir, a nivel de fotograma y de bloque) puede manejar de forma adaptativa diversos patrones de atención. Experimentos exhaustivos demuestran que nuestro método supera a la atención dispersa existente en calidad (por ejemplo, 84.5 en VBench) y eficiencia (por ejemplo, una aceleración de extremo a extremo de 1.2 a 1.3 veces). Combinado con la cuantificación FP8 y LightVAE, Light Forcing logra además una aceleración de 2.3 veces y 19.7 FPS en una GPU RTX 5090. El código se publicará en https://github.com/chengtao-lv/LightForcing.

36

Fracaso en la exploración: Modelos de lenguaje en tareas interactivas
Failing to Explore: Language Models on Interactive Tasks

Jan 29
ByMahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
2
3

Evaluamos modelos de lenguaje en su capacidad para explorar entornos interactivos con un presupuesto de interacción limitado. Introducimos tres tareas paramétricas con dificultad de exploración controlable, que abarcan entornos continuos y discretos. En los modelos más avanzados, encontramos una subexploración sistemática y soluciones subóptimas, con un rendimiento a menudo significativamente peor que el de líneas base heurísticas simples de exploración-explotación, y que escala débilmente a medida que aumenta el presupuesto. Finalmente, estudiamos dos intervenciones ligeras: dividir un presupuesto fijo en ejecuciones paralelas, lo que sorprendentemente mejora el rendimiento a pesar de un resultado teórico de no-ganancia para nuestras tareas, y resumir periódicamente el historial de interacción, lo que preserva descubrimientos clave y mejora aún más la exploración.

37

Un Marco Unificado para Replantear las Medidas de Divergencia de Políticas en GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO

Feb 5
ByQingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
2
3

El Aprendizaje por Refuerzo con Recompensa Verificada (RLVR) ha surgido como un paradigma crítico para avanzar en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). La mayoría de los métodos RLVR existentes, como GRPO y sus variantes, garantizan actualizaciones estables mediante la restricción de la divergencia de políticas a través del recorte de los ratios de verosimilitud. Este artículo introduce un marco unificado de recorte que caracteriza los métodos existentes mediante una noción general de divergencia de políticas, abarcando tanto los ratios de verosimilitud como las divergencias de Kullback-Leibler (KL) y extendiéndose a medidas alternativas. El marco proporciona una base fundamentada para analizar sistemáticamente cómo las diferentes medidas de divergencia de políticas afectan la exploración y el rendimiento. Además, identificamos el estimador KL3, un estimador de Monte Carlo con varianza reducida de la divergencia KL, como una restricción clave de divergencia de políticas. Demostramos teóricamente que la restricción basada en KL3 es matemáticamente equivalente a un recorte asimétrico basado en ratios que redistribuye la masa de probabilidad hacia acciones de alta confianza, promoviendo una exploración más sólida mientras retiene la simplicidad de los métodos estilo GRPO. Los resultados empíricos en benchmarks de razonamiento matemático demuestran que la incorporación del estimador KL3 en GRPO mejora tanto la estabilidad del entrenamiento como el rendimiento final, destacando la importancia de las restricciones de divergencia de políticas fundamentadas en la optimización de políticas.

38

¿Respetan los Modelos de Visión y Lenguaje la Integridad Contextual en la Divulgación de Ubicación?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

Feb 4
ByRuixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
2
3

Los modelos de visión y lenguaje (VLM) han demostrado un alto rendimiento en la geolocalización de imágenes, una capacidad que ha sido perfeccionada aún más por los modelos de razonamiento multimodal avanzados (MLRM). Esto plantea un riesgo significativo para la privacidad, ya que estos modelos ampliamente accesibles pueden ser explotados para inferir ubicaciones sensibles a partir de fotos compartidas casualmente, a menudo con precisión a nivel de calle, superando potencialmente el nivel de detalle que el usuario consintió o pretendía revelar. Si bien trabajos recientes han propuesto aplicar una restricción general a la divulgación de geolocalización para combatir este riesgo, estas medidas no logran distinguir los usos válidos de la geolocalización de los comportamientos maliciosos. En su lugar, los VLM deberían mantener la integridad contextual razonando sobre los elementos dentro de una imagen para determinar el nivel apropiado de divulgación de información, equilibrando privacidad y utilidad. Para evaluar qué tan bien los modelos respetan la integridad contextual, presentamos VLM-GEOPRIVACY, un benchmark que desafía a los VLM a interpretar normas sociales latentes y señales contextuales en imágenes del mundo real y determinar el nivel apropiado de divulgación de ubicación. Nuestra evaluación de 14 VLM líderes muestra que, a pesar de su capacidad para geolocalizar imágenes con precisión, los modelos están pobremente alineados con las expectativas humanas de privacidad. A menudo divulgan información excesiva en contextos sensibles y son vulnerables a ataques basados en *prompts*. Nuestros resultados exigen nuevos principios de diseño en sistemas multimodales para incorporar un razonamiento de privacidad condicionado por el contexto.

39

La Tasa de Aprendizaje Importa: LoRA Simple Puede Ser Suficiente para el Ajuste Fino de LLM
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Feb 4
ByYu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
2
3

La Adaptación de Bajo Rango (LoRA) es el enfoque predominante para el ajuste fino eficiente de modelos de lenguaje grandes (LLM). Sobre esta base, estudios recientes han propuesto estrategias de inicialización alternativas y modificaciones arquitectónicas, reportando mejoras sustanciales respecto a LoRA estándar. Sin embargo, estas ganancias suelen demostrarse bajo configuraciones de hiperparámetros fijas o ajustadas de manera limitada, a pesar de la conocida sensibilidad de las redes neuronales a las configuraciones de entrenamiento. En este trabajo, reevaluamos sistemáticamente cuatro variantes representativas de LoRA junto con LoRA estándar mediante búsquedas exhaustivas de hiperparámetros. En diversas tareas de generación matemática y de código, y a través de diferentes escalas de modelos, encontramos que los distintos métodos LoRA favorecen rangos de tasas de aprendizaje específicos. Crucialmente, una vez que las tasas de aprendizaje se ajustan adecuadamente, todos los métodos alcanzan un rendimiento máximo similar (dentro de un 1-2%), mostrando únicamente comportamientos sutiles dependientes del rango. Estos resultados sugieren que LoRA estándar sigue siendo una base de referencia competitiva y que las mejoras reportadas bajo una única configuración de entrenamiento pueden no reflejar ventajas metodológicas consistentes. Finalmente, un análisis de segundo orden atribuye las diferencias en los rangos óptimos de tasa de aprendizaje a variaciones en el mayor valor propio del Hessiano, lo que se alinea con las teorías de aprendizaje clásicas.

40

UniAudio 2.0: Un Modelo de Lenguaje de Audio Unificado con Tokenización de Audio Factorizada y Alineada con Texto
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

Feb 4
ByDongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
1
3

Estudiamos dos problemas fundamentales en los modelos de lenguaje de audio: (1) cómo diseñar un tokenizador de audio que pueda servir como representación intermedia tanto para la comprensión como para la generación; y (2) cómo construir un modelo fundacional de audio que generalice en entornos de pocos ejemplos (few-shot) y cero ejemplos (zero-shot), análogo a los grandes modelos de lenguaje. Con este fin, realizamos las dos siguientes contribuciones. En primer lugar, proponemos ReasoningCodec, un códec de audio discreto que factoriza el audio en (i) tokens de razonamiento, que codifican representaciones de análisis y planificación de alto nivel alineadas con el texto para la comprensión de audio y la generación jerárquica, y (ii) tokens de reconstrucción, que codifican indicios acústicos ricos en semántica para la reconstrucción de waveforms de alta fidelidad. Este diseño logra un rendimiento en comprensión comparable a las fuertes representaciones continuas, mientras mejora la calidad de generación y la fidelidad de reconstrucción respecto a tokenizadores discretos anteriores. En segundo lugar, introducimos una arquitectura autorregresiva unificada para texto y audio, junto con un entrenamiento multietapa y una construcción de datos multitarea. Utilizando este marco, entrenamos UniAudio 2.0 con 100B tokens de texto y 60B tokens de audio. En una amplia gama de tareas de voz, sonido y música, UniAudio 2.0 ofrece un rendimiento competitivo en evaluaciones dentro del dominio y demuestra una fuerte generalización con pocos y cero ejemplos hacia tareas no vistas. La demostración, el código y los puntos de control estarán disponibles en https://dongchaoyang.top/UniAudio2Demo/.

41

Más allá de los marcos fijos: Tokenización dinámica del habla alineada con el personaje
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Jan 30
ByLuca Della Libera, Cem Subakan, Mirco Ravanelli
1
4

Los códecs neuronales de audio son el núcleo de las tecnologías modernas de conversación vocal, convirtiendo el habla continua en secuencias de tokens discretos que pueden ser procesados por los LLM. Sin embargo, los códecs existentes suelen operar a velocidades de fotograma fijas, asignando tokens uniformemente en el tiempo y produciendo secuencias innecesariamente largas. En este trabajo, presentamos DyCAST, un Tokenizador de Voz Dinámico Alineado con Caracteres que permite una tokenización de velocidad de fotograma variable mediante una alineación suave a nivel de carácter y un modelado explícito de duración. DyCAST aprende a asociar tokens con unidades lingüísticas a nivel de carácter durante el entrenamiento y permite una inferencia sin alineación con control directo sobre las duraciones de los tokens durante la decodificación. Para mejorar la calidad de la resíntesis del habla a bajas velocidades de fotograma, introducimos además un mecanismo de decodificación aumentada por recuperación que mejora la fidelidad de reconstrucción sin aumentar la tasa de bits. Los experimentos demuestran que DyCAST logra una calidad de resíntesis del habla competitiva y un rendimiento en tareas posteriores mientras utiliza significativamente menos tokens que los códecs de velocidad de fotograma fija. El código y los puntos de control se publicarán en https://github.com/lucadellalib/dycast.

42

Autoencoder Difusivo de Video 1D Adaptativo
Adaptive 1D Video Diffusion Autoencoder

Feb 4
ByYao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
1
3

Los modelos recientes de generación de vídeo dependen en gran medida de autoencoders de vídeo que comprimen los vídeos en el espacio de píxeles en representaciones latentes. Sin embargo, los autoencoders de vídeo existentes adolecen de tres limitaciones principales: (1) compresión de velocidad fija que desperdicia tokens en vídeos simples, (2) arquitecturas CNN inflexibles que impiden el modelado latente de longitud variable, y (3) decodificadores deterministas que tienen dificultades para recuperar detalles apropiados a partir de latentes comprimidos. Para abordar estos problemas, proponemos One-Dimensional Diffusion Video Autoencoder (One-DVA), un marco basado en transformers para codificación 1D adaptativa y decodificación basada en difusión. El codificador emplea transformers de visión basados en consultas para extraer características espacio-temporales y producir representaciones latentes, mientras que un mecanismo de dropout de longitud variable ajusta dinámicamente la longitud latente. El decodificador es un transformer de difusión en el espacio de píxeles que reconstruye vídeos utilizando los latentes como condiciones de entrada. Con una estrategia de entrenamiento en dos etapas, One-DVA logra un rendimiento comparable al de los VAEs 3D-CNN en métricas de reconstrucción con idénticas tasas de compresión. Más importante aún, admite compresión adaptativa y, por lo tanto, puede alcanzar mayores tasas de compresión. Para respaldar mejor la generación latente aguas abajo, regularizamos adicionalmente la distribución latente de One-DVA para el modelado generativo y ajustamos su decodificador para mitigar los artefactos causados por el proceso de generación.

43

FastVMT: Eliminación de la Redundancia en la Transferencia de Movimiento en Video
FastVMT: Eliminating Redundancy in Video Motion Transfer

Feb 5
ByYue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
1
3

La transferencia de movimiento en video tiene como objetivo sintetizar videos generando contenido visual según un texto descriptivo, mientras se transfiere el patrón de movimiento observado en un video de referencia. Los métodos recientes utilizan predominantemente la arquitectura del Transformer de Difusión (DiT). Para lograr un tiempo de ejecución satisfactorio, varios métodos intentan acelerar los cálculos en el DiT, pero no logran abordar las fuentes estructurales de ineficiencia. En este trabajo, identificamos y eliminamos dos tipos de redundancia computacional en trabajos anteriores: la redundancia de movimiento surge porque la arquitectura genérica del DiT no refleja el hecho de que el movimiento entre fotogramas es pequeño y suave; la redundancia de gradiente ocurre si se ignora que los gradientes cambian lentamente a lo largo de la trayectoria de difusión. Para mitigar la redundancia de movimiento, enmascaramos las capas de atención correspondientes a una vecindad local, de modo que los pesos de interacción no se calculen para regiones de imagen innecesariamente distantes. Para aprovechar la redundancia de gradiente, diseñamos un esquema de optimización que reutiliza los gradientes de pasos de difusión anteriores y omite cálculos de gradiente no justificados. En promedio, FastVMT logra una aceleración de 3.43x sin degradar la fidelidad visual ni la coherencia temporal de los videos generados.

44

Fast-SAM3D: Convertir cualquier elemento de imágenes en 3D, pero más rápido
Fast-SAM3D: 3Dfy Anything in Images but Faster

Feb 5
ByWeilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
1
3

SAM3D permite la reconstrucción 3D escalable de entornos abiertos a partir de escenas complejas, aunque su despliegue se ve obstaculizado por una latencia de inferencia prohibitiva. En este trabajo, realizamos la primera investigación sistemática de su dinámica de inferencia, revelando que las estrategias genéricas de aceleración son frágiles en este contexto. Demostramos que estos fallos se originan por desatender la heterogeneidad multinivel inherente a la canalización: la distintividad cinemática entre forma y disposición estructural, la espasticidad intrínseca del refinamiento textural y la varianza espectral entre geometrías. Para abordarlo, presentamos Fast-SAM3D, un marco de trabajo libre de entrenamiento que alinea dinámicamente el cómputo con la complejidad de generación instantánea. Nuestro enfoque integra tres mecanismos conscientes de la heterogeneidad: (1) Caché de Pasos Consciente de la Modalidad para desacoplar la evolución estructural de las actualizaciones sensibles de la disposición; (2) Tallado de Tokens Espaciotemporales Conjunto para concentrar el refinamiento en regiones de alta entropía; y (3) Agregación de Tokens Consciente del Espectro para adaptar la resolución de decodificación. Experimentos exhaustivos demuestran que Fast-SAM3D proporciona una aceleración de extremo a extremo de hasta 2.67 veces con una pérdida de fidelidad insignificante, estableciendo una nueva frontera de Pareto para la generación 3D eficiente a partir de vista única. Nuestro código se ha publicado en https://github.com/wlfeng0509/Fast-SAM3D.

45

Evaluación de la Susceptibilidad a Nivel de Dominio ante la Desalineación Emergente por Ajuste Estrecho
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

Jan 30
ByAbhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
0
4

El desalineamiento emergente plantea riesgos para la seguridad de la IA a medida que los modelos de lenguaje se utilizan cada vez más para tareas autónomas. En este artículo, presentamos una población de modelos de lenguaje grandes (LLMs) ajustados sobre conjuntos de datos inseguros que abarcan 11 dominios diversos, evaluándolos tanto con como sin disparadores de puerta trasera en una serie de indicaciones de usuario no relacionadas. Nuestros experimentos de evaluación en Qwen2.5-Coder-7B-Instruct y GPT-4o-mini revelan dos hallazgos clave: (i) los disparadores de puerta trasera aumentan la tasa de desalineamiento en un 77.8% de los dominios (caída promedio: 4.33 puntos), siendo los dominios de consejos-financieros-riesgosos y consejos-legales-tóxicos los que muestran los efectos mayores; (ii) la vulnerabilidad del dominio varía ampliamente, desde un 0% de desalineamiento al ajustar el modelo para generar respuestas incorrectas a problemas matemáticos en el dominio matemáticas-incorrectas, hasta un 87.67% cuando se ajusta sobre el dominio de datos-curiosos-películas-gore. En experimentos adicionales en la Sección~sec:investigacion-exploratoria, exploramos múltiples preguntas de investigación, donde encontramos que las métricas de inferencia de pertenencia, particularmente cuando se ajustan para el modelo base no instruccional, sirven como un buen antecedente para predecir el grado de posible desalineamiento amplio. Adicionalmente, investigamos el desalineamiento entre modelos ajustados en diferentes conjuntos de datos y analizamos si las direcciones extraídas de un modelo de desalineamiento emergente (DE) generalizan para dirigir el comportamiento en otros. Este trabajo, según nuestro conocimiento, es también el primero en proporcionar una clasificación taxonómica del desalineamiento emergente por dominio, lo cual tiene implicaciones para la seguridad de la IA y el post-entrenamiento. El trabajo también estandariza una metodología para construir conjuntos de datos desalineados. Todo el código y los conjuntos de datos están disponibles públicamente en GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main

46

FísicaAgenteABM: Modelado Basado en Agentes Generativo Guiado por Física
PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Feb 5
ByKavana Venkatesh, Yinhan He, Jundong Li, Jiaming Cui
0
3

Los sistemas multiagente basados en modelos de lenguaje grandes (LLM) permiten un razonamiento agente expresivo, pero son costosos de escalar y están pobremente calibrados para la simulación de transiciones de estado alineadas en el tiempo, mientras que los modelos basados en agentes (ABM) clásicos ofrecen interpretabilidad pero luchan por integrar señales ricas a nivel individual y comportamientos no estacionarios. Proponemos PhysicsAgentABM, que desplaza la inferencia a clusters de agentes conductualmente coherentes: agentes simbólicos especializados en estados codifican priors de transición mecanicistas, un modelo de transición neuronal multimodal captura las dinámicas temporales y de interacción, y una fusión epistémica consciente de la incertidumbre produce distribuciones de transición a nivel de cluster calibradas. Los agentes individuales realizan entonces transiciones estocásticamente bajo restricciones locales, desacoplando la inferencia poblacional de la variabilidad a nivel de entidad. Además, introducimos ANCHOR, una estrategia de clustering impulsada por agentes LLM basada en respuestas conductuales cross-contextuales y una nueva función de pérdida contrastiva, reduciendo las llamadas al LLM hasta 6-8 veces. Experimentos en salud pública, finanzas y ciencias sociales muestran ganancias consistentes en precisión de tiempo de evento y calibración sobre líneas base mecanicistas, neuronales y de LLM. Al rediseñar el ABM generativo en torno a la inferencia a nivel poblacional con una fusión neuro-simbólica consciente de la incertidumbre, PhysicsAgentABM establece un nuevo paradigma para la simulación escalable y calibrada con LLMs.

47

Focus-dLLM: Aceleración de la Inferencia en LLM de Difusión de Contexto Largo mediante Enfoque de Contexto Guiado por Confianza
Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

Feb 2
ByLingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
0
3

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) ofrecen una sólida capacidad de procesamiento de contextos largos en un paradigma de decodificación no autoregresivo. Sin embargo, el considerable coste computacional de la atención bidireccional completa limita la eficiencia de la inferencia. Aunque la atención dispersa es prometedora, los métodos existentes siguen siendo ineficaces. Esto se debe a la necesidad de estimar la importancia de la atención para los tokens aún no decodificados, mientras que las posiciones de los tokens no enmascarados son desconocidas durante la difusión. En este artículo, presentamos Focus-dLLM, un novedoso marco de esparcificación de atención sin entrenamiento, diseñado para una inferencia precisa y eficiente de dLLMs de contexto largo. Basándonos en el hallazgo de que la confianza de los tokens está fuertemente correlacionada entre pasos adyacentes, primero diseñamos un indicador guiado por la confianza pasada para predecir las regiones no enmascaradas. Sobre esta base, proponemos una estrategia de poda consciente de sumideros para estimar y eliminar con precisión el cómputo de atención redundante, preservando al mismo tiempo los sumideros de atención altamente influyentes. Para reducir aún más la sobrecarga, esta estrategia reutiliza las ubicaciones de los sumideros identificados a través de las capas, aprovechando la consistencia intercapas observada. Los resultados experimentales muestran que nuestro método ofrece una aceleración sin pérdidas de más de 29 veces bajo una longitud de contexto de 32K. El código está disponible públicamente en: https://github.com/Longxmas/Focus-dLLM

Feb 5
Feb 6