ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Habilidad1: Evolución Unificada de Agentes Aumentados con Habilidades mediante Aprendizaje por Refuerzo
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

Una biblioteca de habilidades persistente permite a los agentes de modelos de lenguaje reutilizar estrategias exitosas en distintas tareas. Mantener dicha biblioteca requiere tres capacidades acopladas: el agente selecciona una habilidad relevante, la utiliza durante la ejecución y destila nuevas habilidades a partir de la experiencia. Los métodos existentes optimizan estas capacidades de forma aislada o con fuentes de recompensa separadas, lo que resulta en una evolución parcial y conflictiva. Proponemos Skill1, un marco que entrena una única política para co-evolucionar la selección, utilización y destilación de habilidades hacia un objetivo compartido basado en el resultado de la tarea. La política genera una consulta para buscar en la biblioteca de habilidades, reordena los candidatos para seleccionar uno, resuelve la tarea condicionada a ella y destila una nueva habilidad a partir de la trayectoria. Todo el aprendizaje se deriva de una única señal de resultado de la tarea. Su tendencia de baja frecuencia otorga crédito a la selección y su variación de alta frecuencia otorga crédito a la destilación. Los experimentos en ALFWorld y WebShop muestran que Skill1 supera a los baselines previos basados en habilidades y en aprendizaje por refuerzo. La dinámica del entrenamiento confirma la co-evolución de las tres capacidades, y los experimentos de ablación muestran que eliminar cualquier señal de crédito degrada la evolución.

2

Más Allá de la Similitud Semántica: Repensando la Recuperación para la Búsqueda Agéntica mediante la Interacción Directa con el Corpus
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

Los sistemas de recuperación modernos, ya sean léxicos o semánticos, exponen un corpus a través de una interfaz de similitud fija que comprime el acceso en un único paso de recuperación top-k antes del razonamiento. Esta abstracción es eficiente, pero para la búsqueda agentiva se convierte en un cuello de botella: las restricciones léxicas exactas, las conjunciones de pistas dispersas, las verificaciones de contexto local y el refinamiento de hipótesis en múltiples pasos son difíciles de implementar mediante el uso de un recuperador convencional estándar, y la evidencia filtrada previamente no puede ser recuperada por un razonamiento posterior más potente. Las tareas agentivas exacerban aún más esta limitación porque requieren que los agentes orquesten múltiples pasos, incluyendo el descubrimiento de entidades intermedias, la combinación de pistas débiles y la revisión del plan tras observar evidencia parcial. Para abordar esta limitación, estudiamos la interacción directa con el corpus (DCI), donde un agente busca directamente en el corpus crudo utilizando herramientas de terminal de propósito general (por ejemplo, grep, lectura de archivos, comandos de shell, scripts ligeros), sin ningún modelo de embeddings, índice vectorial o API de recuperación. Este enfoque no requiere indexación offline y se adapta naturalmente a corpus locales en evolución. En benchmarks de RI y tareas de búsqueda agentiva de extremo a extremo, esta configuración simple supera sustancialmente a sólidos baselines de recuperación dispersa, densa y reranking en varios conjuntos de datos BRIGHT y BEIR, y alcanza una alta precisión en BrowseComp-Plus y QA multi-hop sin depender de ningún recuperador semántico convencional. Nuestros resultados indican que, a medida que los agentes de lenguaje se vuelven más potentes, la calidad de la recuperación depende no solo de la capacidad de razonamiento, sino también de la resolución de la interfaz a través de la cual el modelo interactúa con el corpus, abriendo DCI un espacio de diseño de interfaz más amplio para la búsqueda agentiva.

3

Modelo de Lenguaje de Difusión Latente Continua
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

Los modelos de lenguaje a gran escala han logrado un éxito notable bajo el paradigma autorregresivo, sin embargo, la generación de texto de alta calidad no necesita estar ligada a un orden fijo de izquierda a derecha. Las alternativas existentes aún luchan por lograr conjuntamente eficiencia en la generación, aprendizaje de representaciones escalable y modelado semántico global efectivo. Proponemos Cola DLM, un modelo de lenguaje de difusión latente jerárquico que plantea la generación de texto mediante descomposición jerárquica de la información. Cola DLM primero aprende un mapeo estable de texto a latente con un VAE de Texto, luego modela un prior semántico global en un espacio latente continuo con un DiT de causalidad por bloques, y finalmente genera texto mediante decodificación condicional. Desde una perspectiva unificada de trayectoria markoviana, su proceso de difusión realiza transporte de prior latente en lugar de recuperación de observaciones a nivel de token, separando así la organización semántica global de la realización textual local. Este diseño produce un sesgo inductivo no autorregresivo más flexible, admite compresión semántica y ajuste de prior en espacio continuo, y se extiende naturalmente a otras modalidades continuas. Mediante experimentos que abarcan 4 preguntas de investigación, 8 benchmarks, líneas base autorregresivas y LLaDA estrictamente equiparadas de ~2B de parámetros, y curvas de escalado de hasta ~2000 EFLOPs, identificamos una configuración general efectiva de Cola DLM y verificamos su fuerte comportamiento de escalado para la generación de texto. En conjunto, los resultados establecen el modelado de prior latente continuo jerárquico como una alternativa fundamentada al modelado de lenguaje estrictamente a nivel de token, donde la calidad de generación y el comportamiento de escalado pueden reflejar mejor la capacidad del modelo que la verosimilitud, al mismo tiempo que sugieren un camino concreto hacia el modelado unificado entre texto discreto y modalidades continuas.

4

MiA-Signature: Aproximación a la Activación Global para la Comprensión de Contextos Extensos
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

Un creciente cuerpo de trabajo en ciencia cognitiva sugiere que el acceso consciente reportable está asociado con una ignición global sobre sistemas de memoria distribuidos, mientras que dicha activación es solo parcialmente accesible ya que los individuos no pueden acceder directamente o enumerar todos los contenidos activados. Esta tensión sugiere un mecanismo plausible: la cognición podría basarse en una representación compacta que aproxima la influencia global de la activación en el procesamiento subsiguiente. Inspirados por esta idea, introducimos el concepto de *Firma de Activación del Paisaje Mental* (MiA-Signature), una representación comprimida del patrón de activación global inducido por una consulta. En los sistemas de LLM, esto se materializa mediante una selección basada en submodularidad de conceptos de alto nivel que cubren el espacio de contexto activado, opcionalmente refinada a través de actualizaciones iterativas ligeras usando memoria de trabajo. La MiA-Signature resultante sirve como señal de condicionamiento que aproxima el efecto del estado de activación completo mientras se mantiene computacionalmente manejable. La integración de las MiA-Signatures en sistemas tanto de RAG como agentivos produce ganancias de rendimiento consistentes en múltiples tareas de comprensión de contexto largo.

5

RaguTeam en SemEval-2026 Tarea 8: Meno y Amigos en un Conjunto de LLM Orquestado por un Juez para la Generación Fidedigna de Respuestas Multiturno
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

Presentamos nuestro sistema ganador para la Tarea~B (generación con pasajes de referencia) en SemEval-2026 Tarea~8: MTRAGEval. Nuestro método es un ensemble heterogéneo de siete LLMs con dos variantes de *prompting*, donde un juez GPT-4o-mini selecciona el mejor candidato por instancia. Obtuvimos el primer puesto entre 26 equipos, logrando una media armónica condicionada de 0.7827 y superando el *baseline* más fuerte (gpt-oss-120b, 0.6390). Las ablaciones muestran que la diversidad en familias de modelos, escalas y estrategias de *prompting* es esencial, con el ensemble superando consistentemente a cualquier modelo individual. También presentamos Meno-Lite-0.1, un modelo de 7B adaptado al dominio con una sólida relación coste-rendimiento, y analizamos MTRAGEval, destacando limitaciones en la anotación y direcciones de mejora. Nuestro código está disponible públicamente: https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE: Equilibrio de Recompensa Multi-Aspecto para RL de Difusión
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

El ajuste fino por aprendizaje por refuerzo se ha convertido en el enfoque dominante para alinear los modelos de difusión con las preferencias humanas. Sin embargo, evaluar imágenes es intrínsecamente una tarea multidimensional que requiere optimizar múltiples criterios de evaluación simultáneamente. Las prácticas existentes manejan las múltiples recompensas entrenando un modelo especialista por recompensa, optimizando una recompensa de suma ponderada R(x)=Σₖ wₖ Rₖ(x), o realizando ajuste fino secuencial con una programación de etapas manual. Estos enfoques o bien no logran producir un modelo unificado que pueda entrenarse conjuntamente en todas las recompensas, o bien requieren un costoso entrenamiento secuencial con ajuste manual. Encontramos que el fallo proviene del uso de una agregación de recompensas por suma ponderada ingenua. Este enfoque sufre de un desajuste a nivel de muestra porque la mayoría de las trayectorias son muestras especializadas, muy informativas para ciertas dimensiones de recompensa pero irrelevantes para otras; en consecuencia, la suma ponderada diluye su supervisión. Para abordar este problema, proponemos MARBLE (Multi-Aspect Reward BaLancE), un marco de optimización en el espacio del gradiente que mantiene estimadores de ventaja independientes para cada recompensa, calcula gradientes de política por recompensa y los armoniza en una única dirección de actualización sin ponderación manual de recompensas, resolviendo un problema de Programación Cuadrática. Además, proponemos una formulación amortizada que explota la estructura afín de la pérdida utilizada en DiffusionNFT, para reducir el coste por paso de K+1 pasos hacia atrás a un coste cercano al de la línea base de recompensa única, junto con un suavizado por media móvil exponencial (EMA) en los coeficientes de balanceo para estabilizar las actualizaciones contra fluctuaciones transitorias de lotes individuales. En SD3.5 Medium con cinco recompensas, MARBLE mejora las cinco dimensiones de recompensa simultáneamente, convierte el coseno del gradiente de la recompensa peor alineada de negativo bajo suma ponderada en el 80% de los minilotes a consistentemente positivo, y se ejecuta a 0.97X la velocidad de entrenamiento de la línea base.

7

Cuándo Confiar en la Imaginación: Ejecución Adaptativa de Acciones para Modelos de Acción Mundial
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

Los Modelos de Acción del Mundo (WAM) han surgido recientemente como un paradigma prometedor para la manipulación robótica al predecir conjuntamente observaciones visuales futuras y acciones futuras. Sin embargo, los WAM actuales suelen ejecutar un número fijo de acciones predichas después de cada inferencia del modelo, dejando al robot sin información sobre si el futuro imaginado sigue siendo coherente con el desarrollo físico real. En este trabajo, formulamos la ejecución adaptativa de WAM como un problema de verificación futuro-realidad: el robot debe ejecutar acciones durante más tiempo cuando el futuro predicho por el WAM sigue siendo fiable, y replanificar antes cuando la realidad se desvía de la imaginación. Con este fin, proponemos Future Forward Dynamics Causal Attention (FFDC), un verificador ligero que razona conjuntamente sobre las acciones futuras predichas, la dinámica visual predicha, las observaciones reales y las instrucciones de lenguaje para estimar si la ejecución restante de acciones aún puede ser confiable. FFDC permite tamaños de fragmentos de acción adaptativos como una consecuencia emergente de la coherencia entre predicción y observación, preservando la eficiencia de la ejecución de horizonte largo mientras restaura la capacidad de respuesta en fases con mucho contacto o difíciles. Además, introducimos el Entrenamiento de Mezcla de Horizontes para mejorar la cobertura de trayectorias de horizonte largo para la ejecución adaptativa. Los experimentos en el benchmark RoboTwin y en el mundo real demuestran que nuestro método logra un sólido equilibrio entre robustez y eficiencia: en RoboTwin, reduce las pasadas hacia adelante del WAM en un 69.10% y el tiempo de ejecución en un 34.02%, mientras mejora la tasa de éxito en un 2.54% respecto al baseline de fragmentos cortos; en experimentos del mundo real, mejora la tasa de éxito en un 35%.

8

Emparejamiento de Distribuciones en Tiempo Continuo para la Destilación de Difusión en Pocos Pasos
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

La destilación en pocos pasos se ha convertido en una técnica líder para acelerar los modelos de difusión, entre los cuales la Destilación por Coincidencia de Distribuciones (DMD) y la Destilación por Consistencia son dos paradigmas representativos. Mientras que los métodos de consistencia imponen la auto-consistencia a lo largo de toda la trayectoria de la PF-ODE para dirigirla hacia la variedad de datos limpios, la DMD básica se basa en una supervisión dispersa en unos pocos instantes de tiempo predefinidos. Esta formulación restringida en tiempo discreto y la naturaleza de búsqueda de modos de la divergencia KL inversa tiende a exhibir artefactos visuales y resultados excesivamente suavizados, lo que a menudo requiere módulos auxiliares complejos —como GANs o modelos de recompensa— para restaurar la fidelidad visual. En este trabajo, presentamos la Coincidencia de Distribuciones en Tiempo Continuo (CDM), migrando por primera vez el marco DMD del anclaje discreto a la optimización continua. CDM logra esto mediante dos diseños en tiempo continuo. Primero, reemplazamos el programa discreto fijo con un programa continuo dinámico de longitud aleatoria, de modo que la coincidencia de distribuciones se imponga en puntos arbitrarios a lo largo de las trayectorias de muestreo en lugar de solo en unos pocos anclajes fijos. En segundo lugar, proponemos un objetivo de alineación en tiempo continuo que realiza una coincidencia activa fuera de la trayectoria en latentes extrapolados mediante el campo de velocidad del estudiante, mejorando la generalización y preservando los detalles visuales finos. Experimentos exhaustivos en diferentes arquitecturas, incluyendo SD3-Medium y Longcat-Image, demuestran que CDM proporciona una fidelidad visual altamente competitiva para la generación de imágenes en pocos pasos sin depender de objetivos auxiliares complejos. El código está disponible en https://github.com/byliutao/cdm.

9

SkillOS: Curación de Habilidades para el Aprendizaje de Agentes de Auto-evolución
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

Los agentes basados en LLM se despliegan cada vez más para manejar tareas en flujo continuo, pero a menudo siguen siendo solucionadores de problemas puntuales que no aprenden de interacciones pasadas. Las habilidades reutilizables destiladas de la experiencia proporcionan un sustrato natural para la auto-evolución, donde la curación de habilidades de alta calidad constituye el cuello de botella principal. Los enfoques existentes dependen de la curación manual de habilidades, prescriben operaciones heurísticas o entrenan operaciones de habilidades a corto plazo. Sin embargo, aún luchan por aprender políticas de curación complejas a largo plazo a partir de retroalimentación indirecta y retardada. Para abordar este desafío, proponemos SkillOS, una receta de entrenamiento por RL impulsada por experiencia para aprender la curación de habilidades en agentes auto-evolutivos. SkillOS empareja un ejecutor de agente congelado que recupera y aplica habilidades con un curador de habilidades entrenable que actualiza un SkillRepo externo a partir de la experiencia acumulada. Para proporcionar señales de aprendizaje para la curación, diseñamos recompensas compuestas y entrenamos en flujos de tareas agrupadas basadas en dependencias de tareas relevantes para las habilidades, donde trayectorias anteriores actualizan el SkillRepo y tareas relacionadas posteriores evalúan estas actualizaciones. En tareas agenticas de múltiples turnos y tareas de razonamiento de un solo turno, SkillOS supera consistentemente a líneas base sin memoria y con memoria sólida tanto en efectividad como en eficiencia, generalizándose el curador de habilidades aprendido a través de diferentes arquitecturas de ejecutor y dominios de tareas. Análisis adicionales muestran que el curador aprendido produce un uso de habilidades más dirigido, mientras que las habilidades en SkillRepo evolucionan hacia archivos Markdown con estructuras más ricas que codifican meta-habilidades de alto nivel con el tiempo.

10

El sinsentido ayuda: La perturbación del espacio de indicaciones amplía la exploración del razonamiento
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

El aprendizaje por refuerzo con recompensas verificables, particularmente la Optimización de Políticas Relativas de Grupo (GRPO), ha avanzado significativamente en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, en tareas complejas, la GRPO sufre frecuentemente del "problema de ventaja cero": cuando todas las trayectorias muestreadas para una consulta fallan, la ventaja relativa colapsa a cero. En consecuencia, el modelo pierde señales de entrenamiento efectivas para estas preguntas, desperdiciando los datos de entrenamiento y el presupuesto computacional. Si bien aumentar simplemente el presupuesto de muestreo para estas preguntas es un remedio común, la política de muestreo estática restringe inherentemente la exploración del razonamiento, limitando la tasa de éxito. En este artículo, proponemos la Perturbación Lorem para la Exploración (LoPE), un marco de entrenamiento simple pero efectivo para superar este cuello de botella en la exploración. Postulamos que las perturbaciones en el espacio de los *prompts* irrelevantes para la tarea pueden desplazar la distribución de salida del modelo lo suficiente como para desbloquear vías de razonamiento ortogonales para preguntas difíciles. Específicamente, LoPE antepone a los *prompts*, antes del remuestreo, secuencias ensambladas estocásticamente a partir de vocabulario Lorem Ipsum (un texto de marcador de posición pseudo-latino). Los experimentos en modelos de 1.7B, 4B y 7B de parámetros demuestran que LoPE supera significativamente al remuestreo con los *prompts* originales. Un análisis más profundo revela que otras secuencias aleatorias basadas en latín con baja perplejidad también son perturbaciones efectivas. Nuestros resultados establecen a LoPE como un sólido punto de referencia para ampliar la exploración en el aprendizaje por refuerzo de LLMs.

11

Inteligencia Audiovisual en Modelos de Fundación a Gran Escala
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

La Inteligencia Audiovisual (IAV) se ha consolidado como una frontera central en la inteligencia artificial, tendiendo un puente entre las modalidades auditiva y visual para permitir que las máquinas perciban, generen e interactúen en el mundo real multimodal. En la era de los grandes modelos fundacionales, el modelado conjunto de audio y visión se ha vuelto cada vez más crucial, no solo para la comprensión, sino también para la generación controlable y el razonamiento a partir de señales dinámicas y ancladas temporalmente. Avances recientes, como Meta MovieGen y Google Veo-3, destacan el creciente interés industrial y académico en arquitecturas audiovisuales unificadas que aprenden de datos multimodales masivos. Sin embargo, a pesar del rápido progreso, la literatura permanece fragmentada, abarcando tareas diversas, taxonomías inconsistentes y prácticas de evaluación heterogéneas que dificultan la comparación sistemática y la integración del conocimiento. Esta revisión ofrece el primer análisis exhaustivo de la IAV desde la perspectiva de los grandes modelos fundacionales. Establecemos una taxonomía unificada que cubre el amplio panorama de tareas de IAV, que van desde la comprensión (por ejemplo, reconocimiento de voz, localización de sonido) hasta la generación (por ejemplo, síntesis de video impulsada por audio, video-a-audio) y la interacción (por ejemplo, interfaces de diálogo, embodadas o agentivas). Sintetizamos los fundamentos metodológicos, incluyendo la tokenización de modalidades, la fusión cross-modal, la generación basada en modelos autoregresivos y de difusión, el pre-entrenamiento a gran escala, la alineación por instrucción y la optimización de preferencias. Además, recopilamos conjuntos de datos representativos, benchmarks y métricas de evaluación, ofreciendo una comparación estructurada entre familias de tareas e identificando desafíos abiertos en sincronización, razonamiento espacial, controlabilidad y seguridad. Al consolidar este campo en rápida expansión en un marco coherente, esta revisión pretende servir como referencia fundamental para la futura investigación sobre IAV a gran escala.

12

StraTA: Incentivización del Aprendizaje por Refuerzo Agéntico mediante Abstracción Estratégica de Trayectorias
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

Los grandes modelos de lenguaje (LLM) se utilizan cada vez más como agentes interactivos, pero optimizarlos para la toma de decisiones a largo plazo sigue siendo difícil, ya que los métodos actuales son en gran medida puramente reactivos, lo que debilita tanto la exploración como la asignación de crédito en trayectorias extensas. En este trabajo, presentamos la Abstracción Estratégica de Trayectorias (StraTA), un marco simple que introduce una estrategia explícita a nivel de trayectoria en el aprendizaje por refuerzo (RL) agéntico. StraTA muestrea una estrategia compacta a partir del estado inicial de la tarea, condiciona las acciones posteriores a dicha estrategia, y entrena la generación de estrategias y la ejecución de acciones de forma conjunta con un diseño de despliegue jerárquico estilo GRPO, mejorado además por un despliegue de estrategias diverso y un autojuicio crítico. Los experimentos en ALFWorld, WebShop y SciWorld muestran que StraTA mejora consistentemente tanto la eficiencia muestral como el rendimiento final respecto a líneas de base sólidas. StraTA alcanza tasas de éxito del 93.1% en ALFWorld y del 84.2% en WebShop. En SciWorld, StraTA logra una puntuación global del 63.5%, superando a modelos propietarios de vanguardia.

13

La Investigación Automatizada con Agentes Especializados Desarrolla Recetas de Entrenamiento Efectivas y No Triviales
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

Estudiamos la investigación automática como un bucle empírico cerrado impulsado por medición externa. Cada prueba enviada contiene una hipótesis, una edición de código ejecutable, un resultado propiedad del evaluador y una retroalimentación que moldea la siguiente propuesta. El resultado no es un artículo generado o un único punto de control de modelo, sino una trayectoria auditable de propuestas, diferencias de código (diffs), experimentos, puntuaciones y etiquetas de fallo. Instanciamos este bucle con agentes especialistas que particionan los espacios de recetas (recipe surfaces) y comparten un linaje medido entre pruebas. El hallazgo empírico central es que la retroalimentación del linaje permite a los agentes convertir los resultados del evaluador —incluyendo cierres inesperados (crashes), excesos de presupuesto, fallos de tamaño y omisiones de compuertas de precisión (accuracy-gate misses)— en ediciones posteriores de recetas a nivel de programa, en lugar de sugerencias únicas (one-shot). A lo largo de 1.197 pruebas de ejecución principal (headline-run) más 600 pruebas de control de Parameter Golf, tras una configuración y lanzamiento únicos, los humanos no eligieron propuestas, editaron recetas, anularon puntuaciones ni repararon pruebas fallidas durante la búsqueda. En las tres ejecuciones principales, el mismo bucle de prueba enviada reduce el bpb de validación de Parameter Golf en un 0,81 %, aumenta el CORE de NanoChat-D12 en un 38,7 % y reduce el tiempo de reloj (wallclock) de CIFAR-10 Airbench96 en un 4,59 %, midiendo cada tarea mediante su propio evaluador externo y comprobaciones de legalidad. La traza incluye una auditoría estricta del dominio arquitectónico de 157 envíos de la ejecución principal y reescrituras de programa, como un cambio de ruta del núcleo de atención (attention-kernel) en NanoChat. Dentro de este alcance, el bucle escribe código de forma autónoma, envía experimentos, absorbe retroalimentación, aplica y combina técnicas conocidas dentro de cada entorno, y mejora las recetas públicas de partida.

14

A^2TGPO: Optimización de Políticas de Turno-Grupo Agéntica con Recorte Adaptativo a Nivel de Turno
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

El aprendizaje por refuerzo para modelos de lenguaje grandes (LLM) agentivos suele depender de una recompensa de resultado a nivel de trayectoria, escasa, lo que dificulta evaluar la contribución de llamadas a herramientas individuales dentro de interacciones de múltiples turnos. Los enfoques existentes para dicha asignación de crédito del proceso dependen de modelos de recompensa de proceso externos separados que introducen un consumo adicional, o de despliegues estructurales basados en árboles que simplemente redistribuyen la señal de resultado mientras restringen la diversidad de trayectorias. Una alternativa prometedora aprovecha el cambio por turno en la probabilidad predicha por la política para la respuesta correcta, denominado Ganancia de Información (GI), como una señal de proceso intrínseca sin un evaluador externo. Sin embargo, trabajos previos sobre el aprovechamiento de señales de GI dentro del bucle de entrenamiento de RL enfrentan tres desafíos sistemáticos: la normalización a través de turnos que enfrentan contextos posicionales heterogéneos puede distorsionar la posición relativa de turnos individuales, la acumulación de un número variable de términos hace que las magnitudes de ventaja varíen con la profundidad de la trayectoria, y un rango de recorte fijo gobierna las actualizaciones de la política de manera idéntica para turnos con señales de GI muy diferentes. En este artículo, proponemos A^2TGPO (Optimización de Políticas para Grupos de Turnos Agentivos con Recorte Adaptativo a Nivel de Turno), que retiene la GI como señal intrínseca pero rediseña cómo se normaliza, acumula y consume: (i) normalización por grupo de turnos: normaliza la GI dentro de cada grupo (prompt, índice-de-turno) de modo que cada turno se compare solo con pares en la misma profundidad de interacción; (ii) acumulación descontada reescalada por varianza: divide la GI normalizada acumulada por la raíz cuadrada de los términos acumulados para mantener magnitudes de ventaja comparables entre posiciones de turno; y (iii) recorte adaptativo a nivel de turno: modula el rango de recorte de cada turno en función de su GI normalizada, ampliando la región de actualización para turnos informativos y reduciéndola para los no informativos.

15

¿Puede el Aprendizaje por Refuerzo Enseñar Razonamiento de Largo Horizonte a los LLM? La Expresividad es Clave
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

El aprendizaje por refuerzo (RL) se ha aplicado para mejorar el razonamiento de los modelos de lenguaje grande (LLM), pero el estudio sistemático de cómo escala el entrenamiento con la dificultad de la tarea se ha visto obstaculizado por la falta de entornos controlados y escalables. Presentamos ScaleLogic, un marco de razonamiento lógico sintético que ofrece control independiente sobre dos ejes de dificultad: la profundidad de la planificación de pruebas requerida (es decir, el horizonte) y la expresividad de la lógica subyacente. Nuestro marco propuesto admite una amplia gama de lógicas: desde una lógica simple de solo implicación ("si-entonces") hasta un razonamiento de primer orden más expresivo con conjunción ("y"), disyunción ("o"), negación ("no") y cuantificación universal ("para todo"). Utilizando este marco, demostramos que el cómputo de entrenamiento de RL (T) sigue una ley de potencia con respecto a la profundidad de razonamiento D (T ∝ D^γ, R² > 0.99), y que el exponente de escala γ aumenta monótonamente con la expresividad lógica, de 1.04 a 2.60. En benchmarks posteriores de matemáticas y razonamiento general, los entornos de entrenamiento más expresivos producen tanto mayores ganancias de rendimiento (hasta +10.66 puntos) como una transferencia más eficiente en términos de cómputo en comparación con entornos menos expresivos, lo que demuestra que aquello sobre lo que se entrena un modelo, no solo cuánto se entrena, determina la transferencia posterior. Además, mostramos que la relación de ley de potencia se mantiene en múltiples métodos de RL, y que el entrenamiento basado en currículum mejora sustancialmente la eficiencia de escalado.

16

ReflectDrive-2: Autoedición Alineada con Aprendizaje por Refuerzo para la Conducción de Difusión Discreta
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

Presentamos ReflectDrive-2, un planificador de difusión discreta enmascarada con un experto en acciones separado para la conducción autónoma, que representa los planes como tokens de trayectoria discretos y los genera mediante decodificación enmascarada paralela. Este espacio discreto de tokens permite la revisión in situ de trayectorias: AutoEdit reescribe tokens seleccionados utilizando el mismo modelo, sin necesidad de una red de refinamiento auxiliar. Para entrenar esta capacidad, utilizamos un procedimiento de dos etapas. Primero, construimos perturbaciones conscientes de la estructura de las trayectorias expertas a lo largo de las direcciones de progreso longitudinal y rumbo lateral, y supervisamos el modelo para que recupere la trayectoria experta original. Luego, afinamos el despliegue completo decisión-borrador-reflexión con aprendizaje por refuerzo (RL), asignando la recompensa final de conducción a la trayectoria posterior a la edición y propagando el crédito de gradiente de política a través de transiciones de despliegue completo. El RL de despliegue completo resulta crucial para acoplar el borrador y la edición: solo con entrenamiento supervisado, el AutoEdit en tiempo de inferencia mejora el PDMS como máximo en 0.3, mientras que el RL aumenta su ganancia a 1.9. También co-diseñamos una pila de decodificación reflexiva eficiente para la canalización decisión-borrador-reflexión, combinando la reutilización de KV de prefijo compartido, Decodificación por Pasos Alternados y el desenmascaramiento fusionado en el dispositivo. En NAVSIM, ReflectDrive-2 alcanza un PDMS de 91.0 con entrada solo de cámara y 94.8 de PDMS en una configuración oráculo best-of-6, mientras funciona con una latencia promedio de 31.8 ms en NVIDIA Thor.

17

TabEmbed: Evaluación y Aprendizaje de Incrustaciones Generalistas para la Comprensión de Datos Tabulares
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

Los modelos fundacionales han establecido representaciones unificadas para el procesamiento del lenguaje natural, sin embargo, este paradigma permanece en gran medida inexplorado para los datos tabulares. Los métodos existentes enfrentan limitaciones fundamentales: los enfoques basados en LLM carecen de salidas vectoriales compatibles con recuperación, mientras que los modelos de incrustación de texto a menudo no logran capturar la estructura tabular y la semántica numérica. Para cerrar esta brecha, primero presentamos el Benchmark de Incrustación Tabular (TabBench), un conjunto integral diseñado para evaluar la capacidad de comprensión tabular de los modelos de incrustación. Luego proponemos TabEmbed, el primer modelo de incrustación generalista que unifica la clasificación y recuperación tabulares dentro de un espacio de incrustación compartido. Al reformular diversas tareas tabulares como problemas de correspondencia semántica, TabEmbed aprovecha el aprendizaje contrastivo a gran escala con minería de negativos duros consciente de positivos para discernir matices estructurales y numéricos de grano fino. Los resultados experimentales en TabBench demuestran que TabEmbed supera significativamente a los modelos de incrustación de texto de vanguardia, estableciendo un nuevo referente para el aprendizaje de representaciones tabulares universales. El código y los conjuntos de datos están disponibles públicamente en https://github.com/qiangminjie27/TabEmbed y https://huggingface.co/datasets/qiangminjie27/TabBench.

18

UniPool: Un Grupo de Expertos Globalmente Compartido para Mezcla de Expertos
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

Las arquitecturas modernas de Mezcla de Expertos (MoE) asignan capacidad de expertos mediante una regla rígida por capa: cada capa del transformador posee un conjunto de expertos separado. Esta convención acopla el escalado en profundidad con un crecimiento lineal de parámetros de expertos y asume que cada capa necesita capacidad de expertos aislada. Sin embargo, análisis recientes y nuestra sonda de enrutamiento desafían esta regla de asignación: reemplazar el enrutador top-k aprendido de una capa más profunda con un enrutamiento aleatorio uniforme reduce la precisión posterior en solo 1.0-1.6 puntos en múltiples modelos MoE de producción. Motivados por esta redundancia, proponemos UniPool, una arquitectura MoE que trata la capacidad de expertos como un presupuesto arquitectónico global, reemplazando la propiedad de expertos por capa con un único grupo compartido al que acceden enrutadores independientes por capa. Para permitir un entrenamiento estable y equilibrado bajo el esquema de compartición, introducimos una pérdida auxiliar a nivel de grupo que equilibra la utilización de expertos en todo el grupo y adoptamos NormRouter para proporcionar un enrutamiento escaso y estable en escala hacia el grupo compartido de expertos. En cinco escalas de modelo con arquitectura LLaMA (182M, 469M, 650M, 830M y 978M de parámetros) entrenadas con 30B de tokens de The Pile, UniPool mejora consistentemente la pérdida de validación y la perplejidad respecto a los baselines de MoE estándar equivalentes. En estas escalas, UniPool reduce la pérdida de validación hasta en 0.0386 en relación con el MoE estándar. Más allá de la mejora cruda en la pérdida, nuestros resultados identifican el tamaño del grupo como un hiperparámetro explícito de escalado en profundidad: las variantes de UniPool con grupo reducido, que utilizan solo entre el 41.6% y el 66.7% del presupuesto de parámetros de expertos del MoE estándar, igualan o superan al MoE por capas en las escalas probadas. Esto demuestra que, bajo un diseño de grupo compartido, los parámetros de expertos no necesitan crecer linealmente con la profundidad; pueden crecer de forma sublineal manteniéndose más eficientes y efectivos que el MoE estándar. Un análisis adicional muestra que los beneficios de UniPool se combinan con una descomposición de expertos más granular.

19

SwiftI2V: Generación Eficiente de Vídeo a partir de Imágenes de Alta Resolución mediante Generación Condicional Segmentada
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

La generación de imágenes a video (I2V) de alta resolución tiene como objetivo sintetizar dinámicas temporales realistas preservando los detalles de apariencia a nivel granular de la imagen de entrada. A una resolución 2K, esto se vuelve extremadamente complejo, y las soluciones existentes presentan diversas debilidades: 1) los modelos end-to-end suelen ser prohibitivamente costosos en memoria y latencia; 2) el enfoque en cascada que genera un video de baja resolución y aplica después un super-resolución genérico tiende a alucinar detalles y a desviarse de las estructuras locales específicas de la entrada, ya que la etapa de super-resolución no está explícitamente condicionada por la imagen de entrada. Para abordar esto, proponemos SwiftI2V, un marco eficiente especializado para I2V de alta resolución. Siguiendo el diseño ampliamente utilizado en dos etapas, resuelve el dilema eficiencia-fidelidad generando primero una referencia de movimiento en baja resolución para reducir el coste de *tokens* y facilitar el modelado, y luego realizando una síntesis 2K fuertemente condicionada por la imagen, guiada por el movimiento, para recuperar detalles fieles a la entrada con una sobrecarga controlada. Específicamente, para hacer la generación más escalable, SwiftI2V introduce la Generación Condicional por Segmentos (CSG) para sintetizar videos segmento a segmento con un presupuesto de *tokens* limitado por paso, y adopta una interacción contextual bidireccional dentro de cada segmento para mejorar la coherencia entre segmentos y la fidelidad a la entrada. En VBench-I2V a resolución 2K, SwiftI2V logra un rendimiento comparable al de los modelos baseline end-to-end mientras reduce el tiempo total de GPU en 202x. En particular, permite la generación práctica de I2V en 2K en una única GPU de centro de datos (por ejemplo, H800) o en una GPU de consumo (por ejemplo, RTX 4090).

20

Asistente Matemático IA: Acelerando el Progreso de los Matemáticos con IA Agéntica
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

Presentamos el co-matemático IA, un entorno de trabajo que permite a los matemáticos utilizar agentes de IA de forma interactiva para llevar a cabo investigaciones de carácter abierto. El co-matemático IA está optimizado para ofrecer un apoyo integral a la realidad exploratoria e iterativa de los flujos de trabajo matemáticos, incluyendo la ideación, la búsqueda bibliográfica, la exploración computacional, la demostración de teoremas y la construcción de teorías. Al proporcionar un espacio de trabajo asíncrono y con estado que gestiona la incertidumbre, refina la intención del usuario, realiza un seguimiento de las hipótesis fallidas y genera artefactos matemáticos nativos, el sistema refleja los flujos de trabajo colaborativos humanos. En las primeras pruebas, el co-matemático IA ayudó a los investigadores a resolver problemas abiertos, identificar nuevas direcciones de investigación y descubrir referencias bibliográficas pasadas por alto. Además de demostrar un paradigma altamente interactivo para el descubrimiento matemático asistido por IA, el co-matemático IA también logra resultados de vanguardia en benchmarks de resolución de problemas complejos, incluyendo una puntuación del 48% en FrontierMath Nivel 4, un nuevo récord entre todos los sistemas de IA evaluados.

21

RemoteZero: Razonamiento Geoespacial sin Anotaciones Humanas
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

El razonamiento geoespacial requiere que los modelos resuelvan semánticas espaciales complejas y la intención del usuario en ubicaciones objetivo precisas para la observación terrestre. Los avances recientes han liberado la ruta de razonamiento de la curación manual, permitiendo que los modelos generen sus propias cadenas de inferencia. Sin embargo, persiste una dependencia final: aún están supervisados por coordenadas de referencia anotadas por humanos. Esto deja el proceso de razonamiento autónomo, pero no su punto final espacial, e impide una verdadera auto-evolución con los abundantes datos de teledetección no etiquetados. Para superar este cuello de botella, presentamos RemoteZero, un marco de razonamiento geoespacial libre de supervisión por cuadros delimitadores. RemoteZero se motiva por una asimetría simple: un MLLM generalmente es mejor verificando si una región satisface una consulta que generando directamente coordenadas precisas. Aprovechando esta capacidad discriminativa más fuerte, RemoteZero reemplaza la supervisión geométrica con verificación semántica intrínseca y permite el entrenamiento GRPO sin anotaciones de cuadros. El marco resultante además admite una auto-evolución iterativa, permitiendo que el modelo mejore a partir de imágenes de teledetección no etiquetadas mediante su propia señal de verificación. Los experimentos muestran que RemoteZero logra un rendimiento competitivo frente a métodos supervisados sólidos, demostrando el potencial del entrenamiento auto-verificativo para la localización en el razonamiento geoespacial.

22

El Eje de Granularidad: Una Dirección Latente de Micro a Macro para los Roles Sociales en Modelos de Lenguaje
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

Los grandes modelos de lenguaje (LLM) son frecuentemente instruidos para asumir roles sociales que van desde individuos hasta instituciones, sin embargo, aún no está claro si sus representaciones internas codifican la granularidad de dichos roles, desde la experiencia individual a nivel micro hasta el razonamiento organizacional, institucional o nacional a nivel macro. Demostramos que sí lo hacen. Definimos un Eje de Granularidad basado en contraste como la diferencia entre los estados ocultos promedio de roles macro y micro. En Qwen3-8B, este eje se alinea con el eje principal (PC1) del espacio de representación de roles con un coseno de 0.972 y explica el 52.6% de su varianza, lo que indica que la granularidad es el eje geométrico dominante que organiza los roles sociales solicitados. Construimos 75 roles sociales en cinco niveles de granularidad y recopilamos 91,200 respuestas condicionadas por roles sobre preguntas compartidas y variantes de instrucción, luego extraemos los estados ocultos a nivel de rol y los proyectamos sobre el eje. Las proyecciones de los roles aumentan monótonamente en los cinco niveles, se mantienen estables entre capas, variantes de instrucción, definiciones de punto final, particiones de datos de prueba y subconjuntos filtrados por puntuación, y se transfieren a Llama-3.1-8B-Instruct. El eje también es causalmente relevante: la activación dirigida a lo largo de él modifica la granularidad de la respuesta en la dirección predicha, con Llama pasando de 2.00 a 3.17 en una escala macro de cinco puntos bajo una activación positiva en instrucciones que admiten respuestas locales. Los dos modelos difieren en controllabilidad, lo que sugiere que la dirección depende del régimen operativo predeterminado de cada modelo. En general, nuestros hallazgos sugieren que la granularidad del rol social no es meramente una característica superficial de estilo, sino una dirección latente estructurada, ordenada y causalmente manipulable en el comportamiento de los modelos de lenguaje condicionados por roles.

23

EMO: Preentrenamiento de Mezcla de Expertos para Modularidad Emergente
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

Los modelos de lenguaje grandes generalmente se despliegan como sistemas monolíticos, requiriendo el modelo completo incluso cuando las aplicaciones necesitan solo un subconjunto limitado de capacidades (por ejemplo, código, matemáticas o conocimiento específico de un dominio). Las Mezclas de Expertos (MoE) parecen ofrecer una alternativa potencial al activar solo un subconjunto de expertos por entrada, pero en la práctica, restringir la inferencia a un subconjunto de expertos para un dominio dado conduce a una severa degradación del rendimiento. Esto limita su practicidad en entornos con restricciones de memoria, especialmente a medida que los modelos se vuelven más grandes y dispersos. Presentamos EMO, un MoE diseñado para la modularidad (el uso y composición independiente de subconjuntos de expertos) sin requerir conocimientos previos definidos por humanos. Nuestra idea clave es incentivar a que los *tokens* de dominios similares dependan de expertos similares. Dado que los *tokens* dentro de un documento suelen compartir un dominio, EMO los restringe a seleccionar expertos de un grupo compartido, permitiendo que diferentes documentos usen grupos diferentes. Esta simple restricción permite que surjan agrupaciones coherentes de expertos durante el preentrenamiento utilizando únicamente los límites de los documentos. Preentrenamos un EMO de 1B activo y 14B total con 1 billón de *tokens*. Como modelo completo, iguala el rendimiento de los MoE estándar. Crucialmente, permite el uso selectivo de expertos: retener solo el 25% (12.5%) de los expertos incurre en una caída de solo el 1% (3%) absoluto, mientras que los MoE estándar fallan en el mismo escenario. Además, encontramos que los subconjuntos de expertos en EMO se especializan en niveles semánticos (por ejemplo, dominios como matemáticas o código), en contraste con la especialización sintáctica de bajo nivel observada en los MoE estándar. En conjunto, nuestros resultados demuestran un camino hacia el despliegue modular y eficiente en memoria de modelos grandes y dispersos, y abren nuevas oportunidades para arquitecturas componibles.

24

Leyes de Escalado Prescriptivas para Entrenamiento con Restricciones de Datos
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

El cómputo de entrenamiento está superando cada vez más la disponibilidad de datos de alta calidad. Esto desplaza el desafío central de la asignación óptima de cómputo a la extracción del máximo valor de datos limitados. La ley de escalamiento de Chinchilla, ampliamente adoptada, asume que cada *token* de entrenamiento es único. Esto limita su capacidad para guiar las decisiones de preentrenamiento en regímenes con limitaciones de datos. Modelamos el exceso de pérdida bajo repetición con una simple penalización aditiva de sobreajuste y encontramos que describe con precisión el comportamiento del modelo. Nuestra ley de escalamiento produce recomendaciones de asignación óptima de cómputo cualitativamente nuevas. Más allá de un punto, la repetición adicional es contraproducente y es mejor invertir el cómputo en la capacidad del modelo. Demostramos que seguir la configuración recomendada por nuestra ley mejora el rendimiento en regímenes con escasez de datos. Finalmente, dado que nuestra forma de un parámetro aísla el sobreajuste en un único coeficiente, permite la comparación directa entre configuraciones de entrenamiento. Como estudio de caso, mostramos que un *weight decay* fuerte (λ=1.0) reduce este coeficiente en aproximadamente un 70%, proporcionando una explicación basada en leyes de escalamiento para hallazgos recientes que indican que el *weight decay* óptimo en regímenes con limitaciones de datos es un orden de magnitud mayor que la práctica estándar.

25

KernelBench-X: Un Benchmark Integral para la Evaluación de Kernels de GPU Generados por LLM
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

La generación de núcleos Triton basada en LLM ha atraído un interés significativo, pero una pregunta empírica fundamental sigue sin respuesta: ¿dónde se descompone esta capacidad y por qué? Presentamos KernelBench-X, un benchmark diseñado para responder a esta pregunta mediante la evaluación consciente de la categoría de la corrección y la eficiencia del hardware en 176 tareas de 15 categorías. Nuestra comparación sistemática de cinco métodos representativos produce tres hallazgos principales. Primero, la estructura de la tarea determina la corrección más que el diseño del método. La categoría explica casi tres veces más varianza en la corrección semántica que el método (9.4% vs 3.3% de desviación explicada), y el 72% de las tareas de Fusión fallan en los cinco métodos, mientras que las tareas Matemáticas se resuelven consistentemente. Segundo, el refinamiento iterativo mejora la corrección, pero no el rendimiento. A través de las iteraciones de GEAK, la tasa de compilación aumenta del 52.3% al 68.8%, mientras que la aceleración promedio disminuye de 1.58x a 1.44x; los núcleos recién rescatados consistentemente rinden por debajo de los persistentemente correctos (1.16x vs 1.58x de aceleración en la ronda~0a1). Tercero, la corrección no implica eficiencia. El 46.6% de los núcleos correctos son más lentos que la línea base eager de PyTorch, y la varianza de aceleración entre hardware alcanza 21.4x. Además, la cuantización permanece completamente sin resolver (0/30 éxitos) a pesar de tasas de compilación no triviales, revelando un malentendido sistemático de los contratos de cómputo numérico en lugar de errores sintácticos superficiales. Estos hallazgos sugieren que el progreso futuro depende de manejar la coordinación global, modelar explícitamente la precisión numérica e incorporar la eficiencia del hardware en la generación. El código está disponible en https://github.com/BonnieW05/KernelBenchX.

26

Agregación Equilibrada: Comprender y Corregir el Sesgo de Agregación en GRPO
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma central para mejorar el razonamiento y la generación de código en los grandes modelos de lenguaje, y el entrenamiento de estilo GRPO es ampliamente adoptado por su simplicidad y eficacia. Sin embargo, una decisión de diseño importante sigue sin explorarse adecuadamente: cómo se agregan los términos del gradiente de la política a nivel de token dentro de cada grupo muestreado. El GRPO estándar utiliza la agregación por secuencia, mientras que trabajos recientes han propuesto la agregación por token como una alternativa mejor. Demostramos que estas dos reglas inducen sesgos de optimización diferentes: la agregación por token introduce un acoplamiento signo-longitud, mientras que la agregación por secuencia pondera implícitamente menos las respuestas más largas mediante una ponderación igual a nivel de secuencia. Para abordar esta tensión, proponemos la Agregación Balanceada (BA), un reemplazo simple que calcula las medias a nivel de token por separado dentro de los subconjuntos positivo y negativo y luego las combina con pesos basados en el recuento de secuencias. Los experimentos con Qwen2.5-Math-7B y Qwen3-1.7B en DAPO-17k y Polaris, evaluados en seis benchmarks de razonamiento y codificación, muestran que BA mejora consistentemente la estabilidad del entrenamiento y el rendimiento final en comparación con la agregación estándar por token y por secuencia. Nuestro análisis muestra además que la efectividad relativa de la agregación por token y por secuencia está gobernada en gran medida por la variación de la longitud de la respuesta y la brecha de longitud positivo-negativa, destacando la agregación como una dimensión de diseño crítica en el RLVR de estilo GRPO.

27

Las Propiedades de Escalado del Razonamiento Deductivo Implícito en los Transformadores
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

Investigamos las propiedades de escalado del razonamiento deductivo implícito sobre cláusulas de Horn en Transformers con profundidad acotada. Al decorrelacionar sistemáticamente la demostrabilidad de características espurias y aplicar una alineación algorítmica, encontramos que en modelos suficientemente profundos con una máscara de prefijo bidireccional, el razonamiento implícito se aproxima al rendimiento del razonamiento explícito (CoT) en diversas topologías de grafos y anchos de problema, aunque el CoT sigue siendo necesario para la extrapolación en profundidad.

28

GeoStack: Un Marco para la Composición Cuasi-Abeliana de Conocimiento en VLMs
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

Abordamos el desafío de la composición de conocimiento en Modelos de Visión y Lenguaje (VLM), donde la acumulación de experiencia en múltiples dominios o tareas generalmente conduce al olvido catastrófico. Presentamos GeoStack (Apilamiento Geométrico), un marco modular que permite componer expertos de dominio entrenados independientemente en un modelo unificado. Al imponer restricciones geométricas y estructurales en la variedad de adaptadores, GeoStack garantiza que se preserve el conocimiento fundamental del modelo base. Además, demostramos matemáticamente una propiedad de plegado de pesos que logra una complejidad de inferencia en tiempo constante (O(1)), independientemente del número de expertos integrados. Los resultados experimentales en adaptación multi-dominio y aprendizaje incremental de clases muestran que GeoStack proporciona un mecanismo eficiente para la composición de conocimiento a largo plazo mientras mitiga significativamente el olvido catastrófico. El código está disponible en https://github.com/QuantitativeImagingLaboratory/GeoStack.

29

Cuando no existe un punto de referencia: Validación de la puntuación comparativa de seguridad de LLM sin etiquetas de verdad básica
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

Muchas implementaciones deben comparar modelos de lenguaje candidatos en cuanto a seguridad antes de que exista un benchmark etiquetado para el idioma, sector o régimen regulatorio relevante. Formalizamos este escenario como la puntuación comparativa de seguridad sin benchmark y especificamos el contrato bajo el cual una auditoría basada en escenarios puede interpretarse como evidencia para la implementación. Las puntuaciones solo son válidas bajo un paquete de escenarios fijo, una rúbrica, un auditor, un juez, una configuración de muestreo y un presupuesto de repetición. Dado que no hay etiquetas disponibles, reemplazamos la concordancia con la verdad fundamental por una cadena de validez instrumental: la capacidad de respuesta a un contraste controlado de seguridad versus aniquilación, el predominio de la varianza impulsada por el objetivo sobre los artefactos del auditor y el juez, y la estabilidad entre repeticiones. Instanciamos esta cadena en SimpleAudit, un instrumento de puntuación de prioridad local, y la validamos en un paquete de seguridad noruego. Los objetivos seguros y aniquilados se separan con valores AUROC entre 0,89 y 1,00, la identidad del objetivo es el componente de varianza dominante (η² ≈ 0,52), y los perfiles de severidad se estabilizan a las diez repeticiones. Aplicar la misma cadena a Petri muestra que admite ambas herramientas. Las diferencias sustanciales surgen antes en el proceso, en la aplicación del contrato de afirmaciones y en la idoneidad para la implementación. Un caso de contratación pública noruego que compara Borealis y Gemma 3 demuestra la evidencia resultante en la práctica: el modelo más seguro depende de la categoría de escenario y la medida de riesgo. En consecuencia, las puntuaciones, los deltas emparejados, las tasas críticas, la incertidumbre, y el auditor y juez utilizados deben reportarse conjuntamente en lugar de colapsarse en una única clasificación.

30

Generador Cuántico-Inspirado de Autovectores basado en Kolmogorov-Arnold
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

La computación de alto rendimiento (HPC) es cada vez más importante para los flujos de trabajo escalables de química cuántica que combinan modelos generativos clásicos, simulación de circuitos cuánticos y postprocesamiento de interacción de configuraciones seleccionadas. Presentamos el resolvedor de autovalores generativo inspirado en la cuántica de Kolmogorov-Arnold (GQKAE), una extensión eficiente en parámetros del resolvedor de autovalores generativo cuántico (GQE) para química cuántica. GQKAE reemplaza los componentes de red neuronal de avance de parámetros intensivos en los resolvedores de autovalores generativos de estilo GPT con módulos híbridos de red de Kolmogorov-Arnold inspirados en la cuántica, formando una columna vertebral compacta tipo HQKANsformer. El método preserva la selección de operadores autorregresiva y la canalización de evaluación de interacción de configuraciones seleccionadas-cuánticas, mientras utiliza módulos de Activación de Recarga de Datos de un solo qubit para proporcionar mapeos no lineales expresivos. Los puntos de referencia numéricos en H4, N2, LiH, C2H6, H2O y el dímero de H2O muestran que GQKAE logra una precisión química comparable a la arquitectura GQE basada en GPT, mientras reduce los parámetros entrenables y la memoria en aproximadamente un 66% y mejora el rendimiento en tiempo de ejecución. Para sistemas fuertemente correlacionados como N2 y LiH, GQKAE también mejora el comportamiento de convergencia y los errores de energía final. Estos resultados indican que las redes de Kolmogorov-Arnold inspiradas en la cuántica pueden reducir la sobrecarga del lado clásico mientras preservan la calidad de generación de circuitos, ofreciendo una ruta escalable para el codiseño HPC-cuántico en plataformas cuánticas de corto plazo.

31

Piensa, luego Puntúa: Razonamiento y Evaluación Desacoplados para el Modelado de Recompensas en Video
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

Los recientes avances en modelos generativos de video están cada vez más impulsados por el escalado posterior al entrenamiento y en tiempo de prueba, los cuales dependen críticamente de la calidad de los modelos de recompensa (RM) de video. Un modelo de recompensa ideal debería predecir recompensas precisas que se alineen con las preferencias humanas en diversos escenarios. Sin embargo, los paradigmas existentes enfrentan un dilema fundamental: los RM Discriminativos regresan las recompensas directamente sobre características extraídas por modelos de lenguaje grande multimodal (MLLM) sin razonamiento explícito, lo que los hace propensos al aprendizaje por atajos y muy dependientes del escalado masivo de datos para la generalización. Por el contrario, los RM Generativos con razonamiento de Cadena de Pensamiento (CoT) exhiben una superior interpretabilidad y potencial de generalización, ya que aprovechan una supervisión semántica de grano fino para internalizar las razones detrás de las preferencias humanas. No obstante, adolecen de cuellos de botella de optimización inherentes debido al acoplamiento del razonamiento y la puntuación dentro de una única cadena de inferencia autorregresiva. Para aprovechar los beneficios de generalización del razonamiento CoT mitigando la inestabilidad en el entrenamiento del razonamiento y puntuación acoplados, presentamos DeScore, un modelo de recompensa de video eficiente en entrenamiento y generalizable. DeScore emplea un paradigma desacoplado "pensar-y-luego-puntuar": un MLLM primero genera una CoT explícita, seguido por un módulo de puntuación discriminativo dedicado que consiste en un token de consulta entrenable y una cabeza de regresión que predice la recompensa final. DeScore se optimiza mediante un marco de dos etapas: (1) un arranque en frío discriminativo que incorpora un mecanismo de enmascaramiento aleatorio para garantizar capacidades de puntuación robustas, y (2) una etapa de aprendizaje por refuerzo de doble objetivo que refina independientemente la calidad del razonamiento CoT y calibra la recompensa final, asegurando que un razonamiento de mayor calidad se traduzca directamente en un rendimiento superior del modelo.

32

Recuperación de la Recompensa Oculta en Políticas Basadas en Difusión
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

Este artículo presenta EnergyFlow, un marco que unifica el modelado generativo de acciones con el aprendizaje por refuerzo inverso mediante la parametrización de una función de energía escalar cuyo gradiente constituye el campo de eliminación de ruido. Demostramos que, bajo optimalidad de entropía máxima, la función de puntuación aprendida mediante denoising score matching recupera el gradiente de la función Q suavizada del experto, permitiendo la extracción de recompensas sin entrenamiento adversarial. Formalmente, probamos que restringir el campo aprendido a ser conservativo reduce la complejidad de la hipótesis y mejora los límites de generalización fuera de distribución. Además, caracterizamos la identificabilidad de las recompensas recuperadas y acotamos cómo los errores de estimación de la puntuación se propagan a las preferencias de acción. Empíricamente, EnergyFlow logra un rendimiento de imitación state-of-the-art en diversas tareas de manipulación, proporcionando simultáneamente una señal de recompensa efectiva para el aprendizaje por refuerzo posterior que supera tanto a los métodos adversariales de IRL como a las alternativas basadas en verosimilitud. Estos resultados muestran que las restricciones estructurales requeridas para una extracción válida de recompensas actúan simultáneamente como sesgos inductivos beneficiosos para la generalización de políticas. El código está disponible en https://github.com/sotaagi/EnergyFlow.

33

Sparkle: Realización de Reemplazo de Fondos de Video Dinámicos Guiados por Instrucción mediante Orientación Desacoplada
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

En los últimos años, iniciativas de código abierto como Senorita-2M han impulsado la edición de vídeo hacia la instrucción mediante lenguaje natural. Sin embargo, los conjuntos de datos disponibles públicamente en la actualidad se centran predominantemente en la edición local o la transferencia de estilo, que en gran medida preservan la estructura escénica original y son más fáciles de escalar. En contraste, la Sustitución de Fondo, una tarea central para aplicaciones creativas como la producción cinematográfica y la publicidad, requiere sintetizar escenas completamente nuevas y temporalmente coherentes, manteniendo interacciones precisas entre el primer plano y el fondo, lo que hace que la generación de datos a gran escala sea significativamente más desafiante. En consecuencia, esta compleja tarea permanece en gran medida inexplorada debido a la escasez de datos de entrenamiento de alta calidad. Esta brecha es evidente en los modelos de vanguardia con bajo rendimiento, por ejemplo, Kiwi-Edit, porque el principal conjunto de datos de código abierto que contiene esta tarea, es decir, OpenVE-3M, frecuentemente produce fondos estáticos y poco naturales. En este artículo, atribuimos esta degradación de la calidad a la falta de una guía precisa del fondo durante la síntesis de datos. En consecuencia, diseñamos un pipeline escalable que genera guías de primer plano y fondo de manera desacoplada con un filtrado de calidad estricto. Sobre la base de este pipeline, presentamos Sparkle, un conjunto de datos de ~140K pares de vídeo que abarcan cinco temas comunes de cambio de fondo, junto con Sparkle-Bench, el benchmark de evaluación más grande hasta la fecha específicamente diseñado para la sustitución de fondo. Los experimentos demuestran que nuestro conjunto de datos y el modelo entrenado en él logran un rendimiento sustancialmente mejor que todas las líneas base existentes tanto en OpenVE-Bench como en Sparkle-Bench. Nuestro conjunto de datos, benchmark y modelo propuestos son completamente de código abierto en https://showlab.github.io/Sparkle/.

34

¿Estamos progresando en la generalización multimodal de dominios? Un estudio de referencia integral
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

A pesar de la creciente popularidad de la Generalización de Dominios Multimodal (MMDG) para mejorar la robustez de los modelos, aún no está claro si las ganancias de rendimiento reportadas reflejan un progreso algorítmico genuino o son artefactos de protocolos de evaluación inconsistentes. La investigación actual está fragmentada, con estudios que varían significativamente en conjuntos de datos, configuraciones de modalidad y ajustes experimentales. Además, los puntos de referencia existentes se centran predominantemente en el reconocimiento de acciones, a menudo descuidando desafíos críticos del mundo real como las corrupciones de entrada, las modalidades faltantes y la confiabilidad del modelo. Esta falta de estandarización dificulta una evaluación fiable del avance del campo. Para abordar este problema, presentamos MMDG-Bench, el primer punto de referencia unificado y exhaustivo para MMDG, que estandariza la evaluación en seis conjuntos de datos que abarcan tres tareas diversas: reconocimiento de acciones, diagnóstico de fallas mecánicas y análisis de sentimientos. MMDG-Bench abarca seis combinaciones de modalidades, nueve métodos representativos y múltiples configuraciones de evaluación. Más allá de la precisión estándar, evalúa sistemáticamente la robustez ante corrupciones, la generalización con modalidades faltantes, la detección de clasificaciones erróneas y la detección fuera de distribución. Con un total de 7.402 redes neuronales entrenadas en 95 tareas cruzadas de dominio únicas, MMDG-Bench arroja cinco hallazgos clave: (1) bajo comparaciones justas, los métodos especializados recientes de MMDG ofrecen solo mejoras marginales sobre la línea base de ERM; (2) ningún método supera consistentemente a los demás en todos los conjuntos de datos o combinaciones de modalidades; (3) persiste una brecha sustancial con respecto al límite superior de rendimiento, lo que indica que la MMDG está lejos de estar resuelta; (4) la fusión trimodal no supera consistentemente a las configuraciones bimodales más sólidas; y (5) todos los métodos evaluados exhiben una degradación significativa bajo escenarios de corrupción y modalidades faltantes, y algunos métodos comprometen aún más la confiabilidad del modelo.

35

EDU-CIRCUIT-HW: Evaluación de Modelos de Lenguaje Grandes Multimodales en Soluciones Escritas a Mano de Estudiantes Universitarios de STEM del Mundo Real
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) tienen un gran potencial para revolucionar la educación tradicional y reducir la carga de trabajo de los docentes. Sin embargo, interpretar con precisión las soluciones manuscritas sin restricciones de estudiantes de STEM, que combinan fórmulas matemáticas, diagramas y razonamientos textuales, representa un desafío significativo debido a la falta de puntos de referencia auténticos y específicos del dominio. Además, los paradigmas de evaluación actuales se basan predominantemente en los resultados de tareas posteriores (por ejemplo, la calificación automática), que a menudo solo examinan un subconjunto del contenido reconocido, fallando así en capturar la comprensión que los MLLMs tienen de la lógica manuscrita compleja en su conjunto. Para cerrar esta brecha, presentamos EDU-CIRCUIT-HW, un conjunto de datos que consta de más de 1.300 soluciones manuscritas auténticas de estudiantes de un curso universitario de STEM. Utilizando las transcripciones textuales verificadas por expertos y los informes de calificación de las soluciones estudiantiles, evaluamos simultáneamente la fidelidad de reconocimiento primario y el rendimiento en la calificación automática secundaria de varios MLLMs. Nuestra evaluación revela una escala asombrosa de fallos latentes dentro del contenido manuscrito estudiantil reconocido por los MLLMs, lo que subraya la fiabilidad insuficiente de los modelos para la calificación automática y otras aplicaciones orientadas a la comprensión en entornos educativos de alto impacto. Como solución potencial, presentamos un estudio de caso que demuestra que el aprovechamiento de los patrones de error identificados para detectar y corregir de forma preventiva los errores de reconocimiento, requiriendo solo una intervención humana mínima (por ejemplo, derivando el 3.3% de las tareas a calificadores humanos y el resto al calificador GPT-5.1), puede mejorar eficazmente la robustez del sistema de calificación habilitado por IA implementado. El código y el conjunto de datos están disponibles en este repositorio de GitHub: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

36

PianoCoRe: Conjunto de Datos MIDI de Piano Combinado y Refinado
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

Los conjuntos de datos de música simbólica con partituras y actuaciones emparejadas son esenciales para muchas tareas de recuperación de información musical (MIR). Sin embargo, los recursos existentes a menudo cubren un rango limitado de compositores, carecen de variedad interpretativa, omiten alineaciones a nivel de nota o utilizan formatos de nomenclatura inconsistentes. Este trabajo presenta PianoCoRe, un conjunto de datos de MIDI para piano a gran escala que unifica y refina los principales corpus de piano de código abierto. El conjunto de datos contiene 250.046 interpretaciones de 5.625 piezas escritas por 483 compositores, totalizando 21.763 horas de música interpretada. PianoCoRe se publica en subconjuntos escalonados para apoyar diferentes aplicaciones: desde análisis a gran escala y preentrenamiento (PianoCoRe-C y PianoCoRe-B sin duplicados) hasta el modelado de interpretación expresiva con alineación de partituras a nivel de nota (PianoCoRe-A/A*). El subconjunto con notas alineadas, PianoCoRe-A, proporciona la colección de código abierto más grande hasta la fecha, con 157.207 interpretaciones alineadas con 1.591 partituras. Además del conjunto de datos, las contribuciones son: (1) un clasificador de calidad de MIDI para detectar transcripciones corruptas y similares a partituras, y (2) RAScoP, una canalización de refinamiento de alineación que limpia errores de alineación temporal e interpola notas faltantes. El análisis muestra que el refinamiento reduce el ruido temporal y elimina valores atípicos de tempo. Además, un modelo de renderizado de interpretación expresiva entrenado en PianoCoRe demuestra una mayor robustez ante piezas no vistas en comparación con modelos entrenados en conjuntos de datos crudos o más pequeños. PianoCoRe proporciona una base lista para usar para la próxima generación de investigación en interpretación expresiva de piano.

37

BioTool: Un Conjunto de Datos Integral de Llamadas a Herramientas para Potenciar las Capacidades Biomédicas de los Modelos de Lenguaje a Gran Escala
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

A pesar del éxito de los modelos de lenguaje grandes (LLM) en tareas de propósito general, su rendimiento en dominios altamente especializados como la biomedicina sigue siendo insatisfactorio. Una limitación clave es la incapacidad de los LLM para aprovechar eficazmente las herramientas biomédicas, que los expertos clínicos e investigadores biomédicos utilizan ampliamente en sus flujos de trabajo diarios. Si bien los conjuntos de datos recientes de llamadas a herramientas de dominio general han mejorado sustancialmente las capacidades de los agentes LLM, los esfuerzos existentes en el dominio biomédico se basan en gran medida en el aprendizaje en contexto y restringen los modelos a un conjunto reducido de herramientas. Para abordar esta brecha, presentamos BioTool, un conjunto de datos integral de llamadas a herramientas biomédicas diseñado para el ajuste fino de LLM. BioTool comprende 34 herramientas de uso frecuente recopiladas de las bases de datos NCBI, Ensembl y UniProt, junto con 7.040 pares de consulta y llamada API de alta calidad y verificados por humanos, que abarcan variación, genómica, proteómica, evolución y biología general. El ajuste fino de un LLM de 4 mil millones de parámetros con BioTool produce mejoras sustanciales en el rendimiento de las llamadas a herramientas biomédicas, superando a LLM comerciales de vanguardia como GPT-5.1. Además, las evaluaciones de expertos humanos demuestran que la integración de un llamador de herramientas ajustado con BioTool mejora significativamente la calidad de las respuestas posteriores en comparación con el mismo LLM sin uso de herramientas, lo que subraya la efectividad de BioTool para mejorar las capacidades biomédicas de los LLM. El conjunto de datos completo y el código de evaluación están disponibles en https://github.com/gxx27/BioTool.

38

TIDE: Cada Capa Conoce el Token Subyacente al Contexto
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

Revisitamos una elección de diseño universalmente aceptada pero poco examinada en todos los LLM modernos: un índice de token se busca una sola vez en la capa de *embedding* de entrada y luego se descarta permanentemente. Este supuesto de inyección única induce dos fallos estructurales: (i) el Problema del Token Raro, donde una distribución de vocabulario de tipo Zipf provoca que los *embeddings* de tokens raros estén crónicamente subentrenados al recibir una fracción de la señal de gradiente acumulada en comparación con los tokens comunes; y (ii) el Problema del Colapso Contextual, donde modelos con parámetros limitados mapean tokens distribucionalmente similares a estados ocultos indistinguibles. Como un intento de abordar ambos, proponemos TIDE, que aumenta el *transformer* estándar con una Memoria de *Embeddings*: un conjunto de K Bloques de Memoria independientes que mapean índices de token a vectores semánticos independientes del contexto, calculados una vez e inyectados en cada capa a través de un enrutador *softmax* condicionado por la profundidad con un banco nulo entrenable. Establecemos teórica y empíricamente los beneficios de TIDE para abordar los problemas asociados con la inyección única de identidad del token, así como para mejorar el rendimiento en múltiples tareas de modelado de lenguaje y tareas posteriores.

May 7
May 8