HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

49 papers found

ERNIE 5.0 技术报告
ERNIE 5.0 Technical Report

Feb 4

ByHaifeng Wang, Hua Wu, Tian Wu, Yu Sun, Jing Liu, Dianhai Yu, Yanjun Ma, Jingzhou He, Zhongjun He, Dou Hong, Qiwen Liu, Shuohuan Wang, Junyuan Shang, Zhenyu Zhang, Yuchen Ding, Jinle Zeng, Jiabin Yang, Liang Shen, Ruibiao Chen, Weichong Yin, Siyu Ding, Dai Dai, Shikun Feng, Siqi Bao, Bolei He, Yan Chen, Zhenyu Jiao, Ruiqing Zhang, Zeyu Chen, Qingqing Dang, Kaipeng Deng, Jiajun Jiang, Enlei Gong, Guoxia Wang, Yanlin Sha, Yi Liu, Yehan Zheng, Weijian Xu, Jiaxiang Liu, Zengfeng Zeng, Yingqi Qu, Zhongli Li, Zhengkun Zhang, Xiyang Wang, Zixiang Xu, Xinchao Xu, Zhengjie Huang, Dong Wang, Bingjin Chen, Yue Chang, Xing Yuan, Shiwei Huang, Qiao Zhao, Xinzhe Ding, Shuangshuang Qiao, Baoshan Yang, Bihong Tang, Bin Li, Bingquan Wang, Binhan Tang, Binxiong Zheng, Bo Cui, Bo Ke, Bo Zhang, Bowen Zhang, Boyan Zhang, Boyang Liu, Caiji Zhang, Can Li, Chang Xu, Chao Pang, Chao Zhang, Chaoyi Yuan, Chen Chen, Cheng Cui, Chenlin Yin, Chun Gan, Chunguang Chai, Chuyu Fang, Cuiyun Han, Dan Zhang, Danlei Feng, Danxiang Zhu, Dong Sun, Dongbo Li, Dongdong Li, Dongdong Liu, Dongxue Liu, Fan Ding, Fan Hu, Fan Li, Fan Mo, Feisheng Wu, Fengwei Liu, Gangqiang Hu, Gaofeng Lu, Gaopeng Yong, Gexiao Tian, Guan Wang, Guangchen Ni, Guangshuo Wu, Guanzhong Wang, Guihua Liu, Guishun Li, Haibin Li, Haijian Liang, Haipeng Ming, Haisu Wang, Haiyang Lu, Haiye Lin, Han Zhou, Hangting Lou, Hanwen Du, Hanzhi Zhang, Hao Chen, Hao Du, Hao Liu, Hao Zhou, Haochen Jiang, Haodong Tian, Haoshuang Wang, Haozhe Geng, Heju Yin, Hong Chen, Hongchen Xue, Hongen Liu, Honggeng Zhang, Hongji Xu, Hongwei Chen, Hongyang Zhang, Hongyuan Zhang, Hua Lu, Huan Chen, Huan Wang, Huang He, Hui Liu, Hui Zhong, Huibin Ruan, Jiafeng Lu, Jiage Liang, Jiahao Hu, Jiahao Hu, Jiajie Yang, Jialin Li, Jian Chen, Jian Wu, Jianfeng Yang, Jianguang Jiang, Jianhua Wang, Jianye Chen, Jiaodi Liu, Jiarui Zhou, Jiawei Lv, Jiaxin Zhou, Jiaxuan Liu, Jie Han, Jie Sun, Jiefan Fang, Jihan Liu, Jihua Liu, Jing Hu, Jing Qian, Jing Yan, Jingdong Du, Jingdong Wang, Jingjing Wu, Jingyong Li, Jinheng Wang, Jinjin Li, Jinliang Lu, Jinlin Yu, Jinnan Liu, Jixiang Feng, Jiyi Huang, Jiyuan Zhang, Jun Liang, Jun Xia, Jun Yu, Junda Chen, Junhao Feng, Junhong Xiang, Junliang Li, Kai Liu, Kailun Chen, Kairan Su, Kang Hu, Kangkang Zhou, Ke Chen, Ke Wei, Kui Huang, Kun Wu, Kunbin Chen, Lei Han, Lei Sun, Lei Wen, Linghui Meng, Linhao Yu, Liping Ouyang, Liwen Zhang, Longbin Ji, Longzhi Wang, Meng Sun, Meng Tian, Mengfei Li, Mengqi Zeng, Mengyu Zhang, Ming Hong, Mingcheng Zhou, Mingming Huang, Mingxin Chen, Mingzhu Cai, Naibin Gu, Nemin Qiu, Nian Wang, Peng Qiu, Peng Zhao, Pengyu Zou, Qi Wang, Qi Xin, Qian Wang, Qiang Zhu, Qianhui Luo, Qianwei Yang, Qianyue He, Qifei Wu, Qinrui Li, Qiwen Bao, Quan Zhang, Quanxiang Liu, Qunyi Xie, Rongrui Zhan, Rufeng Dai, Rui Peng, Ruian Liu, Ruihao Xu, Ruijie Wang, Ruixi Zhang, Ruixuan Liu, Runsheng Shi, Ruting Wang, Senbo Kang, Shan Lu, Shaofei Yu, Shaotian Gong, Shenwei Hu, Shifeng Zheng, Shihao Guo, Shilong Fan, Shiqin Liu, Shiwei Gu, Shixi Zhang, Shuai Yao, Shuang Zhang, Shuangqiao Liu, Shuhao Liang, Shuwei He, Shuwen Yang, Sijun He, Siming Dai, Siming Wu, Siyi Long, Songhe Deng, Suhui Dong, Suyin Liang, Teng Hu, Tianchan Xu, Tianliang Lv, Tianmeng Yang, Tianyi Wei, Tiezhu Gao, Ting Sun, Ting Zhang, Tingdan Luo, Wei He, Wei Luan, Wei Yin, Wei Zhang, Wei Zhou, Weibao Gong, Weibin Li, Weicheng Huang, Weichong Dang, Weiguo Zhu, Weilong Zhang, Weiqi Tan, Wen Huang, Wenbin Chang, Wenjing Du, Wenlong Miao, Wenpei Luo, Wenquan Wu, Xi Shi, Xi Zhao, Xiang Gao, Xiangguo Zhang, Xiangrui Yu, Xiangsen Wang, Xiangzhe Wang, Xianlong Luo, Xianying Ma, Xiao Tan, Xiaocong Lin, Xiaofei Wang, Xiaofeng Peng, Xiaofeng Wu, Xiaojian Xu, Xiaolan Yuan, Xiaopeng Cui, Xiaotian Han, Xiaoxiong Liu, Xiaoxu Fei, Xiaoxuan Wu, Xiaoyu Wang, Xiaoyu Zhang, Xin Sun, Xin Wang, Xinhui Huang, Xinming Zhu, Xintong Yu, Xinyi Xu, Xinyu Wang, Xiuxian Li, XuanShi Zhu, Xue Xu, Xueying Lv, Xuhong Li, Xulong Wei, Xuyi Chen, Yabing Shi, Yafeng Wang, Yamei Li, Yan Liu, Yanfu Cheng, Yang Gao, Yang Liang, Yang Wang, Yang Wang, Yang Yang, Yanlong Liu, Yannian Fu, Yanpeng Wang, Yanzheng Lin, Yao Chen, Yaozong Shen, Yaqian Han, Yehua Yang, Yekun Chai, Yesong Wang, Yi Song, Yichen Zhang, Yifei Wang, Yifeng Guo, Yifeng Kou, Yilong Chen, Yilong Guo, Yiming Wang, Ying Chen, Ying Wang, Yingsheng Wu, Yingzhan Lin, Yinqi Yang, Yiran Xing, Yishu Lei, Yixiang Tu, Yiyan Chen, Yong Zhang, Yonghua Li, Yongqiang Ma, Yongxing Dai, Yongyue Zhang, Yu Ran, Yu Sun, Yu-Wen Michael Zhang, Yuang Liu, Yuanle Liu, Yuanyuan Zhou, Yubo Zhang, Yuchen Han, Yucheng Wang, Yude Gao, Yuedong Luo, Yuehu Dong, Yufeng Hu, Yuhui Cao, Yuhui Yun, Yukun Chen, Yukun Gao, Yukun Li, Yumeng Zhang, Yun Fan, Yun Ma, Yunfei Zhang, Yunshen Xie, Yuping Xu, Yuqin Zhang, Yuqing Liu, Yurui Li, Yuwen Wang, Yuxiang Lu, Zefeng Cai, Zelin Zhao, Zelun Zhang, Zenan Lin, Zezhao Dong, Zhaowu Pan, Zhaoyu Liu, Zhe Dong, Zhe Zhang, Zhen Zhang, Zhengfan Wu, Zhengrui Wei, Zhengsheng Ning, Zhenxing Li, Zhenyu Li, Zhenyu Qian, Zhenyun Li, Zhi Li, Zhichao Chen, Zhicheng Dong, Zhida Feng, Zhifan Feng, Zhihao Deng, Zhijin Yu, Zhiyang Chen, Zhonghui Zheng, Zhuangzhuang Guo, Zhujun Zhang, Zhuo Sun, Zichang Liu, Zihan Lin, Zihao Huang, Zihe Zhu, Ziheng Zhao, Ziping Chen, Zixuan Zhu, Ziyang Xu, Ziyi Liang, Ziyuan Gao

198

En este informe presentamos ERNIE 5.0, un modelo fundacional nativamente autoregresivo diseñado para la comprensión y generación multimodal unificada a través de texto, imagen, video y audio. Todas las modalidades se entrenan desde cero bajo un objetivo unificado de predicción del siguiente grupo de tokens, basado en una arquitectura ultra-esparsa de mezcla de expertos (MoE) con un enrutamiento de expertos independiente de la modalidad. Para abordar los desafíos prácticos en el despliegue a gran escala bajo diversas restricciones de recursos, ERNIE 5.0 adopta un nuevo paradigma de entrenamiento elástico. Dentro de una única ejecución de pre-entrenamiento, el modelo aprende una familia de submodelos con diferentes profundidades, capacidades de expertos y dispersión de enrutamiento, lo que permite compensaciones flexibles entre rendimiento, tamaño del modelo y latencia de inferencia en escenarios con limitaciones de memoria o tiempo. Además, abordamos sistemáticamente los desafíos de escalar el aprendizaje por refuerzo para modelos fundacionales unificados, garantizando así un post-entrenamiento eficiente y estable bajo arquitecturas MoE ultra-esparsas y diversos entornos multimodales. Experimentos exhaustivos demuestran que ERNIE 5.0 logra un rendimiento sólido y equilibrado en múltiples modalidades. Hasta donde sabemos, entre los modelos públicamente revelados, ERNIE 5.0 representa la primera realización a escala de producción de un modelo autoregresivo unificado de billón de parámetros que admite tanto la comprensión como la generación multimodal. Para facilitar futuras investigaciones, presentamos visualizaciones detalladas del enrutamiento de expertos independiente de la modalidad en el modelo unificado, junto con un análisis empírico exhaustivo del entrenamiento elástico, con el objetivo de ofrecer perspectivas profundas a la comunidad.

FASA: Atención Dispersa Consciente de la Frecuencia
FASA: Frequency-aware Sparse Attention

Feb 3

ByYifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley

101

El despliegue de Modelos de Lenguaje a Gran Escala (LLMs) enfrenta un cuello de botella crítico al procesar entradas extensas: la huella de memoria prohibitiva de la caché de Clave-Valor (KV). Para abordar este problema, el paradigma de la poda de *tokens* aprovecha la dispersión de la atención para retener selectivamente un subconjunto pequeño y crítico de *tokens*. Sin embargo, los enfoques existentes son insuficientes: los métodos estáticos arriesgan una pérdida irreversible de información, mientras que las estrategias dinámicas emplean heurísticas que capturan de manera insuficiente la naturaleza dependiente de la consulta de la importancia de los *tokens*. Proponemos FASA, un marco novedoso que logra la expulsión de *tokens* consciente de la consulta mediante la predicción dinámica de su importancia. FASA surge de una nueva perspectiva sobre RoPE: el descubrimiento de una dispersión funcional a nivel de fragmentos de frecuencia (*Frequency-Chunks* o FC). Nuestro hallazgo clave es que un subconjunto pequeño e identificable de FCs "dominantes" exhibe consistentemente una alta concordancia contextual con la cabeza de atención completa. Esto proporciona un *proxy* robusto y computacionalmente gratuito para identificar *tokens* salientes. Basándose en esta idea, FASA primero identifica un conjunto crítico de *tokens* utilizando las FCs dominantes, y luego realiza el cálculo de atención focalizado únicamente en este subconjunto podado. Al acceder solo a una pequeña fracción de la caché KV, FASA reduce drásticamente los requisitos de ancho de banda de memoria y el coste computacional. En un espectro de tareas de contexto largo, desde el modelado de secuencias hasta el razonamiento CoT complejo, FASA supera consistentemente a todos los métodos de referencia de expulsión de *tokens* y logra una precisión casi óptima, demostrando una robustez notable incluso bajo presupuestos restrictivos. Cabe destacar que, en LongBench-V1, FASA alcanza casi el 100% del rendimiento de la KV completa conservando solo 256 *tokens*, y logra una aceleración de 2.56 veces utilizando solo el 18.9% de la caché en AIME24.

WideSeek-R1: Exploración del Escalado en Anchura para la Búsqueda Amplia de Información mediante Aprendizaje por Refuerzo Multiagente
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Feb 4

ByZelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs) se han centrado principalmente en el escalado en profundidad, donde un único agente resuelve problemas de largo horizonte mediante razonamiento multi-turno y uso de herramientas. Sin embargo, a medida que las tareas se vuelven más amplias, el cuello de botella clave cambia de la competencia individual a la capacidad organizativa. En este trabajo, exploramos una dimensión complementaria de escalado en amplitud mediante sistemas multi-agente para abordar la búsqueda de información amplia. Los sistemas multi-agente existentes a menudo dependen de flujos de trabajo manuales e interacciones por turnos que no logran paralelizar el trabajo de manera efectiva. Para cerrar esta brecha, proponemos WideSeek-R1, un marco de agente líder-subagente entrenado mediante aprendizaje por refuerzo multi-agente (MARL) para sinergizar la orquestación escalable y la ejecución paralela. Al utilizar un LLM compartido con contextos aislados y herramientas especializadas, WideSeek-R1 optimiza conjuntamente al agente líder y a los subagentes paralelos en un conjunto de datos curado de 20.000 tareas de búsqueda de información amplia. Experimentos exhaustivos muestran que WideSeek-R1-4B alcanza una puntuación F1 de elementos del 40.0% en el benchmark WideSearch, lo cual es comparable al rendimiento del agente único DeepSeek-R1-671B. Además, WideSeek-R1-4B exhibe ganancias de rendimiento consistentes a medida que aumenta el número de subagentes paralelos, destacando la efectividad del escalado en amplitud.

Eficiencia de los Datos de Entrenamiento en Modelos de Recompensa de Procesos Multimodales
Training Data Efficiency in Multimodal Process Reward Models

Feb 4

ByJinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang

Los Modelos de Recompensa de Procesos Multimodales (MPRM) son fundamentales para la supervisión a nivel de paso en el razonamiento visual de los MLLM. El entrenamiento de los MPRM normalmente requiere corpus anotados a gran escala con Monte Carlo (MC), lo que conlleva un coste de entrenamiento sustancial. Este artículo estudia la eficiencia de datos para el entrenamiento de MPRM. Nuestros experimentos preliminares revelan que el entrenamiento de MPRM se satura rápidamente con submuestreos aleatorios de los datos de entrenamiento, lo que indica una redundancia sustancial en los corpus anotados con MC existentes. Para explicar esto, formalizamos un marco teórico y revelamos que las actualizaciones de gradiente informativas dependen de dos factores: las mezclas de etiquetas de pasos positivos/negativos y la fiabilidad de las etiquetas (puntuaciones MC promedio de los pasos positivos). Guiados por estas observaciones, proponemos la Puntuación de Información Equilibrada (BIS), que prioriza tanto la mezcla como la fiabilidad basándose en las señales MC existentes a nivel de *rollout*, sin incurrir en ningún coste adicional. En dos arquitecturas base (InternVL2.5-8B y Qwen2.5-VL-7B) evaluadas en VisualProcessBench, los subconjuntos seleccionados por BIS igualan e incluso superan consistentemente el rendimiento obtenido con todos los datos, utilizando solo pequeñas fracciones de estos. Notablemente, el subconjunto BIS alcanza el rendimiento de los datos completos utilizando solo el 10% de los datos de entrenamiento, mejorando el submuestreo aleatorio en un 4.1% relativo.

OmniSIFT: Compresión Asimétrica de Tokens por Modalidad para Modelos de Lenguaje Grande Omnimodales Eficientes
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Feb 4

ByYue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

Los Modelos de Lenguaje Grandes Omnimodales (Omni-LLM) han demostrado sólidas capacidades en tareas de comprensión audiovisual. Sin embargo, su dependencia de secuencias largas de tokens multimodales conlleva una sobrecarga computacional sustancial. A pesar de este desafío, los métodos de compresión de tokens diseñados para Omni-LLM siguen siendo limitados. Para subsanar esta carencia, proponemos OmniSIFT (Compresión de Tokens de Grano Fino con Información Espacio-Temporal Omnimodal), un marco de compresión de tokens de modalidad asimétrica diseñado específicamente para Omni-LLM. En concreto, OmniSIFT adopta una estrategia de compresión en dos etapas: (i) un módulo de poda de video espacio-temporal que elimina la redundancia del video derivada tanto de la estructura intra-cuadro como de la superposición inter-cuadros, y (ii) un módulo de selección de audio guiado por visión que filtra los tokens de audio. Todo el marco se optimiza de extremo a extremo mediante un estimador diferenciable de paso directo. Experimentos exhaustivos en cinco benchmarks representativos demuestran la eficacia y robustez de OmniSIFT. Cabe destacar que, para Qwen2.5-Omni-7B, OmniSIFT introduce solo 4.85 millones de parámetros mientras mantiene una latencia más baja que los métodos base que no requieren entrenamiento, como OmniZip. Con apenas el 25% del contexto original de tokens, OmniSIFT supera consistentemente a todos los métodos base de compresión e incluso supera el rendimiento del modelo que utiliza todos los tokens en varias tareas.

HySparse: Una arquitectura híbrida de atención dispersa con selección oráculo de tokens y compartición de caché KV
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Feb 3

ByYizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo

Este trabajo presenta la Atención Híbrida Dispersa (HySparse), una nueva arquitectura que intercala cada capa de atención completa con varias capas de atención dispersa. Aunque conceptualmente simple, HySparse deriva estratégicamente la selección de tokens y las cachés KV de cada capa dispersa directamente de la capa de atención completa precedente. Esta arquitectura resuelve dos limitaciones fundamentales de los métodos de atención dispersa anteriores. En primer lugar, los enfoques convencionales suelen depender de proxies adicionales para predecir la importancia de los tokens, lo que introduce complejidad extra y un rendimiento potencialmente subóptimo. Por el contrario, HySparse utiliza la capa de atención completa como un oráculo preciso para identificar los tokens importantes. En segundo lugar, los diseños de atención dispersa existentes a menudo reducen el cómputo sin ahorrar en la caché KV. HySparse permite que las capas de atención dispersa reutilicen la caché KV de la atención completa, reduciendo así tanto el cómputo como la memoria. Evaluamos HySparse en modelos densos de 7B y modelos MoE de 80B. En todos los escenarios, HySparse supera consistentemente tanto a la atención completa como a las líneas base híbridas SWA. Cabe destacar que, en el modelo MoE de 80B con 49 capas en total, solo 5 capas emplean atención completa, y aun así HySparse logra ganancias sustanciales de rendimiento mientras reduce el almacenamiento de la caché KV en casi 10 veces.

EgoActor: Fundamentación de la Planificación de Tareas en Acciones Egocéntricas Espacialmente Conscientes para Robots Humanoides mediante Modelos Visual-Lingüísticos
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Feb 4

ByYu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson

La implementación de robots humanoides en entornos del mundo real es fundamentalmente desafiante, ya que exige una integración estrecha de la percepción, la locomoción y la manipulación bajo observaciones de información parcial y en entornos que cambian dinámicamente, así como la transición robusta entre subtareas de diferente naturaleza. Para abordar estos desafíos, proponemos una nueva tarea: EgoActing, que requiere la fundamentación directa de instrucciones de alto nivel en diversas acciones humanoides, precisas y espacialmente conscientes. Instanciamos esta tarea mediante la introducción de EgoActor, un modelo unificado y escalable de visión y lenguaje (VLM) que puede predecir primitivas de locomoción (por ejemplo, caminar, girar, moverse lateralmente, cambiar la altura), movimientos de la cabeza, comandos de manipulación e interacciones humano-robot para coordinar la percepción y la ejecución en tiempo real. Aprovechamos una supervisión amplia sobre datos egocéntricos de solo RGB procedentes de demostraciones del mundo real, de respuestas a preguntas de razonamiento espacial y de demostraciones en entornos simulados, lo que permite a EgoActor tomar decisiones robustas y conscientes del contexto, y realizar inferencias de acciones fluidas (en menos de 1s) tanto con modelos de 8B como de 4B de parámetros. Evaluaciones exhaustivas en entornos tanto simulados como del mundo real demuestran que EgoActor puentea efectivamente la planificación abstracta de tareas y la ejecución motora concreta, al mismo tiempo que generaliza a través de diversas tareas y entornos no vistos.

Quant VideoGen: Generación Autoregresiva de Videos Largos Mediante Cuantización de Caché KV de 2 Bits
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

Feb 3

ByHaocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer

A pesar del rápido progreso en la difusión de video autorregresivo, un cuello de botella algorítmico emergente en el sistema limita tanto la capacidad de despliegue como la de generación: la memoria caché KV. En los modelos de generación de video autorregresivos, la caché KV crece con el historial de generación y rápidamente domina la memoria de la GPU, a menudo superando los 30 GB, lo que impide su implementación en hardware ampliamente disponible. Más críticamente, los presupuestos restringidos de la caché KV limitan la memoria de trabajo efectiva, degradando directamente la coherencia a largo plazo en identidad, disposición y movimiento. Para abordar este desafío, presentamos Quant VideoGen (QVG), un marco de cuantización de caché KV sin necesidad de entrenamiento para modelos de difusión de video autorregresivos. QVG aprovecha la redundancia espaciotemporal del video mediante Suavizado Semánticamente Consciente, produciendo residuos de baja magnitud y amigables para la cuantización. Además, introduce Cuantización Progresiva de Residuos, un esquema multifase de grueso a fino que reduce el error de cuantización al tiempo que permite una compensación fluida entre calidad y memoria. En los puntos de referencia LongCat Video, HY WorldPlay y Self Forcing, QVG establece una nueva frontera de Pareto entre calidad y eficiencia de memoria, reduciendo la memoria caché KV hasta 7.0 veces con una sobrecarga de latencia de extremo a extremo inferior al 4%, superando consistentemente a las líneas base existentes en calidad de generación.

TIDE: Evaluación Diagnóstica Basada en Trayectorias para la Mejora en Tiempo de Prueba en Agentes de LLM
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Feb 2

ByHang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin

Los recientes avances en agentes autónomos de LLM demuestran su capacidad para mejorar el rendimiento mediante la interacción iterativa con el entorno. Definimos este paradigma como Mejora en Tiempo de Prueba (TTI). Sin embargo, los mecanismos subyacentes sobre cómo y por qué la TTI tiene éxito o fracasa siguen siendo poco comprendidos, y las métricas de evaluación existentes no logran capturar su eficiencia en la optimización de tareas, la adaptación del comportamiento tras acciones erróneas y la utilidad específica de la memoria de trabajo para la finalización de tareas. Para abordar estas brechas, proponemos Evaluación Diagnóstica de Mejora en Tiempo de Prueba (TIDE), un marco independiente del agente y del entorno que descompone la TTI en tres dimensiones integrales e interconectadas. El marco mide (1) la dinámica temporal general de la finalización de tareas e (2) identifica si el rendimiento está limitado principalmente por comportamientos de bucle recursivo o (3) por una memoria acumulada excesivamente gravosa. A través de experimentos exhaustivos en diversos agentes y entornos, TIDE destaca que mejorar el rendimiento del agente requiere algo más que escalar el razonamiento interno, exigiendo optimizar explícitamente la dinámica de interacción entre el agente y el entorno.

SoMA: Un simulador neuronal de realidad a simulación para la manipulación robótica de cuerpos blandos
SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

Feb 2

ByMu Huang, Hui Wang, Kerui Ren, Linning Xu, Yunsong Zhou, Mulin Yu, Bo Dai, Jiangmiao Pang

La simulación de objetos deformables bajo interacciones complejas sigue siendo un desafío fundamental para la manipulación robótica real-to-sim, con dinámicas impulsadas conjuntamente por efectos ambientales y acciones del robot. Los simuladores existentes dependen de física predefinida o dinámicas basadas en datos sin control condicionado por el robot, lo que limita la precisión, estabilidad y generalización. Este artículo presenta SoMA, un simulador basado en *Gaussian Splatting* 3D para la manipulación de cuerpos blandos. SoMA acopla dinámicas deformables, fuerzas ambientales y acciones articuladas del robot en un espacio neuronal latente unificado para simulación real-to-sim de extremo a extremo. Modelar interacciones sobre *splats* gaussianos aprendidos permite una manipulación estable y controlable a largo plazo, con generalización más allá de las trayectorias observadas, sin necesidad de modelos físicos predefinidos. SoMA mejora la precisión de resimulación y la generalización en manipulación robótica del mundo real en un 20%, permitiendo la simulación estable de tareas complejas como el plegado de tejidos a largo plazo.

Modelos de Lenguaje de Difusión de Contexto Residual
Residual Context Diffusion Language Models

Jan 30

ByYuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

Los Modelos de Lenguaje Grandes de Difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los modelos de lenguaje puramente autoregresivos debido a su capacidad para decodificar múltiples tokens en paralelo. Sin embargo, los dLLMs de última generación basados en bloques dependen de un mecanismo de "reenmascaramiento" que decodifica únicamente los tokens más confiables y descarta el resto, desperdiciando efectivamente capacidad de cómputo. Demostramos que reciclar el cómputo de los tokens descartados es beneficioso, ya que estos tokens conservan información contextual útil para iteraciones de decodificación posteriores. En vista de esto, proponemos Difusión de Contexto Residual (RCD, por sus siglas en inglés), un módulo que convierte estas representaciones de tokens descartados en residuos contextuales y los inyecta de nuevo para el siguiente paso de eliminación de ruido. RCD utiliza un pipeline de entrenamiento en dos etapas desacopladas para evitar los cuellos de botella de memoria asociados con la retropropagación. Validamos nuestro método tanto en modelos de razonamiento CoT largo (SDAR) como en modelos de seguimiento de instrucciones CoT corto (LLaDA). Demostramos que un dLLM estándar puede convertirse eficientemente al paradigma RCD con apenas ~1 mil millones de tokens. RCD mejora consistentemente a los dLLMs de vanguardia en 5-10 puntos de precisión con una sobrecarga computacional adicional mínima en una amplia gama de benchmarks. Notablemente, en las tareas AIME más desafiantes, RCD casi duplica la precisión de la línea base y alcanza hasta 4-5 veces menos pasos de eliminación de ruido en niveles de precisión equivalentes.

Replanteamiento de la Región de Confianza en el Aprendizaje por Refuerzo de LLM
Rethinking the Trust Region in LLM Reinforcement Learning

Feb 4

ByPenghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee

El aprendizaje por refuerzo (RL) se ha convertido en un pilar fundamental para el ajuste fino de Modelos de Lenguaje Grandes (LLMs), siendo la Optimización de Políticas Proximales (PPO) el algoritmo estándar de facto. A pesar de su ubicuidad, argumentamos que el mecanismo central de recorte de ratio en PPO es estructuralmente inadecuado para los vocabularios extensos inherentes a los LLMs. PPO restringe las actualizaciones de la política en función de la proporción de probabilidad de los tokens muestreados, que sirve como una estimación ruidosa de Monte Carlo de una sola muestra de la verdadera divergencia de la política. Esto crea una dinámica de aprendizaje subóptima: las actualizaciones de tokens de baja probabilidad son penalizadas excesivamente de forma agresiva, mientras que los cambios potencialmente catastróficos en tokens de alta probabilidad están infra-restringidos, lo que conduce a ineficiencia e inestabilidad en el entrenamiento. Para abordar esto, proponemos la Optimización de Políticas Proximales por Divergencia (DPPO), que sustituye el recorte heurístico por una restricción más fundamentada basada en una estimación directa de la divergencia de políticas (por ejemplo, Variación Total o KL). Para evitar una enorme huella de memoria, introducimos las aproximaciones eficientes Binaria y Top-K para capturar la divergencia esencial con un overhead insignificante. Evaluaciones empíricas exhaustivas demuestran que DPPO logra una estabilidad y eficiencia de entrenamiento superiores en comparación con los métodos existentes, ofreciendo una base más robusta para el ajuste fino de LLMs basado en RL.

Enrutamiento Semántico: Exploración de la Ponderación de Características Multi-Capa en LLM para Transformadores de Difusión
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

Feb 3

ByBozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang

Los modelos recientes de texto a imagen basados en DiT adoptan cada vez más LLMs como codificadores de texto; sin embargo, el condicionamiento textual sigue siendo en gran medida estático y a menudo utiliza solo una única capa del LLM, a pesar de la pronunciada jerarquía semántica entre las capas del LLM y la dinámica no estacionaria de eliminación de ruido a lo largo del tiempo de difusión y la profundidad de la red. Para igualar mejor el proceso dinámico de la generación con DiT y, por lo tanto, mejorar la capacidad generativa del modelo de difusión, introducimos un marco unificado de fusión convexa normalizada equipado con compuertas ligeras para organizar sistemáticamente los estados ocultos multi-capa del LLM mediante fusión temporal, por profundidad y conjunta. Los experimentos establecen el Enrutamiento Semántico por Profundidad como la estrategia de condicionamiento superior, mejorando consistentemente la alineación texto-imagen y la generación compositiva (por ejemplo, +9.97 en la tarea de Conteo de GenAI-Bench). Por el contrario, encontramos que la fusión puramente temporal puede degradar paradójicamente la fidelidad de la generación visual. Atribuimos esto a un desajuste en la trayectoria entrenamiento-inferencia: bajo la guía libre de clasificador, los pasos de tiempo nominales no logran rastrear la SNR efectiva, causando una inyección de características semánticamente desincronizada durante la inferencia. En general, nuestros resultados posicionan el enrutamiento por profundidad como una línea base sólida y efectiva, y destacan la necesidad crítica de señales conscientes de la trayectoria para permitir un condicionamiento dependiente del tiempo robusto.

HY3D-Bench: Generación de Activos 3D
HY3D-Bench: Generation of 3D Assets

Feb 3

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Dongyuan Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jiaao Yu, Jiachen Xu, Jingwei Huang, Kunhong Li, Lifu Wang, Linus, Penghao Wang, Qingxiang Lin, Ruining Tang, Xianghui Yang, Yang Li, Yirui Guan, Yunfei Zhao, Yunhan Yang, Zeqiang Lai, Zhihao Liang, Zibo Zhao

Si bien los recientes avances en representaciones neuronales y modelos generativos han revolucionado la creación de contenido 3D, el campo sigue limitado por importantes cuellos de botella en el procesamiento de datos. Para abordar este problema, presentamos HY3D-Bench, un ecosistema de código abierto diseñado para establecer una base unificada y de alta calidad para la generación 3D. Nuestras contribuciones son triples: (1) Recopilamos una biblioteca de 250k objetos 3D de alta fidelidad destilados de repositorios a gran escala, empleando un pipeline riguroso para ofrecer artefactos listos para el entrenamiento, incluyendo mallas estancas y representaciones multi-vista; (2) Introducimos una descomposición estructurada a nivel de piezas, proporcionando la granularidad esencial para una percepción detallada y una edición controlable; y (3) Cerramos las brechas de distribución del mundo real mediante un pipeline escalable de síntesis AIGC (Contenido Generado por IA), contribuyendo con 125k activos sintéticos para mejorar la diversidad en categorías de cola larga. Validado empíricamente mediante el entrenamiento de Hunyuan3D-2.1-Small, HY3D-Bench democratiza el acceso a recursos de datos robustos, con el objetivo de catalizar la innovación en percepción 3D, robótica y creación de contenido digital.

AutoFigure: Generación y Perfeccionamiento de Ilustraciones Científicas Listas para Publicación
AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

Feb 3

ByMinjun Zhu, Zhen Lin, Yixuan Weng, Panzhong Lu, Qiujie Xie, Yifan Wei, Sifan Liu, Qiyao Sun, Yue Zhang

Las ilustraciones científicas de alta calidad son cruciales para comunicar eficazmente conceptos científicos y técnicos complejos, sin embargo, su creación manual sigue siendo un cuello de botella ampliamente reconocido tanto en el ámbito académico como en el industrial. Presentamos FigureBench, el primer benchmark a gran escala para generar ilustraciones científicas a partir de textos científicos extensos. Contiene 3.300 pares texto-figura de alta calidad, que abarcan diversas tareas de conversión de texto a ilustración procedentes de artículos científicos, revisiones, blogs y libros de texto. Además, proponemos AutoFigure, el primer marco de trabajo agéntico que genera automáticamente ilustraciones científicas de alta calidad basándose en textos científicos extensos. Específicamente, antes de renderizar el resultado final, AutoFigure lleva a cabo un extenso proceso de razonamiento, recombinación y validación para producir un diseño que sea estructuralmente sólido y estéticamente refinado, generando una ilustración científica que logra tanto la integridad estructural como el atractivo estético. Aprovechando los datos de alta calidad de FigureBench, realizamos experimentos exhaustivos para evaluar el rendimiento de AutoFigure frente a varios métodos baseline. Los resultados demuestran que AutoFigure supera consistentemente a todos los métodos baseline, produciendo ilustraciones científicas listas para su publicación. El código, el conjunto de datos y el espacio de HuggingFace se han publicado en https://github.com/ResearAI/AutoFigure.

Los Modelos de Lenguaje con Autosugerencia Mejoran el Aprendizaje por Refuerzo
Self-Hinting Language Models Enhance Reinforcement Learning

Feb 3

ByBaohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian

El Group Relative Policy Optimization (GRPO) ha surgido recientemente como una receta práctica para alinear modelos de lenguaje grandes con objetivos verificables. Sin embargo, bajo recompensas terminales dispersas, el GRPO a menudo se estanca porque las simulaciones dentro de un grupo reciben con frecuencia recompensas idénticas, lo que provoca que las ventajas relativas colapsen y las actualizaciones desaparezcan. Proponemos GRPO alineado con auto-pistas y supervisión privilegiada (SAGE), un marco de aprendizaje por refuerzo *on-policy* que inyecta pistas privilegiadas durante el entrenamiento para remodelar la distribución de las simulaciones bajo la misma recompensa terminal del verificador. Para cada instrucción x, el modelo muestrea una pista compacta h (por ejemplo, un plan o descomposición) y luego genera una solución τ condicionada a (x,h). Crucialmente, la recompensa de la tarea R(x,τ) permanece inalterada; las pistas solo aumentan la diversidad de resultados dentro del grupo bajo un muestreo finito, evitando que las ventajas del GRPO colapsen bajo recompensas dispersas. En el momento de la prueba, establecemos h=vacío y desplegamos la política sin pistas, sin ninguna información privilegiada. Además, el muestreo de diversas auto-pistas sirve como un plan de estudios adaptativo que rastrea los cuellos de botella del aprendiz de manera más efectiva que las pistas fijas de una política inicial o de un modelo externo más fuerte. Los experimentos en 6 puntos de referencia con 3 LLM muestran que SAGE supera consistentemente a GRPO, en promedio +2.0 en Llama-3.2-3B-Instruct, +1.2 en Qwen2.5-7B-Instruct y +1.3 en Qwen3-4B-Instruct. El código está disponible en https://github.com/BaohaoLiao/SAGE.

CL-bench: Un Punto de Referencia para el Aprendizaje Contextual
CL-bench: A Benchmark for Context Learning

Feb 3

ByShihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao

Los modelos lingüísticos (LM) actuales sobresalen en el razonamiento sobre instrucciones utilizando conocimiento preentrenado. Sin embargo, las tareas del mundo real son mucho más complejas y dependientes del contexto: los modelos deben aprender del contexto específico de la tarea y aprovechar conocimientos nuevos más allá de lo aprendido durante el preentrenamiento para razonar y resolver tareas. Denominamos a esta capacidad **aprendizaje contextual**, una habilidad crucial que los humanos poseen de forma natural pero que ha sido ampliamente pasada por alto. Con este fin, presentamos CL-bench, un benchmark del mundo real que consta de 500 contextos complejos, 1.899 tareas y 31.607 rúbricas de verificación, todos elaborados por expertos en dominio con experiencia. Cada tarea está diseñada de modo que el nuevo contenido necesario para resolverla está contenido dentro del contexto correspondiente. Resolver las tareas en CL-bench requiere que los modelos aprendan del contexto, desde nuevos conocimientos específicos del dominio, sistemas de reglas y procedimientos complejos hasta leyes derivadas de datos empíricos, todos ellos ausentes en el preentrenamiento. Esto va mucho más allá de las tareas de contexto largo, que principalmente prueban la recuperación o la comprensión lectora, y de las tareas de aprendizaje en contexto, donde los modelos aprenden patrones de tarea simples mediante instrucciones y demostraciones. Nuestras evaluaciones de diez LM de vanguardia encuentran que los modelos resuelven solo el 17,2% de las tareas en promedio. Incluso el modelo con mejor rendimiento, GPT-5.1, resuelve solo el 23,7%, lo que revela que los LM aún no han logrado un aprendizaje contextual efectivo, lo que supone un cuello de botella crítico para abordar tareas del mundo real complejas y dependientes del contexto. CL-bench representa un paso hacia la construcción de LM con esta capacidad fundamental, haciéndolos más inteligentes y avanzando en su despliegue en escenarios del mundo real.

Vibe AIGC: Un Nuevo Paradigma para la Generación de Contenido mediante Orquestación Agéntica
Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Feb 4

ByJiaheng Liu, Yuanxing Zhang, Shihao Li, Xinping Lei

Durante la última década, la trayectoria de la inteligencia artificial generativa ha estado dominada por un paradigma centrado en el modelo impulsado por leyes de escalamiento. A pesar de los avances significativos en fidelidad visual, este enfoque ha topado con un "techo de usabilidad" manifestado como la Brecha Intenciòn-Ejecución (es decir, la disparidad fundamental entre la intención de alto nivel de un creador y la naturaleza estocástica de caja negra de los modelos actuales de un solo paso). En este artículo, inspirados por la Programación por Vibración, presentamos la Vibración IAGC, un nuevo paradigma para la generación de contenido mediante orquestación agentica, que representa la síntesis autónoma de flujos de trabajo jerárquicos multiagente. Bajo este paradigma, el rol del usuario trasciende la ingeniería de prompts tradicional, evolucionando hacia un Comandante que proporciona una Vibración, una representación de alto nivel que abarca preferencias estéticas, lógica funcional, etc. Un Metaplanificador centralizado funciona entonces como un arquitecto de sistemas, deconstruyendo esta "Vibración" en pipelines agenticos ejecutables, verificables y adaptativos. Al transitar de la inferencia estocástica a la orquestación lógica, la Vibración IAGC salva la brecha entre la imaginación humana y la ejecución de la máquina. Sostenemos que este cambio redefinirá la economía colaborativa humano-IA, transformando a la IA de un motor de inferencia frágil en un partner de ingeniería a nivel de sistema robusto que democratiza la creación de activos digitales complejos y de horizonte prolongado.

VLS: Direccionamiento de Políticas de Robots Preentrenados mediante Modelos de Visión-Lenguaje
VLS: Steering Pretrained Robot Policies via Vision-Language Models

Feb 3

ByShuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna

¿Por qué fallan las políticas de difusión o de correspondencia de flujos preentrenadas cuando la misma tarea se realiza cerca de un obstáculo, sobre una superficie de apoyo desplazada o en medio de un desorden moderado? Estos fallos rara vez reflejan la falta de habilidades motoras; en cambio, exponen una limitación del aprendizaje por imitación bajo cambios entre entrenamiento y prueba, donde la generación de acciones está estrechamente acoplada a configuraciones espaciales y especificaciones de tarea específicas del entrenamiento. Reentrenar o ajustar finamente para abordar estos fallos es costoso y conceptualmente desalineado, ya que los comportamientos requeridos ya existen pero no pueden adaptarse selectivamente durante la prueba. Proponemos Vision-Language Steering (VLS), un marco libre de entrenamiento para la adaptación en tiempo de inferencia de políticas generativas robóticas congeladas. VLS trata la adaptación como un problema de control en tiempo de inferencia, dirigiendo el proceso de muestreo de una política preentrenada de difusión o correspondencia de flujos en respuesta a entradas de observación-lenguaje fuera de distribución sin modificar los parámetros de la política. Al aprovechar los modelos de visión y lenguaje para sintetizar funciones de recompensa diferenciables con respecto a la trayectoria, VLS guía la eliminación de ruido hacia trayectorias de acción que satisfacen los requisitos espaciales y de tarea en tiempo de prueba. En evaluaciones tanto en simulación como en el mundo real, VLS supera consistentemente a métodos de dirección previos, logrando una mejora del 31% en CALVIN y una ganancia del 13% en LIBERO-PRO. El despliegue en el mundo real en un robot Franka demuestra además una adaptación robusta en tiempo de inferencia bajo cambios espaciales y semánticos durante la prueba. Página del proyecto: https://vision-language-steering.github.io/webpage/

A-RAG: Escalado de Generación Aumentada por Recuperación Agéntica mediante Interfaz de Recuperación Jerárquica
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Feb 3

ByMingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang, Xiaorui Wang, Zhendong Mao

Los modelos de lenguaje de vanguardia han demostrado sólidas capacidades de razonamiento y uso de herramientas a largo plazo. Sin embargo, los sistemas RAG existentes no logran aprovechar estas capacidades. Siguen dependiendo de dos paradigmas: (1) diseñar un algoritmo que recupera pasajes de una sola vez y los concatena en la entrada del modelo, o (2) predefinir un flujo de trabajo y solicitar al modelo que lo ejecute paso a paso. Ninguno de estos paradigmas permite que el modelo participe en las decisiones de recuperación, lo que impide una escalabilidad eficiente con las mejoras del modelo. En este artículo, presentamos A-RAG, un marco RAG Agéntico que expone interfaces de recuperación jerárquicas directamente al modelo. A-RAG proporciona tres herramientas de recuperación: búsqueda por palabras clave, búsqueda semántica y lectura de fragmentos, permitiendo que el agente busque y recupere información de forma adaptativa en múltiples niveles de granularidad. Los experimentos en múltiples benchmarks de QA de dominio abierto muestran que A-RAG supera consistentemente a los enfoques existentes con un número comparable o menor de tokens recuperados, demostrando que A-RAG aprovecha efectivamente las capacidades del modelo y se adapta dinámicamente a diferentes tareas RAG. Además, estudiamos sistemáticamente cómo A-RAG escala con el tamaño del modelo y la capacidad computacional en tiempo de prueba. Liberaremos nuestro código y conjunto de evaluación para facilitar la investigación futura. El código y el conjunto de evaluación están disponibles en https://github.com/Ayanami0730/arag.

PaperSearchQA: Aprendizaje de Búsqueda y Razonamiento en Artículos Científicos con RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

Jan 26

ByJames Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy

Los agentes de búsqueda son modelos de lenguaje (LM) que razonan y consultan bases de conocimiento (o la web) para responder preguntas; métodos recientes supervisan únicamente la precisión de la respuesta final utilizando aprendizaje por refuerzo con recompensas verificables (RLVR). La mayoría de los agentes de búsqueda RLVR abordan preguntas y respuestas (QA) de dominio general, lo que limita su relevancia para sistemas de IA técnica en ciencia, ingeniería y medicina. En este trabajo, proponemos entrenar agentes para buscar y razonar sobre artículos científicos; esto pone a prueba la capacidad de respuesta a preguntas técnicas, es directamente relevante para científicos reales, y estas capacidades serán cruciales para futuros sistemas de IA Científica. Concretamente, publicamos un corpus de búsqueda de 16 millones de resúmenes de artículos biomédicos y construimos un desafiante conjunto de datos de QA factual llamado PaperSearchQA con 60.000 muestras que pueden responderse a partir del corpus, junto con puntos de referencia. Entrenamos agentes de búsqueda en este entorno para superar a los baselines de recuperación no-RL; también realizamos un análisis cuantitativo adicional y observamos comportamientos interesantes de los agentes, como la planificación, el razonamiento y la auto-verificación. Nuestro corpus, conjuntos de datos y puntos de referencia son utilizables con el popular código base Search-R1 para el entrenamiento RLVR y se publican en https://huggingface.co/collections/jmhb/papersearchqa. Finalmente, nuestros métodos de creación de datos son escalables y fácilmente extensibles a otros dominios científicos.

Horizon-LM: Una Arquitectura Centrada en la RAM para el Entrenamiento de Modelos de Lenguaje Grande
Horizon-LM: A RAM-Centric Architecture for LLM Training

Feb 4

ByZhengqing Yuan, Lichao Sun, Yanfang, Ye

El rápido crecimiento de los modelos de lenguaje grandes (LLM) ha superado la evolución del hardware de GPU única, haciendo que la escala del modelo esté cada vez más limitada por la capacidad de memoria en lugar del cómputo. Si bien los sistemas de entrenamiento modernos amplían la memoria de la GPU mediante paralelismo distribuido y descarga a través de niveles de CPU y almacenamiento, fundamentalmente conservan un paradigma de ejecución centrado en la GPU, en el que las GPU albergan réplicas persistentes del modelo y grafos de autograd completos. Como resultado, escalar modelos grandes sigue estando estrechamente ligado a clústeres multi-GPU, entornos de ejecución distribuidos complejos y un consumo de memoria del host impredecible, creando barreras sustanciales para cargas de trabajo posteriores al entrenamiento a escala de nodo, como el ajuste por instrucciones, la alineación y la adaptación de dominio. Presentamos Horizon-LM, un sistema de entrenamiento centrado en la memoria que redefine los roles de la CPU y la GPU para la optimización de modelos grandes. Horizon-LM trata la memoria del host como el almacén de parámetros autoritativo y utiliza las GPU únicamente como motores de cómputo transitorios mediante un modelo de ejecución CPU-maestro, GPU-trabajador. Al eliminar los módulos residentes persistentes en la GPU y los grafos de autograd, emplear recomputación explícita con propagación manual de gradientes e introducir un motor de ejecución canalizado con doble búfer, Horizon-LM desacopla la escala del modelo del número de GPU y limita el uso de memoria a la huella teórica de parámetros. En una sola GPU H200 con 1,5 TB de RAM del host, Horizon-LM entrena de forma fiable modelos de hasta 120B de parámetros. En una máquina estándar con una sola A100, Horizon-LM logra un rendimiento de entrenamiento hasta 12,2 veces mayor que DeepSpeed ZeRO-3 con descarga a la CPU, preservando la corrección numérica. En todas las plataformas y escalas, Horizon-LM mantiene una alta utilización del dispositivo y un crecimiento de memoria predecible, demostrando que la memoria del host, no la memoria de la GPU, define el verdadero límite de viabilidad para el entrenamiento de modelos grandes a escala de nodo.

MEnvAgent: Construcción de Entornos Políglotas Escalables para la Ingeniería de Software Verificable
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

Jan 30

ByChuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang

La evolución de los agentes de Modelos de Lenguaje a Gran Escala (LLM) para ingeniería de software (SWE) se ve limitada por la escasez de conjuntos de datos verificables, un cuello de botella que surge de la complejidad de construir entornos ejecutables en diversos lenguajes. Para abordar este problema, presentamos MEnvAgent, un marco de trabajo multilingüe para la construcción automatizada de entornos que facilita la generación escalable de instancias de tareas verificables. MEnvAgent emplea una arquitectura multiagente de Planificación-Ejecución-Verificación para resolver autónomamente fallos de construcción e integra un novedoso Mecanismo de Reutilización de Entornos que reduce la sobrecarga computacional mediante la aplicación incremental de parches a entornos históricos. Las evaluaciones en MEnvBench, un nuevo benchmark que comprende 1.000 tareas en 10 lenguajes, demuestran que MEnvAgent supera a los métodos de referencia, mejorando las tasas de Fallo-a-Aprobado (F2P) en un 8,6% mientras reduce los costes de tiempo en un 43%. Adicionalmente, demostramos la utilidad de MEnvAgent construyendo MEnvData-SWE, el mayor conjunto de datos poliglota de código abierto de entornos Docker realistas y verificables hasta la fecha, junto con trayectorias de solución que permiten ganancias consistentes de rendimiento en tareas SWE en una amplia gama de modelos. Nuestro código, benchmark y conjunto de datos están disponibles en https://github.com/ernie-research/MEnvAgent.

De los Datos a la Conducta: Prediciendo Comportamientos No Deseados de Modelos Antes del Entrenamiento
From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Feb 4

ByMengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang

Los Modelos de Lenguaje Grandes (LLM) pueden adquirir sesgos no intencionados a partir de datos de entrenamiento aparentemente benignos, incluso sin indicaciones explícitas o contenido malicioso. Los métodos existentes tienen dificultades para detectar dichos riesgos antes del ajuste fino, lo que hace que la evaluación *post hoc* sea costosa e ineficiente. Para abordar este desafío, presentamos Data2Behavior, una nueva tarea para predecir comportamientos no deseados del modelo antes del entrenamiento. También proponemos Manipulación de Características de Datos (MDF, por sus siglas en inglés), un enfoque ligero que resume los datos candidatos a través de sus representaciones medias y los inyecta en el pase hacia adelante de un modelo base, permitiendo que las señales estadísticas latentes en los datos moldeen las activaciones del modelo y revelen posibles sesgos y riesgos de seguridad sin actualizar ningún parámetro. MDF logra una predicción confiable mientras consume solo aproximadamente el 20% de los recursos de GPU requeridos para el ajuste fino. Experimentos en Qwen3-14B, Qwen2.5-32B-Instruct y Gemma-3-12b-it confirman que MDF puede anticipar comportamientos no deseados y proporcionar información sobre vulnerabilidades en el pre-entrenamiento.

Agente-Omit: Entrenamiento de Agentes de LLM Eficientes para la Omisión Adaptativa de Pensamiento y Observación mediante Aprendizaje por Refuerzo Agéntico
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Feb 4

ByYansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

La gestión del pensamiento y la observación del agente durante las interacciones multi-turno agente-entorno es una estrategia emergente para mejorar la eficiencia del agente. Sin embargo, los estudios existentes tratan todas las trayectorias de interacción por igual, pasando por alto que la necesidad de pensamiento y la utilidad de la observación varían entre turnos. Para abordarlo, primero realizamos investigaciones cuantitativas sobre cómo el pensamiento y la observación afectan la efectividad y eficiencia del agente. Basándonos en nuestros hallazgos, proponemos Agent-Omit, un marco de entrenamiento unificado que permite a los agentes de LLM omitir adaptativamente pensamientos y observaciones redundantes. Específicamente, primero sintetizamos una pequeña cantidad de datos de arranque en frío, que incluyen escenarios de omisión tanto de un solo turno como multi-turno, para ajustar el agente hacia comportamientos de omisión. Además, introducimos un enfoque de aprendizaje por refuerzo agentico consciente de la omisión, incorporando un mecanismo de muestreo dual y una recompensa de omisión personalizada para incentivar la capacidad de omisión adaptativa del agente. Teóricamente, demostramos que la desviación de nuestra política de omisión está acotada superiormente por la divergencia KL. Los resultados experimentales en cinco benchmarks de agentes muestran que nuestro Agent-Omit-8B puede obtener un rendimiento comparable al de siete agentes LLM de vanguardia y lograr el mejor equilibrio entre efectividad y eficiencia que siete métodos de agentes LLM eficientes. Nuestro código y datos están disponibles en https://github.com/usail-hkust/Agent-Omit.

D-CORE: Incentivando la Descomposición de Tareas en Modelos de Razonamiento de Gran Escala para el Uso Complejo de Herramientas
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

Feb 2

ByBowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang

El uso efectivo de herramientas y el razonamiento son capacidades esenciales para los grandes modelos de razonamiento (LRM) a fin de abordar problemas complejos del mundo real. Mediante análisis empírico, identificamos que los LRM actuales carecen de la capacidad de descomposición de subtareas en escenarios complejos de uso de herramientas, lo que conduce a un Razonamiento Perezoso. Para abordar esto, proponemos un marco de entrenamiento de dos etapas, D-CORE (Descomposición de tareas y Composición de procesos de Razonamiento), que primero incentiva la capacidad de razonamiento por descomposición de tareas de los LRM mediante auto-destilación, seguido de un aprendizaje por refuerzo (RL) consciente de la diversidad para restaurar la capacidad de razonamiento reflexivo de los LRM. D-CORE logra mejoras robustas en el uso de herramientas en diversos benchmarks y escalas de modelos. Los experimentos en BFCLv3 demuestran la superioridad de nuestro método: D-CORE-8B alcanza un 77.7% de precisión, superando al mejor modelo de 8B en un 5.7%. Mientras tanto, D-CORE-14B establece un nuevo estado del arte con un 79.3%, superando a modelos de 70B a pesar de ser 5 veces más pequeño. El código fuente está disponible en https://github.com/alibaba/EfficientAI.

Cuantificando la Brecha entre la Comprensión y la Generación en Modelos Multimodales Unificados
Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

Feb 2

ByChenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou

Los recientes avances en modelos multimodales unificados (UMM) han demostrado un progreso notable tanto en tareas de comprensión como de generación. Sin embargo, sigue sin estar claro si estas dos capacidades están genuinamente alineadas e integradas dentro de un único modelo. Para investigar esta cuestión, presentamos GapEval, un benchmark bidireccional diseñado para cuantificar la brecha entre las capacidades de comprensión y generación, y medir cuantitativamente la coherencia cognitiva de las dos direcciones "unificadas". Cada pregunta puede responderse en ambas modalidades (imagen y texto), permitiendo una evaluación simétrica de la capacidad de inferencia bidireccional de un modelo y de su consistencia cross-modal. Los experimentos revelan una brecha persistente entre las dos direcciones en una amplia gama de UMM con diferentes arquitecturas, lo que sugiere que los modelos actuales logran solo una unificación superficial en lugar de una convergencia cognitiva profunda de ambas. Para explorar más a fondo el mecanismo subyacente, realizamos un estudio empírico desde la perspectiva de la manipulación del conocimiento para ilustrar las limitaciones subyacentes. Nuestros hallazgos indican que el conocimiento dentro de los UMM a menudo permanece disociado. La emergencia de capacidades y el conocimiento a través de las modalidades no están sincronizados, allanando el camino para una mayor exploración.

SpatiaLab: ¿Pueden los Modelos de Visión y Lenguaje Realizar Razonamiento Espacial en Entornos Naturales?
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Feb 3

ByAzmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez

El razonamiento espacial es un aspecto fundamental de la cognición humana, pero sigue siendo un desafío importante para los modelos visión-lenguaje (VLM) contemporáneos. Trabajos previos se basaron en gran medida en entornos sintéticos o generados por LLM con diseños de tareas limitados y configuraciones similares a rompecabezas, sin lograr capturar la complejidad del mundo real, el ruido visual y las diversas relaciones espaciales que encuentran los VLMs. Para abordar esto, presentamos SpatiaLab, un benchmark integral para evaluar el razonamiento espacial de los VLMs en contextos realistas y sin restricciones. SpatiaLab comprende 1.400 pares de preguntas y respuestas visuales en seis categorías principales: Posicionamiento Relativo, Profundidad y Oclusión, Orientación, Tamaño y Escala, Navegación Espacial y Geometría 3D, cada una con cinco subcategorías, lo que da como resultado 30 tipos de tareas distintos. Cada subcategoría contiene al menos 25 preguntas, y cada categoría principal incluye al menos 200 preguntas, admitiendo evaluación tanto de opción múltiple como de respuesta abierta. Los experimentos con diversos VLMs de vanguardia, incluyendo modelos de código abierto y cerrado, modelos centrados en el razonamiento y modelos especializados en razonamiento espacial, revelan una brecha sustancial en las capacidades de razonamiento espacial en comparación con los humanos. En la configuración de opción múltiple, InternVL3.5-72B alcanza un 54.93% de precisión frente al 87.57% de los humanos. En el entorno de respuesta abierta, todos los modelos muestran una caída en el rendimiento de alrededor del 10-25%, con GPT-5-mini obteniendo la puntuación más alta con un 40.93% frente al 64.93% de los humanos. Estos resultados destacan limitaciones clave en el manejo de relaciones espaciales complejas, percepción de profundidad, navegación y geometría 3D. Al proporcionar un marco de evaluación diverso y del mundo real, SpatiaLab expone desafíos y oportunidades críticos para avanzar en el razonamiento espacial de los VLMs, ofreciendo un benchmark para guiar la investigación futura hacia una comprensión espacial robusta y alineada con las capacidades humanas. SpatiaLab está disponible en: https://spatialab-reasoning.github.io/.

BatCoder: Aprendizaje Bidireccional Autosupervisado de Código-Documentación mediante Traducción Inversa
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

Jan 30

ByJingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng

El entrenamiento de LLMs para tareas relacionadas con código generalmente depende de pares de código-documentación de alta calidad, los cuales son costosos de curar y a menudo escasos para lenguajes de programación especializados. Presentamos BatCoder, un marco de aprendizaje por refuerzo auto-supervisado diseñado para optimizar conjuntamente la generación de código y la producción de documentación. BatCoder emplea una estrategia de retro-traducción: primero se genera documentación a partir del código, y luego la documentación generada se utiliza para reconstruir el código original. La similitud semántica entre el código original y el reconstruido sirve como recompensa implícita, permitiendo que el aprendizaje por refuerzo mejore el rendimiento del modelo tanto en generar código a partir de documentación como viceversa. Este enfoque permite entrenar modelos utilizando solo código, aumentando sustancialmente los ejemplos de entrenamiento disponibles. Evaluado en HumanEval y MBPP con un modelo de 7B, BatCoder alcanzó un 83.5% y un 81.0% en pass@1, superando a sólidos baselines de código abierto. Además, el marco demuestra un escalado consistente con respecto tanto al tamaño del corpus de entrenamiento como a la capacidad del modelo.

Diseño de Recompensas Basado en Verosimilitud para el Razonamiento General en LLM
Likelihood-Based Reward Designs for General LLM Reasoning

Feb 3

ByAriel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier

El ajuste fino de modelos de lenguaje grandes (LLM) en puntos de referencia de razonamiento mediante aprendizaje por refuerzo requiere una función de recompensa específica, a menudo binaria, para cada benchmark. Esto conlleva dos limitaciones potenciales: la necesidad de diseñar la recompensa y la naturaleza potencialmente dispersa de las recompensas binarias. Aquí, investigamos sistemáticamente las recompensas derivadas de la probabilidad o log-probabilidad de emitir la respuesta de referencia (o cualquier otra continuación del prompt presente en los datos), que tienen la ventaja de no depender de verificadores específicos y estar disponibles a gran escala. Varios trabajos recientes han abogado por el uso de recompensas similares (por ejemplo, VeriFree, JEPO, RLPR, NOVER). Comparamos sistemáticamente variantes de recompensas basadas en verosimilitud con líneas de base estándar, evaluando el rendimiento tanto en puntos de referencia estándar de razonamiento matemático como en respuestas de formato largo donde no hay un verificador externo disponible. Encontramos que usar la log-probabilidad de la respuesta de referencia como recompensa para el aprendizaje de cadena de pensamiento (CoT) es la única opción que funciona bien en todas las configuraciones. Esta recompensa también es consistente con la pérdida de log-verosimilitud del siguiente token utilizada durante el preentrenamiento. En entornos verificables, las recompensas de log-probabilidad ofrecen tasas de éxito comparables o mejores que el refuerzo con recompensas binarias estándar, y producen una perplejidad mucho mejor. En entornos no verificables, su rendimiento es similar al de SFT. Por otro lado, los métodos basados en probabilidad, como VeriFree, se estancan en entornos no verificables debido a las probabilidades que se desvanecen de obtener la respuesta correcta. En general, esto establece las recompensas de log-probabilidad como un método viable para el ajuste fino de CoT, tendiendo un puente entre los entornos de respuestas cortas y verificables y los de respuestas largas y no verificables.

A2Eval: Evaluación Agéntica y Automatizada para Cerebro Encarnado
A2Eval: Agentic and Automated Evaluation for Embodied Brain

Feb 2

ByShuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju

La evaluación actual de VLM corporizados se basa en puntos de referencia estáticos, definidos por expertos y anotados manualmente que presentan una grave redundancia y un desequilibrio en la cobertura. Este paradigma intensivo en mano de obra agota los recursos computacionales y de anotación, infla los costos y distorsiona la clasificación de los modelos, sofocando en última instancia el desarrollo iterativo. Para abordar esto, proponemos Evaluación Automática Agéntica (A2Eval), el primer marco agéntico que automatiza la curación y evaluación de benchmarks mediante dos agentes colaborativos. El Agente de Datos induce de forma autónoma dimensiones de capacidad y ensambla un conjunto de evaluación equilibrado y compacto, mientras que el Agente de Eval sintetiza y valida pipelines de evaluación ejecutables, permitiendo una evaluación completamente autónoma y de alta fidelidad. Evaluado en 10 benchmarks y 13 modelos, A2Eval comprime los conjuntos de evaluación en un 85%, reduce los costos computacionales totales en un 77% y ofrece una aceleración de 4.6x manteniendo la calidad de la evaluación. Crucialmente, A2Eval corrige los sesgos sistemáticos de clasificación, mejora la alineación humana a un rho de Spearman=0.85 y mantiene una alta fidelidad en la clasificación (tau de Kendall=0.81), estableciendo un nuevo estándar para la evaluación corporizada de alta fidelidad y bajo costo. Nuestro código y datos serán públicos próximamente.

Más allá de los atajos unimodales: Los MLLM como razonadores cross-modales para el reconocimiento de entidades nombradas fundamentado
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Feb 4

ByJinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang

La Reconocimiento de Entidades Nombradas Multimodal con Anclaje Visual (GMNER) tiene como objetivo extraer entidades basadas en texto, asignarles categorías semánticas y anclarlas a regiones visuales correspondientes. En este trabajo, exploramos el potencial de los Modelos de Lenguaje Grandes Multimodales (MLLMs) para realizar GMNER de manera integral, yendo más allá de su papel típico como herramientas auxiliares dentro de pipelines en cascada. De manera crucial, nuestra investigación revela un desafío fundamental: los MLLMs exhiben un sesgo de modalidad, que incluye sesgo visual y sesgo textual, el cual surge de su tendencia a tomar atajos unimodales en lugar de realizar una verificación cruzada rigurosa. Para abordar esto, proponemos el Razonamiento de Consciencia de Modalidad (MCR), que impone un razonamiento cruzado estructurado mediante la Inyección de Esquemas de Razonamiento Multi-estilo (MRSI) y la Optimización Verificable Guiada por Restricciones (CVO). MRSI transforma restricciones abstractas en cadenas de razonamiento ejecutables, mientras que CVO capacita al modelo para alinear dinámicamente sus trayectorias de razonamiento con la Optimización de Política Relativa Grupal (GRPO). Experimentos en tareas de GMNER y anclaje visual demuestran que MCR mitiga efectivamente el sesgo de modalidad y logra un rendimiento superior en comparación con los baselines existentes.

Difusión de Video Autoregresiva Eficiente con Cabeza Ficticia
Efficient Autoregressive Video Diffusion with Dummy Head

Jan 28

ByHang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu

El modelo de difusión de video autorregresivo ha despertado reciente interés investigativo debido a su modelado causal y desruido iterativo. En este trabajo, identificamos que la autoatención multi-cabezal en estos modelos subutiliza los fotogramas históricos: aproximadamente el 25% de las cabezas atienden casi exclusivamente al fotograma actual, y descartar sus cachés de claves-valores incurre solo en una degradación menor del rendimiento. Basándonos en esto, proponemos Dummy Forcing, un método sencillo pero efectivo para controlar la accesibilidad del contexto entre diferentes cabezas. Específicamente, la asignación heterogénea de memoria propuesta reduce la redundancia contextual por cabeza, acompañada de una programación dinámica de cabezas para clasificar adaptativamente los tipos de cabeza. Además, desarrollamos una técnica de empaquetado de contexto para lograr una compresión de caché más agresiva. Sin entrenamiento adicional, nuestro Dummy Forcing logra una aceleración de hasta 2.0x sobre la línea base, permitiendo generar video a 24.3 FPS con una caída de calidad inferior al 0.5%. La página del proyecto está disponible en https://csguoh.github.io/project/DummyForcing/.

No existe una solución universal: desarrollo de sistemas para la traducción al bashkir, kazajo, kirguís, tártaro y chuvasio utilizando datos sintéticos y originales
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

Feb 4

ByDmitry Karpov

Investigamos la traducción automática para cinco pares de lenguas túrquicas: ruso-bashkir, ruso-kazajo, ruso-kirguís, inglés-tártaro, inglés-chuvasio. El ajuste fino de nllb-200-distilled-600M con LoRA en datos sintéticos logró un chrF++ de 49.71 para el kazajo y 46.94 para el bashkir. La técnica de prompting con DeepSeek-V3.2 utilizando ejemplos similares recuperados alcanzó un chrF++ de 39.47 para el chuvasio. Para el tártaro, los enfoques zero-shot o basados en recuperación lograron un chrF++ de 41.6, mientras que para el kirguís el enfoque zero-shot alcanzó 45.6. Publicamos el conjunto de datos y los pesos obtenidos.

Aprendizaje Contextual para Discusión Multiagente
Context Learning for Multi-Agent Discussion

Feb 2

ByXingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren

La Discusión Multi-Agente (MAD, por sus siglas en inglés) ha captado una atención creciente recientemente, donde múltiples instancias de LLM resuelven problemas de manera colaborativa mediante discusiones estructuradas. Sin embargo, descubrimos que los métodos MAD actuales sufren fácilmente de inconsistencia en la discusión, donde los LLM no logran alcanzar una solución coherente debido a la desalineación entre sus contextos individuales. En este artículo, presentamos un método de aprendizaje de contexto multi-LLM (M2CL) que entrena un generador de contexto para cada agente, capaz de generar instrucciones de contexto dinámicamente en cada ronda de discusión mediante la organización y refinamiento automático de la información. Específicamente, inspirados por nuestras perspectivas teóricas sobre la instrucción de contexto, M2CL entrena a los generadores para controlar la coherencia del contexto y las discrepancias en las salidas mediante un mecanismo de auto-adaptación cuidadosamente diseñado. Esto permite a los LLM evitar la convergencia prematura en el ruido mayoritario y alcanzar progresivamente el consenso correcto. Evaluamos M2CL en tareas desafiantes, incluyendo razonamiento académico, tareas corporizadas y control móvil. Los resultados muestran que el rendimiento de M2CL supera significativamente a los métodos existentes en un 20%–50%, mientras que disfruta de una favorable transferibilidad y eficiencia computacional.

Tokens de Piel: Una Representación Compacta Aprendida para la Configuración Autoregresiva Unificada
Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

Feb 4

ByJia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu

La rápida proliferación de modelos generativos 3D ha creado un cuello de botella crítico en los pipelines de animación: el rigging. Los métodos automatizados existentes están fundamentalmente limitados por su enfoque del skinning, tratándolo como una tarea de regresión mal planteada y de alta dimensionalidad que es ineficiente de optimizar y que normalmente está desacoplada de la generación del esqueleto. Postulamos que esto es un problema de representación e introducimos SkinTokens: una representación aprendida, compacta y discreta para los pesos de skinning. Al aprovechar un FSQ-CVAE para capturar la dispersión intrínseca del skinning, replanteamos la tarea de una regresión continua a un problema más manejable de predicción de secuencias de tokens. Esta representación permite TokenRig, un marco autoregresivo unificado que modela el rig completo como una única secuencia de parámetros esqueléticos y SkinTokens, aprendiendo las complejas dependencias entre esqueletos y deformaciones de la piel. El modelo unificado es entonces susceptible a una etapa de aprendizaje por refuerzo, donde recompensas geométricas y semánticas personalizadas mejoran la generalización a activos complejos fuera de distribución. Cuantitativamente, la representación SkinTokens conduce a una mejora del 98%-133% en la precisión del skinning respecto a los métodos más avanzados, mientras que el marco completo TokenRig, refinado con RL, mejora la predicción de huesos en un 17%-22%. Nuestro trabajo presenta un enfoque generativo y unificado para el rigging que produce una mayor fidelidad y robustez, ofreciendo una solución escalable a un desafío de larga data en la creación de contenido 3D.

Monte Carlo Secuencial con Autorecompensa para Modelos de Difusión Enmascarados de Lenguaje
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

Feb 2

ByZiwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön

Este trabajo presenta el método de Monte Carlo secuencial con autorrecompensa (SMC), un algoritmo de escalado en tiempo de inferencia que permite un muestreo efectivo de modelos de lenguaje de difusión enmascarada (MDLM). Nuestro algoritmo surge de la observación de que la mayoría de los MDLM existentes se basan en una estrategia de muestreo basada en la confianza, donde solo se preservan los tokens con la mayor confianza predictiva en cada paso. Esto restringe la generación a un paradigma de decodificación codicioso y sensible al ruido, lo que resulta en un colapso inevitable de la diversidad de trayectorias posibles. Abordamos este problema lanzando múltiples procesos de difusión que interactúan en paralelo, denominados partículas, para la exploración de trayectorias. Es importante destacar que introducimos la confianza a nivel de trayectoria como una señal de autorrecompensa para asignar pesos de importancia a las partículas. Durante el muestreo, las partículas son ponderadas y remuestreadas iterativamente para dirigir sistemáticamente la generación hacia muestras globalmente confiables y de alta calidad. Nuestro SMC con autorrecompensa se verifica en varios modelos de lenguaje de difusión enmascarada y benchmarks, logrando una mejora significativa sin necesidad de entrenamiento adicional o guía de recompensas, mientras convierte efectivamente la capacidad de inferencia paralela en una mejora de la calidad del muestreo. Nuestro código está disponible en https://github.com/Algolzw/self-rewarding-smc.

Modelado Autoregresivo de Proteínas mediante Generación de Estructuras Multiescala
Protein Autoregressive Modeling via Multiscale Structure Generation

Feb 4

ByYanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu

Presentamos el modelado autoregresivo de proteínas (PAR), el primer marco autoregresivo multiescala para la generación de estructuras proteicas mediante predicción de siguiente escala de grueso a fino. Aprovechando la naturaleza jerárquica de las proteínas, PAR genera estructuras que imitan esculpir una estatua, formando primero una topología gruesa y refinando después los detalles estructurales a través de escalas. Para lograrlo, PAR consta de tres componentes clave: (i) operaciones de submuestreo multiescala que representan las estructuras proteicas en múltiples escalas durante el entrenamiento; (ii) un transformador autoregresivo que codifica información multiescala y produce *embeddings* condicionales para guiar la generación de estructuras; (iii) un decodificador de estructura basado en *flows* que genera los átomos de la estructura principal condicionados por estos *embeddings*. Además, los modelos autoregresivos sufren de *exposure bias*, causado por la discrepancia entre el procedimiento de entrenamiento y el de generación, lo que degrada sustancialmente la calidad de la generación estructural. Mitigamos eficazmente este problema adoptando el aprendizaje con contexto ruidoso y el *scheduled sampling*, permitiendo una generación robusta de la estructura principal. Notablemente, PAR exhibe una fuerte generalización *zero-shot*, soportando la generación condicional flexible guiada por el usuario y el *scaffolding* de motivos sin necesidad de ajuste fino. En el benchmark de generación incondicional, PAR aprende eficazmente las distribuciones de proteínas y produce estructuras de alta calidad de diseño, mostrando un comportamiento de escalado favorable. En conjunto, estas propiedades establecen a PAR como un marco prometedor para la generación de estructuras proteicas.

OmniRad: Un Modelo Fundacional Radiológico para el Análisis de Imágenes Médicas Multitarea
OmniRad: A Radiological Foundation Model for Multi-Task Medical Image Analysis

Feb 4

ByLuca Zedda, Andrea Loddo, Cecilia Di Ruberto

El análisis radiológico se beneficia cada vez más de representaciones visuales preentrenadas que pueden respaldar tareas posteriores heterogéneas en diversas modalidades de imagen. En este trabajo presentamos OmniRad, un modelo base radiológico de autoaprendizaje preentrenado con 1,2 millones de imágenes médicas, diseñado bajo principios inspirados en radiología que enfatizan la reutilización de representaciones y la transferibilidad entre tareas. Evaluamos el codificador preentrenado bajo múltiples regímenes de adaptación posteriores, incluyendo adaptadores ligeros específicos por tarea con una red principal congelada, así como ajuste fino completo de extremo a extremo para clasificación, lo que nos permite evaluar tanto la calidad de la representación como el rendimiento específico por tarea. OmniRad se evalúa en un amplio conjunto de benchmarks públicos que abarcan clasificación y segmentación en múltiples modalidades. En la colección MedMNISTv2, OmniRad mejora el F1 de clasificación hasta en un 2,05% respecto a modelos base competidores. Para predicción densa, OmniRad logra mejoras en la puntuación Dice promedio en seis conjuntos de datos de MedSegBench al utilizar representaciones congeladas. Los análisis cualitativos y las visualizaciones del espacio latente sugieren una mejor agrupación de características y una separación relacionada con la modalidad.

SAFE: Ajuste Estable de Alineación con Control Predictivo Consciente de la Entropía para RLHF
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

Feb 4

ByDipan Maity

La Optimización de Políticas Proximales (PPO) ha sido posicionada por la literatura reciente como el método canónico para la parte de RL del RLHF. PPO funciona bien empíricamente, pero tiene una motivación heurística, maneja la restricción de divergencia KL utilizada en LM-RLHF de manera ad-hoc y sufre de oscilaciones de recompensa, colapso de entropía, deriva de la función de valor y divergencia súbita de la política que requieren reinicios frecuentes y un extenso ajuste de hiperparámetros. En este artículo, desarrollamos un nuevo método de RL puro actor-crítico en política para el entorno LM-RLHF. Presentamos SAFE (Sintonización Estable de Alineación con Control Consciente de la Entropía), un novedoso algoritmo de RLHF que combina un Crítico de Doble Mínimo Suave para la estimación pesimista de valores con un nuevo marco de estabilización multicapa que combina una regulación KL controlada por entropía y umbrales adaptativos controlados por PID. A diferencia de las penalizaciones KL simétricas del PPO estándar, SAFE distingue entre la exploración de alta entropía y el colapso modal de baja entropía, y ajusta las penalizaciones dinámicamente en función de la velocidad de recompensa. Los experimentos en un modelo de 3B de parámetros muestran que SAFE logra una recompensa promedio de entrenamiento un +5.15% superior a la de PPO (0.725 vs 0.689), colapsos de recompensa insignificantes y un control KL superior al de PPO. Nuestro método añade una sobrecarga computacional mínima y proporciona un marco de RLHF interpretable y resistente a colapsos que mantiene una velocidad de aprendizaje agresiva mientras garantiza una optimización estable a largo plazo adecuada para despliegue en producción. El código está disponible en https://github.com/ryyzn9/SAFE.

Compresión por Proxy para Modelado de Lenguaje
Proxy Compression for Language Modeling

Feb 4

ByLin Zheng, Xinyu Li, Qian Liu, Xiachong Feng, Lingpeng Kong

Los modelos lingüísticos modernos se entrenan casi exclusivamente en secuencias de tokens producidas por un tokenizador fijo, un compresor externo sin pérdidas que a menudo opera sobre secuencias de bytes UTF-8, acoplando así el modelo a ese compresor. Este trabajo introduce la *compresión proxy*, un esquema de entrenamiento alternativo que preserva los beneficios de eficiencia de las entradas comprimidas, al tiempo que proporciona una interfaz de bytes crudos de extremo a extremo durante la inferencia. Durante el entrenamiento, un modelo lingüístico se entrena conjuntamente en secuencias de bytes crudos y en vistas comprimidas generadas por compresores externos; a través de este proceso, el modelo aprende a alinear internamente las secuencias comprimidas con los bytes crudos. Esta alineación permite una fuerte transferencia entre los dos formatos, incluso cuando el entrenamiento se realiza predominantemente con entradas comprimidas que se descartan en la inferencia. Experimentos exhaustivos en modelado lingüístico de código demuestran que la compresión proxy mejora sustancialmente la eficiencia del entrenamiento y supera significativamente a los modelos de referencia de nivel de byte puro, dados unos presupuestos computacionales fijos. A medida que aumenta la escala del modelo, estas ganancias se vuelven más pronunciadas, y los modelos entrenados con proxy eventualmente igualan o rivalizan con los enfoques basados en tokenizadores, todo ello operando únicamente con bytes crudos y conservando la robustez inherente del modelado a nivel de byte.

SkeletonGaussian: Generación 4D Editable mediante Esqueletización Gaussiana
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization

Feb 4

ByLifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang

La generación 4D ha logrado un progreso notable en la síntesis de objetos 3D dinámicos a partir de texto, imágenes o vídeos de entrada. Sin embargo, los métodos existentes suelen representar el movimiento como un campo de deformación implícito, lo que limita el control directo y la capacidad de edición. Para abordar este problema, proponemos SkeletonGaussian, un novedoso marco de trabajo para generar Gaussianas 3D dinámicas y editables a partir de vídeos monoculares. Nuestro enfoque introduce una representación articulada jerárquica que descompone el movimiento en un movimiento rígido disperso, impulsado explícitamente por un esqueleto, y un movimiento no rígido de grano fino. Concretamente, extraemos un esqueleto robusto y accionamos el movimiento rígido mediante *linear blend skinning*, seguido de un refinamiento basado en hexplanos para las deformaciones no rígidas, mejorando la interpretabilidad y la editabilidad. Los resultados experimentales demuestran que SkeletonGaussian supera a los métodos existentes en calidad de generación, a la vez que permite una edición intuitiva del movimiento, estableciendo un nuevo paradigma para la generación 4D editable. Página del proyecto: https://wusar.github.io/projects/skeletongaussian/

AgentArk: Destilando la Inteligencia Multiagente en un Único Agente de Gran Modelo de Lenguaje
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Feb 3

ByYinyi Luo, Yiqiao Jin, Weichen Yu, Mengqi Zhang, Srijan Kumar, Xiaoxiao Li, Weijie Xu, Xin Chen, Jindong Wang

Si bien los sistemas multiagente basados en modelos de lenguaje grande (LLM) logran un rendimiento de razonamiento superior mediante el debate iterativo, su implementación práctica se ve limitada por su alto coste computacional y la propagación de errores. Este artículo propone AgentArk, un marco novedoso para destilar la dinámica multiagente en los pesos de un modelo único, transformando efectivamente las interacciones explícitas en tiempo de prueba en capacidades implícitas del modelo. Esto dota a un solo agente con la inteligencia de los sistemas multiagente manteniendo la eficiencia computacional. Específicamente, investigamos tres estrategias de destilación jerárquica en diversos modelos, tareas, escalas y escenarios: ajuste fino potenciado por razonamiento; aumento basado en trayectorias; y destilación consciente del proceso. Al trasladar la carga computacional de la inferencia al entrenamiento, los modelos destilados preservan la eficiencia de un agente mientras exhiben un fuerte rendimiento de razonamiento y autocorrección de múltiples agentes. Además, demuestran una mayor robustez y generalización en diversas tareas de razonamiento. Esperamos que este trabajo pueda iluminar futuras investigaciones sobre el desarrollo multiagente eficiente y robusto. Nuestro código está disponible en https://github.com/AIFrontierLab/AgentArk.

"Puede que no me haya expresado con claridad": Diagnóstico de la inestabilidad dinámica en el razonamiento de modelos de lenguaje grandes durante la inferencia
"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

Feb 2

ByJinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj

Las fallas de razonamiento en los modelos de lenguaje grandes (LLMs) generalmente se miden solo al final de una generación, sin embargo, muchas fallas se manifiestan como una ruptura a nivel del proceso: el modelo "pierde el hilo" a mitad del razonamiento. Estudiamos si tales rupturas son detectables a partir de observables disponibles en tiempo de inferencia en las API estándar (probabilidades logarítmicas de los tokens), sin necesidad de entrenamiento o ajuste fino. Definimos una señal de inestabilidad simple que combina el cambio distribucional en pasos consecutivos (JSD) y la incertidumbre (entropía), resumimos cada traza por su fuerza de inestabilidad máxima, y demostramos que esta señal predice las fallas de manera confiable. En GSM8K y HotpotQA, la fuerza de inestabilidad predice respuestas incorrectas con un AUC superior al azar y produce una disminución monótona y a gran escala de la precisión por niveles de agrupación ('bucket-level') en todos los tamaños de modelos. Crucialmente, demostramos que la inestabilidad no es uniformemente perjudicial: la inestabilidad temprana puede reflejar una posterior estabilización y una respuesta final correcta (inestabilidad correctiva), mientras que la inestabilidad tardía es más frecuentemente seguida por una falla (inestabilidad destructiva), incluso con magnitudes máximas comparables, lo que indica que la recuperabilidad depende no solo de cuán fuertemente cambia la distribución, sino también de cuándo ocurren tales cambios en relación con el horizonte de decodificación restante. El método es independiente del modelo, libre de entrenamiento y reproducible, y se presenta como una lente de diagnóstico en lugar de un mecanismo correctivo o de control.

Alineación Libre de Recompensas para Objetivos en Conflicto
Reward-free Alignment for Conflicting Objectives

Feb 2

ByPeter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Los métodos de alineación directa se utilizan cada vez más para alinear los grandes modelos de lenguaje (LLM) con las preferencias humanas. Sin embargo, muchos problemas de alineación del mundo real implican múltiples objetivos en conflicto, donde la agregación ingenua de preferencias puede conducir a un entrenamiento inestable y a compensaciones deficientes. En particular, los métodos de pérdida ponderada pueden fallar en identificar direcciones de actualización que mejoren simultáneamente todos los objetivos, y los enfoques multiobjetivo existentes a menudo dependen de modelos de recompensa explícitos, introduciendo complejidad adicional y distorsionando las preferencias especificadas por el usuario. Las contribuciones de este artículo son dos. Primero, proponemos un marco de Alineación Libre de Recompensas para Objetivos en Conflicto (RACO, por sus siglas en inglés) que aprovecha directamente los datos de preferencias por pares y resuelve los conflictos de gradiente mediante una novedosa variante recortada del descenso de gradientes que evita conflictos. Proporcionamos garantías de convergencia hacia puntos Pareto-críticos que respetan los pesos objetivos especificados por el usuario, y además demostramos que el recorte puede mejorar estrictamente la tasa de convergencia en el escenario de dos objetivos. En segundo lugar, mejoramos nuestro método utilizando algunas heurísticas y realizamos experimentos para demostrar la compatibilidad del marco propuesto para la alineación de LLM. Tanto las evaluaciones cualitativas como cuantitativas en tareas de alineación multiobjetivo de resumen y seguridad, realizadas en múltiples familias de LLM (Qwen 3, Llama 3, Gemma 3), muestran que nuestro método logra consistentemente mejores compensaciones de Pareto en comparación con los métodos base existentes de alineación multiobjetivo.

LongVPO: De Pistas Ancladas al Auto-Razonamiento para la Optimización de Preferencias en Videos de Larga Duración
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Feb 2

ByZhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang

Presentamos LongVPO, un novedoso marco de Optimización Directa de Preferencias en dos etapas que permite a los modelos de visión y lenguaje de contexto corto comprender de forma robusta vídeos ultra largos sin necesidad de anotaciones de vídeos largos. En la Etapa 1, sintetizamos tripletes de preferencias anclando preguntas a clips cortos individuales, intercalándolos con distractores y aplicando filtros de similitud visual y especificidad de la pregunta para mitigar el sesgo posicional y garantizar una supervisión inequívoca. También aproximamos la puntuación del modelo de referencia sobre contextos largos evaluando únicamente el clip ancla, reduciendo la sobrecarga computacional. En la Etapa 2, empleamos un pipeline de subtitulado recursivo en vídeos largos para generar metadatos a nivel de escena, luego utilizamos un modelo de lenguaje grande para elaborar consultas de razonamiento multi-segmento y respuestas no preferidas, alineando las preferencias del modelo mediante tareas de razonamiento multi-segmento. Con solo 16K ejemplos sintéticos y sin costosas etiquetas humanas, LongVPO supera a los modelos de código abierto más avanzados en múltiples benchmarks de vídeo largo, manteniendo al mismo tiempo un rendimiento sólido en vídeos cortos (por ejemplo, en MVBench), ofreciendo un paradigma escalable para una comprensión eficiente de vídeos de larga duración.

FOTBCD: Un Punto de Referencia a Gran Escala para la Detección de Cambios en Edificios a partir de Ortofotos y Datos Topográficos Franceses
FOTBCD: A Large-Scale Building Change Detection Benchmark from French Orthophotos and Topographic Data

Jan 30

ByAbdelrrahman Moubane

Presentamos FOTBCD, un conjunto de datos a gran escala para la detección de cambios en edificaciones, derivado de ortofotos autorizadas francesas y datos topográficos de edificios proporcionados por el IGN de Francia. A diferencia de los benchmarks existentes, que están geográficamente limitados a ciudades individuales o regiones reducidas, FOTBCD abarca 28 departamentos de la Francia metropolitana, utilizando 25 para entrenamiento y reservando tres departamentos geográficamente disjuntos para evaluación. El conjunto de datos cubre diversos entornos urbanos, suburbanos y rurales con una resolución de 0.2m/píxel. Publicamos FOTBCD-Binary, un dataset que comprende aproximadamente 28,000 pares de imágenes de antes/después con máscaras binarias a nivel de píxel de cambios en edificios, cada una asociada con metadatos espaciales a nivel de parche. El conjunto de datos está diseñado para evaluación comparativa y evaluación a gran escala bajo desplazamiento de dominio geográfico, con muestras de validación y prueba extraídas de los departamentos reservados y verificadas manualmente para garantizar la calidad de las etiquetas. Además, publicamos FOTBCD-Instances, un subconjunto anotado a nivel de instancia que comprende varios miles de pares de imágenes, el cual ilustra el esquema de anotación completo utilizado en la versión completa a nivel de instancia de FOTBCD. Utilizando una línea de base de referencia fija, evaluamos FOTBCD-Binary comparándolo con LEVIR-CD+ y WHU-CD, proporcionando evidencia empírica sólida de que la diversidad geográfica a nivel del conjunto de datos está asociada con una mejora en la generalización cruzada de dominio en la detección de cambios en edificaciones.

RexBERT: Codificadores Bidireccionales Especializados en Contexto para el Comercio Electrónico
RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Feb 4

ByRahul Bajaj, Anuj Garg

Los transformadores de solo codificador siguen siendo indispensables en sistemas de recuperación, clasificación y ranking donde la latencia, la estabilidad y el coste son primordiales. Sin embargo, la mayoría de los codificadores de propósito general se entrenan con corpus genéricos que tienen una cobertura limitada de dominios especializados. Presentamos RexBERT, una familia de codificadores estilo BERT diseñados específicamente para la semántica del comercio electrónico. Realizamos tres contribuciones. Primero, publicamos Ecom-niverse, un corpus de 350 mil millones de tokens curado a partir de diversas fuentes minoristas y de compras. Describimos una canalización modular que aísla y extrae contenido de comercio electrónico de FineFineWeb y otros recursos web abiertos, y caracterizamos la distribución de dominios resultante. Segundo, presentamos una receta de preentrenamiento reproducible basada en los avances arquitectónicos de ModernBERT. La receta consta de tres fases: preentrenamiento general, extensión de contexto y especialización de dominio recocida. Tercero, entrenamos modelos RexBERT que van desde 17M hasta 400M de parámetros y los evaluamos en tareas de clasificación de tokens, similitud semántica y comprensión general del lenguaje natural utilizando conjuntos de datos de comercio electrónico. A pesar de tener 2-3 veces menos parámetros, RexBERT supera a codificadores de propósito general más grandes y iguala o supera a modelos modernos de contexto largo en puntos de referencia específicos del dominio. Nuestros resultados demuestran que los datos de dominio de alta calidad combinados con un enfoque de entrenamiento fundamentado proporcionan una base más sólida para las aplicaciones de comercio electrónico que el simple escalado indiscriminado.

HalluHard: Un Benchmark Riguroso de Alucinaciones en Conversaciones Multiturno
HalluHard: A Hard Multi-Turn Hallucination Benchmark

Feb 1

ByDongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko

Los modelos de lenguaje grande (LLM) aún producen afirmaciones fácticas que suenan plausibles pero carecen de base, un problema que se agrava en el diálogo multiturno a medida que el contexto crece y los errores iniciales se propagan. Presentamos HalluHard, un punto de referencia exigente para evaluar alucinaciones en conversaciones multiturno, que consta de 950 preguntas semilla que abarcan cuatro dominios de alto impacto: casos legales, preguntas de investigación, pautas médicas y programación. Operacionalizamos la fundamentación exigiendo citas en línea para las afirmaciones fácticas. Para apoyar una evaluación fiable en entornos de respuesta abierta, proponemos un sistema de evaluación que recupera evidencia de forma iterativa mediante búsqueda web. Este sistema puede recuperar, filtrar y analizar fuentes de texto completo (incluidos PDFs) para determinar si el material citado respalda realmente el contenido generado. En un conjunto diverso de modelos propietarios de vanguardia y modelos de pesos abiertos, las alucinaciones siguen siendo sustanciales incluso con búsqueda web (aproximadamente 30% para la configuración más sólida, Opus-4.5 con búsqueda web), y los errores de vinculación entre contenido y base factual persisten en tasas elevadas. Finalmente, demostramos que el comportamiento de las alucinaciones está influenciado por la capacidad del modelo, la posición en el turno de conversación, el razonamiento efectivo y el tipo de conocimiento requerido.