HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

37 papers found

LightMem: Generación Aumentada de Memoria Ligera y Eficiente
LightMem: Lightweight and Efficient Memory-Augmented Generation

Oct 21

ByJizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

A pesar de sus capacidades notables, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan dificultades para aprovechar de manera efectiva la información de interacciones históricas en entornos dinámicos y complejos. Los sistemas de memoria permiten que los LLMs superen las interacciones sin estado al introducir mecanismos de almacenamiento, recuperación y utilización de información persistente. Sin embargo, los sistemas de memoria existentes suelen introducir un sobrecosto significativo en tiempo y recursos computacionales. Con este fin, presentamos un nuevo sistema de memoria llamado LightMem, que equilibra el rendimiento y la eficiencia de los sistemas de memoria. Inspirado en el modelo de memoria humana de Atkinson-Shiffrin, LightMem organiza la memoria en tres etapas complementarias. En primer lugar, la memoria sensorial inspirada en la cognición filtra rápidamente la información irrelevante mediante compresión ligera y agrupa la información según sus temas. A continuación, la memoria a corto plazo consciente de los temas consolida estos grupos temáticos, organizando y resumiendo el contenido para un acceso más estructurado. Finalmente, la memoria a largo plazo con actualización durante el sueño emplea un procedimiento fuera de línea que desacopla la consolidación de la inferencia en línea. Los experimentos en LongMemEval con arquitecturas GPT y Qwen muestran que LightMem supera a los baselines fuertes en precisión (hasta un 10.9% de mejora) mientras reduce el uso de tokens hasta 117 veces, las llamadas API hasta 159 veces y el tiempo de ejecución en más de 12 veces. El código está disponible en https://github.com/zjunlp/LightMem.

Entrenamiento eficiente de modelos de lenguaje de contexto largo mediante la desagregación de la atención central
Efficient Long-context Language Model Training by Core Attention Disaggregation

Oct 20

ByYonghao Zhuang, Junda Chen, Bo Pang, Yi Gu, Yibo Zhu, Yimin Jiang, Ion Stoica, Eric Xing, Hao Zhang

Presentamos la desagregación de atención central (CAD, por sus siglas en inglés), una técnica que mejora el entrenamiento de modelos de lenguaje de gran contexto al desacoplar el cálculo de la atención central, softmax(QK^T)V, del resto del modelo y ejecutarlo en un grupo separado de dispositivos. En los sistemas existentes, la atención central se coloca junto con otras capas; en contextos largos, su crecimiento computacional cuadrático en comparación con el crecimiento casi lineal de otros componentes provoca desequilibrios de carga y retrasos en los grupos paralelos de datos y tuberías. CAD se basa en dos observaciones. Primero, la atención central no tiene estado: no tiene parámetros entrenables y solo datos transitorios mínimos, por lo que el equilibrio se reduce a la programación de tareas limitadas por el cálculo. Segundo, es componible: los núcleos de atención modernos mantienen una alta eficiencia al procesar lotes fusionados de fragmentos a nivel de token con longitudes arbitrarias. CAD divide la atención central en tareas a nivel de token y las distribuye a servidores de atención dedicados, que reagrupan dinámicamente las tareas para igualar el cálculo sin sacrificar la eficiencia del núcleo. Implementamos CAD en un sistema llamado DistCA, que utiliza un esquema de ejecución ping-pong para superponer completamente la comunicación con el cálculo y la ejecución en el lugar en los servidores de atención para reducir el uso de memoria. En 512 GPUs H200 y longitudes de contexto de hasta 512k tokens, DistCA mejora el rendimiento de entrenamiento de extremo a extremo hasta 1.35x, elimina los retrasos en los grupos paralelos de datos y tuberías, y logra un equilibrio casi perfecto de cálculo y memoria.

Mundo-en-Mundo: Modelos del Mundo en un Entorno de Bucle Cerrado
World-in-World: World Models in a Closed-Loop World

Oct 20

ByJiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen

Los modelos generativos de mundos (WMs, por sus siglas en inglés) pueden ahora simular entornos con un realismo visual sorprendente, lo que plantea naturalmente la pregunta de si pueden dotar a agentes corporizados de percepción predictiva para la toma de decisiones. El progreso en esta cuestión se ha visto limitado por una evaluación fragmentada: la mayoría de los puntos de referencia existentes adoptan protocolos de bucle abierto que enfatizan la calidad visual de manera aislada, dejando sin resolver el problema central de la utilidad corporizada, es decir, ¿realmente ayudan los WMs a los agentes a tener éxito en tareas corporizadas? Para abordar esta brecha, presentamos World-in-World, la primera plataforma abierta que evalúa WMs en un entorno de bucle cerrado que refleja las interacciones reales entre agentes y su entorno. World-in-World proporciona una estrategia unificada de planificación en línea y una API de acciones estandarizada, permitiendo que WMs heterogéneos participen en la toma de decisiones. Hemos seleccionado cuatro entornos de bucle cerrado que evalúan rigurosamente diversos WMs, priorizan el éxito en la tarea como métrica principal y van más allá del enfoque común en la calidad visual; también presentamos la primera ley de escalado de datos para modelos de mundos en entornos corporizados. Nuestro estudio revela tres sorpresas: (1) la calidad visual por sí sola no garantiza el éxito en la tarea, la controlabilidad es más importante; (2) escalar después del entrenamiento con datos de acción-observación es más efectivo que mejorar los generadores de video preentrenados; y (3) asignar más recursos de cómputo en tiempo de inferencia permite que los WMs mejoren sustancialmente el rendimiento en bucle cerrado.

UniGenBench++: Un Benchmark Unificado de Evaluación Semántica para la Generación de Texto a Imagen
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Oct 21

ByYibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Los avances recientes en la generación de texto a imagen (T2I) destacan la importancia de contar con puntos de referencia confiables para evaluar con qué precisión las imágenes generadas reflejan la semántica de sus indicaciones textuales. Sin embargo, (1) los puntos de referencia existentes carecen de la diversidad de escenarios de indicaciones y del soporte multilingüe, ambos esenciales para la aplicabilidad en el mundo real; (2) ofrecen solo evaluaciones generales en dimensiones principales, cubriendo un rango limitado de subdimensiones, y no logran una evaluación detallada en subdimensiones específicas. Para abordar estas limitaciones, presentamos UniGenBench++, un punto de referencia unificado de evaluación semántica para la generación T2I. Específicamente, consta de 600 indicaciones organizadas jerárquicamente para garantizar tanto cobertura como eficiencia: (1) abarca diversos escenarios del mundo real, es decir, 5 temas principales de indicaciones y 20 subtemas; (2) explora exhaustivamente la consistencia semántica de los modelos T2I en 10 criterios principales y 27 subcriterios de evaluación, con cada indicación evaluando múltiples puntos de prueba. Para evaluar rigurosamente la robustez de los modelos frente a variaciones en el idioma y la longitud de las indicaciones, proporcionamos versiones en inglés y chino de cada indicación en formas cortas y largas. Aprovechando el conocimiento general del mundo y las capacidades de comprensión detallada de imágenes de un Modelo de Lenguaje Multimodal (MLLM) de código cerrado, es decir, Gemini-2.5-Pro, se desarrolla una canalización efectiva para la construcción confiable del punto de referencia y la evaluación simplificada de modelos. Además, para facilitar aún más el uso comunitario, entrenamos un modelo de evaluación robusto que permite la evaluación sin conexión de las salidas de los modelos T2I. A través de una evaluación integral de modelos T2I tanto de código abierto como cerrado, revelamos sistemáticamente sus fortalezas y debilidades en diversos aspectos.

Cada Paso Evoluciona: Escalando el Aprendizaje por Refuerzo para un Modelo de Pensamiento a Escala de Billones
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Oct 21

ByLing Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen

Presentamos Ring-1T, el primer modelo de pensamiento de código abierto y de última generación con un billón de parámetros. Cuenta con un billón de parámetros en total y activa aproximadamente 50 mil millones por token. Entrenar modelos de esta escala a nivel de billones de parámetros introduce desafíos sin precedentes, como la desalineación entre entrenamiento e inferencia, ineficiencias en el procesamiento de despliegues y cuellos de botella en el sistema de aprendizaje por refuerzo (RL). Para abordar estos problemas, hemos desarrollado tres innovaciones interconectadas: (1) IcePop estabiliza el entrenamiento de RL mediante el enmascaramiento y recorte de discrepancias a nivel de token, resolviendo la inestabilidad causada por desajustes entre entrenamiento e inferencia; (2) C3PO++ mejora la utilización de recursos para despliegues largos bajo un presupuesto de token mediante su partición dinámica, logrando así una alta eficiencia temporal; y (3) ASystem, un marco de RL de alto rendimiento diseñado para superar los cuellos de botella sistémicos que dificultan el entrenamiento de modelos de billones de parámetros. Ring-1T obtiene resultados revolucionarios en benchmarks críticos: 93.4 en AIME-2025, 86.72 en HMMT-2025, 2088 en CodeForces y 55.94 en ARC-AGI-v1. Destaca especialmente su resultado a nivel de medalla de plata en la IMO-2025, lo que subraya sus capacidades excepcionales de razonamiento. Al liberar el modelo completo de 1T parámetros MoE a la comunidad, proporcionamos acceso directo a capacidades de razonamiento de vanguardia para la investigación. Esta contribución marca un hito significativo en la democratización de la inteligencia de razonamiento a gran escala y establece un nuevo estándar para el rendimiento de modelos de código abierto.

Chem-R: Aprendiendo a razonar como un químico
Chem-R: Learning to Reason as a Chemist

Oct 19

ByWeida Wang, Benteng Chen, Di Zhang, Wanhao Liu, Shuchen Pu, Ben Gao, Jin Zeng, Lei Bai, Wanli Ouyang, Xiaoyong Wei, Tianshu Yu, Tianfan Fu, Shuzhou Sun, Jiatong Li, Zifu Wang, Yuqiang Li, Shufei Zhang

Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen un potencial significativo para impulsar el descubrimiento químico, los LLMs actuales carecen de conocimientos químicos fundamentales, producen trayectorias de razonamiento poco confiables y muestran un rendimiento subóptimo en diversas tareas químicas. Para abordar estos desafíos, proponemos Chem-R, un modelo de Razonamiento Químico generalizable diseñado para emular los procesos deliberativos de los químicos. Chem-R se entrena a través de un marco de tres fases que construye progresivamente capacidades avanzadas de razonamiento, incluyendo: 1) Entrenamiento de Fundamentos Químicos, que establece conocimientos químicos básicos. 2) Destilación de Protocolos de Razonamiento Químico, incorporando trazas de razonamiento estructuradas y similares a las de expertos para guiar la resolución sistemática y confiable de problemas. 3) Optimización de Política Relativa de Grupo Multi-tarea, que optimiza el modelo para un rendimiento equilibrado en diversas tareas a nivel molecular y de reacción. Esta canalización estructurada permite que Chem-R alcance un rendimiento de vanguardia en evaluaciones integrales, superando a los principales modelos de lenguaje de gran escala, como Gemini-2.5-Pro y DeepSeek-R1, hasta en un 46% en tareas moleculares y un 66% en tareas de reacción. Además, Chem-R también supera consistentemente a los modelos de fundamentos químicos existentes en tareas tanto a nivel molecular como de reacción. Estos resultados destacan la robusta generalización, interpretabilidad y potencial de Chem-R como base para el descubrimiento químico impulsado por IA de próxima generación.

MoGA: Atención de Mezcla de Grupos para la Generación de Videos Largos de Extremo a Extremo
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

Oct 21

ByWeinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao

La generación de videos largos con Transformadores de Difusión (DiTs) se ve limitada por el escalado cuadrático de la atención completa con respecto a la longitud de la secuencia. Dado que la atención es altamente redundante, las salidas están dominadas por un subconjunto pequeño de pares consulta-clave. Los métodos dispersos existentes dependen de estimaciones gruesas por bloques, cuyos compromisos entre precisión y eficiencia están restringidos por el tamaño del bloque. Este artículo introduce la Atención de Mezcla de Grupos (MoGA), una atención dispersa eficiente que utiliza un enrutador de tokens ligero y entrenable para emparejar tokens con precisión sin estimaciones por bloques. A través del enrutamiento semántico, MoGA permite interacciones efectivas a larga distancia. Como método libre de núcleos, MoGA se integra perfectamente con pilas de atención modernas, incluyendo FlashAttention y paralelismo de secuencias. Basándonos en MoGA, desarrollamos un modelo eficiente de generación de videos largos que produce, de extremo a extremo, videos de nivel minuto, multiescena, 480p a 24 fps, con una longitud de contexto de aproximadamente 580k. Experimentos exhaustivos en diversas tareas de generación de videos validan la efectividad de nuestro enfoque.

Agarra cualquier región: Hacia una comprensión precisa y contextual de píxeles para modelos de lenguaje multimodal.
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Oct 21

ByHaochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang

Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en la comprensión holística, enfrentan dificultades para capturar un mundo denso con escenas complejas, lo que requiere un análisis detallado de intrincados detalles y las interrelaciones entre objetos. Los MLLMs a nivel de región han representado un paso prometedor. Sin embargo, intentos anteriores generalmente se han optimizado para comprender regiones dadas de manera aislada, descuidando contextos globales cruciales. Para abordar esto, presentamos Grasp Any Region (GAR) para una comprensión visual integral a nivel de región. Potenciado por una técnica efectiva de reproducción de características alineadas con la Región de Interés (RoI), GAR permite (1) una percepción precisa al aprovechar los contextos globales necesarios, y (2) modelar interacciones entre múltiples indicaciones. Juntos, logran naturalmente (3) un razonamiento composicional avanzado para responder preguntas específicas de formato libre sobre cualquier región, cambiando el paradigma de la descripción pasiva al diálogo activo. Además, construimos GAR-Bench, que no solo proporciona una evaluación más precisa de la comprensión de una sola región, sino que, más importante aún, mide interacciones y razonamientos complejos entre múltiples regiones. Experimentos extensos han demostrado que GAR-1B no solo mantiene capacidades de descripción de última generación, por ejemplo, superando a DAM-3B en +4.5 en DLC-Bench, sino que también sobresale en modelar relaciones entre múltiples indicaciones con capacidades de comprensión avanzadas, incluso superando a InternVL3-78B en GAR-Bench-VQA. Más importante aún, nuestro GAR-8B en modo zero-shot incluso supera a VideoRefer-7B en VideoRefer-BenchQ, lo que indica que sus fuertes capacidades pueden transferirse fácilmente a videos.

DeepSeek-OCR: Compresión Óptica Contextual
DeepSeek-OCR: Contexts Optical Compression

Oct 21

ByHaoran Wei, Yaofeng Sun, Yukun Li

Presentamos DeepSeek-OCR como una investigación inicial sobre la viabilidad de comprimir contextos largos mediante mapeo óptico 2D. DeepSeek-OCR consta de dos componentes: DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Específicamente, DeepEncoder sirve como el motor central, diseñado para mantener bajas activaciones con entradas de alta resolución mientras logra altas tasas de compresión para garantizar un número óptimo y manejable de tokens visuales. Los experimentos muestran que cuando el número de tokens de texto es hasta 10 veces mayor que el de tokens visuales (es decir, una tasa de compresión < 10x), el modelo puede alcanzar una precisión de decodificación (OCR) del 97%. Incluso con una tasa de compresión de 20x, la precisión de OCR se mantiene en aproximadamente un 60%. Esto muestra un gran potencial para áreas de investigación como la compresión de contextos históricos largos y los mecanismos de olvido en LLMs. Más allá de esto, DeepSeek-OCR también demuestra un alto valor práctico. En OmniDocBench, supera a GOT-OCR2.0 (256 tokens/página) utilizando solo 100 tokens visuales, y supera a MinerU2.0 (6000+ tokens por página en promedio) mientras utiliza menos de 800 tokens visuales. En producción, DeepSeek-OCR puede generar datos de entrenamiento para LLMs/VLMs a una escala de más de 200k páginas por día (con una sola A100-40G). Los códigos y los pesos del modelo son de acceso público en http://github.com/deepseek-ai/DeepSeek-OCR.

IF-VidCap: ¿Pueden los modelos de subtitulado de video seguir instrucciones?
IF-VidCap: Can Video Caption Models Follow Instructions?

Oct 21

ByShihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu

Aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado competencia en la generación de descripciones de videos, las aplicaciones prácticas requieren subtítulos que sigan instrucciones específicas del usuario en lugar de generar descripciones exhaustivas y sin restricciones. Sin embargo, los puntos de referencia actuales evalúan principalmente la exhaustividad descriptiva, pasando por alto en gran medida las capacidades de seguimiento de instrucciones. Para abordar esta brecha, presentamos IF-VidCap, un nuevo punto de referencia para evaluar la generación controlada de subtítulos de videos, que contiene 1,400 muestras de alta calidad. A diferencia de los puntos de referencia existentes para la generación de subtítulos de videos o el seguimiento general de instrucciones, IF-VidCap incorpora un marco sistemático que evalúa los subtítulos en dos dimensiones: corrección del formato y corrección del contenido. Nuestra evaluación exhaustiva de más de 20 modelos destacados revela un panorama matizado: a pesar de la continua dominación de los modelos propietarios, la brecha de rendimiento se está cerrando, con las soluciones de código abierto de primer nivel alcanzando ahora una paridad cercana. Además, encontramos que los modelos especializados en la generación de subtítulos densos tienen un rendimiento inferior al de los MLLMs de propósito general en instrucciones complejas, lo que indica que el trabajo futuro debería avanzar simultáneamente tanto en la riqueza descriptiva como en la fidelidad de seguimiento de instrucciones.

GAS: Mejora de la Discretización de EDOs de Difusión mediante un Solucionador Adversarial Generalizado
GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

Oct 20

ByAleksandr Oganov, Ilya Bykov, Eva Neudachina, Mishan Aliev, Alexander Tolmachev, Alexander Sidorov, Aleksandr Zuev, Andrey Okhotin, Denis Rakitin, Aibek Alanov

Aunque los modelos de difusión alcanzan una calidad de generación de vanguardia, todavía presentan un muestreo computacionalmente costoso. Trabajos recientes abordan este problema mediante métodos de optimización basados en gradientes que destilan un solucionador de EDO de difusión de pocos pasos a partir del proceso de muestreo completo, reduciendo el número de evaluaciones de funciones de docenas a solo unas pocas. Sin embargo, estos enfoques suelen depender de técnicas de entrenamiento intrincadas y no se centran explícitamente en preservar detalles de grano fino. En este artículo, presentamos el Solucionador Generalizado: una parametrización simple del muestreador de EDO que no requiere trucos adicionales de entrenamiento y mejora la calidad sobre los enfoques existentes. Además, combinamos la pérdida de destilación original con entrenamiento adversario, lo que mitiga artefactos y mejora la fidelidad de los detalles. Llamamos al método resultante Solucionador Adversario Generalizado y demostramos su rendimiento superior en comparación con los métodos de entrenamiento de solucionadores existentes bajo restricciones de recursos similares. El código está disponible en https://github.com/3145tttt/GAS.

Hacia una Personalización Fiel y Controlada mediante Aprendizaje por Refuerzo de Crítica y Post-Edición
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

Oct 21

ByChenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou

La personalización fiel de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para alinearse con las preferencias individuales de los usuarios es una tarea crítica pero desafiante. Mientras que el ajuste fino supervisado (SFT, por sus siglas en inglés) alcanza rápidamente una meseta de rendimiento, el aprendizaje por refuerzo estándar basado en retroalimentación humana (RLHF, por sus siglas en inglés) también enfrenta dificultades con los matices de la personalización. Los modelos de recompensa basados en escalares son propensos a la manipulación de recompensas, lo que conduce a respuestas verbosas y superficialmente personalizadas. Para abordar estas limitaciones, proponemos **Critique-Post-Edit**, un marco robusto de aprendizaje por refuerzo que permite una personalización más fiel y controlable. Nuestro marco integra dos componentes clave: (1) un **Modelo Generativo de Recompensa Personalizado (GRM, por sus siglas en inglés)** que proporciona puntuaciones multidimensionales y críticas textuales para resistir la manipulación de recompensas, y (2) un mecanismo de **Critique-Post-Edit** donde el modelo de política revisa sus propias salidas basándose en estas críticas para un aprendizaje más dirigido y eficiente. Bajo una evaluación rigurosa controlada por longitud, nuestro método supera sustancialmente al PPO estándar en benchmarks de personalización. El modelo personalizado Qwen2.5-7B logra una mejora promedio del 11\% en la tasa de victoria, y el modelo personalizado Qwen2.5-14B supera el rendimiento de GPT-4.1. Estos resultados demuestran un camino práctico hacia una personalización fiel, eficiente y controlable.

Piensa en 3D: Razonamiento Espacial Fundamentado en la Imaginación Geométrica a partir de Vistas Limitadas
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Oct 21

ByZhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang

Aunque los avances recientes en los modelos de visión-lenguaje (VLMs) han logrado un progreso notable en una amplia gama de tareas multimodales, comprender las relaciones espaciales en 3D a partir de vistas limitadas sigue siendo un desafío significativo. Los métodos de razonamiento anteriores generalmente dependen de texto puro (por ejemplo, mapas cognitivos topológicos) o de indicios visuales en 2D. Sin embargo, su capacidad representativa limitada dificulta el rendimiento en tareas específicas que requieren imaginación espacial en 3D. Para abordar esta limitación, proponemos 3DThinker, un marco que puede explotar eficazmente la rica información geométrica incrustada en las imágenes mientras razona, como lo hacen los humanos. Nuestro marco es el primero en permitir la mentalización en 3D durante el razonamiento sin ninguna entrada previa en 3D, y no depende de datos en 3D explícitamente etiquetados para el entrenamiento. Específicamente, nuestro entrenamiento consta de dos etapas. Primero, realizamos un entrenamiento supervisado para alinear el latente en 3D generado por el VLM durante el razonamiento con el de un modelo base en 3D (por ejemplo, VGGT). Luego, optimizamos toda la trayectoria de razonamiento únicamente basándonos en señales de resultado, refinando así la mentalización en 3D subyacente. Experimentos extensos en múltiples benchmarks muestran que 3DThinker supera consistentemente a las líneas base sólidas y ofrece una nueva perspectiva hacia la unificación de representaciones en 3D en el razonamiento multimodal. Nuestro código estará disponible en https://github.com/zhangquanchen/3DThinker.

¿Es realmente multilingüe la marca de agua en LLM multilingües? Una solución simple mediante retro-traducción
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

Oct 20

ByAsim Mohamed, Martin Gubri

La marca de agua multilingüe tiene como objetivo hacer que los resultados de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) sean rastreables a través de idiomas, aunque los métodos actuales aún no logran este objetivo. A pesar de las afirmaciones de robustez interlingüística, estos métodos solo se evalúan en idiomas de alto recurso. Demostramos que los métodos existentes de marca de agua multilingüe no son verdaderamente multilingües: no logran mantener su robustez frente a ataques de traducción en idiomas de recursos medios y bajos. Rastreamos este fallo al agrupamiento semántico, que falla cuando el vocabulario del tokenizador contiene muy pocos tokens de palabras completas para un idioma dado. Para abordar este problema, presentamos STEAM, un método de detección basado en retro-traducción que restaura la fuerza de la marca de agua perdida durante la traducción. STEAM es compatible con cualquier método de marca de agua, robusto frente a diferentes tokenizadores e idiomas, no invasivo y fácilmente extensible a nuevos idiomas. Con mejoras promedio de +0.19 AUC y +40%p TPR@1% en 17 idiomas, STEAM ofrece un camino simple y robusto hacia una marca de agua más justa en diversos idiomas.

MT-Video-Bench: Un Punto de Referencia Integral para la Comprensión de Videos en la Evaluación de Modelos de Lenguaje Multimodales en Diálogos de Múltiples Turnos
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

Oct 20

ByYaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu

El reciente desarrollo de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha avanzado significativamente la capacidad de la IA para comprender modalidades visuales. Sin embargo, los puntos de referencia de evaluación existentes se limitan a respuestas de preguntas de un solo turno, pasando por alto la complejidad de los diálogos de múltiples turnos en escenarios del mundo real. Para cerrar esta brecha, presentamos MT-Video-Bench, un punto de referencia holístico para la comprensión de videos que evalúa MLLMs en diálogos de múltiples turnos. Específicamente, nuestro MT-Video-Bench evalúa principalmente seis competencias centrales que se centran en la percepción y la interactividad, abarcando 987 diálogos de múltiples turnos cuidadosamente seleccionados de diversos dominios. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como el análisis interactivo de deportes y la tutoría inteligente basada en videos de múltiples turnos. Con MT-Video-Bench, evaluamos extensamente varios MLLMs de última generación, tanto de código abierto como cerrado, revelando sus discrepancias significativas en el rendimiento y limitaciones en el manejo de diálogos de video de múltiples turnos. El punto de referencia estará disponible públicamente para fomentar futuras investigaciones.

UltraGen: Generación de Vídeo de Alta Resolución con Atención Jerárquica
UltraGen: High-Resolution Video Generation with Hierarchical Attention

Oct 21

ByTeng Hu, Jiangning Zhang, Zihan Su, Ran Yi

Los avances recientes en la generación de videos han permitido producir contenidos visualmente atractivos, con aplicaciones amplias en la creación de contenido, entretenimiento y realidad virtual. Sin embargo, la mayoría de los modelos existentes basados en transformadores de difusión para la generación de videos están limitados a salidas de baja resolución (<=720P) debido a la complejidad computacional cuadrática del mecanismo de atención con respecto al ancho y alto de la salida. Este cuello de botella computacional hace que la generación nativa de videos de alta resolución (1080P/2K/4K) sea poco práctica tanto para el entrenamiento como para la inferencia. Para abordar este desafío, presentamos UltraGen, un novedoso marco de generación de videos que permite i) una síntesis eficiente y ii) de extremo a extremo de videos nativos de alta resolución. Específicamente, UltraGen cuenta con una arquitectura jerárquica de atención de doble rama basada en la descomposición de atención global-local, que desacopla la atención completa en una rama de atención local para contenido regional de alta fidelidad y una rama de atención global para la coherencia semántica general. Además, proponemos una estrategia de modelado global comprimido espacialmente para aprender eficientemente las dependencias globales, y un mecanismo de atención local jerárquico entre ventanas para reducir los costos computacionales mientras se mejora el flujo de información entre diferentes ventanas locales. Experimentos extensivos demuestran que UltraGen puede escalar efectivamente modelos preentrenados de videos de baja resolución a 1080P e incluso a 4K por primera vez, superando a los métodos existentes de vanguardia y a las canalizaciones de dos etapas basadas en superresolución tanto en evaluaciones cualitativas como cuantitativas.

ssToken: Selección de Tokens Automodulada y Consciente de la Semántica para el Ajuste Fino de Modelos de Lenguaje de Gran Escala
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

Oct 21

ByXiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan

La calidad de los datos desempeña un papel crucial en la mejora del ajuste fino supervisado (SFT, por sus siglas en inglés) para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), y la selección de datos a nivel de token ha surgido como una dirección prometedora debido a su naturaleza detallada. A pesar de su sólido rendimiento empírico, los métodos existentes de selección a nivel de token comparten dos limitaciones clave: (1) requieren entrenar o acceder a un modelo de referencia adicional, y (2) dependen únicamente de la información de pérdida para la selección de tokens, lo que no permite preservar adecuadamente tokens semánticamente importantes que no son favorecidos por métricas basadas en pérdida. Para abordar estos desafíos, proponemos ssToken, un enfoque de Selección de Tokens Automodulado y Consciente de la Semántica. ssToken aprovecha modelos históricos fácilmente accesibles para calcular la diferencia de pérdida por token con el modelo actual, lo que sirve como una señal automodulada que permite al modelo seleccionar tokens de manera adaptativa a lo largo de su trayectoria de optimización, en lugar de depender de la pérdida excesiva de un modelo de referencia entrenado fuera de línea, como en trabajos anteriores. Además, introducimos una métrica de estimación de importancia de tokens basada en atención y consciente de la semántica, ortogonal a la selección basada en pérdida y que proporciona información semántica complementaria para un filtrado más efectivo. Experimentos extensos en diferentes familias y escalas de modelos demuestran que tanto la selección automodulada como la selección consciente de la semántica superan individualmente el ajuste fino con todos los datos, mientras que su integración—ssToken—logra ganancias sinérgicas y supera aún más los métodos anteriores de selección a nivel de token, ofreciendo mejoras en el rendimiento mientras mantiene la eficiencia en el entrenamiento.

ProCLIP: Alineación Progresiva Visión-Lenguaje mediante un Embedder Basado en LLM
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

Oct 21

ByXiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang

El codificador de texto original de CLIP está limitado por una longitud máxima de entrada de 77 tokens, lo que dificulta su capacidad para procesar textos largos y realizar una comprensión semántica detallada. Además, el codificador de texto de CLIP carece de soporte para entradas multilingües. Todas estas limitaciones restringen significativamente su aplicabilidad en una gama más amplia de tareas. Estudios recientes han intentado reemplazar el codificador de texto de CLIP con un codificador basado en LLM (Modelo de Lenguaje Grande) para mejorar su capacidad en el procesamiento de textos largos, la comprensión multilingüe y la comprensión semántica detallada. Sin embargo, dado que los espacios de representación de los LLM y el espacio de visión-lenguaje de CLIP se entrenan previamente de manera independiente sin alineación previa, la alineación directa mediante aprendizaje contrastivo puede perturbar la alineación intrínseca de visión-lenguaje en el codificador de imágenes de CLIP, lo que lleva a una subutilización del conocimiento adquirido durante el preentrenamiento. Para abordar este desafío, proponemos ProCLIP, un marco de alineación progresiva de visión-lenguaje basado en aprendizaje curricular, que alinea eficazmente el codificador de imágenes de CLIP con un codificador basado en LLM. Específicamente, ProCLIP primero destila conocimiento del codificador de texto de CLIP en el codificador basado en LLM para aprovechar el rico conocimiento preentrenado de CLIP, al mismo tiempo que establece una alineación inicial entre el codificador LLM y el codificador de imágenes de CLIP. Posteriormente, ProCLIP alinea aún más el codificador de imágenes de CLIP con el codificador basado en LLM mediante ajuste contrastivo de imagen-texto, empleando regularización de auto-destilación para evitar el sobreajuste. Para lograr una alineación más efectiva, se utilizan pérdidas de alineación semántica de instancia y pérdidas de alineación de estructura de incrustación durante la herencia de representación y el ajuste contrastivo. El código está disponible en https://github.com/VisionXLab/ProCLIP.

MUG-V 10B: Tubería de Entrenamiento de Alta Eficiencia para Modelos de Generación de Videos a Gran Escala
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

Oct 20

ByYongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng

En los últimos años, los modelos generativos a gran escala para contenido visual (por ejemplo, imágenes, videos y objetos/escenas 3D) han logrado avances notables. Sin embargo, el entrenamiento de modelos de generación de videos a gran escala sigue siendo particularmente desafiante y requiere muchos recursos debido a la alineación multimodal texto-video, las secuencias largas involucradas y las complejas dependencias espacio-temporales. Para abordar estos desafíos, presentamos un marco de entrenamiento que optimiza cuatro pilares: (i) procesamiento de datos, (ii) arquitectura del modelo, (iii) estrategia de entrenamiento y (iv) infraestructura para modelos de generación de videos a gran escala. Estas optimizaciones han proporcionado ganancias significativas en eficiencia y mejoras en el rendimiento en todas las etapas de preprocesamiento de datos, compresión de video, escalado de parámetros, preentrenamiento basado en currículo y post-entrenamiento centrado en la alineación. Nuestro modelo resultante, MUG-V 10B, iguala a los generadores de video más recientes de vanguardia en general y, en tareas de generación de video orientadas al comercio electrónico, supera a los principales baselines de código abierto en evaluaciones humanas. Más importante aún, hemos liberado toda la pila, incluyendo los pesos del modelo, el código de entrenamiento a gran escala basado en Megatron-Core y las canalizaciones de inferencia para la generación y mejora de videos. Hasta donde sabemos, esta es la primera publicación pública de código de entrenamiento para generación de video a gran escala que aprovecha Megatron-Core para lograr una alta eficiencia de entrenamiento y un escalado casi lineal en múltiples nodos. Los detalles están disponibles en https://github.com/Shopee-MUG/MUG-V{nuestra página web}.

DSI-Bench: Un punto de referencia para la inteligencia espacial dinámica
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

Oct 21

ByZiang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao

El razonamiento sobre relaciones espaciales dinámicas es esencial, ya que tanto los observadores como los objetos suelen moverse simultáneamente. Aunque los modelos de visión-lenguaje (VLMs) y los modelos de expertise visual destacan en tareas 2D y escenarios estáticos, su capacidad para comprender completamente escenarios dinámicos en 3D sigue siendo limitada. Introducimos la Inteligencia Espacial Dinámica y proponemos DSI-Bench, un benchmark con cerca de 1,000 videos dinámicos y más de 1,700 preguntas anotadas manualmente que cubren nueve patrones de movimiento desacoplados de observadores y objetos. Diseños espaciales y temporalmente simétricos reducen sesgos y permiten una evaluación sistemática del razonamiento de los modelos sobre el movimiento propio y el movimiento de los objetos. Nuestra evaluación de 14 VLMs y modelos expertos revela limitaciones clave: los modelos a menudo confunden el movimiento del observador y del objeto, exhiben sesgos semánticos y no logran inferir con precisión las relaciones relativas en escenarios dinámicos. Nuestro DSI-Bench proporciona hallazgos valiosos y perspectivas sobre el desarrollo futuro de modelos generales y de expertise con inteligencia espacial dinámica.

AlphaQuanter: Un Marco de Aprendizaje por Refuerzo Agéntico Orquestado por Herramientas de Extremo a Extremo para el Comercio de Acciones
AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

Oct 16

ByZheye Deng, Jiashu Wang

Si bien los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en el comercio automatizado, aún enfrentan limitaciones críticas. Los marcos de trabajo multiagente más destacados a menudo presentan ineficiencias, generan señales inconsistentes y carecen de la optimización de extremo a extremo necesaria para aprender una estrategia coherente a partir de la retroalimentación del mercado. Para abordar esto, presentamos AlphaQuanter, un marco de trabajo de agente único que utiliza aprendizaje por refuerzo (RL, por sus siglas en inglés) para aprender una política dinámica sobre un flujo de trabajo de decisión aumentado con herramientas y transparente, lo que permite a un solo agente orquestar herramientas de manera autónoma y adquirir información de forma proactiva según la demanda, estableciendo un proceso de razonamiento transparente y auditable. Experimentos exhaustivos demuestran que AlphaQuanter alcanza un rendimiento de vanguardia en métricas financieras clave. Además, su razonamiento interpretable revela estrategias sofisticadas, ofreciendo perspectivas novedosas y valiosas para los operadores humanos. Nuestro código para la adquisición de datos y el entrenamiento del agente está disponible públicamente en: https://github.com/AlphaQuanter/AlphaQuanter.

Extracción de datos de alineación en modelos abiertos
Extracting alignment data in open models

Oct 21

ByFederico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes

En este trabajo, demostramos que es posible extraer cantidades significativas de datos de entrenamiento de alineación de un modelo post-entrenado, lo cual es útil para guiar al modelo a mejorar ciertas capacidades, como el razonamiento de contexto largo, la seguridad, el seguimiento de instrucciones y las matemáticas. Si bien la mayoría de los trabajos relacionados sobre memorización se han centrado en medir el éxito de la extracción de datos de entrenamiento mediante la coincidencia de cadenas, argumentamos que los modelos de incrustación son más adecuados para nuestros objetivos específicos. Las distancias medidas a través de un modelo de incrustación de alta calidad pueden identificar similitudes semánticas entre cadenas que una métrica diferente, como la distancia de edición, tendría dificultades para capturar. De hecho, en nuestra investigación, la coincidencia aproximada de cadenas habría subestimado gravemente (por una estimación conservadora de 10 veces) la cantidad de datos que se pueden extraer debido a artefactos triviales que reducen la métrica. Curiosamente, encontramos que los modelos regurgitan fácilmente los datos de entrenamiento que se utilizaron en fases de post-entrenamiento, como SFT o RL. Demostramos que estos datos pueden usarse luego para entrenar un modelo base, recuperando una cantidad significativa del rendimiento original. Creemos que nuestro trabajo expone un riesgo posiblemente pasado por alto hacia la extracción de datos de alineación. Finalmente, nuestro trabajo abre una discusión interesante sobre los efectos posteriores de las prácticas de destilación: dado que los modelos parecen estar regurgitando aspectos de su conjunto de entrenamiento, la destilación puede considerarse, por lo tanto, como un entrenamiento indirecto en el conjunto de datos original del modelo.

Razonamiento en video sin entrenamiento
Video Reasoning without Training

Oct 19

ByDeepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague

El razonamiento en video utilizando Modelos Multimodales de Gran Escala (LMMs) depende de costosos procesos de aprendizaje por refuerzo (RL) y cadenas de pensamiento extensas, lo que resulta en una sobrecarga computacional significativa tanto durante el entrenamiento como en la inferencia. Además, los mecanismos que controlan el proceso de pensamiento en estos modelos de razonamiento son muy limitados. En este artículo, utilizando la entropía de la salida del modelo como señal, descubrimos que los modelos de alta calidad atraviesan una serie de micro-exploraciones y micro-explotaciones que mantienen el proceso de razonamiento fundamentado (es decir, evitan un exceso de aleatoriedad mientras el modelo explora o piensa una respuesta). Observamos además que, una vez que este proceso de "pensamiento" concluye, los modelos más precisos demuestran una mejor convergencia al reducir significativamente la entropía mediante una fase final de explotación (es decir, una convergencia más segura hacia una trayectoria de solución). Luego, utilizamos estas nuevas ideas teóricamente fundamentadas para ajustar el comportamiento del modelo directamente durante la inferencia, sin emplear RL ni ajuste supervisado. Específicamente, durante la inferencia, nuestro enfoque propuesto, denominado V-Reason (Video-Reason), adapta la caché de valores del LMM mediante unos pocos pasos de optimización en un controlador pequeño y entrenable utilizando un objetivo basado en la entropía, es decir, no se requiere supervisión de ningún conjunto de datos ni RL. Este ajuste mejora el comportamiento de micro-exploración y explotación del modelo durante la inferencia. Nuestros experimentos muestran que nuestro método propuesto logra mejoras significativas sobre los modelos base ajustados por instrucción en varios conjuntos de datos de razonamiento en video, reduciendo la brecha con los modelos entrenados con RL a un 0.6% de precisión promedio sin ningún entrenamiento, mientras ofrece beneficios masivos en eficiencia: los tokens de salida se reducen en un 58.6% en comparación con el modelo RL.

Unimedvl: Unificación de la Comprensión y Generación Multimodal en Medicina Mediante Observación-Conocimiento-Análisis
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

Oct 17

ByJunzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He

Las aplicaciones de diagnóstico médico requieren modelos que puedan procesar entradas médicas multimodales (imágenes, historiales de pacientes, resultados de laboratorio) y generar resultados diversos, incluyendo tanto informes textuales como contenido visual (anotaciones, máscaras de segmentación e imágenes). A pesar de esta necesidad, los sistemas de IA médica existentes interrumpen este proceso unificado: los modelos de comprensión de imágenes médicas interpretan las imágenes pero no pueden generar resultados visuales, mientras que los modelos de generación de imágenes médicas sintetizan imágenes pero no pueden proporcionar explicaciones textuales. Esto conduce a brechas en la representación de datos, la integración de características y las capacidades multimodales a nivel de tareas. Con este fin, proponemos un marco multinivel que se inspira en los flujos de trabajo de diagnóstico a través del paradigma Observación-Conocimiento-Análisis (OKA). Específicamente, en el nivel de observación, construimos UniMed-5M, un conjunto de datos que comprende más de 5.6 millones de muestras que reformatean datos unimodales diversos en pares multimodales para la observación fundamental. En el nivel de conocimiento, proponemos el Aprendizaje Curricular Progresivo que introduce sistemáticamente el conocimiento multimodal médico. En el nivel de análisis, presentamos UniMedVL, el primer modelo médico unificado multimodal para el análisis simultáneo de tareas de comprensión y generación de imágenes dentro de una única arquitectura. UniMedVL logra un rendimiento superior en cinco puntos de referencia de comprensión de imágenes médicas, mientras iguala la calidad de generación de modelos especializados en ocho modalidades de imágenes médicas. Crucialmente, nuestra arquitectura unificada permite el intercambio bidireccional de conocimiento: las tareas de generación mejoran las características de comprensión visual, demostrando que la integración de capacidades tradicionalmente separadas dentro de un marco médico único desbloquea mejoras en diversas tareas de visión y lenguaje médico. El código está disponible en https://github.com/uni-medical/UniMedVL.

Mono4DGS-HDR: Representación de Splatting Gaussiano 4D de Alto Rango Dinámico a partir de Vídeos Monoculares con Exposición Alternada
Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Oct 21

ByJinfeng Liu, Lingtong Kong, Mi Zhou, Jinwen Chen, Dan Xu

Presentamos Mono4DGS-HDR, el primer sistema para reconstruir escenas 4D de alto rango dinámico (HDR, por sus siglas en inglés) renderizables a partir de videos monoculares de bajo rango dinámico (LDR) capturados con exposiciones alternas y sin pose específica. Para abordar este problema tan desafiante, proponemos un marco unificado con un enfoque de optimización en dos etapas basado en Gaussian Splatting. La primera etapa aprende una representación HDR del video en el espacio de coordenadas de cámara ortográfica, eliminando la necesidad de poses de cámara y permitiendo una reconstrucción inicial robusta del video HDR. La segunda etapa transforma los Gaussianos del video al espacio mundial y refina conjuntamente los Gaussianos mundiales con las poses de la cámara. Además, proponemos una estrategia de regularización de luminancia temporal para mejorar la consistencia temporal de la apariencia HDR. Dado que esta tarea no ha sido estudiada previamente, construimos un nuevo punto de referencia de evaluación utilizando conjuntos de datos disponibles públicamente para la reconstrucción de videos HDR. Experimentos exhaustivos demuestran que Mono4DGS-HDR supera significativamente a soluciones alternativas adaptadas de métodos de vanguardia tanto en calidad de renderizado como en velocidad.

Ampliación del Espacio de Acción de los LLM para Razonar más Allá del Lenguaje
Expanding the Action Space of LLMs to Reason Beyond Language

Oct 8

ByZhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son razonadores potentes en lenguaje natural, pero sus acciones suelen limitarse a la generación de tokens de vocabulario. Como resultado, las interacciones con entornos externos —como operadores simbólicos o simuladores— deben expresarse mediante texto en formatos predefinidos, analizarse y dirigirse a interfaces externas. Esto sobrecarga el lenguaje del modelo con tareas tanto de razonamiento como de control, y requiere un analizador manual, externo al LLM. Para abordar este problema, desacoplamos las interacciones con el entorno del lenguaje al internalizarlas en un Espacio de Acción Expandido (ExpA), más allá del vocabulario. El modelo comienza razonando en el entorno de lenguaje predeterminado, pero puede activar acciones de enrutamiento y cambiar a un entorno externo en cualquier momento. A partir de ahí, el modelo solo puede invocar acciones específicas del entorno, recibir retroalimentación del mismo y, potencialmente, volver a enrutarse al lenguaje como resultado. Para fomentar una exploración efectiva del espacio de acción expandido y de nuevos entornos, introducimos el Aprendizaje por Refuerzo en el Espacio de Acción Expandido (EARL, por sus siglas en inglés) con optimización de políticas contrafactuales. En tareas que requieren interacciones multiturno y planificación contingente, EARL supera a líneas de base sólidas con acciones restringidas al vocabulario. Demuestra un rendimiento robusto en el aprendizaje multitarea basado en calculadoras y, en el problema de ordenamiento parcialmente observado, logra una precisión perfecta en Sort-4 mientras descubre de manera autónoma un algoritmo eficiente competitivo con diseños clásicos.

Cuando "Correcto" No Es Seguro: ¿Podemos Confiar en los Parches Funcionalmente Correctos Generados por Agentes de Código?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?

Oct 15

ByYibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen

Los agentes de código son cada vez más confiados para corregir errores de manera autónoma en plataformas como GitHub, sin embargo, su evaluación de seguridad se centra casi exclusivamente en la corrección funcional. En este artículo, revelamos un nuevo tipo de amenaza para los agentes de código en el mundo real: los parches funcionalmente correctos pero vulnerables (FCV, por sus siglas en inglés), que pasan todos los casos de prueba pero contienen código vulnerable. Con nuestro FCV-Ataque propuesto, que puede ser deliberadamente creado por atacantes maliciosos o introducido implícitamente por desarrolladores benignos, demostramos que los modelos de lenguaje de última generación (LLM, por sus siglas en inglés) (por ejemplo, ChatGPT y Claude) y los andamiajes de agentes (por ejemplo, SWE-agent y OpenHands) son todos vulnerables a esta amenaza FCV; en 12 combinaciones de agente-modelo en SWE-Bench, el ataque solo requiere acceso de caja negra y una única consulta al agente de código para ejecutarse. Por ejemplo, para CWE-538 (vulnerabilidad de exposición de información), el FCV-Ataque alcanza una tasa de éxito del 40.7% en GPT-5 Mini + OpenHands. Nuestros resultados revelan una importante amenaza de seguridad pasada por alto por los paradigmas de evaluación actuales y urgen al desarrollo de defensas conscientes de la seguridad para los agentes de código.

PRISMM-Bench: Un punto de referencia de inconsistencias multimodales fundamentadas en la revisión por pares
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Oct 18

ByLukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) se están aplicando cada vez más en la investigación científica, pero aún no está claro si pueden comprender y razonar de manera confiable sobre la complejidad multimodal de los artículos científicos. Un desafío central radica en detectar y resolver inconsistencias entre texto, figuras, tablas y ecuaciones, problemas que suelen ser sutiles, específicos del dominio y que, en última instancia, socavan la claridad, la reproducibilidad y la confianza. Los puntos de referencia existentes pasan por alto este problema, ya sea aislando modalidades individuales o basándose en errores sintéticos que no capturan la complejidad del mundo real. Presentamos PRISMM-Bench (Conjunto de Inconsistencias Sometidas a Revisión por Pares para Modelos Multimodales), el primer punto de referencia basado en inconsistencias reales señaladas por revisores en artículos científicos. A través de una canalización de múltiples etapas que incluye minería de revisiones, filtrado asistido por LLM y verificación humana, recopilamos 262 inconsistencias de 242 artículos. Basándonos en este conjunto, diseñamos tres tareas: identificación de inconsistencias, remedio y emparejamiento de pares, que evalúan la capacidad de un modelo para detectar, corregir y razonar sobre inconsistencias en diferentes modalidades. Además, para abordar el notorio problema de los atajos de elección única en la evaluación de opción múltiple, donde los modelos explotan patrones de respuesta sin comprender verdaderamente la pregunta, introducimos representaciones de respuestas basadas en JSON estructurado que minimizan los sesgos lingüísticos al reducir la dependencia de indicios estilísticos superficiales. Evaluamos 21 LMMs líderes, incluyendo modelos de gran escala de código abierto (GLM-4.5V 106B, InternVL3 78B) y modelos propietarios (Gemini 2.5 Pro, GPT-5 con alto razonamiento). Los resultados revelan un rendimiento sorprendentemente bajo (26.1-54.2%), subrayando el desafío del razonamiento científico multimodal y motivando el avance hacia asistentes científicos confiables.

Liberación del Razonamiento Científico para la Generación de Protocolos Bioexperimentales mediante un Mecanismo de Recompensa Estructurado Basado en Componentes
Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Oct 17

ByHaoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang

El fundamento de la ciencia reproducible radica en protocolos que son precisos, lógicamente ordenados y ejecutables. La generación autónoma de estos protocolos mediante consultas en lenguaje natural podría mejorar significativamente la eficiencia del proceso de reproducción. Sin embargo, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) líderes actuales a menudo generan protocolos incompletos o inconsistentes, lo que limita su utilidad. Para abordar esta limitación, primero presentamos SciRecipe, un conjunto de datos a gran escala de más de 12,000 protocolos estructurados que abarcan 27 subcampos biológicos e incluyen tareas de comprensión y resolución de problemas. Para mejorar aún más la generación de protocolos, proponemos el paradigma "Sketch-and-Fill", que separa el análisis, la estructuración y la expresión para garantizar que cada paso sea explícito y verificable. Complementando esto, el mecanismo de recompensa basado en componentes estructurados evalúa la granularidad de los pasos, el orden de las acciones y la fidelidad semántica, alineando la optimización del modelo con la confiabilidad experimental. Sobre la base de estos componentes, desarrollamos Thoth, entrenado a través de un proceso escalonado de Conocimiento-a-Acción que avanza desde la adquisición de conocimiento hasta el razonamiento operativo y, finalmente, la generación de protocolos robustos y ejecutables. En múltiples puntos de referencia, Thoth supera consistentemente tanto a los LLMs propietarios como a los de código abierto, logrando mejoras significativas en la alineación de pasos, la secuenciación lógica y la precisión semántica. Nuestro enfoque allana el camino para asistentes científicos confiables que conectan el conocimiento con la ejecución experimental. Todos los datos, códigos y modelos se publicarán públicamente.

Poda de Redes Multitarea Sobredimensionadas para la Restauración de Imágenes Web Degradadas
Pruning Overparameterized Multi-Task Networks for Degraded Web Image Restoration

Oct 16

ByThomas Katraouras, Dimitrios Rafailidis

La calidad de la imagen es un factor crítico para ofrecer contenido visualmente atractivo en plataformas web. Sin embargo, las imágenes a menudo sufren degradación debido a operaciones con pérdida aplicadas por las redes sociales en línea (OSNs, por sus siglas en inglés), lo que afecta negativamente la experiencia del usuario. La restauración de imágenes es el proceso de recuperar una imagen limpia y de alta calidad a partir de una entrada degradada. Recientemente, los modelos de restauración de imágenes multitarea (todo en uno) han ganado una atención significativa debido a su capacidad para manejar simultáneamente diferentes tipos de degradación de imágenes. Sin embargo, estos modelos suelen tener un número excesivamente alto de parámetros entrenables, lo que los hace computacionalmente ineficientes. En este artículo, proponemos una estrategia para comprimir modelos de restauración de imágenes multitarea. Nuestro objetivo es descubrir subredes altamente dispersas dentro de modelos profundos sobreparametrizados que puedan igualar o incluso superar el rendimiento de sus contrapartes densas. El modelo propuesto, denominado MIR-L, utiliza una estrategia de poda iterativa que elimina los pesos de baja magnitud en múltiples rondas, mientras restablece los pesos restantes a su inicialización original. Este proceso iterativo es importante para la optimización del modelo de restauración de imágenes multitarea, descubriendo efectivamente "boletos ganadores" que mantienen o superan el rendimiento de vanguardia en niveles altos de dispersión. La evaluación experimental en conjuntos de datos de referencia para las tareas de eliminación de lluvia, desenfoque y reducción de ruido muestra que MIR-L retiene solo el 10% de los parámetros entrenables mientras mantiene un alto rendimiento en la restauración de imágenes. Nuestro código, conjuntos de datos y modelos preentrenados están disponibles públicamente en https://github.com/Thomkat/MIR-L.

Difusión Planificada
Planned Diffusion

Oct 20

ByDaniel Israel, Tian Jin, Ellie Cheng, Guy Van den Broeck, Aditya Grover, Suvinay Subramanian, Michael Carbin

Un desafío central en la inferencia de modelos de lenguaje de gran escala es el equilibrio entre la velocidad de generación y la calidad de la salida. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de manera secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo requieren muchas iteraciones para alcanzar la misma calidad. Proponemos la difusión planificada, un método híbrido que combina las fortalezas de ambos paradigmas. La difusión planificada funciona en dos etapas: primero, el modelo crea un plan autorregresivo breve que divide la salida en segmentos más pequeños e independientes. Segundo, el modelo genera estos segmentos simultáneamente utilizando difusión. Este enfoque amplía la frontera de Pareto entre velocidad y calidad y ofrece un camino práctico hacia la generación de texto más rápida y de alta calidad. En AlpacaEval, un conjunto de 805 indicaciones de seguimiento de instrucciones, la difusión planificada logra un equilibrio Pareto-óptimo entre calidad y latencia, alcanzando una aceleración de 1.27x a 1.81x sobre la generación autorregresiva con solo una caída del 0.87% al 5.4% en la tasa de éxito, respectivamente. Nuestro análisis de sensibilidad muestra que el mecanismo de planificación de la difusión planificada es mínimo y confiable, y existen controles simples en tiempo de ejecución para proporcionar un control flexible del equilibrio entre calidad y latencia.

Alineación a Cualquier Profundidad: Desbloqueando la Alineación de Seguridad Innata de los LLM a Cualquier Profundidad
Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

Oct 20

ByJiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben una alineación fuerte pero superficial: rechazan directamente consultas dañinas cuando se espera un rechazo al inicio de un turno del asistente, pero esta protección colapsa una vez que una continuación dañina está en marcha (ya sea a través de ataques adversarios o mediante ataques de prellenado dañino por parte del asistente). Esto plantea una pregunta fundamental: ¿Puede desbloquearse la alineación superficial innata de los LLMs para garantizar la seguridad en profundidades de generación arbitrarias? Para lograr este objetivo, proponemos Alineación a Cualquier Profundidad (ADA, por sus siglas en inglés), una defensa efectiva en tiempo de inferencia con un costo computacional insignificante. ADA se basa en nuestra observación de que la alineación se concentra en los tokens de cabecera del asistente debido a su uso repetido en el entrenamiento de rechazo superficial, y estos tokens poseen los fuertes sesgos de alineación del modelo. Al reintroducir estos tokens en medio del flujo, ADA induce al modelo a reevaluar la nocividad y recuperar los rechazos en cualquier punto de la generación. En diversas familias de modelos de código abierto (Llama, Gemma, Mistral, Qwen, DeepSeek y gpt-oss), ADA logra un rendimiento robusto en seguridad sin requerir cambios en los parámetros del modelo base. Asegura una tasa de rechazo cercana al 100% frente a ataques adversarios de prellenado que van desde decenas hasta miles de tokens. Además, ADA reduce la tasa de éxito promedio de ataques adversarios destacados (como GCG, AutoDAN, PAIR y TAP) a menos del 3%. Todo esto se logra manteniendo la utilidad en tareas benignas con un mínimo de rechazos excesivos. ADA conserva esta resiliencia incluso después de que el modelo base se somete a ajustes posteriores de instrucción (benignos o adversarios).

La Brecha de Instrucción Atómica: Los LLMs Ajustados por Instrucciones Luchan con Directivas Simples y Autocontenidas
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

Oct 20

ByHenry Lim, Kwan Hui Lim

Los modelos de lenguaje grande ajustados por instrucciones (IT-LLMs, por sus siglas en inglés) exhiben un razonamiento sólido en tareas de cero disparos, pero su capacidad para ejecutar instrucciones simples y autónomas sigue siendo poco explorada, a pesar de que esto es fundamental para el seguimiento de instrucciones complejas. Evaluamos 20 IT-LLMs en versiones modificadas de los benchmarks MMLU y MMLU-Pro, variando sistemáticamente el formato de las etiquetas de opción (alfabético, numérico, romano) mientras se mantenía su significado idéntico bajo cuatro paradigmas: (1) Con instrucciones explícitas, los cambios en las etiquetas causan grandes variaciones en el rendimiento (por ejemplo, -30.45% para romano vs. numérico), revelando un sesgo hacia el formato de las instrucciones. (2) Sin instrucciones, el rendimiento disminuye aún más (hasta -10.84%) y la sensibilidad a las etiquetas se intensifica, destacando el papel de la guía explícita. (3) Cuando se eliminan los contenidos de las opciones, los modelos no superan los baselines de elección aleatoria, excepto con etiquetas numéricas, lo que sugiere una adherencia débil a las directivas atómicas. (4) Los ejemplos de tres disparos no producen mejoras significativas en robustez o fidelidad, y los análisis de generación muestran errores persistentes en las etiquetas, especialmente en formatos no numéricos. A través de diferentes tamaños de modelos, los LLMs más grandes logran una mayor precisión pero siguen siendo inconsistentes en el seguimiento de instrucciones. Estos resultados exponen las insuficiencias de los paradigmas actuales de ajuste por instrucciones y resaltan la necesidad de métodos de evaluación y estrategias de entrenamiento que aborden explícitamente el seguimiento de instrucciones atómicas.

Las cajas de arena estáticas son insuficientes: modelar la complejidad social requiere coevolución abierta en simulaciones multiagente basadas en modelos de lenguaje.
Static Sandboxes Are Inadequate: Modeling Societal Complexity Requires Open-Ended Co-Evolution in LLM-Based Multi-Agent Simulations

Oct 15

ByJinkun Chen, Sher Badshah, Xuemin Yu, Sijia Han

¿Qué pasaría si los agentes artificiales no solo pudieran comunicarse, sino también evolucionar, adaptarse y transformar sus mundos de maneras que no podemos predecir completamente? Con los modelos de lenguaje (llm) impulsando ahora sistemas multiagente y simulaciones sociales, estamos presenciando nuevas posibilidades para modelar entornos abiertos y en constante cambio. Sin embargo, la mayoría de las simulaciones actuales siguen limitadas a entornos estáticos, caracterizados por tareas predefinidas, dinámicas limitadas y criterios de evaluación rígidos. Estas limitaciones les impiden capturar la complejidad de las sociedades del mundo real. En este artículo, argumentamos que los puntos de referencia estáticos y específicos de tareas son fundamentalmente inadecuados y deben ser reconsiderados. Revisamos críticamente las arquitecturas emergentes que combinan llm con dinámicas multiagente, destacamos obstáculos clave como equilibrar estabilidad y diversidad, evaluar comportamientos inesperados y escalar hacia una mayor complejidad, e introducimos una nueva taxonomía para este campo en rápida evolución. Finalmente, presentamos una hoja de ruta de investigación centrada en la apertura, la coevolución continua y el desarrollo de ecosistemas de IA resilientes y socialmente alineados. Hacemos un llamado a la comunidad para que vaya más allá de los paradigmas estáticos y ayude a dar forma a la próxima generación de simulaciones multiagente adaptativas y socialmente conscientes.

Prediciendo lo impredecible: Pronósticos reproducibles con BiLSTM de los conteos de incidentes en la Base de Datos Global de Terrorismo (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)

Oct 16

ByOluwasegun Adegoke

Estudiamos la predicción a corto plazo de los recuentos semanales de incidentes terroristas utilizando la Base de Datos Global de Terrorismo (GTD, 1970-2016). Construimos una pipeline reproducible con divisiones temporales fijas y evaluamos una LSTM Bidireccional (BiLSTM) frente a anclajes clásicos sólidos (naive estacional, lineal/ARIMA) y una línea de base profunda de LSTM-Atención. En el conjunto de prueba reservado, la BiLSTM alcanza un RMSE de 6.38, superando a LSTM-Atención (9.19; +30.6%) y a una línea de base de regresión lineal con retraso (+35.4% de mejora en RMSE), con mejoras paralelas en MAE y MAPE. Las ablaciones que varían la memoria temporal, la longitud del historial de entrenamiento, la granularidad espacial, el tamaño de retrospectiva y los grupos de características muestran que los modelos entrenados con datos históricos largos generalizan mejor; una retrospectiva moderada (20-30 semanas) proporciona un contexto sólido; y la codificación bidireccional es crucial para capturar tanto los patrones de acumulación como los de consecuencias dentro de la ventana. El análisis de grupos de características indica que la estructura a corto plazo (recuentos retrasados y estadísticas móviles) contribuye más, con características geográficas y de víctimas añadiendo un incremento adicional. Publicamos código, configuraciones y tablas de resultados compactas, y proporcionamos un documento de datos/ética que documenta la licencia de GTD y su uso exclusivo para investigación. En general, el estudio ofrece una referencia transparente y superadora de líneas de base para la predicción de incidentes en GTD.

EvoSyn: Síntesis Evolutiva de Datos Generalizable para Aprendizaje Verificable
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

Oct 20

ByHe Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao

Los datos verificables y confiables se han convertido en un factor clave para el avance de las capacidades de los modelos de lenguaje modernos, permitiendo un aprendizaje por refuerzo estable con recompensas verificables y una destilación efectiva que transfiere competencias en tareas de matemáticas, programación y agentes autónomos. Sin embargo, la construcción de datos sintéticos verificables y generalizables sigue siendo un desafío debido a la generación propensa a la alucinación y a los artefactos de verificación débiles o triviales que no logran distinguir soluciones sólidas de las débiles. Los enfoques existentes suelen depender de heurísticas específicas para cada tarea o filtros post-hoc que no se transfieren entre dominios y carecen de un evaluador universal y fundamentado de la verificabilidad. En este trabajo, presentamos un marco de síntesis de datos evolutivo, independiente de la tarea, guiado por estrategias y verificable mediante ejecución que, a partir de una supervisión mínima inicial, sintetiza conjuntamente problemas, soluciones candidatas diversas y artefactos de verificación, y descubre iterativamente estrategias mediante un evaluador basado en consistencia que exige concordancia entre verificaciones anotadas por humanos y las inducidas por estrategias. Esta metodología transforma el filtrado en una síntesis fundamentada: ensambla de manera confiable instancias de entrenamiento coherentes y verificables y generaliza sin reglas específicas del dominio. Nuestros experimentos demuestran la efectividad del enfoque propuesto bajo los paradigmas de entrenamiento RLVR y destilación de modelos. Los resultados muestran que el entrenamiento con nuestros datos sintetizados produce mejoras significativas en las tareas de LiveCodeBench y AgentBench-OS, destacando la robusta generalización de nuestro marco.

PokeeResearch: Investigación Profunda Efectiva mediante Aprendizaje por Refuerzo a partir de Retroalimentación de IA y Andamiaje de Razonamiento Robusto
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

Oct 17

ByYi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu

Los modelos de lenguaje de gran escala (LLMs) potenciados con herramientas están surgiendo como agentes de investigación profunda, sistemas que descomponen consultas complejas, recuperan evidencia externa y sintetizan respuestas fundamentadas. Sin embargo, los agentes actuales siguen limitados por una recuperación superficial, métricas de alineación débiles y un comportamiento frágil en el uso de herramientas. Presentamos PokeeResearch-7B, un agente de investigación profunda de 7 mil millones de parámetros construido bajo un marco unificado de aprendizaje por refuerzo para robustez, alineación y escalabilidad. PokeeResearch-7B es entrenado mediante un marco de Aprendizaje por Refuerzo a partir de Retroalimentación de IA (RLAIF) sin anotaciones, optimizando políticas utilizando señales de recompensa basadas en LLM que capturan precisión factual, fidelidad en las citas y adherencia a las instrucciones. Un andamiaje de razonamiento multicall impulsado por cadena de pensamiento mejora aún más la robustez mediante autoverificación y recuperación adaptativa ante fallos en las herramientas. Entre 10 puntos de referencia populares de investigación profunda, PokeeResearch-7B logra un rendimiento de vanguardia entre los agentes de investigación profunda de escala 7B. Esto destaca que un diseño cuidadoso de aprendizaje por refuerzo y razonamiento puede producir agentes de IA eficientes, resilientes y aptos para la investigación. El modelo y el código de inferencia se publican bajo licencia MIT en https://github.com/Pokee-AI/PokeeResearchOSS.