HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

33 papers found

Razonamiento eficiente con pensamiento equilibrado
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

Los Modelos de Razonamiento a Gran Escala (LRM) han demostrado capacidades de razonamiento notables, pero a menudo sufren de "sobrerrazonamiento", gastando pasos computacionales redundantes en problemas simples, o de "subrazonamiento", al no explorar suficientes trayectorias de razonamiento a pesar de sus capacidades inherentes. Estos problemas conducen a ineficiencias y posibles imprecisiones, limitando el despliegue práctico en entornos con recursos limitados. Los métodos existentes para mitigar el sobrerrazonamiento, como suprimir palabras clave reflexivas o ajustar la longitud del razonamiento, pueden inducir inadvertidamente un subrazonamiento, comprometiendo la precisión. Por lo tanto, proponemos ReBalance, un marco que no requiere entrenamiento y logra un razonamiento eficiente con un pensamiento equilibrado. ReBalance aprovecha la confianza como un indicador continuo de la dinámica del razonamiento, identificando el sobrerrazonamiento a través de una alta varianza en la confianza y el subrazonamiento mediante una sobreconfianza consistente. Al agregar los estados ocultos de un conjunto de datos a pequeña escala en prototipos de modo de razonamiento, calculamos un vector de dirección para guiar las trayectorias de razonamiento de los LRM. Una función de control dinámico modula la fuerza y dirección de este vector basándose en la confianza en tiempo real, podando la redundancia durante el sobrerrazonamiento y promoviendo la exploración durante el subrazonamiento. Experimentos exhaustivos realizados en cuatro modelos que van desde 0.5B hasta 32B parámetros, y a través de nueve benchmarks de razonamiento matemático, preguntas generales y tareas de codificación, demuestran que ReBalance reduce efectivamente la redundancia en la salida mientras mejora la precisión, ofreciendo una estrategia general, que no requiere entrenamiento y es plug-and-play para un despliegue eficiente y robusto de los LRM. El código está disponible en https://github.com/yu-lin-li/ReBalance.

MetaClaw: Solo Habla -- Un Agente que Meta-Aprende y Evoluciona en Entornos Reales
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Los agentes de modelos de lenguaje grandes (LLM) se utilizan cada vez más para tareas complejas, pero los agentes desplegados a menudo permanecen estáticos, sin adaptarse a la evolución de las necesidades de los usuarios. Esto crea una tensión entre la necesidad de un servicio continuo y la necesidad de actualizar las capacidades para que coincidan con las distribuciones de tareas cambiantes. En plataformas como OpenClaw, que manejan cargas de trabajo diversas a través de más de 20 canales, los métodos existentes almacenan trayectorias brutas sin destilar conocimiento, mantienen bibliotecas de habilidades estáticas o requieren tiempos de inactividad disruptivos para el reentrenamiento. Presentamos MetaClaw, un marco de meta-aprendizaje continuo que evoluciona conjuntamente una política base de LLM y una biblioteca de habilidades de comportamiento reutilizables. MetaClaw emplea dos mecanismos complementarios. La adaptación rápida impulsada por habilidades analiza las trayectorias de fallo mediante un evolucionador de LLM para sintetizar nuevas habilidades, permitiendo una mejora inmediata con tiempo de inactividad cero. La optimización de políticas oportunista realiza actualizaciones basadas en gradientes mediante ajuste fino LoRA en la nube y Aprendizaje por Refuerzo con un Modelo de Recompensa de Proceso (RL-PRM). Esto se activa durante ventanas de inactividad del usuario por el Planificador de Meta-Aprendizaje Oportunista (OMLS), que monitorea la inactividad del sistema y los datos del calendario. Estos mecanismos se refuerzan mutuamente: una política refinada genera mejores trayectorias para la síntesis de habilidades, mientras que habilidades más ricas proporcionan datos de mayor calidad para la optimización de políticas. Para prevenir la contaminación de datos, un mecanismo de control de versiones separa los datos de soporte y consulta. Construido sobre una arquitectura basada en proxies, MetaClaw escala a LLMs de tamaño de producción sin GPUs locales. Los experimentos en MetaClaw-Bench y AutoResearchClaw muestran que la adaptación impulsada por habilidades mejora la precisión hasta en un 32% relativo. La canalización completa avanza la precisión de Kimi-K2.5 del 21.4% al 40.6% y aumenta la robustez compuesta en un 18.3%. El código está disponible en https://github.com/aiming-lab/MetaClaw.

Video-CoE: Reforzamiento de la Predicción de Eventos en Video mediante Cadena de Eventos
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

A pesar de los avances en la aplicación de MLLMs para diversas tareas de video, la predicción de eventos en video (VEP, por sus siglas en inglés) sigue siendo un área relativamente poco explorada. La VEP requiere que el modelo realice un modelado temporal de grano fino de los videos y establezca relaciones lógicas entre los videos y los eventos futuros, algo con lo que los MLLMs actuales aún tienen dificultades. En este trabajo, presentamos primero una evaluación exhaustiva de los MLLMs líderes actuales en la tarea de VEP, revelando las razones detrás de sus predicciones inexactas, incluyendo la falta de capacidad de razonamiento lógico para la predicción de eventos futuros y la utilización insuficiente de la información visual. Para abordar estos desafíos, proponemos el paradigma Cadena de Eventos (CoE), que construye cadenas de eventos temporales para imponer implícitamente que el MLLM se centre en el contenido visual y las conexiones lógicas entre los videos y los eventos futuros, incentivando la capacidad de razonamiento del modelo con múltiples protocolos de entrenamiento. Los resultados experimentales en benchmarks públicos demuestran que nuestro método supera tanto a los MLLMs de código abierto como a los comerciales líderes, estableciendo un nuevo estado del arte en la tarea de VEP. Los códigos y modelos se publicarán pronto.

MosaicMem: Memoria Espacial Híbrida para Modelos de Mundo de Video Controlables
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

Los modelos de difusión de vídeo están evolucionando más allá de clips cortos y plausibles hacia simuladores de mundos que deben mantener la coherencia bajo movimiento de cámara, revisitaciones e intervención. Sin embargo, la memoria espacial sigue siendo un cuello de botella clave: las estructuras 3D explícitas pueden mejorar la coherencia basada en reproyección, pero tienen dificultades para representar objetos en movimiento, mientras que la memoria implícita a menudo produce movimientos de cámara inexactos incluso con poses correctas. Proponemos Mosaic Memory (MosaicMem), una memoria espacial híbrida que eleva parches al espacio 3D para una localización fiable y una recuperación dirigida, aprovechando al mismo tiempo el condicionamiento nativo del modelo para preservar la generación guiada por *prompts*. MosaicMem compone parches alineados espacialmente en la vista consultada mediante una interfaz de parcheo y composición, preservando lo que debe persistir mientras permite al modelo reconstruir lo que debe evolucionar. Con el condicionamiento de cámara PRoPE y dos nuevos métodos de alineación de memoria, los experimentos muestran una mejor adherencia a la pose en comparación con la memoria implícita y un modelado dinámico más sólido que las líneas base explícitas. MosaicMem permite además la navegación a nivel de minutos, la edición de escenas basada en memoria y el despliegue autoregresivo.

La alineación convierte a los modelos de lenguaje en normativos, no descriptivos
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

La alineación posterior al entrenamiento optimiza los modelos de lenguaje para que se ajusten a las señales de preferencia humana, pero este objetivo no equivale a modelar el comportamiento humano observado. Comparamos 120 pares de modelos base-alineados en más de 10,000 decisiones humanas reales en juegos estratégicos de múltiples rondas: negociación, persuasión, regateo y juegos de matrices repetidos. En estos entornos, los modelos base superan a sus contrapartes alineadas en la predicción de elecciones humanas por una proporción de casi 10:1, de manera robusta entre familias de modelos, formulaciones de prompts y configuraciones de juego. Sin embargo, este patrón se revierte en entornos donde es más probable que el comportamiento humano siga predicciones normativas: los modelos alineados dominan en juegos teóricos de una sola ronda en los 12 tipos evaluados y en elecciones de lotería no estratégicas, e incluso dentro de los propios juegos multirronda, en la primera ronda, antes de que se desarrolle un historial de interacción. Este patrón de condición límite sugiere que la alineación induce un sesgo normativo: mejora la predicción cuando el comportamiento humano está relativamente bien capturado por soluciones normativas, pero perjudica la predicción en entornos estratégicos multirronda, donde el comportamiento está moldeado por dinámicas descriptivas como la reciprocidad, la retaliación y la adaptación dependiente del historial. Estos resultados revelan una compensación fundamental entre optimizar modelos para uso humano y utilizarlos como proxies del comportamiento humano.

Aprendizaje por Refuerzo Complementario
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

El Aprendizaje por Refuerzo (RL) se ha consolidado como un paradigma poderoso para entrenar agentes basados en LLM, pero sigue estando limitado por una baja eficiencia muestral, que no solo proviene de la retroalimentación escasa de resultados, sino también de la incapacidad del agente para aprovechar la experiencia previa a través de episodios. Si bien aumentar a los agentes con experiencia histórica ofrece una solución prometedora, los enfoques existentes adolecen de una debilidad crítica: la experiencia destilada del historial se almacena de forma estática o no logra coevolucionar con el actor en mejora, lo que provoca un desajuste progresivo entre la experiencia y la capacidad evolutiva del actor que disminuye su utilidad durante el entrenamiento. Inspirados por los sistemas de aprendizaje complementario en neurociencia, presentamos *Complementary RL* para lograr una coevolución fluida de un extractor de experiencia y un actor de políticas dentro del bucle de optimización de RL. Específicamente, el actor se optimiza mediante recompensas basadas en resultados escasos, mientras que el extractor de experiencia se optimiza según si sus experiencias destiladas contribuyen demostrablemente al éxito del actor, evolucionando así su estrategia de gestión de la experiencia en paralelo con las crecientes capacidades del actor. Empíricamente, *Complementary RL* supera a los baselines de RL agéntico basados en resultados que no aprenden de la experiencia, logrando una mejora del 10% en el rendimiento en escenarios de tarea única y exhibiendo una escalabilidad robusta en entornos multitarea. Estos resultados establecen a *Complementary RL* como un paradigma para el aprendizaje eficiente de agentes impulsados por la experiencia.

Cuando la IA navega por la niebla de la guerra.
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

¿Puede la IA razonar sobre una guerra antes de que su trayectoria se vuelva históricamente obvia? Analizar esta capacidad es difícil porque la predicción geopolítica retrospectiva está fuertemente confundida por la filtración de datos de entrenamiento. Abordamos este desafío mediante un estudio de caso temporalmente anclado sobre las primeras etapas del conflicto de Medio Oriente de 2026, que se desarrolló después de la fecha de corte del entrenamiento de los modelos de vanguardia actuales. Construimos 11 nodos temporales críticos, 42 preguntas verificables específicas de cada nodo y 5 preguntas exploratorias generales, que requieren que los modelos razonen únicamente a partir de información que habría estado disponible públicamente en cada momento. Este diseño mitiga sustancialmente las preocupaciones sobre la filtración de datos de entrenamiento, creando un escenario idóneo para estudiar cómo los modelos analizan una crisis en desarrollo bajo la niebla de la guerra y proporciona, hasta donde sabemos, el primer análisis temporalmente anclado del razonamiento de los LLM en un conflicto geopolítico en curso. Nuestro análisis revela tres hallazgos principales. En primer lugar, los modelos de lenguaje grandes actuales de última generación a menudo muestran un sorprendente grado de realismo estratégico, razonando más allá de la retórica superficial hacia incentivos estructurales más profundos. En segundo lugar, esta capacidad es desigual entre dominios: los modelos son más confiables en entornos estructurados económica y logísticamente que en ambientes políticamente ambiguos con múltiples actores. Finalmente, las narrativas de los modelos evolucionan con el tiempo, pasando de las primeras expectativas de contención rápida hacia explicaciones más sistémicas del atrincheramiento regional y la desescalada por desgaste. Dado que el conflicto sigue en curso en el momento de redactar este texto, este trabajo puede servir como una instantánea archivística del razonamiento de los modelos durante una crisis geopolítica en desarrollo, permitiendo estudios futuros sin el sesgo retrospectivo del análisis con conocimiento de causa posterior.

GigaWorld-Policy: Un Modelo Eficiente de Mundo-Acción Centrado en la Acción
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Los Modelos de Acción-Mundo (WAM) inicializados a partir de arquitecturas preentrenadas de generación de vídeo han demostrado un potencial notable para el aprendizaje de políticas de robots. Sin embargo, los enfoques existentes se enfrentan a dos cuellos de botella críticos que dificultan su rendimiento y despliegue. En primer lugar, el razonamiento conjunto sobre la dinámica visual futura y las acciones correspondientes conlleva una sobrecarga computacional sustancial durante la inferencia. En segundo lugar, el modelado conjunto a menudo entrelaza las representaciones visuales y de movimiento, haciendo que la precisión de la predicción del movimiento dependa en gran medida de la calidad de las predicciones de vídeo futuro. Para abordar estos problemas, presentamos GigaWorld-Policy, un WAM centrado en la acción que aprende la dinámica píxel-acción en 2D a la vez que permite una decodificación de acciones eficiente, con generación de vídeo opcional. Específicamente, formulamos el entrenamiento de la política en dos componentes acoplados: el modelo predice secuencias de acciones futuras condicionadas por la observación actual y, simultáneamente, genera vídeos futuros condicionados por las acciones predichas y la misma observación. La política se supervisa mediante la predicción de acciones y la generación de vídeo, lo que proporciona señales de aprendizaje más ricas y fomenta acciones físicamente plausibles a través de restricciones de dinámica visual. Con un diseño causal que evita que los tokens de vídeo futuro influyan en los tokens de acción, la generación explícita de vídeo futuro es opcional en el momento de la inferencia, permitiendo una predicción de acciones más rápida durante el despliegue. Para respaldar este paradigma, hemos creado un conjunto de datos robótico diverso y a gran escala para preentrenar un modelo de generación de vídeo centrado en la acción, que luego se adapta como arquitectura base para el aprendizaje de políticas de robots. Los resultados experimentales en plataformas robóticas del mundo real muestran que GigaWorld-Policy se ejecuta 9 veces más rápido que el principal modelo de referencia WAM, Motus, al tiempo que mejora las tasas de éxito de las tareas en un 7%. Además, en comparación con pi-0.5, GigaWorld-Policy mejora el rendimiento en un 95% en RoboTwin 2.0.

LoST: Tokenización del Nivel de Semántica para Formas 3D
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

La tokenización es una técnica fundamental en el modelado generativo de diversas modalidades. En particular, desempeña un papel crítico en los modelos autorregresivos (AR), que recientemente han surgido como una opción atractiva para la generación 3D. Sin embargo, la tokenización óptima de formas 3D sigue siendo una cuestión abierta. Los métodos de vanguardia (SOTA) se basan principalmente en jerarquías geométricas de nivel de detalle (LoD), diseñadas originalmente para renderizado y compresión. Estas jerarquías espaciales suelen ser ineficientes en tokens y carecen de coherencia semántica para el modelado AR. Proponemos la Tokenización por Nivel de Semántica (LoST), que ordena los tokens por relevancia semántica, de modo que los prefijos iniciales se decodifiquen en formas completas y plausibles que posean la semántica principal, mientras que los tokens posteriores refinan los detalles geométricos y semánticos específicos de la instancia. Para entrenar LoST, introducimos la Alineación Relacional de Distancias Intermedias (RIDA), una novedosa pérdida de alineación semántica 3D que alinea la estructura relacional del espacio latente de la forma 3D con la del espacio de características semánticas DINO. Los experimentos muestran que LoST logra una reconstrucción SOTA, superando por amplios márgenes a los tokenizadores de formas 3D basados en LoD anteriores, tanto en métricas de reconstrucción geométrica como semántica. Además, LoST logra una generación 3D AR eficiente y de alta calidad, y permite tareas posteriores como la recuperación semántica, utilizando solo el 0,1%-10% de los tokens requeridos por modelos AR previos.

Mirar Antes de Actuar: Mejorando las Representaciones de las Fundaciones de Visión para Modelos de Visión-Lenguaje-Acción
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Los modelos Visión-Lenguaje-Acción (VLA) han surgido recientemente como un paradigma prometedor para la manipulación robótica, en el que la predicción fiable de acciones depende críticamente de interpretar e integrar con precisión las observaciones visuales condicionadas por instrucciones de lenguaje. Aunque trabajos recientes han buscado mejorar las capacidades visuales de los modelos VLA, la mayoría de los enfoques tratan al modelo de lenguaje grande (LLM) subyacente como una caja negra, proporcionando una comprensión limitada de cómo la información visual se fundamenta en la generación de acciones. Por lo tanto, realizamos un análisis sistemático de múltiples modelos VLA en diferentes paradigmas de generación de acciones y observamos que la sensibilidad a los tokens visuales disminuye progresivamente en las capas más profundas durante la generación de acciones. Motivados por esta observación, proponemos DeepVision-VLA, construido sobre un marco de Mezcla de Transformadores de Visión-Lenguaje (VL-MoT). Este marco permite una atención compartida entre el modelo base de visión y el modelo VLA, inyectando características visuales multinivel desde el experto en visión hacia las capas más profundas del modelo VLA para mejorar las representaciones visuales destinadas a una manipulación precisa y compleja. Adicionalmente, introducimos la Poda Visual Guiada por Acciones (AGVP), que aprovecha la atención de las capas superficiales para podar tokens visuales irrelevantes preservando los relevantes para la tarea, reforzando así las claves visuales críticas para la manipulación con una sobrecarga computacional mínima. DeepVision-VLA supera a los mejores métodos anteriores en un 9.0% y un 7.5% en tareas simuladas y del mundo real, respectivamente, proporcionando nuevas perspectivas para el diseño de modelos VLA visualmente mejorados.

BenchPreS: Un Benchmark para la Selectividad de Preferencias Personalizadas con Conciencia Contextual en LLMs de Memoria Persistente
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

Los grandes modelos de lenguaje (LLM) almacenan cada vez más las preferencias de los usuarios en memoria persistente para respaldar la personalización entre interacciones. Sin embargo, en entornos de comunicación con terceros regidos por normas sociales e institucionales, puede ser inapropiado aplicar algunas preferencias del usuario. Presentamos BenchPreS, que evalúa si las preferencias del usuario basadas en memoria se aplican o suprimen adecuadamente en distintos contextos de comunicación. Utilizando dos métricas complementarias, la Tasa de Mala Aplicación (MR) y la Tasa de Aplicación Apropiada (AAR), encontramos que incluso los LLM más avanzados tienen dificultades para aplicar preferencias de manera sensible al contexto. Los modelos con mayor adherencia a las preferencias muestran tasas más altas de aplicación excesiva, y ni la capacidad de razonamiento ni las defensas basadas en *prompts* resuelven completamente este problema. Estos resultados sugieren que los LLM actuales tratan las preferencias personalizadas como reglas aplicables globalmente, en lugar de como señales normativas dependientes del contexto.

Ganancias Temporales, Costos Espaciales: Reexaminando el Fine-Tuning de Video en Modelos de Lenguaje Grandes Multimodales
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

Los modelos de lenguaje multimodal (MLLM) se entrenan típicamente en múltiples etapas, donde el ajuste fino supervisado basado en vídeo (Video-SFT) constituye un paso clave para mejorar la comprensión visual. Sin embargo, su efecto en la evolución detallada de las capacidades visuales, particularmente el equilibrio entre la comprensión espacial y temporal, sigue siendo poco comprendido. En este artículo, estudiamos sistemáticamente cómo el Video-SFT remodela las capacidades visuales en los MLLM. A través de diversas arquitecturas, escalas de parámetros y configuraciones de muestreo de fotogramas, observamos un patrón consistente: el Video-SFT mejora de forma fiable el rendimiento en vídeo, pero a menudo produce ganancias limitadas o incluso degradación en puntos de referencia de imágenes estáticas. Demostramos además que esta disyuntiva está estrechamente ligada al presupuesto temporal: aumentar el número de fotogramas muestreados generalmente mejora el rendimiento en vídeo, pero no mejora de forma confiable el rendimiento en imágenes estáticas. Motivados por este hallazgo, estudiamos una estrategia Híbrida de Fotogramas consciente de la instrucción que asigna adaptivamente el número de fotogramas y mitiga parcialmente la disyuntiva imagen-vídeo. Nuestros resultados indican que el Video-SFT no es una solución gratuita para los MLLM, y que preservar la comprensión espacial sigue siendo un desafío central en el entrenamiento conjunto de imagen y vídeo.

ESPIRE: Un Punto de Referencia Diagnóstico para el Razonamiento Espacial Corporizado de Modelos de Visión y Lenguaje
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

Una tendencia reciente en los modelos de visión y lenguaje (VLM) ha sido mejorar su cognición espacial para dominios de IA incorporada. A pesar del progreso, las evaluaciones existentes han sido limitadas tanto en paradigma como en cobertura, obstaculizando el desarrollo rápido e iterativo de modelos. Para abordar estas limitaciones, proponemos ESPIRE, un benchmark de diagnóstico para el razonamiento espacial incorporado. ESPIRE ofrece un mundo simulado que fundamenta físicamente a los VLM y los evalúa en tareas robóticas centradas en el razonamiento espacial, reduciendo así la brecha entre la evaluación y el despliegue en el mundo real. Para adaptar los VLM a tareas robóticas, descomponemos cada tarea en localización y ejecución, y enmarcamos ambas como problemas generativos, en marcado contraste con las evaluaciones discriminativas predominantes (por ejemplo, mediante respuesta a preguntas visuales) que dependen de distractores y descartan la ejecución. Esta descomposición permite además un análisis granular que va más allá del razonamiento espacial pasivo hacia el razonamiento para actuar. Diseñamos ESPIRE sistemáticamente tanto a nivel de instrucción como a nivel de entorno, garantizando una amplia cobertura de escenarios de razonamiento espacial. Utilizamos ESPIRE para diagnosticar una gama de VLM de vanguardia y proporcionar un análisis en profundidad de sus comportamientos de razonamiento espacial.

V-JEPA 2.1: Desbloqueo de características densas en el aprendizaje autosupervisado de vídeo
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Presentamos V-JEPA 2.1, una familia de modelos auto-supervisados que aprenden representaciones visuales densas y de alta calidad tanto para imágenes como para vídeos, manteniendo al mismo tiempo una sólida comprensión global de la escena. El enfoque combina cuatro componentes clave. En primer lugar, una función de pérdida predictiva densa utiliza un objetivo basado en enmascaramiento en el que tanto los tokens visibles como los enmascarados contribuyen a la señal de entrenamiento, fomentando una localización espacial y temporal explícita. En segundo lugar, la auto-supervisión profunda aplica el objetivo auto-supervisado de forma jerárquica a través de múltiples capas intermedias del codificador para mejorar la calidad de la representación. En tercer lugar, tokenizadores multimodales permiten un entrenamiento unificado para imágenes y vídeos. Por último, el modelo se beneficia de un escalado efectivo tanto en capacidad del modelo como en datos de entrenamiento. En conjunto, estas decisiones de diseño producen representaciones que son espacialmente estructuradas, semánticamente coherentes y temporalmente consistentes. Empíricamente, V-JEPA 2.1 logra un rendimiento de vanguardia en varios benchmarks desafiantes, incluyendo 7.71 mAP en Ego4D para la anticipación de interacciones con objetos a corto plazo y 40.8 Recall@5 en EPIC-KITCHENS para la anticipación de acciones de alto nivel, así como una mejora de 20 puntos en la tasa de éxito de agarre con robots reales respecto a V-JEPA-2 AC. El modelo también demuestra un fuerte rendimiento en navegación robótica (5.687 ATE en TartanDrive), estimación de profundidad (0.307 RMSE en NYUv2 con un probe lineal) y reconocimiento global (77.7 en Something-Something-V2). Estos resultados muestran que V-JEPA 2.1 avanza significativamente el estado del arte en la comprensión visual densa y el modelado del mundo.

Modelo de Mundo Estéreo: Generación de Vídeo Estéreo Guiada por Cámara
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Presentamos StereoWorld, un modelo del mundo estéreo condicionado por cámara que aprende conjuntamente la apariencia y la geometría binocular para la generación end-to-end de vídeo estéreo. A diferencia de los enfoques monoculares RGB o RGBD, StereoWorld opera exclusivamente dentro de la modalidad RGB, mientras que fundamenta la geometría directamente a partir de la disparidad. Para lograr una generación estéreo consistente de manera eficiente, nuestro enfoque introduce dos diseños clave: (1) un RoPE unificado en el sistema de coordenadas de la cámara que aumenta los tokens latentes con una codificación posicional rotatoria consciente de la cámara, permitiendo un condicionamiento relativo, consistente en vista y tiempo mientras preserva *priors* de vídeo preentrenados mediante una inicialización estable de la atención; y (2) una descomposición de la atención consciente del estéreo que factoriza la atención 4D completa en atención 3D intra-vista más atención horizontal por filas, aprovechando la restricción epipolar para capturar correspondencias alineadas con la disparidad con un coste computacional sustancialmente menor. En varios *benchmarks*, StereoWorld mejora la consistencia estéreo, la precisión de la disparidad y la fidelidad del movimiento de cámara frente a potentes pipelines de conversión a partir de señales monoculares, logrando una generación más de 3 veces más rápida con una ganancia adicional del 5% en la consistencia del punto de vista. Más allá de los *benchmarks*, StereoWorld permite la renderización binocular de realidad virtual end-to-end sin estimación de profundidad o *inpainting*, mejora el aprendizaje de políticas de agentes embodidos mediante la fundamentación de la profundidad a escala métrica, y es compatible con la destilación de vídeos largos para una síntesis estéreo interactiva extendida.

AdaMem: Memoria Adaptativa Centrada en el Usuario para Agentes de Diálogo de Largo Horizonte
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

Los agentes de modelos de lenguaje grande (LLM) dependen cada vez más de la memoria externa para respaldar interacciones de largo horizonte, asistencia personalizada y razonamiento de múltiples pasos. Sin embargo, los sistemas de memoria existentes aún enfrentan tres desafíos centrales: a menudo dependen excesivamente de la similitud semántica, lo que puede pasar por alto evidencia crucial para la comprensión centrada en el usuario; frecuentemente almacenan experiencias relacionadas como fragmentos aislados, debilitando la coherencia temporal y causal; y típicamente utilizan granularidades de memoria estáticas que no se adaptan bien a los requisitos de diferentes preguntas. Proponemos AdaMem, un marco de memoria adaptativo y centrado en el usuario para agentes de diálogo de largo horizonte. AdaMem organiza el historial de diálogo en memorias de trabajo, episódica, de persona y de grafo, permitiendo al sistema preservar el contexto reciente, experiencias estructuradas a largo plazo, rasgos estables del usuario y conexiones conscientes de las relaciones dentro de un marco unificado. En el momento de la inferencia, AdaMem primero resuelve el participante objetivo, luego construye una ruta de recuperación condicionada por la pregunta que combina la recuperación semántica con la expansión de grafos consciente de las relaciones solo cuando es necesario, y finalmente produce la respuesta mediante una canalización especializada por roles para la síntesis de evidencia y la generación de respuestas. Evaluamos AdaMem en los benchmarks LoCoMo y PERSONAMEM para el razonamiento de largo horizonte y el modelado de usuarios. Los resultados experimentales muestran que AdaMem logra un rendimiento de vanguardia en ambos benchmarks. El código se liberará tras la aceptación.

Aprendizaje de Políticas Robóticas Conservadoras fuera de Línea mediante Reponderación de Transiciones Posteriores
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

La adaptación fuera de línea posterior al entrenamiento ajusta una política de robot preentrenada a un conjunto de datos objetivo mediante regresión supervisada sobre las acciones registradas. En la práctica, los conjuntos de datos de robots son heterogéneos: mezclan embodimientos, configuraciones de cámaras y demostraciones de calidad variable, por lo que muchas trayectorias reflejan comportamientos de recuperación, habilidad inconsistente del operador o supervisión débilmente informativa. El post-entrenamiento uniforme otorga el mismo crédito a todas las muestras y, por lo tanto, puede promediar datos conflictivos o de baja atribución. Proponemos el Reponderación por Transición Posterior (PTR, por sus siglas en inglés), un método de post-entrenamiento conservador y libre de recompensas que decide cuánto debe influir cada muestra de entrenamiento en la actualización supervisada. Para cada muestra, PTR codifica la consecuencia post-acción observada como un objetivo latente, la inserta en un grupo candidato de objetivos no coincidentes y utiliza un evaluador de transiciones separado para estimar un posterior de identificación softmax sobre los índices objetivo. La relación posterior-a-uniforme define la puntuación PTR, que se convierte en un peso recortado y mezclado y se aplica al objetivo de acción original mediante regresión ponderada auto-normalizada. Esta construcción no requiere una verosimilitud de política tratable y es compatible tanto con cabezales de acción de difusión como de coincidencia de flujos. En lugar de confiar uniformemente en toda la supervisión registrada, PTR reasigna el crédito según cuán atribuible sea la consecuencia post-acción de cada muestra bajo la representación actual, mejorando la adaptación conservadora fuera de línea a datos de robots heterogéneos.

Exploración Eficiente a Gran Escala
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Desarrollamos un algoritmo de aprendizaje en línea que mejora drásticamente la eficiencia de datos del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Nuestro algoritmo actualiza incrementalmente los modelos de recompensa y lenguaje a medida que se reciben datos de elección. El modelo de recompensa se ajusta a los datos de elección, mientras que el modelo de lenguaje se actualiza mediante una variación de "reinforce", con señales de refuerzo proporcionadas por el modelo de recompensa. Varias características permiten las ganancias de eficiencia: un pequeño empujón afirmativo añadido a cada señal de refuerzo, una red neuronal epistémica que modela la incertidumbre de la recompensa y una exploración dirigida por información. Utilizando modelos de lenguaje grande (LLM) Gemma, nuestro algoritmo iguala el rendimiento del RLHF fuera de línea entrenado con 200.000 etiquetas utilizando menos de 20.000 etiquetas, lo que representa una ganancia de más de 10 veces en eficiencia de datos. Extrapolando nuestros resultados, esperamos que nuestro algoritmo entrenado con 1 millón de etiquetas iguale al RLHF fuera de línea entrenado con 1.000 millones de etiquetas. Esto representa una ganancia de 1.000 veces. Hasta donde sabemos, estos son los primeros resultados que demuestran que mejoras tan grandes son posibles.

Puntuación Unificada de Tokens Espacio-Temporales para Video VLMs Eficientes
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

La poda de tokens es esencial para mejorar la eficiencia computacional de los modelos de visión y lenguaje (VLM), particularmente en tareas basadas en video donde la redundancia temporal es prevalente. Los enfoques anteriores normalmente podan tokens ya sea (1) dentro del transformador de visión (ViT) exclusivamente para tareas de percepción unimodal como reconocimiento de acciones y segmentación de objetos, sin adaptarse a tareas posteriores de visión y lenguaje; o (2) solo dentro del LLM dejando intacta la salida del ViT, lo que a menudo requiere mecanismos complejos de selección de tokens condicionados por texto. En este artículo, presentamos la Puntuación Espacio-Temporal de Tokens (STTS), un módulo simple y liviano que poda tokens de visión tanto en el ViT como en el LLM sin condicionamiento textual o fusión de tokens, y es totalmente compatible con el entrenamiento de extremo a extremo. Al aprender a puntuar temporalmente mediante una pérdida auxiliar y espacialmente mediante los gradientes descendentes del LLM, ayudado por nuestro algoritmo eficiente de empaquetamiento, STTS poda el 50% de los tokens de visión en toda la arquitectura, lo que resulta en una mejora del 62% en la eficiencia durante tanto el entrenamiento como la inferencia, con solo una caída del 0.7% en el rendimiento promedio en 13 tareas de QA de video cortos y largos. Las ganancias de eficiencia aumentan con más frames muestreados por video. La aplicación de escalado en tiempo de prueba para QA de videos largos produce además ganancias de rendimiento de 0.5-1% en comparación con la línea base. En general, STTS representa una técnica novedosa, simple pero efectiva para la poda unificada de tokens de visión en toda la arquitectura.

Enrutamiento por Umbral Experto para Modelado de Lenguaje Autoregresivo con Asignación Dinámica de Cálculo y Balanceo de Carga
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

El modelo Token-choice Mixture-of-Experts (TC-MoE) enruta cada token a un número fijo de expertos, lo que limita la asignación dinámica de cálculo y requiere pérdidas auxiliares para mantener el equilibrio de carga. Proponemos el enrutamiento por Umbral de Experto (ET), donde cada experto mantiene un umbral de media móvil exponencial (EMA) estimado a partir de la distribución global de tokens. Tanto durante el entrenamiento como en la inferencia, cada token se enruta de forma independiente a un experto si su puntuación supera el umbral del experto, permitiendo una asignación dinámica de cálculo mientras se logra equilibrio de carga sin pérdidas auxiliares. Este mecanismo completamente causal elimina la dependencia de otros tokens en el lote, haciéndolo ideal para el modelado de lenguaje autoregresivo. En experimentos de preentrenamiento escalando hasta 2.4B de parámetros en FineWeb-Edu, ET logra una pérdida de entropía cruzada 0.067 menor que TC-MoE, equivalente a alcanzar el mismo rendimiento con 1.6 veces menos tokens.

RAMP: Cuantización de Precisión Mixta Adaptativa por Refuerzo para una Inferencia Eficiente de LLM en Dispositivo
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

La cuantización posterior al entrenamiento es esencial para implementar modelos de lenguaje grandes (LLM) en hardware con recursos limitados; sin embargo, los métodos de vanguardia imponen anchos de bits uniformes en todas las capas, lo que produce compensaciones de precisión y eficiencia subóptimas. Presentamos RAMP (Precisión Mixta Adaptativa por Refuerzo), un marco fuera de política Soft Actor-Critic que aprende asignaciones de ancho de bits por capa para minimizar la perplejidad bajo un presupuesto global de bits. La política se condiciona sobre una incrustación de 11 dimensiones de estadísticas de activación, propiedades de los pesos y descriptores estructurales, permitiendo la transferencia *zero-shot* entre familias de modelos y escalas. Para permitir una cuantización estable por debajo de 4 bits, introducimos Scale Folding, una técnica de preacondicionamiento que migra los valores atípicos (*outliers*) de las activaciones a los pesos mediante escalado por canal y compensación en las capas de normalización. Una recompensa priorizada por la calidad, con penalizaciones asimétricas y "precipicios" presupuestarios, impulsa una rápida convergencia. En Llama 2 7B, RAMP logra una perplejidad de 5.54 a 3.68 GB (3.65 bits efectivos), superando a AWQ de 4 bits uniforme (5.60 a 3.90 GB) y a GPTQ en un 6% en tamaño y entre un 1% y un 3% en calidad. De manera crucial, una política entrenada únicamente en Llama 2 7B se generaliza *zero-shot* a Llama 2 13B y Mistral 7B, a menudo superando al entrenamiento específico por objetivo, respaldando la hipótesis de que la sensibilidad a la cuantización es principalmente arquitectónica. La canalización HALO exporta las asignaciones al formato GGUF para inferencia sin *kernels* específicos en CPU, GPU y dispositivos periféricos, manteniendo el 99.5% del rendimiento de razonamiento de sentido común en FP16.

LaDe: Generación y Descomposición Unificada de Medios Gráficos Multicapa
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

La generación de capas de diseño multimedia permite la creación de documentos de diseño completamente editables y en capas, como pósteres, folletos y logotipos, utilizando únicamente instrucciones en lenguaje natural. Los métodos existentes restringen las salidas a un número fijo de capas o requieren que cada capa contenga únicamente regiones espacialmente continuas, lo que provoca que el número de capas escale linealmente con la complejidad del diseño. Proponemos LaDe (Layered Media Design), un marco de difusión latente que genera un número flexible de capas semánticamente significativas. LaDe combina tres componentes: un expansor de instrucciones basado en LLM que transforma una intención breve del usuario en descripciones estructuradas por capas que guían la generación, un Transformer de Difusión Latente con un mecanismo de codificación posicional RoPE 4D que genera conjuntamente el diseño multimedia completo y sus capas RGBA constituyentes, y un VAE RGBA que decodifica cada capa con soporte completo para el canal alfa. Al condicionar con muestras de capas durante el entrenamiento, nuestro marco unificado soporta tres tareas: generación de imagen a partir de texto, generación de diseño multimedia en capas a partir de texto y descomposición de diseño multimedia. Comparamos LaDe con Qwen-Image-Layered en las tareas de texto-a-capas e imagen-a-capas en el conjunto de prueba Crello. LaDe supera a Qwen-Image-Layered en la generación de texto-a-capas al mejorar la alineación entre el texto y las capas, según lo validado por dos evaluadores VLM-como-juez (GPT-4o mini y Qwen3-VL).

Predicción Eficiente de Múltiples Tokens sin Entrenamiento mediante Sondeo del Espacio de Incrustación
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

Los modelos de lenguaje grandes (LLM) exhiben capacidades latentes de predicción de múltiples tokens (MTP) a pesar de ser entrenados únicamente para la generación del siguiente token. Proponemos un enfoque MTP simple y libre de entrenamiento que sondea un LLM utilizando tokens de enmascaramiento generados sobre la marcha extraídos de su espacio de incrustación, permitiendo la predicción paralela de tokens futuros sin modificar los pesos del modelo ni depender de modelos auxiliares de borrador. Nuestro método construye un árbol especulativo de tokens muestreando los K mejores candidatos de los logits de los tokens de enmascaramiento y aplica una estrategia ligera de poda para retener las continuaciones de alta probabilidad. Durante la decodificación, las predicciones candidatas se verifican en paralelo, lo que resulta en una generación sin pérdidas mientras se reduce sustancialmente el número de llamadas al modelo y se mejora el rendimiento de tokens. En diversos benchmarks, nuestro MTP basado en sondeo supera consistentemente a los baselines existentes libres de entrenamiento, aumentando la longitud de aceptación aproximadamente un 12% en LLaMA3 y entre un 8-12% en Qwen3, y logrando ganancias de rendimiento de hasta un 15-19%. Finalmente, aportamos perspectivas teóricas y evidencia empírica que muestran que las capas decodificadoras alinean naturalmente las representaciones de los tokens de enmascaramiento con los estados del siguiente token, permitiendo una predicción multi-paso precisa sin reentrenamiento ni modelos auxiliares.

ACE-LoRA: Mejora de Contexto con Atención Grafo para la Adaptación Eficiente en Parámetros de Modelos Médicos de Visión y Lenguaje
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

El éxito de los modelos de visión y lenguaje (VLMs) similares a CLIP en imágenes naturales ha inspirado a sus contrapartes médicas; sin embargo, los enfoques existentes se dividen en gran medida en dos extremos: modelos especialistas entrenados con datos de un solo dominio, que capturan detalles específicos del dominio pero generalizan pobremente, y modelos generalistas médicos entrenados con datos multi-dominio, que retienen semántica amplia pero diluyen las pistas diagnósticas de grano fino. Salvar esta disyuntiva entre especialización y generalización sigue siendo un reto. Para abordar este problema, proponemos ACE-LoRA, un marco de adaptación eficiente en parámetros para VLMs médicos generalistas que mantiene una robusta generalización zero-shot. ACE-LoRA integra módulos de Adaptación de Bajo Rango (LoRA) en codificadores de imagen-texto congelados e introduce un módulo de Red de Grafos Hiperbólicos de Mejora de Contexto basada en Atención (ACE-HGNN) que captura interacciones contextuales de orden superior más allá de la similitud por pares para enriquecer las representaciones globales con pistas diagnósticas localizadas, abordando una limitación clave de los métodos previos de Fine-Tuning Eficiente en Parámetros (PEFT) que pasan por alto los detalles de grano fino. Para mejorar aún más la alineación cross-modal, formulamos una pérdida InfoNCE guiada por etiquetas para suprimir eficazmente los falsos negativos entre pares imagen-texto semánticamente relacionados. A pesar de añadir solo 0.95 millones de parámetros entrenables, ACE-LoRA supera consistentemente a los VLMs médicos más avanzados y a los baselines de PEFT en benchmarks zero-shot de clasificación, segmentación y detección que abarcan múltiples dominios. Nuestro código está disponible en https://github.com/icon-lab/ACE-LoRA.

De Principiante a Profesional: Dominio Eficiente de Habilidades mediante Ajuste Fino RL con Contracción de Distribución
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Presentamos Distribution Contractive Reinforcement Learning (DICE-RL), un marco que utiliza el aprendizaje por refuerzo (RL) como un operador de "contracción de distribución" para refinar políticas generativas preentrenadas en robótica. DICE-RL convierte un prior de comportamiento preentrenado en una política "profesional" de alto rendimiento mediante la amplificación de comportamientos de alto éxito a partir de retroalimentación en línea. Preentrenamos una política basada en difusión o flujo para una amplia cobertura conductual, y luego la ajustamos con un marco estable y eficiente en muestras de RL residual fuera de política que combina una regularización conductual selectiva con una selección de acciones guiada por valores. Experimentos y análisis exhaustivos demuestran que DICE-RL mejora de manera confiable el rendimiento con una sólida estabilidad y eficiencia de muestreo. Permite dominar habilidades complejas de manipulación de horizonte largo directamente desde entradas de píxeles de alta dimensión, tanto en simulación como en un robot real. Sitio web del proyecto: https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas: Navegación en Vídeos de Larga Duración con Cómputo Logarítmico
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

Extender los modelos de lenguaje al video introduce dos desafíos: la representación, donde los métodos existentes dependen de aproximaciones con pérdidas, y el contexto largo, donde los flujos basados en descripciones o agentes comprimen el video en texto y pierden fidelidad visual. Para superar esto, presentamos VideoAtlas, un entorno independiente de la tarea para representar video como una cuadrícula jerárquica que es simultáneamente sin pérdidas, navegable, escalable, y libre de descripciones y preprocesamiento. Una visión general del video está disponible de un vistazo, y cualquier región puede ampliarse recursivamente, utilizando la misma representación visual de manera uniforme para el video, las investigaciones intermedias y la memoria del agente, eliminando la conversión a texto con pérdidas de extremo a extremo. Esta estructura jerárquica garantiza que la profundidad de acceso crezca solo logarítmicamente con la duración del video. Para el contexto largo, los Modelos de Lenguaje Recursivos (RLM) ofrecieron recientemente una solución poderosa para texto largo, pero extenderlos al dominio visual requiere un entorno estructurado en el que recursar, el cual proporciona VideoAtlas. VideoAtlas como un Proceso de Decisión de Markov desbloquea Video-RLM: una arquitectura paralela Maestro-Trabajador donde un Maestro coordina la exploración global mientras los Trabajadores perforan concurrentemente en regiones asignadas para acumular evidencia visual sin pérdidas. Demostramos tres hallazgos clave: (1)~crecimiento computacional logarítmico con la duración del video, amplificado aún más por una tasa de aciertos de caché multimodal del 30-60% que surge de la reutilización estructural de la cuadrícula. (2)~presupuestación del entorno, donde acotar la profundidad máxima de exploración proporciona un hiperparámetro de precisión-computación fundamentado. (3)~asignación computacional adaptativa emergente que escala con la granularidad de la pregunta. Al escalar desde puntos de referencia de 1 hora a 10 horas, Video-RLM sigue siendo el método más robusto frente a la duración, con una degradación mínima de la precisión, demostrando que la navegación en entornos estructurados es un paradigma viable y escalable para la comprensión de video.

FINER: Los MLLM Alucinan ante Consultas Negativas de Grano Fino
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

Los modelos de lenguaje multimodal (MLLM) presentan dificultades con las alucinaciones, especialmente en consultas de grano fino, un desafío subrepresentado en los puntos de referencia existentes que se centran en preguntas generales sobre imágenes. Presentamos FIne-grained NEgative queRies (FINER), junto con dos benchmarks: FINER-CompreCap y FINER-DOCCI. Utilizando FINER, analizamos las alucinaciones en cuatro escenarios: preguntas sobre múltiples objetos, múltiples atributos, múltiples relaciones y preguntas de tipo "qué". Nuestros benchmarks revelan que los MLLM alucinan cuando los desajustes de grano fino coinciden con elementos genuinamente presentes en la imagen. Para abordar esto, proponemos FINER-Tuning, aprovechando la Optimización de Preferencia Directa (DPO) en datos inspirados por FINER. El ajuste fino de cuatro MLLM de vanguardia con FINER-Tuning produce mejoras de hasta el 24.2% (InternVL3.5-14B) en las alucinaciones según nuestros benchmarks, al mismo tiempo que mejora el rendimiento en ocho suites de alucinación existentes y potencia las capacidades multimodales generales en seis benchmarks. El código, los benchmarks y los modelos están disponibles en https://explainableml.github.io/finer-project/.

HeBA: Adaptadores Heterogéneos de Cuello de Botella para Modelos Robusto de Visión y Lenguaje
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

La adaptación de modelos de visión y lenguaje (VLM) a gran escala, como CLIP, a tareas específicas suele adolecer de un enfoque arquitectónico "universal", donde los tokens visuales y textuales se procesan de manera uniforme mediante adaptadores genéricos y amplios. Sostenemos que esta homogeneidad ignora la naturaleza estructural distintiva de las modalidades: la localidad espacial en las imágenes frente a la densidad semántica en el texto. Para abordar esto, proponemos HeBA (Heterogeneous Bottleneck Adapter), un marco arquitectónico unificado que introduce sesgos inductivos estructurales específicos por modalidad. HeBA se aparta de los diseños convencionales mediante tres innovaciones arquitectónicas clave: (1) Heterogeneidad: Procesa los tokens visuales mediante convoluciones separables en profundidad 2D para preservar las correlaciones espaciales, mientras que procesa distintivamente los tokens de texto mediante proyecciones lineales densas para capturar relaciones semánticas; (2) Regularización por Cuello de Botella: A diferencia de los adaptadores expansivos estándar, HeBA emplea un cuello de botella de compresión (D -> D/4) que fuerza explícitamente al modelo a aprender características compactas y robustas y actúa como un regularizador estructural; y (3) Inicialización Activa de Gradientes: Desafiamos el paradigma restrictivo de la inicialización cero, utilizando una estrategia de inicialización Kaiming que garantiza un flujo de gradiente inicial suficiente para acelerar la convergencia sin comprometer el conocimiento preentrenado del backbone congelado. Experimentos exhaustivos demuestran que el diseño arquitectónicamente especializado de HeBA logra una estabilidad y precisión superiores, estableciendo un nuevo estado del arte en 11 benchmarks de pocos ejemplos. El código está disponible en https://github.com/Jahid12012021/VLM-HeBA.

Científico de IA mediante Escalado de Tareas Sintéticas
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

Con la llegada de los agentes de IA, el descubrimiento científico automático se ha convertido en un objetivo alcanzable. Muchos trabajos recientes estructuran sistemas agentes que pueden realizar investigación en aprendizaje automático, pero no ofrecen una forma sistemática de entrenar a dichos agentes, y los LLM actuales a menudo generan ideas que parecen plausibles pero son ineficaces. Para avanzar en el entrenamiento de agentes que puedan aprender haciendo, proporcionamos una novedosa pipeline de generación de entornos sintéticos dirigida a agentes de aprendizaje automático. Nuestra pipeline sintetiza automáticamente desafíos de aprendizaje automático compatibles con el framework SWE-agent, abarcando el muestreo de temas, la propuesta de conjuntos de datos y la generación de código. Las tareas sintéticas resultantes están 1) basadas en conjuntos de datos reales de aprendizaje automático, ya que los conjuntos de datos propuestos se verifican contra la API de Huggingface, y 2) verificadas para una mayor calidad mediante un bucle de auto-depuración. Para validar la efectividad de nuestras tareas sintéticas, abordamos MLGym, un benchmark para tareas de aprendizaje automático. A partir de las tareas sintéticas, muestreamos trayectorias de un modelo profesor (GPT-5) y luego utilizamos las trayectorias para entrenar un modelo estudiante (Qwen3-4B y Qwen3-8B). Los modelos estudiantes entrenados con nuestras tareas sintéticas logran un rendimiento mejorado en MLGym, incrementando la métrica AUP en un 9% para Qwen3-4B y en un 12% para Qwen3-8B.

AdapterTune: Adaptadores de Bajo Rango Inicializados en Cero para Transformadores de Visión Congelados
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

La transferencia con *backbone* congelado en *Vision Transformers* enfrenta dos problemas poco abordados: la inestabilidad de optimización cuando los adaptadores se insertan de manera ingenua en un extractor de características fijo, y la ausencia de una guía fundamentada para establecer la capacidad del adaptador. Presentamos AdapterTune, que aumenta cada bloque *transformer* con un cuello de botella residual de bajo rango cuya proyección ascendente se inicializa en cero, garantizando que la red adaptada comience exactamente en la función preentrenada y eliminando la deriva de las representaciones en las primeras épocas. En el aspecto analítico, formalizamos el rango del adaptador como un presupuesto de capacidad para aproximar los desplazamientos de la tarea objetivo en el espacio de características. La descomposición de exceso de riesgo resultante predice ganancias de precisión monótonas pero decrecientes con el aumento del rango, un comportamiento de "codo" que confirmamos mediante barridos controlados. Evaluamos en 9 conjuntos de datos y 3 escalas de *backbone* con reportes multi-semilla en todos los casos. En un conjunto central de 5 conjuntos de datos para transferencia, AdapterTune mejora la precisión *top-1* respecto a la transferencia solo con cabezal en +14.9 puntos en promedio, mientras entrena solo el 0.92% de los parámetros requeridos por el ajuste fino completo, y supera al ajuste fino completo en 10 de 15 pares conjunto de datos-*backbone*. En todo el benchmark, AdapterTune mejora respecto a la transferencia solo con cabezal en cada par conjunto de datos-*backbone* probado. Las ablaciones sobre rango, ubicación e inicialización aíslan cada decisión de diseño. El código está disponible en: https://github.com/salimkhazem/adaptertune

Reconstrucción Coherente de Humanos y Escenas a partir de Vídeo Multi-Vista Multi-Persona en una Única Pasada
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Los recientes avances en modelos fundacionales 3D han generado un creciente interés en la reconstrucción de humanos y sus entornos circundantes. Sin embargo, la mayoría de los enfoques existentes se centran en entradas monoculares, y extenderlos a configuraciones multi-vista requiere módulos adicionales o datos preprocesados. Con este fin, presentamos CHROMM, un marco unificado que estima conjuntamente cámaras, nubes de puntos de la escena y mallas humanas a partir de vídeos multi-vista con múltiples personas, sin depender de módulos externos o preprocesamiento. Integramos fuertes conocimientos previos geométricos y humanos de Pi3X y Multi-HMR en una única arquitectura de red neuronal entrenable, e introducimos un módulo de ajuste de escala para resolver la discrepancia de escala entre los humanos y la escena. También introducimos una estrategia de fusión multi-vista para agregar las estimaciones por vista en una única representación en tiempo de prueba. Finalmente, proponemos un método de asociación multi-persona basado en geometría, que es más robusto que los enfoques basados en apariencia. Los experimentos en EMDB, RICH, EgoHumans y EgoExo4D muestran que CHROMM logra un rendimiento competitivo en la estimación de movimiento humano global y de pose multi-vista, mientras se ejecuta más de 8 veces más rápido que los enfoques multi-vista anteriores basados en optimización. Página del proyecto: https://nstar1125.github.io/chromm.

PRISM: Desmitificando la Retención y la Interacción en la Fase Intermedia del Entrenamiento
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Presentamos PRISM, un estudio empírico integral sobre las decisiones de diseño durante el entrenamiento intermedio para modelos de lenguaje a gran escala. Mediante experimentos controlados con siete modelos base que abarcan cuatro familias (Granite, LLaMA, Mistral, Nemotron-H), dos tipos de arquitectura (Transformer denso e híbrido atención-Mamba) y escalas de 3B a 24B de parámetros, demostramos que el entrenamiento intermedio con aproximadamente 27B de tokens de alta calidad produce ganancias consistentes de +15 a +40 puntos en matemáticas, +5 a +12 puntos en código y +6 a +13 puntos en benchmarks de ciencias, preservando el rendimiento general. La canalización completa PRISM a RL mejora el promedio macro en seis benchmarks de razonamiento de menos de 12 a 29-42 (una mejora de 3-4x), mientras que el RL aplicado directamente a la mayoría de los modelos base sigue siendo sustancialmente menos efectivo, con puntuaciones AIME cercanas a cero. La composición de los datos es más importante durante el entrenamiento intermedio, no en el RL: incluir datos científicos durante el entrenamiento intermedio desbloquea ganancias de +17 a +28 puntos en GPQA-Diamond durante el RL, mientras que cambiar la mezcla de RL produce diferencias menores a 2 puntos. Mecanísticamente, el entrenamiento intermedio reestructura densamente más del 90% de los pesos del modelo, mientras que el RL realiza refinamientos escasos y frontales a aproximadamente el 5% de los parámetros. El análisis de representaciones (CKA) confirma que el RL preserva consistentemente la geometría representacional del entrenamiento intermedio (CKA superior a 0.998) en todas las arquitecturas. Crucialmente, el RL aplica cambios de peso idénticos independientemente del punto de partida, pero solo tiene éxito en modelos con entrenamiento intermedio, lo que es consistente con la idea de que dicho entrenamiento coloca al modelo en una configuración desde la cual el RL puede mejorar efectivamente el rendimiento. Nuestros resultados demuestran que el entrenamiento intermedio consciente de la retención es altamente efectivo para la mejora confiable del razonamiento y proporcionan una guía práctica para diseñar canalizaciones robustas de entrenamiento intermedio.

Fanar-Sadiq: Una Arquitectura Multi-Agente para Preguntas y Respuestas Islámicas Fundamentadas
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

Los grandes modelos de lenguaje (LLM) pueden responder con fluidez a consultas de conocimiento religioso, pero a menudo alucinan y atribuyen erróneamente las fuentes, lo cual es especialmente problemático en contextos islámicos, donde los usuarios esperan un fundamento en los textos canónicos (Corán y Hadiz) y matices jurisprudenciales (fiqh). La generación aumentada por recuperación (RAG) reduce algunas de estas limitaciones al fundamentar la generación en evidencia externa. Sin embargo, un único pipeline de "recuperar y luego generar" es limitado para manejar la diversidad de consultas islámicas. Los usuarios pueden solicitar escrituras textuales, orientación al estilo de fatwas con citas o cálculos restringidos por reglas, como el zakat y la herencia, que requieren invariantes aritméticos y legales estrictos. En este trabajo, presentamos un asistente islámico multilingüe (árabe/inglés) y multiagente, llamado Fanar-Sadiq, que es un componente central de la plataforma Fanar AI. Fanar-Sadiq dirige las consultas relacionadas con el islam a módulos especializados dentro de una arquitectura agentica que utiliza herramientas. El sistema admite el enrutamiento consciente de la intención, respuestas de fiqh fundamentadas en recuperación con normalización determinista de citas y trazas de verificación, búsqueda exacta de versículos con validación de citas, y calculadoras deterministas para el zakat y la herencia sunitas con ramificación sensible a la madhhab. Evaluamos el sistema completo de extremo a extremo en benchmarks públicos de preguntas y respuestas islámicas y demostramos su eficacia y eficiencia. Nuestro sistema es actualmente de acceso público y gratuito a través de una API y una aplicación web, y ha sido accedido aproximadamente 1.9 millones de veces en menos de un año.