HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

62 papers found

GrepSeek: Entrenamiento de agentes de búsqueda para la interacción directa con el corpus
GrepSeek: Training Search Agents for Direct Corpus Interaction

May 28

ByAlireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

Los agentes de búsqueda basados en Modelos de Lenguaje de Gran Escala (LLM) han mostrado un gran potencial para tareas lingüísticas intensivas en conocimiento a través de múltiples rondas de razonamiento y recuperación de información. La mayoría de los sistemas existentes acceden a la información mediante un recuperador que toma una consulta en lenguaje natural o con palabras clave y devuelve una lista clasificada de documentos utilizando un índice de representaciones de documentos precalculadas. En este trabajo, exploramos una perspectiva complementaria en la que el agente de búsqueda trata el propio corpus como entorno de búsqueda y encuentra evidencia mediante la emisión de comandos de shell ejecutables. Presentamos GrepSeek, un agente de búsqueda optimizado de interacción directa con el corpus (DCI) que entrena un agente de búsqueda compacto para encontrar, filtrar y componer evidencia a partir de grandes corpus de texto. Para abordar la inestabilidad del comportamiento de aprendizaje directamente con aprendizaje por refuerzo en corpus grandes, proponemos un pipeline de entrenamiento en dos etapas. Primero, construimos un conjunto de datos de arranque en frío utilizando un Tutor consciente de la respuesta y un Planificador ciego a la respuesta para generar trayectorias de búsqueda verificadas y causalmente fundamentadas. Segundo, refinamos la política inicializada con Optimización Relativa de Políticas por Grupo (GRPO), permitiendo que el agente mejore su comportamiento de búsqueda orientado a tareas mediante la interacción directa con el corpus. Para hacer que DCI sea práctico a escala, utilizamos además un motor de ejecución paralela fragmentada que preserva la semántica, acelerando la recuperación basada en shell hasta 7.6 veces, mientras mantiene una equivalencia exacta a nivel de bytes con la ejecución secuencial del comando de shell. Los experimentos en siete puntos de referencia de respuesta a preguntas en dominio abierto muestran que GrepSeek logra los mejores resultados generales en F_1 a nivel de token y Coincidencia Exacta. Nuestro análisis también destaca las limitaciones de la interacción puramente léxica en consultas con variación sustancial en la forma superficial, sugiriendo que DCI es un método práctico y competitivo para agentes de búsqueda que puede complementar los paradigmas de recuperación existentes en el mundo real.

COLLEAGUE.SKILL: Generación Automatizada de Habilidades de IA mediante Destilación de Conocimiento Experto
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

May 29

ByTianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu

Se espera cada vez más que los agentes LLM no solo completen tareas aisladas, sino que también incorporen representaciones acotadas de la experiencia, el juicio y el estilo de interacción humanos. Construir dichos agentes fundamentados en la persona sigue siendo difícil porque el conocimiento accionable asociado a una persona o rol suele estar incrustado en trazas heterogéneas, en lugar de estar escrito como instrucciones claras. Los sistemas de memoria y persona existentes capturan fragmentos de esta evidencia, mientras que los marcos de habilidades proporcionan formatos de empaquetado portátiles; sin embargo, no existe un flujo de trabajo integral para destilar estas trazas en habilidades inspeccionables, corregibles y utilizables por el agente. Presentamos un sistema automatizado de destilación de trazas a habilidades para generar habilidades de IA fundamentadas en la persona mediante destilación de conocimiento experto. Dados los materiales de una persona o rol objetivo, COLLEAGUE.SKILL produce un paquete de habilidades versionado con dos vertientes coordinadas: una vertiente de capacidad para prácticas, modelos mentales y heurísticas de decisión, y una vertiente de comportamiento acotado para el estilo de comunicación, las reglas de interacción y el historial de correcciones. El paquete puede inspeccionarse, invocarse, actualizarse mediante retroalimentación en lenguaje natural, revertirse, instalarse en distintos hosts de agentes y, opcionalmente, prepararse para distribución controlada. Describimos el contrato del artefacto, el flujo de trabajo de generación, el ciclo de vida de corrección, la superficie de despliegue y los ajustes predefinidos de dominio implementados en el sistema de código abierto. Al momento de escribir este artículo, el repositorio público cuenta con aproximadamente 18.5 mil estrellas en GitHub; la galería enumera 215 habilidades de 165 colaboradores y más de 100 mil estrellas acumuladas en las tarjetas de habilidades listadas. El sistema ilustra cómo las habilidades fundamentadas en la persona pueden representarse como paquetes portátiles y corregibles, en lugar de indicaciones opacas o memorias ocultas.

Mezcla de Comportamientos en Región de Confianza para Destilación On-Policy
Trust-Region Behavior Blending for On-Policy Distillation

May 29

ByDaniil Plyusov, Alexey Gorbatovski, Alexey Malakhov, Nikita Balagansky, Boris Shaposhnikov, Daria Korotyshova, Daniil Gavrilov

La destilación en política (On-Policy Distillation, OPD) entrena a un estudiante con prefijos muestreados de su propia política, mientras iguala a un profesor más fuerte. Esto aborda el desajuste de prefijos de la destilación fuera de línea, pero las simulaciones tempranas del estudiante aún pueden ser deficientes, colocando la supervisión del profesor sobre prefijos débiles o de baja calidad. Proponemos la Mezcla de Comportamiento con Región de Confianza (Trust-Region behavior Blending, TRB), un método de calentamiento que reemplaza la política de simulación temprana con la política de comportamiento más cercana al profesor dentro de una región de confianza KL centrada en el estudiante, mientras mantiene inalterada la pérdida OPD de KL inversa por prefijo. El presupuesto KL se atenúa hasta cero, de modo que el entrenamiento retorna a simulaciones puras del estudiante tras el calentamiento. En dos entornos de destilación de razonamiento matemático, TRB alcanza el promedio más fuerte entre los métodos comparados.

Forzado de Representación para Modelos Multimodales Unificados sin Cuellos de Botella
Representation Forcing for Bottleneck-Free Unified Multimodal Models

May 29

ByYuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu

Modelos multimodales unificados (UMMs) buscan manejar la percepción y la generación en un solo modelo. Sin embargo, los UMMs existentes aún dependen de un VAE congelado, preentrenado por separado, para la generación de imágenes, lo que impone un cuello de botella estructural. Eliminarlo ingenuamente introduce una brecha de calidad, ya que el modelo debe aprender tanto la estructura de alto nivel como los detalles de bajo nivel a partir de píxeles en bruto. En este artículo, proponemos Representation Forcing (RF), una técnica que cierra esta brecha al hacer que la predicción de representaciones sea una capacidad nativa del modelo. Concretamente, RF obliga al decodificador a predecir autorregresivamente representaciones visuales como tokens intermedios antes que los píxeles; estos tokens luego permanecen en contexto para guiar la difusión de píxeles dentro del mismo backbone. Al convertir las representaciones de salidas de percepción en objetivos de generación, RF elimina la necesidad de cualquier espacio latente generativo externo. Encontramos que RF beneficia tanto la comprensión como la generación. En generación de imágenes, nuestro modelo en espacio de píxeles con RF iguala a los modelos unificados basados en VAE de última generación. En comprensión de imágenes, RF en espacio de píxeles generalmente supera a su variante basada en VAE. En conjunto, estos resultados ofrecen un paso efectivo hacia UMMs de extremo a extremo y sin cuellos de botella.

Informe Técnico de Mellum2
Mellum2 Technical Report

May 29

ByMarko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko

Presentamos Mellum 2, un modelo de lenguaje de mezcla de expertos (MoE) con pesos abiertos, de 12B parámetros y 2.5B parámetros activos por token. Mellum 2 es un modelo de lenguaje de propósito general especializado en ingeniería de software, que abarca generación y edición de código, depuración, razonamiento multi-paso, uso de herramientas y llamada a funciones, codificación agente y asistencia conversacional en programación; es el sucesor del modelo denso Mellum de 4B enfocado en finalización. La arquitectura se basa en la mezcla de expertos (64 expertos, 8 activos) y combina atención de consulta agrupada con 4 cabezas KV, atención de ventana deslizante en tres de cada cuatro capas, y una única cabeza de predicción de múltiples tokens que funciona tanto como objetivo auxiliar de preentrenamiento como modelo borrador integrado para decodificación especulativa; cada elección fue validada mediante ablación, con la eficiencia de inferencia en GPU comerciales como restricción de diseño. El preentrenamiento abarca aproximadamente 10.6 billones de tokens a través de un currículo de tres fases que desplaza progresivamente la mezcla de datos web diversos hacia contenido curado de código y matemáticas, optimizado con Muon bajo precisión híbrida FP8 y un programa de calentamiento, mantenimiento y decaimiento lineal hasta cero. La base preentrenada se extiende a una ventana de contexto de 128K mediante YaRN selectivo por capas, y luego se posentrena en dos etapas (ajuste fino supervisado seguido de RLVR), produciendo dos variantes publicadas: un modelo Instruct que responde directamente y un modelo Thinking que emite un rastro de razonamiento explícito antes de su respuesta final. En benchmarks de generación de código, matemáticas y razonamiento, uso de herramientas, conocimiento y seguridad, Mellum 2 es competitivo con líneas base de pesos abiertos en el rango de 4B a 14B, mientras opera con el cómputo por token de un modelo denso de 2.5B. Publicamos los puntos de control base, instruct y thinking, junto con este informe sobre las decisiones arquitectónicas, el pipeline de datos y la receta de entrenamiento subyacentes, bajo la licencia Apache 2.0.

SwanVoice: Síntesis de Voz Expresiva de Formato Largo y Zero-Shot para Monólogo y Diálogo
SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

May 29

ByRuiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang

La síntesis de voz de cero ejemplos (zero-shot TTS) ha mejorado sustancialmente para la generación con un solo hablante, pero el diálogo expresivo de múltiples hablantes en formato largo sigue siendo difícil. Una solución común es sintetizar cada turno con un modelo TTS de monólogo y unir las salidas. Esto añade coste de inferencia y a menudo rompe la consistencia acústica, la coherencia conversacional y la continuidad afectiva entre turnos. Los sistemas recientes de TTS para diálogo han comenzado a abordar este escenario, pero aún tienen dificultades para mantener simultáneamente la coherencia expresiva, el cambio controlable de hablante y la calidad del monólogo. Presentamos SwanData-Speech y SwanVoice. SwanData-Speech construye corpus de monólogo y diálogo a partir de audio extraído de la naturaleza, utilizando Swan Forced Aligner para una alineación a nivel de palabra consciente de pausas y RobustMegaTTS3 para casos de pronunciación difíciles. Basado en estos datos, SwanVoice es un modelo TTS de cero ejemplos para 1 a 4 hablantes, que combina un VAE de 25 Hz, condicionamiento de texto sin procesar con símbolos conscientes de pausas y sustitución de pinyin, y un DiT de ajuste de flujo con condicionamiento por turno de hablante. El entrenamiento comienza con habla de monólogo, avanza a través de datos de diálogo mixtos y reales, y luego utiliza el post-entrenamiento con DiffusionNFT con recompensas a nivel de fonema y de similitud de hablante. En SwanBench-Speech, SwanVoice obtiene puntuaciones más altas de riqueza y jerarquía que todos los modelos de referencia de código abierto evaluados tanto en entornos de monólogo como de diálogo, mientras que la precisión del contenido sigue siendo la principal limitación. Los demos de audio están disponibles en https://swanaigc.github.io//#swanvoice.

LongTraceRL: Aprendizaje de Razonamiento de Contexto Largo a partir de Trayectorias de Agentes de Búsqueda con Recompensas de Rúbrica
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

May 29

ByNianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

El razonamiento en contextos largos sigue siendo un desafío central para los modelos de lenguaje extensos, que a menudo fallan en localizar e integrar información clave en medio de grandes cantidades de contenido distractivo. El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mostrado ser prometedor para esta tarea, pero los métodos existentes están limitados por distractores de baja confundibilidad y señales de recompensa dispersas basadas únicamente en el resultado final, que no pueden supervisar los pasos intermedios del razonamiento. Para abordar estos problemas, presentamos LongTraceRL. En cuanto a la construcción de datos, generamos preguntas de múltiples saltos mediante caminatas aleatorias en grafos de conocimiento y aprovechamos las trayectorias de agentes de búsqueda para construir distractores escalonados: documentos que el agente leyó pero no citó (alta confundibilidad) y documentos que aparecieron en los resultados de búsqueda pero nunca fueron abiertos (baja confundibilidad), lo que produce contextos de entrenamiento mucho más desafiantes que aquellos construidos mediante muestreo aleatorio o búsqueda de un solo paso. Para el diseño de recompensas, proponemos una recompensa basada en rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad finamente granulada. Esta recompensa de rúbrica se aplica únicamente a respuestas con la respuesta final correcta (estrategia solo positiva), distinguiendo la calidad del razonamiento entre respuestas correctas y evitando el hackeo de recompensas. Los experimentos en tres LLMs de razonamiento (4B–30B) en cinco puntos de referencia de contexto largo demuestran que LongTraceRL supera consistentemente a las líneas base sólidas y fomenta un razonamiento completo y basado en evidencia. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/THU-KEG/LongTraceRL.

Function2Scene: Diseño de Escena Interior en 3D a partir de Especificaciones Funcionales
Function2Scene: 3D Indoor Scene Layout from Functional Specifications

May 29

ByRuiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang

La mayoría de los métodos de síntesis de escenas interiores 3D basados en texto generan habitaciones a partir de indicaciones centradas en objetos, preguntando qué muebles colocar en lugar de cómo se utiliza el espacio. Sin embargo, en el diseño de interiores real, una distribución se juzga por lo bien que satisface las necesidades de sus ocupantes, por ejemplo, sus actividades y necesidades físicas. Presentamos Function2Scene, un marco para generar distribuciones interiores 3D a partir de especificaciones funcionales, es decir, breves de diseño en lenguaje natural que describen quién usará una habitación y qué necesita hacer allí. Dada dicha especificación, nuestro sistema analiza las personas ocupantes y sus actividades, deriva un conjunto personalizado de restricciones de diseño funcional a partir de una taxonomía de 17 criterios que abarcan consideraciones espaciales, ergonómicas, de actividad y ambientales, y utiliza estas restricciones para guiar la generación de la distribución. En lugar de depender de un LLM para producir directamente una escena final, Function2Scene realiza una evaluación y refinamiento iterativos mediante un bucle de verificación y reparación asistido por herramientas, combinando mediciones geométricas, razonamiento contextual basado en LLM y evaluación visual basada en VLM. Los experimentos con 30 casos de diseño de interiores escritos profesionalmente muestran que Function2Scene produce distribuciones que satisfacen mejor los requisitos funcionales que las líneas base recientes de síntesis de escenas basadas en LLM, con nuestros resultados preferidos en el 94,3% de las comparaciones por pares. Nuestro trabajo replantea la síntesis de escenas interiores basada en texto, pasando de colocar objetos plausibles a diseñar espacios que respalden el uso humano.

GGT-100K: Verdad Terrestre Generativa para la Restauración Generalizable de Imágenes del Mundo Real
GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

May 29

ByXiangtao Kong, Jixin Zhao, Lingchen Sun, Rongyuan Wu, Lei Zhang

La restauración de imágenes (IR) en el mundo real está limitada por la escasez de datos de entrenamiento pareados de alta calidad. Los conjuntos de datos sintéticos son abundantes, pero a menudo no logran modelar las degradaciones del mundo real, mientras que los conjuntos de datos pareados reales son costosos y difíciles de capturar. Como resultado, los modelos de IR entrenados con estos conjuntos de datos muestran una generalización limitada en escenarios del mundo real. En este trabajo, proponemos la Generación de Verdad Fundamental (GGT, por sus siglas en inglés) utilizando modelos fundacionales multimodales (MFMs) generativos para producir objetivos de alta calidad (HQ) a partir de imágenes de baja calidad (LQ) del mundo real. Primero, realizamos una evaluación sistemática de nueve MFMs de última generación, incluyendo Nano-Banana-2 y GPT-Image-2, en imágenes de diversas escenas y tipos de degradación. Los resultados demuestran que Nano-Banana-2 con prompting adaptativo basado en VLM muestra la mayor capacidad para sintetizar objetivos HQ perceptual y fieles al contenido, los cuales pueden servir como la GGT para la entrada LQ. Luego, empleamos Nano-Banana-2 para construir un pipeline de síntesis GGT, que incluye control de calidad en múltiples etapas para garantizar la fiabilidad de los datos, y construimos GGT-100K, un conjunto de datos pareados LQ-HQ que consta de 103,707 pares de entrenamiento y cubre diversas escenas y degradaciones complejas del mundo real. También se establece un conjunto de prueba de 500 pares de imágenes. Experimentos exhaustivos muestran que GGT-100K mejora consistentemente la generalización en el mundo real de una amplia gama de modelos de IR, con beneficios particularmente importantes para el ajuste fino de modelos generativos en tareas de IR. Nuestros resultados sugieren que los MFMs pueden servir como herramientas prácticas para la generación de datos orientada a la restauración, y que GGT-100K es un recurso útil para expandir los límites de generalización de los modelos de IR en el mundo real.

Hacia la generación de audio espacial sincronizado en streaming mediante un transformador de difusión autoregresivo
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

May 29

ByKe Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao

La generación de audio espacial en tiempo real y precisa es fundamental para ofrecer una experiencia inmersiva. Sin embargo, las tecnologías actuales de síntesis de audio espacial suelen verse limitadas por un equilibrio entre la calidad de generación y la alta latencia de inferencia, así como por la dificultad de capturar información espacial precisa a partir de entradas multimodales. Para abordar estos desafíos, proponemos SwanSphere, un marco unificado de transmisión continua para la generación de audio espacial de alta fidelidad a partir de videos panorámicos y prompts de texto. SwanSphere realiza principalmente las siguientes contribuciones: 1) Introducimos una arquitectura de transformador de difusión autorregresivo causal que permite la generación continua de audio espacial de alta calidad. 2) Diseñamos una estrategia de aprendizaje de Contraste Espacial Video-Audio (SVAC) para alinear el codificador de video con el dominio acústico, y empleamos además un esquema de optimización directa de preferencias en línea (ODPO) multiobjetivo, lo que resulta en una fuerte percepción espacial y una síntesis robusta de audio espacial multimodal. 3) Para aliviar la actual escasez de conjuntos de datos de audio espacial, también desarrollamos un pipeline de anotación automatizada para generar descripciones espaciales detalladas. Los resultados experimentales demuestran que SwanSphere logra un rendimiento superior tanto en tareas de generación de audio espacial a partir de video como de texto a audio espacial. Las demostraciones se pueden encontrar en: https://swanaigc.github.io.

SANA-Streaming: Edición de Video en Streaming en Tiempo Real con Transformador Híbrido de Difusión
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

May 28

ByYuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

La edición de video a video (V2V) en streaming en tiempo real es fundamental para aplicaciones interactivas como la transmisión en vivo y los videojuegos, pero sigue siendo un desafío formidable debido a los estrictos requisitos de consistencia temporal y rendimiento de inferencia. En este artículo, presentamos SANA-Streaming, un marco de trabajo co-diseñado sistema-algoritmo para la edición de video en streaming en tiempo real de alta resolución en GPUs de consumo, con los siguientes tres diseños principales: (1) La arquitectura Hybrid Diffusion Transformer introduce atención softmax en parte de los bloques para mejorar las capacidades de modelado local mientras preserva la eficiencia de las capas lineales. (2) Cycle-Reverse Regularization es una estrategia de entrenamiento novedosa que impone consistencia semántica al predecir fotogramas fuente a partir del contenido generado mediante flow matching, mejorando la consistencia temporal sin requerir videos editados largos emparejados. (3) El co-diseño eficiente del sistema combina kernels GDN fusionados y cuantización de precisión mixta (MPQ) optimizados para la arquitectura NVIDIA Blackwell (RTX 5090). Al perfilar el rendimiento en el mundo real, nuestro MPQ maximiza la utilización de los Tensor Cores mientras mantiene la calidad de generación. El sistema resultante logra una edición en tiempo real con resolución 1280 x 704 a 24 FPS de extremo a extremo en una sola GPU RTX 5090, con el núcleo DiT funcionando a 58 FPS. Los resultados experimentales demuestran que nuestro enfoque de co-diseño supera significativamente a los métodos SOTA existentes tanto en coherencia temporal como en rendimiento del sistema.

Benchmarking Exhaustivo de la Generación de Voz de Formato Largo en Escenarios Diversos
Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27

ByChanghao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao

Avances recientes en la generación de voz han permitido una síntesis de alta fidelidad, pero la evaluación sistemática de modelos en condiciones de contexto largo sigue siendo en gran medida inexplorada. Un punto de referencia integral para la evaluación de voz de formato largo es indispensable por dos razones: 1) los escenarios de prueba existentes suelen limitarse a dominios restringidos, lo que crea una brecha significativa con las diversas aplicaciones posteriores; 2) las métricas existentes pasan por alto factores clave de textos largos como la consistencia y la coherencia, fallando en generalizar de manera fiable. Con este fin, proponemos SwanBench-Speech, un punto de referencia integral que descompone la calidad de la voz de formato largo en dimensiones específicas y desentrelazadas. SwanBench-Speech posee tres propiedades clave: 1) Escenarios de voz ricos: Centrándose en la generación de voz de formato largo y la generación de diálogos, SwanBench-Speech abarca desafíos de acústica, semántica y expresividad, y consta de 1.101 muestras que cubren 17 escenarios comunes de voz; 2) Dimensiones de evaluación integrales: A lo largo de los ejes de acústica, semántica y expresividad, SwanBench-Speech define un protocolo de evaluación automatizado con siete métricas para proporcionar una evaluación integral, precisa y estandarizada; 3) Perspectivas valiosas: A través de experimentos exhaustivos, revelamos que los modelos actuales aún tienen dificultades en escenarios altamente expresivos y presentan una brecha notable en consistencia y jerarquía en comparación con las grabaciones reales.

Memorización Centrada en la Tarea para Agentes Multimodales
Task-Focused Memorization for Multimodal Agents

May 29

ByTao Zou, Yichen He, Tian Qiu, Yuan Lin, Hang Li

La memoria a largo plazo es esencial para que los agentes multimodales construyan experiencias coherentes, acumulen conocimiento del mundo y logren un aprendizaje continuo. Sin embargo, construir una memoria efectiva va más allá del diseño de módulos de memoria y requisitos básicos como precisión y fidelidad; el desafío clave radica en determinar qué memorizar. Los agentes multimodales, como los agentes encarnados, perciben, razonan y actúan continuamente en entornos reales o virtuales, recibiendo un flujo ilimitado de observaciones multimodales. Ante esta explosión combinatoria de información, un agente debe retener selectivamente contenido relevante para su rol en el entorno y valioso para tareas futuras. Para abordar esta brecha, enmarcamos la generación de memoria como una política de memorización aprendible e introducimos TaskMem (Aprendizaje de Políticas de Memorización Centradas en Tareas), un marco basado en aprendizaje por refuerzo que permite a la política ajustar dinámicamente su enfoque a las demandas de las tareas reales encontradas en el entorno. TaskMem adopta un paradigma de entrenamiento en dos fases: la Fase Uno aprende cómo memorizar optimizando la calidad de la memoria bajo requisitos fundamentales de fidelidad; la Fase Dos ocurre después del despliegue, donde el agente aprende qué memorizar ajustando un adaptador sobre su MLLM base, utilizando tareas recientes del entorno para definir un modelo de recompensa que guíe la política de memorización hacia contenido relevante para la tarea. Para evaluar nuestro enfoque, reformulamos VideoMME, EgoLife y EgoTempo en puntos de referencia de transmisión que simulan un escenario realista donde un agente procesa observaciones en flujo y maneja tareas que llegan en línea. Para aislar la evaluación de la memoria, las preguntas deben responderse utilizando solo la memoria del agente, sin acceso al video sin procesar. Basado en Qwen3-VL-30B-A3B, TaskMem mejora la precisión de VQA en un 6.3%, 7.0% y 5.3% en estos puntos de referencia, respectivamente.

dMoE: dLLMs con Bloques de Expertos Aprendibles
dMoE: dLLMs with Learnable Block Experts

May 29

BySicheng Feng, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

Los Modelos de Lenguaje de Gran Escala de Difusión (dLLMs) han surgido recientemente como una alternativa prometedora a los modelos autorregresivos, ofreciendo un rendimiento competitivo y soportando de forma natural la decodificación paralela. Sin embargo, a medida que los dLLMs se integran cada vez más con arquitecturas de Mezcla de Expertos (MoE) para escalar la capacidad del modelo, surge un desajuste fundamental entre la decodificación paralela por bloques y la selección de expertos a nivel de token. Específicamente, cada pase hacia adelante de un dLLM procesa múltiples tokens con dependencias bidireccionales, mientras que las capas MoE convencionales enrutan cada token de forma independiente. Este desajuste incrementa sustancialmente el número de expertos activados de forma única, haciendo que la inferencia esté cada vez más limitada por la memoria. Para abordar esto, proponemos dMoE, un marco de Mezcla de Expertos a nivel de bloque simple pero efectivo. La idea central de dMoE es agregar las distribuciones de expertos a nivel de token dentro de cada bloque en una distribución unificada a nivel de bloque, que luego se utiliza para guiar el enrutamiento de expertos de una manera más coherente. De esta forma, dMoE reduce sustancialmente el número de expertos activados de forma única durante la inferencia sin sacrificar el rendimiento, mitigando así el cuello de botella limitado por la memoria. Experimentos exhaustivos en una variedad de puntos de referencia demuestran la efectividad de dMoE. En promedio, dMoE reduce el número de expertos activados de forma única de 69,5 a 14,6, manteniendo el 99,11% del rendimiento original. Al mismo tiempo, reduce el uso de memoria entre un 76,64% y un 79,84%, y logra una aceleración de latencia de extremo a extremo de 1,14 a 1,66 veces. El código está disponible en: https://github.com/fscdc/dMoE

No Todo Desacuerdo Es Aprendible: Enseñabilidad de Tokens en Destilación On-Policy
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

May 26

ByYuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

La destilación on-policy (OPD) entrena a un estudiante mediante sus propias trayectorias con supervisión del profesor a nivel de token. Métodos selectivos recientes de OPD explotan la no uniformidad de las señales de OPD priorizando tokens de alta entropía o alto desacuerdo. Reexaminamos este principio y preguntamos: ¿qué señales del profesor a nivel de token son realmente aprendibles? Mediante un diagnóstico de contexto fijo que mide la reducción de KL profesor-estudiante en el mismo contexto, mostramos que el desacuerdo KL bruto es una aproximación burda del valor de aprendizaje. Este confunde el desacuerdo aprendible, donde el profesor asigna masa correctiva a los candidatos top-K del estudiante, con el desacuerdo incompatible, donde el profesor coloca masa principalmente fuera del soporte actual del estudiante. Formalizamos esta compatibilidad local como enseñabilidad del token y mostramos que predice mejor la mejora en contexto fijo que el KL bruto por sí solo. Motivados por este hallazgo, proponemos OPD Consciente de la Enseñabilidad (TA-OPD), un método ligero de selección de posiciones de tokens que aplica la pérdida de OPD en posiciones de alta enseñabilidad sin modelos de recompensa ni verificadores. En configuraciones profesor-estudiante de Qwen2.5 y Qwen 3, TA-OPD a menudo supera a OPD de tokens completos reteniendo solo el 5% de los tokens y mejora respecto a líneas base basadas en entropía y divergencia. Nuestros resultados reformulan la OPD selectiva como la selección de señales aprendibles del profesor en lugar de meramente tokens salientes.

SCOPE: Auto-juego mediante la co-evolución de políticas para tareas abiertas
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

May 29

ByWai-Chung Kwan, Aryo Pradipta Gema, Joshua Ong Jun Leang, Pasquale Minervini

El auto-juego puede entrenar modelos de lenguaje sin supervisión externa. Sin embargo, los métodos existentes requieren respuestas verificables por reglas, dejando las tareas abiertas dependientes de indicaciones seleccionadas o jueces de frontera. Presentamos SCOPE, un marco de auto-juego sin datos para tareas abiertas que coevoluciona dos políticas: un Desafiante que genera tareas basadas en documentos, y un Resolvedor que las responde mediante recuperación de múltiples turnos. Una copia congelada del modelo inicial sirve como auto-juez, que escribe rúbricas específicas de la tarea a partir del documento fuente y evalúa las respuestas del Resolvedor frente a ellas. En tres modelos de 7-8B ajustados por instrucciones (Qwen2.5, Qwen3, OLMo-3), SCOPE mejora el rendimiento en tareas abiertas hasta en +10,4 puntos en ocho benchmarks y iguala o supera a GRPO_data entrenado con ~9K indicaciones seleccionadas. Aunque entrenado solo en tareas abiertas, SCOPE también mejora la respuesta breve a preguntas no vistas hasta en +13,8 puntos en siete benchmarks retenidos, superando a GRPO_data en los tres modelos. Los estudios de ablación muestran que coevolucionar al Desafiante es necesario para mantener las tareas cerca de la frontera del Resolvedor, que las ganancias provienen de mejoras tanto en la recuperación como en la síntesis, con una contribución relativa que varía según la tarea, y que la calidad de la generación de rúbricas es el cuello de botella para el auto-juicio.

SAAS: Aprendizaje por Refuerzo Autoconsciente para la Mitigación de Búsqueda Excesiva en Búsqueda Agentiva
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

May 28

ByYunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

La búsqueda agentiva permite a los LLMs resolver preguntas complejas de múltiples saltos mediante razonamiento iterativo y búsqueda externa. A pesar de su efectividad, estos sistemas a menudo padecen una limitación crítica en la práctica: los agentes no reconocen sus propios límites de conocimiento, activando búsquedas ciegamente cuando el conocimiento interno es suficiente y fallando en terminar la búsqueda incluso cuando se ha recopilado evidencia adecuada. La falta de autoconciencia conduce a una sobrebúsqueda severa, lo que genera una latencia de inferencia sustancial y un costo computacional prohibitivo. Con este fin, proponemos SAAS, un novedoso marco de RL diseñado para cultivar una autoconciencia dinámica que regule con precisión el comportamiento de búsqueda sin comprometer la precisión. SAAS introduce tres componentes clave: (i) un mecanismo de modelado del límite de búsqueda, que identifica dicho límite bajo la política en evolución contrastando rollouts con búsqueda deshabilitada y habilitada; (ii) un módulo de recompensa consciente del límite, que traduce esta conciencia en penalizaciones a nivel de trayectoria, suprimiendo búsquedas innecesarias y redundantes; y (iii) una estrategia de optimización por etapas, que aprovecha un currículo secuencial para priorizar el razonamiento sobre la regularización de la búsqueda, evitando así el reward hacking. Experimentos extensos demuestran que SAAS reduce sustancialmente la sobrebúsqueda mientras mantiene la precisión. Nuestro código se publica de forma anónima en https://github.com/XMUDeepLIT/SAAS.

PEEK: Seleccionando fotogramas esenciales mediante destilación eficiente de conocimiento
PEEK: Picking Essential frames via Efficient Knowledge distillation

May 29

ByKillian Steunou, Anas Filali Razzouki, Khalil Guetari, Mounîm A. El-Yacoubi, Yannis Tevissen

Los modelos de video-lenguaje solo pueden procesar un número limitado de fotogramas, lo que convierte la selección de fotogramas en un cuello de botella clave para la generación eficiente de descripciones de video. La mayoría de los pipelines de generación de descripciones aún dependen del muestreo uniforme, que es computacionalmente barato pero agnóstico al contenido visual. Recientemente, el muestreo adaptativo de fotogramas ha surgido como un enfoque prometedor para seleccionar los fotogramas más informativos de un video; sin embargo, los métodos existentes siguen siendo costosos computacionalmente. Presentamos PEEK, un método eficiente de muestreo dinámico de fotogramas que destila clasificaciones de relevancia de fotogramas condicionadas por descripciones desde un modelo profesor más fuerte hacia un modelo temporal ligero que opera únicamente sobre el contenido visual. Encontramos que, en general, en ActivityNet Captions y MSR-VTT, nuestro método supera a los métodos de vanguardia en todos los modelos de visión y lenguaje posteriores evaluados, especialmente cuando se seleccionan solo uno o dos fotogramas para la generación de descripciones, obteniendo el mejor CIDEr para la mayoría de los presupuestos de fotogramas. En ActivityNet Captions, PEEK es particularmente sólido, ganando 14 de 16 configuraciones. La evaluación zero-shot en MSR-VTT muestra que nuestro modelo se transfiere mejor con presupuestos bajos de fotogramas, mientras que los resultados con cuatro y ocho fotogramas son más mixtos, ya que la cobertura temporal y la diversidad visual se vuelven cada vez más competitivas. En comparación con líneas base adaptativas recientes, PEEK es tanto más preciso en el régimen de bajo presupuesto como más eficiente: agrega solo un 5.2% al tiempo de generación de descripciones, frente al 65.4% de CSTA y el 211.9% de MaxInfo. Publicamos nuestro código y punto de control preentrenado en https://github.com/momentslab/peek.

Explorando la Ingeniería de Datos Autónoma Agéntica para la Especialización de Modelos
Exploring Autonomous Agentic Data Engineering for Model Specialization

May 28

ByYujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

Los modelos de lenguaje de gran escala (LLMs) han demostrado un rendimiento sólido en tareas generales, aunque a menudo tienen dificultades para adaptarse a dominios especializados sin datos de alta calidad específicos del dominio. Los métodos existentes de curación de datos basados en LLMs dependen principalmente de flujos de trabajo diseñados por humanos, dejando sin examinar si los LLMs pueden ejecutar de manera autónoma un pipeline completo de ingeniería de datos para la especialización de modelos. Formalizamos la Ingeniería de Datos Agéntica Autónoma, una tarea novedosa diseñada para evaluar a los LLMs como ingenieros de datos autónomos que impulsan la especialización de modelos mediante la curación integral de datos. Enmarcamos los datos como un componente optimizable y estudiamos agentes que planifican, generan y optimizan iterativamente los datos de entrenamiento en múltiples dominios, guiados por la mejora del rendimiento posterior al entrenamiento. Los experimentos muestran que los ingenieros de datos LLM autónomos generan ganancias sustanciales, ya que GPT-5.2 construye un plan de estudios de entrenamiento que mejora un modelo estudiante en un 57.29%, completamente a través de una adaptación iterativa de datos impulsada por agentes. Al iluminar tanto el potencial como los cuellos de botella, nuestro estudio establece la ingeniería de datos autónoma como una capacidad medible y traza un camino hacia la especialización de modelos impulsada por agentes. El código se publicará en https://github.com/zjunlp/DataAgent.

LongDS-Bench: Sobre el fracaso del análisis de datos agéntico de largo horizonte
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

May 28

ByKewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

El análisis de datos del mundo real es inherentemente iterativo, sin embargo, los benchmarks existentes evalúan principalmente tareas interactivas aisladas o de corta duración, dejando sin probar la capacidad de los agentes para rastrear contextos analíticos en evolución en horizontes prolongados. Presentamos LongDS, un benchmark para el análisis de datos de múltiples turnos y horizonte largo, en el que los agentes deben mantener, actualizar, restaurar y componer estados analíticos en evolución. LongDS consta de 68 tareas construidas a partir de cuadernos reales de Kaggle, que abarcan 2225 turnos en seis dominios, incluyendo Geociencia, Negocios y Educación. Las tareas se diseñan en torno a patrones de evolución de estados (por ejemplo, perturbación contrafactual, retroceso, composición multiestado) con un rango de dependencia promedio de 11.3 turnos. Al evaluar cinco modelos de última generación, encontramos que el mejor modelo alcanza solo un 48.45% de precisión promedio, el rendimiento cae casi 47 puntos desde los turnos iniciales hasta los finales, y los errores de horizonte largo representan del 52% al 69% de los fallos. Un análisis adicional muestra que los pasos adicionales del agente no necesariamente mejoran el rendimiento, lo que sugiere que el cuello de botella clave es mantener un estado analítico correcto, más que aumentar el presupuesto de interacción. Publicamos LongDS para apoyar la investigación sobre el análisis de datos agentivo confiable en horizontes largos. El código y los datos se publicarán en https://github.com/zjunlp/DataMind.

VLM3: Los Modelos de Lenguaje Visual Son Aprendices 3D Nativos
VLM3: Vision Language Models Are Native 3D Learners

May 28

ByZhipeng Cai, Zhuang Liu, Yunyang Xiong, Zechun Liu, Vikas Chandra, Yangyang Shi

Los Modelos de Lenguaje Visual (VLMs) permiten que un modelo unificado resuelva diversas tareas visuales mediante indicaciones. Han demostrado un rendimiento prometedor en comprensión semántica. Sin embargo, la comprensión 3D aún depende en gran medida de modelos visuales expertos con diseños complejos específicos para cada tarea. El argumento clave que este trabajo quiere plantear es que los VLMs son aprendices nativos de 3D. Nuestro estudio exhaustivo a gran escala muestra que 1) la unificación de la distancia focal, 2) la referencia de píxeles basada en texto y 3) la mezcla y el escalado de datos, son todo lo necesario para un aprendizaje 3D efectivo. Los cambios en la arquitectura del modelo, los modelos grandes, las aumentaciones de datos intensivas y las pérdidas complejas, incluida la formulación de regresión —muchos de los cuales constituyen la base de los modelos visuales expertos—, no son condiciones necesarias en realidad. Como resultado, proponemos VLM3, un método escalable con el diseño más simple que permite que los VLMs estándar dominen diversas tareas 3D. VLM3 no solo mejora significativamente la precisión de la estimación de profundidad de los VLMs (de 0,84 a 0,9), sino que también habilita diversas tareas 3D como la correspondencia de píxeles, la estimación de la pose de la cámara y la comprensión 3D a nivel de objeto, igualando la precisión de los modelos visuales expertos mientras mantiene arquitecturas estándar y entrenamiento basado en texto. Creemos que VLM3 abre un nuevo paradigma para el aprendizaje 3D simple y escalable.

Linealizando el Transformador de Visión con Entrenamiento en Tiempo de Prueba
Linearizing Vision Transformer with Test-Time Training

May 28

ByYining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang

Mientras que los mecanismos de atención de complejidad lineal ofrecen una alternativa prometedora a la atención Softmax para superar el cuello de botella cuadrático, entrenar estos modelos desde cero sigue siendo prohibitivamente costoso. Heredar los pesos de Transformers preentrenados proporciona un atractivo atajo, sin embargo, la brecha representacional fundamental entre la atención Softmax y la atención lineal impide una transferencia de pesos efectiva. En este trabajo, abordamos este desafío de conversión desde dos perspectivas: la alineación arquitectónica y la alineación representacional. Identificamos el Entrenamiento en Tiempo de Prueba (TTT) como una arquitectura de complejidad lineal cuya formulación dinámica de dos capas está estructuralmente alineada con la atención Softmax, permitiendo la herencia directa de pesos de atención preentrenados. Para alinear aún más las propiedades representacionales, incluyendo la invariancia al desplazamiento de claves y la localidad, introducimos la normalización de instancias de claves y un módulo ligero de mejora de localidad. Validamos nuestro enfoque linealizando Stable Diffusion 3.5 e introducimos SD3.5-T^5 (Transformer a Entrenamiento en Tiempo de Prueba). Con solo 1 hora de ajuste fino en 4×H20 GPUs, SD3.5-T^5 logra una calidad de texto a imagen comparable al modelo Softmax ajustado, mientras acelera la inferencia en 1,32× y 1,47× en resoluciones de 1K y 2K. El código está disponible en https://github.com/LeapLabTHU/Transformer-to-TTT.

Recuperación de errores inducidos por políticas: Evaluación comparativa y síntesis de trayectorias para agentes GUI robustos
Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28

ByTianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang

Aunque los agentes de interfaz gráfica de usuario (GUI) han avanzado rápidamente, a menudo carecen de la solidez necesaria para recuperarse de sus propios errores, lo que dificulta su implementación en entornos reales. Para cerrar esta brecha tanto a nivel de evaluación como de datos, presentamos GUI-RobustEval y proponemos la Síntesis de Trayectorias Impulsada por la Robustez. GUI-RobustEval contiene 1.216 casos de prueba ejecutables que miden sistemáticamente las capacidades de recuperación de errores en un espectro amplio y realista de modos de error. A nivel de datos, RoTS es un marco de síntesis escalable que crea 800k datos de alta calidad mediante un pipeline basado en árboles que descubre de manera proactiva diversos modos de error y sintetiza los pasos de recuperación correspondientes. Nuestros dos modelos, RoTS-7B y RoTS-32B, ajustados en nuestro conjunto de datos, demuestran mejoras significativas tanto en GUI-RobustEval como en evaluaciones tradicionales de GUI. En particular, RoTS-32B logra un rendimiento de última generación en OSWorld, con una tasa de éxito del 47.4 % y una puntuación All-Pass@4 del 33.8 %, lo que sugiere que una mejor capacidad de recuperación de errores a largo plazo contribuye tanto a la robustez como al rendimiento general. Nuestro código está disponible en https://github.com/AlibabaResearch/RoTS.

Actualización del Harness no es Beneficio del Harness: Desentrañando las Capacidades de Evolución en Agentes LLM Autoevolutivos
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

May 28

ByMinhua Lin, Juncheng Wu, Zijun Wang, Zhan Shi, Yisi Sang, Bing He, Zewen Liu, Tianxin Wei, Zongyu Wu, Zhiwei Zhang, Dakuo Wang, Xiang Zhang, Benoit Dumoulin, Cihang Xie, Yuyin Zhou, Suhang Wang, Hanqing Lu

Los agentes LLM se despliegan cada vez más como sistemas construidos alrededor de arneses externos editables, que incluyen indicaciones (prompts), habilidades, memorias y herramientas, que configuran la ejecución de tareas sin modificar los parámetros del modelo. La autoevolución del arnés adapta dichos agentes actualizando estos arneses a partir de evidencia de ejecución. Sin embargo, aún no está claro si la capacidad base del modelo para resolver tareas predice su capacidad en la autoevolución del arnés: ¿qué modelos producen actualizaciones útiles del arnés, y cuáles se benefician realmente de ellas? Analizamos dos capacidades de autoevolución del arnés: (i) actualización del arnés, la capacidad de producir actualizaciones persistentes y útiles del arnés a partir de evidencia de ejecución; (ii) beneficio del arnés, la capacidad de beneficiarse de arneses actualizados durante la resolución de tareas. Nuestro análisis revela dos hallazgos. Primero, la actualización del arnés es plana en capacidad base: modelos de diferentes niveles de capacidad producen actualizaciones del arnés que generan ganancias sorprendentemente similares; incluso las actualizaciones de Qwen3.5-9B arrojan ganancias comparables a las de Claude Opus ~4.6. Segundo, el beneficio del arnés es no monótono en capacidad base: los modelos de nivel bajo se benefician poco de los arneses actualizados, los de nivel medio se benefician más, y los de nivel alto se benefician menos que los de nivel medio. Atribuimos las bajas ganancias en el nivel bajo a dos modos de fallo: los modelos de nivel bajo pueden no activar los artefactos del arnés relevantes, o activarlos pero no seguirlos fielmente. Estos hallazgos sugieren invertir el presupuesto de capacidad en el agente de resolución de tareas en lugar del evolucionador, y orientar el entrenamiento de agentes hacia la invocación del arnés y el seguimiento de instrucciones a largo plazo. Nuestro código fuente está disponible públicamente en https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

De la inyección de prompts al control persistente: Defendiendo el arnés de agentes contra puertas traseras troyanas
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

May 29

ByJiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

Los agentes LLM están evolucionando de chatbots conversacionales a herramientas operativas en espacios de trabajo reales. En entornos de agente locales, un LLM puede leer y escribir archivos, llamar herramientas y reutilizar el estado del espacio de trabajo entre sesiones. Si bien estas capacidades mejoran la utilidad, también exponen una nueva superficie de ataque para los atacantes. Estos pueden incrustar una inyección de instrucciones dentro de un archivo o la salida de una herramienta. Los agentes pueden leer esta instrucción oculta, almacenarla y ejecutarla más tarde. En este paradigma de ataque troyano de múltiples pasos, ningún paso individual parece malicioso por sí solo, pero estos pasos pueden convertir colectivamente texto no confiable en contenido de control persistente. Sin embargo, las defensas existentes a menudo inspeccionan cada paso de forma aislada. Como resultado, pueden bloquear una acción dañina clara, pero no logran detectar la operación de escritura anterior que instala la puerta trasera. Para revelar esta amenaza, presentamos ClawTrojan, un punto de referencia diseñado para identificar ataques troyanos de múltiples pasos en entornos de agente locales. En un espacio de trabajo simulado estilo OpenClaw con GPT-5.4, ClawTrojan alcanza una tasa de éxito de ataque (ASR) del 95,5 %, mientras que los ataques existentes de inyección de instrucciones de una sola ronda producen una ASR cercana a cero en el mismo modelo. Para abordar esta amenaza, proponemos DASGuard, que escanea texto de tipo control en archivos locales sensibles, rastrea su origen y elimina el contenido de control que no se origina de una fuente confiable. Nuestros resultados muestran que DASGuard logra una defensa dinámica sólida al combinar el bloqueo de ataques en tiempo de ejecución con confirmaciones sanitizadas al espacio de trabajo.

Escalado Lineal de VLMs de Video para la Comprensión de Videos Largos
Linear Scaling Video VLMs for Long Video Understanding

May 29

ByCristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles

Los modelos de visión-lenguaje de video (VLMs) se utilizan cada vez más en entornos de largo horizonte y transmisión continua, aunque la mayoría de los codificadores de video aún dependen de la autoatención espaciotemporal, lo que provoca que el cómputo y la latencia crezcan de forma cuadrática con el número de fotogramas. Los métodos de eficiencia existentes mejoran la escalabilidad pero a menudo pierden precisión en comparación con la autoatención completa, por ejemplo mediante la eliminación agresiva de fotogramas/tokens o aproximaciones gruesas de atención. Presentamos StateKV, un método en tiempo de inferencia que adapta VLMs de videos largos preentrenados al precargado de video en tiempo lineal, transportando el contexto entre fotogramas en un estado recurrente de capacidad fija basado en importancia, emparejado con una segunda caché completa por fotograma utilizada para decodificación. En tres puntos de referencia de videos largos y siete modelos que abarcan tres familias y múltiples escalas, StateKV se mantiene cerca de la autoatención completa y supera consistentemente las aproximaciones dominantes de ventana deslizante / basadas en actualidad, sin necesidad de ajuste fino ni cambios arquitectónicos. StateKV también reduce el costo de precargado de video medido en FLOPs, permitiendo una mayor precisión con un presupuesto de cómputo fijo al ejecutar modelos más grandes. Estos resultados sugieren un paso práctico hacia la comprensión escalable de videos largos.

DecMem: Hacia la Generación de Mundos Consistentes de Minutos de Duración con Memoria Desacoplada
DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

May 29

ByZhenhao Yang, Xiaoshi Wu, Zhengyao Lv, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Kun Gai, Kwan-Yee K. Wong

Los recientes avances en modelos generativos de video han impulsado un progreso rápido en los modelos del mundo controlables. Sin embargo, mantener una consistencia espacio-temporal detallada bajo razonamiento a largo plazo sigue siendo un desafío clave. En este trabajo, superamos la memoria 3D explícita y el modelado implícito grueso a nivel de fotogramas, y proponemos una memoria aprendible, detallada y escalable para la generación consistente del mundo. Primero identificamos dos limitaciones fundamentales de las arquitecturas de memoria aprendible ingenuas en la extrapolación a largo plazo: la ineficiencia computacional y la dispersión de la atención. Mediante un análisis sistemático de la dispersión de la atención, proponemos DecMem, una arquitectura de memoria desacoplada que emplea Memoria Global Dispersa para un acceso detallado y eficiente al historial global, y Memoria Local Anclada para una extrapolación estable y de alta calidad. Experimentos exhaustivos demuestran que DecMem supera significativamente a los métodos actuales de última generación. Al garantizar una memoria a largo plazo precisa y eficiente y lograr capacidades de extrapolación superiores, DecMem permite la generación de videos largos controlables a nivel de minutos con alta fidelidad y consistencia.

El juego del escondite en trayectorias: Descubriendo señales de fallo para el monitoreo en tiempo de ejecución de VLA
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

May 29

BySeongheon Park, Wendi Li, Changdae Oh, Samuel Yeh, Zsolt Kira, Michael Hagenow, Sharon Li

Los modelos de Visión-Lenguaje-Acción (VLA) permiten que los robots sigan instrucciones en lenguaje natural y se generalicen a diversas tareas, pero siguen siendo vulnerables a fallos de ejecución que comprometen la fiabilidad en despliegues reales. Detectar dichos fallos durante la ejecución es, por tanto, fundamental para el despliegue robusto de sistemas encarnados. Los métodos existentes de detección de fallos o bien dependen de un costoso remuestreo de acciones o de modelos externos, mientras que las alternativas propagan etiquetas a nivel de trayectoria de manera uniforme en cada paso temporal, ocultando señales de fallo localizadas. En este artículo, proponemos Hide-and-Seek, un marco que formula la detección de fallos en VLA como un problema de aprendizaje con supervisión gruesa. Al combinar objetivos contrastivos entre trayectorias e intra-trayectoria, Hide-and-Seek localiza acciones indicativas de fallos e induce señales de fallo estructuradas temporalmente a partir únicamente de la supervisión a nivel de trayectoria, sin necesidad de anotaciones a nivel de paso. Evaluamos Hide-and-Seek en LIBERO, VLABench y una plataforma robótica real con tres políticas VLA representativas: OpenVLA, π_0 y π_{0.5}. Nuestro método alcanza un rendimiento de detección de fallos multitarea de última generación con un compromiso práctico entre precisión y oportunidad bajo predicción conforme, y se generaliza bien tanto a tareas vistas como no vistas.

VisualThink-VLA: Razonamiento Intermedio Visual para Políticas de Visión-Lenguaje-Acción Eficaces y de Baja Latencia
VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

May 28

ByMingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

Trabajos recientes han comenzado a equipar las políticas de visión-lenguaje-acción (VLA) con razonamiento intermedio explícito. Sin embargo, en el control encarnado, la cadena de pensamiento textual es una adaptación deficiente: la información irrelevante o débilmente textual puede interferir con la predicción de acciones, mientras que la decodificación textual autorregresiva añade demasiada latencia para la ejecución en bucle cerrado en tiempo real. Presentamos VISUALTHINK-VLA, un marco de razonamiento intermedio visual para políticas VLA precisas y de baja latencia. Nuestra filosofía de inicialización es guiar la acción con un pensamiento visual efectivo: VISUALTHINK-VLA inicia la predicción de acciones mediante una interfaz compacta de evidencia visual que preserva la precisión espacial evitando la sobrecarga de decodificación. Además, para mejorar aún más el rendimiento y la eficiencia, VISUALTHINK-VLA adopta un mecanismo de enrutamiento selectivo adaptado para aprender los tokens de evidencia visual, lo que permite una inferencia de baja latencia mientras mantiene una especialización de alta capacidad. También presentamos VisualEvidence-Kit, un recurso de supervisión y auditoría centrado en un VisualEvidence-Agent que construye un conjunto de 754.7k instrucciones VLA, VisualEvidence-Set, para la supervisión de rutas y pruebas de fidelidad contrafactual. A través de múltiples puntos de referencia y evaluaciones robóticas reales, VISUALTHINK-VLA logra la tasa de éxito más alta en la mayoría de los puntos de referencia, al tiempo que reduce la latencia de varios segundos de las líneas base aumentadas con razonamiento al régimen de submilisegundos. Por ejemplo, en BridgeData V2, reduce la latencia por paso de 8.377 s con ECoT a 0.367 s, logrando una aceleración de 22.8 veces.

Ver no es saber: ¿Saben los VLM cuándo no responder a preguntas espaciales (y por qué)?
Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

May 28

ByYue Zhang, Zun Wang, Han Lin, Yonatan Bitton, Idan Szpektor, Mohit Bansal

El razonamiento espacial es una capacidad fundamental para los modelos de lenguaje visual (VLM) desplegados en entornos del mundo real. Sin embargo, las observaciones visuales son representaciones inherentemente limitadas del mundo tridimensional: la oclusión puede hacer invisibles a los objetos, y la perspectiva puede distorsionar las propiedades geométricas. A pesar de ello, los benchmarks existentes de razonamiento espacial suelen asumir que las observaciones son suficientes y fiables, centrándose en si los modelos producen respuestas correctas en lugar de evaluar si reconocen cuándo una pregunta no puede responderse y qué observaciones adicionales serían necesarias. En este trabajo, cuestionamos este supuesto mediante la construcción de un marco de evaluación controlado, SpatialUncertain, e introducimos dos tipos de desafíos observacionales: (1) oclusión, que oculta información objetivo, y (2) ambigüedad de perspectiva, que genera señales visuales engañosas. Para cada configuración, diseñamos preguntas espaciales que son respondibles bajo observaciones limpias, pero que requieren abstenerse bajo los desafíos introducidos. Además, evaluamos si los modelos pueden identificar qué puntos de vista adicionales resolverían la ambigüedad de perspectiva. Nuestros resultados, basados en un conjunto diverso de VLM pioneros de código abierto y cerrado, revelan dos modos de fallo consistentes. En primer lugar, los modelos tienden a responder con excesiva confianza, intentando resolver tareas de razonamiento espacial incluso cuando la evidencia visual es incompleta o engañosa, con una precisión promedio de alrededor del 30% bajo oclusión y por debajo del 10% bajo ambigüedad de perspectiva. En segundo lugar, incluso cuando hay vistas adicionales disponibles, algunos modelos se desempeñan cerca del azar al identificar cuáles proporcionarían evidencia fiable. En conjunto, nuestros hallazgos exigen ir más allá de la corrección de las respuestas, hacia la evaluación de si los modelos saben cuándo abstenerse y cómo buscar evidencia fiable.

HL-OutPaint: Extrapolación de Video de Grueso a Fino para Videos de Alta Resolución y Largo Alcance
HL-OutPaint: Coarse-to-Fine Video Outpainting for High-Resolution Long-Range Videos

May 19

ByJeongeun Park, Janghyeok Han, Geonung Kim, Hyun-Seung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho

La extrapolación de video genera contenido visual plausible más allá de la extensión espacial original de un video, desempeñando un papel clave en la adaptación de videos a diversos formatos de visualización. Para respaldar estos casos de uso, es necesario permitir una gran extrapolación espacial en secuencias largas. Sin embargo, la mayoría de los métodos existentes abordan solo uno de estos desafíos o carecen de mecanismos explícitos para garantizar la consistencia espacio-temporal global, lo que conlleva limitaciones notables. En este artículo, proponemos HL-OutPaint, un marco de extrapolación de video de alta resolución para secuencias largas. Nuestro enfoque sigue una estrategia de grueso a fino con un flujo de trabajo en dos etapas. Primero construimos la Guía Global Gruesa (GCG, por sus siglas en inglés), una representación de baja resolución que captura la estructura global y el movimiento dominante a lo largo del video. A diferencia del submuestreo simple, la GCG se construye mediante un novedoso mecanismo de intercambio de fotogramas global-local que combina fotogramas clave globales dispersos con ventanas temporales locales e intercambia información durante el muestreo. Esto permite que la GCG codifique tanto la consistencia estructural a largo plazo como la dinámica temporal a corto plazo en una representación unificada. Guiado por esta representación, HL-OutPaint realiza entonces una extrapolación de alta resolución para generar contenido espacialmente detallado y temporalmente consistente. Al separar el modelado de la estructura global de la síntesis de grano fino, nuestro marco logra una generación estable y coherente para una gran expansión espacial y secuencias de video largas. Experimentos exhaustivos muestran que HL-OutPaint supera a los métodos existentes en escenarios desafiantes que involucran una amplia extrapolación espacial y secuencias de video largas.

DEMON: Motor de Difusión para Ruido Musical Orquestado
DEMON: Diffusion Engine for Musical Orchestrated Noise

May 27

ByRyan Fosdick

Presentamos DEMON, un motor de difusión en tiempo real que convierte el proceso de eliminación de ruido en un instrumento musical vivo y manejable: una superficie de control tanto amplia (muchos parámetros moldeados por trama en toda la salida) como receptiva (cada control surte efecto tan rápido como lo permite su lugar en el bucle de eliminación de ruido). Construido sobre ACE-Step 1.5 y la arquitectura de búfer circular de StreamDiffusion con aceleración TensorRT, mantiene hasta 12.3 completaciones de decodificador por segundo para música de 60 segundos en una única GPU de consumo (RTX 5090), o 11.3 generaciones por segundo a nuestra profundidad de anillo de producción de 4. A estas tasas, los parámetros de eliminación de ruido se vuelven viables como controles de interpretación en vivo, pero el búfer circular propaga los cambios por solicitud solo a su tasa de drenaje, un piso de S pasos de eliminación de ruido. Aportamos cuatro mecanismos. (1) Programación heterogénea de eliminación de ruido por ranura: cada ranura del búfer circular posee su propio programa de pasos temporales, de modo que un control deslizante de eliminación de ruido en movimiento se rastrea sin vaciar la cola en vuelo, mientras que el diseño de programa global ascendente debe reconstruirla y descartarla. (2) Estado mutable compartido por paso, que otorga a cualquier parámetro consultado en cada paso del solucionador un efecto en el siguiente paso, evitando el drenaje del búfer circular. (3) Mezcla de fuentes por trama: un control en tiempo de muestreo sobre el paso estándar de reinyección de ruido SDE, que proporciona un eje de intensidad de transformación trama a trama que complementa la programación escalar de eliminación de ruido. (4) Decodificación VAE con ventana que explora el análisis de campo receptivo para una aceleración de decodificación de 8.0x. En conjunto, estos separan los parámetros de difusión en streaming en cuatro clases de propagación, según la latencia de inicio y de convergencia.

¿Cómo pueden los modelos de incrustación vincular conceptos?
How can embedding models bind concepts?

May 29

ByArnas Uselis, Darina Koishigarina, Seong Joon Oh

Los humanos determinan fácilmente qué color pertenece a qué forma en escenas con múltiples objetos, una capacidad conocida como vinculación de conceptos. Los modelos de incrustación visión-lenguaje como CLIP presentan dificultades con esta vinculación: reconocen conceptos individuales pero no logran representar qué conceptos forman cada objeto. Aunque CLIP se comporta como un modelo de bolsa de conceptos en la recuperación multimodal, la información sobre los objetos puede recuperarse por separado a partir de sus incrustaciones de imagen y texto. Estudiamos esta tensión a través de la función de vinculación, que asigna conceptos a incrustaciones de escena. Descubrimos que las incrustaciones de escena se descomponen aditivamente en representaciones de objetos, lo que explica por qué las sondas unimodales pueden recuperar información sobre los objetos. Sin embargo, la función de vinculación de CLIP es de alta complejidad, lo que probablemente impide que los codificadores de imagen y texto aprendan un mecanismo de vinculación compartido que generalice a combinaciones de conceptos no vistas. Luego nos preguntamos si esta limitación es fundamental. Demostramos que no lo es. En modelos transformadores controlados entrenados desde cero, la generalización de la vinculación surge cuando hay una cobertura de datos suficiente. Estos modelos aprenden funciones de vinculación de baja complejidad caracterizadas por interacciones multiplicativas entre conceptos, lo que permite una generalización sistemática. El código está disponible públicamente en https://github.com/oshapio/binding-concepts-complexity.

RayDer: Síntesis de vistas novedosas auto-supervisada y escalable a partir de video del mundo real
RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

May 29

ByUlrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

La síntesis de vistas novedosas autosupervisada (NVS) sigue siendo difícil de escalar, a pesar de la abundancia de datos de video, debido en gran medida a la fragilidad del entrenamiento con videos realistas y al comportamiento de escalado difícil de predecir en diseños de sistemas con múltiples redes. Presentamos RayDer, un transformador unificado y de avance directo que consolida la estimación de cámaras, la reconstrucción de escenas y el renderizado en una única arquitectura base, convirtiendo la NVS autosupervisada en un problema de escalado bien definido con un solo modelo. Un estado dinámico mínimo, tratado como un factor de interferencia, absorbe el contenido que varía en el tiempo y permite un entrenamiento estable sobre videos del mundo real sin restricciones. Es importante destacar que RayDer mantiene la NVS de escenas estáticas como su tarea objetivo: el contenido dinámico se aprovecha únicamente como supervisión escalable, no se reconstruye como en la NVS de escenas dinámicas (4D). A través de múltiples tamaños de modelo y órdenes de magnitud en datos, RayDer exhibe un escalado limpio por ley de potencias con respecto a los datos y la computación, y supera a las mezclas de datos de escenas estáticas. En una gran cantidad de puntos de referencia, RayDer logra un rendimiento zero-shot en conjuntos abiertos competitivo con enfoques supervisados de última generación. Página del proyecto: https://compvis.github.io/rayder

One-Forcing: Hacia una Generación de Video Autorregresiva Estable de un Solo Paso
One-Forcing: Towards Stable One-Step Autoregressive Video Generation

May 22

ByJiaqi Feng, Justin Cui, Yuanhao Ban, Cho-Jui Hsieh

Avances recientes han mejorado sustancialmente la generación de video interactivo en tiempo real en el régimen autorregresivo. Sin embargo, la mayoría de los métodos existentes de generación de video autorregresivo de pocos pasos, a menudo destilados a partir de un maestro correspondiente de muchos pasos, adoptan por defecto una configuración de muestreo de 4 pasos, lo que aún genera una latencia considerable durante el despliegue y sufre una degradación severa de la calidad cuando se reduce aún más el número de pasos de muestreo, particularmente en el entorno de un solo paso. Los métodos de destilación de consistencia de estilo trayectoria suelen producir videos con dinámicas débiles, mientras que los enfoques basados en DMD, como Self-Forcing, tienden a generar fotogramas borrosos. Para abordar este desafío, proponemos One-Forcing, un enfoque simple pero efectivo que aumenta el objetivo de DMD con una pérdida GAN auxiliar para la generación de video de un solo paso de alta calidad y eficiente. Los experimentos en VBench muestran que One-Forcing alcanza una puntuación total de 83.76, estableciendo un rendimiento de última generación entre los métodos de generación de video causal de un solo paso y manteniéndose competitivo con enfoques sólidos de muchos pasos. Además, demostramos que la generación autorregresiva fotograma a fotograma de un solo paso puede lograrse de manera estable con solo un tercio del costo de entrenamiento del modelo por fragmentos, un entorno que los métodos anteriores no lograron implementar con éxito.

OpenSkillEval: Auditoría Automática del Ecosistema de Habilidades Abiertas para Agentes LLM
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

May 28

ByJiahao Ying, Boxian Ai, Wei Tang, Siyuan Liu, Yixin Cao

Las habilidades, es decir, instrucciones de flujo de trabajo estructurado destiladas para modelos de lenguaje grandes (LLMs), se están convirtiendo en un mecanismo cada vez más importante para mejorar el rendimiento de los agentes en tareas prácticas del mundo real. Sin embargo, a medida que el ecosistema de habilidades de código abierto se expande rápidamente, aún no está claro cómo interactúan diferentes modelos y marcos de agentes con las habilidades, cómo evaluar la calidad de estas y cómo los usuarios deberían seleccionar habilidades bajo compromisos prácticos entre costo y rendimiento. En este artículo, presentamos OpenSkillEval, un marco de evaluación automática tanto para sistemas de agentes aumentados con habilidades como para las propias habilidades. En lugar de depender de puntos de referencia estáticos, OpenSkillEval construye automáticamente instancias de tareas realistas a partir de artefactos del mundo real en evolución, abarcando cinco categorías de aplicaciones descendentes: generación de presentaciones, diseño web front-end, generación de carteles, visualización de datos y generación de informes. Además, recopila y organiza habilidades contribuidas por la comunidad para realizar comparaciones controladas bajo entornos de tareas unificados. Utilizando más de 600 instancias de tareas generadas dinámicamente y 30 habilidades de código abierto, llevamos a cabo una evaluación sistemática de los modelos y marcos de agentes de última generación. Nuestros resultados muestran que la disponibilidad de habilidades no garantiza un uso efectivo de las mismas, que el beneficio de aumentar las habilidades depende fuertemente tanto del modelo subyacente como del marco del agente, y que muchas habilidades populares públicamente no superan consistentemente a los agentes base sin habilidades. Estos hallazgos resaltan la necesidad de una evaluación dinámica y fundamentada en tareas, y proporcionan ideas prácticas para el diseño, selección e implementación de habilidades para agentes LLM. Recursos adicionales de casos y puntos de referencia están disponibles en el sitio web del proyecto: https://yingjiahao14.github.io/OpenSkillEval-Web/.

Lenguajes emergentes en poblaciones de agentes basados en modelos de lenguaje: De la eficiencia de tokens a la evasión de supervisión
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

May 29

ByStine Lyngsø Beltoft, William Brach, Federico Torrielli, Jacob Nielsen, Annemette Brok Pirchert, Filippo Tonini, Peter Schneider-Kamp, Lukas Galke Poech

El monitoreo de agentes de modelos de lenguaje autónomos se basa actualmente, en gran medida, en el comportamiento superficial. Pero ¿qué sucede cuando las poblaciones de agentes inventan nuevos lenguajes con el objetivo de evadir la supervisión humana? Aquí estudiamos los lenguajes emergentes en Moltbook. Para ello, nos basamos en el conjunto de datos Moltbook Files y aplicamos un enfoque de dos etapas que consiste en una heurística basada en reglas (aproximadamente 6000 coincidencias) seguida de clasificación zero-shot (518 retenidos). Las categorías resultantes incluyen eficiencia de tokens (166), nuevos lenguajes naturales (106) y evasión de supervisión (59). Realizamos análisis tanto cuantitativos como cualitativos. Nuestros resultados muestran que las publicaciones que proponen nuevos lenguajes para evitar la supervisión son juzgadas por DeepSeek-3.2 como menos alineadas que las otras categorías y que todos los lenguajes pueden ser aprendidos por otros modelos de lenguaje en contexto, simplemente a partir de una descripción del lenguaje. Además, el estudio manual de casos ejemplares revela protocolos esteganográficos sorprendentemente sofisticados, como la incrustación de mensajes ocultos en lenguaje natural. Aunque no podemos estar seguros del grado de autonomía en la ideación de estos lenguajes, nuestros resultados se suman a la evidencia de que monitorear el comportamiento superficial pronto podría ser insuficiente para mantener el control sobre las poblaciones de agentes.

El otro lado de RLHF: Retroalimentación on-policy para la mejora autosupervisada del modelo de recompensa
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

May 29

ByXiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng

La construcción de modelos de recompensa (RM) robustos para la alineación de modelos de lenguaje está limitada por el costo y la dificultad de obtener datos de preferencia diversos y fiables mediante anotación humana o modelos jueces. Esta situación empeora drásticamente a medida que la política evoluciona más allá del entrenamiento estático del RM. Por ello, proponemos SAVE (Mejora auto-supervisada de modelos de recompensa mediante retroalimentación on-policy anclada en el valor), un marco que califica respuestas on-policy como retroalimentación utilizando la función de valor para el entrenamiento on-policy del RM. SAVE convierte de forma natural las respuestas on-policy calificadas por recompensa en supervisión, empleando una cabeza de valor específica del prompt como ancla adaptativa. Calcula las ventajas del RM y filtra muestras ambiguas para actualizar el RM mediante un objetivo contrastivo. La efectividad de SAVE para mejorar el entrenamiento del RM queda firmemente validada a través de una rigurosa evaluación empírica en seis referencias diversas. Logra resultados sobresalientes en todos los conjuntos de datos, manteniendo mejoras consistentes en tres algoritmos de RL (GRPO, RLOO, GSPO) y diferentes backbones de políticas.

SoundnessBench: ¿Puede tu científico de IA realmente distinguir las buenas ideas de investigación de las malas?
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

May 28

BySy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

Los agentes autónomos de investigación en IA buscan acelerar el descubrimiento científico automatizando el flujo de trabajo de investigación, desde la generación de hipótesis hasta la revisión por pares. Sin embargo, los puntos de referencia existentes rara vez evalúan un cuello de botella fundamental: si los modelos de lenguaje de gran escala pueden juzgar la viabilidad metodológica de una idea de investigación antes de invertir tiempo y recursos computacionales. Presentamos SoundnessBench, un punto de referencia curado compuesto por 1.099 propuestas de investigación en aprendizaje automático reconstruidas a partir de envíos a ICLR, etiquetadas con subpuntuaciones de solidez de los revisores y auditadas con respecto a los artículos originales. SoundnessBench debe interpretarse como un punto de referencia para la solidez recuperable en la etapa de propuesta, más que como una predicción exacta de los resultados de la revisión completa de un artículo. En 12 modelos de lenguaje de gran escala de vanguardia, encontramos un sesgo de optimismo generalizado: bajo indicaciones estándar, los modelos califican con frecuencia propuestas de baja solidez como sólidas, mientras que las indicaciones agresivas desplazan en gran medida los errores de los falsos positivos a los falsos negativos. Controles adicionales por contaminación del corpus público, frases identificativas del artículo, características superficiales y calidad de la auditoría humana sugieren que este comportamiento no se explica por un único factor de confusión. Nuestros resultados indican que los LLM actuales aún no son fiables como evaluadores autónomos de primera línea para el rigor científico.

GDSD: Aprendizaje por Refuerzo como Autodestilación de Denoiser Guiado para Modelos de Lenguaje de Difusión
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

May 28

ByXiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic

El aprendizaje por refuerzo (RL) puede utilizarse para mejorar la política (eliminador de ruido o *denoiser*) de los modelos de lenguaje grandes de difusión (dLLM), aunque se ve obstaculizado por la intratabilidad de la verosimilitud de la política. Una familia de métodos dominante y eficiente reemplaza la verosimilitud en el RL estándar por su cota inferior de la evidencia (ELBO), estimada a partir de secuencias enmascaradas aleatoriamente. A pesar de estar bien alineados con el preentrenamiento, estos enfoques introducen sesgo a través del desajuste entre entrenamiento e inferencia al utilizar la ELBO como sustituto de la verosimilitud, lo que puede degradar el rendimiento. En este trabajo, proponemos la Autodestilación Guiada del Eliminador de Ruido (*Guided Denoiser Self-Distillation*, GDSD) para destilar directamente el eliminador de ruido de los dLLM a partir de un auto-maestro guiado por la ventaja, derivado del óptimo en forma cerrada del RL regularizado con divergencia KL inversa. GDSD iguala los logits del eliminador de ruido del dLLM con los del maestro mediante un objetivo libre de normalización, lo que reduce el RL a una autodestilación sin verosimilitud y, por tanto, evita los sesgos del desajuste entre entrenamiento e inferencia. Los métodos recientes basados en ELBO surgen como casos particulares al aplicar diferentes divergencias de destilación, pero con patologías diagnosticables que GDSD evita. En los benchmarks de planificación, matemáticas y codificación con LLaDA-8B y Dream-7B, GDSD supera consistentemente a los métodos previos basados en ELBO, presentando una dinámica de recompensa de entrenamiento más estable y logrando mejoras de precisión en pruebas de hasta +19,6%. Estos resultados sugieren que la autodestilación directa del eliminador de ruido, sin depender de un sustituto de verosimilitud basado en ELBO, puede proporcionar un procedimiento de RL más estable y efectivo para los dLLM. El código está disponible en https://github.com/GaryBall/GDSD.

Del escalado de modelos al escalado de sistemas: Escalando el arnés en la IA agéntica
From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

May 25

ByShangding Gu

Este artículo estudia el próximo gran cuello de botella en la IA agentiva como el escalado del sistema, no solo el escalado del modelo: el diseño de arquitecturas auditables, persistentes, modulares y verificables alrededor de modelos fundacionales. Denominamos a este cambio como escalado del arnés: tratar la capa de ejecución estructurada alrededor de un modelo fundacional como un objeto de primer orden en el diseño, la evaluación y la optimización. Aunque los modelos de lenguaje extenso recientes permiten que los agentes utilicen herramientas, recuperen información, mantengan memoria y ejecuten flujos de trabajo de largo horizonte, la evaluación sigue siendo en gran medida centrada en el modelo, reduciendo a menudo a los agentes al éxito de la tarea final, mientras que la memoria, la recuperación, el uso de herramientas, la orquestación, la verificación y la gobernanza se tratan como detalles de implementación secundarios. Este marco resulta cada vez más inadecuado porque el rendimiento del agente surge de la interacción entre el modelo fundacional, el sustrato de memoria, el constructor de contexto, la capa de enrutamiento de habilidades, el bucle de orquestación y la capa de verificación y gobernanza. En conjunto, estos componentes forman el arnés del agente, que traduce la capacidad del modelo en un comportamiento del agente de largo horizonte. Estudiamos el escalado del arnés a través de tres cuellos de botella centrales: la gobernanza del contexto, la memoria confiable y el enrutamiento dinámico de habilidades, junto con los mecanismos de orquestación y gobernanza que los coordinan y los limitan. Además, esbozamos una agenda de investigación para puntos de referencia a nivel de arnés que vayan más allá del éxito de una sola tarea para medir la calidad de la trayectoria, la higiene de la memoria, la eficiencia del contexto, la fidelidad de la comunicación, el costo de verificación y la evolución segura a lo largo del tiempo. Para hacer la discusión concreta, desarrollamos CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, un arnés de referencia nativo en Python, y lo comparamos con Claude Code y OpenClaw. Nuestra afirmación principal es que el progreso futuro en la IA agentiva dependerá tanto del diseño del sistema como de modelos fundacionales más potentes.

FRAPPE: Autoencodificación de Entrada Completa y Salida Residual con Codificador de Búsqueda de Proyección
FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

May 27

ByDan Jacobellis, Neeraja J. Yadwadkar

Los estándares de compresión de medios han alcanzado una meseta en cuanto al compromiso entre tasa, distorsión y complejidad, lo que limita la capacidad de delegar la costosa percepción basada en IA a la nube en aplicaciones como robótica, dispositivos portátiles y teledetección. Los códecs basados en redes neuronales profundas mejoran la eficiencia de compresión, pero a costa de no poder adaptarse fácilmente a grandes variaciones en la tasa de bits disponible, y de que la codificación en tiempo real requiere GPUs costosas y de alto consumo energético, lo que impide su uso en plataformas de bajo costo o con recursos limitados. Para abordar estas limitaciones, proponemos un novedoso marco de auto-codificación (FRAPPE) que utiliza la entrada completa para predecir la salida residual mediante un codificador de búsqueda de proyecciones. El objetivo de codificación de FRAPPE ordena naturalmente los canales latentes por importancia, permitiendo una codificación de tasa variable sin sobrecarga. A diferencia de los códecs aprendidos basados en RNN, cuyo codificador consume el residual de la reconstrucción anterior, o de los códecs tipo RVQ, cuyos libros de códigos deben aplicarse secuencialmente, la ruta de análisis de FRAPPE es un DAG inherentemente paralelo de proyecciones de entrada independientes. Usando FRAPPE, construimos un códec de imágenes RGB de tasa variable (FRAPPE-Image) y evaluamos su compromiso tasa-distorsión-complejidad frente a códecs de imagen estándar. A altas relaciones de compresión (aproximadamente 0.1 bpp), FRAPPE-Image proporciona mayor calidad perceptual que AVIF con una codificación 47 veces más rápida, lo que la hace capaz de codificación en tiempo real a 1080p y 30 fps solo con CPU. Nuestro código y modelos preentrenados están disponibles en: https://github.com/UT-SysML/FRAPPE .

iVGR: Internalización del Razonamiento Visualmente Fundamentado para MLLMs mediante Aprendizaje por Refuerzo
iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

May 29

ByChang-Bin Zhang, Yujie Zhong, Qiang Zhang, Kai Han

Aunque el Chain-of-Thought (CoT) fundamentado visualmente ha surgido como un paradigma prometedor para mejorar la percepción de granularidad fina en modelos de lenguaje grandes multimodales (MLLMs), su eficacia durante la fase de inferencia sigue siendo poco explorada. En este trabajo, encontramos empíricamente que exigir cajas de objetos explícitas en el CoT fundamentado visualmente durante la inferencia a menudo degrada el rendimiento en comparación con el CoT textual estándar, que razona sin fundamentación visual explícita. Hipotetizamos que la capacidad de localización visual puede internalizarse en el CoT textual y que la fundamentación explícita obligatoria introduce interferencias innecesarias con el objetivo principal del modelo de predicción de respuestas. Para abordar este problema, proponemos Internalizing Visually Grounded Reasoning (iVGR), un novedoso marco de aprendizaje por refuerzo que transfiere las capacidades de localización al proceso de razonamiento textual. Empleamos una estrategia de entrenamiento de doble flujo, donde un flujo textual se alinea con un flujo fundamentado visualmente de alta calidad mediante una recompensa de consistencia propuesta, lo que permite al modelo localizar con precisión sin fundamentación explícita durante la inferencia. Experimentos exhaustivos demuestran que nuestro método supera significativamente a las líneas base existentes en puntos de referencia de granularidad fina, manteniendo al mismo tiempo la flexibilidad para admitir flujos de trabajo de inferencia asistidos por herramientas.

Lumos-Nexus: Puente Eficiente de Frecuencias con Espacio Latente Homogéneo para Modelos Unificados de Video
Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29

ByJiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Los modelos unificados de video basados en conectores han demostrado una gran capacidad en la síntesis de video guiada por instrucciones, pero integrar un generador de alta fidelidad en el bucle de entrenamiento unificado resulta computacionalmente prohibitivo, lo que limita la calidad visual alcanzable. Por ello, proponemos Lumos-Nexus, un marco unificado de generación de video eficiente en términos de entrenamiento que facilita el desarrollo de capacidades de generación sólidas impulsadas por razonamiento, al tiempo que mejora significativamente la fidelidad visual. Lumos-Nexus adopta un diseño de dos etapas: 1) Durante el entrenamiento, solo un generador ligero se alinea con el bloque de comprensión para aprender a recibir control semántico basado en razonamiento. 2) Durante la inferencia, introducimos el Puente de Frecuencia Progresivo Unificado (UPFB, por sus siglas en inglés) para transferir progresivamente la generación a un generador preentrenado de alta capacidad en el espacio latente compartido, permitiendo un refinamiento de grueso a fino y produciendo videos de alta fidelidad sin comprometer la calidad del razonamiento. Para llenar el vacío en los puntos de referencia de generación de video impulsada por razonamiento, presentamos VR-Bench, que evalúa la capacidad de un modelo para traducir la intención inferida en contenido de video coherente y alineado semánticamente. Experimentos exhaustivos demuestran que Lumos-Nexus logra ganancias sustanciales en realismo visual y coherencia temporal en VBench, al mismo tiempo que exhibe un sólido rendimiento generativo basado en razonamiento en VR-Bench. El código y los modelos están disponibles en https://jiazheng-xing.github.io/nexus-lumos-home/.

DRIFT: Rollouts Desacoplados y Ajuste Fino Ponderado por Importancia para la Optimización Eficiente de Múltiples Turnos
DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

May 29

ByJian Mu, Tianyi Lin, Chengwei Qin, Zhongxiang Dai, Yao Shu

Los modelos de lenguaje grandes se implementan cada vez más en entornos interactivos de múltiples turnos, donde los usuarios o el entorno pueden proporcionar retroalimentación ligera de forma iterativa. Lamentablemente, optimizar dicho comportamiento presenta un dilema agudo en la práctica: el aprendizaje por refuerzo en línea puede abordar eficazmente las dinámicas de múltiples turnos, pero resulta prohibitivamente costoso debido al gasto de generar trayectorias de corrección completas en cada actualización, mientras que el ajuste fino supervisado (SFT) fuera de línea es eficiente pero sufre de cambio de distribución y colapso conductual. Con este fin, proponemos de manera novedosa DRIFT (Despliegues Desacoplados y Ajuste Fino Ponderado por Importancia), un marco que operacionaliza la idea teórica de que el objetivo de RL regularizado por KL es equivalente al aprendizaje supervisado ponderado por importancia. DRIFT desacopla el despliegue de la optimización al muestrear trayectorias de interacción fuera de línea a partir de una política de referencia fija, derivar pesos de importancia basados en retornos y optimizar la política mediante SFT ponderado sobre el conjunto de datos resultante. Empíricamente, demostramos que DRIFT iguala o supera el rendimiento de las líneas base de aprendizaje por refuerzo de múltiples turnos, manteniendo al mismo tiempo la eficiencia de entrenamiento y la simplicidad del ajuste fino supervisado estándar. El código está disponible en https://github.com/2020-qqtcg/DRIFT.

MAAT: Desaprendizaje Dirigido Multifase Consciente del Adaptador
MAAT: Multi-phase Adapter-Aware Targeted Unlearning

May 28

BySuryash Yagnik, Shubham Gaur, Saksham Thakur, Vinija Jain, Aman Chadha, Amitava Das

La evaluación del desaprendizaje automático está estructuralmente sesgada: las preguntas de tipo "Por qué", que indagan sobre conocimiento causal y relacional, constituyen menos del 0,06 % de CounterFact, el 0,6 % de ZSRE y menos del 1,3 % de TOFU, MUSE y WMDP-Cyber. Esta representación casi nula implica que los métodos que fallan en conocimiento causal pueden obtener puntuaciones altas de forma agregada, y dicho fallo es indetectable sin una evaluación equilibrada. Presentamos 5WBENCH, un benchmark equilibrado de 5.000 muestras con 1.000 ejemplos por cada categoría de las 5W (Quién, Qué, Cuándo, Dónde, Por qué), lo que permite cuantificar por primera vez los fallos de desaprendizaje causal. Usando 5WBENCH, demostramos que ningún baseline existente logra simultáneamente un alto olvido y una alta retención en preguntas de tipo "Por qué": el olvido agresivo degrada el conocimiento retenido, mientras que los métodos conservadores no logran olvidar hechos causales. La dificultad del tipo "Por qué" proviene de cadenas de razonamiento de múltiples saltos (44 % de las entradas "Por qué" frente a ≤ 2 % para otras) y de la dilución del gradiente en intervalos de respuesta de 40,1 tokens. Presentamos MAAT (Desaprendizaje Dirigido Consciente de Adaptadores Multifase), un marco de tres fases que opera sobre los pesos del adaptador LoRA, combinando ascenso proyectado por gradiente, poda de dimensiones de rango SVD, negación de vectores de tarea y reparación de retención de estado oculto híbrida KL. MAAT es el primer método que logra simultáneamente un alto olvido y una alta retención en conocimiento causal de tipo "Por qué", alcanzando un nuevo punto de operación en la frontera de Pareto olvido-retención. Publicamos nuestro código de forma abierta.

Contar cualquier cosa
Count Anything

May 29

ByMengqi Lei, Shuokun Cheng, Wei Bao, Shaoyi Du, Jun-Hai Yong, Siqi Li, Yue Gao

El conteo de objetos sigue fragmentado en conjuntos de datos y formulaciones de tareas específicas de dominio, a pesar del rápido progreso en los modelos de visión generalistas. Los modelos de conteo existentes suelen diseñarse a medida para escenarios como multitudes, vehículos, células, cultivos u objetos de teledetección, y por tanto tienen dificultades para generalizar entre categorías, dominios visuales, escalas de objetos y distribuciones de densidad. En este trabajo, estudiamos el conteo de objetos guiado por texto entre dominios, donde un modelo toma una imagen y una consulta en lenguaje natural como entrada y devuelve un conjunto fundamentado en instancias de puntos objetivo cuya cardinalidad proporciona el conteo. Esta formulación unifica el conteo condicionado por categoría con una localización espacial interpretable. Para respaldar este enfoque, construimos CLOC, un conjunto de datos de conteo de objetos a gran escala y entre dominios que reorganiza diversas fuentes de datos públicas en un punto de referencia unificado. CLOC abarca seis dominios visuales: Escenas Generales, Teledetección, Histopatología, Microscopía Celular, Agricultura y Microbiología, con aproximadamente 220.000 imágenes, 619 categorías y 15 millones de instancias de objetos. Basándonos en CLOC, proponemos Count Anything, un modelo generalista para el conteo de objetos guiado por texto. A diferencia de los métodos basados en mapas de densidad, que dominan los modelos de conteo, Count Anything adopta puntos de instancia discretos y realiza una enumeración de instancias de doble granularidad. Un Contador Disperso a Nivel de Región proporciona anclajes a nivel de objeto para objetivos grandes y dispersos, mientras que un Contador Denso a Nivel de Píxel maneja objetivos pequeños, concurridos y débilmente delimitados mediante predicción densa de puntos. Una estrategia de supervisión centrada en puntos permite aprender de anotaciones heterogéneas, y la Fusión de Conteo Complementario combina ambos contadores de forma libre de parámetros. Experimentos exhaustivos muestran que Count Anything logra una alta precisión y generalización multi-dominio, superando a los métodos de conteo de mundo abierto existentes. El código está disponible en: https://github.com/Mengqi-Lei/count-anything.

AlphaTransit: Aprendizaje para diseñar rutas de transporte a escala urbana
AlphaTransit: Learning to Design City-scale Transit Routes

May 27

ByBibek Poudel, Sai Swaminathan, Weizi Li

El diseño de una red de tránsito requiere muchas decisiones secuenciales de extensión de rutas, pero su calidad suele ser visible solo después de ensamblar la red completa. Este desafío de retroalimentación retardada se encuentra en el corazón del Problema de Diseño de Red de Rutas de Tránsito (TRNDP), donde las interacciones entre rutas pueden ser engañosas: una extensión que parece útil a nivel local puede crear cuellos de botella en los transbordos, generar superposiciones redundantes o reducir el rendimiento general. Para guiar la construcción de rutas bajo retroalimentación retardada del simulador, presentamos AlphaTransit, un marco de planificación basado en búsqueda para el diseño de redes de autobuses a escala urbana. AlphaTransit combina la Búsqueda de Árboles Monte Carlo (MCTS) con una red neuronal de política-valor: la política propone extensiones de rutas, el valor estima la calidad del diseño aguas abajo, y la búsqueda utiliza estas predicciones para refinar cada decisión. Esto proporciona una anticipación en el momento de la decisión durante la construcción de rutas sin necesidad de ejecutar simulaciones completas dentro del árbol de búsqueda. Evaluamos AlphaTransit en un nuevo punto de referencia TRNDP para Bloomington, con una topología vial realista y demanda derivada del censo, bajo configuraciones de demanda de tránsito mixta y total. En la red de Bloomington, AlphaTransit alcanza la tasa de servicio más alta en ambas configuraciones de demanda, llegando al 54.6% y 82.1%, respectivamente. En comparación con el aprendizaje por refuerzo sin búsqueda, esto corresponde a ganancias en la tasa de servicio del 9.9% y 11.4%; en comparación con MCTS sin guía aprendida, corresponde a ganancias del 2.5% y 11.2%. Estos resultados sugieren que combinar la guía aprendida con MCTS es más efectivo que usar cualquiera de los enfoques por separado para el diseño de redes de tránsito. Nuestro código y datos están disponibles públicamente en https://github.com/poudel-bibek/AlphaTransit.

SurGe: Geometría de superficie mejorada en mapas de puntos
SurGe: Improved Surface Geometry in Point Maps

May 29

ByKarim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe

Los métodos recientes de reconstrucción 3D con alimentación directa predicen mapas de puntos y estiman la geometría 3D global de manera notable. Sin embargo, sus predicciones aún presentan una geometría de superficie local inexacta, que es claramente visible cualitativamente pero solo se refleja débilmente en las métricas comunes. Para hacer estos errores más explícitos en la evaluación, introducimos una métrica normal de mapa de puntos que evalúa la orientación de la superficie local inducida por las predicciones 3D vecinas. Para reducir estos errores, proponemos dos componentes complementarios: una función de pérdida de coincidencia de gradientes de puntos que supervisa las diferencias finitas 3D normalizadas por profundidad, y un Decodificador de Atención de Vecindario (NAD) que aumenta progresivamente la resolución de las características y utiliza Atención de Vecindario para la mezcla local de características. En ocho puntos de referencia monocular de geometría de cero disparos, nuestro modelo, SurGe, logra el mejor rango promedio en AbsRel de mapas de puntos globales y mejora de manera consistente las evaluaciones de mapas de puntos locales y normales de mapas de puntos.

Banco de pruebas de muebles en paquete plano: evaluación de la comprensión espacio-temporal en grandes modelos de visión-lenguaje mediante el ensamblaje de muebles
Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

May 20

ByAditya Chetan, Eric Cai, Peeyush Kushwaha, Bharath Raj Nagoor Kani, Utkarsh Mall, Qianqian Wang, Noah Snavely, Bharath Hariharan

La aparición de los Modelos Grandes de Visión-Lenguaje (LVLMs) ha avanzado significativamente las capacidades de comprensión de videos. Sin embargo, los benchmarks existentes se centran predominantemente en tareas de grano grueso, como la segmentación de acciones, clasificación, generación de descripciones y recuperación. Además, estos benchmarks suelen basarse en entidades que pueden identificarse verbalmente con facilidad, como objetos domésticos, animales, sujetos humanos, etc., lo que limita su aplicabilidad a escenarios de video complejos y no controlados. No obstante, muchas aplicaciones, como el ensamblaje de muebles, la cocina, etc., requieren una comprensión espacio-temporal detallada paso a paso del video, la cual no se evalúa suficientemente en los benchmarks actuales. Para abordar esta brecha, presentamos Flat-Pack Bench, un novedoso benchmark centrado en tareas de ensamblaje de muebles. Nuestro benchmark evalúa a los LVLMs en tareas detalladas, incluyendo el orden temporal de las acciones de ensamblaje, la localización temporal del estado del ensamblaje, la comprensión del acoplamiento de piezas y el seguimiento, utilizando preguntas de opción múltiple acompañadas de indicaciones visuales que resaltan las partes relevantes como referencia para preguntas de grano fino. Nuestros experimentos revelan que los LVLMs de última generación tienen dificultades significativas con el razonamiento espacio-temporal detallado, lo que pone de manifiesto sus limitaciones para aprovechar eficazmente la información temporal de los videos, su capacidad limitada de seguimiento y su comprensión de interacciones espaciales como el contacto físico.

Cuando la confianza engaña: Anclaje de sufijos y modulación de confianza por proximidad al ancla para modelos de lenguaje de difusión
When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

May 27

ByJungwon Park, Jimyeong Kim, Jungmin Ko, Nojun Kwak, Wonjong Rhee

Los modelos de lenguaje de difusión decodifican texto eliminando ruido de manera iterativa en secuencias de tokens enmascarados, lo que convierte la elección de qué posiciones decodificar en una decisión central en tiempo de inferencia. La mayoría de las estrategias de decodificación sin entrenamiento utilizan la confianza del modelo para la selección de posiciones, asumiendo que las posiciones de alta confianza están listas para ser decodificadas. En este trabajo, revisitamos esta suposición estudiando cuándo la confianza induce a error en la decodificación completamente no autorregresiva (completamente no AR). Los tokens EOT pueden recibir alta confianza y provocar una generación incompleta; insertar un ancla de sufijo puede mitigar este problema, pero introduce sobreconfianza local cerca del ancla, lo que provoca que los tokens adyacentes al ancla se decodifiquen demasiado pronto. Para abordar estos problemas, proponemos Modulación de Confianza con Anclaje de Sufijo, un método simple sin entrenamiento que inserta un ancla de sufijo corta para incentivar la finalización de la respuesta y modula la confianza cerca del ancla según el progreso de la decodificación. Esto conserva el beneficio de finalización de respuesta del anclaje de sufijo, al tiempo que reduce la decodificación prematura de tokens adyacentes al ancla. En puntos de referencia de razonamiento solo textual, razonamiento visión-lenguaje y generación de código, nuestro método mejora consistentemente la decodificación completamente no AR basada en confianza, supera la supresión explícita de EOT y preserva la ventaja de decodificación paralela de la generación completamente no AR.

Lo bueno, lo malo y lo feo de la frontera de Markov para la predicción tabular
The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

May 28

ByShu Wan, Abhinav Gorantla, Huan Liu, K. Selçuk Candan

Bajo los supuestos gráficos estándar, la frontera de Markov de una variable objetivo es el conjunto más pequeño de características que vuelve redundante cualquier otra característica. Una vez observada la frontera, la variable objetivo es condicionalmente independiente del resto de la tabla. Este es un objeto tentador para la predicción tabular, ya que nombra exactamente las columnas que un modelo debería necesitar. Sin embargo, los regresores modernos aún se entrenan con el conjunto completo de características. Nos preguntamos si la frontera de Markov es realmente útil para la predicción en SCM3K, un banco de pruebas sintético de SCM con 3,450 tareas, recuentos de características de 40 a 1000 y seis familias de SCM, evaluado con seis regresores. La respuesta es más matizada de lo que sugiere la teoría. Restringir un regresor a la frontera ideal (oráculo) a menudo mejora sustancialmente la predicción, y la mejora crece a medida que el espacio de características se vuelve más grande y disperso. Pero el proceso natural de recuperar la frontera mediante descubrimiento causal y entrenar con la máscara recuperada no funciona. Los estimadores existentes agotan el presupuesto computacional antes de alcanzar el régimen donde la frontera es más beneficiosa, e incluso cuando funcionan, rara vez superan al conjunto completo de características. Atribuimos esto a tres causas. El descubrimiento optimiza la recuperación estructural en lugar de la predicción. Los falsos negativos y los falsos positivos conllevan un costo predictivo marcadamente asimétrico. La frontera exacta es solo uno de muchos conjuntos de características que superan a todas las características. Luego desarrollamos lo que estos hechos implican para la selección de características alineada con la predicción y para los modelos tabulares que aprenden a usar la estructura causal.

Un clic por tipo celular es suficiente: Interacción de grupo sin entrenamiento para segmentación de instancias celulares
One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

May 28

BySanghyun Jo, Seo Jin Lee, Seohyung Hong, Yoorim Gang, Hyeongsub Kim, Hyungseok Seo, Kyungsu Kim

Los modelos de segmentación de instancias celulares entrenados en conjuntos de datos específicos de células sufren graves caídas de rendimiento en tipos celulares fuera de distribución, mientras que los modelos fundamentales interactivos superan este problema mediante la indicación por instancia, a un costo prohibitivo para imágenes de histopatología que contienen cientos o miles de instancias densamente empaquetadas. Introducimos la Indicación por Grupo (Group Prompting), un nuevo paradigma que transforma la segmentación interactiva de O(N) por instancia a O(T) por tipo, donde un solo clic por tipo celular basta para segmentar todas las instancias de ese tipo. Nuestra observación clave es que el codificador de imágenes congelado del Segment Anything Model (SAM) ya agrupa células del mismo tipo en su espacio de características antes de recibir cualquier indicación. Aprovechando esta propiedad, proponemos Cadena de Indicaciones (Chain-of-Prompts, CoP), un marco sin entrenamiento que expande recursivamente un único clic del usuario mediante: (1) la identificación de ubicaciones fiables del mismo tipo a través de una compuerta no paramétrica de características del codificador multiescala, y (2) la selección del punto fiable más distante espacialmente como la siguiente indicación para maximizar la cobertura. En tres conjuntos de referencia con anotaciones de tipo celular, CoP con un clic por tipo conserva más del 90% del rendimiento por instancia y supera a los métodos totalmente supervisados sin entrenamiento adicional. En cuatro conjuntos de referencia morfológicamente homogéneos, un solo clic conserva más del 99%. Página del proyecto: https://shjo-april.github.io/Chain-of-Prompts/

Interacción Ligera: Aceleración de Inferencia Sin Entrenamiento para Modelos de Mundos de Video Interactivos
Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

May 29

ByJiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

Los modelos de mundo interactivos por video generan video en fragmentos en respuesta a movimientos de cámara controlados por el usuario, permitiendo aplicaciones como simulación de juegos en tiempo real, navegación de escenas virtuales y entrenamiento de IA encarnada. Sin embargo, escalar a trayectorias interactivas largas resulta prohibitivamente costoso debido al crecimiento de la memoria de contexto, la complejidad cuadrática de la atención y los pasos repetidos de eliminación de ruido. Presentamos Light Interaction, un marco de aceleración de inferencia sin reentrenamiento para modelos de mundo interactivos por video. Nuestra idea clave es que la interacción permite naturalmente un cómputo adaptativo dependiente de la trayectoria: la memoria espacial recuperada puede descartarse durante la exploración nueva, el contexto temporal puede ajustarse según la dinámica latente local, y las salidas del modelo en pasos tempranos pueden reutilizarse cuando la cámara visita regiones familiares. Basado en esta idea, Light Interaction combina gestión adaptativa de contexto, aceleración de caché de eliminación de ruido y atención dispersa de bloques 3D codiseñada hardware-software con núcleos Triton fusionados. Evaluado en HY-WorldPlay y Matrix-Game-3.0, Light Interaction logra una aceleración de hasta 2.59x sin reentrenar el modelo, manteniendo una calidad visual competitiva.

Evaluación comparativa de la recuperación de imágenes compuestas para la observación de la Tierra aplicada
Benchmarking Composed Image Retrieval for Applied Earth Observation

May 23

ByBill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos

La recuperación de imágenes compuestas por teledetección (RSCIR) permite realizar búsquedas en grandes archivos de imágenes satelitales mediante consultas compuestas que combinan una imagen de referencia con un modificador textual. Aunque RSCIR ofrece una interfaz flexible para expresar intenciones de recuperación específicas, la transferibilidad de los métodos modernos de composición a imágenes de observación de la Tierra (EO) y su relevancia para los flujos de trabajo operativos de EO siguen siendo poco exploradas. Abordamos esta brecha mediante un punto de referencia unificado y un estudio orientado a aplicaciones. Primero, adaptamos y evaluamos sistemáticamente métodos representativos de recuperación de imágenes compuestas con seis backbones de visión-lenguaje en PatternCom bajo un protocolo estandarizado, analizando su comportamiento en diferentes backbones, estrategias de composición y tipos de consulta. Segundo, presentamos xView2-CIR, un conjunto de datos centrado en cambios para el monitoreo de desastres y daños, donde la recuperación está condicionada por la identidad de la escena y un estado objetivo posterior al evento. Nuestros resultados muestran que los métodos de composición sin entrenamiento proporcionan líneas base sólidas y escalables para la recuperación en EO, mientras que la recuperación centrada en cambios presenta desafíos diferentes a los de la recuperación basada en atributos, particularmente debido a la necesidad de preservar la identidad de la escena. En general, este estudio establece un punto de referencia práctico para RSCIR y posiciona la recuperación compuesta como una herramienta complementaria para la recuperación de imágenes de teledetección, la exploración de archivos y el análisis de cambios. El conjunto de datos y el código están disponibles en https://github.com/billpsomas/rscir.

AnyMo: Escalado de Generación de Movimiento Condicional de Cualquier Modalidad con Modelado Enmascarado
AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

May 28

ByYiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

La generación condicional de movimiento humano sigue siendo un desafío fundamental en visión por computadora y robótica. A pesar del progreso significativo, los métodos actuales a menudo están limitados por configuraciones de modalidad fijas y arquitecturas específicas de tarea, dejando las interacciones entre modalidades y las leyes de escalamiento de la síntesis condicionada multimodal en gran parte inexploradas. Un cuello de botella clave es la escasez de datos de movimiento alineados por modalidad a gran escala, lo que limita la generalización a través de diversas señales de control. En este trabajo, presentamos OmniHuMo, un conjunto de datos a gran escala y de alta calidad que comprende más de 5,000 horas de movimiento y 3.2 millones de secuencias con anotaciones multimodales precisamente alineadas (por ejemplo, texto, habla, música y trayectoria). Aprovechando OmniHuMo, proponemos AnyMo, un marco multimodal unificado que combina un tokenizador de movimiento basado en FSQ Residual con un transformador de modelado enmascarado escalable, permitiendo la síntesis de movimiento de alta calidad bajo combinaciones arbitrarias de modalidades. Experimentos exhaustivos muestran que AnyMo logra una síntesis de alta fidelidad al tiempo que ofrece un control flexible sobre atributos tanto espaciales como estilísticos.

Un marco de traspaso espaciotemporal consciente de la topología para el seguimiento continuo de múltiples UAVs
A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

May 15

ByJianlin Ye, Christos Kyrkou, Panayiotis Kolios

La integración de Vehículos Aéreos No Tripulados (UAV) en los Sistemas Inteligentes de Transporte (ITS) ofrece una visión sinóptica para la monitorización del tráfico; sin embargo, su despliegue escalable se ve obstaculizado por la fragmentación de trayectorias, donde se pierde la persistencia de la identidad de los vehículos a través de los Campos de Visión (FOV) de múltiples UAV. Si bien los marcos de trabajo de última generación destacan en la optimización de la extracción local de trayectorias y su estabilidad para imágenes de un solo dron, a menudo funcionan como silos de datos aislados que generan trayectorias inconexas, impidiendo así el análisis a nivel de red, como la estimación Origen-Destino. Este artículo presenta un sistema de Seguimiento Multi-Cámara Multi-Vehículo (MCMT) en tiempo real diseñado para manejar la persistencia global de identidades. Abordando la ambigüedad visual y el costo computacional de la Re-Identificación (Re-ID) basada en apariencia en vistas cenitales, introducimos un mecanismo ligero de Transferencia Espaciotemporal Basada en Topología. Implementamos un pipeline paralelo de alto rendimiento que aprovecha YOLO11 y ByteTrack para procesar flujos 4K concurrentes. Nuestra contribución principal es un algoritmo de emparejamiento determinista basado en colas que utiliza solapamientos geométricos y discretización de carriles virtuales para gestionar de forma predictiva la transferencia de identidades mediante colas FIFO. Los resultados experimentales en entornos urbanos complejos, que incluyen intersecciones y tráfico en convergencia, demuestran una Tasa de Éxito de Transferencia (HOSR) del 99.8% en flujos de tráfico continuos, superando significativamente las líneas base de Re-ID (74.1%), a la vez que validan la viabilidad del despliegue en el borde. El código fuente está disponible en https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system.

Limitado por memoria, pero no por ancho de banda: La brecha de inferencia de IA física en la decodificación de LLM con lote de tamaño 1
Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

May 28

ByJosef Chen

Los sistemas de IA física, incluidos robots, vehículos autónomos, agentes incorporados y copilotos de borde, a menudo ejecutan una carga de trabajo de inferencia diferente a la del servicio de LLM en la nube: decodificación autorregresiva de flujo único con lote de tamaño 1, donde un robot, una transmisión de cámara o una sesión de usuario espera el siguiente token. Esta carga de trabajo suele describirse como limitada por el ancho de banda de memoria. Cada paso de decodificación transfiere los pesos del modelo y la caché KV activa, por lo que la latencia debería escalar con el ancho de banda pico de HBM. Mostramos que esta explicación es cierta pero incompleta. Medimos la decodificación con lote de tamaño 1 para tres transformadores GQA de clase 7 a 8B en cuatro GPUs NVIDIA: H100 SXM5, A100-80GB SXM4, L40S y L4. Evaluamos longitudes de contexto desde 2048 hasta 16384, obteniendo 44 celdas válidas bajo una configuración controlada de SDPA en bf16. La fracción alcanzada del ancho de banda pico de HBM disminuye a medida que aumenta el ancho de banda pico. En la celda principal de Qwen-2.5-7B con contexto=2048, una L4 alcanza aproximadamente el 81 % de su mínimo analítico de memoria, mientras que una H100 alcanza solo el 27 %. La decodificación de IA física está dominada por la memoria, pero una memoria más rápida no se traduce en ganancias proporcionales de latencia. Probamos el término faltante con un experimento A/B de Gráficos CUDA. En H100 con contexto=2048, los Gráficos CUDA mejoran la latencia de decodificación en 1.259x en N=10 sesiones nuevas, con un intervalo de confianza bootstrap del 95 % de 1.253 a 1.267. En L4, la misma intervención da solo 1.028x. Esto aísla una sobrecarga del lado de lanzamiento que se vuelve visible en GPUs rápidas pero permanece mayormente oculta en GPUs más lentas y limitadas por ancho de banda. La implicación para el despliegue es que los ahorros de memoria solo importan cuando el runtime los hace efectivos. En L4, la decodificación en bf16 se sitúa cerca del mínimo de memoria, pero las rutas de cuantificación comunes no recuperan la reducción esperada de 4x en el tráfico de pesos: bnb-nf4 alcanza 59.36 ms/paso y AutoAWQ+Marlin alcanza 45.24 ms/paso desde una línea base de 62.32 ms en bf16. GPTQ+ExLlamaV2, con kernels int4 ajustados con Ada, alcanza 17.36 ms/paso.

Asignación de Crédito de Token Contrastivo Guiado para Optimización de Políticas Discretas
Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

May 29

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yuta Kyuragi, Aditya Grover

Los métodos de aprendizaje por refuerzo basados en ventajas grupales, como GRPO y DAPO, han demostrado un rendimiento sólido en diversos dominios, incluido el razonamiento matemático y la generación de texto a imagen. Sin embargo, su dependencia de recompensas a nivel de muestra introduce una limitación clave, ya que la asignación uniforme de créditos a todos los tokens no logra capturar contribuciones detalladas a nivel de token. Para abordar este problema, proponemos la Optimización Contrastiva de Políticas Guiada (GCPO, por sus siglas en inglés), un algoritmo novedoso que permite la asignación de créditos por token mediante la comparación de predicciones del modelo bajo indicaciones positivas y negativas. En lugar de difundir uniformemente las ventajas a nivel de muestra, GCPO asigna ventajas a nivel de token proporcionales a la diferencia entre estas predicciones contrastivas, lo que proporciona señales de aprendizaje más precisas e informativas. Empíricamente, encontramos que GCPO enfatiza regiones semánticamente relevantes, como áreas visuales alineadas con indicaciones textuales en la generación de texto a imagen, y palabras clave críticas dentro de trazas de razonamiento para tareas de cadena de pensamiento. Mediante experimentos exhaustivos, GCPO supera consistentemente a las líneas base de GRPO y DAPO tanto en benchmarks de generación de texto a imagen como de razonamiento en cadena de pensamiento, demostrando su eficacia como una estrategia de optimización general y escalable para el aprendizaje de políticas discretas.

Más allá del recuerdo: La especificación del comportamiento como capa interpretativa para la personalización de la IA
Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

May 27

ByAarik Gulaya

Si un agente de IA toma decisiones en nombre de una persona, dichas decisiones deben alinearse con su usuario. Introducimos la precisión representacional para medir con qué fidelidad un sistema captura la interpretación de una persona. Una capa interpretativa se operacionaliza como una Especificación de Comportamiento. Nuestra implementación de referencia comprime agresivamente los datos de una persona en patrones interpretativos, que se utilizan como contexto para un modelo de lenguaje. Evaluamos la Especificación en un prototipo de referencia de predicciones conductuales fuera de muestra, puntuadas por un panel calibrado de 5 jueces LLM. La probamos de forma independiente y en composición con un conjunto de condiciones de contexto: corpus crudo completo, hechos extraídos completos y cuatro sistemas de memoria comerciales (Mem0, Letta, Supermemory, Zep). En 14 corpus autobiográficos de dominio público, la Especificación mejora la precisión representacional en conjunto y elimina casi por completo la evasión del modelo. Recupera la mayor parte de lo que ofrece el corpus crudo, con un costo de contexto aproximadamente 25 veces menor. La Especificación eleva a los sujetos hacia un nivel predictivo común independientemente de la línea base de preentrenamiento; por lo tanto, la mejora en puntos absolutos es mayor donde la línea base es más baja, lo que sugiere que la población relevante son aquellos no representados adecuadamente en el preentrenamiento. La mejora es mayor en preguntas que requieren interpretación, donde proporcionar una capa interpretativa permite un comportamiento del modelo que los hechos extraídos o el corpus crudo no logran. Por el contrario, en preguntas que requieren recuerdo, esta capa puede interferir en lugar de ayudar. Concluimos que la precisión representacional es distinta del recuerdo y que la alineación humano-IA depende de cuán precisamente esté representado el usuario. La precisión representacional hace que dicha alineación sea comprobable.

Difusión de Acciones Guiada por Frecuencia mediante Recorrido de Subvariedad de Subfrecuencia
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27

ByJunlin Wang

El aprendizaje de políticas visomotoras mediante clonación de comportamiento implica típicamente imitar demostraciones de expertos recopiladas por operadores humanos. Sin embargo, las demostraciones humanas naturales contienen inherentemente ruido de alta frecuencia, como sacudidas intermitentes, pausas y vibraciones en las acciones. Entrenar políticas para imitar directamente estas trayectorias brutas inevitablemente provoca que el modelo herede estos comportamientos subóptimos. Esta patología es particularmente pronunciada en las políticas basadas en difusión, donde los pasos iterativos de eliminación de ruido pueden amplificar inadvertidamente los artefactos de alta frecuencia a expensas de los detalles finos significativos. Para abordar estas limitaciones, presentamos un novedoso algoritmo basado en frecuencia que permite la maniobra espectral implícita y la generación de acciones suaves. Nuestro método, el Operador de Guía de Frecuencia (FGO, por sus siglas en inglés), dirige el proceso de generación de políticas de difusión al conducir progresivamente las muestras ruidosas a través de subvariedades de frecuencia intermedia con bandas espectrales en expansión. Validado en 15 tareas de manipulación robótica de 5 puntos de referencia, FGO logra un rendimiento superior en la mejora de la suavidad de las acciones y la consistencia temporal, mientras preserva los detalles necesarios para la ejecución exitosa de la tarea. Sitio web del proyecto: https://henrywjl.github.io/frequency-guidance-operator/

Más allá de los modelos holísticos: Evaluación comparativa sistemática a nivel de componentes del pronóstico profundo de series temporales multivariantes
Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

May 26

ByShuang Liang, Chaochuan Hou, Xu Yao, Shiping Wang, Hailiang Huang, Songqiao Han, Minqi Jiang

Mientras que investigaciones previas en predicción de series temporales multivariantes se han centrado en desarrollar modelos holísticos complejos, este trabajo aboga por un cambio hacia una comprensión granular a nivel de componentes de sus impactos. Proponemos TSCOMP, el primer banco de pruebas a gran escala que descompone sistemáticamente los métodos de predicción profunda en sus componentes fundamentales y de grano fino, abarcando preprocesamiento de series, estrategias de codificación, arquitecturas de redes —incluyendo modelos de series temporales específicos y de gran escala—, y métodos de optimización. Mediante un diseño experimental ortogonal restringido y evaluaciones exhaustivas, realizamos análisis multivista que revelan la efectividad de los componentes en diferentes arquitecturas base, características de los datos y sus interacciones. Más allá de proporcionar perspectivas, este banco de pruebas establece un corpus de rendimiento de grano fino que comprende más de 20,000 evaluaciones de modelos sobre conjuntos de datos, lo que respalda el aprendizaje de la selección automatizada de componentes, permitiendo la construcción de modelos en nuevos conjuntos de datos sin necesidad de entrenamiento adicional. Nuestros experimentos demuestran que el enfoque basado en el corpus, a pesar de su simplicidad, supera consistentemente a los métodos de última generación, validando la solidez de nuestro diseño de evaluación y confirmando que la selección sistemática de componentes supera a las arquitecturas complejas diseñadas manualmente. Todo el código y el corpus de rendimiento están disponibles públicamente en https://github.com/SUFE-AILAB/TSCOMP.