HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

30 papers found

LoopCoder-v2: Solo un bucle para una escalabilidad eficiente del cómputo en tiempo de prueba
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

Jun 16

ByJian Yang, Shawn Guo, Wei Zhang, Tianyu Zheng, Yaxin Du, Haau-Sing Li, Jiajun Wu, Yue Song, Yan Xing, Qingsong Cai, Zelong Huang, Chuan Hao, Ran Tao, Xianglong Liu, Wayne Xin Zhao, Mingjie Tang, Weifeng Lv, Ming Zhou, Bryan Dai

113

Los Transformers en Bucle escalan el cómputo latente mediante la aplicación repetida de bloques compartidos, pero el bucle secuencial aumenta la latencia y la memoria de caché KV en función del número de iteraciones. Los Transformers de Bucle Paralelo (PLT) mitigan este coste mediante desplazamientos de posición entre bucles (CLP) y atención de ventana deslizante con compuerta y KV compartido, lo que convierte el número de bucles en una elección de diseño práctica. Por ello, estudiamos la selección del número de bucles en PLT desde una perspectiva ganancia-coste: un bucle adicional puede refinar las representaciones, pero CLP también introduce un desajuste posicional en cada límite de bucle. Concretamos este estudio entrenando LoopCoder-v2, una familia de codificadores PLT de 7B con diferentes números de bucles, desde cero en 18T tokens, seguido de un ajuste por instrucciones y evaluación emparejados. Empíricamente, la variante con dos bucles ofrece mejoras amplias respecto a la línea base sin bucles en tareas de generación de código, razonamiento sobre código, ingeniería de software agente y uso de herramientas, mejorando SWE-bench Verified de 43,0 a 64,4 puntos y Multi-SWE de 14,0 a 31,0 puntos. En contraste, las variantes con tres o más bucles retroceden, revelando un efecto fuertemente no monótono del número de bucles. Nuestros diagnósticos muestran que el bucle 2 proporciona el principal refinamiento productivo, mientras que los bucles posteriores producen actualizaciones decrecientes y oscilatorias, así como una diversidad representacional reducida. Dado que el desajuste inducido por CLP permanece aproximadamente fijo mientras las ganancias de refinamiento se reducen, el coste del desajuste se vuelve cada vez más dominante. Este compromiso ganancia-coste explica la saturación de PLT en dos bucles y proporciona diagnósticos para la selección del número de bucles.

ACE-Ego-0: Unificando Datos Egocéntricos Humanos y Robóticos para el Preentrenamiento de VLA
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

Jun 15

ByHao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

Los modelos Visión-Lenguaje-Acción (VLA) se benefician de datos encarnados a gran escala y diversos, pero la recolección de trayectorias robóticas es costosa y requiere mucho trabajo. Avances recientes muestran que los videos humanos egocéntricos a gran escala proporcionan supervisión complementaria del mundo real en el preentrenamiento. Sin embargo, el entrenamiento conjunto con datos humanos y robóticos sigue siendo un desafío debido a divergencias en los espacios de acción, las estructuras de encarnación, las dinámicas temporales y la calidad de la supervisión. Presentamos ACE-EGO-0, un marco unificado de preentrenamiento VLA que aprovecha conjuntamente fuentes de datos heterogéneas. Para extraer supervisión de preentrenamiento a gran escala de videos humanos egocéntricos, construimos un pipeline escalable de video a acción egocéntrica que convierte videos humanos sin procesar en trayectorias de pseudoacción en formato robótico. Para que estas etiquetas sean comparables con las demostraciones robóticas, ACE-EGO-0 utiliza una representación de acción unificada basada en acciones en el espacio de la cámara, condicionamiento morfológico y fragmentación de acciones alineadas temporalmente. Para aprovechar de manera robusta la supervisión de pseudoacción ruidosa de los videos humanos egocéntricos, formulamos un objetivo de entrenamiento consciente de la fiabilidad con una pérdida auxiliar humana que concentra la supervisión en señales fiables. Instanciamos ACE-EGO-0 en 4.53K horas de datos robóticos y de simulación, junto con 1.48K horas de datos humanos egocéntricos etiquetados con pseudoacción. Los experimentos muestran que incorporar supervisión humana a gran escala bajo ponderación consciente de la fiabilidad mejora consistentemente tanto el preentrenamiento conjunto unificado como el ajuste fino supervisado. ACE-EGO-0 alcanza un rendimiento de última generación en RoboCasa GR1 TableTop y RoboTwin 2.0, demostrando una fuerte transferencia a la manipulación bimanual en el mundo real.

Zona de Optimización de Política Proximal: Maestro en Indicaciones, No en Gradientes
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

Jun 16

ByByung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang, Saurav Muralidharan, Karan Sapra, Andrew Tao, Pavlo Molchanov, Yejin Choi, Yu-Chiang Frank Wang, Ryo Hachiuma

La destilación de conocimiento transfiere la competencia de un profesor a un estudiante pequeño, pero es frágil en el régimen de estudiante pequeño: forzar al estudiante a imitar los logits de un profesor mucho más grande lo concentra en los modos más agudos del profesor, perjudicando la generalización en familias de benchmarks más allá del corpus de entrenamiento. El aprendizaje por refuerzo (RL) evita la imitación de logits entrenando con las propias trayectorias del estudiante. Sin embargo, en preguntas donde toda trayectoria falla —obteniendo ventaja cero y siendo descartada silenciosamente— inyectar la respuesta de un profesor más fuerte en el gradiente de política rompe la suposición on-policy e induce deriva. Introducimos Zone of Proximal Policy Optimization (ZPPO), inspirado en la zona de desarrollo próximo de Vygotsky, que mantiene al profesor dentro del prompt en lugar del gradiente de política. En preguntas difíciles, ZPPO construye dos prompts reformulados: una Pregunta con Candidato Binario (BCQ) empareja una respuesta correcta del profesor con una respuesta incorrecta del estudiante como candidatos anonimizados que el estudiante debe discriminar, y una Pregunta con Candidato Negativo (NCQ) agrega las trayectorias erróneas del estudiante en un solo prompt para exponer sus modos de fallo compartidos. Un búfer de repetición de prompts recircula cada pregunta difícil hasta que se gradúa —la precisión media del estudiante en sus trayectorias alcanza la mitad— o es desalojado FIFO por capacidad finita, amplificando BCQ y NCQ dentro de la zona de desarrollo próximo actual del estudiante. En la familia Qwen3.5 con cuatro escalas de estudiante (0.8B–9B) y un profesor de 27B, post-entrenados como modelos de visión-lenguaje y evaluados en un conjunto de 31 benchmarks (16 VLM, 10 LLM, 5 Video), ZPPO supera a la destilación off/on-policy y a GRPO, con las mayores ganancias en la escala más pequeña.

GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

Jun 16

ByTongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang

La generación de juegos es una aplicación emergente de los agentes de codificación, que requiere que los modelos transformen especificaciones en lenguaje natural en sistemas interactivos jugables. A diferencia de las tareas de codificación tradicionales, la generación de juegos se desarrolla dentro de un motor de juego, donde los scripts, escenas, activos, renderizado e interacciones en tiempo real deben conjuntamente producir una jugabilidad coherente. Formalizamos la generación de juegos de extremo a extremo como el problema de producir un artefacto de juego completo que materialice una especificación a través de la interacción observable jugador-juego en un entorno objetivo. Sostenemos que evaluar este escenario requiere tres desiderata: Fundamentación en el Motor, Completitud del Artefacto y Verificación Interactiva. Proponemos un marco de evaluación basado en la interacción que evalúa el juego ejecutable mediante demostraciones reproducidas y evaluación multimodal guiada por rúbricas. Implementamos este marco como GameCraft-Bench, un banco de pruebas compuesto por 140 tareas de Godot en 15 familias de juegos. Las evaluaciones de agentes de codificación de vanguardia muestran que la generación de juegos de extremo a extremo sigue siendo altamente desafiante: el agente más fuerte alcanza solo el 41,46 %, y la mayoría de los agentes obtienen puntuaciones por debajo del 40 %. Análisis adicionales revelan que, aunque los agentes a menudo implementan mecánicas reconocibles, tienen dificultades para entregar juegos completos con suficiente contenido, retroalimentación visual funcional y una presentación coherente. Consulte https://tongxuluo.github.io/gamecraft-bench-website para ver demostraciones, código y datos.

LectūraAgents: Un Marco Multiagente para el Aprendizaje Adaptativo Personalizado Asistido por IA y la Enseñanza Corporeizada
LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

Jun 15

ByJaward Sesay, Yue Yu, Siwei Dong, Yemin Shi, Guangyao Chen, Börje F. Karlsson

El aprendizaje personalizado efectivo asistido por IA requiere sistemas que no solo puedan generar materiales educativos precisos y adaptados a cada estudiante, sino también ajustar dinámicamente su instrucción a diversos aprendices. Sin embargo, los agentes educativos existentes se han centrado principalmente en la automatización de contenidos de conferencias y en simulaciones, que a menudo no logran modelar métodos de enseñanza multimodales y corporeizados adaptados al individuo. Con este fin, proponemos LectūraAgents, un marco multiagente que permite el aprendizaje personalizado mediante enseñanza corporeizada adaptativa de extremo a extremo. En su núcleo, LectūraAgents refleja una relación profesor-estudiante, en la que un ProfesorAgente lidera un equipo colaborativo de agentes subordinados especializados a través de la investigación, planificación, revisión y entrega corporeizada de contenidos de clase que se adaptan a las necesidades del alumno. El marco ofrece tres contribuciones principales: (1) una arquitectura multiagente jerárquica para el aprendizaje personalizado de extremo a extremo; (2) un mecanismo de enseñanza corporeizada adaptativa, donde el ProfesorAgente ejecuta acciones de enseñanza visibles y pedagógicamente motivadas (por ejemplo, escribir a mano, resaltar, subrayar, etc.) sobre los contenidos en un entorno de enseñanza; y (3) un algoritmo de Alineación Acción-Habla en la Enseñanza (TASA) que emplea heurísticas basadas en prominencia y segmentación semántica temporal para generar secuencias coherentes de acciones de enseñanza alineadas con los perfiles de los aprendices. Evaluamos LectūraAgents en diversos cursos de niveles de secundaria, pregrado y posgrado utilizando análisis basados en rúbricas específicas de muestras; los materiales de clase generados y las acciones de enseñanza fueron evaluados y validados por educadores expertos. Los resultados experimentales muestran mejoras consistentes en la calidad del contenido de la clase, la calidad de la enseñanza corporeizada, la evaluación y la personalización en comparación con los enfoques existentes, posicionando a LectūraAgents como un marco pedagógicamente sólido para el aprendizaje personalizado a escala.

TRIAGE: Razonamiento dialéctico para la predicción explicable de riesgo en series temporales médicas muestreadas irregularmente con LLMs
TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

Jun 8

ByHyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang

Los sistemas de alerta temprana clínica basados en historias clínicas electrónicas, en los que las observaciones clínicas se registran como series temporales médicas muestreadas irregularmente (ISMTS), deben proporcionar tanto puntuaciones de riesgo calibradas para la clasificación de pacientes como justificaciones interpretables que los médicos puedan verificar. Se han explorado modelos de lenguaje de gran escala (LLM) para esta tarea, pero estos colapsan el riesgo clínico graduado en predicciones binarias demasiado confiadas. Esta polarización del riesgo socava tanto la calibración como la comparabilidad entre pacientes. Para abordar esto, proponemos TRIAGE, un marco que entrena un LLM para generar razonamiento dialéctico sobre resultados clínicos en competencia, mediante la obtención de justificaciones específicas para cada resultado. Esta formulación dialéctica mitiga la polarización del riesgo, permitiendo que un único LLM produzca puntuaciones de riesgo continuas fundamentadas en un razonamiento clínico explícito. Evaluado en tres puntos de referencia de ISMTS, TRIAGE logra una mejora promedio del AUPRC del 3.3% y reduce el error de calibración en un 81% en comparación con las líneas base competitivas. Una evaluación de LLM como juez muestra además que nuestras justificaciones superan en un 20% a las explicaciones post-hoc de la línea base en cuanto a calidad del razonamiento clínico. El código fuente está disponible en https://github.com/HyeongWon-Jang/TRIAGE .

Aprendiendo del futuro propio: Autodestilación on-policy para dLLMs
Learning from the Self-future: On-policy Self-distillation for dLLMs

Jun 16

ByYifu Luo, Zeyu Chen, Haoyu Wang, Xinhao Hu, Yuxuan Zhang, Zhizhou Sha, Shiwei Liu

La autodestilación on-policy (OPSD) ha demostrado ser efectiva para el posentrenamiento de modelos de lenguaje grandes (LLM), pero su aplicación a modelos de lenguaje de difusión (dLLM) sigue sin explorarse. Los métodos OPSD existentes son inherentemente autorregresivos: inyectan información privilegiada mediante condicionamiento de prefijos de izquierda a derecha con supervisión de divergencia a nivel de token, un diseño que entra en conflicto fundamental con la generación de orden arbitrario de los dLLM. Presentamos d-OPSD, el primer marco OPSD adaptado para dLLM. Nuestro enfoque realiza dos contribuciones principales. Primero, reformulamos la construcción del automaestro utilizando respuestas autogeneradas como condicionamiento de sufijos, lo que permite que el modelo estudiante aprenda de la "autoexperiencia futura" en lugar de prefijos privilegiados. Segundo, trasladamos la supervisión del nivel de token al nivel de paso, alineando el entrenamiento con el proceso iterativo de eliminación de ruido de los dLLM. Los experimentos en cuatro puntos de referencia de razonamiento muestran que d-OPSD supera consistentemente a las líneas base de RLVR y SFT con una eficiencia de muestra superior, requiriendo solo alrededor del 10% de los pasos de optimización de RLVR y abriendo una vía prometedora para el posentrenamiento de dLLM. El código está disponible en https://github.com/xingzhejun/d-OPSD.

OPD-Evolver: Cultivando un Evolucionador Holístico de Agentes mediante Destilación On-Policy
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Jun 16

ByGuibin Zhang, Xun Xu, Yanwei Yue, Zikun Su, Wangchunshu Zhou, Xiaobin Hu, Shuicheng Yan

La memoria se ha convertido en un sustrato estándar para agentes autoevolutivos, pero retener experiencia no es lo mismo que aprender a evolucionar a través de ella. Los agentes de memoria existentes pueden almacenar trayectorias, recuperar reflexiones o acumular habilidades, pero a menudo carecen de la competencia holística para seleccionar experiencia útil, actuar sobre ella, escribir conocimiento reutilizable y mantener un repositorio en crecimiento. Presentamos OPD-Evolver, un marco de coevolución lenta-rápida que cultiva un evolucionador de agente a través de autodestilación on-policy. En el bucle rápido, OPD-Evolver interactúa con una jerarquía de memoria de cuatro niveles para leer, usar, escribir y mantener experiencia para una evolución rápida en tiempo de prueba. En el bucle lento, la atribución de memoria calibrada por resultados y la retrospectiva privilegiada destilan estas cuatro habilidades en la política desplegable. En puntos de referencia multidominio, OPD-Evolver supera a sistemas de memoria como ReasoningBank hasta en un 11.5%, y a métodos basados en entrenamiento como Skill0 en ~5.8%. Análisis adicionales muestran que OPD-Evolver internaliza la experiencia de alto valor y la gestión de memoria, permitiendo que OPD-Evolver-9B desafíe a contrapartes gigantes como Qwen3.5-397B-A17B y Step-3.5-Flash, apuntando más allá de los agentes aumentados con memoria hacia evolucionadores de agentes genuinamente calificados.

Mostrar la señal, ocultar el ruido: Forzamiento espectral para difusión en espacio de píxeles
Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Jun 16

ByWeichen Fan, Haiwen Diao, Penghao Wu, Ziwei Liu

Los modelos de difusión en el espacio de píxeles se entrenan con imágenes ruidosas de ancho de banda completo, pero la señal útil disponible para el denoiser depende fuertemente de la frecuencia. Bajo la difusión de flujo rectificado y los espectros de ley de potencia de imágenes naturales, el contorno de datos frente a ruido por banda k^{*}(t) = (1-t)^{-2/α} separa una región de baja frecuencia portadora de señal de una región de alta frecuencia dominada por el ruido en cada instante t. Demostramos que esta estructura implícita de lo grueso a lo fino no es meramente descriptiva: induce un problema de asignación de capacidad. Un denoiser estándar en el espacio de píxeles debe descubrir internamente el límite del ancho de banda en movimiento y puede dedicar cómputo a regiones de frecuencia-tiempo donde la predicción óptima colapsa en líneas base deterministas en lugar de modelar la distribución de los datos. Para hacer explícito este límite, introducimos el Forzamiento Espectral (Spectral Forcing), un operador de paso bajo de DCT 2D condicionado al tiempo, libre de parámetros, que se aplica a la entrada ruidosa antes del incrustador de parches. Su frecuencia de corte se expande monótonamente con el tiempo de difusión y se convierte en la identidad en el punto final de los datos. Mediante experimentos sintéticos controlados, identificamos el régimen en el que el operador es beneficioso: tokenización de parches gruesos y datos cuyo contenido de alta frecuencia es predominantemente ruido en lugar de señal esencial. En ImageNet-256 con JiT-700M/32, el Forzamiento Espectral mejora consistentemente tanto el FID como el Inception Score a lo largo de diferentes épocas de entrenamiento, demostrando ganancias robustas durante todo el entrenamiento; con tokenización más fina, el forzamiento espectral sigue siendo competitivo. Además, insertamos el operador sin cambios en SenseNova-U1, un modelo unificado de texto a imagen, donde mejora DPG-Bench y GenEval, mostrando que el prior espectral del lado de la entrada se transfiere más allá de la generación condicionada por clase. Estos resultados sugieren una ruta hacia la difusión en el espacio de píxeles eficiente en capacidad, mostrando la señal y ocultando el ruido.

Edición de imágenes co-instruida por texto-visión
Text-Vision Co-Instructed Image Editing

Jun 15

ByChenxi Xie, Yuhui Wu, Qiaosi Yi, Lei Zhang

Los métodos existentes de edición de imágenes pueden categorizarse generalmente en aquellos basados en instrucciones textuales y aquellos basados en indicaciones visuales. Las instrucciones textuales son semánticamente expresivas, pero están limitadas por la granularidad gruesa del control espacial de los resultados de edición. En contraste, las indicaciones visuales, como arrastrar y señalar, pueden proporcionar una guía espacial precisa, pero se ven limitadas por la ambigüedad inherente en la intención semántica. Para unificar las fortalezas de las indicaciones textuales y visuales, presentamos la Edición de Imágenes Co-instruida Texto-Visión, que modela conjuntamente las instrucciones textuales como intención semántica y las instrucciones visuales dispersas como guía espacial, con el objetivo de lograr una manipulación de imágenes precisa y fiel a la intención. Con este fin, primero construimos un conjunto de datos emparejado de instrucciones textuales-visuales con más de 23.000 muestras derivadas de videos dinámicos, lo que permite una supervisión alineada para la instrucción multimodal. Luego proponemos TV-Edit, un marco de edición unificado de instrucciones textuales-visuales para contextualizar las indicaciones visuales basadas en arrastre o punto con la semántica de la imagen-texto y elevarlas a representaciones de control conscientes de la semántica para modelos base de edición preentrenados. Al integrar la intención semántica y las restricciones espaciales, TV-Edit conduce a un control espacial más preciso, menor ambigüedad en las instrucciones y una consistencia estructural más sólida que las alternativas basadas solo en texto o solo en arrastre. Finalmente, establecemos TV-Edit-Bench, un punto de referencia diseñado deliberadamente para evaluar la fidelidad semántica, la alineación espacial y la consistencia visual con referencias de verdad fundamental y variaciones textuales-visuales controladas para una evaluación fiable. Nuestros experimentos en múltiples modelos base de edición demuestran que TV-Edit produce de manera consistente ediciones más precisas y fieles a la intención, superando significativamente a las líneas base de última generación basadas en instrucciones y en arrastre.

Repensando el Papel de la Atención Eficiente en Arquitecturas Híbridas
Rethinking the Role of Efficient Attention in Hybrid Architectures

Jun 13

ByZiqing Qiao, Yinuo Xu, Chaojun Xiao, Zhou Su, Zihan Zhou, Yingfa Chen, Xiaoyue Xu, Xu Han, Zhiyuan Liu

Los modelos de lenguaje modernos adoptan cada vez más arquitecturas híbridas que combinan atención completa con módulos de atención eficiente, como la atención de ventana deslizante (SWA) y los mezcladores recurrentes de secuencias. Sin embargo, cómo estos módulos eficientes moldean las capacidades del modelo sigue siendo poco comprendido. Para abordar esta brecha, realizamos un análisis sistemático en arquitecturas híbridas desde tres perspectivas: comportamiento de escalado, análisis de mecanismos y diseño de arquitecturas. Primero, desde una perspectiva de escalado, encontramos que el diseño de atención eficiente afecta principalmente la velocidad con la que emerge la capacidad de contexto largo, mientras que diferentes híbridos eventualmente convergen a un rendimiento comparable en contexto largo bajo entrenamiento suficiente. Segundo, mecánicamente, demostramos que la recuperación de largo alcance es llevada principalmente por la atención completa, mientras que la atención eficiente moldea su trayectoria de optimización. Esto explica un fenómeno contraintuitivo que denominamos Pereza de Ventana Grande: ventanas SWA más grandes pueden retrasar la formación de cabezales de recuperación en las capas de atención completa. Tercero, guiados por este mecanismo, mostramos que aplicar NoPE solo a las capas de atención completa de un híbrido SWA de ventana pequeña mejora sustancialmente el rendimiento en contexto largo con un impacto insignificante en el rendimiento en contexto corto.

Cuestionador Visual Autoevolutivo
Self-Evolving Visual Questioner

Jun 11

ByYijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou

Los modelos de visión-lenguaje (VLMs) suelen entrenarse como respondedores pasivos, mientras que su capacidad para formular activamente preguntas diversas, no triviales, centradas en lo visual y fundamentadas permanece poco explorada. El rendimiento de los preguntadores visuales existentes se ve limitado por la disponibilidad de datos de entrenamiento de alta calidad o por el coste de su curación. Demostramos que un VLM puede mejorarse a sí mismo de forma continua como preguntador visual sin necesidad de supervisión externa. Proponemos un marco autoevolutivo que utiliza al propio VLM tanto como proponente como filtro para generar preguntas más difíciles, más informativas y centradas en lo visual, manteniendo al mismo tiempo su diversidad de exploración para evitar el colapso del entrenamiento. Estas preguntas se emplean luego para entrenar al VLM tanto en modo preguntador como respondedor. Para evaluar al preguntador, introducimos un protocolo agéntico que evalúa las preguntas en las dimensiones de percepción, razonamiento y diversidad. Los experimentos con diversos VLMs base muestran que nuestro método mejora sustancialmente la calidad y expande de manera significativa el límite de dificultad en la generación autónoma de preguntas. Bajo el mismo presupuesto, nuestra autosupervisión resulta más efectiva que el entrenamiento con datos fuente estáticos. Además, el preguntador autoevolutivo sigue siendo un respondedor competitivo o incluso mejor.

EgoCS-400K: Un Conjunto de Datos de Juego Egocéntrico para Modelos del Mundo
EgoCS-400K: An Egocentric Gameplay Dataset for World Models

Jun 16

ByRongjin Guo, Dong Liang, Yuhao Liu, Fang Liu, Tianyu Huang, Gerhard P. Hancke, Rynson W. H. Lau

El paso de la generación de video al modelado interactivo del mundo impone nuevas exigencias a los datos: más allá de videos con leyendas, los modelos del mundo requieren trayectorias video-acción-lenguaje alineadas temporalmente y fundamentadas en las acciones, el movimiento de la cámara, los estados y los eventos que impulsan los cambios futuros de la escena. Sin embargo, obtener tales datos a gran escala es difícil. Los conjuntos de datos de video web ofrecen una amplia cobertura visual, pero carecen de acciones ejecutables y estados fiables; los conjuntos de datos robóticos proporcionan supervisión de acciones y estados, pero son costosos y limitados en diversidad de escenas; y los simuladores existentes a menudo carecen de trayectorias de interacción a gran escala impulsadas por humanos. En este artículo, presentamos EgoCS-400K, un conjunto de datos egocéntrico de Counter-Strike a gran escala, basado en repeticiones, para modelos del mundo, construido a partir de demos de partidas profesionales de CS y CS2 que preservan las trayectorias de juego humano y permiten el análisis, la repetición, el renderizado y el alineamiento temporal. Extraemos estados del jugador, direcciones de visión, movimientos, entradas de teclado/botón, cambios de ángulo de visión, uso de armas, eventos del juego y contexto a nivel de ronda, y renderizamos videos limpios en primera persona a partir de las mismas trayectorias. EgoCS-400K contiene más de 400,000 videos en primera persona y 10,000 horas de juego de más de 1,000 partidas y 40,000 rondas, cubriendo 13 mapas y 10 puntos de vista de jugadores por ronda. Respaldan una variedad de tareas de modelado visual interactivo, incluyendo predicción futura condicionada a acciones, despliegue de escenas consciente de estados y eventos, descripción basada en repeticiones y comprensión de acciones egocéntricas del agente. Al conectar observaciones visuales con acciones humanas, movimiento de cámara, estados del juego y eventos a gran escala, EgoCS-400K sirve como un puente práctico entre videos web pasivos, simulación de juego controlable y costosos datos encarnados del mundo real.

Modelos del Mundo en Bucle
Looped World Models

Jun 16

ByHongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

Los modelos mundiales actuales enfrentan una tensión fundamental: la simulación fiel a largo plazo requiere un cálculo profundo, pero los modelos más profundos son costosos de implementar y propensos a errores acumulativos. Resolvemos esto introduciendo los Modelos Mundiales en Bucle (LoopWM), que son las primeras arquitecturas en bucle para el modelado del mundo. Nuestro método refina iterativamente los estados latentes del entorno a través de un bloque transformer de parámetros compartidos. Esto proporciona hasta 100 veces más eficiencia paramétrica en comparación con los enfoques convencionales, con un cálculo adaptativo que escala automáticamente la profundidad para igualar la complejidad de cada paso de predicción. De manera ortogonal al escalado del tamaño del modelo y los datos de entrenamiento, LoopWM establece la profundidad latente iterativa como un nuevo eje de escala para la simulación del mundo, lo que podría impulsar significativamente el avance de la comunidad.

El modelado autorregresivo multimodal unificado con tokenizer contexto-visual compartido es clave para la unificación.
Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

Jun 16

ByWujian Peng, Lingchen Meng, Yuxuan Cai, Xianwei Zhuang, Yuhuan Yang, Rongyao Fang, Chenfei Wu, Junyang Lin, Zuxuan Wu, Shuai Bai

El Modelado Multimodal Unificado tiene como objetivo integrar la comprensión y generación visual en un solo sistema. Sin embargo, los enfoques existentes típicamente dependen de dos tokenizadores visuales dispares, lo que divide el espacio de representación y dificulta un modelado verdaderamente unificado. Proponemos UniAR, un marco autorregresivo unificado donde un único tokenizador visual discreto actúa como puente clave entre comprensión y generación, permitiendo un contexto compartido en el que el modelo puede interpretar directamente sus propios tokens visuales generados sin necesidad de recodificación adicional. UniAR adapta un codificador visual preentrenado con fusión de características multinivel y un esquema de cuantización bitwise sin búsqueda, preservando tanto la semántica de alto nivel como los detalles de bajo nivel, mientras escala el vocabulario visual efectivo a un costo mínimo. Sobre esta base, el modelo autorregresivo unificado adopta la predicción bitwise paralela para predecir conjuntamente códigos visuales multinivel agrupados espacialmente, reduciendo sustancialmente la longitud de la secuencia visual y acelerando la generación. Finalmente, un decodificador visual basado en difusión opera sobre tokens visuales discretos para decodificar imágenes de alta fidelidad. Mediante un preentrenamiento a gran escala, seguido de un ajuste fino supervisado y aprendizaje por refuerzo, UniAR logra un rendimiento de vanguardia en generación y edición de imágenes, manteniéndose competitivo en evaluaciones de comprensión multimodal. La página del proyecto está disponible en https://sharelab-sii.github.io/uniar-web.

Dr-DCI: Escalando la Interacción Directa con Corpus mediante Expansión Dinámica del Espacio de Trabajo
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

Jun 12

ByYi Lu, Zhuofeng Li, Ping Nie, Haoxiang Zhang, Yuyu Zhang, Kai Zou, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

La búsqueda agéntica sobre grandes corpus depende de interfaces mediadas por recuperadores (p. ej., BM25 o ColBERT) para el descubrimiento escalable de candidatos. Si bien son efectivas para clasificar documentos relevantes, estas interfaces presentan la evidencia únicamente como resultados clasificados o vistas acotadas de documentos, lo que limita la capacidad de los agentes para reorganizar el material y verificar restricciones entre documentos. La Interacción Directa con el Corpus (DCI) aborda esta limitación al exponer operaciones de corpus ejecutables en shell para búsqueda, filtrado, comparación y verificación flexibles. Sin embargo, los comandos de terminal sobre el corpus completo se vuelven lentos e inestables a medida que el corpus crece, degradando el rendimiento y la eficiencia. Presentamos DR-DCI, un marco DCI guiado por recuperador que trata la recuperación como una acción invocable por el agente para expandir un espacio de trabajo local. En lugar de operar directamente sobre el corpus completo, el agente extrae dinámicamente documentos relevantes hacia un espacio de trabajo en evolución y realiza operaciones DCI dentro de este. Este diseño combina la cobertura a nivel de recuperador con la precisión de tipo DCI: la recuperación mantiene la exploración escalable, mientras que la DCI preserva las operaciones locales necesarias para una resolución efectiva de evidencia. Los experimentos muestran que DR-DCI es efectivo y eficiente a distintas escalas. En Browsecomp-Plus, DR-DCI alcanza un 71,2% de precisión, mejorando hasta en 8,3 puntos sobre la DCI pura y variantes ablacionadas, al tiempo que reduce el uso de herramientas, el tiempo de ejecución y el costo estimado. Con un reinicio de contexto que preserva el espacio de trabajo, la precisión mejora aún más hasta un 73,3%. En experimentos de escalado de corpus, DR-DCI se mantiene efectivo desde 100K hasta 10M de documentos, mientras que la DCI pura se vuelve inestable y BM25 presenta un rendimiento sustancialmente peor. DR-DCI también se escala a un entorno Wiki-18 QA de 20M de escala con un archivo por documento, logrando una puntuación promedio de 63,0 en seis puntos de referencia y superando a las líneas base basadas en recuperación y en agentes de búsqueda entrenados. El análisis de ablación muestra, además, que las vistas previas clasificadas y la DCI entre documentos son clave para el rendimiento.

ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

Jun 16

ByPeixian Zhou, Yuxu Chen, Chaorui Zhang, Wei Han, Bo Bai, Xueyan Niu

Los modelos de lenguaje grandes se desempeñan cada vez mejor en evaluaciones estandarizadas de razonamiento lógico, pero no está claro si esta capacidad sigue siendo robusta más allá del inglés. Presentamos ChLogic, un punto de referencia alineado inglés-chino que evalúa si los modelos mantienen el rendimiento en razonamiento lógico cuando la misma estructura lógica latente se expresa en inglés y en diversas realizaciones superficiales en chino. Construido a partir de plantillas lógicas formales, el punto de referencia contiene tres conjuntos de datos: (i) el conjunto alineado General, derivado de 60 Proposiciones Generales en nueve familias de plantillas; (ii) el conjunto alineado Difícil, derivado de 40 Problemas Difíciles; y (iii) el conjunto solo en chino, que cubre 15 tipos de fenómenos específicos del idioma. Cada elemento alineado empareja una expresión de referencia en inglés con cinco realizaciones en chino. Experimentos con los modelos Qwen3, Ministral y GLM revelan una brecha persistente de rendimiento entre inglés y chino. La retrotraducción del chino estándar al inglés a menudo mejora el rendimiento en el conjunto alineado General, pero produce efectos mixtos en el conjunto alineado Difícil, donde Qwen3-32B y GLM-5.1 tienen un peor rendimiento después de la traducción. Estos resultados indican que la realización superficial en chino, los artefactos de traducción y el comportamiento específico del modelo afectan conjuntamente el razonamiento lógico multilingüe. En general, ChLogic proporciona una prueba de estrés útil para la robustez del razonamiento multilingüe.

Una Perspectiva de Gradiente sobre la Estabilidad de RLVR y la Optimización de Políticas con Ventaja del Ganador
A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Jun 15

ByPrasanth YSS, Zhichen Ren, Rasa Hosseinzadeh, Ilan Gofman, Yuqi Chen, Zhaoyan Liu, Guangwei Yu, Jesse C. Cresswell, Satya Krishna Gorti

El aprendizaje por refuerzo con recompensas verificables (RLVR) mejora el razonamiento de los modelos de lenguaje, pero la optimización al estilo GRPO sigue siendo propensa al colapso. Analizamos esta inestabilidad mediante la dinámica de gradientes a nivel de token, derivando una taxonomía que predice cómo las actualizaciones afectan las probabilidades del siguiente token y la entropía. La taxonomía muestra que la estabilidad depende conjuntamente del signo de la ventaja y de la distribución de tokens bajo la política actual. Motivados por este hallazgo, proponemos Winner Advantage Policy Optimization (WAPO), un objetivo simple de gradiente de política recortado en línea que actualiza solo en completaciones con ventaja positiva. En benchmarks de razonamiento matemático y QA de múltiples saltos, WAPO mejora la estabilidad del entrenamiento e iguala o supera las líneas base en múltiples familias de modelos. El código completo se puede encontrar en https://github.com/layer6ai-labs/wapo.

Transformadores de Ancho Variable
Variable-Width Transformers

Jun 16

ByZhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda, Yury Polyanskiy, Yoon Kim

El escalado del tamaño del modelo, específicamente la profundidad y el ancho, ha impulsado un progreso significativo en los modelos de lenguaje basados en transformers. Sin embargo, la mayoría de las arquitecturas mantienen un ancho constante en todas las capas, asignando un presupuesto fijo de parámetros y cómputo de manera uniforme, a pesar de que diferentes capas podrían desempeñar roles computacionales distintos. En este trabajo, investigamos empíricamente la asignación no uniforme de capacidad a través de la profundidad de la red, proponiendo una arquitectura > <former en forma de reloj de arena. Este diseño mantiene capas iniciales y finales más anchas mientras reduce el ancho de las capas intermedias, utilizando un mecanismo de redimensionamiento residual sin parámetros. En modelos de lenguaje solo decodificador, que van desde 200M hasta 2B de parámetros (densos) y 3B de parámetros (MoE), nuestro > <former supera consistentemente a las líneas base uniformes con parámetros equiparables en cuanto a la pérdida de modelado de lenguaje. Al reducir el ancho promedio de las capas, esta arquitectura también requiere menos FLOPs totales (reducción del 22% bajo curvas de escalado ajustadas con pérdida equivalente) y menor memoria de caché KV y costo de E/S (reducción del 15%). En el análisis, mostramos que esta estructura de cuello de botella genera representaciones cualitativamente diferentes en los flujos residuales. En general, nuestros resultados demuestran que la asignación no uniforme del ancho puede conducir a un escalado más óptimo en términos de recursos de los modelos de lenguaje.

ActWorld: De modelo del mundo explorable a interactivo mediante memoria consciente de acciones
ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Jun 16

ByZhexiao Xiong, Yizhi Song, Hao Kang, Qing Yan, Liming Jiang, Jenson Yang, Zhoujie Fu, Stathi Fotiadis, Angtian Wang, Zichuan Liu, Bo Liu, Yiding Yang, Xin Lu, Nathan Jacobs

Los modelos de mundo interactivos buscan simular la dinámica del entorno bajo acciones del usuario en tiempo real. Sin embargo, su vocabulario de acciones está mayormente limitado a la navegación: la mayoría de las acciones corresponden a movimientos (por ejemplo, caminar, girar, mirar alrededor), mientras que la interacción con objetos en la escena (por ejemplo, recoger platos, abrir puertas o desencadenar respuestas físicas) está ausente, restringida a dominios de juegos o relegada a escenarios de video completo a partir de texto. Los mundos resultantes son visualmente explorables pero no verdaderamente accionables. En este trabajo, presentamos ActWorld, un modelo de mundo interactivo que extiende los generadores centrados en la navegación previos para admitir interacción con objetos durante el despliegue, dentro de un marco autoregresivo por fragmentos. Argumentamos que la brecha entre navegación e interacción surge de dos cuellos de botella. Primero, un cuello de botella de datos: la falta de datos de interacción humano-objeto con etiquetas precisas y densas. Segundo, un cuello de botella de memoria: la compresión del historial sesgada hacia lo reciente en los modelos de mundo existentes descarta los fotogramas de transición de eventos que determinan causalmente los estados posteriores de los objetos, lo que lleva a una patología de olvido de acciones. En el lado de los datos, construimos un conjunto de datos de 100K videos de interacción, cada uno anotado con descripciones por fragmento mediante razonamiento en cadena de pensamiento. En el lado del modelo, introducimos un diseño de memoria jerárquica sensible a acciones que enruta la compresión del historial según la importancia de la interacción, complementado por un banco de memoria persistente que mantiene tokens de actualización de eventos e identidad de objetos a lo largo de despliegues extensos. Los experimentos muestran que ActWorld admite tanto navegación flexible como interacción rica con objetos dentro de un solo modelo, mejorando sustancialmente la fidelidad de interacción en comparación con las líneas base solo de navegación, sin sacrificar el control del punto de vista. La página del proyecto está disponible en https://interactwm.github.io/ActWorld.

Informe Técnico de ProCUA-SFT
ProCUA-SFT Technical Report

Jun 15

ByJaehun Jung, Ximing Lu, Brandon Cui, Muhammad Khalifa, Shaokun Zhang, Hao Zhang, Jin Xu, Amala Sanjay Deshmukh, Karan Sapra, Andrew Tao, Yejin Choi, Jan Kautz, Mingjie Liu, Yi Dong

Entrenar agentes de uso de computadora (CUAs, por sus siglas en inglés) —modelos que interactúan con escritorios gráficos mediante capturas de pantalla y acciones de teclado/ratón— requiere datos de trayectorias diversos y a gran escala recopilados en entornos completos de escritorio. El recurso público más grande, AgentNet (22.5 mil trayectorias humanas), provoca transferencia negativa cuando se utiliza para el ajuste fino supervisado (SFT): continuar el entrenamiento de UI-TARS 7B en AgentNet hace que la tasa de éxito en OSWorld caiga del 26.3% al 8-10%. Presentamos ProCUA-SFT, un conjunto de datos de 3.1 millones de muestras de SFT a nivel de paso destiladas a partir de 93 mil trayectorias sintéticas en 2,484 combinaciones de aplicaciones. El conjunto de datos se genera mediante un pipeline completamente automatizado que (i) sintetiza tareas fundamentadas en escritorios en vivo sembrados con contenido del mundo real —912 hojas de cálculo de SpreadsheetBench, aproximadamente 10 mil presentaciones con licencia permisiva de Zenodo10K y configuraciones multi-aplicación de OSWorld— y (ii) verifica la viabilidad de cada tarea mediante comprobación binaria de condiciones previas antes del despliegue. Un único VLM (Kimi-K2.5) actúa como generador de objetivos, juez de condiciones previas y ejecutor de trayectorias, eliminando las brechas de capacidad entre planificador y ejecutor. Cada trayectoria se expande en muestras de prefijo por paso que reproducen exactamente el diseño de contexto observado en el momento de la inferencia. El ajuste fino de UI-TARS 7B en ProCUA-SFT durante una época alcanza un 45.0% en OSWorld —una mejora de 18.7 puntos porcentuales sobre el modelo base y más del 35% por encima de los modelos entrenados con AgentNet. Un subconjunto de ProCUA se incorporó a los datos de entrenamiento del modelo Nemotron 3 Nano Omni, contribuyendo a sus capacidades de uso de computadora.

Más allá de la Investigación Profunda Monolingüe: Evaluación de Agentes y Recuperadores con BrowseComp-Plus Multilingüe
Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

Jun 13

ByYuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan

Los agentes de investigación profunda se evalúan cada vez más por su capacidad para buscar evidencia, razonar sobre fuentes recuperadas y producir respuestas fundamentadas. Sin embargo, los puntos de referencia de búsqueda existentes asumen en gran medida que la consulta del usuario y la evidencia de apoyo están escritas en el mismo idioma, dejando abierta la cuestión de si los sistemas de búsqueda agentivos pueden operar cuando la evidencia relevante aparece en otro idioma. Presentamos XBCP (BrowseComp-Plus interlingüístico), un punto de referencia controlado que preserva el espacio de preguntas y respuestas en inglés de BrowseComp-Plus pero varía los idiomas de los documentos de apoyo. XBCP implementa dos configuraciones complementarias: en la configuración interlingüística, cada consulta se empareja con evidencia en un único idioma asignado. En la configuración multilingüe, el corpus completo de evidencia se distribuye de manera equitativa y aleatoria en 12 idiomas que abarcan regímenes de alto y bajo recurso. Evaluamos cuatro agentes de investigación profunda utilizando recuperadores multilingües dispersos y densos, midiendo la precisión de las respuestas, la recuperación de evidencia, el comportamiento de búsqueda, la calibración, la fidelidad de citación y la recuperación oracular. Los resultados revelan una degradación sustancial cuando la evidencia se traduce. Incluso los recuperadores densos y fuertes pierden recuperación de evidencia, y los agentes se vuelven menos calibrados y citan la evidencia de manera menos confiable. Notablemente, la precisión sigue siendo más baja incluso cuando toda la evidencia dorada se proporciona directamente. Estos hallazgos sugieren que la investigación profunda interlingüística expone tanto fallos de recuperación como una dificultad independiente, del lado del agente, para integrar evidencia con desajuste de idioma.

Visual-Seeker: Hacia la Búsqueda Multimodal Agentiva Nativa Visual mediante Razonamiento Visual Activo
Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Jun 13

ByZhengbo Zhang, Changtao Miao, Jinbo Su, Zhaowen Zhou, Chunxia Zhang, Xukai Wang, Ruiqi Liu, Kaiyuan Zheng, Jiansheng Cai, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan

Los modelos de lenguaje grandes multimodales (MLLMs) han demostrado capacidades impresionantes en muchas tareas visuales, pero a menudo presentan dificultades con la fundamentación factual al enfrentarse a escenarios complejos y de mundo abierto. Si bien los agentes de búsqueda multimodal profunda recientes intentan abordar este problema utilizando herramientas externas, el paradigma de búsqueda nativo visual permanece poco explorado. Los métodos existentes se basan principalmente en imágenes simples con semántica explícita y trayectorias de evidencia basadas únicamente en texto, lo que limita la capacidad del agente para realizar razonamiento y búsqueda multimodal y de múltiples saltos. Para solucionar estas limitaciones, proponemos Visual-Seeker, un agente de búsqueda multimodal profunda nativo visual mediante razonamiento visual activo. En lugar de tratar la visión como una entrada estática, nuestro agente atiende activamente a los detalles visuales finos, recopilando dinámicamente evidencia visual durante todo el proceso de búsqueda. Para desbloquear su potencial nativo visual, diseñamos un flujo de datos de razonamiento visual activo y sintetizamos 5,000 trayectorias multimodales de alta calidad para el entrenamiento del modelo. Experimentos exhaustivos demuestran un rendimiento de vanguardia en cinco desafiantes puntos de referencia de búsqueda multimodal, superando incluso a varios modelos propietarios, lo que valida un razonamiento y búsqueda nativa visual robusta en entornos web reales. El código y los datos están disponibles en: https://github.com/ZhengboZhang/Visual-Seeker.

RepSelect: Desaprendizaje robusto de LLMs mediante selectividad de representación
RepSelect: Robust LLM Unlearning via Representation Selectivity

Jun 15

ByFilip Sondej, Yushi Yang, Adam Mahdi

Hacer que los modelos de lenguaje de gran escala (LLMs) olviden profundamente conocimientos y valores específicos sin sacrificar capacidades generales sigue siendo un desafío central en el desaprendizaje. Sin embargo, los métodos actuales se revierten fácilmente mediante ajuste fino o instrucción con pocos ejemplos, lo que sugiere que su olvido es solo superficial. Identificamos la causa raíz. Los métodos existentes se dirigen a representaciones compartidas tanto con el conjunto de retención como con el subespacio recuperado por un atacante de ajuste fino, lo que hace que el desaprendizaje sea disruptivo para las capacidades generales y fácil de revertir. Proponemos RepSelect (Selectividad de Representaciones), que aísla representaciones específicas del conjunto de olvido colapsando los componentes principales superiores de los gradientes de peso antes de cada actualización, dejando intactas las capacidades generales y limitando lo que el ajuste fino puede recuperar. Evaluamos en dos categorías de olvido (conocimiento biopeligroso y tendencias abusivas) y cuatro familias de modelos que abarcan arquitecturas densas y de mezcla de expertos (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). En comparación con cinco líneas base populares (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect logra una reducción 4–50 veces mayor en la precisión de respuestas tras el reaprendizaje que la línea base más fuerte, y es casi perfectamente robusto ante ataques de instrucción con pocos ejemplos. Por lo tanto, apuntar a representaciones selectivas constituye un paso importante hacia un olvido profundo y robusto en LLMs.

Alineación de Operadores Cuánticos con Grandes Modelos de Lenguaje
Aligning Quantum Operators with Large Language Models

Jun 11

ByRogerio Feris, Yunchao Liu, Pengyuan Li, Hang Hua, David Kremer

¿Pueden los Modelos de Lenguaje de Gran Tamaño (LLMs) comprender y razonar sobre operadores cuánticos? A pesar de sus notables capacidades en matemáticas y razonamiento simbólico, los LLMs permanecen inherentemente ciegos a representaciones cuánticas como las matrices unitarias. En este trabajo, damos un paso hacia la superación de esta brecha introduciendo un enfoque que mapea operadores unitarios en el espacio latente de un LLM, permitiendo un modelado unificado sobre entradas cuánticas y lingüísticas. Materializamos esta idea en la síntesis de circuitos Clifford+T sobre un conjunto de puertas de rotación de Pauli, donde nuestro modelo logra resultados competitivos con métodos de vanguardia y escala de manera consistente con los datos de entrenamiento, sin signos de saturación. Nuestro enfoque además permite la síntesis condicionada por lenguaje, lo que permite especificar restricciones de puertas no vistas durante el entrenamiento directamente en lenguaje natural. Este trabajo sugiere un camino hacia modelos fundacionales conscientes de lo cuántico que puedan interpretar y razonar de forma nativa sobre operaciones cuánticas, lo cual podría tener implicaciones más amplias que abarquen la compilación cuántica y el descubrimiento de algoritmos.

Más allá de las distancias escalares: Gradientes de atributos semánticos a partir de MLLMs congelados para embeddings visuales
Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings

Jun 13

ByShubhang Bhatnagar, Dheeraj Baiju, Narendra Ahuja

Los codificadores visuales para recuperación suelen entrenarse con supervisión basada en etiquetas de clase: cada par de entrenamiento se reduce a un escalar que uniformemente separa o acerca las representaciones, como si cada atributo visual fuera diferente o coincidiera. Un modelo de lenguaje grande multimodal (MLLM), al ver el mismo par, puede articular esos atributos y utilizarlos para predecir si las imágenes comparten una clase. Proponemos SAGA, un marco que convierte esta percepción fundada en lenguaje y consciente de atributos en una señal de entrenamiento para el propio codificador. Específicamente, empleamos Optimización Relativa de Políticas por Grupo (GRPO) para recompensar al MLLM por predicciones correctas basadas en los tokens del codificador visual. Dado que las predicciones correctas requieren que esos tokens expongan los atributos específicos que difieren o coinciden entre el par, el gradiente empuja al codificador a codificarlos, reemplazando el escalar uniforme a nivel de par por una supervisión resuelta en atributos. Una pérdida auxiliar de destilación por atención ancla la representación del codificador a los tokens a los que el MLLM prestó atención, y una pérdida estándar de aprendizaje métrico da forma a la geometría de la representación para la recuperación por vecino más cercano. El MLLM se mantiene congelado durante todo el proceso y se descarta en inferencia, igualando el costo de despliegue de una línea base de aprendizaje métrico. SAGA mejora Recall@1 en 3 a 6 puntos con respecto a las líneas base de última generación en CUB-200-2011, Cars-196, FGVC-Aircraft e iNaturalist Aves en recuperación de imágenes zero-shot.

RefGC-SR^2: Superresolución y Refinamiento de Contenido Generado Guiados por Referencia
RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

Jun 13

ByJeahun Sung, Dahyeon Kye, Soo Ye Kim, Jihyong Oh

La generación guiada por referencia (por ejemplo, composición de objetos, personalización) ha avanzado rápidamente, pero los pipelines actuales comparten una limitación fundamental: la imagen de referencia de alta resolución (HRRI) centrada en el objeto proporcionada por los usuarios se reduce a una resolución baja fija (LR) antes de ser introducida en el modelo, por lo que los detalles finos se descartan antes incluso de que se genere la salida. Además, el paso de generación introduce sus propios artefactos (por ejemplo, distorsión de identidad) sobre esta pérdida. Los métodos existentes de refinamiento de contenido generado guiado por referencia (RefGCR) pueden corregir algunos de estos artefactos, pero aún operan en el dominio de baja resolución; los métodos de superresolución guiada por referencia (RefSR) recuperan la resolución pero asumen degradaciones de imágenes naturales e ignoran la distribución de artefactos de los pipelines generativos. Para abordar ambas brechas en una sola formulación, introducimos una nueva tarea: superresolución-refinamiento de contenido generado guiado por referencia (RefGC-SR²), donde la HRRI original se reutiliza en la etapa de posprocesamiento para recuperar detalles perdidos, refinar artefactos generativos y escalar la salida simultáneamente. Construimos el primer pipeline de generación de datos triples del mundo real para esta tarea RefGC-SR², entrenando un generador condicionado por díptico para sintetizar pares de anclajes de baja calidad que los modelos preentrenados públicos no pueden proporcionar. Además, presentamos un modelo de transformador de difusión consciente de la frecuencia para RefGC-SR² que inyecta selectivamente detalles finos de la HRRI mientras elimina artefactos generativos. Experimentos exhaustivos demuestran que nuestro modelo RefGC-SR² refina exitosamente (i) la identidad del objeto de manera fiel con respecto a la referencia, y (ii) recupera detalles de alta resolución, de modo que el resultado final es significativamente de mayor calidad y prácticamente más utilizable en comparación con las líneas base existentes de RefGCR y RefSR.

MotionVLA: Modelo Visión-Lenguaje-Acción para Movimiento Humanoide
MotionVLA: Vision-Language-Action Model for Humanoid Motion

Jun 13

ByNonghai Zhang, Siyu Zhai, Yanjun Li, Zeyu Zhang, Zhihan Yin, Yandong Guo, Boxin Shi, Hao Tang

La generación de movimiento humanoide realista a partir de imágenes de escenas y texto implica tanto semántica de pose de baja frecuencia como dinámicas físicas de alta frecuencia. Sin embargo, muchos métodos existentes tokenizan el movimiento con un único libro de códigos compartido, lo que fuerza a señales de movimiento heterogéneas al mismo espacio de cuantización. Nuestro análisis en el dominio de la frecuencia de datos de movimiento humano revela una clara discrepancia entre la cuantización con un solo libro de códigos y las estadísticas del movimiento: cinco coeficientes DCT capturan el 93% de la energía de las posiciones articulares, pero solo el 37% de la energía de las velocidades articulares, lo que puede sesgar la cuantización hacia las estadísticas de pose y subrepresentar los componentes de velocidad de alta frecuencia. Un segundo desafío radica en adaptar un modelo autorregresivo estándar para modelar eficazmente señales físicas de alta frecuencia en secuencias de movimiento. Por ello, proponemos DSFT, un tokenizador de flujo dual en frecuencia que separa el movimiento en flujos Base y físico, y los comprime de forma independiente mediante truncamiento DCT y BPE. Además, presentamos MotionVLA, un modelo basado en Qwen3.5 que organiza los tokens Base y físicos en una secuencia unificada, donde los tokens Phys se predicen después de los tokens Base. Los experimentos en HumanML3D y MBench muestran que, a pesar de emplear una arquitectura ligera de 2B parámetros, MotionVLA reduce la brecha de diversidad con los datos reales en más de un 50% en HumanML3D y mejora la consistencia entre condición y movimiento en un 3.8% en MBench, lo que respalda el desacoplamiento de flujo dual consciente de la frecuencia como una formulación efectiva para la generación autorregresiva de movimiento. Código: https://github.com/AIGeeksGroup/MotionVLA. Sitio web: https://aigeeksgroup.github.io/MotionVLA.

El precio de la anarquía en la inferencia desagregada
The Price of Anarchy in Disaggregated Inference

Jun 11

ByAthos Georgiou

Las arquitecturas de inferencia desagregadas separan físicamente las fases de prellenado y decodificación en grupos de GPU distintos, creando "agentes" en competencia que comparten un presupuesto fijo de hardware. Presentamos, según nuestro conocimiento, el primer análisis formal de teoría de juegos de esta arquitectura, utilizando NVIDIA Dynamo como caso de estudio concreto. Modelamos el servicio desagregado como tres juegos acoplados: un juego de recursos de dos jugadores entre los grupos de prellenado y decodificación, un juego egoísta de almacenamiento en caché sobre la caché jerárquica KV, y un juego de congestión con externalidades positivas para el enrutamiento de solicitudes. Validamos empíricamente los dos últimos; el juego de recursos P/D (prellenado/decodificación) se trata analíticamente (sección 9.2). Caracterizamos cómo la saturación de las GPU induce transiciones de régimen que modifican la estructura de pagos del juego: por debajo de la saturación, el comportamiento egoísta tiene un Precio de la Anarquía (PoA) acotado; en la saturación, la latencia superlineal y las externalidades de la caché elevan nuestro estimador empírico PoA^ (definido en la sección 6.4). Con base en este análisis, diseñamos un controlador adaptativo que detecta las transiciones de saturación en tiempo real y ajusta los parámetros de enrutamiento en consecuencia, pasando de la explotación de la afinidad de caché a la evitación de la congestión con balanceo de carga. Implementamos nuestro marco en un clúster de 3 nodos NVIDIA B200 que ejecuta Dynamo con dos modelos, Nemotron-4-340B (TP=8, workers de nodo completo con transferencias KV a través de InfiniBand) y Llama-3.1-70B (TP=4), y encontramos la misma estructura de tres regímenes de PoA^ con el mismo primer punto de cuadrícula posterior al codo (C=128) en ambos modelos. El enrutamiento adaptativo desplaza cada modelo a un punto de operación mejor. Nuestro resultado más sólido se da en la topología 1P/5D para 70B, donde el PoA^ disminuye 3,1 veces (de 66,4 a 21,5) en la fase saturada con un costo de rendimiento del 13%. En la topología 1P/2D para 70B, el PoA^ disminuye 2,2 veces y el TTFT P99 disminuye 7,6 veces (véase la sección 8.5).

Detección y Prevención Verificadas de Anomalías de Concurrencia en Sistemas Multiagente de Grandes Modelos de Lenguaje
Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

Jun 15

BySajjad Khan

Los sistemas multiagente de LLM comparten estado a través de almacenes de memoria, índices vectoriales y registros de herramientas. Modelamos dicha compartición como operaciones de lectura-generación-escritura de larga duración bajo semántica de generación determinista —el régimen que los motores de ejecución durable imponen mediante repetición determinista— y formalizamos cuatro anomalías de concurrencia en TLA+: stale-generation, phantom-tool, causal-cascade y tool-effect reordering, análogos estructurales de anomalías clásicas de aislamiento, cada una con un contraejemplo en TLC. El retículo de exclusión sobre estas anomalías es trivial; la contribución es la realizabilidad verificada mecánicamente y la separación estricta de una cadena máxima dentro de él, \(L_0 \subsetneq \cdots \subsetneq L_4\), que constituye, hasta donde sabemos, la primera jerarquía de consistencia verificada por ordenador para tales entornos de ejecución. Un desarrollo de 274 obligaciones de Verus (cero suposiciones, cero admisiones; base de confianza: dos axiomas estructurales y una correspondencia de exclusión mutua) demuestra que los detectores son sólidos y completos respecto a las especificaciones, y que cada entorno de ejecución cumple su conjunto de evitación. Tres entornos de ejecución en Rust en producción materializan \(L_0\)–\(L_1\) (bloqueo pesimista, aislamiento de instantánea serializable, SI predeterminado), cada uno verificado frente a stale-generation y refinado hasta su máquina de estados; \(L_2\)–\(L_4\) se verifican en modo de ejecución con gemelos de prevención libres de dependencias (A3, A6, A2: 0/1000 frente a 1000/1000), y \(L_2\) se ejecuta en vivo en tres familias de modelos (A3 prevenido en las 120 sesiones retraídas). Reproducimos una actualización perdida silenciosa en deer-flow de ByteDance, formalizando su corrección como un refinamiento verificado de \(L_0\) a \(L_1\), y exhibimos reordenamiento de efecto de herramienta en ToolNode de LangGraph sobre salida sin modificar, eliminado mediante un secuenciador de orden de confirmación de nivel \(L_3\). El detector verificado, los refinamientos y los artefactos de realizabilidad constituyen la contribución; los fenómenos y el retículo son clásicos.