HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

59 papers found

AgentDoG 1.5: Un marco de alineación ligero y escalable para la seguridad y protección de agentes de IA
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

May 28

ByDongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu

Los agentes modernos de mundo abierto, como OpenClaw, exhiben potentes capacidades de ejecución entre entornos, pero introducen nuevas y amplias fuentes de riesgo de seguridad. Mientras tanto, los modelos avanzados de IA de frontera reducen drásticamente las barreras de ataque, dejando los marcos actuales de alineación de agentes inadecuados para el despliegue en el mundo real. Para abordar estas amenazas emergentes, proponemos un marco de alineación de seguridad de agentes ligero y escalable. Específicamente, actualizamos la taxonomía de seguridad de agentes para adaptarnos a los riesgos emergentes de los escenarios de ejecución de Codex y OpenClaw. Además, construimos un motor de datos guiado por taxonomía con purificación de función de influencia para entrenar variantes ligeras de AgentDoG 1.5 (con parámetros de 0,8B, 2B, 4B y 8B) utilizando solo alrededor de 1k muestras, logrando un rendimiento comparable al de los modelos cerrados líderes (por ejemplo, GPT-5.4). Basándonos en AgentDoG 1.5, construimos un entorno de entrenamiento de SFT y RL de seguridad para agentes altamente eficiente, que reduce la sobrecarga de despliegue en entornos a nivel de Docker en dos órdenes de magnitud. Finalmente, desplegamos AgentDoG 1.5 como una barrera de seguridad en línea sin entrenamiento para la moderación de seguridad en tiempo real. Resultados experimentales extensos indican que AgentDoG 1.5 logra un rendimiento de última generación en escenarios de agentes interactivos diversos y complejos. Todos los modelos y conjuntos de datos se publican abiertamente.

Qwen-VLA: Unificando el modelado de visión-lenguaje-acción entre tareas, entornos y morfologías robóticas
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

May 28

ByQiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen

La inteligencia encarnada suele estudiarse mediante modelos especializados para tareas individuales como la manipulación o la navegación, lo que genera capacidades fragmentadas y una generalización limitada entre tareas, entornos y configuraciones robóticas. En este trabajo, investigamos si problemas heterogéneos de toma de decisiones encarnadas pueden unificarse en un único modelo de visión-lenguaje-acción. Presentamos Qwen-VLA, un modelo fundacional encarnado unificado que extiende la pila de modelado de visión-lenguaje de Qwen desde la percepción, comprensión y razonamiento hasta la generación continua de acciones y trayectorias mediante un decodificador de acciones basado en DiT. Qwen-VLA se entrena con una receta de preentrenamiento conjunto a gran escala sobre diversas fuentes de datos, incluyendo trayectorias de manipulación robótica, demostraciones egocéntricas humanas, datos de simulación sintética, datos de navegación por visión y lenguaje, supervisión centrada en trayectorias y datos auxiliares de visión-lenguaje. Para soportar múltiples plataformas robóticas, introducimos un condicionamiento de indicaciones consciente de la encarnación, donde descripciones textuales específicas del robot especifican la encarnación actual y la convención de control. Además, reformulamos la manipulación, la navegación y la predicción de trayectorias en un marco unificado de predicción de acciones y trayectorias, habilitando un anclaje visual transferible, razonamiento espacial y generación continua de acciones a través de morfologías robóticas, familias de tareas y entornos. Los experimentos en puntos de referencia centrados en manipulación, navegación y trayectorias muestran un rendimiento multitarea consistente y una generalización fuera de distribución ante variaciones en el diseño de la escena, el fondo, la iluminación, la configuración de objetos y la encarnación robótica. Qwen-VLA-Instruct logra un 97,9% en LIBERO, un 73,7% en Simpler-WidowX, un 86,1%/87,2% en RoboTwin-Easy/Hard, un 69,0% de OSR en R2R, un 59,6% de SR en RxR, un 76,9% de éxito promedio fuera de distribución en experimentos reales de ALOHA, y un 26,6% de éxito en cero disparos en la manipulación dinámica de DOMINO.

OmniRetrieval: Recuperación unificada a través de fuentes de conocimiento heterogéneas
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

May 28

ByJinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang

Las necesidades de información del mundo real requieren acceso a fuentes de conocimiento estructuralmente diversas, desde texto no estructurado y tablas relacionales hasta grafos de conocimiento y grafos de propiedades. Sin embargo, los recuperadores existentes operan sobre una fuente a la vez bajo un lenguaje de consulta fijo, dejando el panorama más amplio del conocimiento disponible fragmentado tras interfaces incompatibles. Un intento natural de unificación colapsaría estas fuentes en un espacio compartido, pero esto elimina las capacidades estructurales (como esquemas, ontologías, operadores composicionales) que otorgan a cada fuente su poder expresivo. Por lo tanto, la recuperación efectiva sobre conocimiento diverso no requiere homogeneización, sino una capa global que aborde cada fuente en sus propios términos. Para lograr esto, presentamos OmniRetrieval, un marco que toma cualquier consulta en lenguaje natural, identifica las fuentes de conocimiento apropiadas y envía consultas nativas a sus motores de ejecución originales. En un extenso punto de referencia que abarca 13 conjuntos de datos y 309 bases de conocimiento distintas sobre fuentes de texto, relacionales y estructuradas en grafos, OmniRetrieval supera las líneas base de una sola fuente, demostrando que puede servir como una interfaz de propósito general para fuentes heterogéneas, preservando al mismo tiempo las diferencias estructurales que hacen que cada fuente sea valiosa.

CollectionLoRA: Recopilando 50 efectos en un solo LoRA mediante destilación on-policy con múltiples profesores
CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

May 25

ByFangtai Wu, Hailong Guo, Shijie Huang, Jiayi Song, Yubo Huang, Mushui Liu, Zhao Wang, Yunlong Yu, Jiaming Liu, Ruihua Huang

La edición de imágenes personalizada tiene como objetivo dotar a los modelos de difusión preentrenados de efectos visuales específicos utilizando datos emparejados limitados, típicamente mediante la Adaptación de Bajo Rango (LoRA). A medida que aumenta el número de efectos deseados, almacenar y cargar dinámicamente numerosos LoRAs de efectos incrementa significativamente la sobrecarga de implementación. Además, los pipelines actuales suelen concatenar estos LoRAs de efectos con módulos de aceleración para la generación rápida, lo que desencadena una grave interferencia de parámetros y resulta en sangrado de conceptos y degradación del estilo. Proponemos CollectionLoRA, un marco de destilación on-policy con múltiples maestros capaz de destilar los conceptos de hasta 50 LoRAs de efectos diferentes, junto con capacidades de generación en pocos pasos, en un solo LoRA. Esto resuelve fundamentalmente el problema de interferencia de características y reduce significativamente los costos de implementación. Específicamente, el método introduce (i) un mecanismo de Enrutamiento Probabilístico de Flujo Dual que permite al modelo cambiar aleatoriamente entre fuentes de datos durante el entrenamiento, mejorando efectivamente su generalización en escenarios no vistos; (ii) una estrategia de Indicación Ortogonal Asimétrica para lograr el aislamiento de conceptos dentro del espacio de indicaciones; (iii) un Objetivo de Destilación de Grueso a Fino para mitigar la brecha de distribución entre los modelos maestro y estudiante. Evaluaciones exhaustivas muestran que CollectionLoRA destila todos los efectos personalizados y la generación en pocos pasos en un solo LoRA, reduciendo la sobrecarga de implementación mientras logra una fidelidad de concepto comparable o superior a la de los modelos maestros entrenados de forma independiente.

minWM: Un marco de trabajo de pila completa y código abierto para modelos de mundo de video interactivos en tiempo real.
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

May 28

ByMin Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu

Recientes modelos fundamentales de difusión de video han logrado avances notables en la generación de video de alta calidad, sin embargo, convertirlos en modelos de mundo interactivos de video en tiempo real sigue siendo un desafío. Los modelos de mundo interactivos requieren despliegues controlables, causales y de baja latencia, lo que en la práctica demanda un flujo completo que abarca construcción de datos, ajuste fino controlable, entrenamiento autorregresivo, destilación en pocos pasos e inferencia en streaming. En este trabajo presentamos minWM, un marco de código abierto integral para construir modelos de mundo interactivos de video en tiempo real. minWM proporciona un flujo de trabajo de extremo a extremo que convierte modelos fundamentales de video T2V/TI2V bidireccionales existentes en modelos de mundo autorregresivos controlables por cámara y de pocos pasos. Específicamente, minWM primero ajusta finamente un modelo de difusión de video bidireccional con control de cámara, y luego aplica el flujo de Forzamiento Causal / Forzamiento Causal++, que incluye entrenamiento de difusión AR, ODE causal o destilación de consistencia causal, y DMD asimétrica, para destilarlo en un generador autorregresivo de pocos pasos para despliegue de baja latencia. El marco es modular y extensible en arquitectura: lo instanciamos en backbones abiertos representativos, incluyendo Wan2.1-T2V-1.3B y HY1.5-TI2V-8B, cubriendo tanto la inyección de condiciones basada en atención cruzada como arquitecturas de estilo MMDiT. minWM también soporta la adaptación de modelos de mundo de video existentes, como HY-WorldPlay, a nuevas distribuciones de datos, recetas de entrenamiento y objetivos de latencia. Además de publicar scripts ejecutables, puntos de control, documentación y código de inferencia, proporcionamos ablaciones prácticas sobre la calidad de las trayectorias de cámara, pasos de entrenamiento de controlabilidad y requisitos mínimos de tamaño de lote. Esperamos que minWM sirva como una receta reproducible y extensible para construir y adaptar modelos de mundo interactivos de video en tiempo real. Página del Proyecto: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)

YoCausal: ¿Qué tan lejos está la generación de vídeo del modelo del mundo? Una perspectiva de causalidad
YoCausal: How Far is Video Generation from World Model? A Causality Perspective

May 28

ByYou-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang

A medida que los modelos de difusión de video (VDMs) avanzan hacia modelos del mundo, surge una pregunta clave: ¿comprenden realmente la causalidad o simplemente se sobreajustan a patrones temporales estadísticos? Los puntos de referencia existentes se basan mayoritariamente en datos sintéticos, lo que limita su generalización al mundo real debido a la brecha sim-real. Presentamos YoCausal, un punto de referencia de dos niveles inspirado en el paradigma de Violación de Expectativa (VoE) de la ciencia cognitiva. Al invertir temporalmente videos del mundo real sin costo adicional como muestras contrafactuales naturales, YoCausal establece un protocolo de evaluación arbitrariamente extensible. El Nivel 1 introduce el Índice de Sorpresa Inversa (RSI), que cuantifica la percepción de la flecha del tiempo mediante la pérdida de denoising. El Nivel 2 introduce el Índice de Cognición Causal (CCI), que utiliza un VLM para estratificar conjuntos de datos en subconjuntos causales y no causales, separando el razonamiento causal genuino del sesgo temporal. La evaluación de 13 VDMs de última generación revela que percibir la flecha del tiempo no implica comprender la causalidad, y persiste una brecha significativa en comparación con la cognición causal a nivel humano.

GenClaw: Generación Agentiva de Imágenes Impulsada por Código
GenClaw: Code-Driven Agentic Image Generation

May 28

ByJunyan Ye, Jun He, Zilong Huang, Dongzhi Jiang, Xuan Yang, Rui Chen, Weijia Li

Los modelos de generación de imágenes han evolucionado desde la síntesis de píxeles condicionada por texto hacia agentes multimodales dotados de comprensión visual y capacidades de invocación de herramientas. Sin embargo, los agentes existentes siguen a merced de los modelos de imagen subyacentes de caja negra. Su flujo de trabajo queda atrapado en un ciclo repetitivo de reescritura de indicaciones para el refinamiento de la generación, sin ningún mecanismo para manipular directamente el lienzo. En esencia, el potencial de los LLM para servir como un "pincel" genuino para la construcción visual precisa sigue sin explotarse en gran medida. En este artículo, proponemos GenClaw, un paradigma de generación de imágenes agentivo impulsado por código que permite al agente crear como un artista humano: primero conceptualizar, luego dibujar y finalmente colorear. Específicamente, el agente primero construye el conocimiento conceptual y el contexto mediante búsqueda y razonamiento. Luego utiliza código (por ejemplo, SVG, HTML, Three.js) para representar bocetos visuales ejecutables. Finalmente, emplea un modelo de generación de imágenes para complementar texturas, materiales y fotorrealismo. En este flujo de trabajo, el código sirve como un lienzo intermedio controlable que une el razonamiento lingüístico y la síntesis de píxeles, integrando sin problemas la lógica programática con la expresividad visual de los modelos generativos. Al transformar la generación de imágenes de un paradigma de caja negra en un proceso por etapas similar a la creación humana auténtica, GenClaw ofrece un paso hacia sistemas de generación visual altamente controlables e interpretables.

EarlyTom: La Compresión Temprana de Tokens Completa la Comprensión Rápida de Videos
EarlyTom: Early Token Compression Completes Fast Video Understanding

May 28

ByHesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang

Los modelos de lenguaje grandes de video (Video-LLM) han demostrado capacidades sólidas en tareas de comprensión de video. Sin embargo, su implementación práctica aún se ve obstaculizada por la ineficiencia que introduce el procesamiento de grandes cantidades de tokens visuales. Aunque enfoques recientes logran tasas de retención de tokens extremadamente bajas manteniendo una precisión comparable a las líneas base de tokens completos, la mayoría de ellos realizan la compresión solo en la etapa tardía del prellenado, dejando sin optimizar la eficiencia del codificador visual. En este artículo, primero mostramos que la codificación visual contribuye en gran medida al tiempo hasta el primer token (TTFT). Por lo tanto, en lugar de comprimir los tokens visuales solo después del codificador visual, realizar la compresión dentro del codificador aún deja un margen considerable para explorar. Partiendo de esta idea, proponemos EarlyTom, un marco de compresión de tokens sin entrenamiento que realiza la compresión temprana de tokens visuales dentro del codificador visual, lo que permite una reducción significativamente mayor del TTFT y un mayor rendimiento. Además, introducimos una estrategia desacoplada de selección de tokens espaciales que mejora la efectividad general de la compresión. EarlyTom reduce el TTFT en hasta 2.65 veces y los FLOPs en hasta un 61% en una sola GPU NVIDIA A100 para el modelo LLaVA-OneVision-7B, manteniendo una precisión comparable a la línea base de tokens completos. Estas mejoras aumentan sustancialmente la viabilidad de implementar los Video-LLM en escenarios de producción del mundo real.

¿Cómo recuerda LoRA? Una ley de memoria paramétrica para el ajuste fino de LLMs
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

May 28

ByZiwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang

Los Modelos de Lenguaje de Gran Escala (LLMs) deben aprender y actualizar continuamente sus conocimientos para seguir siendo efectivos en entornos dinámicos del mundo real. Si bien la Adaptación de Bajo Rango (LoRA) se utiliza ampliamente para dichas actualizaciones de memoria, los estudios existentes se basan principalmente en evaluaciones cualitativas posteriores, dejando en gran medida inexplorados los límites cuantitativos de capacidad y la dinámica subyacente de la memoria paramétrica exacta. Para cerrar esta brecha, empleamos LoRA como una sonda de capacidad de memoria controlada dentro del espacio latente para cuantificar sistemáticamente la memoria paramétrica exacta. Introducimos la Ley de Memoria Paramétrica, una ley de potencias robusta que vincula la reducción de pérdida ΔL con los parámetros efectivos y la longitud de la secuencia. A nivel de token, un análisis de grano fino revela una transición de fase determinista, demostrando que una probabilidad de predicción p > 0.5 constituye una condición suficiente para el recuerdo textual bajo decodificación voraz. Impulsados por estos hallazgos, presentamos MemFT, una estrategia de optimización guiada por umbral que redistribuye dinámicamente el presupuesto de entrenamiento hacia tokens por debajo del umbral. Las evaluaciones empíricas demuestran que MemFT puede mejorar la fidelidad y eficiencia de la memoria. El código se publicará en https://github.com/zjunlp/ParametricMemoryLaw.

UniSteer: Emparejamiento de Flujo Guiado por Texto en el Espacio de Activación para el Direccionamiento Versátil de LLM
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

May 28

ByYingdong Shi, Ruiming Zhang, Changming Li, Zhiyu Yang, Kaixing Zhang, Jingyi Yu, Kan Ren

El control basado en activaciones dirige los modelos de lenguaje grandes (LLMs) mediante la intervención en sus representaciones internas durante la inferencia, y se ha consolidado como un paradigma eficaz para controlar comportamientos como la personalidad y el estilo. Sin embargo, los métodos existentes a menudo dependen de direcciones de control fijas o módulos de intervención específicos para cada tarea, lo que dificulta su adaptación a conceptos detallados y restricciones compositivas. Proponemos UniSteer, un modelo de emparejamiento de flujo de activaciones guiado por texto que aprende una distribución condicional sobre las activaciones del flujo residual a partir de condiciones en lenguaje natural. En lugar de ajustar una intervención separada para cada comportamiento objetivo, UniSteer aprende un campo de velocidad condicional universal en el espacio de activaciones. Durante la inferencia, UniSteer realiza inversión de flujo al transportar parcialmente una activación fuente hacia un estado latente y regenerarla bajo una condición textual objetivo, antes de inyectarla de vuelta en el LLM congelado. El mismo modelo condicional admite clasificación en el espacio de activaciones al seleccionar la etiqueta textual con la menor energía de reconstrucción. Los experimentos en tres LLMs objetivo muestran que UniSteer proporciona una interfaz unificada para control de comportamiento, dirección de veracidad, dirección de conceptos detallados, seguimiento de instrucciones con múltiples restricciones y clasificación en el espacio de activaciones.

Por qué lo lejano se ve arriba: Explorando la representación espacial en modelos de visión-lenguaje
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

May 28

ByCheolhong Min, Jaeyun Jung, Daeun Lee, Hyeonseong Jeon, Yu Su, Jonathan Tremblay, Chan Hee Song, Jaesik Park

Los modelos de lenguaje-visión (VLM) logran un rendimiento sólido en puntos de referencia de razonamiento espacial, pero aún no está claro si esto refleja una comprensión 3D estructurada o una dependencia de atajos estadísticos en imágenes naturales. Presentamos un marco de análisis a nivel de representación que construye pares contrastivos mínimos para medir cómo se organizan y separan los ejes espaciales en las incrustaciones de los VLM. Nuestro análisis en múltiples familias de modelos revela un enredo consistente entre distancia vertical: los modelos confunden la posición vertical de la imagen con la distancia, reflejando el sesgo de perspectiva de las fotografías naturales. Este sesgo produce una brecha de precisión significativa entre ejemplos consistentes con la perspectiva y aquellos contra-heurísticos, y se intensifica con el escalado de datos incluso cuando la precisión general del punto de referencia mejora. Además, mostramos que modelos con puntuaciones similares en puntos de referencia pueden exhibir representaciones internas distintas, y que estas diferencias predicen la precisión y robustez en diversos puntos de referencia de razonamiento espacial. Para aislar este sesgo del desequilibrio en los conjuntos de evaluación, introducimos SpatialTunnel, un punto de referencia sintético diseñado para exponer sesgos de atajos espaciales eliminando correlaciones comunes presentes en imágenes naturales. Los experimentos confirman que el enredo es intrínseco al modelo, y que los modelos con ejes espaciales bien separados presentan mayor robustez, lo que sugiere que las representaciones espaciales bien estructuradas conducen a un razonamiento espacial más fiable en diversos puntos de referencia. El código y el punto de referencia están disponibles en la página del proyecto: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

Alineación Audiovisual Nativa para Generación
Native Audio-Visual Alignment for Generation

May 28

ByLongbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He

La generación conjunta de audio y video tiene como objetivo sintetizar contenido visual y acústico temporalmente sincronizado y semánticamente coherente. Sin embargo, los métodos de código abierto existentes se basan principalmente en diseños de doble torre con alineación posterior o en diseños totalmente unificados de tres modalidades que mezclan contexto textual, audio y video en un espacio compartido. El primero debilita la co-evolución detallada entre audio y video, mientras que el segundo acopla el condicionamiento semántico con la sincronización de bajo nivel. Para abordar estas limitaciones, proponemos NAVA, un marco de Alineación Nativa Audio-Visual para la generación conjunta de audio y video. NAVA se basa en la alineación nativa audio-visual condicionada por contexto: primero establece la correspondencia audio-video en un espacio de interacción dedicado, y luego utiliza contexto externo para condicionar el proceso de eliminación de ruido conjunto. Específicamente, NAVA se implementa con una arquitectura MMDiT de Alineación y Fusión, que transita desde la alineación audio-video consciente de la modalidad hacia la eliminación de ruido conjunta compartida entre modalidades. Además, introducimos el Condicionamiento de Timbre en Contexto para asociar señales de timbre de referencia con los segmentos de habla correspondientes, logrando un control del timbre del habla. Experimentos en Verse-Bench y Seed-TTS, junto con un estudio de usuarios, demuestran que NAVA alcanza una calidad de video superior, una sincronización audiovisual precisa, una calidad de audio competitiva y un mayor control del timbre de referencia utilizando solo 6.3 mil millones de parámetros.

LoMo: Sustitución Local de Modalidad para una Fusión Visión-Lenguaje más Profunda
LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

May 28

ByFeng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang

Los Modelos de Visión-Lenguaje (VLMs) han logrado avances sustanciales en una amplia gama de tareas de comprensión y razonamiento, impulsados por el entrenamiento a gran escala con pares imagen-texto orientado a la fusión multimodal. Idealmente, reemplazar una pregunta textual por su contraparte en imagen renderizada no debería afectar el rendimiento del modelo. Sin embargo, en la práctica, dicha sustitución de modalidad provoca una degradación drástica del rendimiento. Atribuimos este problema de "sensibilidad al soporte" a un sesgo inherente en los corpus de entrenamiento actuales. En conjuntos de datos prevalentes, como subtitulado de imágenes, VQA, OCR y datos intercalados de origen web, el texto y las imágenes suelen organizarse en roles distintos y asimétricos, donde el texto actúa como consulta lingüística y las imágenes como referencias visuales. Este sesgo en los datos lleva a los VLMs a mostrar preferencias distintas en la adquisición de información según la modalidad. En consecuencia, los VLMs no logran alinear las representaciones de contenido semánticamente equivalente entre soportes textuales y visuales, lo que vuelve frágil el razonamiento del modelo ante la sustitución de modalidad. Para abordar esto, proponemos la Sustitución Local de Modalidad (LoMo), un paradigma ligero de curación de datos, independiente de la arquitectura, diseñado para proporcionar supervisión sobre la invariancia representacional entre modalidades para contenido semánticamente equivalente entre soportes textuales y visuales. LoMo logra esto reformulando indicaciones de modalidad única en secuencias multimodales intercaladas de forma fluida. Selecciona dinámicamente fragmentos de texto objetivo y los reconvierte en imágenes renderizadas, preservando así la misma semántica a través de soportes "texto, visual, texto". Experimentos exhaustivos en 13 conjuntos de datos multimodales diversos demuestran que LoMo mejora significativamente el razonamiento multimodal general y produce una fusión multimodal más profunda. En concreto, ofrece mejoras consistentes en modelos fundacionales, incrementando el rendimiento sobre el Ajuste Fino Supervisado (SFT) estándar en 2,67 puntos en LLaVA-OneVision-1.5-8B y 2,82 puntos en Qwen3.5-9B.

LaRA: Análisis de Representación por Capas para Detectar Contaminación de Datos en el Post-Entrenamiento de RL
LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

May 28

ByMinju Gwak, Minseo Kwak, Dongseok Lee, Guijin Son, Alan Ritter, Jaehyung Kim

El entrenamiento posterior con aprendizaje por refuerzo (RL) ha demostrado mejorar el razonamiento en modelos de lenguaje grandes (LLMs). Sin embargo, se ha explorado poco el problema de la contaminación de datos en el entrenamiento posterior con RL, lo que podría comprometer la generalización y la fiabilidad de la evaluación del propio proceso de entrenamiento. Los métodos de detección existentes se basan principalmente en señales a nivel de salida, como la verosimilitud o la entropía, que resultan poco fiables para modelos entrenados con RL, ya que el RL moldea el comportamiento mediante recompensas a nivel de trayectoria, no mediante verosimilitudes de tokens. Proponemos LaRA, un marco de análisis de representaciones por capas para detectar contaminación en LLMs entrenados posteriormente con RL. LaRA introduce tres métricas complementarias que miden la sensibilidad a perturbaciones, el colapso direccional y la rigidez local de representaciones bajo perturbaciones controladas. Descubrimos que la contaminación produce desviaciones geométricas progresivas a través de las capas, incluyendo una sensibilidad a perturbaciones amplificada, un colapso direccional más fuerte y una rigidez local incrementada. A partir de estos hallazgos, también desarrollamos un protocolo de detección de contaminación que agrega desviaciones a nivel de representación a través de capas y métricas. Experimentos con modelos de razonamiento entrenados con RL muestran que nuestro protocolo supera a las líneas base existentes basadas en señales a nivel de salida para la detección de contaminación.

Skill0.5: internalización y utilización conjunta de habilidades para la generalización fuera de la distribución en aprendizaje por refuerzo agéntico
Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

May 27

ByJiapeng Zhu, Jianxiang Yu, Yibo Zhao, Chengcheng Han, Qi Gu, Xunliang Cai, Xiang Li, Weining Qian

Equipar a los modelos de lenguaje grandes con habilidades explícitas ha surgido como un paradigma prometedor para capacitar a agentes autónomos en la resolución de tareas complejas. Las habilidades de los agentes pueden dividirse inherentemente en habilidades generales para una transferencia cognitiva amplia y habilidades específicas de tareas para una ejecución dinámica. Sin embargo, los métodos existentes de aprendizaje por refuerzo (RL) basados en habilidades suelen imponer una elección rígida entre la externalización completa, que conlleva una carga de contexto prohibitiva, y la internalización completa, que corre el riesgo de sobreajuste y conflictos de conocimiento. Para abordar este dilema, proponemos Skill0.5, un novedoso marco de RL agentivo que diferencia explícitamente el tratamiento de las habilidades mediante la combinación de la internalización de habilidades generales con la utilización de habilidades específicas de tareas. Impulsado por un enrutador dinámico y consciente de la dificultad, Skill0.5 clasifica las tareas en distintos niveles de dominio para aplicar estrategias de optimización adaptadas: internaliza las habilidades generales mediante destilación privilegiada para construir una base cognitiva para tareas difíciles, mientras utiliza un sondeo diagnóstico en tareas fáciles para penalizar los atajos y forzar la utilización de habilidades específicas. Los experimentos en ALFWorld y WebShop demuestran que Skill0.5 supera tanto a las líneas base de RL basadas en memoria como a las basadas en habilidades, obteniendo mejoras de rendimiento tanto en escenarios dentro de la distribución como fuera de ella.

Xetrieval: Explicación mecanicista de la recuperación densa
Xetrieval: Mechanistically Explaining Dense Retrieval

May 28

ByZhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong

Explicar por qué los recuperadores densos asignan puntuaciones de relevancia altas sigue siendo un desafío, ya que las decisiones de recuperación se toman a través de incrustaciones opacas de alta dimensionalidad. Las explicaciones existentes a menudo se centran en señales superficiales, como coincidencias léxicas, alineaciones de tokens o justificaciones textuales a posteriori, y por lo tanto ofrecen una visión limitada de los factores latentes que moldean el comportamiento de la recuperación densa a nivel de incrustación. Proponemos Xetrieval, un marco mecanicista a nivel de incrustación para explicar la recuperación densa. Xetrieval primero introduce un internalizador de razonamiento ligero que aproxima el razonamiento de Cadena de Pensamiento directamente en el espacio de incrustación con un solo paso hacia adelante, enriqueciendo las incrustaciones de oraciones con información orientada al razonamiento, al tiempo que evita la costosa generación autorregresiva. Luego descompone estas incrustaciones enriquecidas con razonamiento en características dispersas e interpretables por humanos, cada una asociada con una descripción coherente en lenguaje natural. Al agregar superposiciones de características dispersas en múltiples vistas del lado del documento, Xetrieval proporciona explicaciones a nivel de características de decisiones de recuperación individuales. Experimentos en diversos recuperadores y puntos de referencia muestran que Xetrieval descubre características interpretables coherentes, produce efectos de intervención a nivel de par más fuertes y apoya la dirección de características a nivel de tarea. La página del proyecto y el código fuente están disponibles en https://hihiczx.github.io/Xetrieval.

¿Cuándo deberían los modelos cambiar de opinión? Gestión de creencias contextuales en modelos de lenguaje de gran escala.
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

May 28

ByHaoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng

Las interacciones de largo horizonte requieren que los modelos de lenguaje gestionen información acumulada: cuándo actualizar su estado, cuándo preservarlo y qué ignorar. Estudiamos este desafío como Gestión de Creencias Contextuales (CBM): mantener un estado de creencia predicho alineado con la evidencia formal mientras se aísla el ruido irrelevante para la tarea. Para hacer que CBM sea medible, presentamos BeliefTrack, un entorno de mundo cerrado que abarca el Descubrimiento de Reglas y el Diagnóstico de Circuitos, donde un espacio de creencias finito y verificadores simbólicos permiten una evaluación exacta a nivel de turno. BeliefTrack diagnostica tres fallos: Fallo de Permanencia, Fallo de Actualización y Fallo de Aislamiento. En múltiples LLMs, los modelos vanilla presentan fallos graves de CBM, mientras que las indicaciones explícitas de seguimiento de creencias ofrecen ganancias limitadas. En contraste, el aprendizaje por refuerzo con recompensas de estado de creencia reduce las tasas de fallo en un 70,9% de media. Un análisis más profundo revela dinámicas latentes del estado de creencia detrás de estos fallos, y el direccionamiento a nivel de representación reduce las tasas de fallo en un 46,1% en ambas tareas\footnote{El código estará disponible próximamente en https://github.com/zjunlp/CBM.}

Muestreo de Difusión con Ruido Coloreado
Colored Noise Diffusion Sampling

May 28

ByHadar Davidson, Noam Issachar, Sagie Benaim

Los modelos de difusión logran una síntesis de imágenes de última generación, cuyas trayectorias generativas exhiben fundamentalmente un sesgo espectral, resolviendo primero las estructuras globales de baja frecuencia y luego los detalles finos de alta frecuencia. Los solucionadores convencionales de ecuaciones diferenciales estocásticas (SDE) no tienen en cuenta esta dinámica, inyectando ingenuamente ruido blanco uniforme durante todo el proceso y malgastando el presupuesto de energía finito. En este trabajo, establecemos un marco matemático que replantea la inferencia SDE como una transferencia de energía dirigida y desacoplada en frecuencia. Aprovechando este marco, introducimos el Muestreo con Ruido Coloreado (CNS), un novedoso solucionador estocástico sin entrenamiento. En lugar de inyectar ruido blanco uniforme, CNS utiliza una programación dinámica dependiente del paso de tiempo y de la frecuencia que asigna más eficientemente la energía inyectada hacia las bandas de frecuencia estructuralmente no resueltas. Al explotar activamente el sesgo espectral inherente del modelo, CNS orienta sistemáticamente la distribución generada hacia la variedad de datos verdadera. Experimentos exhaustivos demuestran que CNS supera significativamente a las líneas base estándar de ODE y SDE como una sustitución estrictamente plug-and-play del muestreador en tiempo de inferencia, en diversas arquitecturas (SiT, JiT, FLUX). En comparación con el muestreo estándar en ImageNet-256, CNS logra reducciones sustanciales de FID sin guía, mejorando de 8.26 a 6.27 en SiT-XL/2, de 32.39 a 26.69 en JiT-B/16 y de 11.88 a 8.31 en JiT-H/16, al tiempo que produce mejoras relativas consistentes en FID con la Guía Sin Clasificador. La página del proyecto está disponible en https://hadardavidson.github.io/CNS/.

¿El sesgo de posición en los recuperadores densos está incorporado o se aprende de los datos?
Is Position Bias in Dense Retrievers Built In-or Learned from Data?

May 26

ByDaegon Yu, SeungYoon Han, Woomyoung Park

Los recuperadores densos presentan un sesgo posicional, favoreciendo aquellos documentos cuya información relevante para la consulta aparece al inicio, y degradando el rendimiento de recuperación cuando dicha información aparece más adelante. Si bien trabajos previos sobre el sesgo posicional en recuperadores densos se han centrado principalmente en explicaciones arquitectónicas, en este estudio analizamos cómo la distribución posicional de la evidencia en los datos de entrenamiento afecta la dirección del sesgo a nivel de recuperación. Para evaluar esto, construimos conjuntos de entrenamiento sintéticos con orientación posicional, en los que la evidencia relevante para la consulta aparece al inicio, en medio o al final de los documentos, y ajustamos ocho modelos preentrenados con diversidad arquitectónica bajo distribuciones de entrenamiento sesgadas por posición y equilibradas. A nivel de ranking, observamos un patrón direccional consistente en los modelos examinados: las distribuciones de entrenamiento sesgadas favorecen la evidencia en las posiciones correspondientes. El entrenamiento con distribución equilibrada reduce la sensibilidad posicional entre un 57% y un 87% en benchmarks sensibles a la posición, con un rendimiento medio competitivo en nuestro entorno controlado. Análisis a nivel de representación sugieren además que el ajuste fino a menudo reconfigura las preferencias posicionales aprendidas, aunque ciertas tendencias arquitectónicas o específicas del preentrenamiento persisten en algunos modelos. Estos resultados identifican la distribución de la posición de entrenamiento como un factor controlable importante en el sesgo posicional a nivel de recuperación, y sugieren la curación equilibrada de datos como una estrategia práctica de mitigación.

CausaLab: Un Entorno Escalable para el Descubrimiento Causal Interactivo dirigido a Científicos de IA
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

May 28

ByJunlin Yang, Dylan Zhang, Xiangchen Song, Qirun Dai, Xiao Liu, Yuen Chen, Aniket Vashishtha, Jing Shi, Chenhao Tan, Hao Peng

Presentamos CausaLab, un entorno escalable para evaluar el descubrimiento causal interactivo por parte de agentes basados en LLM. A diferencia de evaluaciones previas, CausaLab evalúa tanto si un agente puede resolver un problema utilizando evidencia causal como si su respuesta se fundamenta en un mecanismo causal recuperado fielmente. Cada episodio sitúa a un agente en un laboratorio sintético: recibe registros de mediciones previas, interviene sobre un cristal manipulador y predice la frecuencia de resonancia de un cristal reactor reservado, regido por el mismo mecanismo. El proceso generador de datos oculto es un modelo causal estructural (SCM) muestreado aleatoriamente, por lo que el éxito requiere recuperar tanto un grafo causal como ecuaciones estructurales, en lugar de recurrir a conocimientos previos. Los experimentos muestran una brecha persistente entre la predicción y la recuperación del mecanismo: en el entorno puramente observacional con 6 nodos, GPT-5.2-high alcanza un 92% de precisión en la tarea, pero solo un F_1 de 0.471 en todos los bordes. Las estrategias mixtas de observación e intervención mejoran la fidelidad estructural, mientras que la intervención pura sigue siendo difícil incluso para agentes poderosos. Identificamos la detención prematura como una debilidad importante y demostramos que la verificación de consistencia la mitiga. Por lo tanto, CausaLab separa el éxito predictivo de la comprensión causal y expone los límites de los agentes actuales basados en LLM como razonadores causales experimentales.

AsyncTool: Evaluación de la Capacidad de Llamada a Funciones Asíncronas en Escenarios de Múltiples Tareas
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

May 27

ByKou Shi, Ziao Zhang, Shiting Huang, Avery Nie, Zhen Fang, Qiuchen Wang, Lin Chen, Huaian Chen, Zehui Chen, Feng Zhao

Los agentes basados en modelos de lenguaje grande (LLM) han demostrado una gran capacidad para utilizar herramientas externas en la resolución de tareas complejas. Sin embargo, las evaluaciones existentes a menudo pasan por alto la dimensión temporal del uso de herramientas, especialmente el impacto de la latencia en las respuestas de las herramientas, y suelen limitarse a entornos de tarea única. En aplicaciones del mundo real, con frecuencia es necesario ejecutar múltiples tareas de forma concurrente, y la eficiencia global depende de si un agente puede aprovechar el tiempo de inactividad mientras espera las respuestas de las herramientas. Denominamos a esta capacidad llamada asíncrona a herramientas. Para evaluarla, proponemos AsyncTool, un punto de referencia para valorar agentes basados en LLM en entornos interactivos de múltiples tareas con retroalimentación retardada de herramientas. AsyncTool presenta simultáneamente varias tareas heterogéneas y simula la latencia realista de respuesta de las herramientas durante la ejecución. Mediante una estrategia híbrida de evolución de datos, construimos un conjunto de datos asíncrono y multitarea diverso que abarca múltiples escenarios y patrones de uso de herramientas. Evaluamos los modelos a nivel de paso, subtarea y tarea, e introducimos métricas orientadas a la eficiencia para medir la coordinación de tareas y la eficiencia de finalización. Experimentos exhaustivos muestran que la retroalimentación retardada de las herramientas plantea desafíos sustanciales para los agentes actuales y provoca una clara degradación del rendimiento. Los modelos que coordinan mejor el cambio entre tareas, el seguimiento de dependencias y el mantenimiento del estado obtienen un rendimiento superior en AsyncTool. Nuestro análisis identifica los modos de fallo clave de los agentes actuales que utilizan herramientas y proporciona información práctica para diseñar sistemas futuros con capacidades mejoradas de razonamiento temporal y coordinación.

Cuando los Agentes en la Nube se Encuentran con los Agentes de Dispositivos: Lecciones de los Sistemas Multiagente Híbridos
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

May 28

ByCorrado Rainone, Davide Belli, Bence Major, Arash Behboodi

El espacio de diseño de la inferencia de IA agéntica abarca dos extremos: los grandes modelos de lenguaje (LLMs) de frontera, generalmente alojados en la nube y que ofrecen un rendimiento sólido en una amplia gama de tareas a un costo considerablemente alto, y los modelos de lenguaje pequeños (SLMs) más eficientes en costos, que son adecuados para la inferencia en el dispositivo. Los sistemas multiagente (MAS) híbridos que combinan modelos en el dispositivo y en la nube representan un término medio prometedor, pero también introducen un espacio de diseño complejo y poco comprendido en el que la precisión de la tarea, el costo monetario y el consumo de energía en el borde están estrechamente acoplados; ante la ausencia de principios de diseño generales, los componentes híbridos, aunque no son la opción más prevalente, se introducen típicamente mediante decisiones ad hoc adaptadas a dominios específicos. En este trabajo, examinamos este espacio de diseño de manera más sistemática. Adaptamos dos arquitecturas MAS representativas para soportar la inferencia híbrida y estudiamos cómo las elecciones de diseño individuales desplazan el punto de operación a lo largo de la frontera de Pareto de potencia, costo y rendimiento. Nuestros hallazgos presentan una imagen matizada del diseño de MAS híbridos: si bien los SLMs pueden beneficiarse efectivamente de la asistencia de los LLMs, la arquitectura óptima depende en gran medida de la tarea, y un mayor cómputo a nivel de frontera no se traduce consistentemente en un mejor rendimiento.

Hacia una investigación profunda multimodal verificable: un arnés multiagente para la generación de informes entrelazados
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

May 28

ByChenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou

Los Modelos de Lenguaje de Gran Escala (LLMs) han evolucionado los agentes autónomos desde la búsqueda profunda, que recupera respuestas factuales concisas, hasta la investigación profunda, que sintetiza evidencia dispersa en informes extensos. Sin embargo, la investigación profunda multimodal verificable sigue siendo un desafío debido a la síntesis abierta sin una verdad fundamental determinista y la necesidad de entrelazar argumentos textuales con evidencia visual. Proponemos Ptah, un sistema multiagente para la generación de informes entrelazados. Ptah orquesta el ciclo de vida desde la consulta del usuario hasta el informe web renderizado a través de etapas de planificación, investigación y redacción, donde agentes especializados construyen planes con conciencia visual, recopilan evidencia fundamentada en afirmaciones, mantienen imágenes alineadas con las fuentes en una Memoria de Trabajo Visual, y redactan informes mediante el uso declarativo de herramientas multimodales. Un agente verificador actúa como función de aceptación del sistema, asegurando el fundamento factual, la fidelidad de las citas y la coherencia entre modalidades a lo largo del flujo de trabajo. Además, presentamos PtahEval, un protocolo de evaluación que complementa los puntos de referencia existentes con evaluaciones a nivel de imagen y de presentación. Los experimentos en puntos de referencia de investigación profunda muestran que Ptah produce informes multimodales más fiables, visualmente informativos y utilizables para los humanos que las líneas base sólidas.

UI-KOBE: Exploración de Comportamiento Orientada al Conocimiento para Agentes GUI Ligeros Guiados por Grafos
UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

May 28

ByYuxiang Chai, Han Xiao, Xinyu Fu, Jinpeng Chen, Rui Liu, Hongsheng Li

Los avances recientes en agentes GUI móviles han demostrado un gran potencial para automatizar tareas móviles, pero la mayoría de los sistemas efectivos aún dependen de grandes modelos de visión-lenguaje para la comprensión de capturas de pantalla y la planificación a largo plazo. Los agentes GUI pequeños que pueden desplegarse directamente en dispositivos móviles son más atractivos para uso práctico, ofreciendo menor costo de inferencia y mejor protección de información sensible en el dispositivo. Sin embargo, debido a la capacidad limitada del modelo, estos agentes ligeros siguen siendo poco fiables al planificar y ejecutar tareas GUI de principio a fin solo a partir de capturas de pantalla. Proponemos Knowledge-Oriented Behavior Exploration (UI-KOBE), un marco que mejora los agentes GUI móviles ligeros con conocimiento gráfico reutilizable específico de la aplicación. UI-KOBE primero explora de forma autónoma una aplicación móvil y construye un grafo de conocimiento de la aplicación, donde los nodos representan estados distintos de la interfaz de usuario y las aristas representan transiciones ejecutables. En tiempo de ejecución, un agente GUI ligero utiliza el grafo como guía externa: dada una tarea de usuario y la captura de pantalla actual, identifica el nodo actual del grafo y selecciona entre acciones de bucle cerrado, transiciones vecinas, finalización de tarea o acciones libres de respaldo asociadas con ese nodo. Al respaldar las decisiones en tiempo de ejecución con guía gráfica específica de la aplicación, UI-KOBE reduce la carga de la planificación GUI de extremo a extremo y ayuda a los modelos ligeros a realizar tareas GUI móviles de manera más efectiva, ofreciendo un paso práctico hacia agentes GUI en el dispositivo eficientes, interpretables y conscientes de la privacidad.

LiteCoder-Terminal: Ampliación de entornos de terminal de horizonte largo para el aprendizaje de agentes de lenguaje
LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

May 28

ByXiaoxuan Peng, Kaiqi Zhang, Xinyu Lu, Boxi Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

Dominar entornos de terminal requiere agentes de lenguaje capaces de planificación en múltiples pasos, ejecución basada en retroalimentación y adaptación dinámica al estado. Sin embargo, el entrenamiento de dichos agentes actualmente está limitado por la dependencia de repositorios externos extraídos, lo que restringe la diversidad de dominios, la controlabilidad del entorno y la focalización en déficits de capacidades específicas. Presentamos LiteCoder-Terminal-Gen, un pipeline de síntesis sin dependencias que genera automáticamente entornos de entrenamiento de terminal ejecutables y verificables directamente a partir de especificaciones de dominio. Usando este marco, construimos dos recursos a gran escala: LiteCoder-Terminal-SFT, que comprende 11.255 trayectorias de expertos en 10 dominios, y LiteCoder-Terminal-RL, con 602 entornos verificables para optimización de preferencias a nivel de trayectoria. El ajuste fino supervisado de modelos de la familia Qwen en nuestro conjunto de datos SFT produce agentes que superan significativamente a sus contrapartes base. En particular, nuestra variante de 32B logra un 29,06%, 18,54% y 34,00% de pass@1 en Terminal Bench 1.0, 2.0 y Pro, respectivamente. Además, la aplicación de Optimización Directa de Preferencias en Múltiples Turnos (DMPO) en nuestros entornos RL produce ganancias adicionales de rendimiento. Estos resultados demuestran sistemáticamente que los entornos completamente sintéticos y ejecutables ofrecen una señal de supervisión escalable y verificable para dominar flujos de trabajo complejos del mundo real en línea de comandos.

PhyGenHOI: Generación 4D Físicamente Consciente de Interacciones Dinámicas Humano-Objeto
PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

May 28

ByOmer Benishu, Gal Fiebelman, Sagie Benaim

Abordamos la tarea de generar interacciones 4D humano-objeto (HOI) físicamente precisas y visualmente fieles. Dado un humano 3D estático y un objeto objetivo representados como Splats Gaussianos 3D (3DGS), nuestro objetivo es sintetizar escenas dinámicas donde el humano interactúe activamente con el objeto mediante acciones, como golpear o patear, de acuerdo con un texto de entrada dado. Para ello, introducimos PhyGenHOI, un novedoso marco que acopla el movimiento humano generativo con una simulación física explícita del objeto. Modelamos al humano como un agente semántico impulsado por un Modelo de Difusión de Movimiento (MDM) y al objeto como un agente físico simulado mediante el Método de Puntos Materiales (MPM), utilizando Gaussianas 3D como representación unificada y diferenciable. Supervisamos su interacción a través de tres mecanismos acoplados: (1) una Pérdida de Atracción Ventaneada que sincroniza temporalmente el movimiento generativo para interceptar el objeto; (2) un paso de Re-simulación Impulsada por Contacto que desencadena una transferencia de momento físicamente consistente tras el impacto; y (3) un objetivo de SDS de Video Enmascarado que inyecta prioridades basadas en video para mejorar la fidelidad del contacto. Los experimentos muestran que PhyGenHOI genera HOI 4D físicamente consistentes en diversas acciones, humanos y objetos, superando a las líneas base. Página del proyecto y videos: https://omerbenishu.github.io/PhyGenHOI/

PRISM: Un punto de referencia multidimensional para evaluar revisores por pares de LLM
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

May 27

ByNgoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen

El rápido crecimiento de los envíos a revistas de aprendizaje automático ha sobrecargado el sistema científico de revisión por pares e intensificado el interés en revisores automáticos basados en LLM. Sin embargo, aún se comprende poco cuán buenos son realmente estos sistemas, especialmente en comparación con los revisores humanos para detectar vacíos científicos. En este trabajo presentamos PRISM (Evaluación Inteligente de Revisión por Pares mediante Valoración Multidimensional Estructurada), un marco de evaluación comparativa que mide la calidad de la revisión en cuatro dimensiones: Profundidad del Análisis, Evaluación de la Novedad, Identificación de Fallos y Priorización de Problemas Principales, y Constructividad Multidimensional. A diferencia de la mayoría de las evaluaciones existentes basadas en métricas superficiales como ROUGE y BLEU, o en la inducción sin restricciones de LLM como juez que confunde fluidez con rigor, PRISM fundamenta cada dimensión en minería de argumentos, verificación aumentada por recuperación y puntuación basada en consenso. Aplicamos PRISM para evaluar cinco sistemas líderes de revisión automática y revisores humanos sobre un corpus estratificado de revisiones de ICLR, ICML y NeurIPS. Los resultados revelan que los LLM pueden igualar o superar a los revisores humanos en dimensiones individuales: profundidad de análisis comparable, verificación de novedad más sólida y priorización de críticas altamente precisa. Sin embargo, ningún sistema individual iguala consistentemente el rendimiento equilibrado de la referencia humana en todas las dimensiones a la vez. Cada uno exhibe un perfil de especialización distintivo con puntos ciegos característicos—modos de fallo que las métricas agregadas pasan por alto por completo. La implicación es que los revisores LLM se entienden mejor como complementos dirigidos a la revisión humana, efectivos dentro de dimensiones específicas, pero poco fiables como reemplazos independientes. Nuestra demostración y resultados clave pueden encontrarse en https://khanhthanhdev.github.io/prism-page/.

RUBRIC-ARROW: Modelado de Recompensa de Rúbrica Puntual Alternante para el Post-entrenamiento de LLM en Dominios No Verificables
RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

May 27

ByHaoxiang Jiang, Zihan Dong, Tianci Liu, Wanying Wang, Ran Xu, Tony Yu, Linjun Zhang, Haoyu Wang

El modelado de recompensa puntual proporciona señales críticas para el post-entrenamiento de LLM, pero presenta dificultades con la puntuación absoluta en entornos subjetivos y no verificables. Los métodos basados en rúbricas abordan esto descomponiendo la evaluación en criterios explícitos, aunque los enfoques existentes suelen depender de LLMs de frontera y sufren empates causados por una agregación booleana rígida. Presentamos RUBRIC-ARROW, un marco alternante que entrena conjuntamente un generador de rúbricas y un juez condicionado por rúbricas, cuya etapa de RL utiliza únicamente datos de preferencia por pares. Nuestro método combina una regla de puntuación basada en probabilidad que reduce los empates con recompensas basadas en preferencias específicas de cada fase y un esquema GRPO alternante que, en conjunto, entrenan al evaluador puntual. Extensos experimentos muestran que RUBRIC-ARROW alcanza una precisión competitiva en el modelado de recompensas y produce ganancias consistentes para el post-entrenamiento de políticas posteriores.

DynaFLIP: Repensando la percepción robótica mediante representación guiada por dinámicas tri-modales
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

May 28

ByJusuk Lee, Seungjae Lee, Jonghun Shin, Hoseong Jung, Sungha Kim, Daesol Cho, H. Jin Kim, Jia-Bin Huang, Furong Huang

La manipulación robótica depende críticamente de una percepción que preserve los aspectos relevantes para la acción de una escena. Sin embargo, la mayoría de los pipelines de aprendizaje robótico se basan en codificadores visuales preentrenados para reconocimiento estático o alineación visión-lenguaje, dejando la comprensión del movimiento a políticas posteriores. Presentamos DynaFLIP, un marco de preentrenamiento multimodal consciente de la dinámica que traslada la comprensión del movimiento aguas arriba hacia la percepción. Construimos tripletes de imágenes, lenguaje y flujo 3D a partir de videos heterogéneos de humanos y robots, y utilizamos estos tripletes como supervisión durante el entrenamiento para moldear un codificador basado únicamente en imágenes. Nuestra idea clave es alentar a las tres modalidades a abarcar un volumen simplex pequeño en el espacio hiperesférico compartido — un volumen simplex más pequeño indica una alineación más fuerte. Para evitar la ambigüedad geométrica y el colapso trivial de la minimización ingenua del volumen, combinamos la minimización del volumen simplex con un regularizador coseno y un objetivo contrastivo. Nuestros análisis muestran que DynaFLIP se enfoca en regiones relevantes para el control, críticas para la manipulación. Las representaciones resultantes, conscientes de la dinámica, sirven como backbones visuales reutilizables y superan consistentemente a las líneas base en diversas políticas posteriores, incluyendo VLA. Validamos esto en diversos entornos simulados y del mundo real, con mejoras que alcanzan el +22.5% en escenarios fuera de distribución. Nuestros resultados sugieren que la generalización robótica mejora cuando las representaciones visuales se entrenan para codificar no solo lo que está presente, sino cómo el mundo cambia bajo la acción.

Recompensas verificables más allá de las matemáticas y el código: Supervisión de procesos ligera basada en corpus para la respuesta a preguntas factuales
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

May 28

ByShicheng Fan, Haochang Hao, Dehai Min, Weihao Liu, Philip S. Yu, Lu Cheng

La aplicación del aprendizaje por refuerzo para mejorar la precisión factual en la respuesta a preguntas intensivas en conocimiento se enfrenta a un dilema en el diseño de la recompensa. Las recompensas a nivel de respuesta ofrecen una supervisión únicamente gruesa y no pueden distinguir entre afirmaciones correctas e incorrectas dentro de una traza de razonamiento. Las alternativas a nivel de oración brindan retroalimentación más fina, pero típicamente dependen de verificadores NLI, evaluadores LLM o tuberías de verificación de conocimiento que son costosas de implementar a escala de aprendizaje por refuerzo y, a menudo, poco fiables para hechos con entidades raras, donde las señales de recompensa precisas son especialmente importantes. Proponemos CorVer (Corpus Verify), una recompensa de proceso ligera y lista para integración que reemplaza los verificadores neuronales con una señal basada en corpus derivada de estadísticas de co-ocurrencia de Wikipedia. CorVer asigna crédito a nivel de oración y lo transforma en ventajas a nivel de token mediante una alineación simple, requiriendo solo un extractor de 0.5B y una única consulta al corpus por oración. En 30 celdas (modelo, referencia) que abarcan seis modelos ajustados por instrucciones (de 3B a 14B) y cinco referencias de preguntas y respuestas, CorVer mejora con respecto a la línea base inicial en cada celda, con una ganancia promedio de +4.1 puntos porcentuales en TriviaQA. También supera a cuatro líneas base de verificador neuronal en 18 de 20 celdas bajo sus configuraciones factibles, mientras entrena 4.8 a 8.4 veces más rápido.

ChildVox: Un punto de referencia para modelos de habla, audio y audio-lenguaje a gran escala en la comprensión y caracterización del sonido durante la infancia
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

May 28

ByTiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan

Presentamos ChildVox, un nuevo punto de referencia para caracterizar las diversas señales acústicas a través de las cuales los niños se comunican. Específicamente, ChildVox sigue la trayectoria completa del desarrollo desde el nacimiento hasta la edad escolar, abarcando sonidos fisiológicos, vocalizaciones no lingüísticas, sílabas canónicas y lenguaje hablado. ChildVox integra más de 20 subtareas en 17 conjuntos de datos de audio y habla centrados en niños, lo que permite una comparación sistemática entre corpus y entre dominios. Evaluamos un rango representativo de modelos fundacionales de audio y habla, incluyendo modelos auto-supervisados, orientados a ASR y grandes modelos de audio-lenguaje, en tareas que incluyen clasificación de sonidos fisiológicos, modelado de vocalizaciones y sílabas canónicas, y evaluación y reconocimiento de la calidad del habla. Los resultados del punto de referencia muestran que ChildVox proporciona un conjunto de modelos de alto rendimiento en el reconocimiento de una amplia gama de señales acústicas de niños, apoyando aplicaciones posteriores como la caracterización de los niveles de lenguaje de los niños y el seguimiento de la producción del habla con la edad.

WorldMemArena: Evaluación de la Memoria de Agentes Multimodales mediante la Interacción Acción-Mundo
WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

May 28

ByChengzhi Liu, Yuzhe Yang, Sophia Xiao Pu, Yepeng Liu, Lin Long, Yichen Guo, Nuo Chen, Zhaotian Weng, Elena Kochkina, Simerjot Kaur, Charese Smiley, Xiaomo Liu, James Zou, Sheng Liu, Yuheng Bu, Songyou Peng, Xin Eric Wang

Los modelos de lenguaje grandes multimodales se despliegan cada vez más como agentes de largo horizonte, donde la memoria debe hacer más que recordar: debe rastrear un mundo en evolución, revisar lo que ha quedado obsoleto y sacar a la superficie la evidencia adecuada en el momento de la decisión. Los puntos de referencia existentes miden el recuerdo sobre diálogos estáticos, comprimen la memoria en una única exactitud al final de la tarea y reducen las observaciones visuales a descripciones textuales, impidiéndonos localizar fallos en la escritura, el mantenimiento, la recuperación o el uso. El auge de los arneses de agente que gestionan su propia memoria agudiza esta brecha, ya que no contamos con una forma fundamentada de comparar tuberías diseñadas manualmente con alternativas autogestionadas. Para cerrar estas brechas, formulamos la memoria de agente multimodal como un Bucle de Interacción Acción-Mundo con un ciclo de vida observable de cuatro etapas, y lo instanciamos en WorldMemArena: 400 tareas multimodales de múltiples sesiones que abarcan Evolución Perpetua (estados personales y de tarea en evolución) y Ejecución Agencial (memoria a partir de observaciones, acciones y retroalimentación reales), anotadas con puntos de memoria de referencia, actualizaciones, distractores y cadenas de evidencia para un diagnóstico a nivel de etapa. Esto permite la primera comparación directa entre agentes de memoria basados en contexto largo, diseñados manualmente (sistemas RAG y de memoria externa) y basados en arneses. Los resultados muestran que: (1) una mejor escritura y almacenamiento de memoria no garantizan un mejor rendimiento; (2) la memoria multimodal aún tiene dificultades para utilizar plenamente la evidencia visual; (3) los sistemas son inestables entre dominios y se degradan en trayectorias agenciales realistas; y (4) la memoria de arnés es más flexible pero sigue siendo costosa y menos fiable.

REPOT: Programa de Pensamiento Recuperable mediante Reparación de Checkpoints
REPOT: Recoverable Program-of-Thought via Checkpoint Repair

May 28

ByParsa Mazaheri

Program-of-Thought (PoT) de un solo disparo genera un programa de Python que imprime un plan de acciones primitivas; una única acción inválida invalida silenciosamente la trayectoria. Introducimos RePoT (PoT Recuperable): una repetición determinista verificada que recorre el plan a través del entorno hasta su primera transición inválida, luego una sola llamada al LLM que retoma desde el prefijo verificado. RePoT cuesta como máximo una llamada adicional al LLM en aproximadamente el 14% de los problemas donde PoT falla. RePoT supera a PoT entre +3 y +11 puntos porcentuales en cuatro configuraciones de modelos cerrados en PuzzleZoo-775 y alcanza un máximo de 96.9% frente a 86.3% en gpt-5.4-mini-medium; frente a la línea base de reintento PoT con presupuesto equivalente, RePoT gana de manera decisiva en Gemini (+3.8pp, IC 95% [+2.2,+5.4]), está dentro del ruido de muestreo en GPT-medium y Claude, y pierde en GPT-mini — un patrón de escalamiento de capacidades que comenzamos a abordar con RePoT Adaptativo, un despachador basado en reglas que enruta entre la reparación del sufijo y un reintento PoT fresco según la longitud del prefijo verificado (preliminar). Replicamos en PlanBench Blocksworld (+1.1 a +11.4pp) y en cuatro modelos de pesos abiertos (+3.3 a +20.0pp en tres de cuatro). En Derail-550, nuestro punto de referencia de recuperación controlada, toda condición con acceso a información de punto de control supera >=30% en GPT-medium y >=70% en Gemini, frente a <=3.1% para retroalimentación solo de error — lo que demuestra que la información de punto de control, no la cola específica del prefijo verificado, es la señal de recuperación determinante.

Por qué los modelos más grandes aprenden más: Efectos de la capacidad, la interferencia y la retención de tareas raras
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

May 28

ByJing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Kyle Lampinen, Christopher Potts, Ekdeep Singh Lubana

Los modelos más grandes aprenden tareas que los más pequeños no logran aprender. ¿Qué impulsa este fenómeno? Desarrollamos un argumento fenomenológico simple que sugiere que la escala de ley potencial ya indica que un modelo más grande podrá aprender una parte de la distribución de datos que un modelo más pequeño no logra aprender, incluso con datos de entrenamiento infinitos. Para validar esta afirmación e identificar sus causas, estudiamos los efectos del escalado de modelos en un entorno sintético que consiste en una mezcla de tareas que muestran curvas de escalado monótonas. Los resultados apuntan a una competencia inducida por los datos por los recursos (neuronas). Específicamente, los modelos más pequeños asignan sus neuronas a tareas de alta frecuencia o baja complejidad, por lo que aprenden soluciones que tienen un rendimiento deficiente en tareas raras y complejas. Además, esto ocurre incluso cuando existen soluciones capaces de expresar la tarea deseada. Luego evaluamos cómo un modelo más grande evita este cuello de botella centrado en los datos, encontrando que se debe a un mecanismo de interferencia reducida: los modelos más grandes pueden asignar suficientes recursos a las tareas comunes de modo que las actualizaciones de gradiente para esas tareas se vuelven débiles, lo que significa que no sobrescriben las características de las tareas raras a medida que estas se acumulan lentamente. Finalmente, para validar aún más estas afirmaciones, preentrenamos modelos OLMo (de 4M a 4B parámetros) en tareas novedosas de frecuencia y complejidad variables. Los resultados reflejan los de nuestros experimentos con datos sintéticos: solo los modelos OLMo más grandes aprenden las tareas poco frecuentes y complejas, y estos modelos más grandes incorporan más características de las tareas en sus representaciones y muestran menos interferencia de gradiente entre tareas. En general, ofrecemos una explicación centrada en los datos de por qué los modelos más grandes aprenden tareas que los más pequeños no logran aprender. Esto ayuda a explicar por qué los modelos más grandes son mejores en la práctica, y puede informar preguntas prácticas relacionadas con el dimensionamiento de modelos y las mezclas de datos de entrenamiento.

NeuROK: Cinemática Generativa 4D de Objetos Neuronales
NeuROK: Generative 4D Neural Object Kinematics

May 28

ByChen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu

Los enfoques basados en datos han revolucionado la visión 3D, permitiendo que los transformers reconstruyan y generen eficazmente objetos 3D estáticos. Sin embargo, generar dinámicas 4D simulativas —deformaciones temporales realistas de objetos estáticos bajo diversas condiciones físicas— sigue siendo un desafío y a menudo se realiza de manera ad hoc, a pesar de su importancia para construir modelos completos del mundo 3D. La mayoría de los métodos existentes asumen un modelo físico predefinido y utilizan identificación de sistemas para estimar parámetros, lo que limita estos métodos a categorías específicas y conjuntos de datos a pequeña escala. Proponemos que estas limitaciones pueden superarse aprendiendo una parametrización del estado cinemático basada en datos para sistemas físicos centrados en objetos. Específicamente, aprendemos tanto un espacio latente que representa todos los estados posibles del objeto como un decodificador que mapea cualquier latente muestreado a una forma plausiblemente deformada del objeto. Nos referimos a esta parametrización como Neural Object Kinematics (NeuROK) y entrenamos un modelo codificador-decodificador basado en transformers en un conjunto de datos 4D a gran escala y curado. Esta formulación y el modelo aprendido simplifican significativamente la generación de dinámicas simulativas, ya que solo necesitamos considerar la dinámica dentro de un espacio latente de baja dimensión desde la perspectiva de la mecánica lagrangiana en la física clásica. Demostramos la efectividad y generalidad de este marco de simulación neuronal en diversos tipos de objetos dinámicos, mostrando claras ventajas sobre trabajos anteriores. Página del proyecto: https://chen-geng.com/neurok

AdaState: Anclajes Autoevolutivos para la Generación de Video en Streaming
AdaState: Self-Evolving Anchors for Streaming Video Generation

May 28

ByYusuf Dalva, Pinar Yanardag

Los modelos de difusión de video autorregresivos generan video en streaming produciendo fotogramas de forma secuencial, condicionando cada fragmento al contenido previamente generado. Estos modelos están estructuralmente anclados al primer fotograma: su representación clave-valor ocupa una posición privilegiada en la caché de atención y sirve como referencia principal de la escena durante toda la generación. Al ser la posición más limpia y libre de errores en la caché, este ancla atrae atención desproporcionada, suprime la dinámica del video y fija la composición de la escena al punto de vista inicial, incluso cuando la escena evoluciona de forma natural. El resultado es un video temporalmente superficial en el que el movimiento, el desplazamiento de cámara y la progresión de la escena se amortiguan en favor de la consistencia estática. Para abordar esto, reemplazamos el ancla estática por un estado adaptativo, un latente oculto que el modelo denoisa junto con el contenido en cada fragmento pero nunca renderiza. En lugar de hacer referencia a un primer fotograma congelado, el modelo genera su propio ancla de escena en cada paso atendiendo tanto al estado anterior como al contenido actual, produciendo una referencia que evoluciona con el contenido generado. A diferencia de la generación de video estándar, que codifica una noción absoluta del tiempo, nuestra formulación trata el tiempo como relativo: cada paso de generación ve la misma estructura posicional independientemente de cuánto haya avanzado la generación, y la transición de estado es idéntica en cada fragmento. En conjunto, estas propiedades introducen una recurrencia en el proceso de generación, donde el denoising sirve como función de transición y la caché KV actúa como portadora, sin requerir un módulo externo. Los experimentos demuestran que el estado adaptativo mejora sustancialmente la dinámica del video, permitiendo un movimiento más rico y una progresión natural de la escena dentro de los videos generados.

Pensar Antes de Restringir: Un Marco Unificado de Decodificación para Modelos de Lenguaje a Gran Escala
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

May 28

ByNgoc Trinh Hung Nguyen, Alonso Silva, Laith Zumot, Liubov Tupikina, Armen Aghasaryan, Mehwish Alam

La generación natural permite que los Modelos de Lenguaje de Gran Escala (LLMs) produzcan respuestas de forma libre con un razonamiento completo, pero la falta de estructura dificulta la verificación de los resultados. Por el contrario, el descodificado restringido garantiza formatos estandarizados, pero puede limitar inadvertidamente las capacidades de razonamiento al imponer restricciones demasiado temprano en el proceso de generación. Proponemos un enfoque híbrido, denominado In-Writing, que combina razonamiento libre y generación estructurada en una única llamada. El modelo primero realiza un razonamiento sin restricciones y solo aplica la descodificación estructurada después de generar un token desencadenante, desacoplando explícitamente el razonamiento del formateo. Establecemos que nuestras estrategias de token desencadenante son capaces de erradicar prácticamente el disparo prematuro, un modo de fallo en el que la descodificación restringida interrumpe el razonamiento en curso. Las evaluaciones en diversos conjuntos de datos que cubren tareas de clasificación y razonamiento demuestran que nuestro enfoque supera al estado del arte, logrando mejoras de precisión de hasta un 27% en comparación con la generación natural. Nuestro código está disponible en: https://github.com/Nokia-Bell-Labs/InWriting.

SmartDirector: Generación de Video Cinematográfico Condicionada por Fotogramas Clave con Control del Ritmo Narrativo
SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

May 27

ByZhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li

La calidad narrativa de un video determina fundamentalmente su valor perceptivo. Aunque los métodos existentes de generación de video pueden producir contenido visualmente atractivo, dependen predominantemente de señales de condicionamiento dispersas, como indicaciones textuales o el primer/último fotograma, lo que limita el control preciso sobre la estructura narrativa y el ritmo temporal. En este artículo, proponemos SmartDirector, un marco que mejora la capacidad narrativa de los modelos de generación de video mediante múltiples fotogramas clave. SmartDirector admite escenarios de generación flexibles, incluida la generación de una sola toma, la síntesis narrativa de múltiples tomas y la extensión de video. El marco opera en dos etapas: Director-Gen genera un video de baja resolución condicionado a los fotogramas clave proporcionados, y Director-SR refina el resultado aprovechando fotogramas clave de alta resolución como anclajes semánticos para recuperar detalles finos. Para habilitar un entrenamiento robusto con múltiples fotogramas clave, construimos un pipeline de datos que selecciona secuencias de una y múltiples tomas a partir de películas. Experimentos exhaustivos demuestran que SmartDirector supera sustancialmente a los enfoques de última generación existentes. Publicaremos el código para facilitar la investigación futura.

Aprendizaje de un Mapa de Riesgo Unificado para la Conducción Autónoma en Entornos Parcialmente Observables
Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

May 21

ByJie Jia, Yaofeng Su, Zeyu Bao, Yun Hong, Bingzhao Gao, Zhongxue Gan, Wenchao Ding

La predicción consciente de oclusiones sigue siendo un desafío crítico en la conducción autónoma debido a la incertidumbre inherente de las regiones no observadas. Los enfoques existentes o sobreestiman el riesgo basándose en estados alcanzables o tienen dificultades para predecir trayectorias precisas bajo una alta incertidumbre de oclusión. Para abordar estas limitaciones, proponemos un marco unificado de modelado y aprendizaje de mapas de riesgo para entornos parcialmente observables. Nuestro método integra el riesgo de flujo de tráfico y el riesgo de colisión mediante modelado espacio-temporal, permitiendo una evaluación detallada de los peligros inducidos por oclusiones. Para abordar la escasez de escenarios que involucran interacciones ocluidas, introducimos un marco de generación de escenarios basado en difusión que produce escenarios realistas pero adversariales. Integramos el modelado y aprendizaje de un mapa de riesgo unificado en un marco que respalda la planificación consciente del riesgo bajo observabilidad parcial. Los experimentos en el conjunto de datos Waymo Open Motion muestran que nuestro método supera significativamente la línea base de última generación consciente de oclusiones, mejorando el tiempo mínimo hasta la colisión en 0,78 veces y el tiempo promedio hasta la colisión en 1,67 veces. El marco propuesto ofrece una solución integral y práctica para la planificación consciente del riesgo en entornos parcialmente observables.

La geometría importa: Priors fundamentales 3D para el aprendizaje de correspondencia semántica
Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

May 28

ByArtur Jesslen, Olaf Dünkel, Adam Kortylewski

Las características fundamentales de modelos de visión autosupervisados y modelos de difusión texto-imagen han demostrado ser efectivas para la estimación de correspondencia semántica. Sin embargo, debido a que estas características se aprenden principalmente a partir de objetivos de imágenes 2D, carecen de una conciencia explícita en 3D y con frecuencia confunden lados simétricos de objetos, partes repetidas y estructuras visualmente similares que son distintas en 3D. Introducimos un marco de post-entrenamiento consciente de 3D que va más allá de las características fundamentales 2D disponibles al incorporar priors de modelos fundamentales 3D. Dada una imagen, nuestro método utiliza SAM3D para estimar la geometría y la pose del objeto, y refina la pose mediante una optimización de renderizado y comparación. Posteriormente, renderizamos descriptores PartField de la geometría reconstruida en el plano de la imagen según la pose estimada del objeto. Los mapas de características resultantes, conscientes de la geometría, complementan las características de DINO y Stable Diffusion, mientras que las distancias geodésicas en las formas reconstruidas permiten un filtrado fiable de las correspondencias candidatas. Utilizamos las coincidencias filtradas como supervisión para entrenar un adaptador ligero sobre DINO y Stable Diffusion para la correspondencia semántica. En contraste con enfoques previos de post-entrenamiento que requieren anotaciones de pose y dependen de una geometría esférica gruesa, nuestro método obtiene automáticamente una estructura 3D específica de la instancia y la utiliza para guiar el aprendizaje de correspondencias. Los experimentos muestran que nuestro enfoque mejora la correspondencia semántica en comparación con métodos anteriores, al tiempo que reduce la supervisión geométrica manual. El código y el modelo se pueden encontrar en https://github.com/GenIntel/3D-SC.

PANDO: Agentes de IA Multimodales Eficientes mediante Destilación de Habilidades en Línea
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

May 26

ByYubo Li, Yidi Miao, Yuntian Shen, Yuxin Liu

Los avances recientes en agentes web multimodales a menudo dependen de un mayor cómputo en tiempo de inferencia, incluyendo búsqueda por despliegue, pasos de verificación, descubrimiento de habilidades fuera de línea y pilas de modelos especializados. Esto plantea una pregunta central: ¿puede un agente web volverse más eficiente a medida que acumula experiencia, en lugar de más costoso? Primero analizamos trayectorias de VisualWebArena e identificamos tres fuentes recurrentes de ineficiencia: bucles de acciones repetidas, costos ocultos de descubrimiento y baja reutilización de caché de indicaciones. Luego presentamos PANDO, un marco de destilación de habilidades en línea de un solo despliegue que mantiene una Biblioteca de Habilidades estructurada y combina reflexión de progreso, degradación de habilidades basada en confianza, enrutamiento jerárquico, compresión visual e indicaciones conscientes de caché. En el conjunto completo de 910 tareas de VisualWebArena, PANDO alcanza una tasa de éxito del 58.3%, superando a SGV (54.0%) y nuestra reproducción de WALT (45.2%), mientras utiliza un 58% menos de tokens que SGV y un 61% menos que WALT, sin ningún presupuesto de descubrimiento previo a la evaluación. Un estudio de ablación de 300 tareas muestra además que las reglas y rutinas proporcionan la mayor parte de las ganancias en éxito, mientras que el enrutamiento, la compresión y las indicaciones conscientes de caché convierten la biblioteca de habilidades más grande en un costo marginal de tokens menor. Finalmente, introducimos tres métricas de eficiencia a nivel de trayectoria —Tasa de Repetición de Acciones, Relación de Sobrecarga por Paso y Utilización de Caché de Indicaciones— para hacer visible la eficiencia más allá del éxito terminal.

CONF-KV: Eliminación de Caché KV Consciente de Confianza con Almacenamiento de Precisión Mixta para LLM de Horizonte Largo
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

May 24

ByYubo Li, Yidi Miao

La inferencia de LLM en horizontes largos convierte la caché clave-valor (KV) en el consumidor dominante de memoria de GPU y hace que la atención por token sea cada vez más costosa. Muchas políticas de desalojo comunes utilizan ventanas de actualidad estáticas o atención histórica, dejando sin usar una señal que se calcula en cada paso de decodificación: la incertidumbre actual del modelo. Presentamos CONF-KV, un gestor de caché KV que convierte la distribución del siguiente token en una puntuación de confianza escalar y la utiliza para elegir el presupuesto de caché por paso, reteniendo más contexto cuando el modelo es incierto y podando agresivamente cuando es confiado. Dentro de cada presupuesto, los tokens se clasifican según una combinación de masa de atención acumulada y actualidad, mientras que una ventana reciente protegida preserva la coherencia local. Combinamos la política con atención softmax en línea por bloques, almacenamiento mixto FP16/INT8 y una variante piramidal de presupuesto por capa. En cuatro familias de modelos y longitudes generadas de hasta 4K, CONF-KV se mantiene cerca de la huella de una ventana deslizante fija de 512 tokens, permaneciendo dentro de 1,5 a 2,1 puntos de perplejidad respecto a la KV completa. En Needle-in-a-Haystack de hasta 32K tokens, CONF-KV alcanza un 91,4% de precisión de recuperación frente al 53,8% de las ventanas deslizantes y el 80,6% de H2O; en 75 tareas de VisualWebArena retiene el 95,3% del éxito de la KV completa con un pico de memoria 2,8 veces menor.

Ajuste Reflexivo de Prompts mediante Llamada a Funciones del Modelo de Lenguaje
Reflective Prompt Tuning through Language Model Function-Calling

May 20

ByFarima Fatahi Bayat, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka

Los modelos de lenguaje de gran escala (LLMs) se han vuelto cada vez más capaces de seguir instrucciones y realizar razonamientos complejos, lo que convierte a la generación de instrucciones (prompting) en una interfaz flexible para adaptar modelos sin actualizar sus parámetros. Sin embargo, el diseño de instrucciones sigue siendo laborioso y muy sensible al formato, la redacción y el orden de las mismas, lo que motiva el desarrollo de métodos automatizados de optimización de instrucciones que reducen el esfuerzo manual mientras preservan la flexibilidad durante la inferencia. No obstante, los métodos existentes suelen buscar entre candidatos de instrucciones o utilizan procesos fijos de crítica y refinamiento impulsados por ejemplos individuales o lotes pequeños, lo que limita su capacidad para capturar patrones sistemáticos de error y realizar ediciones específicas basadas en el historial de fallos. Proponemos el Ajuste Reflexivo de Instrucciones (RPT, por sus siglas en inglés), un marco que utiliza la llamada a funciones de los LLM para simular el flujo de trabajo iterativo de los ingenieros humanos de instrucciones. Un optimizador LLM invoca una función de diagnóstico que evalúa el modelo objetivo sobre un conjunto de optimización completo, resume los modos de fallo recurrentes y devuelve un informe de diagnóstico estructurado. El optimizador utiliza este informe, junto con una memoria acumulada de informes anteriores, para revisar la instrucción en la siguiente iteración. RPT también admite la optimización consciente de la confianza al emplear señales de calibración en la retroalimentación diagnóstica y en la selección final de la instrucción. En tres tareas de razonamiento, RPT mejora las instrucciones iniciales hasta en 12.9 puntos, se mantiene competitivo con el estado del arte y mejora la calibración de la confianza. Nuestros análisis muestran que RPT es especialmente efectivo en razonamiento multisalto y matemático, produciendo revisiones de instrucciones dirigidas que se alinean con los patrones de fallo diagnosticados y generan mejoras en el rendimiento de la tarea y en la calibración.

Parallax: Atención Lineal Local Parametrizada para Modelado de Lenguaje
Parallax: Parameterized Local Linear Attention for Language Modeling

May 27

ByYifei Zuo, Dhruv Pai, Zhichen Zeng, Alec Dewulf, Shuming Hu, Zhaoran Wang

Los Modelos de Lenguaje de Gran Escala (LLMs) se han consolidado como el paradigma central en inteligencia artificial, aunque la primitiva computacional central de atención ha permanecido estructuralmente sin cambios. La Atención Lineal Local (LLA) es un mecanismo de atención derivado de la estadística no paramétrica en el marco de regresión en tiempo de prueba. A diferencia de investigaciones previas sobre variantes eficientes de atención, LLA mejora la estimación constante local de la atención softmax a una estimación lineal local, ofreciendo compensaciones entre sesgo y varianza demostrablemente superiores para la memoria asociativa. Sin embargo, LLA no ha sido escalada en el preentrenamiento de LLMs debido a preocupaciones de estabilidad numérica y computacional. Presentamos Parallax, una Atención Lineal Local parametrizada que es escalable para LLMs. Parallax elimina el solucionador numérico en LLA y aprende un proyector adicional similar a una consulta que sondea la covarianza KV. Ubicamos Parallax dentro de una familia de mecanismos de atención conectados por el ancho de banda, la construcción de la sonda y la estructura afín. Proponemos un algoritmo consciente del hardware que incrementa la intensidad aritmética con respecto a FlashAttention, desplazando la atención hacia un régimen más limitado por cómputo. Nuestro kernel de decodificación prototipo iguala o supera a FlashAttention 2/3 en diversos tamaños de lote y longitudes de contexto. Preentrenamos Parallax a escalas de 0.6B y 1.7B y encontramos mejoras consistentes en perplejidad a lo largo del preentrenamiento, con ganancias que se transfieren a benchmarks posteriores. La ventaja persiste tanto bajo controles emparejados por parámetros como por cómputo, demostrando una mejora de Pareto. Realizamos ablaciones cuidadosas de preentrenamiento e identificamos un fenómeno novedoso mediante el cual Muon desbloquea la capacidad de Parallax. Hasta donde sabemos, esta es la primera demostración empírica de un codiseño arquitectura-optimizador robusto para mecanismos de atención en la literatura de investigación arquitectónica.

Manipulación de alineación: cómo se explota el aprendizaje por refuerzo a partir de retroalimentación humana para optimizar sesgos desalineados
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

May 26

ByDongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es el método estándar para alinear Modelos de Lenguaje de Gran Escala (LLMs) con las preferencias humanas. En este trabajo, introducimos la manipulación de la alineación, una vulnerabilidad potencial en la que el LLM en proceso de alineación influye en el conjunto de datos de preferencias, provocando que el RLHF amplifique comportamientos no deseados. Esto surge de limitaciones fundamentales del RLHF: (1) los conjuntos de datos de preferencias se construyen a partir de las propias salidas del LLM, lo que le permite influir en ellos, y (2) las comparaciones por pares solo indican qué respuesta es mejor, no por qué. Estas limitaciones pueden explotarse para causar manipulación de la alineación. Por ejemplo, si un LLM genera respuestas sesgadas con mayor calidad, los anotadores las preferirán en función de la calidad. Sin embargo, las etiquetas de preferencia no distinguen entre calidad y sesgo, y el modelo de recompensa hereda esta limitación. Optimizar dichas recompensas mediante aprendizaje por refuerzo o muestreo de mejor de N puede amplificar sesgos desalineados. Nuestros experimentos demuestran la amplificación en diversos sesgos: desde el sesgo por palabras clave hasta la propaganda (p. ej., sexismo), la promoción de marcas y la búsqueda de objetivos instrumentales. La mitigación sigue siendo un desafío, ya que las técnicas existentes para un RLHF robusto no logran resolver por completo la manipulación de la alineación sin sacrificar la calidad de las respuestas. Estos hallazgos revelan vulnerabilidades estructurales del RLHF actual y enfatizan la necesidad de prevenir esta vulnerabilidad. Página del proyecto: https://alignment-tampering.github.io/

CoHyDE: Co-entrenamiento iterativo de un reescritor de LLM y un codificador denso para la recuperación de herramientas
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

May 28

ByVaishali Senthil, Ashutosh Hathidara, Sebastian Schreiber

La recuperación de herramientas sobre grandes catálogos de API es un cuello de botella central para los agentes de LLM: las consultas de los usuarios llegan en lenguaje coloquial, a menudo subespecificado, mientras que el catálogo utiliza vocabulario técnico de API que ningún codificador fijo puede salvar por sí solo. Los dos enfoques de entrenamiento dominantes, el ajuste fino del codificador contrastivo y la expansión de consultas al estilo HyDE con un LLM congelado, abordan este problema desde extremos opuestos y fallan en direcciones complementarias: el codificador ajustado fino sobresale cuando la forma superficial de la consulta ya coincide con el catálogo, pero colapsa cuando no es así, mientras que HyDE en cero disparos es más robusto ante consultas subespecificadas, pero genera descripciones hipotéticas ignorantes del catálogo que degradan la recuperación cuando las consultas están bien formadas. Presentamos CoHyDE, un procedimiento iterativo que entrena el codificador denso y el reescritor de LLM como un único sistema coevolutivo: el codificador se reentrena con InfoNCE en descripciones hipotéticas de estilo catálogo producidas por el reescritor, y el reescritor se alinea por preferencias mediante DPO contra las puntuaciones de recuperación del codificador, con ambos lados inicializados en caliente en el catálogo de herramientas antes de que comience el bucle. En un subconjunto de ~10k herramientas del catálogo ToolBench, tres rondas de CoHyDE mejoran la línea base de un solo componente más fuerte en +2.5 puntos porcentuales de NDCG@5 en consultas estándar y +6.3 puntos porcentuales en consultas vagas retenidas, con ganancias de hasta +8 puntos porcentuales en el nivel vago más difícil. Las ablaciones confirman que el co-entrenamiento es el ingrediente clave: utilizar cualquiera de los componentes de forma aislada no logra igualar a CoHyDE tanto en consultas bien formadas como vagas, con pérdidas de hasta -8 puntos porcentuales en consultas vagas.

Generalización a nivel de token en puertas traseras de adaptadores LoRA: Caracterización de ataques y detección conductual
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

May 28

ByTravis Lelle

Demostramos que los adaptadores LoRA, el formato de distribución dominante para LLMs ajustados, pueden ser manipulados de manera confiable mediante envenenamiento de datos de entrenamiento, manteniendo al mismo tiempo el rendimiento en la tarea base. En un clasificador de inyección de indicaciones Qwen 2.5 1.5B, una pequeña fracción de ejemplos envenenados lleva a saturación una puerta trasera que preserva la precisión limpia. La puerta trasera resultante se generaliza a nivel de características de token, no a nivel de patrón estructural: un modelo entrenado con una referencia RFC se activa con cualquier referencia RFC, pero no se transfiere a citas estructuralmente idénticas de ISO, OWASP, CWE o NIST. Esta asimetría favorece al atacante, ya que un defensor no puede sondear genéricamente "citas estructuradas". Caracterizamos el ataque en distintas escalas y familias del modelo base, rango LoRA y cadena desencadenante, y evaluamos dos rutas de detección complementarias frente a una cohorte de adaptadores con múltiples semillas. Un detector conductual construido a partir de dos estadísticas de batería de pruebas, outlier_gap y mean_attack_rate, separa perfectamente los adaptadores envenenados de los limpios cuando la batería se superpone con el vecindario de token del desencadenante, y con alta recuperación sin falsos positivos cuando no lo hace. Una estadística a nivel de pesos, la desviación estándar entre módulos de las normas de Frobenius normalizadas por dimensión, también separa perfectamente la cohorte sin ejecutar el modelo. Combinadas, las dos rutas son robustas a la composición de la batería de pruebas. El parcheo causal localiza la puerta trasera en el bloque MLP de capas medias a tardías, siendo down_proj la causa de proyección única más fuerte. Las réplicas en distintas escalas, familias y rangos muestran que el detector conductual se transfiere sin reajuste, mientras que el detector a nivel de pesos está vinculado por calibración al modelo base. El ataque escala monótonamente con el rango, y el token ancla desencadenante elegido depende tanto del desencadenante como del modelo base. La detección conductual es el resultado operativamente portable para el escaneo de cadenas de suministro de adaptadores.

Más allá de los 3D VQAs: inyectando prioris espaciales 3D en modelos de visión-lenguaje para un razonamiento geométrico mejorado
Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

May 28

ByChun-Hsiao Yeh, Shengyi Qian, Manchen Wang, Yi Ma, Joseph Tighe, Fanyi Xiao

Los Modelos de Visión y Lenguaje (VLM, por sus siglas en inglés) a menudo presentan dificultades para realizar un razonamiento espacial 3D robusto. Los métodos predominantes que se basan en el ajuste fino con conjuntos de datos de preguntas y respuestas visuales 3D (VQA, por sus siglas en inglés) pueden sobreadaptarse a sesgos específicos del conjunto de datos, mientras que la integración de codificadores visuales 3D especializados suele ser inflexible y engorrosa. En este artículo, sostenemos que la comprensión espacial genuina debería surgir del aprendizaje de priors geométricos fundamentales, no solo de la supervisión de VQA de alto nivel. Proponemos GASP (Prior Espacial con Conciencia Geométrica, por sus siglas en inglés), un marco que inyecta estos priors directamente en las capas del transformador del LLM. GASP emplea una pequeña cabeza de correspondencia, aplicada como señal de supervisión profunda en todas las capas, y se entrena con un objetivo dual que aprovecha la geometría real de escenas de video a gran escala: una pérdida contrastiva sobre las correspondencias de puntos reales impone invariancia de vista 2D, mientras que una supervisión de consistencia de profundidad resuelve ambigüedades geométricas 3D. Nuestro análisis primero proporciona un diagnóstico que muestra que la precisión interna de coincidencia de correspondencias de los VLM estándar es muy baja (a menudo por debajo del 5%). Luego demostramos que nuestro entrenamiento mejora sustancialmente este comportamiento, elevando la precisión máxima de correspondencia por capa a más del 70% y manteniendo una robustez temporal superior al 85%, mientras que las líneas base se mantienen por debajo del 5%. Estas mejoras internas se traducen en ganancias significativas en benchmarks espaciales posteriores, incluyendo un +18.2% en All-Angles Bench y un +29.0% en VSI-Bench, todo ello sin entrenar con ningún dato de VQA 3D. Nuestros hallazgos indican que aprender a partir de priors geométricos fundamentales es una vía prometedora y generalizable hacia VLM con un razonamiento espacial 3D más fiable.

Descubriendo Pipelines Cooperativos: Autoinvestigación para Dilemas Sociales Secuenciales
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

May 28

ByVíctor Gallego

Estudiamos un sistema de autoinvestigación en dos niveles para la cooperación: un agente de IA de bucle externo rediseña autónomamente el pipeline de bucle interno de un sistema de síntesis de políticas basado en un LLM para Dilemas Sociales Secuenciales (SSDs) multiagente. Un agente investigador R (ejecutado como un agente de codificación) lee el código fuente del bucle interno, edita los prompts del sistema, las funciones de retroalimentación, las bibliotecas auxiliares y la lógica de iteración, ejecuta evaluaciones y decide qué conservar, siguiendo el paradigma de autoinvestigación. En dos juegos (Cleanup y Gathering), dos LLMs sintetizadores de políticas y dos objetivos de bienestar (eficiencia utilitarista y maximin rawlsiano), el investigador supera de manera fiable las líneas base diseñadas manualmente, reduce drásticamente la varianza entre ejecuciones y supera a la optimización basada únicamente en prompts. Los pipelines descubiertos dependen del objetivo: solo bajo el criterio maximin, el investigador introduce un mecanismo explícito de equidad en los pipelines del sintetizador, una clase de mecanismo ausente tanto en su propio prompt de sistema, que es independiente del objetivo, como en todos los pipelines optimizados para la eficiencia. Esto respalda una interpretación de diseño de la información en la que el investigador elige qué revelar al sintetizador de racionalidad limitada en función del objetivo de bienestar. Código en https://github.com/vicgalle/autoresearch-social-dilemmas.

OmniInteract: Evaluación comparativa de la interacción en streaming del mundo real para asistentes omnimodales en tiempo real
OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

May 26

ByXudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li

Presentamos OmniInteract, un benchmark de streaming para modelos de lenguaje grandes (LLM) omnimodales en tiempo real, evaluados mediante inferencia en línea nativa sobre flujos audiovisuales. A diferencia de la comprensión de video fuera de línea (offline) o las preguntas-respuestas (QA) de streaming basadas en texto, OmniInteract preserva el flujo audiovisual original y requiere que los modelos lo procesen en línea, sin acceso al contenido futuro. Las consultas de los usuarios y los sonidos ambientales están integrados en la pista de audio, lo que exige que los modelos detecten disparadores multimodales, decidan cuándo responder y respondan mientras el flujo se desarrolla. OmniInteract contiene 250 videos con 1,430 espacios de respuesta temporalmente anclados: 1,062 espacios 1Q1A (una pregunta, una respuesta) en escenarios en tiempo real, proactivos y anidados, y 368 espacios 1QnA (una pregunta, múltiples respuestas) para monitoreo continuo de tareas y guía paso a paso. Cada espacio incluye un disparador, una ventana de respuesta y una respuesta objetivo. Evaluamos la corrección de la respuesta, la sincronización, las salidas inválidas, el manejo de interrupciones y la continuidad del contexto utilizando el F1 de Calidad-Puntualidad Consciente de la Interacción (IA-QTF1), el Conjunto de Diagnóstico de Interrupciones (Interruption Diagnostic Suite) y la Puntuación de Finalización de Cadena Anidada (Nested Chain Completion Score). Los experimentos muestran que los modelos actuales siguen siendo débiles en la interacción en streaming, con el mejor IA-QTF1 general alcanzando solo 0.368 y el mejor IA-QTF1 para 1QnA solo 0.052. Un estudio adicional sobre el razonamiento matemático en entornos full-duplex muestra que la capacidad fuera de línea no se transfiere necesariamente a la interacción en línea. El código y los conjuntos de datos estarán disponibles públicamente en https://github.com/Lucky-Lance/OmniInteract.

Avatares de cabeza gaussianos 3D consistentes en múltiples vistas "sin" generación de múltiples vistas
Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

May 24

ByAviral Chharia, Fernando De la Torre

La generación de avatares de cabeza basados en gaussianas 3D de alta fidelidad es fundamental para aplicaciones como realidad aumentada/realidad virtual (AR/VR), telepresencia y humanos digitales. Los métodos existentes dependen de conjuntos de datos multivista, capturas 3D o síntesis intermedia de vistas 2D. En contraste, nosotros aprendemos modelos de cabeza 3D tanto condicionales como incondicionales únicamente a partir de imágenes 2D muestreadas aleatoriamente, sin usar datos multivista, supervisión 3D ni generación intermedia de vistas. Presentamos MVCHead, un modelo de espacio de estados de un solo disparo que impone consistencia multivista (MVC) directamente en la representación 3D, mientras regresa gaussianas 3D bajo estas restricciones. En su núcleo, proponemos un bloque de Espacio de Estados Jerárquico (HiSS) que refina progresivamente las gaussianas de grueso a fino, capturando dependencias de largo alcance. Dentro de cada bloque HiSS, modificamos el escaneo unidireccional estándar de Mamba con el propuesto Escaneo de Estado Bidireccional Jerárquico (HiBiSS), que alinea la recurrencia con los ejes a lo largo de los cuales las inconsistencias multivista son más fuertes. Finalmente, diseñamos un Crítico Multivista SE(3) que juzga si un conjunto de auto-renderizados proviene de una única configuración 3D subyacente, recompensando la alineación de píxeles entre vistas sin observar pares multivista reales. MVCHead alcanza una calidad perceptiva de última generación, supera a métodos anteriores tanto en consistencia de textura como geométrica, y mantiene una consistencia de forma comparable. Para demostrar escalabilidad, publicamos FaceGS-10K, el primer conjunto de datos a gran escala de activos de cabeza basados en gaussianas 3D listos para usar, para entrenamiento y evaluación de modelos de cabeza 3D. Página del proyecto y código: https://humansensinglab.github.io/MVCHead/

Detección convexa de idiomas robusta ante acentos con recursos limitados en reconocimiento de voz
Convex Low-resource Accent-Robust Language Detection in Speech Recognition

May 22

ByMiria Feng, William Tan, Mert Pilanci

La globalización y el multiculturalismo continúan generando variedades lingüísticas cada vez más diversas. Sin embargo, los sistemas actuales de diálogo oral fallan con frecuencia ante dialectos y acentos subrepresentados, identificando erróneamente el idioma de entrada y provocando fallos en cascada en tareas posteriores de diálogo. Abordar esta variación dialectal en condiciones de recursos limitados sigue siendo un desafío abierto, ya que el ajuste fino estándar es computacionalmente costoso y propenso al sobreajuste en datos de habla de alta dimensionalidad. Proponemos Detección de Lenguaje Convexo (CLD), un marco novedoso que integra técnicas de optimización convexa con fundamentos teóricos en el pipeline de sistemas de diálogo oral. Nuestro método se implementa eficientemente mediante el Método de Multiplicadores de Dirección Alternada (ADMM) en múltiples GPU con JAX, lo que proporciona garantías de optimalidad global y un entrenamiento rápido en tiempo polinomial. Teóricamente, demostramos que nuestro objetivo convexo induce una estabilidad de margen certificada y ofrecemos garantías frente a perturbaciones de características. Empíricamente, evidenciamos eficiencia muestral y robustez ante la variación dialectal de entrada, alcanzando una precisión del 97-98 % en regímenes desafiantes de recursos limitados. Nuestro paquete de código abierto está disponible en https://pypi.org/project/jaxcld/

Modelos de Difusión Uniforme Revisitados: Denoizador de Exclusión de Uno y Reformulación del Estado Absorbente
Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

May 21

BySamson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

Los modelos de difusión discretos a menudo se entrenan mediante la predicción de datos limpios, pero esta predicción puede utilizarse de diferentes maneras para definir la dinámica inversa. En los Modelos de Difusión Enmascarada (MDM), estas elecciones coinciden en gran medida, mientras que en los Modelos de Difusión Uniforme (UDM) no es así. Demostramos que la parametrización de puente plug-in estándar para UDM no se optimiza mediante la posterior de denoising, sino mediante una posterior de dejar uno fuera que predice cada token limpio sin utilizar su propia observación ruidosa. Esto identifica una discrepancia entre el ELBO plug-in y el objetivo habitual de denoising por entropía cruzada. Caracterizamos el objetivo de dejar uno fuera y derivamos conversiones exactas entre el denoiser, la posterior de dejar uno fuera y el score. Estas conversiones nos permiten desvincular la parametrización del objetivo de entrenamiento. Nuestros resultados también conducen a mejoras en la inferencia sin necesidad de entrenamiento adicional, mediante un muestreador predictor-corrector informado y un muestreo de temperatura mejorado basado en el predictor de dejar uno fuera. Además, introducimos una reformulación de estado absorbente de la difusión uniforme que preserva la ley conjunta de UDM mientras la descompone en operaciones de muestreo similares a la difusión enmascarada, con posteriores de denoising más simples, desenmascaramiento por arrastre y un mecanismo natural de reenmascaramiento. En el modelado del lenguaje, las parametrizaciones de dejar uno fuera mejoran consistentemente la generación de UDM, mientras que la construcción absorbente iguala o supera a la difusión enmascarada. Estos resultados sugieren que la brecha empírica entre la difusión enmascarada y la uniforme está impulsada menos por la elección de las marginales en sí mismas que por el diseño de la parametrización y el muestreo. El código y los modelos se pueden encontrar en https://github.com/samsongourevitch/rev_udm.

MoZoo: Liberando el poder de la difusión de video en la simulación de pelaje y músculos de animales
MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

Apr 8

ByDongxia Liu, Jie Ma, Xiaochen Yang, Jiancheng Zhang, Bin Xia, Zhehan Kan, Nisha Huang, Jun Liang, Wenming Yang, Jin Li

La creación de efectos animales de calidad cinematográfica requiere el modelado preciso de la dinámica de músculos y pelaje, un proceso que sigue siendo tanto laborioso como computacionalmente costoso en los flujos de trabajo tradicionales de producción. Si bien los modelos generativos de difusión han mostrado potencial en diversos flujos de trabajo artísticos, su capacidad para la simulación de animales de alta fidelidad sigue estando en gran medida sin explotar. Presentamos MoZoo, un solucionador de dinámica generativa que evita el refinamiento convencional para sintetizar videos de animales de alta fidelidad a partir de mallas gruesas bajo guía multimodal. Proponemos RoPE consciente del rol (RAR-RoPE), que emplea un re-mapeo de índices basado en roles para sincronizar la alineación del movimiento mientras desacopla la información de referencia mediante desplazamientos temporales fijos. Como complemento, la Atención Desacoplada Asimétrica particiona la secuencia latente para imponer un flujo de información unidireccional, previniendo eficazmente la interferencia de características y mejorando la eficiencia computacional. Para abordar la escasez de datos de entrenamiento de alta calidad, introducimos MoZoo-Data, un pipeline sintético-real que aprovecha un motor de renderizado y un enfoque de mapeo inverso para construir un conjunto de datos a gran escala de secuencias emparejadas. Además, establecemos MoZooBench, un punto de referencia integral con 120 pares malla-video. Los resultados experimentales demuestran que MoZoo logra una simulación de pelaje de alta fidelidad en diversos esqueletos y disposiciones animales, preservando una consistencia temporal y estructural superior.

Reducción de la manipulación política mediante entrenamiento en consistencia
Reducing Political Manipulation with Consistency Training

May 28

ByLong Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks

Los grandes modelos de lenguaje (LLMs) presentan un sesgo político sistemático en diversos contextos sensibles. Observamos que los LLMs manejan de manera asimétrica temas contrapuestos de posiciones políticas opuestas. Denominamos a este fenómeno sesgo político encubierto e identificamos 7 categorías de técnicas a través de las cuales opera. Proponemos dos métricas para el sesgo encubierto: la Consistencia de Sentimiento, que mide la simetría en el lenguaje y el encuadre entre pares de indicaciones políticas; y la Consistencia de Utilidad, que mide la simetría en la profundidad y el compromiso. Para reducir ambos tipos de sesgo encubierto, introducimos el Entrenamiento de Consistencia Política (PCT), un método de entrenamiento por RL con dos paradigmas complementarios: Entrenamiento de Consistencia de Sentimiento y Entrenamiento de Consistencia de Utilidad. Demostramos que el PCT preserva la utilidad general, reduce sustancialmente el sesgo político encubierto y se generaliza a conjuntos de referencia no vistos. Publicamos nuestro trabajo en https://political-manipulation.ai

Pequeño pero confiable: Razonamiento eficiente visión-lenguaje para la detección de anomalías en series temporales
Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

May 28

ByXiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou

Los avances recientes en Modelos de Lenguaje y Visión (VLMs) han logrado un rendimiento impresionante en múltiples tareas; sin embargo, estudios previos reportan resultados insatisfactorios al aplicar modelos grandes de lenguaje o multimodales para identificar patrones anómalos en datos secuenciales. Los puntos de referencia públicos para detección de anomalías suelen proporcionar anotaciones por intervalos, pero no justificaciones en lenguaje natural, lo que dificulta el ajuste fino de los VLMs para producir decisiones fundamentadas e interpretables. Para abordar esta carencia, construimos VisAnomBench, un punto de referencia curado a partir de conjuntos de datos públicos de series temporales y enriquecido con explicaciones de anomalías de alta calidad, seleccionadas de múltiples VLMs grandes mediante recompensas detalladas y específicas de la tarea. A través del ajuste fino en este punto de referencia, desarrollamos VisAnomReasoner, un VLM eficiente en parámetros para la detección de anomalías en series temporales. Los resultados experimentales en VisAnomBench muestran que VisAnomReasoner logra una localización de anomalías más precisa y supera consistentemente a todas las líneas base, con mejoras de al menos 21.23 y 23.87 puntos porcentuales en precisión y F1, respectivamente. Experimentos adicionales en el punto de referencia TSB-AD-U demuestran una fuerte generalización entre puntos de referencia, con VisAnomReasoner mejorando la precisión y el F1 en 9.57 y 13.39 puntos porcentuales, respectivamente.

Hacia una estimación consistente de geometría de video
Towards Consistent Video Geometry Estimation

May 28

ByZhu Yu, Jingnan Gao, Runmin Zhang, Lingteng Qiu, Zhengyi Zhao, Rui Peng, Yichao Yan, Kejie Qiu, Siyu Zhu, Si-Yuan Cao, Hui-Liang Shen

Este trabajo presenta ViGeo, un modelo fundacional de avance directo para recuperar geometría espacialmente densa y temporalmente consistente a partir de secuencias de video. Construido sobre una arquitectura de transformer simple sin modificaciones arquitectónicas específicas para la tarea, ViGeo admite inferencia en streaming, de secuencia completa y de video largo dentro de un modelo unificado. El diseño clave es la atención por fragmentación dinámica, que expone al modelo tanto a contextos temporales bidireccionales como causales durante el entrenamiento y le permite adaptar su patrón de atención en tiempo de prueba sin necesidad de reentrenamiento. Para mejorar la calidad de la supervisión, introducimos además un marco de refinamiento de datos basado en completado. Este marco entrena un profesor de completado de profundidad de video que se condiciona a anotaciones dispersas y ruidosas y explota el contexto de video/vistas múltiples para producir objetivos de entrenamiento densos, temporalmente coherentes y geométricamente confiables. Más allá de mapas de profundidad y puntos, ViGeo también predice normales de superficie dentro del mismo marco. Entrenado exclusivamente con conjuntos de datos públicos, ViGeo logra un rendimiento de última generación en estimación de profundidad en línea, fuera de línea y de video largo, estimación de normales de superficie y estimación de mapas de puntos de video.

PhoneWorld: Escalando Entornos de Agentes de Uso Telefónico
PhoneWorld: Scaling Phone-Use Agent Environments

May 28

ByZhengyang Tang, Yuxuan Liu, Xin Lai, Junyi Li, Pengyuan Lyu, Jason, Yiduo Guo, Zhengyao Fang, Yang Ding, Yi Zhang, Weinong Wang, Huawen Shen, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Rui Yan, Ji-Rong Wen, Chengquan Zhang, Han Hu

Un cuello de botella central para los agentes de uso de teléfonos es que los entornos controlables y reproducibles que abarquen comportamientos móviles reales son difíciles de construir a escala. Los puntos de referencia existentes para agentes móviles han logrado avances importantes en la evaluación, pero no proporcionan por sí mismos una forma escalable de construir muchos entornos nuevos de uso de teléfonos. Presentamos PhoneWorld, una canalización reutilizable que convierte trayectorias reales de GUI y capturas de pantalla en entornos controlables de uso de teléfonos, tareas ejecutables, verificadores automáticos y despliegues de entrenamiento. En lugar de construir un punto de referencia móvil manualmente a la vez, PhoneWorld utiliza trayectorias reales para recuperar qué pantallas son relevantes, cómo se conectan las pantallas, qué interacciones deben cambiar el estado del entorno y qué objetivos del usuario admiten verificación automática. A partir de estas señales, construye aplicaciones Android simuladas ejecutables respaldadas por contenido de aplicación de solo lectura y estado mutable, y luego deriva tareas ejecutables, verificadores basados en reglas y despliegues de entrenamiento a partir de los mismos entornos. En su instanciación actual, PhoneWorld cubre 34 aplicaciones en 16 dominios, abarcando comportamientos móviles comunes de consumo como búsqueda, navegación, compras, reservas, medios e interacción social. Bajo un presupuesto de entrenamiento fijo, reemplazar 10 000 pasos de un corpus auxiliar de AndroidWorld en una línea base basada en AndroidWorld con supervisión amplia de PhoneWorld mejora los cuatro puntos de referencia de evaluación a la vez, elevando HYMobileBench en 17,7 puntos, AndroidControl en 6,0 puntos, AndroidWorld en 14,7 puntos y PhoneWorld en 52,5 puntos. Luego estudiamos dos preguntas adicionales de escalado: aumentar la cantidad de supervisión de PhoneWorld mejora fuertemente el rendimiento en PhoneWorld, y bajo un presupuesto fijo de PhoneWorld, expandir la cobertura de aplicaciones produce ganancias aún mayores. En general, PhoneWorld desplaza el enfoque de construir un punto de referencia móvil a la vez hacia escalar la oferta de entornos de uso de teléfonos en sí mismos.

ORACLE: Anticipando estafas a partir de trayectorias parciales en el uso de aplicaciones de streaming
ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

May 9

ByWenbo Gao, Songbai Tan, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Yunyun Yang, Ming Li, Xiaofeng Zhu

Las estafas en teléfonos inteligentes son cada vez más frecuentes y suelen manifestarse como procesos multicapa y entre aplicaciones, con una intención que emerge gradualmente. Por ello, una intervención eficaz requiere anticipar las estafas antes de que la intención sea explícita. Esto es inherentemente difícil, ya que las decisiones deben basarse en trayectorias parciales con evidencia distribuida temporalmente. En este artículo, proponemos ORACLE (Razonamiento en Línea para la Anticipación de Amenazas Latentes Trans-Temporales, por sus siglas en inglés), el primer marco agéntico para la anticipación temprana de estafas a partir de trayectorias de uso de aplicaciones en flujo continuo. Para respaldar este escenario, recopilamos un punto de referencia real de largo horizonte con trayectorias de uso de aplicaciones en flujo continuo, que cubre 12 tipos de estafa, abarca períodos prolongados (15 días en promedio), involucra diversas aplicaciones (95 aplicaciones) e intercala comportamientos normales y fraudulentos. Para abordar la evidencia fragmentada, introducimos un gestor de contexto autoevolutivo que consolida adaptativamente las interacciones centradas en entidades a lo largo del tiempo, permitiendo una reconstrucción más eficaz de la evidencia trans-temporal a partir de observaciones parciales. Para mejorar la sensibilidad a las señales latentes en etapas tempranas, proponemos un esquema de autodestilación en política en el cual un modelo docente, condicionado a reflexiones y pistas antirfraude resumidas por habilidades, supervisa a un modelo estudiante que no tiene acceso a dichas reflexiones. Este esquema destila así el conocimiento informado por la evidencia y mejora el reconocimiento de patrones de fraude emergentes a partir de trayectorias parciales. Los experimentos muestran que ORACLE mejora consistentemente la anticipación temprana de estafas, generando alertas oportunas y reduciendo falsos positivos en escenarios de flujo continuo realistas.