HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

39 papers found

LocateAnything: Grounding Visión-Lenguaje Rápido y de Alta Calidad con Decodificación Paralela de Cajas
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

May 26

ByShihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

Los modelos visión-lenguaje (VLM) suelen formular la localización visual y la detección como un problema de generación de tokens de coordenadas, serializando cada cuadro 2D en múltiples tokens 1D que se aprenden y decodifican en gran medida de forma independiente. Esta decodificación token por token no se ajusta a la estructura acoplada de la geometría del cuadro y crea un cuello de botella práctico en la inferencia debido a la generación estrictamente secuencial. Presentamos LocateAnything, un marco unificado de localización y detección generativa basado en el Decodificación Paralela de Cuadros (PBD, por sus siglas en inglés). Al decodificar elementos geométricos como cuadros delimitadores y puntos como unidades atómicas en un solo paso, LocateAnything preserva la coherencia geométrica intra-cuadro y desbloquea un paralelismo sustancial. Demostramos que PBD mejora tanto el rendimiento de decodificación como la precisión de localización. Además, desarrollamos un motor de datos escalable y curamos LocateAnything-Data, un conjunto de datos a gran escala con más de 138 millones de muestras de entrenamiento, lo que aumenta sustancialmente la diversidad de datos para la localización de alta precisión. Evaluaciones exhaustivas muestran que LocateAnything avanza en la frontera velocidad-precisión, logrando un rendimiento de decodificación significativamente mayor al tiempo que mejora la calidad de localización con alto IoU en diversos puntos de referencia. Los resultados destacan los beneficios complementarios de la Decodificación Paralela de Cuadros y los datos de entrenamiento a gran escala para permitir una localización y detección visual unificada, eficiente y precisa.

EvalVerse: Evaluación comparativa consciente del pipeline y calibrada por expertos para la generación profesional de videos cinematográficos
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

May 22

BySonglin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao

La rápida evolución de los modelos fundacionales de generación de video ha impulsado el campo hacia la síntesis cinematográfica de nivel profesional. Para lograr esta exigente calidad, la comunidad está avanzando hacia el aprendizaje por refuerzo (RL) y los flujos de trabajo basados en agentes. Sin embargo, la evaluación fiable se ha convertido en un cuello de botella crítico. Los benchmarks existentes evalúan principalmente "si es correcto" (seguimiento básico de instrucciones), mientras que descuidan fundamentalmente "si es bueno" (calidad cinematográfica, actuación y estética). Además, las métricas automatizadas actuales carecen del rigor específico del dominio necesario para proporcionar señales fiables, lo que genera una grave brecha de credibilidad entre la percepción estética humana y la puntuación automática. Para superar esta brecha, presentamos EvalVerse, un marco de evaluación integral, consciente del pipeline y calibrado por expertos. Abordamos la evaluación de la generación de video no solo como una tarea de ingeniería, sino como un problema científico central: la digitalización sistemática de la experiencia cinematográfica subjetiva. En primer lugar, organizamos el conocimiento del dominio en una taxonomía de evaluación alineada con el flujo de trabajo profesional de producción cinematográfica (preproducción, producción y postproducción). En segundo lugar, destilamos los juicios de expertos humanos en un conjunto de datos curado con anotaciones humanas a gran escala. En tercer lugar, inyectamos este conocimiento en modelos de lenguaje y visión (VLM) a través de una estrategia de ajuste fino calibrada por expertos, permitiendo que el VLM realice un razonamiento explícito en cadena de pensamiento (Chain-of-Thought). En comparación con trabajos anteriores, EvalVerse no solo mantiene la compatibilidad con las métricas fundacionales de "corrección", sino que también expande significativamente los criterios hacia la "bondad" y amplía la cobertura de tareas a secuencias complejas de múltiples tomas e integración audiovisual. En consecuencia, al proporcionar señales de diagnóstico detalladas, EvalVerse trasciende una tabla de clasificación estática y establece una infraestructura fundamental para trabajos futuros, como modelos de recompensa y agentes evaluadores.

SpatialBench: ¿Es su modelo fundamental espacial un jugador polifacético?
SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

May 26

ByHaosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

Aunque los modelos fundamentales espaciales han demostrado un rendimiento impresionante en conjuntos de datos estándar, persiste una pregunta crítica: ¿son realmente jugadores completos capaces de generalizar de manera robusta a través de diversas tareas posteriores, puntos de vista arbitrarios, dominios de escena cambiantes, densidades de entrada variables y restricciones de hardware específicas? Responder a esta pregunta general requiere una evaluación holística, pero los modelos actuales se evalúan principalmente en dominios específicos para los cuales fueron diseñados o entrenados expresamente. Dichas evaluaciones están intrínsecamente limitadas por una cobertura de paradigmas reducida, dominios de escena limitados y un muestreo de fotogramas arbitrario, lo que dificulta fundamentalmente evaluar su verdadera capacidad de generalización. Para abordar esta brecha, presentamos SpatialBench, un punto de referencia de paradigmas cruzados y diversidad de dominios para modelos fundamentales espaciales con muestreo determinista. SpatialBench presenta una escala sin precedentes y un diseño determinista riguroso, que comprende 19 conjuntos de datos y 546 escenas en 5 dominios espaciales diversos. Evalúa exhaustivamente 41 modelos en 6 paradigmas en 5 suites de tareas bajo 4 configuraciones de densidad de entrada diferentes. Nuestra evaluación extensa revela que los modelos actuales aún no son jugadores completos y descubre conocimientos cruciales para futuros avances. Específicamente, demostramos que la atención de contexto completo maximiza la precisión, mientras que las estrategias de memoria acotada desbloquean la escalabilidad de secuencias largas. Además, nuestras evaluaciones empíricas en tareas desafiantes incorporadas y egocéntricas demuestran que la alineación estricta de dominio y la alta calidad de los datos son mucho más críticas para el rendimiento que el simple escalado de conjuntos de datos. Asimismo, para abordar la mayor brecha de datos identificada en nuestro análisis, vamos más allá de la evaluación al introducir un conjunto de datos a gran escala, DA-Next-5M, y un modelo de referencia sólido, DA-Next, ampliando los límites del aprendizaje de representaciones espaciales.

MobileGym: Una plataforma de simulación verificable y altamente paralela para la investigación de agentes de GUI móvil
MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

May 25

ByDingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

Presentamos MobileGym, un entorno ligero, totalmente controlable y alojado en el navegador para el uso diario en dispositivos móviles, que apunta a la fidelidad de la interacción sin replicar backends propietarios. Permite dos capacidades previamente fuera del alcance de las aplicaciones cotidianas: señales de resultado verificables mediante evaluación determinista basada en el estado sobre un estado JSON estructurado, y RL en línea escalable mediante ejecuciones paralelas de bajo costo. El estado completo del entorno se captura, configura, bifurca y compara como JSON estructurado, y un solo servidor puede alojar cientos de instancias paralelas, con aproximadamente 400 MB de memoria por instancia y unos 3 segundos de arranque en frío. Un modelo de estado en capas y un marco declarativo de definición de tareas mantienen la programabilidad del estado y la creación de tareas de manera práctica a escala, y un único mecanismo de evaluación programática proporciona tanto veredictos de evaluación deterministas como recompensas densas de RL. El MobileGym-Bench asociado proporciona 416 plantillas de tareas parametrizadas, incluyendo 256 plantillas de prueba y 160 de entrenamiento, en 28 aplicaciones, con evaluadores deterministas y un protocolo AnswerSheet estructurado que evita fallos de coincidencia de texto libre. En un estudio de caso de Sim-to-Real, GRPO sobre Qwen3-VL-4B-Instruct obtiene +12.8 puntos porcentuales en el conjunto de prueba de 256 tareas, y en un subconjunto de señales de dispositivos reales de 59 tareas, la ejecución en dispositivo real retiene el 95.1% de la ganancia de entrenamiento del lado de la simulación. Página del proyecto: https://mobilegym.github.io.

Eliminación de Ruido en Representaciones Consciente de la Geometría para la Reconstrucción 3D Multivista Robusta
Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction

May 25

ByJin Hyeon Kim, Jaeeun Lee, Claire Kim, Kyoungjin Oh, Paul Hyunbin Cho, Jaewon Min, Yeji Choi, Jihye Park, Hyunhee Park, Minkyu Park, Seungryong Kim

La reconstrucción 3D multivista ha logrado un progreso notable con la llegada de los modelos de reconstrucción 3D feed-forward. Sin embargo, estos modelos suelen entrenarse y evaluarse bajo condiciones de imagen ideales y sin degradaciones, mientras que las observaciones del mundo real a menudo contienen degradaciones que difieren significativamente de tales entornos. Por lo tanto, mejorar la robustez de la reconstrucción 3D multivista en condiciones degradadas sigue siendo un desafío importante. Presentamos Geometry-Aware Representation Denoising (GARD), un marco novedoso que realiza la restauración multivista basada en difusión directamente en el espacio de características de un modelo de reconstrucción 3D feed-forward. Este diseño explota las representaciones de características conscientes de la geometría del reconstructor 3D para recuperar de manera efectiva la geometría precisa de la escena. Además, al emplear un decodificador de imágenes RGB adicional, las representaciones refinadas también pueden utilizarse para restaurar imágenes RGB de alta calidad, permitiendo así la recuperación simultánea de la geometría de la escena 3D y las imágenes de alta calidad. Experimentos exhaustivos en el punto de referencia Depth Anything 3 (DA3) demuestran la efectividad del marco GARD propuesto.

LongAV-Compass: Hacia una Evaluación Unificada de la Generación Audiovisual a Escala de Minutos en T2AV, I2AV y V2AV
LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

May 25

ByTengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang

La generación audiovisual avanza rápidamente desde clips cortos hasta contenido de un minuto de duración, mientras que los protocolos de evaluación existentes permanecen en gran medida limitados a entornos de formato corto. Los puntos de referencia actuales se centran principalmente en la generación condicionada por texto de 5 a 10 segundos y rara vez admiten una evaluación unificada en las modalidades de condicionamiento de texto, imagen y video. Además, brindan una visión limitada de cómo la consistencia de identidad, la coherencia narrativa y la alineación audiovisual se degradan a lo largo de horizontes temporales extendidos. Para cerrar esta brecha, presentamos LongAV-Compass, un punto de referencia sistemático para la generación audiovisual de un minuto de duración. LongAV-Compass contiene 284 casos de prueba seleccionados que abarcan conversión de texto a audio-video (T2AV), de imagen a audio-video (I2AV) y de video a audio-video (V2AV), organizados por escenario de aplicación y complejidad de generación. El punto de referencia combina la construcción de referencia guiada por taxonomía con un marco de evaluación unificado que integra la evaluación asistida por MLLM con métricas perceptivas y multimodales complementarias, incluyendo DINO-v2, ArcFace, CLIP e ImageBind. El marco evalúa más de 20 dimensiones detalladas que abarcan calidad intra-segmento, consistencia entre segmentos, coherencia narrativa global, alineación semántica y sincronización audiovisual. Mediante experimentos en 11 modelos representativos junto con validación de alineación humana, LongAV-Compass proporciona un banco de pruebas de diagnóstico para analizar las limitaciones de los sistemas actuales para mantener una generación audiovisual coherente, semánticamente alineada y temporalmente consistente a escala de minutos a través de diversas modalidades de entrada.

D^2-Monitor: Monitoreo Dinámico de Seguridad para LLMs de Difusión mediante Enrutamiento Consciente de la Vacilación
D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

May 25

ByAoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

A pesar de la aparición de los modelos de lenguaje grandes de difusión (D-LLM) como alternativa a los modelos de lenguaje grandes autorregresivos (AR-LLM), el monitoreo de seguridad para los D-LLM sigue siendo en gran medida inexplorado. A diferencia de los AR-LLM, los D-LLM generan texto mediante un proceso de eliminación de ruido en múltiples pasos, exponiendo representaciones ocultas intermedias que pueden contener información relevante para la seguridad no disponible en configuraciones de monitoreo estándar de un solo paso. Motivados por la idoneidad de las sondas ligeras para el monitoreo permanente, analizamos qué señales a nivel de trayectoria indican mejor cuándo es probable que dichas sondas tengan dificultades. Encontramos que la señal más informativa es la vacilación de seguridad: estados ocultos intermedios que caen repetidamente dentro de un margen pequeño de la frontera de decisión de la sonda. El número de dichos pasos de vacilación en la trayectoria del D-LLM predice eficazmente el fallo de la sonda, proporcionando un indicador de la dificultad de la muestra. Basándonos en este análisis, proponemos D^2-Monitor, un monitor de seguridad de dos niveles para D-LLM. D^2-Monitor adopta una sonda ligera como monitor permanente para estimar conjuntamente la vacilación y realizar la clasificación base. Cuando el nivel de vacilación supera un umbral, se activa una sonda más expresiva pero computacionalmente más pesada. Este mecanismo de enrutamiento dinámico asigna eficientemente los recursos de monitoreo en tiempo de prueba. Evaluado en 3 conjuntos de datos (WildguardMix, ToxicChat, OpenAI-Moderation) en 4 D-LLM, D^2-Monitor logra un rendimiento de última generación con una huella de parámetros compacta (≤ 0.85M de parámetros), y exhibe la mejor compensación entre efectividad y eficiencia en comparación con 8 líneas base.

La serie MiniMax-M2: Activaciones miniatura que liberan la máxima inteligencia del mundo real
The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

May 26

ByMiniMax, Aili Chen, Aonian Li, Baichuan Zhou, Bangwei Gong, Binyang Jiang, Boji Dan, Changqing Yu, Chao Wang, Cheng Ma, Cheng Zhong, Cheng Zhu, Chengjun Xiao, Chengyi Yang, Chengyu Du, Chenyang Zhang, Chi Zhang, Chuangyi Huang, Chunhao Zhang, Chunhui Du, Chunyu Zhao, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dongyu Zhang, Enhui Yang, Fei Yu, Guang Zheng, Guodong Zheng, Guohong Li, Haichao Zhu, Haigang Zhou, Haimo Zhang, Han Ding, Hao Zhang, Haohai Sun, Haolin Lyu, Haonan Lu, Haoyu Wang, Huajie Shi, Huiyang Li, Jiacheng Chen, Jian Zhang, Jiaqi Zhuang, Jiaren Cai, Jiaxin Pan, Jiayao Li, Jiayuan Song, Jichuan Zhang, Jie Wang, Jihao Gu, Jin Zhu, Jingwei Dong, Jingyang Li, Jingyu Zhang, Jingze Zhuang, Jinhao Tian, Jinli Liu, Jinyi Hu, Jun Tao, Jun Zhang, Junbin Ruan, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kang Xu, Ke Ji, Ke Yang, Kecheng Xiao, Keyu Duan, Keyu Li, Le Han, Letian Ruan, Li Yuan, Lianfei Yu, Liheng Feng, Lijie Mo, Lin Li, Lingye Bao, Lingyu Yang, Lingyuan Zhou, Loki, Lu Chen, Lunbin Ceng, Ming Li, Ming Zhong, Mingliang Tao, Mingyuan Chi, Mujie Lin, Nan Hu, Ningxin Chen, Peiyin Zhu, Peng Gao, Pengcheng Gao, Pengfei Li, Penglin Li, Pengyu Zhao, Qibin Ren, Qidi Xu, Qihan Ren, Qile Li, Qin Wang, Quanliang Chen, Qunhong Ceng, Rong Tian, Rui Dong, Ruitao Leng, Ruize Zhang, Shanqi Liu, Shaoyu Chen, Sheng Jia, Shun Yao, Shuoran Zhao, Shuqi Yu, Sichen Li, Sicheng Pan, Songquan Zhu, Tengfei Li, Tian Xie, Tiancheng Qin, Tianrun Liang, Wei Liu, Weiqi Xu, Weitao Li, Weixiang Chen, Weiyu Cheng, Weiyu Zhang, Wenhu Chen, Wenqian Zhao, Xiancai Chen, Xiangjun Song, Xiangyuan Wang, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xiaojie Wu, Xihao Song, Xingyi Han, Xinyu Guan, Xuan Lu, Xun Zou, Xunhao Lai, Xutong Li, Yan Gong, Yang Wang, Yang Xu, Yangsen Wang, Ye Tang, Yicheng Chen, Yinran Qiu, Yiqi Shi, Yiting Guo, Yiwen Huang, Yixuan Wang, Yongyi Hu, Yu Gao, Yu Zhang, Yuanxiang Ying, Yuanzhen Zhang, Yubo Wang, Yuchen Song, Yufeng Yang, Yuhang Meng, Yuhang Miao, Yuhao Li, Yujie Liu, Yulin Hu, Yunan Huang, Yunji Li, Yunyi Huang, Yusen Zhang, Yusu Hong, Yutao Xie, Yutong Zhang, Yuwen Liao, Yuxuan Shi, Yuze Wenren, Zebin Li, Zehan Li, Zejian Luo, Zeyu Jin, Zeyuan Sun, Zhanpeng Zhou, Zhaochen Su, Zhendong Li, Zhengmao Zhu, Zhengyuan Peng, Zhenhua Fan, Zhi Zhang, Zhichao Xu, Zhiheng Lv, Zhikang Xu, Zhitao He, Zhiwei He, Zhongyuan Li, Zibo Gao, Zijia Wu, Zijian Song, Zijian Zhou, Zijun Sun, Zishan Huang, Ziying Chen, Ziyue Ge

Presentamos la serie MiniMax-M2, una familia de modelos de lenguaje basados en Mezcla de Expertos, construida en torno al principio de que las activaciones reducidas pueden liberar una inteligencia máxima en el mundo real. El modelo insignia M2 cuenta con 229,9 mil millones de parámetros totales, de los cuales solo se activan 9,8 mil millones por token. Diseñada de extremo a extremo para un despliegue orientado a agentes, la serie M2 se sustenta en tres componentes: (i) tuberías de datos impulsadas por agentes que generan trayectorias verificables a gran escala en codificación agentiva y coworking agentivo, cada una fundamentada en un espacio de trabajo ejecutable y una recompensa alineada con artefactos; (ii) Forge, un sistema de RL escalable nativo para agentes que se adapta a trayectorias de agentes de largo horizonte, acompañado de planificación FIFO con ventanas, fusión de árboles de prefijos, optimización de inferencia y un desacoplamiento limpio entre entrenamiento, inferencia y agente que soporta tanto agentes de caja blanca como de caja negra; (iii) el punto de control más reciente, M2.7, da un paso temprano hacia la autoevolución, depurando de forma autónoma ejecuciones de entrenamiento y modificando su propio andamio. Desde M2 hasta M2.7, esta combinación traduce una huella de activaciones reducidas en un rendimiento de primer nivel en codificación agentiva, búsqueda profunda, tareas de oficina y puntos de referencia de razonamiento.

Soap2Soap: Remake de Videos Cinematográficos Largos mediante Colaboración Multiagente
Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration

May 17

ByYiren Song, Huilin Zhong, Kevin Qinghong Lin, Haofan Wang, Mike Zheng Shou

Estudiamos la remezcla cinematográfica a nivel de serie, un problema de generación de video a video de horizonte largo que localiza episodios completos o películas mediante estilización o reemplazo de actores, preservando estrictamente la estructura narrativa, la coreografía de movimiento y la identidad del personaje a lo largo de cientos de tomas. Los flujos de trabajo existentes de generación y edición de video suelen fallar en este régimen debido a la deriva de identidad acumulativa, la mutación de fondo y la erosión semántica bajo grandes movimientos de cámara y cambios de punto de vista. Proponemos Soap2Soap, un marco multiagente que impone consistencia lingüístico-visual a largo plazo mediante un mecanismo de Consistencia de Puente Dual: un guion JSON consciente del contexto de escena que actúa como columna vertebral semántica persistente, y anclajes de referencia visual asignados dinámicamente tanto a nivel de escena como de toma. Para suprimir la deriva antes de la síntesis de video, introducimos la consistencia de fotogramas clave por lotes, generando conjuntamente múltiples fotogramas clave en un contexto latente compartido mediante una formulación basada en cuadrícula. Un agente de verificación en circuito cerrado audita además la identidad, la estabilidad y la alineación para activar la regeneración selectiva. Los experimentos en SoapBench demuestran mejoras significativas frente a las API comerciales de generación de video en consistencia a largo plazo y fidelidad narrativa.

Compartir más, buscar menos: Pensamiento paralelo colaborativo para un escalado eficiente en tiempo de prueba
Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

May 26

ByXinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li

El Escalado en Tiempo de Prueba (TTS) mejora las capacidades de razonamiento de los grandes modelos de lenguaje al asignar cómputo de inferencia adicional para explorar el espacio de soluciones. Sin embargo, los métodos TTS paralelos existentes suelen mantener las ramas aisladas durante la búsqueda: los descubrimientos intermedios permanecen privados a su rama y no pueden guiar a otras ramas a tiempo. Este aislamiento de información provoca una exploración redundante sustancial, ya que las ramas redescubren repetidamente información ya encontrada en otro lugar y requieren más pasos de búsqueda para recopilar la información de decisión completa necesaria para alcanzar respuestas correctas. Para superar esta limitación, proponemos el Pensamiento Colaborativo Paralelo (CPT), un marco de inferencia sin entrenamiento que permite compartir información durante la búsqueda entre ramas paralelas. CPT extrae información intermedia compacta de las ramas en curso, mantiene un grupo de información a nivel de consulta sin duplicados y transmite las entradas del grupo a través del contexto de entrada, permitiendo que cada rama en pasos de búsqueda posteriores reutilice los descubrimientos hechos por otras ramas en lugar de redescubrir la misma información. Empíricamente, los experimentos en los puntos de referencia HMMT y AIME muestran que CPT establece una frontera de Pareto de precisión y latencia más sólida que los puntos de referencia sólidos en todos los presupuestos de despliegue y escalas de modelo, destacando la colaboración durante la búsqueda como una dirección efectiva para el TTS paralelo eficiente.

LLaVA-OneVision-2: Hacia la Inteligencia Perceptual de Próxima Generación
LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

May 25

ByXiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Presentamos LLaVA-OneVision-2 (LLaVA-OV-2), el modelo de lenguaje y visión más capaz de la serie LLaVA-OneVision hasta la fecha, que alcanza un rendimiento superior en una amplia gama de benchmarks multimodales. El modelo se basa en un codificador OneVision nativo e incorpora Atención con Ventanas para un cómputo local eficiente, manteniendo la resolución nativa. Su avance clave es la tokenización de flujo de códec: trata el video comprimido como un flujo continuo de costo de bits, donde la dinámica de costo de bits determina grupos temporales adaptativos, y las señales residuales de movimiento seleccionan evidencia espacial saliente en lienzos visuales compactos. Esta asignación concentra un presupuesto limitado de tokens en contenido portador de eventos, permitiendo una compresión de tokens de video largo más estable que los grupos fijos de imágenes. Un RoPE 3D compartido coloca además los lienzos de códec, los fotogramas muestreados y las imágenes en un sistema de coordenadas espacio-temporales unificado. Además, construimos la pila de datos y entrenamiento de LLaVA-OV-2 en torno a la supervisión abierta a gran escala: aproximadamente 8 millones de muestras de video con nuevos subtítulos para preentrenamiento y un corpus espacial de 4 millones de muestras para ajuste fino. También introducimos JumpScore, un benchmark de localización temporal orientado al anclaje detallado en movimiento de alta frecuencia y densidad repetitiva, un régimen subrepresentado por las evaluaciones de video existentes. Una capacidad destacada de LLaVA-OV-2 es su percepción unificada en comprensión de video, anclaje temporal, anclaje espacial y razonamiento de trazas de manipulación. En JumpScore, LLaVA-OneVision-2-8B alcanza un mAP de 74.9 en JumpScore, superando a Qwen3-VL-8B (30.1) en +44.8 puntos; bajo presupuestos de tokens visuales equiparados en el mismo benchmark, las entradas de flujo de códec mejoran el anclaje temporal con respecto al muestreo de fotogramas en +9.7 puntos. En benchmarks estándar, LLaVA-OneVision-2-8B supera además a Qwen3-VL-8B en un promedio de +4.3 puntos en tareas de video, +5.3 en tareas espaciales, y +15.6 puntos promedio de J&F en tareas de seguimiento.

Despreciables en tamaño, significativos en efecto: Sobre los vectores de escala en modelos de lenguaje de gran escala
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models

May 26

ByMingze Wang, Shuchen Zhu, Yuxin Fang, Binghui Li, Kai Shen, Shu Zhong

Las capas de normalización en los modelos de lenguaje grandes (LLMs) modernos consisten en una operación de normalización determinista y un vector de escala aprendible. Si bien la operación de normalización ha sido ampliamente estudiada, el vector de escala sigue siendo poco comprendido a pesar de su uso ubicuo. En este trabajo, presentamos un estudio sistemático de los vectores de escala en LLMs desde las perspectivas de expresividad, optimización y estructura arquitectónica. Primero, mostramos empíricamente que, aunque los vectores de escala constituyen solo una fracción insignificante de los parámetros del modelo, su eliminación deteriora sustancialmente el preentrenamiento de LLMs. Nuestra teoría demuestra además que, en arquitecturas Pre-Norm, los vectores de escala no aumentan la expresividad; en cambio, mejoran la optimización mediante un efecto de precondicionamiento autoamplificador sobre las transformaciones lineales subsiguientes. Segundo, investigamos el rol del decaimiento de pesos para los vectores de escala. Distinguiendo entre capas Input-Norm y Output-Norm, mostramos teóricamente que el decaimiento de pesos es beneficioso para las primeras pero perjudicial para las segundas, debido a sus roles distintos en optimización y expresividad. Tercero, motivados por esta comprensión, proponemos tres mejoras ligeras y complementarias para los vectores de escala: heterogeneidad específica por rama, ubicación mejorada alrededor de transformaciones lineales y reparametrización magnitud-dirección. Tanto la teoría como los experimentos muestran que cada mejora produce ganancias consistentes. Finalmente, combinamos estas mejoras en una estrategia unificada de vectores de escala y la evaluamos mediante extensos experimentos de preentrenamiento de LLMs en modelos densos y de mezcla de expertos que van desde 0.12B hasta 2B parámetros, a través de múltiples optimizadores y programaciones de tasa de aprendizaje, bajo presupuestos de tokens a escala industrial. La estrategia unificada logra consistentemente una pérdida final más baja que las líneas de base bien ajustadas y exhibe un comportamiento de escalado más favorable, mientras añade una sobrecarga despreciable de parámetros y cómputo.

Reconsiderando la representación de VLM para la inicialización de VLA
Rethinking VLM Representation for VLA Initialization

May 25

ByWeifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li

Los modelos Visión-Lenguaje-Acción (VLA) adoptan ampliamente modelos de Visión-Lenguaje (VLM) preentrenados como backbones de políticas, aunque aún no está claro qué tipo de representación de VLM preentrenada es útil como inicialización de VLA. En este artículo, estudiamos la inicialización de VLA como un problema de diseño de representación controlada a lo largo de tres ejes: supervisión de VQA incorporada a nivel de capacidad, estrategia de actualización de parámetros y preentrenamiento con datos de robots. Nuestros experimentos muestran que la representación original del VLM preentrenado es una fuente clave de rendimiento de la acción. Sin embargo, la adaptación de VQA incorporada no produce ganancias uniformes: su beneficio depende de los cuellos de botella posteriores, y las ganancias de diferentes dominios de capacidad no son simplemente aditivas. En cuanto a la estrategia de actualización, LoRA proporciona una inicialización más fiable que el ajuste fino completo, lo que indica que remodelar excesivamente la representación preentrenada puede debilitar la inicialización de VLA. El preentrenamiento con datos de robots mejora aún más la inicialización de VLA, obteniéndose la variante más sólida mediante un entrenamiento basado en LoRA por etapas. En conjunto, estos hallazgos sugieren que una adaptación eficaz de VLM a VLA debe inyectar señales corporales y de trayectorias de robots relevantes para la acción, preservando al mismo tiempo la representación del VLM preentrenado que sigue siendo útil para el aprendizaje de acciones.

JLT: Predicción de Latentes Limpios en Transformadores de Difusión Latente
JLT: Clean-Latent Prediction in Latent Diffusion Transformers

May 26

ByFuning Fu, Tenghui Wang, Junyong Cen, Qichao Zhu, Guanyu Zhou

El emparejamiento de flujo con predicción de datos limpios ha demostrado que la regresión del punto limpio puede explotar la estructura de baja dimensionalidad de manera más efectiva que predecir una cantidad ruidosa en el espacio ambiente. Nos preguntamos si este principio sigue siendo útil después de que las imágenes se mapean en un espacio latente aprendido, donde la compresión ya ha eliminado gran parte de la variabilidad de píxeles en bruto. Presentamos JLT, un Transformer de difusión latente de 130M sobre códigos VAE congelados de FLUX.2, y comparamos la predicción de latentes limpios con un DiT de predicción de velocidad equivalente bajo la misma representación, arquitectura base y condiciones de entrenamiento. Aunque las tres variables x, ε y v son linealmente convertibles para un tiempo de corrupción fijo, un análisis gaussiano local muestra que la regresión de velocidad hereda un piso de covarianza objetivo isotrópico y amplifica las direcciones latentes de baja varianza, mientras que la predicción limpia las amortigua. En ImageNet 256 × 256, JLT-B/1 obtiene un FID-50K de 2.50 con guía libre de clasificador, con una gran brecha objetivo coincidente respecto a la predicción de velocidad. Estos resultados sugieren que los objetivos de predicción en la difusión latente son elecciones geométricas dependientes de la representación, no parametrizaciones algebraicas intercambiables.

Aprendizaje por Refuerzo Agente Eficiente con Mejora Intrínseca de la Frontera de Conocimiento On-Policy
Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

May 26

ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang

El aprendizaje por refuerzo (RL) agentivo ha demostrado ser efectivo para entrenar agentes basados en LLM con capacidades de uso de herramientas externas. Sin embargo, identificamos que el entrenamiento con RL agentivo induce una cantidad creciente de llamadas redundantes a herramientas y difumina la frontera de conocimiento intrínseco del modelo, donde este falla al distinguir cuándo se necesitan herramientas frente a cuándo basta con el conocimiento paramétrico. Las soluciones existentes basadas en modelado de recompensas crean objetivos de optimización de grano grueso que tienden a incentivar una supresión indiscriminada de llamadas a herramientas, lo que conduce al hackeo de recompensas. En este artículo, proponemos AKBE (Mejora de la Frontera de Conocimiento Agentivo), un método *on-policy* que sondea dinámicamente la frontera de conocimiento intrínseco del modelo mediante despliegues de doble ruta (con herramienta y sin herramienta) durante el entrenamiento. Definimos la frontera de conocimiento como la determinación por instancia de si se requieren herramientas y el número mínimo de llamadas a herramientas necesario. Al comparar la corrección entre las rutas, AKBE categoriza las trayectorias y construye señales de supervisión dirigidas que guían patrones eficientes de uso de herramientas para cada pregunta. Estas señales se integran sin problemas en el bucle de entrenamiento de RL agentivo. Los experimentos en siete benchmarks de preguntas y respuestas demuestran que AKBE mejora la precisión de las tareas en +1.85 de promedio y reduce las llamadas a herramientas en un 18% en comparación con el RL agentivo estándar, logrando una productividad de herramientas un 25% mayor sin ningún compromiso entre precisión y eficiencia. Análisis adicionales sugieren su compatibilidad plug-and-play con diferentes algoritmos de RL y el mecanismo de cada categoría de señal. Nuestro código está disponible en https://github.com/CuSO4-Chen/AKBE.

MUSE-Autoskill: Agentes autoevolutivos mediante creación, memoria, gestión y evaluación de habilidades
MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

May 26

ByHuawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

Los agentes basados en modelos de lenguaje de gran escala (LLM) dependen de habilidades reutilizables para resolver tareas complejas. Sin embargo, los enfoques existentes para la creación de habilidades tratan estas como artefactos aislados y estáticos, lo que limita su reutilización, fiabilidad y mejora a largo plazo. Proponemos MUSE-Autoskill Agent (Evolución de Habilidades mediante el Uso de Memoria), un marco de agente centrado en habilidades que permite a los agentes mejorar continuamente su capacidad de resolución de tareas mediante la creación, reutilización y refinamiento de habilidades bajo un ciclo de vida unificado (creación, memoria, gestión, evaluación y refinamiento). Nuestro marco permite a los agentes crear habilidades bajo demanda, almacenarlas y reutilizarlas en distintas tareas, organizarlas y seleccionarlas de manera eficiente, y evaluarlas mediante pruebas unitarias y retroalimentación en tiempo de ejecución para su refinamiento continuo. Además, introducimos una memoria a nivel de habilidades que acumula experiencia para cada habilidad a través de las tareas, lo que permite una reutilización y adaptación más efectivas con el tiempo. Los experimentos realizados en SkillsBench proporcionan evidencia inicial de que las habilidades gestionadas mediante un ciclo de vida pueden mejorar el éxito en las tareas, la eficiencia, la reutilización y la transferencia entre agentes, lo que subraya la importancia de tratar las habilidades como activos duraderos, sensibles a la experiencia y comprobables.

QUACK: Cuestionamiento, Comprensión y Auditoría del Conocimiento Comunicado en Agentes Multimodales de Deducción Social
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents

May 26

ByYe Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu

Los juegos de deducción social se han convertido en un campo de prueba popular para investigar el razonamiento, el engaño, la coordinación y el modelado de creencias en agentes basados en modelos de lenguaje de gran escala (LLM). Sin embargo, la mayoría de los entornos se evalúan únicamente mediante resultados del juego, como las tasas de victoria, y se limitan en gran medida a la interacción textual, lo que dificulta determinar si el lenguaje de un agente está realmente fundamentado en lo que percibió e hizo, o identificar los modos de fallo subyacentes a su comportamiento. Para abordar esta carencia, presentamos QUACK, un entorno de código abierto y un marco de evaluación para auditar la fundamentación del lenguaje de los agentes en el razonamiento social multimodal. QUACK evalúa a los agentes en tres niveles: resultados del juego, trayectorias conductuales y consistencia a nivel de enunciados. Su núcleo, el Pipeline de Verificación de Afirmaciones, reconstruye la trayectoria real de cada agente a partir de los registros del motor y contrasta cada afirmación de la discusión con dicha trayectoria, señalando automáticamente alucinaciones espaciales, acusaciones no fundamentadas, colapsos de engaño e inconsistencias entre lenguaje y acción. Al evaluar tres VLMs de frontera tanto en entornos homogéneos como adversariales entre modelos, encontramos que incluso el agente más fuerte alucina el 15,1% de sus afirmaciones espaciales verificables y realiza más de la mitad de sus acusaciones sin evidencia fundamentada. Publicamos el motor completo, el marco de evaluación, el conjunto de herramientas y los registros en https://github.com/AAAAA-Academia-Attractions/QUACK.

¿Ver más significa saber más? Normalización de Ventaja Mono-Anclada para el Razonamiento Visual Multifuente
Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

May 25

ByFanhu Zeng, Zhicong Luo, Zefan Wang, You Li, Chi Chen, Maosong Sun

El razonamiento visual mediante aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado avances notables. Sin embargo, al tratar con entradas de múltiples fuentes, los enfoques existentes tienden a considerarlas como una mera acumulación de información, careciendo de mecanismos explícitos para distinguir si la integración de fuentes adicionales produce una ganancia de información o introduce interferencia. En consecuencia, presentan dificultades para modelar eficazmente la interacción dinámica al integrar múltiples fuentes, especialmente cuando estas difieren significativamente en propiedades físicas y semántica (por ejemplo, infrarrojo y profundidad), lo que conduce a un rendimiento inferior al del razonamiento mono-fuente cuando una fuente determinada contiene la señal dominante. Para abordar este problema, proponemos MARS, un novedoso marco de razonamiento multifuente anclado en una única fuente que modela cada modalidad visual como una fuente de información independiente. En concreto, al tratar las recompensas mono-fuente como anclas dinámicas, nuestro método incorpora explícitamente la ganancia de información introducida por la fusión multifuente en la normalización de la ventaja y enfatiza de forma adaptativa la promoción mutua entre fuentes, al tiempo que suprime posibles ruidos o conflictos durante el RLVR. Desde un análisis teórico, nuestro método cuantifica eficazmente la ganancia de información introducida por la integración multifuente en la estimación del gradiente, lo que permite una regulación modal consistente. Los resultados empíricos también muestran impresionantes mejoras de rendimiento del 3,2 % y el 4,9 % en GRPO y DAPO, respectivamente, en diversos conjuntos de datos, lo que confirma la efectividad de nuestro método.

VitaBench 2.0: Evaluación de Agentes Personalizados y Proactivos en Interacciones de Largo Plazo con Usuarios
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions

May 26

ByYuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Los modelos de lenguaje de gran escala (LLMs) han evolucionado hasta convertirse en agentes interactivos que colaboran con los usuarios en tareas del mundo real. La colaboración efectiva en estos entornos depende cada vez más de entender al usuario más allá de lo explícitamente dicho, ya que la intención del usuario a menudo se refleja en interacciones diarias fragmentadas y requiere tanto un modelado personalizado como una interacción proactiva. Sin embargo, los benchmarks existentes para agentes evalúan principalmente el razonamiento y el uso de herramientas, pasando por alto en gran medida los desafíos de inferir y aprovechar las preferencias del usuario en escenarios realistas. Para abordar esta brecha, presentamos VitaBench 2.0, un benchmark para evaluar el comportamiento personalizado y proactivo de los agentes en interacciones de largo plazo con los usuarios. En VitaBench 2.0, las tareas se organizan como secuencias ordenadas temporalmente para usuarios individuales, donde las preferencias están integradas en interacciones fragmentadas y heterogéneas. La finalización exitosa de las tareas requiere que el agente extraiga, utilice y actualice continuamente las preferencias del usuario a partir de estas interacciones. Además, evaluamos la proactividad mediante tareas que exigen que los agentes reconozcan información faltante y la adquieran activamente de los usuarios o del entorno antes de tomar decisiones. Para apoyar el análisis sistemático, proporcionamos una interfaz de memoria extensible que permite una comparación controlada entre diferentes arquitecturas de memoria. Evaluamos un conjunto diverso de LLMs propietarios y de código abierto de vanguardia. Los resultados muestran que la personalización en el mundo real sigue siendo altamente desafiante incluso para los modelos más avanzados, revelando una brecha sustancial entre las capacidades actuales y los requisitos prácticos. Un análisis extenso revela además los modos de fallo y los cuellos de botella de capacidad de los agentes actuales en la toma de decisiones personalizadas en el mundo real, proporcionando información para futuras mejoras de modelos.

Confianza y Calibración de Oráculos de Activación para una Interpretación Confiable de los Internos del Modelo de Lenguaje
Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals

May 25

ByFederico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech

Los oráculos de activación tienen como objetivo hacer legibles para los humanos las activaciones de otros modelos, y ofrecen resultados prometedores en comparación con las técnicas de interpretabilidad de caja blanca. Sin embargo, la cuantificación de incertidumbre (UQ) para las salidas en lenguaje natural de estos oráculos de activación ha sido hasta ahora poco estudiada. En este trabajo, investigamos 6 métodos diferentes para estimar la confianza de los oráculos de activación y evaluamos qué tan bien calibradas están sus puntuaciones de confianza. Nuestros experimentos con 6,000 muestras por oráculo (variando verbalizador y prompts de contexto) revelan que la frecuencia modal bootstrap es el método mejor calibrado entre los evaluados (ECE del 5.7% frente al 25.5% para la log-probabilidad de la palabra respuesta en Qwen3-8B; 10.3% frente a 13.1% en Qwen3.6-27B), y que la línea base de log-prob puede servir como una señal de triaje rápida a una fracción del costo. El código y el entrenador adaptado están disponibles en https://github.com/federicotorrielli/probabilistic_activation_oracles.

Más allá de las respuestas finales: Auditoría de alucinaciones a nivel de trayectoria en flujos de trabajo industriales multiagente
Beyond Final Answers: Auditing Trajectory-Level Hallucinations in Multi-Agent Industrial Workflows

May 26

ByHarshada Badave, Santosh Borse, Andrea Gomez, Harshitha Narahari, Sara Carter, Vishwa Bhatt, Aishani Rachakonda, Shuxin Lin, Dhaval Patel

Los Modelos de Lenguaje de Gran Escala (LLMs) se implementan cada vez más como agentes autónomos que razonan, utilizan herramientas y actúan a lo largo de múltiples pasos. Sin embargo, la mayoría de los puntos de referencia sobre alucinaciones todavía evalúan únicamente la salida final, pasando por alto fallos que se originan en los pasos intermedios de Pensamiento-Acción-Observación. Presentamos Trajel, un conjunto de datos y un marco de evaluación para auditar alucinaciones a nivel de trayectoria en flujos de trabajo industriales multiagente. Trajel introduce una taxonomía de cinco tipos de alucinaciones (fácticas, referenciales, lógicas, procedimentales y basadas en el alcance) a partir de trazas de agentes anotadas por expertos de AssetOpsBench. Evaluamos modelos de detección supervisada a niveles de subtarea, trayectoria y contexto largo. Nuestros resultados muestran que los modos de fallo más comunes son ignorados por los puntos de referencia existentes, que casi la mitad de las trayectorias alucinadas implican múltiples tipos simultáneamente, y que los detectores automatizados con alta precisión binaria aún clasifican erróneamente los tipos más sutiles. La detección consciente de trayectorias supera significativamente la verificación posterior estándar, lo que hace necesaria una evaluación fundamentada en la taxonomía para un despliegue de agentes más seguro.

DarkForest: Menos conversación, mayor precisión para LLMs multiagente
DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs

May 24

ByYi Li, Songtao Wei, Dongming Jiang, Zhichun Guo, Qiannan Li, Bingzhe Li

Los sistemas multiagente con LLM mejoran el razonamiento al combinar las salidas de múltiples agentes, pero los métodos intensivos en interacción pueden introducir propagación de errores y una alta sobrecarga de comunicación. Cuando los agentes intercambian respuestas en bruto o trazas de razonamiento, el razonamiento intermedio incorrecto puede ser adoptado y amplificado, generando un consenso seguro pero erróneo; la comunicación de múltiples rondas también incrementa el consumo de tokens, la latencia y el costo de inferencia. En este artículo, proponemos un marco de coordinación con comunicación controlada llamado DarkForest. DarkForest primero mantiene a los agentes independientes, de modo que cada uno produce una respuesta sin ver las salidas de los demás. Luego analiza las respuestas en bruto para convertirlas en registros de candidatos estructurados, agrupa candidatos semánticamente equivalentes en clústeres y estima una distribución de creencias calibrada sobre dichos clústeres utilizando la confiabilidad del agente, la confianza, la calidad del análisis, la confiabilidad del patrón de soporte y correcciones de independencia. Un coordinador recibe únicamente evidencia permitida por la política a partir de este estado de creencias, con comunicación controlada. Los experimentos en seis puntos de referencia de razonamiento muestran que DarkForest logra una calidad general líder, mejora la línea base más fuerte hasta en un 30.7% en las métricas de referencia y reduce el consumo de tokens hasta 6.5 veces en comparación con las líneas base con mucha comunicación.

MobileMoE: Escalando la Mezcla de Expertos en el Dispositivo
MobileMoE: Scaling On-Device Mixture of Experts

May 26

ByYanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi

Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) se han convertido en la arquitectura por excelencia para modelos de lenguaje con cien mil millones de parámetros; sin embargo, sus ventajas a escalas inferiores a mil millones para despliegue en dispositivos siguen siendo en gran medida inexploradas. Para cerrar esta brecha, presentamos MobileMoE, una familia de modelos de lenguaje MoE para dispositivos con menos de mil millones de parámetros activos (0.3-0.9 mil millones activos y 1.3-5.3 mil millones en total) que establece una nueva frontera de Pareto para LLMs en dispositivos. Primero formulamos una ley de escalado MoE para dispositivos que optimiza conjuntamente la arquitectura MoE bajo restricciones de memoria y cómputo móvil, identificando un punto óptimo para dispositivos —dispersión moderada con expertos detallados y compartidos— que es simultáneamente óptimo en memoria y cómputo. Basándonos en las arquitecturas derivadas, entrenamos MobileMoE con un proceso de cuatro etapas que abarca pre-entrenamiento, entrenamiento intermedio, ajuste fino por instrucciones y entrenamiento consciente de cuantización, todo con conjuntos de datos de código abierto. En 14 puntos de referencia, MobileMoE iguala o supera a los principales LLMs densos para dispositivos con 2 a 4 veces menos FLOPs de inferencia, y iguala o supera al MoE de última generación OLMoE-1B-7B con hasta un 60 % menos de parámetros. Para salvar la última milla hacia el despliegue en móviles, proporcionamos la primera inferencia MoE eficiente en teléfonos inteligentes comerciales con un perfilado exhaustivo en dispositivos. Con una memoria INT4 comparable, MobileMoE-S ofrece una precarga de 1.8 a 3.8 veces más rápida y una decodificación de 2.2 a 3.4 veces más rápida que la línea base densa MobileLLM-Pro.

Extrayendo capacidad de modelos de lenguaje grandes multimodales para generación guiada por sujetos
Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation

May 25

ByShuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

La generación de imágenes guiada por sujetos tiene como objetivo sintetizar nuevas imágenes que preserven la identidad del sujeto dado mientras siguen instrucciones textuales. Los enfoques existentes a menudo codifican el texto y las imágenes de referencia por separado, lo que limita las capacidades de razonamiento entre modalidades y provoca artefactos de copia y pegado. Marcos recientes que conectan modelos multimodales y modelos de difusión mejoran el seguimiento de instrucciones, pero en gran medida pasan por alto la preservación de la identidad. Para abordar estas limitaciones, condicionamos modelos de difusión en Modelos de Lenguaje Grande Multimodales (MLLMs) que codifican conjuntamente texto e imágenes de referencia, y lo aumentamos con condicionamiento de identidad basado en VAE. Se diseña un novedoso módulo de Agregación de Capas Duales (DLA) para agregar características multinivel del MLLM para un condicionamiento óptimo, y se aplica una estrategia de denoising en múltiples etapas para equilibrar progresivamente la información semántica del MLLM y la identidad de detalle fino del VAE durante la inferencia. Experimentos extensos demuestran que nuestro enfoque armoniza la comprensión multimodal con la preservación de la identidad, mitiga los problemas de copia y pegado, y logra un rendimiento superior en cuanto a preferencia humana en la generación de imágenes guiada por sujetos. Nuestro sitio web del proyecto está disponible en https://zsh2000.github.io/squeeze-mllm-subject-gen/.

Gemini Embedding 2: Un modelo nativo de embedding multimodal de Gemini
Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

May 26

ByMadhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini

Presentamos Gemini Embedding 2, un modelo de embeddings multimodales nativos que permite representar modalidades de video, audio, imagen y texto en un espacio de representación unificado. Aprovechamos las capacidades multimodales de Gemini para generar embeddings de combinaciones arbitrarias de entradas intercaladas de todas estas modalidades, que se generalizan bien en una amplia variedad de tareas. Mediante la aplicación de aprendizaje contrastivo a gran escala en un esquema de entrenamiento multitarea y multietapa, logramos un rendimiento de vanguardia en puntos de referencia clave de embeddings, incluyendo recuperación unimodal, multimodal y multimodal cruzada en un conjunto diverso de tareas. Demostramos que nuestro modelo de embeddings ofrece un rendimiento sólido (con una puntuación de 62,9 R@1 en MSCOCO, 68,8 NDCG@10 en Vatex, 69,9 en MTEB multilingüe y 84,0 en MTEB Code) en una variedad de tareas, superando el rendimiento de modelos especializados. Estas capacidades unificadas convierten a Gemini Embedding 2 en un candidato prometedor para casos de uso posteriores como RAG, recomendación y búsqueda. Además, su robusto rendimiento zero-shot en campos tan diversos como la astronomía, la biociencia, las bellas artes y las artes culinarias lo establece como una representación altamente fiable y lista para usar, incluso para dominios especializados.

Aprendizaje para Actuar bajo Ruido: Mejora de la Robustez del Agente mediante Entornos Ruidosos
Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments

May 26

ByYuxin Chen, Xiaodong Cai, Junfeng Fang, Zhuowen Han, Yu Wang, Yaorui Shi, Yi Zhang, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Los avances recientes en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han facilitado el despliegue generalizado de LLMs como agentes interactivos capaces de razonar, planificar y utilizar herramientas. A pesar de su buen rendimiento en los puntos de referencia existentes, estos agentes a menudo presentan una degradación notable cuando se despliegan en entornos del mundo real, donde los entornos son inherentemente estocásticos e imperfectos. Argumentamos que esta discrepancia surge de un desajuste fundamental entre los entornos de entrenamiento idealizados y las dinámicas de interacción del mundo real, donde los paradigmas actuales dependen de instrucciones de tareas cuidadosamente seleccionadas y entornos estables y bien controlados. Para abordar esta brecha, proponemos NoisyAgent, un marco de entrenamiento agéntico que incorpora explícitamente las imperfecciones ambientales en el proceso de aprendizaje del agente. Identificamos dos fuentes principales de ruido de interacción en escenarios del mundo real: el ruido del usuario, que captura la ambigüedad y variabilidad en la interacción con el usuario, y el ruido de la herramienta, que refleja fallos y anomalías en la ejecución de herramientas. Introducimos estas perturbaciones en el pipeline de entrenamiento modificando los patrones de interacción del usuario y simulando los resultados de la ejecución de herramientas dentro del entorno de entrenamiento. Para estabilizar el entrenamiento mientras se anima a los agentes a manejar imperfecciones cada vez más desafiantes, el ruido se aplica solo a un subconjunto de las trayectorias y se incrementa progresivamente en dificultad a medida que el modelo se adapta al nivel de ruido actual. Experimentos exhaustivos demuestran que nuestro enfoque mejora consistentemente la robustez del agente en entornos ruidosos y dinámicos. Nuestro análisis revela que el entrenamiento bajo condiciones de ruido también produce ganancias de rendimiento en puntos de referencia idealizados, lo que sugiere que la exposición controlada al ruido ambiental promueve comportamientos de razonamiento y toma de decisiones más generalizables. Nuestros hallazgos resaltan la importancia de modelar las imperfecciones de interacción para cerrar la brecha entre el entrenamiento de agentes y el despliegue en el mundo real.

FastKernels: Evaluación Comparativa de la Generación de Kernels de GPU en Producción
FastKernels: Benchmarking GPU Kernel Generation in Production

May 22

ByGabriele Oliaro, Yichao Fu, May Jiang, Owen Lu, Junli Wang, Zhihao Jia, Hao Zhang, Samyam Rajbhandari

Los agentes basados en LLM para la generación de kernels de GPU avanzan rápidamente, pero su progreso está fundamentalmente limitado por los benchmarks que optimizan. Los benchmarks existentes están poco alineados con los frameworks de inferencia en producción: evalúan kernels en una sola GPU con entradas sintéticas, ignoran el stack de compilación circundante y recompensan replicar optimizaciones conocidas en lugar de descubrir nuevas. Las señales de recompensa resultantes son engañosas: los agentes aprenden a generar kernels que obtienen buenos puntajes en entornos aislados, pero introducen incompatibilidades de interfaz, conflictos en el stack de compilación y degradación silenciosa de la corrección cuando se integran en sistemas reales. Presentamos FastKernels, un benchmark de kernels construido en torno a un conjunto mínimo de 46 arquitecturas representativas que abarcan 8 categorías, cuyos kernels en conjunto subsumen el 96.2% (409/425) de las arquitecturas de HuggingFace Transformers. FastKernels también funciona como un framework de inferencia minimalista de grado de producción que opera a la par de sistemas robustos como vLLM y SGLang en el servicio de LLM convencional y supera significativamente las referencias ascendentes en arquitecturas menos atendidas; la interfaz de cada tarea refleja el módulo correspondiente en la librería de última generación para su familia de arquitecturas, lo que permite el despliegue directo de kernels optimizados en bases de código de producción. Al evaluar agentes de kernels de última generación en FastKernels, encontramos que incluso el agente más fuerte logra solo una aceleración agregada de 0.94 veces sobre las líneas base de producción, con agentes más débiles en 0.78 y 0.53 veces, lo que confirma que el desajuste entre benchmark y producción es un cuello de botella crítico para el campo. Publicamos FastKernels como un trampolín hacia agentes de kernels cuyas ganancias en benchmarks se traduzcan directamente en mejoras de rendimiento en producción. El código está disponible en https://github.com/Snowflake-AI-Research/fastkernels

ZeroUnlearn: Desaprendizaje de Conocimiento Few-Shot en Modelos de Lenguaje de Gran Escala
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models

May 20

ByYujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su

Los modelos de lenguaje de gran escala inevitablemente retienen información sensible, definida como entradas que pueden inducir generaciones dañinas, debido al entrenamiento en corpus web masivos, lo que genera preocupaciones sobre privacidad y seguridad. Los métodos existentes de desaprendizaje automático se basan principalmente en el reentrenamiento o el ajuste fino agresivo, que son costosos computacionalmente o propensos a degradar el conocimiento relacionado y la utilidad general del modelo. En este trabajo, reformulamos el desaprendizaje automático como un problema de reasignación precisa de conocimiento mediante la edición de modelos. Proponemos ZeroUnlearn, un marco de desaprendizaje con pocos ejemplos. Sobrescribe las entradas sensibles mapeándolas a un estado objetivo neutro y eliminando sus representaciones originales. ZeroUnlearn impone ortogonalidad representacional mediante una actualización de parámetros multiplicativa con una solución de forma cerrada, permitiendo un desaprendizaje eficiente y dirigido. Además, extendemos ZeroUnlearn a una variante basada en gradientes para el desaprendizaje de múltiples muestras. Los experimentos demuestran que nuestro enfoque supera a las líneas base existentes mientras preserva la utilidad general del modelo. Nuestro código está disponible en github: https://github.com/XMUDeepLIT/ZeroUnlearn.

SAM: Memoria Adaptativa al Estado para Agente de Razonamiento de Horizonte Largo
SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent

May 23

ByYuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Ziliang Zhao, Jiejun Tan, Zheng Liu, Zhicheng Dou

El razonamiento agéntico de largo horizonte exige que los modelos de lenguaje grandes actúen sobre historiales de interacción extensos que contienen pensamientos, llamadas a herramientas, observaciones y conclusiones parciales. El desafío no radica únicamente en la longitud de dichos historiales, sino en que la información necesaria para la decisión actual puede estar dispersa en pasos distantes y solo volverse relevante después. Los enfoques existentes abordan esta dificultad truncando el historial de interacción, comprimiéndolo en sustitutos más cortos o recuperando partes seleccionadas para su reutilización, pero no modelan explícitamente cómo el acceso a interacciones pasadas debería adaptarse al estado cambiante del agente. En cambio, planteamos el razonamiento de largo horizonte como un problema de memoria adaptativa al estado. Con este fin, proponemos State-Adaptive Memory (SAM), un marco independiente que consolida la interacción en curso en indicios de memoria compactos, a la vez que preserva páginas de trayectoria sin procesar para su recuperación impulsada por intenciones. Estos indicios no se tratan como sustitutos del historial; más bien, actúan como asideros ligeros que permiten al agente reconstruir información temporalmente distante según sus necesidades actuales, sin necesidad de reentrenar la arquitectura subyacente. Optimizamos además el módulo de memoria mediante supervisión guiada por expertos y aprendizaje por refuerzo, alineándolo con la utilidad a nivel de trayectoria. En BrowseComp, BrowseComp-ZH, WideSearch y HLE, SAM supera de manera consistente a líneas base sólidas sobre diversos backbones de agentes. Nuestros resultados sugieren que el modelado explícito de la memoria constituye una base simple y efectiva para el razonamiento agéntico de largo horizonte.

MRT: Transformador de Región Enmascarada para Generación y Edición de Imágenes en Capas a Gran Escala
MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

May 26

ByZhicong Tang, Zhao Zhang, Jingye Chen, Mohan Zhou, Yifan Pu, Yuchi Liu, Yalong Bai, Ethan Smith, Yuhui Yuan

La generación y edición de imágenes en capas es una capacidad fundamental que permite la reutilización, edición y composición de contenido visual generado a nivel de capas, de forma análoga a la edición a nivel de palabras en el lenguaje natural. A pesar de su importancia, sigue siendo un área poco explorada a gran escala. Para abordar esta brecha, presentamos MRT, un modelo de difusión de región enmascarada de 20 mil millones de parámetros diseñado para la generación y edición de imágenes transparentes multicapa, entrenado con más de 10 millones de muestras de diseño multilingüe que abarcan diversas relaciones de aspecto y descripciones textuales. Para aprovechar plenamente esta escala, realizamos dos contribuciones técnicas clave. En primer lugar, unificamos tres tareas complementarias (texto a capas, imagen a capas y capas a capas) dentro de un marco compartido de difusión de región enmascarada, donde el enmascaramiento selectivo de tokens permite la generación y edición flexible por capas. En segundo lugar, para permitir la generación de capas de desbordamiento, introducimos una capa de lienzo consciente del desbordamiento que maneja las inconsistencias de los límites y admite la síntesis de fondos semitransparentes, lo que permite la creación de capas editables completas que se extienden más allá de los límites visibles del lienzo. Además, aplicamos destilación de difusión para lograr una generación multicapa en 8 pasos y en tiempo real con una degradación mínima de la calidad. Experimentos exhaustivos demuestran que nuestro marco supera sustancialmente a los enfoques de última generación anteriores, incluidos varios sistemas comerciales, en las tres tareas, estableciendo un nuevo punto de referencia para la generación de imágenes transparentes multicapa. En particular, según los resultados de estudios de usuarios, nuestro modelo supera significativamente al modelo concurrente Qwen-Image-Layered en la calidad de imagen a capas, logrando al mismo tiempo una inferencia de 10 a 100 veces más rápida y reduciendo el consumo de memoria GPU de activación entre un 50 y un 90 % durante la inferencia de imagen a capas.

RT-Lynx: Aplicando la Esparsidad de GEMM de la Manera Correcta para Modelos de Difusión
RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models

May 26

ByXing Cong, Hanlin Tang, Kan Liu, Lan Tao, Lin Qu, Chenhao Xie

Los Transformadores de Difusión (DiT) logran un alto rendimiento en la generación de imágenes, pero incurren en costos de inferencia sustanciales. Si bien trabajos previos han reducido este costo mediante cuantización y destilación, la escasez semiestructurada, que puede casi reducir a la mitad los FLOPs, sigue siendo poco explorada. Una razón clave es que la mayoría de los enfoques existentes se centran en la esparsificación de pesos, y podar el 50% de los pesos puede eliminar la capacidad crítica del modelo y degradar la calidad de generación. Sin embargo, nuestro estudio muestra que las activaciones de DiT son intrínsecamente dispersas y significativamente más robustas a la esparsificación semiestructurada N:M que los pesos. Motivados por esta observación, abogamos por un cambio de paradigma de la esparsificación de pesos a la esparsificación de activaciones. Proponemos RT-Lynx, que aplica esparsificación N:M a las activaciones e incorpora técnicas de compensación de errores para mitigar la pérdida de precisión. Adicionalmente, implementamos núcleos CUDA altamente optimizados y adaptados a este contexto, logrando una aceleración promedio de hasta 1.55x en las capas lineales. Experimentos exhaustivos en múltiples modelos de difusión demuestran que nuestro método preserva la calidad de generación de los modelos originales mientras acelera sustancialmente la inferencia.

Agentic CLEAR: Automatización de la Evaluación Multinivel de Agentes LLM
Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

May 21

ByAsaf Yehudai, Lilach Eden, Michal Shmueli-Scheuer

Los sistemas agentivos se están volviendo más capaces: los agentes definen estrategias, toman acciones e interactúan con diferentes entornos. Esta autonomía plantea serios desafíos para supervisar y evaluar el comportamiento de los agentes. La mayoría de las herramientas actuales son limitadas, centrándose en la observabilidad con capacidades básicas de evaluación o imponiendo taxonomías de errores estáticas y artesanales que no pueden adaptarse a nuevos dominios. Para abordar esta brecha, presentamos Agentic CLEAR, un marco de evaluación automático, dinámico y fácil de usar. Produce información textual sobre el comportamiento del agente en tres niveles de granularidad: sistema, traza y nodo. Agentic CLEAR opera por encima de la capa de observabilidad, permitiendo una integración sin fisuras y presentando una interfaz de usuario intuitiva que hace que la evaluación de agentes sea muy accesible. En nuestros experimentos con cuatro puntos de referencia, siete configuraciones agentivas y decenas de miles de llamadas a modelos de lenguaje de gran tamaño (LLM), mostramos que Agentic CLEAR produce retroalimentación de alta calidad, basada en datos y reveladora. Nuestro análisis muestra una fuerte alineación con los errores anotados por humanos y la capacidad de predecir la tasa de éxito de la tarea.

Entendiendo el impacto de la temporalidad de los datos en el preentrenamiento de modelos de lenguaje de gran escala
Understanding Data Temporality Impact on Large Language Models Pre-training

May 21

ByPilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard

Los modelos de lenguaje de gran escala (LLMs) suelen entrenarse con corpus mezclados, lo que produce modelos cuyo conocimiento queda congelado en el momento del entrenamiento y cuyo anclaje temporal es poco comprendido. En este trabajo, estudiamos el impacto de la dinámica del preentrenamiento en la adquisición de conocimiento factual sensible al tiempo, centrándonos específicamente en el ordenamiento de los datos. Nuestras principales contribuciones son dos. Primero, presentamos un benchmark exhaustivo de más de 7,000 preguntas temporalmente contextualizadas y un protocolo de evaluación que permite analizar si los modelos asocian correctamente los hechos con sus períodos de tiempo correspondientes. Segundo, preentrenamos modelos de 6 mil millones de parámetros en instantáneas de Common Crawl ordenadas temporalmente y los comparamos con el preentrenamiento estándar con mezcla aleatoria. Nuestros resultados muestran que los modelos entrenados secuencialmente igualan a las líneas base con mezcla en comprensión general del lenguaje y conocimiento común, mientras que consistentemente presentan un conocimiento más actualizado y temporalmente preciso. El preentrenamiento con orden temporal mejora la frescura factual, mientras que el preentrenamiento con mezcla aleatoria alcanza su máximo rendimiento en datos más antiguos, posiblemente debido a una mayor repetición de hechos. Estos hallazgos, junto con la publicación de nuestro código en https://github.com/kyutai-labs/kairos , los puntos de control y los conjuntos de datos en https://huggingface.co/collections/kyutai/kairos , proporcionan una base para futuras investigaciones sobre aprendizaje continuo para LLMs.

¿Pueden los LLMs realizar introspección? Una comprobación de la realidad.
Can LLMs Introspect? A Reality Check

May 25

ByShashwat Singh, Tal Linzen, Shauli Ravfogel

¿Pueden los modelos de lenguaje de gran escala detectar e informar sobre sus propios estados internos? Diversos estudios han argumentado que la respuesta a esta pregunta es afirmativa. Nosotros sostenemos, basándonos en lecciones provenientes de la investigación sobre metacognición humana, que esta conclusión puede ser prematura: para estar convencidos de ella, necesitamos distinguir la introspección genuina del reconocimiento de patrones basado en señales superficiales. Además, argumentamos que la evidencia conductual por sí sola es inherentemente insuficiente para establecer afirmaciones introspectivas sólidas. Reexaminamos dos paradigmas de evaluación introducidos recientemente a la luz de esta consideración. En el primer paradigma, se espera que los modelos detecten si sus estados internos han sido manipulados. Encontramos que los modelos no pueden distinguir de manera fiable dichas intervenciones sobre sus estados internos de las manipulaciones en la entrada, lo que sugiere que su éxito en los estudios originales refleja su capacidad para detectar anomalías en general, en lugar de intervenciones específicas sobre sus estados internos. En el segundo paradigma que examinamos, los modelos tienen la tarea de predecir etiquetas derivadas de sus propios estados ocultos. Aquí, encontramos que los clasificadores que solo tienen acceso a la entrada alcanzan un rendimiento equivalente al de las predicciones en contexto del propio modelo, lo que indica que los resultados originales no demuestran de manera concluyente que el modelo tenga acceso privilegiado a sus representaciones internas. Además, introducimos una condición de control con reetiquetado, donde los modelos no pueden basarse en la semántica de la tarea para resolverla, sino que deben depender de la representación interna; los modelos se desempeñan más cerca del azar en esta versión mejor controlada de la tarea. En conjunto, estos resultados indican que la evidencia actual es insuficiente para establecer que los LLM muestren monitoreo metacognitivo.

NSF-SciFy: Minería de la Base de Datos de Premios de la NSF para Afirmaciones Científicas
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25

ByDelip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch

Presentamos NSF-SciFy, un conjunto de datos exhaustivo de afirmaciones científicas y propuestas de investigación extraídas de resúmenes de subvenciones de la National Science Foundation. Mientras que conjuntos de datos previos para la verificación de afirmaciones científicas han sido limitados en tamaño y alcance, NSF-SciFy representa un avance significativo con 2,8 millones de afirmaciones provenientes de 400.000 resúmenes que abarcan todas las disciplinas científicas y matemáticas. Presentamos dos subconjuntos enfocados: NSF-SciFy-MatSci, con 114.000 afirmaciones de subvenciones en ciencia de materiales, y NSF-SciFy-20K, con 135.000 afirmaciones distribuidas en cinco direcciones de la NSF. Mediante el uso de prompting con cero ejemplos, desarrollamos un enfoque escalable para la extracción conjunta de afirmaciones científicas y propuestas de investigación. Demostramos la utilidad del conjunto de datos a través de tres tareas posteriores: generación de resúmenes no técnicos, extracción de afirmaciones y extracción de propuestas de investigación. El ajuste fino de modelos de lenguaje con nuestro conjunto de datos produce mejoras sustanciales, con ganancias relativas que a menudo superan el 100%, particularmente en las tareas de extracción de afirmaciones y propuestas. Nuestro análisis de errores revela que las afirmaciones extraídas presentan alta precisión pero menor exhaustividad, lo que sugiere oportunidades para un mayor refinamiento metodológico. NSF-SciFy posibilita nuevas direcciones de investigación en verificación de afirmaciones a gran escala, seguimiento de descubrimientos científicos y análisis meta-científico. El código y los datos están disponibles en https://github.com/darpa-scify/NSFSciFy.

CroCo: Ajuste de Preferencia Contrastiva Interlingüístico sobre Autogeneraciones
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

May 25

ByMike Zhang, Ali Basirat, Desmond Elliott

Trabajos previos establecen que la contrastividad controlada entre respuestas autogeneradas por modelos de lenguaje de gran escala, configurada mediante puntuaciones de recompensa, mejora el ajuste posterior de preferencias en inglés. Extendemos este método a múltiples lenguas y evaluamos dos modelos en un total de 14 lenguas de alto y bajo recursos, en un conjunto diverso de tareas. Nuestro hallazgo central es que el ajuste contrastivo de preferencias entre lenguas sobre autogeneraciones (CroCo) se transfiere sin necesidad de anotaciones de preferencias específicas por lengua. Un modelo de recompensa entrenado con preferencias en inglés (sobre una base multilingüe) produce clasificaciones intra-lengua útiles en la mayoría de las lenguas, y su emparejamiento, ya sea en un entorno monolingüe o multilingüe, mejora el rendimiento de cada modelo en la mayoría de las configuraciones, al tiempo que previene el olvido catastrófico del ajuste fino supervisado. Observamos que las ganancias requieren datos on-policy. Las respuestas off-policy reducen el beneficio y la optimización de preferencias en línea no logra superar a la variante fuera de línea. En concreto, en tareas estructuradas, nuestro método iguala o supera al modelo base en 6/7 lenguas para EuroLLM-9B y en 4/7 configuraciones para Aya-3B. En generación abierta, ambos modelos ajustados vencen a sus respectivos modelos base en las 11 lenguas evaluadas. En general, mostramos direcciones prometedoras para el ajuste de preferencias multilingüe.

Aprendizaje de Fragmentos de Acción Continua de Alta Frecuencia en el Espacio Latente
Learning High-Frequency Continuous Action Chunks in Latent Space

May 24

ByKunyun Wang, Yuhang Zheng, Yupeng Zheng, Jieru Zhao, Wenchao Ding

Las políticas robóticas modernas dependen cada vez más de la fragmentación de acciones para ejecutar tareas complejas en el mundo físico. Si bien la fragmentación de acciones mejora la consistencia temporal a frecuencias de acción moderadas, resulta insuficiente cuando la frecuencia de acción se incrementa aún más (por ejemplo, hasta 60 Hz). A frecuencias tan altas, las políticas suelen fallar en generar acciones que sean tanto temporalmente suaves como espacialmente consistentes. Abordamos este desafío trasladando el aprendizaje de acciones de alta frecuencia desde el espacio de acción a un espacio latente mediante un autoencoder variacional (VAE). Esta formulación mejora significativamente tanto la consistencia temporal como la espacial del control de alta frecuencia. Para permitir una ejecución fluida en tiempo real, introducimos Reuse-then-Refine, una estrategia de refinamiento a nivel de fragmentos que mejora la continuidad entre fragmentos de acción adyacentes bajo inferencia asíncrona. Como resultado, los robots controlados por nuestra política pueden ejecutar tareas complejas de contacto intensivo de manera continua, con menos pausas y movimientos bruscos. Los experimentos en tres tareas robóticas reales de contacto intensivo muestran que nuestro enfoque completa las tareas de manera consistente con movimientos suaves. Nuestro código y datos están disponibles en https://github.com/tars-robotics/RTR.

EverAnimate: Animación Humana a Escala de Minutos mediante Restauración de Flujo Latente
EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

May 14

ByWuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

Proponemos EverAnimate, un método eficiente de post-entrenamiento para la generación de video animado de horizonte largo que preserva la calidad visual y la identidad del personaje. La animación de larga duración sigue siendo un desafío porque el movimiento humano altamente dinámico debe sintetizarse en entornos relativamente estáticos, lo que hace que la generación basada en fragmentos sea propensa a la deriva acumulada: (i) deriva de calidad a bajo nivel, como la degradación progresiva de fondos estáticos, y (ii) deriva semántica de alto nivel, como la identidad inconsistente del personaje y atributos dependientes de la vista. Para abordar este problema, EverAnimate restaura las trayectorias de flujo desviadas anclando la generación a una memoria de contexto latente persistente, que consta de dos mecanismos complementarios. (i) Propagación Latente Persistente mantiene una memoria de contexto entre fragmentos para propagar la identidad y el movimiento en el espacio latente, mitigando el olvido temporal. (ii) Coincidencia de Flujo Restaurativo introduce un objetivo de restauración implícito durante el muestreo mediante el ajuste de velocidad, mejorando la fidelidad dentro del fragmento. Con solo un ajuste LoRA ligero, EverAnimate supera a los métodos de animación larga de última generación tanto en configuraciones de horizonte corto como largo: a los 10 segundos, mejora el PSNR/SSIM en un 8%/7% y reduce el LPIPS/FID en un 22%/11%; a los 90 segundos, las mejoras aumentan al 15%/15% y 32%/27%, respectivamente.

STREAM: Un marco centrado en datos para la minería de diálogos orientados a tareas de alto valor a partir de medios en streaming.
STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media

May 24

ByLiang Xue, Haoyu Liu, Cheng Wang, Pengyu Chen, Haozhuo Zheng, Yang Liu

Los modelos de lenguaje de gran escala para dominios verticales se ven limitados por la escasez de diálogos complejos y específicos de una tarea orientados al dominio. Los pipelines de adquisición de datos existentes enfrentan un trilema persistente: la anotación de expertos es costosa, las conversaciones de servicio reales están restringidas por privacidad y limitaciones comerciales, y los corpus estáticos rápidamente se vuelven temporalmente obsoletos. Proponemos Stream, un marco centrado en datos que aprovecha los medios de transmisión en vivo públicos (transmisiones en vivo y videos cortos) para sintetizar diálogos de servicio de alto valor a escala. Stream extrae señales de interacción auténticas de transmisiones ruidosas y sintetiza conversaciones integrando la construcción de personajes basados en roles con la construcción de Planos de Conversación; además, adopta generación aumentada por recuperación (RAG) para respaldar respuestas conscientes del conocimiento. Basado en Stream, publicamos StreamDial, un conjunto de datos multidisciplinario a gran escala que cubre Automoción, Restaurante y Hotel. StreamDial contiene 87,498 sesiones de diálogo y 1,497,320 turnos en total, con un promedio de 17.11 turnos por sesión y una escala comparable entre dominios. Cada sesión se organiza como un cuádruple estructurado ⟨P_u, P_a, B, H⟩ que empareja el historial de diálogo con personajes explícitos de usuario/agente y un Plano de Conversación, capturando comportamientos de servicio realistas como extracción de requisitos, conflictos de restricciones, negociación y recuperación. Las evaluaciones con jueces automáticos y tareas posteriores muestran que StreamDial mejora la calidad intrínseca del diálogo en comparación con líneas base sólidas, y los modelos entrenados con StreamDial mejoran el Seguimiento del Estado del Diálogo en distintas arquitecturas; además, reportamos un conjunto completo de evaluación humana y una transferencia multilingüe alentadora en Qwen3-8B bajo un presupuesto de entrenamiento controlado. Los datos se publican en https://github.com/hitxueliang/DialogDataSetBySTREAM.