ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Seedance 2.0: Avances en la Generación de Videos para la Complejidad del Mundo
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0 es un nuevo modelo nativo multimodal de generación de audio y vídeo, lanzado oficialmente en China a principios de febrero de 2026. En comparación con sus predecesores, Seedance 1.0 y 1.5 Pro, Seedance 2.0 adopta una arquitectura unificada, altamente eficiente y a gran escala para la generación conjunta multimodal de audio y vídeo. Esto le permite soportar cuatro modalidades de entrada: texto, imagen, audio y vídeo, integrando una de las suites más completas disponibles hasta la fecha en la industria para referencia y edición de contenido multimodal. Ofrece mejoras sustanciales y integrales en todas las subdimensiones clave de la generación de vídeo y audio. Tanto en evaluaciones de expertos como en pruebas con usuarios públicos, el modelo ha demostrado un rendimiento a la par con los niveles líderes en el campo. Seedance 2.0 soporta la generación directa de contenido de audio y vídeo con duraciones que van de 4 a 15 segundos, con resoluciones de salida nativas de 480p y 720p. Para entradas multimodales como referencia, su plataforma abierta actual admite hasta 3 clips de vídeo, 9 imágenes y 3 clips de audio. Además, ofrecemos Seedance 2.0 Fast, una variante acelerada de Seedance 2.0 diseñada para aumentar la velocidad de generación en escenarios de baja latencia. Seedance 2.0 ha logrado mejoras significativas en sus capacidades de generación fundamentales y en el rendimiento de generación multimodal, lo que brinda una experiencia creativa mejorada para los usuarios finales.

2

GameWorld: Hacia la Evaluación Estandarizada y Verificable de Agentes de Juego Multimodales
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

Hacia un agente generalista encarnado para la interacción en el mundo real, los agentes de Modelos de Lenguaje Grandes Multimodales (MLLM) aún sufren problemas de latencia desafiante, retroalimentación escasa y errores irreversibles. Los videojuegos ofrecen un banco de pruebas ideal con observaciones visuales ricas e interacción en bucle cerrado, que exige percepción de grano fino, planificación de horizonte largo y control preciso. Sin embargo, la evaluación sistemática de estas capacidades se ve actualmente obstaculizada por interfaces de acción heterogéneas y verificación heurística. Para ello, presentamos GameWorld, un benchmark diseñado para la evaluación estandarizada y verificable de MLLMs como agentes de juego generalistas en entornos de navegador. Se estudian dos interfaces de agente de juego: (i) agentes de uso informático que emiten directamente controles de teclado y ratón, y (ii) agentes multimodales generalistas que actúan en un espacio de acción semántico mediante Análisis de Acción Semántica determinista. GameWorld contiene 34 juegos diversos y 170 tareas, cada una emparejada con métricas verificables por estado para evaluación basada en resultados. Los resultados en 18 pares modelo-interfaz sugieren que incluso el agente con mejor rendimiento está lejos de alcanzar las capacidades humanas en videojuegos. Experimentos extensos con repeticiones completas del benchmark demuestran la robustez de este, mientras que estudios adicionales sobre interacción en tiempo real, sensibilidad a la memoria contextual y validez de la acción exponen más desafíos futuros para los agentes de juego. En conjunto, al ofrecer un marco de evaluación estandarizado, verificable y reproducible, GameWorld sienta una base sólida para avanzar en la investigación sobre agentes de juego multimodales y más allá. La página del proyecto se encuentra en https://gameworld-bench.github.io.

3

RationalRewards: Las Recompensas de Razonamiento Escalan la Generación Visual Tanto en el Tiempo de Entrenamiento como en el de Prueba
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

La mayoría de los modelos de recompensa para generación visual reducen los ricos juicios humanos a una única puntuación inexplicable, descartando el razonamiento subyacente a la preferencia. Demostramos que enseñar a los modelos de recompensa a producir críticas explícitas y multidimensionales antes de puntuar los transforma de evaluadores pasivos en herramientas de optimización activa, mejorando los generadores de dos maneras complementarias: en el momento del entrenamiento, las razones estructuradas proporcionan recompensas interpretables y granulares para el aprendizaje por refuerzo; en el momento de la prueba, un bucle Generar-Criticar-Refinar convierte las críticas en revisiones específicas del prompt que mejoran las salidas sin ninguna actualización de parámetros. Para entrenar dicho modelo de recompensa sin costosas anotaciones de razonamiento, introducimos Razonamiento Anclado a la Preferencia (PARROT), un marco teórico que recupera razonamientos de alta calidad a partir de datos de preferencia fácilmente disponibles mediante generación anclada, filtrado de coherencia y destilación. El modelo resultante, RationalRewards (8B), logra una predicción de preferencia de vanguardia entre los modelos de recompensa de código abierto, competitivo con Gemini-2.5-Pro, mientras utiliza entre 10 y 20 veces menos datos de entrenamiento que los modelos base comparables. Como recompensa para aprendizaje por refuerzo, mejora consistentemente a los generadores de texto a imagen y edición de imagen más allá de las alternativas escalares. Lo más notable es que su bucle de crítica y refinamiento en tiempo de prueba iguala o supera al ajuste fino basado en aprendizaje por refuerzo en varios puntos de referencia, lo que sugiere que el razonamiento estructurado puede desbloquear capacidades latentes en los generadores existentes que los prompts subóptimos no logran elicitar.

4

SpatialEvo: Inteligencia Espacial Auto-Evolutiva mediante Entornos Geométricos Deterministas
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

El razonamiento espacial sobre escenas tridimensionales es una capacidad fundamental para la inteligencia embodida, sin embargo, la mejora continua de los modelos sigue estando limitada por el costo de la anotación geométrica. El paradigma de auto-evolución ofrece un camino prometedor, pero su dependencia del consenso del modelo para construir pseudo-etiquetas hace que el entrenamiento refuerce en lugar de corregir los errores geométricos propios del modelo. Identificamos una propiedad única del razonamiento espacial 3D que sortea esta limitación: la verdad de base es una consecuencia determinista de la geometría subyacente, calculable exactamente a partir de nubes de puntos y poses de cámara sin ninguna intervención del modelo. Basándonos en esta idea, presentamos SpatialEvo, un marco de auto-evolución para el razonamiento espacial 3D, centrado en el Entorno Geométrico Determinista (DGE). El DGE formaliza 16 categorías de tareas de razonamiento espacial bajo reglas explícitas de validación geométrica y convierte escenas 3D no anotadas en oráculos interactivos de ruido cero, reemplazando el consenso del modelo con retroalimentación física objetiva. Una única política de parámetros compartidos co-evoluciona a través de los roles de interrogador y resolvedor bajo las restricciones del DGE: el interrogador genera preguntas espaciales físicamente válidas basadas en observaciones de la escena, mientras que el resolvedor deduce respuestas precisas contrastadas con la verdad de base verificada por el DGE. Un planificador adaptativo a la tarea concentra endógenamente el entrenamiento en las categorías más débiles del modelo, produciendo un currículo dinámico sin diseño manual. Los experimentos en nueve benchmarks demuestran que SpatialEvo logra el puntaje promedio más alto tanto a escalas de 3B como de 7B, con ganancias consistentes en benchmarks de razonamiento espacial y sin degradación en la comprensión visual general.

5

OccuBench: Evaluación de Agentes de IA en Tareas Profesionales del Mundo Real mediante Modelos de Mundo Lingüístico
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

Se espera que los agentes de IA realicen trabajo profesional en cientos de dominios ocupacionales (desde la clasificación de pacientes en urgencias hasta la monitorización de seguridad de reactores nucleares o el procesamiento de importaciones aduaneras); sin embargo, los puntos de referencia existentes solo pueden evaluar agentes en los pocos dominios donde existen entornos públicos. Presentamos OccuBench, un punto de referencia que abarca 100 escenarios de tareas profesionales del mundo real en 10 categorías industriales y 65 dominios especializados, habilitado por Modelos de Mundo Lingüístico (LWM, por sus siglas en inglés) que simulan entornos específicos de dominio mediante la generación de respuestas de herramientas impulsada por LLM. Nuestra canalización de síntesis multiagente produce automáticamente instancias de evaluación con solucionabilidad garantizada, dificultad calibrada y diversidad fundamentada en documentos. OccuBench evalúa a los agentes en dos dimensiones complementarias: la finalización de tareas en dominios profesionales y la robustez ambiental bajo inyección controlada de fallos (errores explícitos, degradación implícita de datos y fallos mixtos). Evaluamos 15 modelos de vanguardia de 8 familias de modelos y encontramos que: (1) ningún modelo domina todas las industrias, ya que cada uno tiene un perfil distinto de capacidad ocupacional; (2) los fallos implícitos (datos truncados, campos faltantes) son más difíciles que los errores explícitos (tiempos de espera agotados, errores 500) y los fallos mixtos, porque carecen de señales de error evidentes y requieren que el agente detecte de forma independiente la degradación de los datos; (3) los modelos más grandes, las generaciones más nuevas y un mayor esfuerzo de razonamiento mejoran consistentemente el rendimiento. GPT-5.2 mejora en 27.5 puntos desde un esfuerzo de razonamiento mínimo a uno máximo; y (4) los agentes fuertes no son necesariamente simuladores de entorno fuertes. La calidad del simulador es crítica para la fiabilidad de la evaluación basada en LWM. OccuBench proporciona la primera evaluación sistemática cross-industrial de agentes de IA en tareas profesionales ocupacionales.

6

De P(y|x) a P(y): Investigando el Aprendizaje por Refuerzo en el Espacio de Preentrenamiento
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

Si bien el aprendizaje por refuerzo con recompensas verificables (RLVR) mejora significativamente el razonamiento de los LLM optimizando la distribución condicional P(y|x), su potencial está fundamentalmente limitado por la distribución de salida existente del modelo base. Optimizar la distribución marginal P(y) en el Espacio de Pre-entrenamiento aborda este cuello de botella al codificar la capacidad de razonamiento y preservar una amplia capacidad de exploración. Sin embargo, el pre-entrenamiento convencional se basa en corpus estáticos para un aprendizaje pasivo, lo que genera un cambio de distribución que dificulta la mejora específica del razonamiento. En este artículo, presentamos PreRL (RL en el Espacio de Pre-entrenamiento), que aplica actualizaciones en línea impulsadas por recompensas directamente a P(y). Validamos teórica y empíricamente el fuerte alineamiento de gradientes entre log P(y) y log P(y|x), estableciendo a PreRL como un sustituto viable del RL estándar. Además, descubrimos un mecanismo crítico: el Refuerzo por Muestras Negativas (NSR) dentro de PreRL actúa como un impulsor excepcionalmente efectivo para el razonamiento. NSR-PreRL poda rápidamente los espacios de razonamiento incorrectos mientras estimula comportamientos reflexivos endógenos, aumentando los pensamientos de transición y reflexión en 14.89x y 6.54x, respectivamente. Aprovechando estos hallazgos, proponemos Dual Space RL (DSRL), una estrategia de Reencarnación de Políticas que inicializa modelos con NSR-PreRL para expandir el horizonte de razonamiento antes de transicionar al RL estándar para una optimización de grano fino. Experimentos exhaustivos demuestran que DSRL supera consistentemente a líneas base sólidas, probando que la poda en el espacio de pre-entrenamiento dirige efectivamente la política hacia un subespacio refinado de razonamiento correcto.

7

Transferencia de Aprendizaje de Memoria: Cómo se Transfieren los Recuerdos entre Dominios en Agentes de Codificación
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

La auto-evolución basada en memoria ha surgido como un paradigma prometedor para los agentes de programación. Sin embargo, los enfoques existentes suelen restringir la utilización de la memoria a dominios de tareas homogéneos, sin aprovechar los fundamentos infraestructurales compartidos, como los entornos de ejecución y los lenguajes de programación, que existen en diversos problemas de programación del mundo real. Para abordar esta limitación, investigamos el Aprendizaje por Transferencia de Memoria (MTL) aprovechando un banco de memoria unificado de dominios heterogéneos. Evaluamos el rendimiento en 6 benchmarks de programación utilizando cuatro representaciones de memoria, que van desde trazas concretas hasta insights abstractos. Nuestros experimentos demuestran que la memoria entre dominios mejora el rendimiento promedio en un 3,7 %, principalmente mediante la transferencia de meta-conocimiento, como rutinas de validación, en lugar de código específico de la tarea. Es importante destacar que encontramos que la abstracción determina la transferibilidad; los insights de alto nivel se generalizan bien, mientras que las trazas de bajo nivel a menudo inducen una transferencia negativa debido a su excesiva especificidad. Además, mostramos que la efectividad de la transferencia escala con el tamaño del banco de memoria, y que la memoria puede transferirse incluso entre modelos diferentes. Nuestro trabajo establece principios de diseño empíricos para expandir la utilización de la memoria más allá de los silos de un solo dominio. Página del proyecto: https://memorytransfer.github.io/

8

Los Errores de Exploración y Explotación Son Medibles para Agentes de Modelos de Lenguaje
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

Los agentes de modelos de lenguaje (LM) se utilizan cada vez más en tareas complejas de toma de decisiones de naturaleza abierta, desde la codificación con IA hasta la IA física. Un requisito fundamental en estos contextos es la capacidad de explorar el espacio del problema y explotar el conocimiento adquirido de manera efectiva. Sin embargo, distinguir y cuantificar sistemáticamente la exploración y la explotación a partir de las acciones observadas, sin acceso a la política interna del agente, sigue siendo un desafío. Para abordar esto, diseñamos entornos controlables inspirados en escenarios prácticos de IA incorporada. Cada entorno consiste en un mapa de cuadrícula 2D parcialmente observable y un Gráfico Acíclico Dirigido (DAG) de tarea desconocida. La generación del mapa puede ajustarse mediante programación para enfatizar la dificultad de exploración o explotación. Para permitir una evaluación independiente de la política, diseñamos una métrica para cuantificar los errores de exploración y explotación a partir de las acciones del agente. Evaluamos una variedad de agentes LM de vanguardia y encontramos que incluso los modelos más avanzados tienen dificultades en nuestra tarea, mostrando diferentes modelos distintos modos de fallo. Observamos además que los modelos de razonamiento resuelven la tarea de manera más efectiva y demostramos que tanto la exploración como la explotación pueden mejorarse significativamente mediante una ingeniería de soporte mínima. Publicamos nuestro código https://github.com/jjj-madison/measurable-explore-exploit.

9

Optimización de la Política Objetivo
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

En el aprendizaje por refuerzo (RL), dado un prompt, muestreamos un grupo de terminaciones (completions) de un modelo y las puntuamos. Surgen dos preguntas: ¿qué terminaciones deberían ganar masa de probabilidad y cómo deberían moverse los parámetros para realizar ese cambio? Los métodos estándar de gradiente de política (policy-gradient) responden ambas a la vez, por lo que la actualización puede ser excesiva o insuficiente dependiendo de la tasa de aprendizaje, el recorte (clipping) y otras opciones del optimizador. Presentamos la Optimización de Política Objetivo (Target Policy Optimization, TPO), que separa las dos preguntas. Dadas las terminaciones puntuadas, TPO construye una distribución objetivo q_i ∝ p_i^{antigua} exp(u_i) y ajusta la política hacia ella mediante entropía cruzada. El gradiente de la pérdida en los logits de las terminaciones muestreadas es p^θ - q, que se anula una vez que la política coincide con el objetivo. En bandidos tabulares, tareas de secuencias con transformers y RLVR en LLMs de miles de millones de parámetros, TPO iguala a PG, PPO, GRPO y DG en tareas fáciles y supera sustancialmente a estos últimos bajo recompensa dispersa. El código está disponible en https://github.com/JeanKaddour/tpo.

10

Código Sema: Desacoplando Agentes de Codificación con IA en Infraestructura Programable e Integrable
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

Los agentes de IA para codificación se han convertido en elementos centrales de los flujos de trabajo de los desarrolladores, sin embargo, todas las soluciones existentes encierran sus capacidades de razonamiento en una forma de entrega específica, como una CLI, un complemento de IDE o una aplicación web. Esta limitación crea barreras sistémicas cuando las empresas intentan reutilizar estas capacidades en entornos de ingeniería heterogéneos. Para abordar este desafío, presentamos Sema Code, un marco de codificación de IA abierto construido bajo el principio de ser embebible, conectable y orientado al marco de trabajo. Sema Code desacopla completamente el motor central del agente de todas las capas cliente, publicándolo como una librería npm independiente que cualquier entorno de ejecución puede controlar mediante programación. Basándonos en esta arquitectura, diseñamos ocho mecanismos clave: aislamiento del motor multiinquilino, colas de entrada FIFO con reconstrucción segura de sesiones, compresión de contexto adaptativa, programación colaborativa multiagente, gestión de procesos inteligente basada en Tareas pendientes (Todo), control de permisos asíncrono de cuatro capas, integración de ecosistema de tres niveles que abarca MCP, Habilidades y Complementos, y un marco de tareas en segundo plano con privilegios separados de ejecución y observación. Estos mecanismos abordan colectivamente los desafíos de ingeniería de transformar un motor de agente complejo en un núcleo compartido y programable. Para demostrar su versatilidad arquitectónica, el mismo motor Sema Core impulsa simultáneamente una extensión para VSCode y una puerta de enlace de mensajería multicanal, que denominamos SemaClaw, para unificar las interacciones con el agente en plataformas como Telegram y Feishu. Estos representan dos formas de producto fundamentalmente diferentes que comparten un kernel de razonamiento idéntico, diferenciándose únicamente en la capa cliente.

11

SemaClaw: Un Paso hacia Agentes de IA Personales de Propósito General mediante la Ingeniería de Aprovechamiento
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

El auge de OpenClaw a principios de 2026 marca el momento en que millones de usuarios comenzaron a desplegar agentes de IA personales en su vida diaria, delegando tareas que van desde la planificación de viajes hasta investigaciones de múltiples pasos. Esta escala de adopción señala que dos líneas de desarrollo paralelas han alcanzado un punto de inflexión. La primera es un cambio de paradigma en la ingeniería de IA, que evoluciona desde la ingeniería de prompts y de contexto hacia la ingeniería de arneses (harness engineering), diseñando la infraestructura completa necesaria para transformar agentes sin restricciones en sistemas controlables, auditables y confiables para entornos de producción. A medida que las capacidades de los modelos convergen, esta capa de arnés se está convirtiendo en el principal sitio de diferenciación arquitectónica. La segunda es la evolución de la interacción humano-agente, pasando de tareas discretas hacia una relación colaborativa persistente y consciente del contexto, lo que exige una infraestructura de arneses abierta, confiable y extensible. Presentamos SemaClaw, un marco de aplicación multiagente de código abierto que aborda estos cambios al dar un paso hacia los agentes de IA personales de propósito general mediante la ingeniería de arneses. Nuestras principales contribuciones incluyen un método de orquestación de equipos de agentes híbrido en dos fases basado en DAG, un sistema de seguridad conductual PermissionBridge, una arquitectura de gestión de contexto de tres niveles y una habilidad de wiki agentiva para la construcción automatizada de bases de conocimiento personal.

12

Geometría Libre: Refinamiento de la Reconstrucción 3D a partir de Versiones Más Largas de Sí Misma
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

Los modelos de reconstrucción 3D de avance directo son eficientes pero rígidos: una vez entrenados, realizan inferencia de manera inmediata y no pueden adaptarse a la escena de prueba. Como resultado, las reconstrucciones visualmente plausibles a menudo contienen errores, particularmente bajo oclusiones, reflexiones especulares y señales ambiguas. Para abordar esto, presentamos Free Geometry, un marco que permite a los modelos de reconstrucción 3D de avance directo auto-evolucionar durante la prueba sin ninguna verdad de terreno 3D. Nuestra idea clave es que, cuando el modelo recibe más vistas, produce reconstrucciones más confiables y consistentes entre vistas. Aprovechando esta propiedad, dada una secuencia de prueba, enmascaramos un subconjunto de fotogramas para construir una tarea auto-supervisada. Free Geometry aplica consistencia de características entre vistas entre las representaciones de observaciones completas y parciales, mientras mantiene las relaciones por pares implícitas en los fotogramas excluidos. Esta auto-supervisión permite un reajuste rápido mediante actualizaciones ligeras de LoRA, tomando menos de 2 minutos por conjunto de datos en una sola GPU. Nuestro enfoque mejora consistentemente los modelos fundacionales de última generación, incluyendo Depth Anything 3 y VGGT, en 4 conjuntos de datos de referencia, logrando una mejora promedio del 3.73% en la precisión de la pose de la cámara y del 2.88% en la predicción del mapa de puntos. El código está disponible en https://github.com/hiteacherIamhumble/Free-Geometry.

13

LangFlow: La Difusión Continua Rivaliza con la Discreta en Modelado del Lenguaje
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

La difusión continua ha sido la base para la generación de alta fidelidad, controlable y en pocos pasos de muchas modalidades de datos, como las imágenes. Sin embargo, en el modelado del lenguaje, los modelos de lenguaje de difusión continua (DLM) previos han estado por detrás de sus homólogos discretos debido al espacio de datos disperso y al espacio de diseño poco explorado. En este trabajo, cerramos esta brecha con LangFlow, el primer DLM continuo que rivaliza con la difusión discreta, conectando los DLM en el espacio de incrustaciones con Flow Matching mediante la divergencia de Bregman, junto con tres innovaciones clave: (1) derivamos un nuevo límite NLL basado en EDO para una evaluación rigurosa de los modelos de lenguaje continuos basados en flujos; (2) proponemos un principio de uniformidad de la información para establecer el programa de ruido, lo que motiva un programador de ruido entrenable basado en una distribución Gumbel; y (3) revisamos los protocolos de entrenamiento previos incorporando el auto-condicionamiento, ya que descubrimos que mejora tanto la verosimilitud como la calidad de las muestras de los DLM en el espacio de incrustaciones, con efectos sustancialmente diferentes a los de la difusión discreta. Uniendo todo, LangFlow rivaliza con los mejores DLM discretos tanto en la perplejidad (PPL) como en la perplejidad generativa (Gen. PPL), alcanzando una PPL de 30.0 en LM1B y 24.6 en OpenWebText. Incluso supera a los modelos autoregresivos de referencia en la transferencia zero-shot en 4 de 7 benchmarks. LangFlow proporciona la primera evidencia clara de que la difusión continua es un paradigma prometedor para el modelado del lenguaje. Página web: https://github.com/nealchen2003/LangFlow

14

CONSEJO: Importancia de los Tokens en la Destilación en Política Actual
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

La destilación de conocimiento en política (OPD) entrena a un estudiante en sus propias ejecuciones bajo supervisión a nivel de token por parte de un profesor. No todas las posiciones de token importan por igual, pero las visiones existentes sobre la importancia de los tokens son incompletas. Planteamos una pregunta directa: ¿qué tokens contienen la señal de aprendizaje más útil en OPD? Nuestra respuesta es que los tokens informativos provienen de dos regiones: posiciones con alta entropía del estudiante, y posiciones con baja entropía del estudiante más alta divergencia profesor-estudiante, donde el estudiante es sobreconfiado y está equivocado. Empíricamente, la entropía del estudiante es un fuerte proxy de primer orden: retener el 50% de los tokens con un muestreo basado en entropía iguala o supera al entrenamiento con todos los tokens, a la vez que reduce la memoria máxima hasta en un 47%. Pero la entropía por sí sola pasa por alto una segunda región importante. Cuando aislamos los tokens de baja entropía y alta divergencia, el entrenamiento con menos del 10% de todos los tokens casi iguala los baselines de tokens completos, lo que demuestra que los tokens sobreconfiados contienen una señal correctiva densa a pesar de ser casi invisibles para las reglas basadas únicamente en entropía. Organizamos estos hallazgos con TIP (Importancia del Token en la destilación en política), una taxonomía de dos ejes sobre la entropía del estudiante y la divergencia profesor-estudiante, y ofrecemos una explicación teórica de por qué la entropía es útil pero estructuralmente incompleta. Esta perspectiva motiva reglas de selección de tokens conscientes del tipo que combinan incertidumbre y desacuerdo. Validamos esta imagen en tres pares profesor-estudiante que abarcan Qwen3, Llama y Qwen2.5 en MATH-500 y AIME 2024/2025, y en el benchmark DeepPlanning para planificación agentiva de largo horizonte, donde el entrenamiento con solo Q3 en <20% de los tokens supera a la OPD con todos los tokens. Nuestros experimentos se implementan extendiendo el repositorio OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, que permite la destilación eficiente en memoria de modelos más grandes con presupuestos limitados de GPU.

15

UI-Zoomer: Acercamiento Adaptativo Dirigido por Incertidumbre para la Localización de Interfaces Gráficas
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

La localización de elementos de interfaz (GUI grounding), que localiza componentes de interfaces a partir de capturas de pantalla dadas consultas en lenguaje natural, sigue siendo un desafío para iconos pequeños y diseños densos. Los métodos de acercamiento durante la prueba mejoran la localización mediante recorte y nueva inferencia a mayor resolución, pero aplican el recorte uniformemente en todas las instancias con tamaños fijos, ignorando si el modelo realmente presenta incertidumbre en cada caso. Proponemos UI-Zoomer, un marco de acercamiento adaptativo sin entrenamiento que trata tanto el disparador como la escala del acercamiento como un problema de cuantificación de incertidumbre predictiva. Una compuerta consciente de la confianza fusiona el consenso espacial entre candidatos estocásticos con la confianza de generación a nivel de token para activar selectivamente el acercamiento solo cuando la localización es incierta. Al activarse, un módulo de dimensionamiento de recorte impulsado por incertidumbre descompone la varianza predictiva en dispersión posicional inter-muestral y extensión de caja intra-muestral, derivando un radio de recorte por instancia mediante la ley de varianza total. Experimentos exhaustivos en ScreenSpot-Pro, UI-Vision y ScreenSpot-v2 demuestran mejoras consistentes sobre líneas base sólidas en múltiples arquitecturas de modelos, logrando ganancias de hasta +13.4%, +10.3% y +4.2% respectivamente, sin requerir entrenamiento adicional.

16

TREX: Automatización del Ajuste Fino de LLM mediante Exploración Basada en Árboles Dirigida por Agentes
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

Si bien los Modelos de Lenguaje a Gran Escala (LLM) han dotado a los agentes de investigación de IA de la capacidad de realizar tareas científicas aisladas, automatizar flujos de trabajo complejos y del mundo real, como el entrenamiento de LLMs, sigue siendo un desafío significativo. En este artículo, presentamos TREX, un sistema multiagente que automatiza todo el ciclo de vida del entrenamiento de un LLM. Mediante la orquestación de la colaboración entre dos módulos centrales —el Investigador y el Ejecutor—, el sistema realiza de manera fluida el análisis de requisitos, la investigación de literatura y datos en dominio abierto, la formulación de estrategias de entrenamiento, la preparación de recetas de datos, y el entrenamiento y evaluación del modelo. El proceso experimental de múltiples rondas se modela como un árbol de búsqueda, permitiendo al sistema planificar eficientemente rutas de exploración, reutilizar resultados históricos y destilar conocimientos de alto nivel a partir de pruebas iterativas. Para evaluar la capacidad del entrenamiento automatizado de LLMs, construimos FT-Bench, un benchmark que comprende 10 tareas derivadas de escenarios del mundo real, que van desde la optimización de capacidades fundamentales del modelo hasta la mejora del rendimiento en tareas específicas de un dominio. Los resultados experimentales demuestran que el agente TREX optimiza consistentemente el rendimiento del modelo en las tareas objetivo.

17

ReconPhys: Reconstrucción de Apariencia y Atributos Físicos a partir de un Único Video
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

La reconstrucción de objetos no rígidos con plausibilidad física sigue siendo un desafío significativo. Los enfoques existentes aprovechan el renderizado diferenciable para optimización por escena, recuperando geometría y dinámica pero requiriendo ajustes costosos o anotación manual, lo que limita su practicidad y generalización. Para abordar esto, proponemos ReconPhys, el primer marco de trabajo de propagación directa que aprende conjuntamente la estimación de atributos físicos y la reconstrucción mediante Gaussian Splatting 3D a partir de un único video monocular. Nuestro método emplea una arquitectura de doble rama entrenada mediante una estrategia auto-supervisada, eliminando la necesidad de anotaciones físicas de referencia. Dada una secuencia de video, ReconPhys infiere simultáneamente geometría, apariencia y atributos físicos. Los experimentos en un conjunto de datos sintético a gran escala demuestran un rendimiento superior: nuestro método alcanza 21.64 PSNR en predicción futura comparado con 13.27 de los métodos de optimización state-of-the-art, mientras reduce la Distancia de Chamfer de 0.349 a 0.004. Crucialmente, ReconPhys permite inferencia rápida (<1 segundo) frente a las horas requeridas por métodos existentes, facilitando la generación rápida de recursos listos para simulación en robótica y gráficos.

18

MERRIN: Un Punto de Referencia para la Recuperación y el Razonamiento de Evidencia Multimodal en Entornos Web Ruidosos
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

Motivados por la naturaleza subespecificada y de múltiples saltos de las consultas de búsqueda, así como por la naturaleza multimodal, heterogénea y a menudo contradictoria de los resultados web del mundo real, presentamos MERRIN (Recuperación y Razonamiento de Evidencia Multimodal en Entornos Web Ruidosos), un punto de referencia anotado por humanos para evaluar agentes aumentados por búsqueda. MERRIN mide la capacidad de los agentes de IA para identificar modalidades relevantes, recuperar evidencia multimodal y realizar razonamientos de múltiples saltos sobre fuentes web ruidosas. Se diferencia de trabajos anteriores en tres aspectos importantes: (1) utiliza consultas en lenguaje natural sin indicaciones explícitas de modalidad, (2) incorpora modalidades poco exploradas como video y audio, y (3) requiere la recuperación de evidencia multimodal compleja, a menudo ruidosa o contradictoria, durante la búsqueda web. Evaluamos diversos agentes de búsqueda impulsados por diez modelos, incluyendo modelos cerrados potentes (por ejemplo, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) y modelos de peso abierto (Qwen3-4B/30B/235B), en tres configuraciones de búsqueda (sin búsqueda, búsqueda nativa y búsqueda agentiva). Nuestros resultados muestran que MERRIN es muy desafiante: la precisión promedio de todos los agentes es del 22.3%, y el agente con mejor rendimiento alcanza solo el 40.1%. Observamos además que, si bien agentes más fuertes como Gemini Deep Research logran un mayor rendimiento, las mejoras son modestas debido a una sobreexploración; realizan más pasos y utilizan más herramientas, pero a menudo se distraen con contenido web contradictorio o parcialmente relevante, lo que lleva a respuestas incorrectas. En comparación con los humanos, estos agentes consumen más recursos y, sin embargo, logran una precisión menor, en gran parte debido a una selección ineficiente de fuentes y a una dependencia excesiva de las modalidades textuales. Estos hallazgos resaltan la necesidad de agentes de búsqueda capaces de realizar búsquedas y razonamientos robustos en diversas modalidades dentro de entornos web ruidosos, lo que convierte a MERRIN en un banco de pruebas valioso para evaluar dichas capacidades.

19

Generación de Diapositivas a partir de Artículos Basada en Narrativa mediante ArcDeck
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

Presentamos ArcDeck, un marco de trabajo multiagente que formula la generación de presentaciones a partir de artículos como una tarea de reconstrucción narrativa estructurada. A diferencia de los métodos existentes que resumen texto directamente en diapositivas, ArcDeck modela explícitamente el flujo lógico del artículo fuente. Primero analiza la entrada para construir un árbol de discurso y establecer un documento de compromiso global, garantizando que se preserve la intención de alto nivel. Estos *priors* estructurales guían luego un proceso iterativo de refinamiento multiagente, donde agentes especializados critican y revisan iterativamente el esquema de la presentación antes de renderizar los diseños y disposiciones visuales finales. Para evaluar nuestro enfoque, también presentamos ArcBench, un nuevo punto de referencia curado de pares artículo-diapositiva académicos. Los resultados experimentales demuestran que el modelado explícito del discurso, combinado con una coordinación de agentes por roles, mejora significativamente la fluidez narrativa y la coherencia lógica de las presentaciones generadas.

20

AutoDistilación Cero: La Autorrevisión Convierte Recompensas Binarias en Supervisión Densa
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

Los métodos actuales de posentrenamiento en entornos verificables se dividen en dos categorías. El aprendizaje por refuerzo (RLVR) se basa en recompensas binarias, que son ampliamente aplicables y potentes, pero proporcionan una supervisión escasa durante el entrenamiento. La destilación proporciona una supervisión densa a nivel de token, que normalmente se obtiene de un profesor externo o mediante demostraciones de alta calidad. Recopilar dicha supervisión puede ser costoso o no estar disponible. Proponemos Self-Distillation Zero (SD-Zero), un método sustancialmente más eficiente en muestras de entrenamiento que el RL y que no requiere un profesor externo ni demostraciones de alta calidad. SD-Zero entrena un único modelo para desempeñar dos roles: un Generador, que produce una respuesta inicial, y un Revisor, que se condiciona a esa respuesta y su recompensa binaria para producir una respuesta mejorada. Luego realizamos una auto-destilación on-policy para destilar el revisor en el generador, utilizando las distribuciones de tokens del revisor condicionadas a la respuesta del generador y su recompensa como supervisión. En efecto, SD-Zero entrena al modelo para transformar recompensas binarias en una auto-supervisión densa a nivel de token. En benchmarks de razonamiento matemático y de código con Qwen3-4B-Instruct y Olmo-3-7B-Instruct, SD-Zero mejora el rendimiento al menos un 10% respecto a los modelos base y supera a líneas base sólidas, incluyendo Rejection Fine-Tuning (RFT), GRPO y Self-Distillation Fine-Tuning (SDFT), bajo el mismo conjunto de preguntas y presupuesto de muestras de entrenamiento. Estudios de ablación extensos muestran dos características novedosas de nuestro algoritmo propuesto: (a) auto-localización a nivel de token, donde el revisor puede identificar los tokens clave que necesitan ser revisados en la respuesta del generador basándose en la recompensa, y (b) auto-evolución iterativa, donde la capacidad de mejora para revisar respuestas puede ser destilada de nuevo en el rendimiento de generación con una sincronización regular del profesor.

21

Adaptación Regional Antropogénica en Modelos Multimodales de Visión y Lenguaje
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

Si bien el campo de visión y lenguaje (VL) ha logrado un éxito notable en la integración de información visual y textual en múltiples idiomas y dominios, aún no existe un marco dedicado para evaluar la alineación centrada en lo humano en los sistemas de visión y lenguaje. Ofrecemos dos contribuciones para abordar esta brecha. Primero, presentamos la Adaptación Regional Antropogénica: un paradigma novedoso que busca optimizar la relevancia del modelo para contextos regionales específicos, mientras garantiza la retención de capacidades de generalización global. Segundo, presentamos un método de adaptación simple pero efectivo denominado Generalización-geográfica-hecha-fácil (GG-EZ), que utiliza filtrado de datos regionales y fusión de modelos. Mediante experimentos exhaustivos en 3 arquitecturas VL: modelos grandes de visión y lenguaje, modelos de difusión de texto a imagen y modelos de incrustación de visión y lenguaje, y un estudio de caso en adaptación regional del Sudeste Asiático (SEA), demostramos la importancia de la Adaptación Regional Antropogénica y la efectividad de GG-EZ, mostrando mejoras del 5 al 15% en métricas de relevancia cultural en la región SEA mientras se mantiene más del 98% del rendimiento global e incluso superándolo ocasionalmente. Nuestros hallazgos establecen la Alineación Regional Antropogénica como un paradigma fundamental para la aplicabilidad de los modelos multimodales de visión y lenguaje en diversas regiones y demuestran un método de referencia simple pero efectivo que optimiza la alineación de valores regionales preservando la generalización global.

22

UI-Copilot: Avanzando en la Automatización de GUI de Largo Horizonte mediante Optimización de Políticas Integrada con Herramientas
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

Los agentes de interfaz gráfica basados en MLLM han demostrado sólidas capacidades en tareas complejas de interacción con interfaces de usuario. Sin embargo, los escenarios de largo horizonte siguen siendo un desafío, ya que estos agentes se ven sobrecargados con tareas que superan sus capacidades intrínsecas, sufriendo degradación de memoria, confusión de progreso y alucinaciones numéricas. Para abordar estos desafíos, presentamos UI-Copilot, un marco colaborativo donde el agente de interfaz gráfica se centra en la ejecución de tareas mientras un copiloto ligero proporciona asistencia bajo demanda para recuperación de memoria y cálculo numérico. Introducimos la desvinculación de memoria para separar las observaciones persistentes del contexto de ejecución transitorio, y entrenamos al agente de políticas para invocar selectivamente al copiloto como Recuperador o Calculador según las demandas de la tarea. Para permitir un aprendizaje efectivo de invocación de herramientas, proponemos la Optimización de Políticas con Herramientas Integradas (TIPO), que optimiza por separado la selección de herramientas mediante predicción de un solo turno y la ejecución de tareas mediante desarrollos multiturno basados en políticas. Los resultados experimentales muestran que UI-Copilot-7B logra un rendimiento de vanguardia en el desafiante MemGUI-Bench, superando a agentes de interfaz gráfica sólidos de escala 7B como GUI-Owl-7B y UI-TARS-1.5-7B. Además, UI-Copilot-7B ofrece una mejora absoluta del 17.1% en AndroidWorld sobre el modelo base Qwen, destacando la fuerte generalización de UI-Copilot para tareas reales de interfaz gráfica.

23

SkVM: Compilación de Habilidades para una Ejecución Eficiente en Cualquier Entorno
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

Los agentes de LLM adoptan cada vez más las habilidades como unidades de composición reutilizables. Si bien las habilidades se comparten en diversas plataformas de agentes, los sistemas actuales las tratan como contexto sin procesar, lo que provoca que la misma habilidad se comporte de manera inconsistente para diferentes agentes. Esta fragilidad socava la portabilidad y la eficiencia de ejecución de las habilidades. Para abordar este desafío, analizamos 118,000 habilidades y nos inspiramos en el diseño tradicional de compiladores. Tratamos las habilidades como código y a los LLM como procesadores heterogéneos. Para hacer que la portabilidad sea accionable, descomponemos los requisitos de una habilidad en un conjunto de capacidades primitivas y medimos qué tan bien cada par modelo-entorno las soporta. Basándonos en estos perfiles de capacidad, proponemos SkVM, un sistema de compilación y tiempo de ejecución diseñado para una ejecución de habilidades portable y eficiente. En tiempo de compilación, SkVM realiza una compilación basada en capacidades, vinculación de entorno y extracción de concurrencia. En tiempo de ejecución, SkVM aplica solidificación de código JIT y recompilación adaptativa para la optimización del rendimiento. Evaluamos SkVM en ocho LLM de diferentes escalas y tres entornos de agentes, cubriendo SkillsBench y tareas de habilidades representativas. Los resultados demuestran que SkVM mejora significativamente las tasas de finalización de tareas en diferentes modelos y entornos, al mismo tiempo que reduce el consumo de tokens hasta en un 40%. En términos de rendimiento, SkVM logra una aceleración de hasta 3.2x con un paralelismo mejorado y una reducción de latencia de 19-50x mediante la solidificación de código.

24

¿Registran los agentes de codificación con IA como los humanos? Un estudio empírico
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

El registro de software es esencial para mantener y depurar sistemas complejos, sin embargo, no está claro cómo los agentes de codificación con IA manejan este requisito no funcional. Si bien trabajos previos caracterizan las prácticas de registro humanas, los comportamientos de los agentes de codificación con IA y la eficacia de las instrucciones en lenguaje natural para gobernarlos no han sido explorados. Para abordar esta brecha, realizamos un estudio empírico de 4,550 *pull requests* agenticos en 81 repositorios de código abierto. Comparamos los patrones de registro de los agentes con líneas base humanas y analizamos el impacto de las instrucciones explícitas de registro. Encontramos que los agentes cambian el registro con menos frecuencia que los humanos en el 58.4% de los repositorios, aunque exhiben una mayor densidad de registros cuando lo hacen. Además, las instrucciones explícitas de registro son raras (4.7%) e inefectivas, ya que los agentes no cumplen con las solicitudes constructivas el 67% del tiempo. Finalmente, observamos que los humanos realizan el 72.5% de las reparaciones de registro posteriores a la generación, actuando como "consergas silenciosos" que corrigen problemas de registro y observabilidad sin retroalimentación explícita de revisión. Estos hallazgos indican un doble fallo en la instrucción de lenguaje natural (escasez de instrucciones de registro y baja conformidad de los agentes), sugiriendo que podrían ser necesarias barreras de protección deterministas para garantizar prácticas de registro consistentes.

25

Generación de Video HDR mediante Alineación Latente con Codificación Logarítmica
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

La imagen de alto rango dinámico (HDR) ofrece una representación rica y fiel de la radiancia de la escena, pero sigue siendo un desafío para los modelos generativos debido a su desajuste con los datos acotados y comprimidos perceptualmentes en los que se entrenan estos modelos. Una solución natural es aprender nuevas representaciones para HDR, lo que introduce complejidad adicional y requisitos de datos. En este trabajo, demostramos que la generación de HDR puede lograrse de una manera mucho más simple aprovechando los fuertes *priors* visuales ya capturados por modelos generativos preentrenados. Observamos que una codificación logarítmica ampliamente utilizada en los flujos de trabajo cinematográficos mapea la imagen HDR a una distribución que está naturalmente alineada con el espacio latente de estos modelos, permitiendo una adaptación directa mediante un ajuste fino ligero sin necesidad de reentrenar un codificador. Para recuperar detalles que no son directamente observables en la entrada, introducimos además una estrategia de entrenamiento basada en degradaciones que imitan a la cámara, lo que incentiva al modelo a inferir el contenido faltante de alto rango dinámico a partir de sus *priors* aprendidos. Combinando estas ideas, demostramos la generación de video HDR de alta calidad utilizando un modelo de video preentrenado con una adaptación mínima, logrando resultados sólidos en diversas escenas y condiciones de iluminación desafiantes. Nuestros resultados indican que el HDR, a pesar de representar un régimen de formación de imagen fundamentalmente diferente, puede manejarse eficazmente sin rediseñar los modelos generativos, siempre que la representación se elija para alinearse con sus *priors* aprendidos.

26

Transformador de Contexto Geométrico para la Reconstrucción 3D en Tiempo Real
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

La reconstrucción 3D en tiempo real tiene como objetivo recuperar información tridimensional, como poses de cámara y nubes de puntos, a partir de una secuencia de vídeo, lo que requiere precisión geométrica, consistencia temporal y eficiencia computacional. Motivados por los principios de Localización y Mapeo Simultáneo (SLAM), presentamos LingBot-Map, un modelo base 3D de avance para reconstruir escenas a partir de datos en flujo, construido sobre una arquitectura de transformador de contexto geométrico (GCT). Un aspecto distintivo de LingBot-Map reside en su mecanismo de atención cuidadosamente diseñado, que integra un contexto de anclaje, una ventana de referencia de poses y una memoria de trayectoria para abordar, respectivamente, el anclaje coordenado, las pistas geométricas densas y la corrección de deriva a largo plazo. Este diseño mantiene el estado de flujo compacto mientras retiene un contexto geométrico rico, permitiendo una inferencia estable y eficiente a aproximadamente 20 FPS en entradas de resolución 518 x 378 sobre secuencias largas que superan las 10,000 frames. Evaluaciones exhaustivas en diversos benchmarks demuestran que nuestro enfoque logra un rendimiento superior en comparación con los métodos existentes basados tanto en flujo continuo como en optimización iterativa.

27

ROSE: Mejora de Segmentación Orientada a Recuperación
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

Los modelos de segmentación existentes basados en modelos de lenguaje multimodal (MLLM), como LISA, a menudo presentan dificultades con entidades novedosas o emergentes debido a su incapacidad para incorporar conocimiento actualizado. Para abordar este desafío, presentamos la Tarea de Segmentación de Entidades Novedosas y Emergentes (NEST), que se centra en segmentar (i) entidades novedosas que los MLLM no logran reconocer debido a su ausencia en los datos de entrenamiento, y (ii) entidades emergentes que existen dentro del conocimiento del modelo pero requieren información externa actualizada para su reconocimiento preciso. Para apoyar el estudio de NEST, construimos un benchmark NEST utilizando una canalización automatizada que genera muestras de datos relacionados con noticias para una evaluación integral. Adicionalmente, proponemos ROSE: Mejora de Segmentación Orientada a Recuperación, un marco plug-and-play diseñado para aumentar cualquier modelo de segmentación basado en MLLM. ROSE comprende cuatro componentes clave. Primero, se introduce un módulo de Generación Aumentada por Recuperación de Internet para emplear entradas multimodales proporcionadas por el usuario y recuperar información web en tiempo real. Luego, un Mejorador de Indicaciones Textuales enriquece al modelo con información actualizada y conocimiento de fondo exhaustivo, mejorando la capacidad de percepción del modelo para entidades emergentes. Además, se propone un Mejorador de Indicaciones Visuales para compensar la falta de exposición de los MLLM a entidades novedosas aprovechando imágenes obtenidas de internet. Para mantener la eficiencia, se introduce un módulo WebSense para decidir inteligentemente cuándo invocar mecanismos de recuperación basándose en la entrada del usuario. Los resultados experimentales demuestran que ROSE incrementa significativamente el rendimiento en el benchmark NEST, superando en 19.2 puntos de gIoU a una sólida línea base de recuperación basada en Gemini-2.0 Flash.

28

InfiniteScienceGym: Un Punto de Referencia Ilimitado y Generado Procedimentalmente para el Análisis Científico
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

Los grandes modelos de lenguaje están emergiendo como asistentes científicos, pero evaluar su capacidad para razonar a partir de datos empíricos sigue siendo un desafío. Los puntos de referencia derivados de estudios publicados y anotaciones humanas heredan el sesgo de publicación, el sesgo del conocimiento conocido, el ruido en las etiquetas y requisitos de almacenamiento sustanciales. Presentamos InfiniteScienceGym, un punto de referencia generado proceduralmente de repositorios científicos emparejado con una tarea verificable de pregunta-respuesta. A partir de una semilla, el simulador genera determinísticamente un repositorio autocontenido con una estructura de directorios, archivos y datos tabulares realistas, y un generador de preguntas privilegiado produce tanto preguntas respondibles como inrespondibles con una verdad fundamental exacta. Esto hace posible evaluar el razonamiento basado en evidencia, la abstención y el análisis mediado por herramientas en un entorno controlado sin distribuir un gran corpus estático. InfiniteScienceGym complementa los puntos de referencia científicos reales al abordar puntos ciegos y modos de fallo que son difíciles de evaluar utilizando únicamente conjuntos de datos publicados. Al evaluar tanto modelos propietarios como de peso abierto, encontramos que ninguno alcanza más del 45% de precisión general, que el reconocimiento de preguntas inrespondibles sigue siendo una debilidad importante, y que los modelos más fuertes tienden a utilizar herramientas de manera más efectiva en lugar de simplemente consumir más tokens.

29

Agentes GUI Móviles bajo Amenazas del Mundo Real: ¿Hemos Llegado Ya?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

En los últimos años, hemos asistido a un rápido desarrollo de agentes de interfaz gráfica de usuario (GUI) para dispositivos móviles impulsados por grandes modelos de lenguaje (LLM), que pueden ejecutar de forma autónoma diversas tareas de control de dispositivos basándose en instrucciones en lenguaje natural. La creciente precisión de estos agentes en los benchmarks estándar ha generado expectativas para un despliegue a gran escala en el mundo real, y ya existen varios agentes comerciales publicados y utilizados por early adopters. Sin embargo, ¿estamos realmente preparados para que los agentes GUI se integren en nuestros dispositivos cotidianos como bloques de construcción del sistema? Sostenemos que falta una validación previa al despliegue para examinar si los agentes pueden mantener su rendimiento bajo amenazas del mundo real. Específicamente, a diferencia de los benchmarks comunes existentes que se basan en contenidos de aplicaciones estáticos y simples (deben hacerlo para garantizar la consistencia del entorno entre diferentes pruebas), las aplicaciones del mundo real están llenas de contenidos procedentes de terceros no confiables, como correos electrónicos publicitarios, publicaciones y medios generados por usuarios, etc. ... Con este fin, presentamos un marco de instrumentación de contenidos de aplicaciones escalable para permitir modificaciones de contenido flexibles y dirigidas dentro de aplicaciones existentes. Aprovechando este marco, creamos un conjunto de pruebas que comprende tanto un entorno dinámico de ejecución de tareas como un conjunto de datos estático de estados GUI desafiantes. El entorno dinámico abarca 122 tareas reproducibles, y el conjunto de datos estático consta de más de 3.000 escenarios construidos a partir de aplicaciones comerciales. Realizamos experimentos tanto en agentes GUI de código abierto como comerciales. Nuestros hallazgos revelan que el rendimiento de todos los agentes examinados puede degradarse significativamente debido a los contenidos de terceros, con una tasa promedio de inducción a error del 42.0% y del 36.1% en los entornos dinámico y estático, respectivamente. El marco y el benchmark han sido publicados en https://agenthazard.github.io.

30

¿Qué aprenden los modelos de lenguaje y cuándo? La hipótesis del currículum implícito.
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

Los modelos de lenguaje grandes (LLMs) pueden realizar tareas notablemente complejas, pero los detalles específicos de cómo emergen estas capacidades durante el preentrenamiento siguen siendo poco comprendidos. Las leyes de escalamiento basadas en la pérdida de validación nos indican cuánto mejora un modelo con recursos computacionales adicionales, pero no qué habilidades adquiere y en qué orden. Para remediar esto, proponemos la Hipótesis del Currículo Implícito: el preentrenamiento sigue un currículo compositivo y predecible a través de diferentes modelos y mezclas de datos. Probamos esta hipótesis diseñando un conjunto de tareas simples y componibles que abarcan recuperación de información, transformaciones morfológicas, correferencia, razonamiento lógico y matemáticas. Utilizando estas tareas, rastreamos los puntos de emergencia en cuatro familias de modelos que abarcan tamaños desde 410 millones hasta 13 mil millones de parámetros. Encontramos que el orden de emergencia (cuándo los modelos alcanzan umbrales de precisión fijos) es sorprendentemente consistente (ρ = .81 en 45 pares de modelos), y que las tareas compuestas emergen con mayor frecuencia después que sus tareas componentes. Además, encontramos que esta estructura está codificada en las representaciones del modelo: las tareas con representaciones vectoriales de función similares también tienden a seguir trayectorias similares durante el entrenamiento. Al utilizar el espacio de representaciones derivado de nuestro conjunto de tareas, podemos predecir efectivamente las trayectorias de entrenamiento de tareas compositivas simples no vistas (R² = .68-.84 entre modelos) a lo largo del preentrenamiento, sin haberlas evaluado previamente. En conjunto, estos resultados sugieren que el preentrenamiento está más estructurado de lo que revelan las curvas de pérdida: las habilidades emergen en un orden compositivo que es consistente entre modelos y legible desde sus representaciones internas.

Apr 15
Apr 16
Apr 17