ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

MinerU-Diffusion: Replanteamiento del OCR de Documentos como Renderizado Inverso mediante Decodificación por Difusión
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23
ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He
110
4

El reconocimiento óptico de caracteres (OCR) ha evolucionado desde la transcripción a nivel de línea hasta el análisis estructurado de documentos, lo que requiere que los modelos recuperen secuencias de formato largo que contienen diseños, tablas y fórmulas. A pesar de los recientes avances en los modelos de visión y lenguaje, la mayoría de los sistemas existentes dependen de la decodificación autoregresiva, lo que introduce latencia secuencial y amplifica la propagación de errores en documentos extensos. En este trabajo, revisitamos el OCR de documentos desde una perspectiva de renderizado inverso, argumentando que la generación causal de izquierda a derecha es un artefacto de la serialización más que una propiedad intrínseca de la tarea. Motivados por esta idea, proponemos MinerU-Diffusion, un marco unificado basado en difusión que reemplaza la decodificación secuencial autoregresiva con una desruidificación por difusión paralela bajo condicionamiento visual. MinerU-Diffusion emplea un decodificador de difusión por bloques y una estrategia de aprendizaje curricular impulsada por incertidumbre para permitir un entrenamiento estable y una inferencia eficiente en secuencias largas. Experimentos exhaustivos demuestran que MinerU-Diffusion mejora consistentemente la robustez mientras logra una decodificación hasta 3.2 veces más rápida en comparación con los métodos autoregresivos de referencia. Las evaluaciones en el benchmark propuesto Semantic Shuffle confirman además su reducida dependencia de previos lingüísticos y su capacidad de OCR visual más sólida.

2

WildWorld: Un Conjunto de Datos a Gran Escala para el Modelado Dinámico de Mundos con Acciones y Estados Explícitos hacia ARPG Generativo
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24
ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
66
1

La teoría de sistemas dinámicos y el aprendizaje por refuerzo conciben la evolución del mundo como una dinámica de estados latentes impulsada por acciones, donde las observaciones visuales proporcionan información parcial sobre el estado. Los modelos de mundo en video recientes intentan aprender esta dinámica condicionada por acciones a partir de datos. Sin embargo, los conjuntos de datos existentes rara vez cumplen con este requisito: generalmente carecen de espacios de acción diversos y semánticamente significativos, y las acciones están directamente vinculadas a observaciones visuales en lugar de estar mediadas por estados subyacentes. Como resultado, las acciones a menudo se entrelazan con cambios a nivel de píxeles, dificultando que los modelos aprendan dinámicas mundiales estructuradas y mantengan una evolución consistente en horizontes temporales largos. En este artículo, proponemos WildWorld, un conjunto de datos a gran escala para modelado de mundos condicionado por acciones, con anotaciones explícitas de estado, recolectado automáticamente de un juego de rol de acción AAA fotorrealista (Monster Hunter: Wilds). WildWorld contiene más de 108 millones de fotogramas y presenta más de 450 acciones, incluyendo movimiento, ataques y lanzamiento de habilidades, junto con anotaciones sincronizadas por fotograma de esqueletos de personajes, estados del mundo, poses de cámara y mapas de profundidad. Además, derivamos WildBench para evaluar modelos mediante Seguimiento de Acciones y Alineación de Estados. Experimentos exhaustivos revelan desafíos persistentes en el modelado de acciones semánticamente ricas y el mantenimiento de la consistencia de estados a largo plazo, destacando la necesidad de una generación de video consciente del estado. La página del proyecto es https://shandaai.github.io/wildworld-project/.

3

SpecEyes: Aceleración de LLMs Multimodales Agénticos mediante Percepción y Planificación Especulativas
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24
ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
42
2

Los modelos de agentes lingüísticos multimodales de gran tamaño (MLLMs) (por ejemplo, OpenAI o3 y Gemini Agentic Vision) logran capacidades de razonamiento notables mediante la invocación iterativa de herramientas visuales. Sin embargo, los bucles en cascada de percepción, razonamiento y llamadas a herramientas introducen una sobrecarga secuencial significativa. Esta sobrecarga, denominada profundidad agentica, incurre en una latencia prohibitiva y limita seriamente la concurrencia a nivel del sistema. Para ello, proponemos SpecEyes, un marco de aceleración especulativa a nivel agentico que rompe este cuello de botella secuencial. Nuestra idea clave es que un MLLM ligero y sin herramientas puede actuar como un planificador especulativo para predecir la trayectoria de ejecución, permitiendo la terminación anticipada de cadenas de herramientas costosas sin sacrificar la precisión. Para regular esta planificación especulativa, introducimos un mecanismo de compuerta cognitiva basado en la separabilidad de respuestas, que cuantifica la confianza del modelo para la auto-verificación sin requerir etiquetas de referencia. Además, diseñamos un embudo paralelo heterogéneo que aprovecha la concurrencia sin estado del modelo pequeño para enmascarar la ejecución serial con estado del modelo grande, maximizando el rendimiento del sistema. Experimentos exhaustivos en V* Bench, HR-Bench y POPE demuestran que SpecEyes logra una aceleración de 1.1-3.35x sobre la línea base agentica, preservando o incluso mejorando la precisión (hasta +6.7%), impulsando así el rendimiento de servicio bajo cargas de trabajo concurrentes.

4

De Plantillas Estáticas a Gráficos Dinámicos en Tiempo de Ejecución: Una Revisión de la Optimización de Flujos de Trabajo para Agentes de LLM
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23
ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan
41
1

Los sistemas basados en modelos de lenguaje de gran tamaño (LLM) son cada vez más populares para resolver tareas mediante la construcción de flujos de trabajo ejecutables que intercalan llamadas al LLM, recuperación de información, uso de herramientas, ejecución de código, actualizaciones de memoria y verificación. Esta revisión examina métodos recientes para diseñar y optimizar dichos flujos de trabajo, que tratamos como grafos de computación agentiva (ACGs). Organizamos la literatura basándonos en cuándo se determina la estructura del flujo de trabajo, donde "estructura" se refiere a qué componentes o agentes están presentes, cómo dependen unos de otros y cómo fluye la información entre ellos. Esta perspectiva distingue entre métodos estáticos, que fijan un andamiaje de flujo de trabajo reutilizable antes del despliegue, y métodos dinámicos, que seleccionan, generan o revisan el flujo de trabajo para una ejecución particular antes o durante su realización. Organizamos aún más el trabajo previo a lo largo de tres dimensiones: cuándo se determina la estructura, qué parte del flujo de trabajo se optimiza y qué señales de evaluación guían la optimización (por ejemplo, métricas de tareas, señales de verificadores, preferencias o retroalimentación derivada de trazas). También distinguimos entre plantillas de flujo de trabajo reutilizables, grafos realizados específicos de una ejecución y trazas de ejecución, separando así las decisiones de diseño reutilizables de las estructuras realmente desplegadas en una ejecución dada y del comportamiento en tiempo de ejecución realizado. Finalmente, esbozamos una perspectiva de evaluación consciente de la estructura que complementa las métricas de tareas posteriores con propiedades a nivel de grafo, costo de ejecución, robustez y variación estructural entre entradas. Nuestro objetivo es proporcionar un vocabulario claro, un marco unificado para posicionar nuevos métodos, una visión más comparable del cuerpo de literatura existente y un estándar de evaluación más reproducible para trabajos futuros en optimización de flujos de trabajo para agentes basados en LLM.

5

PEARL: Modelo Personalizado para la Comprensión de Vídeo en Streaming
PEARL: Personalized Streaming Video Understanding Model

Mar 20
ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang
36
3

La cognición humana de nuevos conceptos es inherentemente un proceso continuo: reconocemos continuamente nuevos objetos o identidades y actualizamos nuestros recuerdos con el tiempo. Sin embargo, los métodos actuales de personalización multimodal se limitan en gran medida a imágenes estáticas o videos previamente grabados. Esto desconecta la entrada visual continua de la retroalimentación instantánea del mundo real, limitando su capacidad para proporcionar las respuestas personalizadas interactivas y en tiempo real esenciales para los futuros asistentes de IA. Para cerrar esta brecha, primero proponemos y definimos formalmente la novedosa tarea de Comprensión de Video Continuo Personalizado (PSVU, por sus siglas en inglés). Para facilitar la investigación en esta nueva dirección, presentamos PEARL-Bench, el primer benchmark integral diseñado específicamente para evaluar este entorno desafiante. Evalúa la capacidad de un modelo para responder a conceptos personalizados en marcas de tiempo exactas bajo dos modalidades: (1) a nivel de Fotograma, centrándose en una persona u objeto específico en fotogramas discretos, y (2) una novedosa modalidad a nivel de Video, centrándose en acciones personalizadas que se desarrollan a lo largo de fotogramas continuos. PEARL-Bench comprende 132 videos únicos y 2,173 anotaciones detalladas con marcas de tiempo precisas. La diversidad de conceptos y la calidad de las anotaciones se garantizan estrictamente mediante una canalización combinada de generación automatizada y verificación humana. Para abordar este nuevo y desafiante entorno, proponemos además PEARL, una estrategia plug-and-play que no requiere entrenamiento y que sirve como una base sólida. Evaluaciones exhaustivas en 8 modelos offline y online demuestran que PEARL logra un rendimiento de vanguardia. Notablemente, aporta mejoras consistentes en PSVU cuando se aplica a 3 arquitecturas distintas, demostrando ser una estrategia altamente efectiva y robusta. Esperamos que este trabajo impulse la personalización de los modelos de visión y lenguaje (VLM) e inspire further investigaciones hacia asistentes de IA personalizados de flujo continuo. El código está disponible en https://github.com/Yuanhong-Zheng/PEARL.

6

DA-Flow: Estimación de Flujo Óptico Consciente de la Degradación con Modelos de Difusión
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24
ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim
35
1

Los modelos de flujo óptico entrenados con datos de alta calidad suelen degradarse severamente al enfrentarse a corrupciones del mundo real como desenfoque, ruido y artefactos de compresión. Para superar esta limitación, formulamos el Flujo Óptico Consciente de la Degradación, una nueva tarea que busca estimar correspondencias densas precisas a partir de videos corruptos del mundo real. Nuestra idea clave es que las representaciones intermedias de los modelos de difusión para restauración de imágenes son inherentemente conscientes de la corrupción, pero carecen de conciencia temporal. Para abordar esta limitación, elevamos el modelo para que atienda a través de fotogramas adyacentes mediante atención espacio-temporal completa, y demostramos empíricamente que las características resultantes exhiben capacidades de correspondencia de cero disparos. Basándonos en este hallazgo, presentamos DA-Flow, una arquitectura híbrida que fusiona estas características de difusión con características convolucionales dentro de un marco de refinamiento iterativo. DA-Flow supera sustancialmente a los métodos existentes de flujo óptico bajo degradación severa en múltiples benchmarks.

7

SIMART: Descomposición de Mallas Monolíticas en Activos Articulados Listos para Simulación mediante MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24
ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
33
1

Los activos 3D articulados de alta calidad son indispensables para la IA corporeizada y la simulación física, sin embargo, la generación 3D aún se centra en mallas estáticas, dejando un vacío en objetos interactivos "listos para simulación". La mayoría de los métodos recientes de creación de objetos articulados se basan en canalizaciones multi-etapa que acumulan errores a través de módulos desacoplados. Alternativamente, los MLLM unificados ofrecen una ruta de una sola etapa para la comprensión conjunta de activos estáticos y la generación de activos listos para simulación. Sin embargo, la tokenización 3D densa basada en vóxeles genera secuencias largas de tokens 3D y una alta sobrecarga de memoria, limitando la escalabilidad a objetos articulados complejos. Para abordar esto, proponemos SIMART, un marco MLLM unificado que realiza conjuntamente descomposición a nivel de partes y predicción cinemática. Al introducir un Sparse 3D VQ-VAE, SIMART reduce el recuento de tokens en un 70% frente a los tokens de vóxeles densos, permitiendo ensamblajes multi-parte de alta fidelidad. SIMART logra un rendimiento state-of-the-art en PartNet-Mobility y en conjuntos de datos AIGC del mundo real, y permite simulación robótica basada en la física.

8

UniGRPO: Optimización Unificada de Políticas para la Generación Visual Guiada por el Razonamiento
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24
ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang
29
1

Los modelos unificados capaces de generación entrelazada han surgido como un paradigma prometedor, con la comunidad convergiendo cada vez más en el modelado autoregresivo para texto y el *flow matching* para la generación de imágenes. Para avanzar en esta dirección, proponemos un marco unificado de aprendizaje por refuerzo adaptado para la generación entrelazada. Validamos nuestro enfoque en su unidad fundamental: una única ronda de generación de imágenes impulsada por razonamiento, donde el modelo primero expande el prompt del usuario mediante razonamiento, seguido de la síntesis de imágenes. Al formular este proceso de generación multimodal como un Proceso de Decisión de Markov con recompensas terminales dispersas, introducimos UniGRPO para optimizar conjuntamente las políticas de generación de texto e imágenes utilizando GRPO. Adoptando una metodología minimalista para evitar el sobre-diseño, aprovechamos recetas de entrenamiento establecidas para ambas modalidades integrando de manera fluida el GRPO estándar para el razonamiento y FlowGRPO para la síntesis visual. Para garantizar la escalabilidad a la generación entrelazada de múltiples rondas, introducimos dos modificaciones críticas al FlowGRPO original: (1) eliminar la guía libre de clasificador para mantener trayectorias lineales y sin ramificaciones, lo cual es esencial para escalar a escenarios complejos que involucran interacciones multiturno y generación multicondición (por ejemplo, edición); y (2) reemplazar la penalización KL latente estándar con una penalización MSE directamente sobre los campos de velocidad, proporcionando una señal de regularización más robusta y directa para mitigar eficazmente la explotación de recompensas. Nuestros experimentos demuestran que esta receta de entrenamiento unificada mejora significativamente la calidad de la generación de imágenes a través del razonamiento, proporcionando una base robusta y escalable para la futura fase de *post-training* de modelos completamente entrelazados.

9

RealMaster: Elevando Escenas Renderizadas a Video Fotorrealista
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24
ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
22
4

Los modelos de última generación para la generación de vídeo producen un notable realismo fotográfico, pero carecen del control preciso necesario para alinear el contenido generado con requisitos específicos de la escena. Además, sin una geometría subyacente explícita, estos modelos no pueden garantizar la coherencia 3D. Por el contrario, los motores 3D ofrecen un control granular sobre cada elemento de la escena y proporcionan coherencia 3D nativa por diseño, aunque su salida a menudo permanece atrapada en el "valle inquietante". Salvar esta brecha entre lo simulado y lo real requiere tanto una precisión estructural, donde la salida debe preservar exactamente la geometría y la dinámica de la entrada, como una transformación semántica global, donde los materiales, la iluminación y las texturas deben transformarse de manera holística para lograr el realismo fotográfico. Presentamos RealMaster, un método que aprovecha los modelos de difusión de vídeo para elevar un vídeo renderizado a un vídeo fotorrealista manteniendo una alineación completa con la salida del motor 3D. Para entrenar este modelo, generamos un conjunto de datos emparejados mediante una estrategia de propagación basada en anclajes, donde los fotogramas primero y último se mejoran para realismo y se propagan a través de los fotogramas intermedios utilizando señales de condicionamiento geométrico. Luego entrenamos un IC-LoRA en estos vídeos emparejados para destilar las salidas de alta calidad de la pipeline en un modelo que generaliza más allá de las restricciones de la pipeline, manejando objetos y personajes que aparecen a mitad de la secuencia y permitiendo inferencia sin requerir fotogramas ancla. Evaluado en secuencias complejas de GTA-V, RealMaster supera significativamente a los métodos base existentes de edición de vídeo, mejorando el realismo fotográfico mientras preserva la geometría, la dinámica y la identidad especificadas por el control 3D original.

10

2Xplat: Dos Expertos Son Mejores Que Un Generalista
2Xplat: Two Experts Are Better Than One Generalist

Mar 22
ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park
19
3

El método de proyección de Gaussianos 3D (3DGS) libre de poses y de avance directo ha abierto una nueva frontera para el modelado 3D rápido, permitiendo generar representaciones Gaussianas de alta calidad a partir de imágenes multivista no calibradas en una sola pasada hacia adelante. El enfoque dominante en este ámbito adopta arquitecturas monolíticas unificadas, a menudo basadas en modelos fundamentales 3D centrados en la geometría, para estimar conjuntamente las poses de la cámara y sintetizar representaciones 3DGS dentro de una única red. Aunque arquitectónicamente simplificados, estos diseños "todo en uno" pueden ser subóptimos para la generación de 3DGS de alta fidelidad, ya que entrelazan el razonamiento geométrico y el modelado de apariencia dentro de una representación compartida. En este trabajo, presentamos 2Xplat, un marco de 3DGS de avance directo y libre de poses basado en un diseño de dos expertos que separa explícitamente la estimación geométrica de la generación de Gaussianos. Un experto en geometría dedicado predice primero las poses de la cámara, las cuales se pasan explícitamente a un potente experto en apariencia que sintetiza los Gaussianos 3D. A pesar de su simplicidad conceptual, y de haber sido escasamente explorado en trabajos previos, el enfoque propuesto resulta altamente efectivo. En menos de 5.000 iteraciones de entrenamiento, la canalización propuesta de dos expertos supera sustancialmente a los enfoques previos de 3DGS de avance directo y libre de poses y logra un rendimiento a la par con los métodos de vanguardia que requieren poses. Estos resultados desafían el paradigma unificado predominante y sugieren las ventajas potenciales de los principios de diseño modular para tareas complejas de estimación geométrica 3D y síntesis de apariencia.

11

Replanteamiento de la Optimización de Políticas a Nivel de Token para las Cadenas de Razonamiento Multimodales
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24
ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng
17
1

El razonamiento multimodal de Cadena de Pensamiento (CoT) requiere que los grandes modelos de visión y lenguaje construyan trayectorias de razonamiento que intercalen el anclaje perceptual con la inferencia multi-etapa. Sin embargo, los métodos existentes de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) suelen optimizar el razonamiento a una granularidad gruesa, tratando el CoT de manera uniforme sin distinguir sus distintos grados de anclaje visual. En este trabajo, realizamos un análisis a nivel de token de las trayectorias de razonamiento multimodal y demostramos que el razonamiento exitoso se caracteriza por dinámicas de tokens estructuradas que reflejan tanto el anclaje perceptual como la inferencia exploratoria. Basándonos en este análisis, proponemos la Optimización de la Política de Percepción-Exploración (PEPO), que deriva un prior de percepción a partir de la similitud de estados ocultos y lo integra con la entropía de tokens mediante un mecanismo de compuerta suave para producir ventajas a nivel de token. PEPO se integra perfectamente con marcos RLVR existentes como GRPO y DAPO, sin requerir supervisión adicional ni ramas auxiliares. Experimentos exhaustivos en diversos benchmarks multimodales demuestran mejoras consistentes y robustas respecto a sólidas líneas base de RL, abarcando razonamiento geométrico, anclaje visual, resolución de puzles visuales y clasificación con pocos ejemplos, manteniendo al mismo tiempo dinámicas de entrenamiento estables. Código: https://github.com/xzxxntxdy/PEPO

12

Atender Antes de Atender: Comprensión de Video Eficiente y Escalable mediante Mirada Autoregresiva
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12
ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin
14
1

Los modelos de lenguaje grandes multimodales (MLLMs) han avanzado en la comprensión de video de propósito general, pero luchan con videos largos y de alta resolución: procesan cada píxel por igual en sus transformadores de visión (ViTs) o LLMs a pesar de la significativa redundancia espacio-temporal. Presentamos AutoGaze, un módulo ligero que elimina los parches redundantes antes de ser procesados por un ViT o un MLLM. Entrenado con predicción del siguiente token y aprendizaje por refuerzo, AutoGaze selecciona de forma autoregresiva un conjunto mínimo de parches multi-escala que pueden reconstruir el video dentro de un umbral de error especificado por el usuario, eliminando la redundancia mientras preserva la información. Empíricamente, AutoGaze reduce los tokens visuales entre 4x y 100x y acelera los ViTs y MLLMs hasta en 19x, permitiendo escalar MLLMs a videos de resolución 4K con 1K fotogramas y logrando resultados superiores en benchmarks de video (por ejemplo, 67.0% en VideoMME). Además, presentamos HLVid: el primer benchmark de preguntas y respuestas (QA) para videos de larga duración y alta resolución, con videos de 5 minutos en resolución 4K, donde un MLLM escalado con AutoGaze mejora la línea base en un 10.1% y supera al mejor MLLM anterior en un 4.5%. Página del proyecto: https://autogaze.github.io/.

13

VP-VLA: Los Avisos Visuales como Interfaz para Modelos Visión-Lenguaje-Acción
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23
ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
9
1

Los modelos Visión-Lenguaje-Acción (VLA) suelen mapear observaciones visuales e instrucciones lingüísticas directamente a señales de control robótico. Este mapeo de "caja negra" obliga a que una única pasada hacia adelante maneje simultáneamente la interpretación de instrucciones, la localización espacial y el control de bajo nivel, lo que a menudo resulta en una escasa precisión espacial y una robustez limitada en escenarios fuera de distribución. Para abordar estas limitaciones, proponemos VP-VLA, un marco de doble sistema que desacopla el razonamiento de alto nivel y la ejecución de bajo nivel mediante una interfaz estructurada de indicación visual. Específicamente, un "Planificador del Sistema 2" descompone instrucciones complejas en subtareas e identifica objetos objetivo relevantes y ubicaciones de destino. Estos anclajes espaciales se superponen directamente sobre las observaciones visuales como indicaciones visuales estructuradas, tales como cruces de mira y cuadros delimitadores. Guiado por estas indicaciones y potenciado por un nuevo objetivo auxiliar de localización visual durante el entrenamiento, un "Controlador del Sistema 1" genera de forma fiable movimientos de ejecución de bajo nivel precisos. Los experimentos en el benchmark Robocasa-GR1-Tabletop y la simulación SimplerEnv demuestran que VP-VLA mejora las tasas de éxito en un 5% y un 8.3%, superando a líneas base competitivas como QwenOFT y GR00T-N1.6.

14

ThinkJEPA: Potenciando Modelos Mundiales Latentes con un Gran Modelo de Razonamiento Visión-Lenguaje
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23
ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu
9
1

Los recientes avances en modelos de mundo latente (por ejemplo, V-JEPA2) han demostrado una capacidad prometedora para predecir estados futuros del mundo a partir de observaciones de vídeo. Sin embargo, la predicción densa a partir de una ventana de observación corta limita el contexto temporal y puede sesgar a los predictores hacia una extrapolación local y de bajo nivel, lo que dificulta la captura de semántica a largo plazo y reduce la utilidad para tareas posteriores. Por el contrario, los modelos de visión y lenguaje (VLM) proporcionan una base semántica sólida y conocimiento general razonando sobre fotogramas muestreados uniformemente, pero no son ideales como predictores densos independientes debido al muestreo disperso impulsado por la computación, un cuello de botella de salida de lenguaje que comprime estados de interacción de grano fino en representaciones orientadas a texto, y un desajuste en el régimen de datos al adaptarse a pequeños conjuntos de datos condicionados por acciones. Proponemos un marco de modelado de mundo latente al estilo JEPA guiado por VLM que combina el modelado de dinámicas de fotogramas densos con una guía semántica a largo plazo mediante una vía de doble temporalidad: una rama JEPA densa para señales de movimiento e interacción de grano fino, y una rama "pensante" VLM muestreada uniformemente con un intervalo temporal mayor para una guía rica en conocimiento. Para transferir eficazmente las señales de razonamiento progresivo del VLM, introducimos un módulo de extracción de representación piramidal jerárquica que agrega representaciones multicapa del VLM en características de guía compatibles con la predicción latente. Los experimentos en predicción de trayectorias de manipulación manual muestran que nuestro método supera tanto a una línea de base sólida basada únicamente en VLM como a una línea de base de predictor JEPA, y produce un comportamiento de despliegue más robusto a largo plazo.

15

AgentSLR: Automatización de Revisiones Sistemáticas de la Literatura en Epidemiología con IA Agéntica
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20
ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi
8
1

Las revisiones sistemáticas de la literatura son esenciales para sintetizar la evidencia científica, pero son costosas, difíciles de escalar y requieren mucho tiempo, lo que genera cuellos de botella para las políticas basadas en la evidencia. Estudiamos si los modelos de lenguaje grandes pueden automatizar el flujo de trabajo completo de una revisión sistemática, desde la recuperación de artículos, la selección de artículos, la extracción de datos hasta la síntesis del informe. Aplicado a revisiones epidemiológicas de nueve patógenos prioritarios designados por la OMS y validado con una verdad de referencia curada por expertos, nuestro pipeline agéntico de código abierto (AgentSLR) logra un rendimiento comparable al de los investigadores humanos, mientras reduce el tiempo de revisión de aproximadamente 7 semanas a 20 horas (una aceleración de 58x). Nuestra comparación de cinco modelos de vanguardia revela que el rendimiento en las revisiones sistemáticas de la literatura depende menos del tamaño del modelo o del costo de inferencia que de las capacidades distintivas de cada modelo. Mediante una validación con humanos en el circuito, identificamos modos de fallo clave. Nuestros resultados demuestran que la IA agéntica puede acelerar sustancialmente la síntesis de evidencia científica en dominios especializados.

16

CanViT: Hacia Modelos Fundacionales de Visión Activa
CanViT: Toward Active-Vision Foundation Models

Mar 23
ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna
7
1

La visión activa por computadora promete una percepción eficiente y biológicamente plausible mediante vistazos secuenciales y localizados, pero carece de arquitecturas escalables de propósito general y pipelines de preentrenamiento. Como resultado, los Modelos Fundacionales de Visión Activa (AVFM) han permanecido inexplorados. Presentamos CanViT, el primer AVFM independiente de la tarea y de la política de adquisición. CanViT utiliza RoPE relativo a la escena para vincular un backbone Vision Transformer retinotópico y un espacio latente de trabajo de ámbito escénico espaciotópico, el *canvas*. La interacción eficiente con esta memoria de trabajo de alta capacidad se sustenta en Canvas Attention, un novedoso mecanismo de atención cruzada asimétrico. Desacoplamos el pensamiento (nivel del backbone) y la memoria (nivel del canvas), eliminando la autoatención y las capas totalmente conectadas en el canvas para lograr inferencia secuencial de baja latencia y escalabilidad a escenas grandes. Proponemos un esquema de preentrenamiento de visión activa sin etiquetas, la destilación latente densa pasiva-a-activa independiente de la política: reconstruir *embeddings* DINOv3 de toda la escena a partir de secuencias de vistazos de baja resolución con ubicaciones, niveles de zoom y longitudes aleatorizadas. Preentrenamos CanViT-B desde una inicialización aleatoria en 13.2 millones de escenas de ImageNet-21k —un orden de magnitud más que los modelos activos anteriores— y 1000 millones de vistazos aleatorios, en 166 horas en una sola H100. En segmentación ADE20K, un CanViT-B congelado alcanza un 38.5% de mIoU en un solo vistazo de baja resolución, superando el 27.6% del mejor modelo activo con 19.5 veces menos FLOPs de inferencia y sin ajuste fino, así como a su profesor DINOv3 equiparado en FLOPs o entrada. Dados vistazos adicionales, CanViT-B alcanza un 45.9% de mIoU en ADE20K. En clasificación de ImageNet-1k, CanViT-B alcanza un 81.2% de precisión top-1 con sondas de profesor congeladas. CanViT generaliza a secuencias más largas, escenas más grandes y nuevas políticas. Nuestro trabajo cierra la amplia brecha entre la visión pasiva y activa en segmentación semántica y demuestra el potencial de los AVFM como un nuevo eje de investigación.

17

Las divisiones justas cambian la clasificación: CHANRG revela una generalización limitada en la predicción de estructuras secundarias de ARN.
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20
ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu
6
1

La predicción precisa de la estructura secundaria del ARN sustenta la anotación del transcriptoma, el análisis mecanicista de ARN no codificantes y el diseño de terapias basadas en ARN. Las recientes mejoras procedentes del aprendizaje profundo y los modelos fundacionales de ARN son difíciles de interpretar porque los puntos de referencia actuales pueden sobrestimar la generalización entre familias de ARN. Presentamos CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un punto de referencia que comprende 170.083 ARN estructuralmente no redundantes, seleccionados de más de 10 millones de secuencias en Rfam 15.0 mediante deduplicación con consciencia estructural, diseño de divisiones con consciencia genómica y evaluación estructural multiescala. Entre 29 predictores, los métodos basados en modelos fundacionales alcanzaron la mayor precisión en datos retenidos, pero perdieron la mayor parte de esa ventaja fuera de distribución, mientras que los decodificadores estructurados y los predictores neuronales directos mantuvieron una robustez notablemente superior. Esta brecha persistió tras controlar por la longitud de la secuencia y reflejó tanto una pérdida de cobertura estructural como un cableado incorrecto de orden superior. En conjunto, CHANRG y una pila de evaluación sin relleno y con consciencia de simetría proporcionan un marco más estricto e invariante al procesamiento por lotes para desarrollar predictores de estructura de ARN con una robustez fuera de distribución demostrable.

18

MultiBind: Un punto de referencia para la vinculación incorrecta de atributos en la generación multi-sujeto
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23
ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang
5
1

La generación de imágenes guiada por sujetos se espera cada vez más que permita un control detallado sobre múltiples entidades dentro de una sola imagen. En los flujos de trabajo multirreferencia, los usuarios pueden proporcionar varias imágenes de sujetos, una referencia de fondo y prompts largos indexados por entidad para controlar a varias personas dentro de una escena. En este contexto, un modo de fallo clave es la vinculación incorrecta de atributos entre sujetos: los atributos se conservan, editan o transfieren al sujeto equivocado. Los puntos de referencia y las métricas existentes enfatizan en gran medida la fidelidad holística o la auto-similitud por sujeto, lo que dificulta diagnosticar tales fallos. Presentamos MultiBind, un punto de referencia construido a partir de fotografías reales de múltiples personas. Cada instancia proporciona recortes de sujetos ordenados por espacios con máscaras y cuadros delimitadores, referencias de sujetos canonizadas, una referencia de fondo inpintado y un prompt denso indexado por entidad derivado de anotaciones estructuradas. También proponemos un protocolo de evaluación de confusión dimensional que empareja los sujetos generados con los espacios de la verdad fundamental y mide la similitud de espacio a espacio utilizando especialistas para la identidad facial, la apariencia, la pose y la expresión. Al restar las matrices de similitud de la verdad fundamental correspondientes, nuestro método separa la autodegradación de la verdadera interferencia entre sujetos y expone patrones de fallo interpretables como deriva, intercambio, dominancia y mezcla. Los experimentos con generadores multirreferencia modernos muestran que MultiBind revela fallos de vinculación que las métricas de reconstrucción convencionales pasan por alto.

19

VTAM: Modelos Video-Táctiles-Acción para la Interacción Física Compleja más allá de los VLA
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24
ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou
4
1

Los Modelos de Acción-Vídeo (VAMs) han surgido como un marco prometedor para la inteligencia corporeizada, aprendiendo dinámicas implícitas del mundo a partir de flujos de vídeo sin procesar para producir predicciones de acciones temporalmente consistentes. Aunque estos modelos demuestran un alto rendimiento en tareas de largo horizonte mediante razonamiento visual, siguen siendo limitados en escenarios ricos en contacto, donde los estados críticos de interacción son solo parcialmente observables únicamente a partir de la visión. En particular, la modulación de fuerzas de grano fino y las transiciones de contacto no se codifican de forma fiable en los tokens visuales, lo que conduce a comportamientos inestables o imprecisos. Para salvar esta brecha, presentamos el Modelo de Acción Vídeo-Táctil (VTAM), un marco de modelado del mundo multimodal que incorpora la percepción táctil como señal de anclaje complementaria. VTAM aumenta un transformador de vídeo preentrenado con flujos táctiles mediante un ajuste fino de transferencia de modalidad ligero, permitiendo un aprendizaje de representación cross-modal eficiente sin datos emparejados táctil-lenguaje ni preentrenamiento táctil independiente. Para estabilizar la fusión multimodal, introducimos una pérdida por regularización táctil que impone una atención cross-modal equilibrada, evitando el dominio latente visual en el modelo de acción. VTAM demuestra un rendimiento superior en la manipulación rica en contacto, manteniendo una tasa de éxito robusta del 90 por ciento de media. En escenarios desafiantes, como la recogida y colocación de patatas fritas que requiere una alta conciencia de la fuerza, VTAM supera a la línea base π 0.5 en un 80 por ciento. Nuestros hallazgos demuestran que la integración de la retroalimentación táctil es esencial para corregir errores de estimación visual en los modelos de acción del mundo, proporcionando un enfoque escalable para modelos fundacionales corporeizados con base física.

20

Escasos pero Críticos: Un Análisis a Nivel de Token de los Cambios Distribucionales en el Ajuste Fino RLVR para Modelos de Lenguaje Grandes
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23
ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
4
0

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mejorado significativamente el razonamiento en los modelos de lenguaje grandes (LLM), aunque los mecanismos a nivel de token subyacentes a estas mejoras siguen sin estar claros. Presentamos un estudio empírico sistemático de los efectos distribucionales del RLVR organizado en torno a tres análisis principales: (1) caracterización a nivel de token de los cambios distribucionales entre los modelos base y los modelos de RL, (2) el impacto de los cambios distribucionales a nivel de token en el rendimiento del razonamiento a nivel de secuencia mediante intervenciones de muestreo cruzado, y (3) la mecánica detallada de estos cambios a nivel de token. Encontramos que el ajuste fino con RL induce cambios altamente dispersos y dirigidos, donde solo una pequeña fracción de las distribuciones de tokens exhibe una divergencia significativa entre las políticas base y las de RL. Caracterizamos además la estructura y evolución de estos cambios mediante análisis de la entropía de los tokens, la concentración posicional y la reasignación de la masa de probabilidad. Para evaluar la importancia funcional de estos cambios dispersos, realizamos experimentos de muestreo cruzado que intercambian selectivamente elecciones de tokens entre los modelos base y los de RL con distintos presupuestos de intervención. Demostramos que insertar solo una pequeña fracción de tokens muestreados por RL en las generaciones base recupera progresivamente las ganancias de rendimiento de RL, mientras que inyectar un número similar de elecciones de tokens base en secuencias generadas por RL colapsa el rendimiento a los niveles base, aislando un pequeño conjunto de decisiones a nivel de token directamente responsables de las mejoras de rendimiento del RLVR. Finalmente, exploramos variantes de la señal de ventaja ponderadas por divergencia como una intervención de diagnóstico, encontrando que pueden producir mejoras sobre las líneas base. En conjunto, nuestros resultados arrojan luz sobre los cambios distribucionales inducidos por el RLVR y proporcionan una lente detallada a nivel de token para comprender el ajuste fino del RLVR como un proceso de refinamiento dirigido.

21

TrajLoom: Generación Densa de Trayectorias Futuras a partir de Video
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23
ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
4
1

La predicción de movimiento futuro es crucial para la comprensión de vídeo y la generación de vídeo controlable. Las trayectorias de puntos densas son una representación de movimiento compacta y expresiva, pero modelar su evolución futura a partir de vídeo observado sigue siendo un desafío. Proponemos un marco que predice trayectorias futuras y su visibilidad a partir de trayectorias pasadas y contexto de vídeo. Nuestro método tiene tres componentes: (1) Codificación de Desplazamiento de Anclaje en Rejilla, que reduce el sesgo dependiente de la ubicación representando cada punto como un desplazamiento desde su anclaje en el centro del píxel; (2) TrajLoom-VAE, que aprende un espacio latente espacio-temporal compacto para trayectorias densas mediante reconstrucción enmascarada y un regularizador de consistencia espacio-temporal; y (3) TrajLoom-Flow, que genera trayectorias futuras en el espacio latente mediante *flow matching*, con señales de borde y ajuste fino *on-policy* de K pasos para un muestreo estable. También presentamos TrajLoomBench, un benchmark unificado que abarca vídeos reales y sintéticos con una configuración estandarizada alineada con los benchmarks de generación de vídeo. En comparación con los métodos state-of-the-art, nuestro enfoque extiende el horizonte de predicción de 24 a 81 fotogramas, mejorando además el realismo y la estabilidad del movimiento en diversos conjuntos de datos. Las trayectorias predichas admiten directamente la generación y edición de vídeo posteriores. El código, los puntos de control del modelo y los conjuntos de datos están disponibles en https://trajloom.github.io/.

22

La Abstracción como Sesgo Inductivo Eficiente en Memoria para el Aprendizaje Continuo
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17
ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani
4
1

El mundo real es no estacionario e infinitamente complejo, lo que requiere que los agentes inteligentes aprendan continuamente sin el costo prohibitivo de reentrenar desde cero. Si bien el aprendizaje continuo en línea ofrece un marco para este escenario, aprender nueva información a menudo interfiere con el conocimiento adquirido previamente, causando olvido y degradación de la generalización. Para abordar esto, proponemos Entrenamiento Aumentado con Abstracción (AAT), una modificación a nivel de función de pérdida que incentiva a los modelos a capturar la estructura relacional latente compartida entre ejemplos. Al optimizar conjuntamente sobre instancias concretas y sus representaciones abstractas, AAT introduce un sesgo inductivo eficiente en memoria que estabiliza el aprendizaje en flujos de datos estrictamente en línea, eliminando la necesidad de un búfer de repetición. Para capturar la naturaleza multifacética de la abstracción, introducimos y evaluamos AAT en dos benchmarks: un conjunto de datos relacional controlado donde la abstracción se realiza mediante el enmascaramiento de entidades, y un conjunto de datos narrativo donde la abstracción se expresa mediante proverbios compartidos. Nuestros resultados muestran que AAT logra un rendimiento comparable o superior a las líneas base sólidas de repetición de experiencias (ER), a pesar de requerir memoria adicional cero y solo cambios mínimos en el objetivo de entrenamiento. Este trabajo destaca la abstracción estructural como una alternativa poderosa y libre de memoria a ER.

23

VISión Bajo Demanda: Mejora de la eficiencia de VLLM con interacciones visión-lenguaje dispersas y seleccionadas dinámicamente
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24
ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos
3
1

Los enfoques existentes para mejorar la eficiencia de los Grandes Modelos de Visión y Lenguaje (LVLM) se basan en gran medida en el concepto de reducción de tokens visuales. Sin embargo, este enfoque crea un cuello de botella de información que perjudica el rendimiento, especialmente en tareas complejas que requieren una comprensión y razonamiento de grano fino. En este trabajo, desafiamos este paradigma presentando VISion On Request (VISOR), un método que reduce el costo de inferencia sin descartar información visual. En lugar de comprimir la imagen, VISOR mejora la eficiencia mediante la esparsificación de la interacción entre los tokens de imagen y texto. Específicamente, el modelo de lenguaje atiende al conjunto completo de tokens visuales de alta resolución a través de un pequeño conjunto de capas de atención colocadas estratégicamente: el contexto visual general lo proporciona una atención cruzada eficiente entre texto e imagen, mientras que unas pocas capas de auto-atención, bien situadas y seleccionadas dinámicamente, refinan las propias representaciones visuales, permitiendo un razonamiento complejo y de alta resolución cuando es necesario. Basándonos en este principio, primero entrenamos una única red universal en un rango de presupuestos computacionales variando el número de capas de auto-atención, y luego introducimos un mecanismo de política ligero que asigna dinámicamente el cómputo visual en función de la complejidad de cada muestra. Experimentos exhaustivos demuestran que VISOR reduce drásticamente el coste computacional a la vez que iguala o supera los resultados de vanguardia en un conjunto diverso de benchmarks, y sobresale en tareas desafiantes que requieren una comprensión visual detallada.

24

¡Una Vista es Suficiente! Entrenamiento Monocular para la Generación de Nuevas Vistas en Entornos Naturales
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24
ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
3
1

La síntesis de nuevas vistas a partir de una sola imagen ha requerido tradicionalmente pares de imágenes multi-vista para su supervisión, lo que limita la escala y diversidad de los datos de entrenamiento. Sostenemos que esto no es necesario: una sola vista es suficiente. Presentamos OVIE, entrenado completamente con imágenes de internet no emparejadas. Aprovechamos un estimador de profundidad monocular como andamiaje geométrico durante el entrenamiento: elevamos una imagen fuente a 3D, aplicamos una transformación de cámara muestreada y proyectamos para obtener una vista pseudo-objetivo. Para manejar las disoclusiones, introducimos una formulación de entrenamiento enmascarado que restringe las pérdidas geométrica, perceptual y textural a las regiones válidas, permitiendo el entrenamiento con 30 millones de imágenes no curadas. En la inferencia, OVIE no requiere geometría, prescindiendo de estimadores de profundidad o representaciones 3D. Entrenado exclusivamente con imágenes del mundo real, OVIE supera a métodos anteriores en un entorno de cero disparos, siendo además 600 veces más rápido que el segundo mejor método de referencia. El código y los modelos están disponibles públicamente en https://github.com/AdrienRR/ovie.

25

Ego2Web: Un Punto de Referencia para Agentes Web Basado en Videos Egocéntricos
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23
ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong
3
1

Los agentes de IA multimodal están automatizando cada vez más flujos de trabajo complejos del mundo real que implican ejecución web en línea. Sin embargo, los puntos de referencia actuales para agentes web adolecen de una limitación crítica: se centran exclusivamente en la interacción y percepción basadas en la web, careciendo de una base en el entorno físico real del usuario. Esta limitación impide la evaluación en escenarios cruciales, como cuando un agente debe utilizar percepción visual egocéntrica (por ejemplo, mediante gafas de realidad aumentada) para reconocer un objeto en el entorno del usuario y luego completar una tarea relacionada en línea. Para abordar esta brecha, presentamos Ego2Web, el primer punto de referencia diseñado para tender un puente entre la percepción de video egocéntrico y la ejecución de agentes web. Ego2Web empareja grabaciones de video en primera persona del mundo real con tareas web que requieren comprensión visual, planificación de tareas web e interacción en un entorno en línea para su finalización exitosa. Utilizamos un pipeline de generación automática de datos combinado con verificación y refinamiento humano para seleccionar pares de video-tarea bien construidos y de alta calidad en diversos tipos de tareas web, incluyendo comercio electrónico, recuperación de medios, consulta de conocimiento, etc. Para facilitar una evaluación precisa y escalable de nuestro punto de referencia, también desarrollamos un novedoso método de evaluación automática LLM-como-Juez, Ego2WebJudge, que alcanza aproximadamente un 84% de concordancia con el juicio humano, sustancialmente más alto que los métodos de evaluación existentes. Los experimentos con diversos agentes SoTA en nuestro Ego2Web muestran que su rendimiento es débil, con un margen de mejora sustancial en todas las categorías de tareas. También realizamos un estudio de ablación integral sobre el diseño de tareas, destacando la necesidad de una comprensión precisa del video en la tarea propuesta y las limitaciones de los agentes actuales. Esperamos que Ego2Web pueda ser un recurso nuevo y crítico para desarrollar asistentes de IA verdaderamente capaces que puedan ver, comprender y actuar de manera fluida a través de los mundos físico y digital.

26

Alineación Composicional Guiada por Incertidumbre con Representatividad Semántica de Parte-a-Todo en Modelos Visión-Lenguaje Hiperbólicos
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23
ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun
3
1

Si bien los Modelos de Visión y Lenguaje (VLM) han logrado un rendimiento notable, sus *embeddings* euclidianos siguen siendo limitados para capturar relaciones jerárquicas, como las estructuras parte-todo o padre-hijo, y a menudo enfrentan desafíos en escenarios compositivos multiobjeto. Los VLM hiperbólicos mitigan este problema preservando mejor las estructuras jerárquicas y modelando las relaciones parte-todo (es decir, la escena completa y sus imágenes parciales) mediante la implicación (*entailment*). Sin embargo, los enfoques existentes no modelan el hecho de que cada parte tiene un nivel diferente de representatividad semántica con respecto al todo. Proponemos la Alineación Hiperbólica Compositiva Guiada por Incertidumbre (UNCHA, por sus siglas en inglés) para mejorar los VLM hiperbólicos. UNCHA modela la representatividad semántica parte-todo con incertidumbre hiperbólica, asignando una menor incertidumbre a las partes más representativas y una mayor incertidumbre a las menos representativas para la escena completa. Esta representatividad se incorpora luego al objetivo contrastivo con pesos guiados por la incertidumbre. Finalmente, la incertidumbre se calibra aún más con una pérdida de implicación regularizada por un término basado en entropía. Con las pérdidas propuestas, UNCHA aprende *embeddings* hiperbólicos con un ordenamiento parte-todo más preciso, capturando la estructura compositiva subyacente en una imagen y mejorando su comprensión de escenas multiobjeto complejas. UNCHA logra un rendimiento state-of-the-art en benchmarks de clasificación *zero-shot*, recuperación y clasificación multi-etiqueta. Nuestro código y modelos están disponibles en: https://github.com/jeeit17/UNCHA.git.

27

ABot-PhysWorld: Modelo Fundacional de Mundo Interactivo para la Manipulación Robótica con Alineación Física
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24
ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
2
0

Los modelos del mundo basados en video ofrecen un paradigma poderoso para la simulación y planificación embodidas; sin embargo, los modelos de última generación a menudo generan manipulaciones físicamente inverosímiles —como la penetración de objetos y movimientos antigravitatorios— debido al entrenamiento con datos visuales genéricos y objetivos basados en verosimilitud que ignoran las leyes físicas. Presentamos ABot-PhysWorld, un modelo de Transformer de Difusión de 14B que genera videos visualmente realistas, físicamente plausibles y controlables mediante acciones. Desarrollado a partir de un conjunto de datos curado de tres millones de clips de manipulación con anotaciones conscientes de la física, utiliza un novedoso marco de post-entrenamiento basado en DPO con discriminadores desacoplados para suprimir comportamientos no físicos manteniendo la calidad visual. Un bloque de contexto paralelo permite la inyección precisa de acciones espaciales para el control de embodimiento cruzado. Para evaluar mejor la generalización, presentamos EZSbench, el primer benchmark de cero-shot embodido independiente del entrenamiento que combina combinaciones reales y sintéticas no vistas de robot-tarea-escena. Emplea un protocolo desacoplado para evaluar por separado el realismo físico y la alineación de acciones. ABot-PhysWorld logra un nuevo rendimiento de vanguardia en PBench y EZSbench, superando a Veo 3.1 y Sora v2 Pro en plausibilidad física y consistencia de trayectorias. Liberaremos EZSbench para promover una evaluación estandarizada en la generación de video embodido.

28

¿Razonamiento o Retórica? Un Análisis Empírico de las Explicaciones de Razonamiento Moral en Modelos de Lenguaje a Gran Escala
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23
ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain
2
1

¿Los grandes modelos de lenguaje razonan moralmente, o simplemente dan la impresión de hacerlo? Investigamos si las respuestas de los LLM a dilemas morales exhiben una progresión evolutiva genuina a través de las etapas del desarrollo moral de Kohlberg, o si, por el contrario, el entrenamiento de alineación produce salidas que se asemejan al razonamiento y que superficialmente se parecen a un juicio moral maduro, pero sin la trayectoria de desarrollo subyacente. Utilizando un sistema de puntuación con un LLM como juez, validado en tres modelos jueces, clasificamos más de 600 respuestas de 13 LLMs que abarcan una variedad de arquitecturas, escalas de parámetros y regímenes de entrenamiento, en seis dilemas morales clásicos, y realizamos diez análisis complementarios para caracterizar la naturaleza y la coherencia interna de los patrones resultantes. Nuestros resultados revelan una inversión sorprendente: las respuestas se corresponden abrumadoramente con un razonamiento posconvencional (Etapas 5-6), independientemente del tamaño del modelo, la arquitectura o la estrategia de *prompting*, lo que supone la inversión efectiva de las normas del desarrollo humano, donde domina la Etapa 4. Lo más llamativo es que un subconjunto de modelos exhibe un desacoplamiento moral: una inconsistencia sistemática entre la justificación moral declarada y la elección de acción, una forma de incoherencia lógica que persiste a través de la escala y la estrategia de *prompting* y que representa un fallo directo de consistencia en el razonamiento, independiente de la sofisticación retórica. La escala del modelo tiene un efecto estadísticamente significativo pero prácticamente pequeño; el tipo de entrenamiento no tiene un efecto principal independiente significativo; y los modelos exhiben una consistencia casi robótica entre dilemas, produciendo respuestas lógicamente indistinguibles en problemas morales semánticamente distintos. Postulamos que estos patrones constituyen evidencia de un ventriloquismo moral: la adquisición, mediante el entrenamiento de alineación, de las convenciones retóricas del razonamiento moral maduro sin la trayectoria de desarrollo subyacente que esas convenciones pretenden representar.

29

Regulación de los Agentes de IA
Regulating AI Agents

Mar 24
ByKathrin Gardhouse, Amin Oueslati, Noam Kolt
2
1

Los agentes de IA —sistemas que pueden tomar acciones de forma independiente para perseguir objetivos complejos con una supervisión humana limitada— han entrado en la corriente principal. Estos sistemas se utilizan ahora ampliamente para producir software, realizar actividades comerciales y automatizar tareas personales cotidianas. Si bien los agentes de IA afectan a muchas áreas del derecho, desde el derecho de agencia y los contratos hasta la responsabilidad extracontractual y el derecho laboral, plantean cuestiones particularmente urgentes para la regulación de la IA de mayor alcance global: la Ley de Inteligencia Artificial de la Unión Europea. Promulgada antes del desarrollo y uso generalizado de los agentes de IA, la Ley de IA de la UE enfrenta obstáculos significativos para abordar los desafíos de gobernanza que surgen de esta tecnología transformadora, como los fallos en la ejecución autónoma de tareas, el riesgo de mal uso de los agentes por parte de actores malintencionados y el acceso desigual a las oportunidades económicas que brindan los agentes de IA. Analizamos sistemáticamente la respuesta de la Ley de IA de la UE a estos desafíos, centrándonos tanto en las disposiciones sustantivas de la regulación como, crucialmente, en los marcos institucionales que buscan apoyar su implementación. Nuestro análisis de la asignación de responsabilidades de supervisión y cumplimiento en la Ley, su dependencia de la autorregulación industrial y el nivel de recursos gubernamentales ilustra cómo un marco regulatorio diseñado para sistemas de IA convencionales puede ser inadecuado para los agentes de IA. En conjunto, nuestros hallazgos sugieren que los responsables políticos de la UE y otros lugares necesitarán cambiar de rumbo, y pronto, si quieren gobernar eficazmente la próxima generación de tecnología de IA.

30

Memoria de Riesgo de Sesión (SRM): Autorización Temporal para Compuertas de Seguridad de Pre-ejecución Deterministas
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22
ByFlorin Adrian Chitan
1
1

Las compuertas de seguridad deterministas de pre-ejecución evalúan si las acciones individuales de un agente son compatibles con sus roles asignados. Si bien son efectivas para la autorización por acción, estos sistemas son estructuralmente ciegos a los ataques distribuidos que descomponen una intención dañina en múltiples pasos individualmente conformes. Este artículo presenta la Memoria de Riesgo de Sesión (SRM), un módulo determinista ligero que extiende las compuertas de ejecución sin estado con autorización a nivel de trayectoria. La SRM mantiene un centroide semántico compacto que representa el perfil conductual en evolución de una sesión de agente y acumula una señal de riesgo mediante una media móvil exponencial sobre las salidas de la compuerta tras sustraer la línea base. Opera sobre la misma representación vectorial semántica que la compuerta subyacente, sin requerir componentes de modelo adicionales, entrenamiento o inferencia probabilística. Evaluamos la SRM en un benchmark multi-turno de 80 sesiones que contienen escenarios de filtración lenta de datos, escalada gradual de privilegios y deriva de cumplimiento. Los resultados muestran que ILION+SRM alcanza F1 = 1.0000 con 0% de tasa de falsos positivos, comparado con ILION sin estado en F1 = 0.9756 con 5% de TFP, mientras mantiene una tasa de detección del 100% para ambos sistemas. Críticamente, la SRM elimina todos los falsos positivos con una sobrecarga por turno inferior a 250 microsegundos. El marco introduce una distinción conceptual entre la consistencia de autorización espacial (evaluada por acción) y la consistencia de autorización temporal (evaluada sobre la trayectoria), proporcionando una base fundamentada para la seguridad a nivel de sesión en sistemas agentivos.

31

Agente STEM: Una Arquitectura Autoadaptable, Habilitada para Herramientas y Extensible para Sistemas de Agentes de IA Multi-Protocolo
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22
ByAlfred Shen, Aaron Shen
1
0

Los marcos actuales de agentes de IA adoptan prematuramente un único protocolo de interacción, una estrategia fija de integración de herramientas y modelos de usuario estáticos, lo que limita su despliegue en diversos paradigmas de interacción. Para abordar estas limitaciones, presentamos STEM Agent (Agente Autoadaptable, Habilitado para Herramientas, Extensible y Multiagente), una arquitectura modular inspirada en la pluripotencialidad biológica, en la que un núcleo de agente indiferenciado se diferencia en manejadores de protocolos especializados, vinculaciones de herramientas y subsistemas de memoria que se combinan para formar un sistema de IA completamente funcional. El marco unifica cinco protocolos de interoperabilidad (A2A, AG-UI, A2UI, UCP y AP2) detrás de una única pasarela, introduce un Perfilador de Llamadas que aprende continuamente las preferencias del usuario en más de veinte dimensiones conductuales, externaliza todas las capacidades del dominio mediante el Protocolo de Contexto del Modelo (MCP) e implementa un sistema de adquisición de habilidades de inspiración biológica en el que los patrones de interacción recurrentes se cristalizan en habilidades de agente reutilizables mediante un ciclo de vida de maduración análogo a la diferenciación celular. Complementando estas capacidades, el sistema de memoria incorpora mecanismos de consolidación, incluyendo poda episódica, desduplicación semántica y extracción de patrones, diseñados para un crecimiento sublineal bajo interacción sostenida. Una suite exhaustiva de 413 pruebas valida el comportamiento del manejador de protocolos y la integración de componentes en las cinco capas arquitectónicas, completándose en menos de tres segundos.

32

SHAMISA: Modelado de Forma de Asociaciones Estructurales Implícitas para la Evaluación de Calidad de Imágenes Sin Referencia Autosupervisada
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14
ByMahdi Naseri, Zhou Wang
1
1

La Evaluación de la Calidad de Imágenes sin Referencia (NR-IQA, por sus siglas en inglés) tiene como objetivo estimar la calidad perceptual sin acceso a una imagen de referencia de calidad prístina. Aprender un modelo NR-IQA enfrenta un cuello de botella fundamental: su necesidad de una gran cantidad de etiquetas perceptuales humanas, las cuales son costosas de obtener. Proponemos SHAMISA, un marco auto-supervisado no contrastivo que aprende a partir de imágenes distorsionadas no etiquetadas aprovechando una supervisión relacional explícitamente estructurada. A diferencia de métodos anteriores que imponen restricciones de similitud binarias y rígidas, SHAMISA introduce asociaciones estructurales implícitas, definidas como relaciones suaves y controlables que son tanto conscientes de la distorsión como sensibles al contenido, inferidas a partir de metadatos sintéticos y de la estructura intrínseca de los características. Una innovación clave es nuestro motor de distorsión composicional, que genera una familia incontable de degradaciones a partir de espacios de parámetros continuos, agrupados de modo que solo varíe un factor de distorsión a la vez. Esto permite un control de grano fino sobre la similitud representacional durante el entrenamiento: las imágenes con patrones de distorsión compartidos se acercan en el espacio de embeddings, mientras que las variaciones de severidad producen desplazamientos estructurados y predecibles. Integramos estas ideas mediante grafos de relación de doble fuente que codifican tanto los perfiles de degradación conocidos como las afinidades estructurales emergentes para guiar el proceso de aprendizaje a lo largo del entrenamiento. Un codificador convolucional se entrena bajo esta supervisión y luego se congela para la inferencia, realizándose la predicción de calidad mediante un regresor lineal sobre sus características. Experimentos exhaustivos en benchmarks NR-IQA sintéticos, auténticos y de conjunto de datos cruzados demuestran que SHAMISA logra un sólido rendimiento general con una generalización y robustez mejoradas entre conjuntos de datos, todo ello sin anotaciones humanas de calidad o pérdidas contrastivas.

33

Plan de Estudios Dirigido por Reconstrucción para Segmentación: Abordando la Sobre-Fragmentación de Objetos en el Aprendizaje Centrado en Objetos en Video
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24
ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo
1
1

El Aprendizaje Centrado en Objetos en Video busca descomponer videos crudos en un pequeño conjunto de espacios de objetos (slots), pero los modelos existentes de atención por slots a menudo sufren de una grave sobre-fragmentación. Esto se debe a que el modelo está implícitamente incentivado a ocupar todos los slots para minimizar el objetivo de reconstrucción, representando así un solo objeto con múltiples slots redundantes. Abordamos esta limitación con un currículo de slots guiado por la reconstrucción (SlotCurri). El entrenamiento comienza con solo unos pocos slots gruesos y asigna progresivamente nuevos slots donde el error de reconstrucción permanece alto, expandiendo así la capacidad solo donde se necesita y previniendo la fragmentación desde el principio. Sin embargo, durante la expansión de slots, las subpartes significativas pueden emerger solo si la semántica a nivel grueso ya está bien separada; no obstante, con un presupuesto inicial pequeño de slots y un objetivo de Error Cuadrático Medio (MSE), los límites semánticos permanecen difusos. Por lo tanto, complementamos el MSE con una pérdida consciente de la estructura que preserva el contraste local y la información de bordes para fomentar que cada slot defina mejor sus límites semánticos. Por último, proponemos una inferencia cíclica que proyecta los slots hacia adelante y luego hacia atrás a través de la secuencia de fotogramas, produciendo representaciones de objetos temporalmente consistentes incluso en los fotogramas más tempranos. En conjunto, SlotCurri aborda la sobre-fragmentación de objetos asignando capacidad representativa donde falla la reconstrucción, mejorada además por señales estructurales e inferencia cíclica. Ganancias notables de +6.8 en FG-ARI para YouTube-VIS y +8.3 en MOVi-C validan la efectividad de SlotCurri. Nuestro código está disponible en github.com/wjun0830/SlotCurri.

34

¿Pueden los agentes de IA responder sus preguntas sobre datos? Un punto de referencia para agentes de datos
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21
ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran
0
1

Los usuarios empresariales dependen cada vez más de agentes de IA para consultar sus datos mediante lenguaje natural. Sin embargo, construir agentes de datos confiables sigue siendo difícil porque los datos del mundo real a menudo están fragmentados en múltiples sistemas de bases de datos heterogéneos, con referencias inconsistentes e información enterrada en texto no estructurado. Los puntos de referencia existentes solo abordan partes aisladas de este problema —por ejemplo, traducir preguntas en lenguaje natural a consultas SQL, responder preguntas sobre tablas pequeñas proporcionadas en contexto— pero no evalúan la canalización completa de integrar, transformar y analizar datos a través de múltiples sistemas de bases de datos. Para llenar este vacío, presentamos el Data Agent Benchmark (DAB), basado en un estudio formativo de las cargas de trabajo de agentes de datos empresariales en seis industrias. El DAB comprende 54 consultas distribuidas en 12 conjuntos de datos, 9 dominios y 4 sistemas de gestión de bases de datos. En el DAB, el mejor modelo de vanguardia (Gemini-3-Pro) alcanza solo un 38% de precisión pass@1. Evaluamos cinco LLMs de vanguardia, analizamos sus modos de fallo y extraemos conclusiones para el futuro desarrollo de agentes de datos. Nuestro punto de referencia y el código de los experimentos se publican en github.com/ucbepic/DataAgentBench.

Mar 24
Mar 25
Mar 26