Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Any2Caption: Interpretación de Cualquier Condición para Generación Controlada de Subtítulos en Videos
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31, 2025

Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

774

Para abordar el cuello de botella en la interpretación precisa de la intención del usuario dentro de la comunidad actual de generación de videos, presentamos Any2Caption, un marco novedoso para la generación controlada de videos bajo cualquier condición. La idea clave es desacoplar los diversos pasos de interpretación de condiciones del paso de síntesis de video. Al aprovechar modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), Any2Caption interpreta entradas diversas—texto, imágenes, videos y señales especializadas como regiones, movimiento y poses de cámara—en subtítulos densos y estructurados que ofrecen a los generadores de video una guía más efectiva. También presentamos Any2CapIns, un conjunto de datos a gran escala con 337K instancias y 407K condiciones para el ajuste de instrucciones de cualquier condición a subtítulo. Evaluaciones exhaustivas demuestran mejoras significativas de nuestro sistema en controlabilidad y calidad de video en varios aspectos de los modelos existentes de generación de videos. Página del proyecto: https://sqwu.top/Any2Cap/

JudgeLRM: Modelos de Razonamiento a Gran Escala como Juez
JudgeLRM: Large Reasoning Models as a Judge

Mar 31, 2025

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

616

El auge de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como evaluadores ofrece una alternativa escalable a la anotación humana, aunque los enfoques existentes de Ajuste Fino Supervisado (SFT, por sus siglas en inglés) para jueces a menudo no alcanzan el nivel requerido en dominios que exigen razonamiento complejo. En este trabajo, investigamos si los jueces basados en LLMs realmente se benefician de capacidades de razonamiento mejoradas. A través de un análisis detallado de los requisitos de razonamiento en tareas de evaluación, revelamos una correlación negativa entre las mejoras de rendimiento del SFT y la proporción de muestras que demandan razonamiento, destacando las limitaciones del SFT en tales escenarios. Para abordar esto, presentamos JudgeLRM, una familia de LLMs orientados a juicios entrenados mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en resultados y específicas para jueces. Los modelos JudgeLRM superan consistentemente tanto a los modelos ajustados con SFT como a los modelos de razonamiento más avanzados. Notablemente, JudgeLRM-3B supera a GPT-4, y JudgeLRM-7B supera a DeepSeek-R1 en un 2.79% en puntuación F1, destacándose especialmente en tareas de juicio que requieren razonamiento profundo.

Atención Multi-Token
Multi-Token Attention

Apr 1, 2025

Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

522

La atención suave es un mecanismo crucial que permite a los LLMs localizar partes relevantes dentro de un contexto dado. Sin embargo, los pesos de atención individuales se determinan únicamente por la similitud entre un solo vector de consulta y un vector de clave. Esta "atención de token único" limita la cantidad de información utilizada para distinguir una parte relevante del resto del contexto. Para abordar este problema, proponemos un nuevo método de atención, la Atención Multi-Token (MTA), que permite a los LLMs condicionar sus pesos de atención en múltiples vectores de consulta y clave simultáneamente. Esto se logra aplicando operaciones de convolución sobre las consultas, claves y cabezales, permitiendo que consultas y claves cercanas influyan en los pesos de atención de las demás para lograr una atención más precisa. Como resultado, nuestro método puede localizar contextos relevantes utilizando información más rica y matizada que puede superar la capacidad de un solo vector. A través de evaluaciones exhaustivas, demostramos que MTA logra un rendimiento mejorado en una variedad de benchmarks populares. En particular, supera a los modelos base de Transformer en tareas estándar de modelado de lenguaje y en tareas que requieren buscar información dentro de contextos largos, donde la capacidad de nuestro método para aprovechar información más rica resulta especialmente beneficiosa.

Explorando el Efecto del Aprendizaje por Refuerzo en la Comprensión de Videos: Perspectivas desde SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31, 2025

Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

383

Los recientes avances en la generación de Cadenas de Pensamiento (COT, por sus siglas en inglés) han mejorado significativamente las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs), con el aprendizaje por refuerzo (RL) emergiendo como un enfoque efectivo de posentrenamiento. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) heredan este potencial de razonamiento, pero siguen siendo poco explorados en tareas que requieren tanto percepción como razonamiento lógico. Para abordar esto, presentamos SEED-Bench-R1, un punto de referencia diseñado para evaluar sistemáticamente métodos de posentrenamiento para MLLMs en la comprensión de videos. Este incluye videos complejos del mundo real y tareas de planificación cotidiana en formato de preguntas de opción múltiple, que requieren percepción y razonamiento sofisticados. SEED-Bench-R1 evalúa la generalización a través de una jerarquía de tres niveles: escenarios dentro de la distribución, entre entornos y entre entornos-tareas, equipado con un conjunto de datos de entrenamiento a gran escala con respuestas de verdad fundamental fácilmente verificables. Utilizando Qwen2-VL-Instruct-7B como modelo base, comparamos RL con el ajuste fino supervisado (SFT), demostrando la eficiencia de datos de RL y su rendimiento superior tanto en tareas dentro de la distribución como fuera de ella, superando incluso a SFT en puntos de referencia generales de comprensión de videos como LongVideoBench. Nuestro análisis detallado revela que RL mejora la percepción visual, pero a menudo produce cadenas de razonamiento menos coherentes lógicamente. Identificamos limitaciones clave como razonamiento inconsistente y señales visuales pasadas por alto, y sugerimos mejoras futuras en el razonamiento del modelo base, el modelado de recompensas y la robustez de RL frente a señales ruidosas.

Open-Qwen2VL: Preentrenamiento Computacionalmente Eficiente de Modelos de Lenguaje Multimodales Completamente Abiertos con Recursos Académicos
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1, 2025

Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

367

La reproducción del preentrenamiento de última generación en modelos de lenguaje multimodal (LLM) enfrenta barreras en cada etapa del proceso, incluyendo el filtrado de datos de alta calidad, estrategias de mezcla de datos multimodales, técnicas de empaquetamiento de secuencias y marcos de entrenamiento. Presentamos Open-Qwen2VL, un modelo de lenguaje multimodal de 2B parámetros completamente de código abierto, preentrenado eficientemente en 29M pares de imagen-texto utilizando solo 442 horas de GPU A100-40G. Nuestro enfoque emplea resolución dinámica de imágenes de baja a alta y empaquetamiento de secuencias multimodales para mejorar significativamente la eficiencia del preentrenamiento. El conjunto de datos de entrenamiento fue cuidadosamente curado utilizando tanto técnicas de filtrado basadas en MLLM (por ejemplo, MLM-Filter) como métodos convencionales de filtrado basados en CLIP, mejorando sustancialmente la calidad de los datos y la eficiencia del entrenamiento. El preentrenamiento de Open-Qwen2VL se llevó a cabo en GPUs académicas 8xA100-40G en UCSB con 5B tokens multimodales empaquetados, lo que representa el 0.36% de los 1.4T tokens de preentrenamiento multimodal de Qwen2-VL. El modelo final ajustado por instrucciones, Open-Qwen2VL, supera al MLLM de última generación parcialmente abierto Qwen2-VL-2B en varios puntos de referencia multimodales como MMBench, SEEDBench, MMstar y MathVista, lo que indica la notable eficiencia de entrenamiento de Open-Qwen2VL. Hemos liberado todos los aspectos de nuestro trabajo, incluyendo detalles de entrenamiento eficiente en cómputo y datos, métodos de filtrado de datos, scripts de empaquetamiento de secuencias, datos de preentrenamiento en formato WebDataset, el código base de entrenamiento basado en FSDP, y los puntos de control tanto del modelo base como del ajustado por instrucciones. Redefinimos "completamente abierto" para los LLM multimodales como la liberación completa de: 1) el código base de entrenamiento, 2) técnicas detalladas de filtrado de datos, y 3) todos los datos de preentrenamiento y ajuste fino supervisado utilizados para desarrollar el modelo.

CodeARC: Evaluación de las Capacidades de Razonamiento de Agentes LLM para la Síntesis Inductiva de Programas
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29, 2025

Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

342

La síntesis inductiva de programas, o programación por ejemplos, requiere sintetizar funciones a partir de ejemplos de entrada-salida que generalicen a entradas no vistas. Si bien los agentes basados en modelos de lenguaje grandes han mostrado potencial en tareas de programación guiadas por lenguaje natural, su capacidad para realizar síntesis inductiva de programas está poco explorada. Los protocolos de evaluación existentes se basan en conjuntos estáticos de ejemplos y pruebas reservadas, sin ofrecer retroalimentación cuando las funciones sintetizadas son incorrectas y sin reflejar escenarios del mundo real, como la ingeniería inversa. Proponemos CodeARC, el Desafío de Abstracción y Razonamiento de Código, un nuevo marco de evaluación donde los agentes interactúan con una función objetivo oculta al consultarla con nuevas entradas, sintetizar funciones candidatas y refinar iterativamente sus soluciones utilizando un oráculo de pruebas diferenciales. Este entorno interactivo fomenta que los agentes realicen llamadas a funciones y autocorrección basada en retroalimentación. Construimos el primer benchmark a gran escala para síntesis inductiva de programas de propósito general, que incluye 1114 funciones. Entre los 18 modelos evaluados, o3-mini obtiene el mejor rendimiento con una tasa de éxito del 52.7%, destacando la dificultad de esta tarea. El ajuste fino de LLaMA-3.1-8B-Instruct en trazas de síntesis curadas produce una mejora relativa de rendimiento de hasta un 31%. CodeARC ofrece un entorno de prueba más realista y desafiante para evaluar la síntesis de programas y el razonamiento inductivo basados en modelos de lenguaje grandes.

Escalando el Aprendizaje de Representaciones Visuales sin Lenguaje
Scaling Language-Free Visual Representation Learning

Apr 1, 2025

David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

304

El aprendizaje visual autosupervisado (SSL, por sus siglas en inglés) actualmente tiene un rendimiento inferior al preentrenamiento multimodal de contraste entre lenguaje e imagen (CLIP) en entornos multimodales como la respuesta visual a preguntas (VQA). Esta brecha multimodal se atribuye frecuentemente a la semántica introducida por la supervisión del lenguaje, a pesar de que los modelos de SSL visual y CLIP suelen entrenarse con datos diferentes. En este trabajo, nos planteamos la siguiente pregunta: "¿Los enfoques visuales autosupervisados se quedan atrás respecto a CLIP debido a la falta de supervisión del lenguaje o a diferencias en los datos de entrenamiento?" Estudiamos esta cuestión entrenando tanto modelos de SSL visual como de CLIP con los mismos datos de MetaCLIP, y utilizando VQA como un banco de pruebas diverso para codificadores visuales. En este entorno controlado, los modelos de SSL visual escalan mejor que los modelos de CLIP en términos de datos y capacidad del modelo, y el rendimiento de SSL visual no se satura incluso después de escalar hasta 7 mil millones de parámetros. Como resultado, observamos que los métodos de SSL visual alcanzan un rendimiento comparable al de CLIP en una amplia gama de benchmarks de VQA y visión clásica. Estos hallazgos demuestran que el SSL visual puro puede igualar al preentrenamiento visual supervisado por lenguaje a gran escala, abriendo nuevas oportunidades para el aprendizaje de representaciones centrado en la visión.

GeometryCrafter: Estimación Consistente de Geometría para Videos de Mundo Abierto con Priores de Difusión
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1, 2025

Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

292

A pesar de los avances notables en la estimación de profundidad en videos, los métodos existentes presentan limitaciones inherentes para lograr fidelidad geométrica a través de predicciones afín-invariantes, lo que restringe su aplicabilidad en tareas de reconstrucción y otras tareas posteriores basadas en métricas. Proponemos GeometryCrafter, un marco novedoso que recupera secuencias de mapas de puntos de alta fidelidad con coherencia temporal a partir de videos del mundo abierto, permitiendo una reconstrucción 3D/4D precisa, la estimación de parámetros de la cámara y otras aplicaciones basadas en profundidad. En el núcleo de nuestro enfoque se encuentra un Variational Autoencoder (VAE) de mapas de puntos que aprende un espacio latente independiente de las distribuciones latentes de los videos para una codificación y decodificación efectiva de mapas de puntos. Aprovechando el VAE, entrenamos un modelo de difusión de videos para modelar la distribución de secuencias de mapas de puntos condicionadas a los videos de entrada. Evaluaciones extensas en diversos conjuntos de datos demuestran que GeometryCrafter alcanza una precisión 3D, consistencia temporal y capacidad de generalización de vanguardia.

Paisaje de Pensamientos: Visualizando el Proceso de Razonamiento de los Modelos de Lenguaje a Gran Escala
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28, 2025

Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

282

Numerosas aplicaciones de los grandes modelos de lenguaje (LLMs) dependen de su capacidad para realizar razonamientos paso a paso. Sin embargo, el comportamiento de razonamiento de los LLMs sigue siendo poco comprendido, lo que plantea desafíos para la investigación, el desarrollo y la seguridad. Para abordar esta brecha, presentamos "landscape of thoughts", la primera herramienta de visualización que permite a los usuarios inspeccionar las rutas de razonamiento de la cadena de pensamiento y sus derivados en cualquier conjunto de datos de opción múltiple. Específicamente, representamos los estados en una ruta de razonamiento como vectores de características que cuantifican sus distancias a todas las opciones de respuesta. Estas características se visualizan luego en gráficos bidimensionales utilizando t-SNE. El análisis cualitativo y cuantitativo con "landscape of thoughts" distingue eficazmente entre modelos fuertes y débiles, respuestas correctas e incorrectas, así como diferentes tareas de razonamiento. También revela patrones de razonamiento indeseables, como baja consistencia y alta incertidumbre. Además, los usuarios pueden adaptar nuestra herramienta a un modelo que prediga la propiedad que observan. Mostramos esta ventaja adaptando nuestra herramienta a un verificador ligero que evalúa la corrección de las rutas de razonamiento. El código está disponible públicamente en: https://github.com/tmlr-group/landscape-of-thoughts.

Z1: Escalado eficiente en tiempo de prueba con código
Z1: Efficient Test-time Scaling with Code

Apr 1, 2025

Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

263

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) pueden lograr una mejora en la resolución de problemas complejos mediante el escalado computacional en tiempo de prueba, aunque esto suele implicar contextos más largos y un mayor costo en tokens de razonamiento. En este artículo, proponemos un método eficiente de escalado en tiempo de prueba que entrena a los LLMs en trayectorias de razonamiento relacionadas con código, facilitando la reducción de tokens de pensamiento excesivos mientras se mantiene el rendimiento. Primero, creamos Z1-Code-Reasoning-107K, un conjunto de datos curado que incluye problemas de codificación simples y complejos junto con sus trayectorias de solución cortas y largas. Segundo, presentamos una Ventana de Pensamiento Desplazado (Shifted Thinking Window) para mitigar la sobrecarga de pensamiento excesivo al eliminar etiquetas delimitadoras de contexto (por ejemplo, <think>. . . </think>) y limitar los tokens de razonamiento. Entrenado con datos de trayectorias largas y cortas y equipado con la Ventana de Pensamiento Desplazado, nuestro modelo, Z1-7B, demuestra la capacidad de ajustar su nivel de razonamiento según la complejidad de los problemas y exhibe un escalado eficiente en tiempo de prueba en diversas tareas de razonamiento, igualando el rendimiento de R1-Distill-Qwen-7B con aproximadamente el 30% de sus tokens de pensamiento promedio. Cabe destacar que, ajustado únicamente con trayectorias de código, Z1-7B muestra generalización a tareas de razonamiento más amplias (47.5% en GPQA Diamond). Nuestro análisis sobre la elicitación eficiente de razonamiento también proporciona valiosas ideas para futuras investigaciones.

Comando A: Un Modelo de Lenguaje Grande Listo para Empresas
Command A: An Enterprise-Ready Large Language Model

Apr 1, 2025

Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao

263

En este informe describimos el desarrollo de Command A, un potente modelo de lenguaje a gran escala diseñado específicamente para destacar en casos de uso empresariales del mundo real. Command A es un modelo optimizado para agentes y con capacidad multilingüe, que ofrece soporte para 23 idiomas clave en los negocios globales, y presenta una arquitectura híbrida novedosa que equilibra eficiencia con un rendimiento de primera categoría. Ofrece capacidades de Generación Aumentada por Recuperación (RAG) de clase superior, con anclaje contextual y uso de herramientas para automatizar procesos empresariales sofisticados. Estas habilidades se logran mediante un enfoque de entrenamiento descentralizado, que incluye algoritmos de autorrefinamiento y técnicas de fusión de modelos. También presentamos resultados para Command R7B, que comparte similitudes en capacidades y arquitectura con Command A. Los pesos de ambos modelos han sido liberados con fines de investigación. Este informe técnico detalla nuestra pipeline de entrenamiento original y presenta una evaluación exhaustiva de nuestros modelos en una serie de tareas relevantes para empresas y benchmarks públicos, demostrando un rendimiento y eficiencia excepcionales.

Agente S2: Un Marco de Trabajo Compositivo Generalista-Especialista para Agentes de Uso Informático
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1, 2025

Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

222

Los agentes de uso informático automatizan tareas digitales al interactuar directamente con interfaces gráficas de usuario (GUIs) en computadoras y dispositivos móviles, ofreciendo un potencial significativo para mejorar la productividad humana al completar un espacio abierto de consultas de usuarios. Sin embargo, los agentes actuales enfrentan desafíos importantes: la localización imprecisa de elementos de la GUI, dificultades en la planificación de tareas de largo plazo y cuellos de botella en el rendimiento debido a la dependencia de modelos generalistas únicos para diversas tareas cognitivas. Para abordar esto, presentamos Agent S2, un marco composicional novedoso que delega responsabilidades cognitivas en varios modelos generalistas y especializados. Proponemos una técnica novedosa de Mezcla-de-Localización para lograr una localización precisa de la GUI e introducimos Planificación Jerárquica Proactiva, que refina dinámicamente los planes de acción en múltiples escalas temporales en respuesta a observaciones en evolución. Las evaluaciones demuestran que Agent S2 establece un nuevo estado del arte (SOTA) en tres destacados puntos de referencia de uso informático. Específicamente, Agent S2 logra mejoras relativas del 18.9% y 32.7% sobre agentes base líderes como Claude Computer Use y UI-TARS en las evaluaciones de 15 pasos y 50 pasos de OSWorld. Además, Agent S2 generaliza efectivamente a otros sistemas operativos y aplicaciones, superando los mejores métodos anteriores en un 52.8% en WindowsAgentArena y en un 16.52% en AndroidWorld relativamente. El código está disponible en https://github.com/simular-ai/Agent-S.

Recitación sobre Razonamiento: ¿Cómo los Modelos de Lenguaje de Vanguardia Pueden Fallar en Problemas de Razonamiento de Nivel de Escuela Primaria?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1, 2025

Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

2215

La rápida escalada desde problemas de nivel de escuela primaria hasta desafíos de frontera en la dificultad de los benchmarks para LLM en los últimos años ha tejido un milagro para los investigadores, colocándonos a solo un paso de superar la inteligencia humana. Sin embargo, ¿proviene la notable capacidad de razonamiento de los LLM de una verdadera inteligencia según los estándares humanos, o simplemente están recitando soluciones observadas durante su entrenamiento a nivel de Internet? Para estudiar este problema, proponemos RoR-Bench, un benchmark novedoso y multimodal diseñado para detectar el comportamiento de recitación en LLM cuando se les plantean problemas de razonamiento simples pero con condiciones sutilmente modificadas, y realizamos un análisis empírico en nuestro benchmark. Sorprendentemente, descubrimos que los LLM de vanguardia existentes exhiben de manera unánime un comportamiento de recitación extremadamente severo; al cambiar una sola frase en la condición, modelos líderes como OpenAI-o1 y DeepSeek-R1 pueden sufrir una pérdida de rendimiento del 60% en problemas aritméticos y de razonamiento de nivel de escuela primaria. Estos hallazgos son una llamada de atención para la comunidad de LLM que nos obliga a reevaluar el verdadero nivel de inteligencia de los LLM de vanguardia.

YourBench: Conjuntos de Evaluación Personalizados Fáciles para Todos
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2, 2025

Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

213

La evaluación efectiva de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo un cuello de botella crítico, ya que los puntos de referencia estáticos tradicionales sufren de saturación y contaminación, mientras que las evaluaciones humanas son costosas y lentas. Esto dificulta la evaluación oportuna o específica del dominio, crucial para aplicaciones del mundo real. Presentamos YourBench, un marco novedoso y de código abierto que aborda estas limitaciones al permitir la generación dinámica y automatizada de puntos de referencia confiables, actualizados y adaptados al dominio de manera económica y sin anotación manual, directamente a partir de documentos proporcionados por el usuario. Demostramos su eficacia al replicar 7 subconjuntos diversos de MMLU utilizando texto fuente mínimo, logrando esto por menos de 15 USD en costos totales de inferencia mientras se preserva perfectamente el ranking relativo del rendimiento de los modelos (Spearman Rho = 1) observado en el punto de referencia original. Para garantizar que YourBench genere datos basados en la entrada proporcionada en lugar de depender del conocimiento paramétrico posterior en los modelos, también presentamos Tempora-0325, un conjunto de datos novedoso de más de 7K documentos diversos, publicados exclusivamente después de marzo de 2025. Nuestro análisis exhaustivo abarca 26 modelos de última generación (SoTA) de 7 familias principales en diferentes escalas (3-671B parámetros) para validar la calidad de las evaluaciones generadas mediante verificaciones algorítmicas rigurosas (por ejemplo, fundamentación de citas) y evaluaciones humanas. Publicamos la biblioteca YourBench, el conjunto de datos Tempora-0325, más de 150k pares de preguntas y respuestas basados en Tempora, y todos los rastros de evaluación e inferencia para facilitar la investigación reproducible y empoderar a la comunidad para generar puntos de referencia personalizados bajo demanda, fomentando una evaluación de LLMs más relevante y confiable.

Hacia Agentes GUI Confiables: Una Revisión
Towards Trustworthy GUI Agents: A Survey

Mar 30, 2025

Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

213

Los agentes GUI, impulsados por grandes modelos fundacionales, pueden interactuar con interfaces digitales, permitiendo diversas aplicaciones en automatización web, navegación móvil y pruebas de software. Sin embargo, su creciente autonomía ha generado preocupaciones críticas sobre su seguridad, privacidad y fiabilidad. Este estudio examina la confiabilidad de los agentes GUI en cinco dimensiones clave: vulnerabilidades de seguridad, fiabilidad en entornos dinámicos, transparencia y explicabilidad, consideraciones éticas y metodologías de evaluación. También identificamos desafíos importantes, como la vulnerabilidad a ataques adversarios, modos de fallo en cascada en la toma de decisiones secuenciales y la falta de puntos de referencia de evaluación realistas. Estos problemas no solo dificultan el despliegue en el mundo real, sino que también exigen estrategias de mitigación integrales más allá del éxito en las tareas. A medida que los agentes GUI se vuelven más generalizados, es esencial establecer estándares de seguridad robustos y prácticas de desarrollo responsables. Este estudio proporciona una base para avanzar en la creación de agentes GUI confiables a través de una comprensión sistemática y futuras investigaciones.

MixerMDM: Composición Aprendible de Modelos de Difusión de Movimiento Humano
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1, 2025

Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

192

Generar movimiento humano guiado por condiciones como descripciones textuales es un desafío debido a la necesidad de conjuntos de datos con pares de movimiento de alta calidad y sus condiciones correspondientes. La dificultad aumenta cuando se busca un control más fino en la generación. Con este fin, trabajos previos han propuesto combinar varios modelos de difusión de movimiento preentrenados en conjuntos de datos con diferentes tipos de condiciones, permitiendo así el control con múltiples condiciones. Sin embargo, las estrategias de fusión propuestas pasan por alto que la forma óptima de combinar los procesos de generación podría depender de las particularidades de cada modelo generativo preentrenado y también de las descripciones textuales específicas. En este contexto, presentamos MixerMDM, la primera técnica de composición de modelos aprendible para combinar modelos de difusión de movimiento humano preentrenados condicionados por texto. A diferencia de enfoques anteriores, MixerMDM proporciona una estrategia de mezcla dinámica que se entrena de manera adversarial para aprender a combinar el proceso de eliminación de ruido de cada modelo dependiendo del conjunto de condiciones que guían la generación. Al utilizar MixerMDM para combinar modelos de difusión de movimiento para una y varias personas, logramos un control detallado sobre la dinámica de cada individuo y también sobre la interacción general. Además, proponemos una nueva técnica de evaluación que, por primera vez en esta tarea, mide la calidad de la interacción y la individualidad al calcular la alineación entre los movimientos generados mezclados y sus condiciones, así como la capacidad de MixerMDM para adaptar la mezcla a lo largo del proceso de eliminación de ruido dependiendo de los movimientos a combinar.

OmniMMI: Un punto de referencia integral para la interacción multimodal en contextos de video en streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29, 2025

Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

182

El rápido avance de los modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) como GPT-4o ha impulsado el desarrollo de modelos de lenguaje Omni, diseñados para procesar y responder proactivamente a flujos continuos de datos multimodales. A pesar de su potencial, evaluar sus capacidades interactivas en contextos del mundo real, como en videos en streaming, sigue siendo un desafío formidable. En este trabajo, presentamos OmniMMI, un punto de referencia integral de interacción multimodal diseñado específicamente para OmniLLMs en contextos de video en streaming. OmniMMI abarca más de 1,121 videos y 2,290 preguntas, abordando dos desafíos críticos y poco explorados en los puntos de referencia de video existentes: la comprensión de videos en streaming y el razonamiento proactivo, a través de seis subtareas distintas. Además, proponemos un marco novedoso, el Modelado de Multiplexación Multimodal (M4), diseñado para permitir un modelo de streaming eficiente en la inferencia que pueda ver, escuchar y generar simultáneamente.

Aprovechando la Economía del Razonamiento: Una Revisión del Razonamiento Eficiente para Modelos de Lenguaje a Gran Escala
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31, 2025

Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

172

Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han mejorado significativamente su capacidad para realizar tareas de razonamiento complejo, transitando desde un pensamiento rápido e intuitivo (Sistema 1) hacia un razonamiento lento y profundo (Sistema 2). Si bien el razonamiento del Sistema 2 mejora la precisión en las tareas, a menudo conlleva costos computacionales sustanciales debido a su naturaleza de pensamiento lento y a comportamientos de razonamiento ineficientes o innecesarios. Por el contrario, el razonamiento del Sistema 1 es computacionalmente eficiente, pero resulta en un rendimiento subóptimo. En consecuencia, es crucial equilibrar la relación entre el rendimiento (beneficios) y los costos computacionales (presupuestos), lo que da lugar al concepto de economía de razonamiento. En este estudio, proporcionamos un análisis exhaustivo de la economía de razonamiento tanto en las etapas de posentrenamiento como en la inferencia en tiempo de prueba de los LLMs, abarcando i) la causa de la ineficiencia en el razonamiento, ii) el análisis del comportamiento de diferentes patrones de razonamiento y iii) posibles soluciones para lograr una economía de razonamiento. Al ofrecer ideas prácticas y destacar desafíos abiertos, nuestro objetivo es iluminar estrategias para mejorar la economía de razonamiento de los LLMs, sirviendo así como un recurso valioso para avanzar en la investigación de esta área en evolución. También proporcionamos un repositorio público para rastrear continuamente los desarrollos en este campo de rápida evolución.

Cuándo Resolver, Cuándo Verificar: Resolución de Problemas Óptima en Cómputo y Verificación Generativa para el Razonamiento en LLM
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1, 2025

Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

151

El escalado del cómputo en tiempo de prueba ha surgido como una estrategia clave para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), particularmente en tareas como la resolución de problemas matemáticos. Un enfoque tradicional, la Autoconsistencia (SC, por sus siglas en inglés), genera múltiples soluciones a un problema y selecciona la respuesta más común mediante votación mayoritaria. Otro método común implica puntuar cada solución con un modelo de recompensa (verificador) y elegir la mejor. Los avances recientes en Modelos Generativos de Recompensa (GenRM, por sus siglas en inglés) replantean la verificación como una tarea de predicción del siguiente token, permitiendo el escalado en tiempo de inferencia a lo largo de un nuevo eje. Específicamente, GenRM genera múltiples cadenas de pensamiento de verificación para puntuar cada solución. Bajo un presupuesto limitado de inferencia, esto introduce una compensación fundamental: ¿deberías gastar el presupuesto en escalar soluciones mediante SC o generar menos soluciones y asignar cómputo a la verificación mediante GenRM? Para abordar esto, evaluamos GenRM frente a SC bajo un presupuesto fijo de inferencia. Curiosamente, encontramos que SC es más eficiente en términos de cómputo que GenRM para la mayoría de los presupuestos prácticos de inferencia en diversos modelos y conjuntos de datos. Por ejemplo, GenRM iguala a SC solo después de consumir hasta 8 veces el cómputo de inferencia y requiere significativamente más cómputo para superarlo. Además, derivamos leyes de escalado de inferencia para el paradigma GenRM, revelando que la inferencia óptima en términos de cómputo favorece escalar la generación de soluciones de manera más agresiva que escalar el número de verificaciones. Nuestro trabajo proporciona orientación práctica sobre cómo optimizar el escalado en tiempo de prueba equilibrando la generación de soluciones y la verificación. El código está disponible en https://github.com/nishadsinghi/sc-genrm-scaling.

LLaMA-3.2-Vision eficiente mediante el recorte de características visuales atendidas cruzadamente
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1, 2025

Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

152

La reducción de tokens visuales disminuye los costos de inferencia causados por las extensas características de imagen en los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés). A diferencia de estudios relevantes que podan tokens en LVLM basados únicamente en auto-atención, nuestro trabajo aborda de manera única modelos basados en atención cruzada, los cuales logran un rendimiento superior. Identificamos que el tamaño de la caché clave-valor (KV) para los tokens de imagen en las capas de atención cruzada supera significativamente al de los tokens de texto en las capas de auto-atención, lo que representa un cuello de botella importante en el cómputo. Para mitigar este problema, aprovechamos la naturaleza dispersa en los mapas de atención cruzada para podar selectivamente características visuales redundantes. Nuestro modelo Trimmed Llama reduce eficazmente las demandas de la caché KV sin requerir entrenamiento adicional. Al beneficiarse de un 50% menos de características visuales, nuestro modelo puede reducir la latencia de inferencia y el uso de memoria mientras mantiene un rendimiento equivalente en los puntos de referencia.

AdaMMS: Fusión de Modelos para Modelos de Lenguaje Multimodales Heterogéneos a Gran Escala con Optimización de Coeficientes No Supervisada
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31, 2025

Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

113

Recientemente, los métodos de fusión de modelos han demostrado una gran capacidad para combinar habilidades en diversas tareas a partir de múltiples Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Mientras que los métodos anteriores de fusión de modelos se centraban principalmente en fusionar modelos homogéneos con arquitecturas idénticas, enfrentan desafíos al tratar con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) que poseen una naturaleza inherentemente heterogénea, incluyendo diferencias en la arquitectura del modelo y asimetrías en el espacio de parámetros. En este trabajo, proponemos AdaMMS, un novedoso método de fusión de modelos diseñado específicamente para MLLMs heterogéneos. Nuestro método aborda estos desafíos en tres pasos: mapeo, fusión y búsqueda. En concreto, primero diseñamos una función de mapeo entre modelos para aplicar la fusión en MLLMs con arquitecturas diferentes. Luego, aplicamos interpolación lineal en los pesos del modelo para adaptar activamente la asimetría presente en los MLLMs heterogéneos. Finalmente, en el paso de búsqueda de hiperparámetros, proponemos un método de selección de hiperparámetros no supervisado para la fusión de modelos. Como el primer método de fusión de modelos capaz de combinar MLLMs heterogéneos sin necesidad de datos etiquetados, experimentos exhaustivos en diversas combinaciones de modelos demostraron que AdaMMS supera a los métodos anteriores de fusión de modelos en varios benchmarks de visión y lenguaje.

m1: Libera el Potencial del Escalado en Tiempo de Prueba para el Razonamiento Médico con Modelos de Lenguaje de Gran Escala
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1, 2025

Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

102

El escalado en tiempo de prueba ha surgido como una técnica poderosa para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes. Sin embargo, su efectividad en el razonamiento médico sigue siendo incierta, ya que el dominio médico difiere fundamentalmente de las tareas matemáticas en términos de representación del conocimiento y procesos de toma de decisiones. En este artículo, presentamos la primera investigación exhaustiva del escalado en tiempo de prueba para el razonamiento médico y presentamos m1, un enfoque simple pero efectivo que aumenta la capacidad de razonamiento médico de un modelo durante la inferencia. Nuestra evaluación en diversas tareas médicas demuestra que el escalado en tiempo de prueba mejora consistentemente el razonamiento médico, permitiendo que modelos ajustados ligeramente con menos de 10B parámetros establezcan un nuevo estado del arte, mientras que nuestro modelo de 32B rivaliza con modelos médicos de lenguaje grandes anteriores de 70B de escala. Sin embargo, identificamos un presupuesto óptimo de tokens de razonamiento de aproximadamente 4K, más allá del cual el rendimiento puede degradarse debido a un exceso de reflexión. El forzado de presupuesto, que extiende el cálculo en tiempo de prueba mediante indicaciones iterativas, ayuda a los modelos a verificar respuestas, pero no necesariamente mejora el rendimiento general en preguntas y respuestas médicas y, en algunos casos, incluso introduce errores en respuestas previamente correctas. Nuestro análisis caso por caso identifica el conocimiento médico insuficiente como un cuello de botella clave que impide mayores ganancias de rendimiento a través del escalado en tiempo de prueba. Encontramos que aumentar la escala de datos, mejorar la calidad de los datos y expandir la capacidad del modelo mejora consistentemente la base de conocimiento médico, permitiendo mejoras continuas en el rendimiento, particularmente en puntos de referencia médicos desafiantes donde los modelos más pequeños alcanzan la saturación. Estos hallazgos subrayan las diferencias fundamentales entre el razonamiento médico y matemático en los modelos de lenguaje grandes, destacando que un conocimiento médico enriquecido, más que solo una mayor profundidad de razonamiento, es esencial para aprovechar los beneficios del escalado en tiempo de prueba.

Escalado en Tiempo de Inferencia para Tareas Complejas: Estado Actual y Perspectivas Futuras
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31, 2025

Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

102

El escalado en tiempo de inferencia puede mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs) en problemas complejos que se benefician de la resolución paso a paso. Aunque alargar las notas generadas ha demostrado ser efectivo para tareas matemáticas, el impacto más amplio de este enfoque en otras tareas sigue siendo menos claro. En este trabajo, investigamos los beneficios y limitaciones de los métodos de escalado en nueve modelos de última generación y ocho tareas desafiantes, que incluyen razonamiento matemático y STEM, planificación de calendarios, problemas NP-difíciles, navegación y razonamiento espacial. Comparamos modelos convencionales (por ejemplo, GPT-4o) con modelos ajustados para el escalado en tiempo de inferencia (por ejemplo, o1) mediante protocolos de evaluación que involucran llamadas repetidas al modelo, ya sea de forma independiente o secuencial con retroalimentación. Estas evaluaciones aproximan los límites inferiores y superiores de rendimiento y el potencial de mejoras futuras para cada modelo, ya sea a través de un entrenamiento mejorado o sistemas de inferencia multimodelo. Nuestro extenso análisis empírico revela que las ventajas del escalado en tiempo de inferencia varían según la tarea y disminuyen a medida que aumenta la complejidad del problema. Además, simplemente usar más tokens no necesariamente se traduce en una mayor precisión en estos regímenes desafiantes. Los resultados de múltiples ejecuciones independientes con modelos convencionales que utilizan verificadores perfectos muestran que, para algunas tareas, estos modelos pueden alcanzar un rendimiento cercano al promedio de los modelos de razonamiento más avanzados de hoy. Sin embargo, para otras tareas, persiste una brecha significativa de rendimiento, incluso en regímenes de escalado muy altos. Alentadoramente, todos los modelos muestran ganancias significativas cuando la inferencia se escala aún más con verificadores perfectos o retroalimentación fuerte, lo que sugiere un amplio potencial para mejoras futuras.

Reasoning-SQL: Aprendizaje por Refuerzo con Recompensas Parciales Adaptadas a SQL para Texto-a-SQL Mejorado con Razonamiento
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29, 2025

Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

Text-to-SQL es una tarea desafiante que involucra múltiples subtareas intensivas en razonamiento, incluyendo la comprensión del lenguaje natural, la interpretación del esquema de la base de datos y la formulación precisa de consultas SQL. Los enfoques existentes suelen depender de rutas de razonamiento manuales con sesgos inductivos que pueden limitar su efectividad general. Motivados por el reciente éxito de modelos mejorados en razonamiento como DeepSeek R1 y OpenAI o1, que aprovechan eficazmente la autoexploración impulsada por recompensas para mejorar las capacidades de razonamiento y generalización, proponemos un conjunto novedoso de recompensas parciales específicamente diseñadas para la tarea de Text-to-SQL. Nuestro conjunto de recompensas incluye enlace de esquema, retroalimentación de IA, similitud de n-gramas y verificación de sintaxis, diseñados explícitamente para abordar el problema de la escasez de recompensas prevalente en el aprendizaje por refuerzo (RL). Aprovechando la optimización de políticas relativas por grupos (GRPO), nuestro enfoque fomenta explícitamente que los modelos de lenguaje grandes (LLMs) desarrollen habilidades de razonamiento intrínsecas necesarias para la generación precisa de consultas SQL. Con modelos de diferentes tamaños, demostramos que el entrenamiento exclusivo con RL utilizando nuestras recompensas propuestas logra consistentemente una mayor precisión y una superior generalización en comparación con el ajuste fino supervisado (SFT). Notablemente, nuestro modelo de 14B parámetros entrenado con RL supera significativamente a modelos propietarios más grandes, como o3-mini en un 4% y Gemini-1.5-Pro-002 en un 3% en el benchmark BIRD. Estos resultados resaltan la eficacia de nuestro marco de entrenamiento RL con recompensas parciales para mejorar tanto la precisión como las capacidades de razonamiento en tareas de Text-to-SQL.

Chapter-Llama: Segmentación Eficiente de Capítulos en Videos de una Hora con Modelos de Lenguaje de Gran Escala
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31, 2025

Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

Abordamos la tarea de segmentación de videos, es decir, dividir una línea de tiempo de video larga en unidades semánticas y generar títulos de capítulos correspondientes. Aunque relativamente poco explorada, la segmentación automática tiene el potencial de permitir una navegación y recuperación de contenido eficiente en videos de larga duración. En este artículo, logramos un rendimiento sólido en la segmentación de videos de una hora al abordar eficientemente el problema en el dominio del texto con nuestro marco 'Chapter-Llama'. Específicamente, aprovechamos un modelo de lenguaje grande (LLM) preentrenado con una ventana de contexto amplia, y proporcionamos como entrada (i) transcripciones de voz y (ii) subtítulos que describen los fotogramas del video, junto con sus respectivas marcas de tiempo. Dada la ineficiencia de subtitular exhaustivamente todos los fotogramas, proponemos una estrategia ligera de selección de fotogramas guiada por el contenido de la transcripción de voz, y demostramos experimentalmente ventajas notables. Entrenamos al LLM para generar marcas de tiempo para los límites de los capítulos, así como títulos de capítulos de forma libre. Este enfoque simple pero potente escala para procesar videos de una hora de duración en una sola pasada hacia adelante. Nuestros resultados muestran mejoras sustanciales (por ejemplo, 45.3 frente a 26.7 en puntuación F1) sobre el estado del arte en el reciente benchmark VidChapters-7M. Para promover más investigación, publicamos nuestro código y modelos en nuestra página del proyecto.

Descubriendo las deficiencias de conocimiento en los modelos de lenguaje sobre bases de conocimiento masivas
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30, 2025

Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) poseen capacidades lingüísticas impresionantes, pero a menudo no logran retener de manera fiel el conocimiento factual, lo que lleva a alucinaciones y resultados poco confiables. Comprender las deficiencias de conocimiento de los LLMs mediante una evaluación exhaustiva contra bases de conocimiento a gran escala es computacionalmente prohibitivo, especialmente para modelos de pesos cerrados. Proponemos el ascenso estocástico de errores (SEA, por sus siglas en inglés), un marco escalable y eficiente para descubrir deficiencias de conocimiento (errores) en LLMs de pesos cerrados bajo un presupuesto estricto de consultas. En lugar de sondear de manera ingenua todos los candidatos de conocimiento, SEA formula el descubrimiento de errores como un proceso de optimización estocástica: recupera iterativamente nuevos candidatos de alto error aprovechando la similitud semántica con fallos previamente observados. Para mejorar aún más la eficiencia y cobertura de la búsqueda, SEA emplea recuperación jerárquica a nivel de documento y párrafo, y construye un grafo acíclico dirigido de relaciones para modelar la propagación de errores e identificar modos de fallo sistemáticos. Empíricamente, SEA descubre 40.7 veces más errores de conocimiento que Automated Capability Discovery y un 26.7% más que AutoBencher, mientras reduce el costo por error en 599 y 9 veces, respectivamente. La evaluación humana confirma la alta calidad de las preguntas generadas, mientras que los análisis de ablación y convergencia validan la contribución de cada componente en SEA. Un análisis adicional de los errores descubiertos revela patrones de fallo correlacionados entre familias de LLMs y déficits recurrentes, destacando la necesidad de una mejor cobertura de datos y ajustes específicos en el desarrollo futuro de LLMs.

ManipTrans: Transferencia Eficiente de Manipulación Bimanual Diestra mediante Aprendizaje Residual
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27, 2025

Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

Las manos humanas desempeñan un papel central en la interacción, lo que motiva un creciente interés en la investigación de la manipulación diestra en robótica. Los algoritmos de IA encarnada basados en datos requieren secuencias de manipulación precisas, a gran escala y similares a las humanas, las cuales son difíciles de obtener mediante el aprendizaje por refuerzo convencional o la teleoperación en el mundo real. Para abordar este desafío, presentamos ManipTrans, un método novedoso de dos etapas que transfiere eficientemente habilidades bimanuales humanas a manos robóticas diestras en simulación. ManipTrans primero pre-entrena un imitador de trayectorias generalista para emular el movimiento de las manos, luego ajusta un módulo residual específico bajo restricciones de interacción, permitiendo un aprendizaje eficiente y una ejecución precisa de tareas bimanuales complejas. Los experimentos muestran que ManipTrans supera a los métodos más avanzados en tasa de éxito, fidelidad y eficiencia. Aprovechando ManipTrans, transferimos múltiples conjuntos de datos mano-objeto a manos robóticas, creando DexManipNet, un conjunto de datos a gran escala que incluye tareas previamente inexploradas como tapar bolígrafos y destapar botellas. DexManipNet comprende 3.3K episodios de manipulación robótica y es fácilmente extensible, facilitando el entrenamiento adicional de políticas para manos diestras y permitiendo implementaciones en el mundo real.

DiET-GS: Desdifuminado de movimiento asistido por flujo de eventos y prior de difusión en 3D Gaussian Splatting
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31, 2025

Seungjun Lee, Gim Hee Lee

Reconstruir representaciones 3D nítidas a partir de imágenes multivista borrosas es un problema de larga data en visión por computadora. Trabajos recientes intentan mejorar la síntesis de vistas novedosas de alta calidad a partir del desenfoque de movimiento aprovechando cámaras basadas en eventos, beneficiándose de su alto rango dinámico y resolución temporal en microsegundos. Sin embargo, a menudo alcanzan una calidad visual subóptima, ya sea restaurando colores inexactos o perdiendo detalles finos. En este artículo, presentamos DiET-GS, un enfoque de desenfoque de movimiento 3DGS asistido por flujos de eventos y un prior de difusión. Nuestro marco aprovecha eficazmente tanto los flujos de eventos libres de desenfoque como el prior de difusión en una estrategia de entrenamiento en dos etapas. Específicamente, introducimos un marco novedoso para restringir 3DGS con una doble integral de eventos, logrando tanto colores precisos como detalles bien definidos. Además, proponemos una técnica simple para aprovechar el prior de difusión y mejorar aún más los detalles de los bordes. Los resultados cualitativos y cuantitativos en datos sintéticos y del mundo real demuestran que nuestro DiET-GS es capaz de producir vistas novedosas de calidad significativamente mejor en comparación con las líneas base existentes. Nuestra página del proyecto es https://diet-gs.github.io.

MB-ORES: Un Razonador de Objetos Multi-Rama para la Fundamentación Visual en Teledetección
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31, 2025

Karim Radouane, Hanane Azzag, Mustapha lebbah

Proponemos un marco unificado que integra la detección de objetos (OD) y el anclaje visual (VG) para imágenes de percepción remota (RS). Para respaldar la OD convencional y establecer un conocimiento previo intuitivo para la tarea de VG, ajustamos un detector de objetos de conjunto abierto utilizando datos de expresiones referenciales, enmarcándolo como una tarea de OD parcialmente supervisada. En la primera etapa, construimos una representación gráfica de cada imagen, que incluye consultas de objetos, incrustaciones de clase y ubicaciones de propuestas. Luego, nuestra arquitectura consciente de la tarea procesa este gráfico para realizar la tarea de VG. El modelo consta de: (i) una red de múltiples ramas que integra características espaciales, visuales y categóricas para generar propuestas conscientes de la tarea, y (ii) una red de razonamiento de objetos que asigna probabilidades entre las propuestas, seguida de un mecanismo de selección suave para la localización final del objeto referido. Nuestro modelo demuestra un rendimiento superior en los conjuntos de datos OPT-RSVG y DIOR-RSVG, logrando mejoras significativas sobre los métodos más avanzados mientras conserva las capacidades clásicas de OD. El código estará disponible en nuestro repositorio: https://github.com/rd20karim/MB-ORES.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Any2Caption: Interpretación de Cualquier Condición para Generación Controlada de Subtítulos en Videos
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31, 2025

Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

774

JudgeLRM: Modelos de Razonamiento a Gran Escala como Juez
JudgeLRM: Large Reasoning Models as a Judge

Mar 31, 2025

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

616

Atención Multi-Token
Multi-Token Attention

Apr 1, 2025

Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

522

Explorando el Efecto del Aprendizaje por Refuerzo en la Comprensión de Videos: Perspectivas desde SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31, 2025

Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

383

Open-Qwen2VL: Preentrenamiento Computacionalmente Eficiente de Modelos de Lenguaje Multimodales Completamente Abiertos con Recursos Académicos
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1, 2025

Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

367

CodeARC: Evaluación de las Capacidades de Razonamiento de Agentes LLM para la Síntesis Inductiva de Programas
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29, 2025

Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

342

Escalando el Aprendizaje de Representaciones Visuales sin Lenguaje
Scaling Language-Free Visual Representation Learning

Apr 1, 2025

David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

304

GeometryCrafter: Estimación Consistente de Geometría para Videos de Mundo Abierto con Priores de Difusión
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1, 2025

Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

292

Paisaje de Pensamientos: Visualizando el Proceso de Razonamiento de los Modelos de Lenguaje a Gran Escala
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28, 2025

Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

282

Z1: Escalado eficiente en tiempo de prueba con código
Z1: Efficient Test-time Scaling with Code

Apr 1, 2025

Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

263

Comando A: Un Modelo de Lenguaje Grande Listo para Empresas
Command A: An Enterprise-Ready Large Language Model

Apr 1, 2025

263

Agente S2: Un Marco de Trabajo Compositivo Generalista-Especialista para Agentes de Uso Informático
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1, 2025

Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

222

Recitación sobre Razonamiento: ¿Cómo los Modelos de Lenguaje de Vanguardia Pueden Fallar en Problemas de Razonamiento de Nivel de Escuela Primaria?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1, 2025

Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

2215

YourBench: Conjuntos de Evaluación Personalizados Fáciles para Todos
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2, 2025

Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

213

Hacia Agentes GUI Confiables: Una Revisión
Towards Trustworthy GUI Agents: A Survey

Mar 30, 2025

Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

213

MixerMDM: Composición Aprendible de Modelos de Difusión de Movimiento Humano
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1, 2025

Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

192

OmniMMI: Un punto de referencia integral para la interacción multimodal en contextos de video en streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29, 2025

Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

182

Aprovechando la Economía del Razonamiento: Una Revisión del Razonamiento Eficiente para Modelos de Lenguaje a Gran Escala
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31, 2025

Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

172

Cuándo Resolver, Cuándo Verificar: Resolución de Problemas Óptima en Cómputo y Verificación Generativa para el Razonamiento en LLM
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1, 2025

Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

151

LLaMA-3.2-Vision eficiente mediante el recorte de características visuales atendidas cruzadamente
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1, 2025

Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

152

AdaMMS: Fusión de Modelos para Modelos de Lenguaje Multimodales Heterogéneos a Gran Escala con Optimización de Coeficientes No Supervisada
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31, 2025

Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

113

m1: Libera el Potencial del Escalado en Tiempo de Prueba para el Razonamiento Médico con Modelos de Lenguaje de Gran Escala
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1, 2025

Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

102

Escalado en Tiempo de Inferencia para Tareas Complejas: Estado Actual y Perspectivas Futuras
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31, 2025

Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

102

Reasoning-SQL: Aprendizaje por Refuerzo con Recompensas Parciales Adaptadas a SQL para Texto-a-SQL Mejorado con Razonamiento
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29, 2025

Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

Chapter-Llama: Segmentación Eficiente de Capítulos en Videos de una Hora con Modelos de Lenguaje de Gran Escala
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31, 2025

Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

Descubriendo las deficiencias de conocimiento en los modelos de lenguaje sobre bases de conocimiento masivas
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30, 2025

Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

ManipTrans: Transferencia Eficiente de Manipulación Bimanual Diestra mediante Aprendizaje Residual
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27, 2025

Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

DiET-GS: Desdifuminado de movimiento asistido por flujo de eventos y prior de difusión en 3D Gaussian Splatting
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31, 2025

Seungjun Lee, Gim Hee Lee

MB-ORES: Un Razonador de Objetos Multi-Rama para la Fundamentación Visual en Teledetección
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31, 2025

Karim Radouane, Hanane Azzag, Mustapha lebbah