Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Modelos Unificados de Comprensión y Generación Multimodal: Avances, Desafíos y Oportunidades
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

En los últimos años, se ha observado un progreso notable tanto en los modelos de comprensión multimodal como en los modelos de generación de imágenes. A pesar de sus respectivos éxitos, estos dos dominios han evolucionado de manera independiente, dando lugar a paradigmas arquitectónicos distintos: mientras que las arquitecturas basadas en autoregresión han dominado la comprensión multimodal, los modelos basados en difusión se han convertido en el pilar de la generación de imágenes. Recientemente, ha crecido el interés en desarrollar marcos unificados que integren estas tareas. La aparición de las nuevas capacidades de GPT-4o ejemplifica esta tendencia, destacando el potencial de la unificación. Sin embargo, las diferencias arquitectónicas entre ambos dominios plantean desafíos significativos. Para ofrecer una visión clara de los esfuerzos actuales hacia la unificación, presentamos una encuesta exhaustiva destinada a guiar futuras investigaciones. Primero, introducimos los conceptos fundamentales y los avances recientes en los modelos de comprensión multimodal y generación de texto a imagen. Luego, revisamos los modelos unificados existentes, categorizándolos en tres paradigmas arquitectónicos principales: basados en difusión, basados en autoregresión y enfoques híbridos que fusionan mecanismos autoregresivos y de difusión. Para cada categoría, analizamos los diseños estructurales y las innovaciones introducidas por trabajos relacionados. Además, recopilamos conjuntos de datos y puntos de referencia adaptados para modelos unificados, ofreciendo recursos para futuras exploraciones. Finalmente, discutimos los principales desafíos que enfrenta este campo incipiente, incluyendo la estrategia de tokenización, la atención multimodal y los datos. Dado que esta área aún está en sus primeras etapas, anticipamos avances rápidos y actualizaremos regularmente esta encuesta. Nuestro objetivo es inspirar más investigaciones y proporcionar una referencia valiosa para la comunidad. Las referencias asociadas con esta encuesta están disponibles en GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

La búsqueda efectiva de información es esencial para mejorar las capacidades de razonamiento y generación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Investigaciones recientes han explorado el uso del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de búsqueda de los LLMs mediante la interacción con motores de búsqueda en tiempo real en entornos del mundo real. Aunque estos enfoques muestran resultados prometedores, enfrentan dos desafíos principales: (1) Calidad impredecible de los documentos: La calidad de los documentos devueltos por los motores de búsqueda suele ser impredecible, lo que introduce ruido e inestabilidad en el proceso de entrenamiento. (2) Costos prohibitivos de las API: El entrenamiento de RL requiere ejecuciones frecuentes, lo que puede implicar cientos de miles de solicitudes de búsqueda, generando gastos sustanciales en API y limitando severamente la escalabilidad. Para abordar estos desafíos, presentamos ZeroSearch, un marco de aprendizaje por refuerzo que incentiva las capacidades de búsqueda de los LLMs sin interactuar con motores de búsqueda reales. Nuestro enfoque comienza con un ajuste fino supervisado ligero para transformar el LLM en un módulo de recuperación capaz de generar documentos tanto relevantes como ruidosos en respuesta a una consulta. Durante el entrenamiento de RL, empleamos una estrategia de ejecución basada en un currículo que degrada gradualmente la calidad de los documentos generados, fomentando progresivamente la capacidad de razonamiento del modelo al exponerlo a escenarios de recuperación cada vez más desafiantes. Experimentos extensos demuestran que ZeroSearch incentiva eficazmente las capacidades de búsqueda de los LLMs utilizando un LLM de 3B como módulo de recuperación. Notablemente, un módulo de recuperación de 7B logra un rendimiento comparable al del motor de búsqueda real, mientras que un módulo de 14B incluso lo supera. Además, generaliza bien tanto en modelos base como en modelos ajustados por instrucción de diversos tamaños de parámetros y es compatible con una amplia gama de algoritmos de RL.

HunyuanCustom: Una arquitectura impulsada por multimodalidad para la generación de videos personalizados
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

La generación de videos personalizados tiene como objetivo producir videos que presenten sujetos específicos bajo condiciones flexibles definidas por el usuario, aunque los métodos existentes suelen enfrentar dificultades con la consistencia de identidad y las modalidades de entrada limitadas. En este artículo, proponemos HunyuanCustom, un marco de generación de videos personalizados multimodal que enfatiza la consistencia del sujeto mientras admite condiciones de imagen, audio, video y texto. Basado en HunyuanVideo, nuestro modelo aborda primero la tarea de generación condicionada por imagen y texto mediante la introducción de un módulo de fusión texto-imagen basado en LLaVA para mejorar la comprensión multimodal, junto con un módulo de mejora de identidad de imagen que aprovecha la concatenación temporal para reforzar las características de identidad a lo largo de los fotogramas. Para habilitar la generación condicionada por audio y video, proponemos además mecanismos de inyección de condiciones específicos para cada modalidad: un módulo AudioNet que logra alineación jerárquica mediante atención cruzada espacial, y un módulo de inyección impulsado por video que integra video condicional comprimido en el espacio latente a través de una red de alineación de características basada en parches. Experimentos exhaustivos en escenarios de uno y múltiples sujetos demuestran que HunyuanCustom supera significativamente a los métodos de última generación, tanto de código abierto como cerrado, en términos de consistencia de identidad, realismo y alineación texto-video. Además, validamos su robustez en tareas posteriores, incluyendo la generación de videos personalizados impulsados por audio y video. Nuestros resultados destacan la efectividad de las estrategias de condicionamiento multimodal y preservación de identidad para avanzar en la generación de videos controlables. Todo el código y los modelos están disponibles en https://hunyuancustom.github.io.

OpenVision: Una Familia Totalmente Abierta y Rentable de Codificadores Visuales Avanzados para el Aprendizaje Multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

El CLIP de OpenAI, lanzado a principios de 2021, ha sido durante mucho tiempo la opción preferida de codificador visual para construir modelos fundamentales multimodales. Aunque alternativas recientes como SigLIP han comenzado a desafiar este statu quo, hasta donde sabemos, ninguna es completamente abierta: sus datos de entrenamiento siguen siendo propietarios y/o sus recetas de entrenamiento no se han publicado. Este artículo llena este vacío con OpenVision, una familia de codificadores visuales completamente abierta y rentable que igualan o superan el rendimiento del CLIP de OpenAI cuando se integran en marcos multimodales como LLaVA. OpenVision se basa en trabajos existentes —por ejemplo, CLIPS para el marco de entrenamiento y Recap-DataComp-1B para los datos de entrenamiento— mientras revela múltiples ideas clave para mejorar la calidad del codificador y muestra beneficios prácticos en el avance de modelos multimodales. Al lanzar codificadores visuales que abarcan desde 5.9M hasta 632.1M de parámetros, OpenVision ofrece a los profesionales un equilibrio flexible entre capacidad y eficiencia en la construcción de modelos multimodales: los modelos más grandes ofrecen un rendimiento multimodal mejorado, mientras que las versiones más pequeñas permiten implementaciones multimodales ligeras y listas para el edge.

PrimitiveAnything: Generación de Ensamblajes de Primitivas 3D Creadas por Humanos con Transformadores Auto-Regresivos
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

La abstracción de primitivas de formas, que descompone formas 3D complejas en elementos geométricos simples, desempeña un papel crucial en la cognición visual humana y tiene amplias aplicaciones en visión por computadora y gráficos. Si bien los avances recientes en la generación de contenido 3D han mostrado un progreso notable, los métodos existentes de abstracción de primitivas dependen de optimización geométrica con un entendimiento semántico limitado o aprenden de conjuntos de datos específicos de categorías y a pequeña escala, lo que dificulta su generalización en diversas categorías de formas. Presentamos PrimitiveAnything, un marco novedoso que reformula la abstracción de primitivas de formas como una tarea de generación de ensamblajes de primitivas. PrimitiveAnything incluye un transformador de primitivas condicionado por la forma para la generación autoregresiva y un esquema de parametrización libre de ambigüedades para representar múltiples tipos de primitivas de manera unificada. El marco propuesto aprende directamente el proceso de ensamblaje de primitivas a partir de abstracciones a gran escala creadas por humanos, lo que le permite capturar cómo los humanos descomponen formas complejas en elementos primitivos. A través de experimentos extensos, demostramos que PrimitiveAnything puede generar ensamblajes de primitivas de alta calidad que se alinean mejor con la percepción humana mientras mantienen la fidelidad geométrica en diversas categorías de formas. Beneficia a varias aplicaciones 3D y muestra potencial para habilitar contenido generado por usuarios (UGC) basado en primitivas en juegos. Página del proyecto: https://primitiveanything.github.io

R&B: Regrupamiento de Dominios y Equilibrio de Mezcla de Datos para el Entrenamiento Eficiente de Modelos Fundacionales
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

Las estrategias de mezcla de datos han logrado reducir los costos involucrados en el entrenamiento de modelos de lenguaje. Aunque prometedoras, estos métodos presentan dos deficiencias. En primer lugar, dependen de dominios de datos predeterminados (por ejemplo, fuentes de datos, tipos de tareas), lo que puede no capturar matices semánticos críticos, dejando rendimiento sobre la mesa. En segundo lugar, estos métodos escalan con el número de dominios de una manera computacionalmente prohibitiva. Abordamos estos desafíos mediante R&B, un marco que redivide los datos de entrenamiento basándose en la similitud semántica (Regroup) para crear dominios más granulares, y optimiza eficientemente la composición de los datos (Balance) aprovechando una matriz Gram inducida por los gradientes de dominio obtenidos durante el entrenamiento. A diferencia de trabajos anteriores, elimina la necesidad de computación adicional para obtener información de evaluación, como pérdidas o gradientes. Analizamos esta técnica bajo condiciones de regularidad estándar y proporcionamos insights teóricos que justifican la efectividad de R&B en comparación con enfoques de mezcla no adaptativos. Empíricamente, demostramos la efectividad de R&B en cinco conjuntos de datos diversos que abarcan desde lenguaje natural hasta tareas de razonamiento y multimodales. Con tan solo un 0.01% de sobrecarga computacional adicional, R&B iguala o supera el rendimiento de las estrategias de mezcla de datos más avanzadas.

Más allá del reconocimiento: Evaluación de la toma de perspectiva visual en modelos de lenguaje y visión
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

Investigamos la capacidad de los Modelos de Lenguaje Visual (VLMs) para realizar toma de perspectiva visual utilizando un conjunto novedoso de tareas visuales inspiradas en pruebas establecidas para humanos. Nuestro enfoque aprovecha escenas cuidadosamente controladas, en las que una única minifigura humanoide se empareja con un solo objeto. Al variar sistemáticamente las configuraciones espaciales —como la posición del objeto en relación con la minifigura humanoide y la orientación de esta— y utilizando tanto vistas aéreas como a nivel de superficie, creamos 144 tareas visuales únicas. Cada tarea visual se combina con una serie de 7 preguntas diagnósticas diseñadas para evaluar tres niveles de cognición visual: comprensión de la escena, razonamiento espacial y toma de perspectiva visual. Nuestra evaluación de varios modelos de última generación, incluyendo GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct y variantes de Claude Sonnet, revela que, aunque destacan en la comprensión de la escena, su rendimiento disminuye significativamente en el razonamiento espacial y se deteriora aún más en la toma de perspectiva. Nuestro análisis sugiere una brecha entre el reconocimiento superficial de objetos y el razonamiento espacial y de perspectiva más profundo requerido para tareas visuales complejas, señalando la necesidad de integrar representaciones geométricas explícitas y protocolos de entrenamiento específicos en el desarrollo futuro de los VLMs.

Evaluación comparativa de la inteligencia de enjambre en modelos de lenguaje grandes
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para el razonamiento complejo, pero su capacidad para la coordinación emergente en Sistemas Multiagente (MAS, por sus siglas en inglés) cuando operan bajo restricciones estrictas—como la percepción y comunicación local limitada, características de los enjambres naturales—sigue siendo en gran medida inexplorada, particularmente en lo que respecta a los matices de la inteligencia de enjambre. Los puntos de referencia existentes a menudo no capturan completamente los desafíos únicos de la coordinación descentralizada que surgen cuando los agentes operan con información espacio-temporal incompleta. Para cerrar esta brecha, presentamos SwarmBench, un nuevo punto de referencia diseñado para evaluar sistemáticamente las capacidades de inteligencia de enjambre de los LLMs que actúan como agentes descentralizados. SwarmBench incluye cinco tareas fundamentales de coordinación MAS dentro de un entorno configurable de cuadrícula 2D, obligando a los agentes a depender principalmente de la entrada sensorial local (vista de k x k) y la comunicación local. Proponemos métricas para la efectividad de la coordinación y analizamos las dinámicas grupales emergentes. Al evaluar varios LLMs líderes en un entorno de cero disparos, encontramos variaciones significativas en el rendimiento entre las tareas, destacando las dificultades planteadas por las restricciones de información local. Aunque surge cierta coordinación, los resultados indican limitaciones en la planificación robusta y la formación de estrategias bajo incertidumbre en estos escenarios descentralizados. Evaluar los LLMs bajo condiciones similares a las de un enjambre es crucial para realizar su potencial en futuros sistemas descentralizados. Publicamos SwarmBench como un kit de herramientas abierto y extensible—construido sobre un sistema físico personalizable y escalable con propiedades mecánicas definidas. Proporciona entornos, indicaciones, scripts de evaluación y los conjuntos de datos experimentales completos generados, con el objetivo de fomentar la investigación reproducible en la coordinación MAS basada en LLMs y los fundamentos teóricos de los MAS Encarnados. Nuestro repositorio de código está disponible en https://github.com/x66ccff/swarmbench.

Más allá de la demostración de teoremas: formulación, marco de trabajo y referencia para la resolución formal de problemas
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

Como una tarea aparentemente autoexplicativa, la resolución de problemas ha sido un componente significativo en la ciencia y la ingeniería. Sin embargo, falta una formulación general pero concreta de la resolución de problemas en sí. Con el reciente desarrollo de agentes de resolución de problemas basados en IA, la demanda de verificabilidad a nivel de proceso está aumentando rápidamente, aunque aún está poco explorada. Para llenar estos vacíos, presentamos una formulación fundamentada de la resolución de problemas como un proceso de decisión de Markov determinista; un marco novedoso, FPS (Resolución Formal de Problemas), que utiliza entornos existentes de FTP (demostración formal de teoremas) para realizar una resolución de problemas verificada a nivel de proceso; y D-FPS (FPS Deductivo), que desacopla la resolución y la verificación de respuestas para una mejor alineación con los humanos. Se demuestra la expresividad, solidez y completitud de los marcos. Construimos tres puntos de referencia en la resolución de problemas: FormalMath500, una formalización de un subconjunto del punto de referencia MATH500; MiniF2F-Solving y PutnamBench-Solving, adaptaciones de los puntos de referencia FTP MiniF2F y PutnamBench. Para una evaluación fiel, interpretable y alineada con los humanos, proponemos RPE (Equivalencia Proposicional Restringida), un enfoque simbólico para determinar la corrección de las respuestas mediante verificación formal. Evaluamos cuatro modelos FTP prevalentes y dos métodos de prompting como líneas base, resolviendo como máximo el 23.77% de FormalMath500, el 27.47% de MiniF2F-Solving y el 0.31% de PutnamBench-Solving.

RAG Adaptativo Independiente de LLM: Deja que la Pregunta Hable por Sí Misma
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

Los Modelos de Lenguaje de Gran Escala (LLMs) son propensos a las alucinaciones, y la Generación Aumentada por Recuperación (RAG) ayuda a mitigar esto, pero con un alto costo computacional y el riesgo de desinformación. La recuperación adaptativa busca recuperar información solo cuando es necesario, pero los enfoques existentes dependen de la estimación de incertidumbre basada en LLMs, lo que sigue siendo ineficiente e impracticable. En este estudio, introducimos métodos ligeros de recuperación adaptativa independientes de LLMs, basados en información externa. Investigamos 27 características, organizadas en 7 grupos, y sus combinaciones híbridas. Evaluamos estos métodos en 6 conjuntos de datos de preguntas y respuestas (QA), analizando el rendimiento y la eficiencia. Los resultados muestran que nuestro enfoque iguala el rendimiento de los métodos complejos basados en LLMs, logrando mejoras significativas en eficiencia, lo que demuestra el potencial de la información externa para la recuperación adaptativa.

OpenHelix: Un Análisis Breve, Evaluación Empírica y Modelo de Sistema Dual VLA de Código Abierto para Manipulación Robótica
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

Las arquitecturas de doble sistema VLA (Visión-Lenguaje-Acción) se han convertido en un tema candente en la investigación de inteligencia encarnada, pero existe una falta de trabajos de código abierto suficientes para un análisis y optimización más profundos del rendimiento. Para abordar este problema, este artículo resumirá y comparará los diseños estructurales de las arquitecturas de doble sistema existentes, y llevará a cabo evaluaciones empíricas sistemáticas sobre los elementos de diseño centrales de estas arquitecturas. Finalmente, proporcionará un modelo de código abierto de bajo costo para una mayor exploración. Por supuesto, este proyecto continuará actualizándose con más conclusiones experimentales y modelos de código abierto con un rendimiento mejorado para que todos puedan elegir. Página del proyecto: https://openhelix-robot.github.io/.

OmniGIRL: Un punto de referencia multilingüe y multimodal para la resolución de incidencias en GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

La tarea de resolución de problemas en GitHub tiene como objetivo resolver automáticamente los problemas reportados en los repositorios. Con los avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), esta tarea ha ganado creciente atención, y se han propuesto varios puntos de referencia para evaluar la capacidad de resolución de problemas de los LLMs. Sin embargo, los puntos de referencia existentes presentan tres limitaciones principales. En primer lugar, los puntos de referencia actuales se centran en un único lenguaje de programación, lo que limita la evaluación de problemas provenientes de repositorios en diferentes lenguajes. En segundo lugar, suelen abarcar un rango estrecho de dominios, lo que puede no representar la diversidad de problemas del mundo real. En tercer lugar, los puntos de referencia existentes dependen únicamente de la información textual en las descripciones de los problemas, pasando por alto información multimodal, como imágenes en los problemas. En este artículo, proponemos OmniGIRL, un punto de referencia para la Resolución de Problemas en GitHub que es multilingüe, multimodal y multidominio. OmniGIRL incluye 959 instancias de tareas, recopiladas de repositorios en cuatro lenguajes de programación (es decir, Python, JavaScript, TypeScript y Java) y ocho dominios diferentes. Nuestra evaluación muestra que los LLMs actuales tienen un desempeño limitado en OmniGIRL. Notablemente, el modelo con mejor rendimiento, GPT-4o, resuelve solo el 8.6% de los problemas. Además, encontramos que los LLMs actuales tienen dificultades para resolver problemas que requieren la comprensión de imágenes. El mejor rendimiento lo logra Claude-3.5-Sonnet, que resuelve solo el 10.5% de los problemas con información de imágenes. Finalmente, analizamos las razones detrás del fracaso de los LLMs actuales en OmniGIRL, proporcionando ideas para futuras mejoras.

Resolución de Problemas Complejos Aumentada con Conocimiento mediante Modelos de Lenguaje de Gran Escala: Una Revisión
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

La resolución de problemas ha sido un motor fundamental del progreso humano en numerosos dominios. Con los avances en inteligencia artificial, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han surgido como herramientas poderosas capaces de abordar problemas complejos en diversos campos. A diferencia de los sistemas computacionales tradicionales, los LLMs combinan el poder computacional bruto con una aproximación al razonamiento humano, lo que les permite generar soluciones, hacer inferencias e incluso aprovechar herramientas computacionales externas. Sin embargo, aplicar los LLMs a la resolución de problemas del mundo real presenta desafíos significativos, como el razonamiento de múltiples pasos, la integración de conocimiento de dominio y la verificación de resultados. Este estudio explora las capacidades y limitaciones de los LLMs en la resolución de problemas complejos, examinando técnicas como el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés), la ampliación de conocimiento y diversas técnicas de verificación basadas en LLMs y herramientas. Además, destacamos los desafíos específicos de dominio en áreas como la ingeniería de software, el razonamiento y demostración matemática, el análisis y modelado de datos, y la investigación científica. El artículo también discute las limitaciones fundamentales de las soluciones actuales basadas en LLMs y las direcciones futuras para la resolución de problemas complejos utilizando LLMs, desde la perspectiva del razonamiento de múltiples pasos, la integración de conocimiento de dominio y la verificación de resultados.

OSUniverse: Punto de referencia para agentes de IA de navegación GUI multimodal
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6

ByMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

En este artículo, presentamos OSUniverse: un benchmark de tareas complejas y multimodales orientadas al escritorio para agentes de IA avanzados de navegación GUI, que se centra en la facilidad de uso, la extensibilidad, la cobertura exhaustiva de casos de prueba y la validación automatizada. Dividimos las tareas en niveles crecientes de complejidad, desde clics de precisión básicos hasta pruebas de múltiples pasos y aplicaciones que requieren destreza, precisión y pensamiento claro por parte del agente. En la versión uno del benchmark, presentada aquí, hemos calibrado la complejidad de los casos de prueba para garantizar que los agentes SOTA (State of the Art, estado del arte) en el momento de la publicación no obtengan resultados superiores al 50%, mientras que un trabajador de oficina promedio puede realizar todas estas tareas con precisión perfecta. El benchmark puede ser evaluado manualmente, pero también introducimos un mecanismo de validación automatizada que tiene una tasa de error promedio inferior al 2%. Por lo tanto, este benchmark ofrece una base sólida para la medición completamente automatizada del progreso, las capacidades y la efectividad de los agentes de IA de navegación GUI en horizontes de corto y mediano plazo. El código fuente del benchmark está disponible en https://github.com/agentsea/osuniverse.

COSMOS: Adaptación Predecible y Rentable de Modelos de Lenguaje de Gran Escala
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30

ByJiayu Wang, Aws Albarghouthi, Frederic Sala

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) logran un rendimiento notable en numerosas tareas mediante el uso de una amplia variedad de estrategias de adaptación. Sin embargo, seleccionar de manera óptima un modelo y una estrategia de adaptación bajo restricciones de recursos es un desafío y, a menudo, requiere una experimentación extensa. Investigamos si es posible predecir con precisión tanto el rendimiento como el costo sin necesidad de realizar pruebas costosas. Formalizamos el problema de selección de estrategias para LLMs e introducimos COSMOS, un marco de predicción unificado que estima eficientemente los resultados de adaptación con un costo mínimo. Instanciamos y estudiamos la capacidad de nuestro marco a través de un par de predictores potentes: modelos proxy livianos aumentados con embeddings para predecir el rendimiento del ajuste fino, y leyes de escalado con muestras reducidas para pronosticar el aprendizaje en contexto aumentado con recuperación. Una evaluación extensa en ocho puntos de referencia representativos demuestra que COSMOS logra una alta precisión en las predicciones mientras reduce los costos computacionales en un 92.72% en promedio, y hasta un 98.71% en escenarios intensivos en recursos. Nuestros resultados muestran que la predicción eficiente de los resultados de adaptación no solo es factible, sino que puede reducir sustancialmente la sobrecarga computacional del despliegue de LLMs mientras se mantienen los estándares de rendimiento.

AutoLibra: Inducción de Métricas de Agente a partir de Retroalimentación Abierta
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5

ByHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

Los agentes son predominantemente evaluados y optimizados mediante métricas de éxito en tareas, las cuales son generales, dependen de un diseño manual por parte de expertos y no logran recompensar comportamientos intermedios emergentes. Proponemos AutoLibra, un marco para la evaluación de agentes, que transforma comentarios abiertos de humanos, como "Si encuentras que el botón está deshabilitado, no lo vuelvas a hacer clic", o "Este agente tiene demasiada autonomía para decidir qué hacer por sí mismo", en métricas para evaluar comportamientos detallados en las trayectorias de los agentes. AutoLibra logra esto al vincular los comentarios con el comportamiento del agente, agrupando comportamientos positivos y negativos similares, y creando métricas concretas con definiciones claras y ejemplos específicos, que pueden utilizarse para guiar a un LLM-como-Juez como evaluador. Además, proponemos dos meta-métricas para evaluar la alineación de un conjunto de métricas (inducidas) con comentarios abiertos: "cobertura" y "redundancia". Al optimizar estas meta-métricas, demostramos experimentalmente la capacidad de AutoLibra para inducir métricas de evaluación de agentes más concretas que las propuestas en benchmarks anteriores de evaluación de agentes y descubrir nuevas métricas para analizar agentes. También presentamos dos aplicaciones de AutoLibra en la mejora de agentes: Primero, mostramos que las métricas inducidas por AutoLibra sirven como objetivos de ingeniería de prompts más efectivos que la tasa de éxito en tareas en una amplia gama de juegos de texto, mejorando el rendimiento del agente respecto a la línea base en un promedio del 20%. Segundo, demostramos que AutoLibra puede seleccionar iterativamente datos de ajuste fino de alta calidad para agentes de navegación web. Nuestros resultados sugieren que AutoLibra es una herramienta poderosa y agnóstica a la tarea para evaluar y mejorar agentes de lenguaje.

Fusión multimodal imagen-evento ponderada por incertidumbre para la detección de anomalías en video
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5

BySungheon Jeong, Jihong Park, Mohsen Imani

La mayoría de los detectores de anomalías en video existentes dependen únicamente de fotogramas RGB, los cuales carecen de la resolución temporal necesaria para capturar señales de movimiento abrupto o transitorio, indicadores clave de eventos anómalos. Para abordar esta limitación, proponemos Fusión de Imagen-Evento para la Detección de Anomalías en Video (IEF-VAD, por sus siglas en inglés), un marco que sintetiza representaciones de eventos directamente a partir de videos RGB y las fusiona con características de imagen mediante un proceso fundamentado y consciente de la incertidumbre. El sistema (i) modela el ruido pesado del sensor con una verosimilitud de Student-t, derivando pesos de varianza inversa a nivel de valor mediante una aproximación de Laplace; (ii) aplica actualizaciones por fotograma al estilo Kalman para equilibrar las modalidades a lo largo del tiempo; y (iii) refina iterativamente el estado latente fusionado para eliminar el ruido residual entre modalidades. Sin necesidad de sensores de eventos dedicados ni etiquetas a nivel de fotograma, IEF-VAD establece un nuevo estado del arte en múltiples benchmarks de detección de anomalías del mundo real. Estos hallazgos destacan la utilidad de las representaciones sintéticas de eventos para enfatizar señales de movimiento que a menudo están subrepresentadas en los fotogramas RGB, permitiendo una comprensión precisa y robusta del video en diversas aplicaciones sin requerir sensores de eventos dedicados. El código y los modelos están disponibles en https://github.com/EavnJeong/IEF-VAD.

RAIL: Aprendizaje Instructivo Consciente de la Región para la Segmentación Semisupervisada de Dientes en CBCT
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

El aprendizaje semi-supervisado se ha convertido en un enfoque convincente para la segmentación dental 3D a partir de escaneos CBCT, donde los datos etiquetados son escasos. Sin embargo, los métodos existentes aún enfrentan dos desafíos persistentes: la supervisión correctiva limitada en regiones estructuralmente ambiguas o mal etiquetadas durante el entrenamiento supervisado y la degradación del rendimiento causada por pseudoetiquetas poco confiables en datos no etiquetados. Para abordar estos problemas, proponemos Region-Aware Instructive Learning (RAIL), un marco semi-supervisado de doble grupo y doble estudiante. Cada grupo contiene dos modelos de estudiante guiados por una red maestra compartida. Al alternar el entrenamiento entre los dos grupos, RAIL promueve la transferencia de conocimiento intergrupal y la instrucción colaborativa consciente de la región, mientras reduce el sobreajuste a las características de cualquier modelo individual. Específicamente, RAIL introduce dos mecanismos instructivos. El Controlador de Supervisión Enfocada en Desacuerdos (DFS) mejora el aprendizaje supervisado al instruir predicciones solo en áreas donde las salidas de los estudiantes difieren tanto de la verdad fundamental como del mejor estudiante, concentrando así la supervisión en áreas estructuralmente ambiguas o mal etiquetadas. En la fase no supervisada, el Modulador de Aprendizaje Consciente de la Confianza (CAL) refuerza el acuerdo en regiones con alta certeza del modelo mientras reduce el efecto de predicciones de baja confianza durante el entrenamiento. Esto ayuda a evitar que nuestro modelo aprenda patrones inestables y mejora la confiabilidad general de las pseudoetiquetas. Experimentos exhaustivos en cuatro conjuntos de datos de segmentación dental CBCT muestran que RAIL supera a los métodos más avanzados bajo anotación limitada. Nuestro código estará disponible en https://github.com/Tournesol-Saturday/RAIL.

Cognitio Emergens: Agencia, Dimensiones y Dinámicas en la Co-Creación de Conocimiento Humano-IA
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin

La creación de conocimiento científico se está transformando fundamentalmente a medida que los humanos y los sistemas de IA evolucionan más allá de las relaciones de herramienta-usuario hacia asociaciones epistémicas coevolutivas. Cuando AlphaFold revolucionó la predicción de estructuras proteicas, los investigadores describieron interactuar con un socio epistémico que redefinió cómo conceptualizaban las relaciones fundamentales. Este artículo presenta Cognitio Emergens (CE), un marco que aborda limitaciones críticas en los modelos existentes, los cuales se centran en roles estáticos o métricas estrechas sin captar cómo surge la comprensión científica a través de la interacción recursiva entre humanos y IA a lo largo del tiempo. CE integra tres componentes que abordan estas limitaciones: Configuraciones de Agencia, que describen cómo se distribuye la autoridad entre humanos y IA (Dirigida, Contributiva, Asociativa), con asociaciones que oscilan dinámicamente entre configuraciones en lugar de seguir una progresión lineal; Dimensiones Epistémicas, que capturan seis capacidades específicas que emergen a través de la colaboración en los ejes de Descubrimiento, Integración y Proyección, creando "firmas de capacidad" distintivas que guían el desarrollo; y Dinámicas de Asociación, que identifican fuerzas que moldean cómo evolucionan estas relaciones, particularmente el riesgo de alienación epistémica, donde los investigadores pierden control interpretativo sobre el conocimiento que formalmente respaldan. Basándose en la teoría de la autopoiesis, la teoría de sistemas sociales y la modularidad organizacional, CE revela cómo la co-creación de conocimiento emerge a través de la negociación continua de roles, valores y estructuras organizativas. Al reconceptualizar la colaboración científica entre humanos y IA como fundamentalmente coevolutiva, CE ofrece una perspectiva equilibrada que ni celebra acríticamente ni teme innecesariamente el papel evolutivo de la IA, sino que proporciona herramientas conceptuales para cultivar asociaciones que mantienen una participación humana significativa mientras permiten avances científicos transformadores.

5 minutes a day to keep up with AI

5 trending papers daily, explained in plain words, plus one quick puzzle.

Read today's issue →

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Modelos Unificados de Comprensión y Generación Multimodal: Avances, Desafíos y Oportunidades
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

HunyuanCustom: Una arquitectura impulsada por multimodalidad para la generación de videos personalizados
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

OpenVision: Una Familia Totalmente Abierta y Rentable de Codificadores Visuales Avanzados para el Aprendizaje Multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

PrimitiveAnything: Generación de Ensamblajes de Primitivas 3D Creadas por Humanos con Transformadores Auto-Regresivos
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

R&B: Regrupamiento de Dominios y Equilibrio de Mezcla de Datos para el Entrenamiento Eficiente de Modelos Fundacionales
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

Más allá del reconocimiento: Evaluación de la toma de perspectiva visual en modelos de lenguaje y visión
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

Evaluación comparativa de la inteligencia de enjambre en modelos de lenguaje grandes
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

Más allá de la demostración de teoremas: formulación, marco de trabajo y referencia para la resolución formal de problemas
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

RAG Adaptativo Independiente de LLM: Deja que la Pregunta Hable por Sí Misma
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

OpenHelix: Un Análisis Breve, Evaluación Empírica y Modelo de Sistema Dual VLA de Código Abierto para Manipulación Robótica
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang