Artículos de investigación en IA seleccionados diariamente con traducciones
Los Agentes de IA General están siendo cada vez más reconocidos como marcos fundamentales para la próxima generación de inteligencia artificial, permitiendo razonamiento complejo, interacción web, codificación y capacidades de investigación autónoma. Sin embargo, los sistemas de agentes actuales son de código cerrado o dependen en gran medida de una variedad de API pagas y herramientas propietarias, lo que limita la accesibilidad y reproducibilidad para la comunidad de investigación. En este trabajo, presentamos Cognitive Kernel-Pro, un marco de agente multi-módulo completamente de código abierto y (en la mayor medida posible) gratuito, diseñado para democratizar el desarrollo y evaluación de agentes de IA avanzados. Dentro de Cognitive Kernel-Pro, investigamos sistemáticamente la curación de datos de entrenamiento de alta calidad para Modelos Fundacionales de Agentes, centrándonos en la construcción de consultas, trayectorias y respuestas verificables en cuatro dominios clave: web, archivos, código y razonamiento general. Además, exploramos estrategias novedosas para la reflexión y votación en tiempo de prueba de los agentes, con el fin de mejorar su robustez y rendimiento. Evaluamos Cognitive Kernel-Pro en GAIA, logrando resultados de vanguardia entre los agentes de código abierto y gratuitos. Notablemente, nuestro modelo de código abierto de 8B parámetros supera a sistemas líderes anteriores como WebDancer y WebSailor, estableciendo un nuevo estándar de rendimiento para agentes de IA accesibles y de alta capacidad. El código está disponible en https://github.com/Tencent/CognitiveKernel-Pro.
Los Modelos de Lenguaje de Gran Escala basados en Difusión (DLLMs, por sus siglas en inglés) están surgiendo como una alternativa poderosa a los dominantes Modelos de Lenguaje de Gran Escala Autoregresivos, ofreciendo generación paralela eficiente y capacidad para modelar el contexto global. Sin embargo, la aplicación práctica de los DLLMs se ve obstaculizada por una limitación arquitectónica crítica: la necesidad de una longitud de generación predefinida estáticamente. Esta asignación estática de longitud conlleva un problema de equilibrio: longitudes insuficientes perjudican el rendimiento en tareas complejas, mientras que longitudes excesivas incurren en un sobrecosto computacional significativo y, en ocasiones, resultan en una degradación del rendimiento. Aunque el marco de inferencia es rígido, observamos que el modelo en sí posee señales internas que se correlacionan con la longitud óptima de respuesta para una tarea dada. Para cerrar esta brecha, aprovechamos estas señales latentes e introducimos DAEDAL, una novedosa estrategia de eliminación de ruido sin entrenamiento que permite la Expansión Dinámica de Longitud Adaptativa para los Modelos de Lenguaje de Gran Escala basados en Difusión. DAEDAL opera en dos fases: 1) Antes del proceso de eliminación de ruido, DAEDAL comienza con una longitud inicial corta y la expande iterativamente a una longitud aproximada adecuada para la tarea, guiada por una métrica de completitud de secuencia. 2) Durante el proceso de eliminación de ruido, DAEDAL interviene dinámicamente identificando y expandiendo las regiones de generación insuficientes mediante la inserción de tokens de máscara, asegurando que la salida final esté completamente desarrollada. Experimentos exhaustivos en DLLMs demuestran que DAEDAL logra un rendimiento comparable, y en algunos casos superior, a líneas base de longitud fija cuidadosamente ajustadas, mientras mejora simultáneamente la eficiencia computacional al alcanzar una mayor proporción efectiva de tokens. Al resolver la limitación de longitud estática, DAEDAL desbloquea un nuevo potencial para los DLLMs, cerrando una brecha crítica con sus contrapartes Autoregresivas y allanando el camino para una generación más eficiente y capaz.
El éxito actual de los transformadores de difusión depende en gran medida del espacio latente comprimido conformado por el autoencoder variacional (VAE) preentrenado. Sin embargo, este paradigma de entrenamiento en dos etapas introduce inevitablemente errores acumulados y artefactos de decodificación. Para abordar los problemas mencionados, los investigadores han vuelto al espacio de píxeles a costa de tuberías en cascada complicadas y una mayor complejidad de tokens. En contraste con sus esfuerzos, proponemos modelar la decodificación por parches con campos neuronales y presentamos una solución eficiente, de una sola escala, de una sola etapa y de extremo a extremo, denominada difusión de campo neuronal de píxeles (PixelNerd). Gracias a la representación eficiente del campo neuronal en PixelNerd, logramos directamente un FID de 2.15 en ImageNet 256x256 y un FID de 2.84 en ImageNet 512x512 sin ninguna tubería en cascada compleja o VAE. También extendemos nuestro marco PixelNerd a aplicaciones de texto a imagen. Nuestro PixelNerd-XXL/16 alcanzó una puntuación general competitiva de 0.73 en el benchmark GenEval y 80.9 en el benchmark DPG.
Los modelos grandes de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en tareas de comprensión visual en 2D, lo que ha generado interés en extender estas capacidades a la comprensión de escenas en 3D. Sin embargo, los VLMs 3D actuales a menudo enfrentan dificultades en el razonamiento robusto y la generalización debido a las limitaciones en datos espaciales de alta calidad y la naturaleza estática de las suposiciones sobre el punto de vista. Para abordar estos desafíos, proponemos 3D-R1, un modelo base que mejora las capacidades de razonamiento de los VLMs 3D. Específicamente, primero construimos un conjunto de datos sintéticos de alta calidad con CoT, denominado Scene-30K, aprovechando conjuntos de datos 3D-VL existentes y un motor de datos basado en Gemini 2.5 Pro. Este conjunto sirve como datos de inicialización para 3D-R1. Además, utilizamos una política de RLHF, como GRPO, en el proceso de entrenamiento de aprendizaje por refuerzo para mejorar las capacidades de razonamiento e introducimos tres funciones de recompensa: una recompensa de percepción, una recompensa de similitud semántica y una recompensa de formato para mantener la precisión en la detección y la exactitud semántica en las respuestas. Asimismo, presentamos una estrategia dinámica de selección de vistas que elige de manera adaptativa las perspectivas más informativas para la comprensión de escenas en 3D. Experimentos exhaustivos demuestran que 3D-R1 logra una mejora promedio del 10 % en varios puntos de referencia de escenas 3D, destacando su efectividad para mejorar el razonamiento y la generalización en la comprensión de escenas en 3D. Código: https://github.com/AIGeeksGroup/3D-R1. Sitio web: https://aigeeksgroup.github.io/3D-R1.
Los recientes avances en agentes de modelos de lenguaje de gran escala (LLM) han mostrado un progreso notable en la resolución de problemas de software, aprovechando técnicas avanzadas como la colaboración multiagente y la búsqueda en árbol de Monte Carlo (MCTS). Sin embargo, los agentes actuales actúan como exploradores sin memoria, tratando cada problema de forma independiente sin retener o reutilizar el conocimiento de experiencias previas de reparación. Esto conduce a una exploración redundante de trayectorias fallidas y a oportunidades perdidas para adaptar métodos exitosos de resolución de problemas a situaciones similares. Para abordar este problema, presentamos SWE-Exp, un enfoque mejorado con experiencia que destila conocimiento conciso y accionable a partir de trayectorias previas de los agentes, permitiendo un aprendizaje continuo entre problemas. Nuestro método introduce un banco de experiencias multifacético que captura tanto intentos exitosos como fallidos de reparación. Específicamente, extrae conocimiento reutilizable para la resolución de problemas en diferentes niveles, desde la comprensión general del problema hasta cambios específicos en el código. Los experimentos muestran que SWE-Exp alcanza una tasa de resolución de vanguardia (41.6% Pass@1) en SWE-bench-Verified bajo marcos de agentes de código abierto. Nuestro enfoque establece un nuevo paradigma en el que los agentes de ingeniería de software automatizados acumulan y aprovechan sistemáticamente la experiencia en reparaciones, cambiando fundamentalmente de una exploración por ensayo y error a una resolución estratégica de problemas basada en la experiencia.
La resolución de problemas ha experimentado un progreso notable gracias a las avanzadas capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Recientemente, los marcos basados en agentes, como SWE-agent, han impulsado aún más este progreso al permitir que agentes autónomos que utilizan herramientas aborden tareas complejas de ingeniería de software. Si bien los enfoques existentes de resolución de problemas basados en agentes se centran principalmente en exploraciones independientes de los agentes, estos a menudo se estancan en soluciones locales y no logran identificar patrones de problemas que abarcan diferentes partes del código base. Para abordar esta limitación, proponemos SWE-Debate, un marco competitivo de debate multiagente que fomenta diversos caminos de razonamiento y logra una localización de problemas más consolidada. SWE-Debate primero crea múltiples trazas de propagación de fallos como propuestas de localización al recorrer un gráfico de dependencias del código. Luego, organiza un debate de tres rondas entre agentes especializados, cada uno representando perspectivas de razonamiento distintas a lo largo de la traza de propagación del fallo. Esta competencia estructurada permite que los agentes colaboren para converger en un plan de solución consolidado. Finalmente, este plan consolidado se integra en un agente de modificación de código basado en MCTS para la generación de parches. Los experimentos en el benchmark SWE-bench muestran que SWE-Debate alcanza nuevos resultados de vanguardia en marcos de agentes de código abierto y supera ampliamente a los enfoques de referencia.
Evaluar las capacidades conversacionales de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo una tarea desafiante. Los enfoques principales actuales se basan principalmente en el paradigma "LLM-como-juez", donde se solicita a un LLM que actúe como evaluador para valorar la calidad del diálogo. Sin embargo, estos métodos a menudo adolecen de diversos sesgos, lo que socava la fiabilidad y consistencia de los resultados de la evaluación. Para mitigar estos sesgos, métodos recientes emplean múltiples LLMs como jueces y agregan sus juicios para seleccionar la evaluación óptima. Aunque efectivo, este enfoque multi-juez incurre en un costo computacional significativo durante la inferencia. En este artículo, proponemos un evaluador eficiente de diálogos multi-turno que captura la sabiduría colectiva de múltiples jueces LLM al agregar su conocimiento de preferencias en un solo modelo. Nuestro enfoque preserva las ventajas de la retroalimentación diversa de múltiples jueces mientras reduce drásticamente el costo de evaluación, permitiendo una valoración rápida y flexible de la calidad del diálogo. Experimentos exhaustivos en siete benchmarks de evaluación de diálogos, tanto de calificación única como de comparación por pares, demuestran que nuestro método supera a las líneas base existentes en diversos escenarios, mostrando su eficiencia y robustez.
Los recientes avances en los modelos de lenguaje de gran escala han impulsado el desarrollo de modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) que integran texto, habla y visión dentro de marcos unificados. A medida que los MLLMs evolucionan desde sistemas monolingües, específicos para tareas y de alcance limitado hacia modelos de propósito general que siguen instrucciones, una frontera clave radica en evaluar sus capacidades multilingües y multimodales tanto en contextos largos como cortos. Sin embargo, los puntos de referencia existentes no logran evaluar estas dimensiones de manera conjunta: a menudo se limitan al inglés, se centran principalmente en una sola modalidad a la vez, dependen de contextos de formato corto o carecen de anotaciones humanas, lo que dificulta una evaluación integral del rendimiento de los modelos en diferentes idiomas, modalidades y niveles de complejidad de las tareas. Para abordar estas brechas, presentamos MCIF (Multimodal Crosslingual Instruction Following), el primer punto de referencia multilingüe con anotaciones humanas basado en charlas científicas, diseñado para evaluar el seguimiento de instrucciones en entornos multilingües y multimodales tanto en entradas de formato corto como largo. MCIF abarca tres modalidades principales —habla, visión y texto— y cuatro idiomas diversos (inglés, alemán, italiano y chino), permitiendo una evaluación exhaustiva de las capacidades de los MLLMs para interpretar instrucciones en diferentes idiomas y combinarlas con información contextual multimodal. MCIF se publica bajo una licencia CC-BY 4.0 para fomentar la investigación abierta y el progreso en el desarrollo de MLLMs.
La segmentación referencial multimodal tiene como objetivo segmentar objetos objetivo en escenas visuales, como imágenes, videos y escenas 3D, basándose en expresiones referenciales en formato de texto o audio. Esta tarea desempeña un papel crucial en aplicaciones prácticas que requieren una percepción precisa de objetos basada en instrucciones del usuario. Durante la última década, ha ganado una atención significativa en la comunidad multimodal, impulsada por avances en redes neuronales convolucionales, transformadores y modelos de lenguaje de gran escala, todos los cuales han mejorado sustancialmente las capacidades de percepción multimodal. Este artículo proporciona una revisión exhaustiva de la segmentación referencial multimodal. Comenzamos presentando los antecedentes de este campo, incluyendo definiciones del problema y conjuntos de datos comúnmente utilizados. A continuación, resumimos una metaarquitectura unificada para la segmentación referencial y revisamos métodos representativos en tres escenas visuales principales: imágenes, videos y escenas 3D. Además, discutimos los métodos de Expresión Referencial Generalizada (GREx) para abordar los desafíos de la complejidad del mundo real, junto con tareas relacionadas y aplicaciones prácticas. También se proporcionan comparaciones extensas de rendimiento en puntos de referencia estándar. Realizamos un seguimiento continuo de trabajos relacionados en https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
La generación de vídeo impulsada por audio tiene como objetivo sintetizar vídeos realistas que se alineen con grabaciones de audio de entrada, similar a la capacidad humana de visualizar escenas a partir de entradas auditivas. Sin embargo, los enfoques existentes se centran predominantemente en explorar información semántica, como las clases de fuentes sonoras presentes en el audio, lo que limita su capacidad para generar vídeos con contenido preciso y composición espacial. En contraste, los humanos no solo podemos identificar naturalmente las categorías semánticas de las fuentes sonoras, sino también determinar sus atributos espaciales profundamente codificados, incluyendo ubicaciones y direcciones de movimiento. Esta información útil puede elucidarse considerando indicadores espaciales específicos derivados de las propiedades físicas inherentes del sonido, como el volumen o la frecuencia. Dado que los métodos anteriores ignoran en gran medida este factor, presentamos SpA2V, el primer marco que explota explícitamente estas pistas auditivas espaciales de los audios para generar vídeos con alta correspondencia semántica y espacial. SpA2V descompone el proceso de generación en dos etapas: 1) Planificación de Vídeo Guiada por Audio: Adaptamos meticulosamente un MLLM de última generación para una nueva tarea de aprovechar pistas espaciales y semánticas del audio de entrada para construir Diseños de Escenas de Vídeo (VSLs). Esto sirve como una representación intermedia para cerrar la brecha entre las modalidades de audio y vídeo. 2) Generación de Vídeo Basada en Diseño: Desarrollamos un enfoque eficiente y efectivo para integrar sin problemas los VSLs como guía condicional en modelos de difusión preentrenados, permitiendo la generación de vídeos basados en VSLs de manera libre de entrenamiento. Experimentos extensos demuestran que SpA2V sobresale en la generación de vídeos realistas con alineación semántica y espacial con los audios de entrada.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una notable capacidad para generar textos que se asemejan estrechamente a la escritura humana. Sin embargo, a menudo producen afirmaciones factualmente incorrectas, un problema comúnmente denominado "alucinación". Abordar la alucinación es crucial para mejorar la confiabilidad y efectividad de los LLMs. Si bien gran parte de la investigación se ha centrado en las alucinaciones en inglés, nuestro estudio amplía esta investigación a datos conversacionales en tres idiomas: hindi, farsi y mandarín. Ofrecemos un análisis exhaustivo de un conjunto de datos para examinar tanto errores factuales como lingüísticos en estos idiomas para GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 y Qwen-3. Encontramos que los LLMs producen muy pocas respuestas alucinadas en mandarín, pero generan un número significativamente mayor de alucinaciones en hindi y farsi.
La navegación visual con una imagen como objetivo es un problema fundamental y desafiante. Los métodos convencionales dependen ya sea del aprendizaje por refuerzo (RL) de extremo a extremo o de políticas modulares basadas en grafos topológicos o mapas BEV como memoria, los cuales no pueden modelar completamente la relación geométrica entre el entorno 3D explorado y la imagen objetivo. Para localizar de manera eficiente y precisa la imagen objetivo en el espacio 3D, construimos nuestro sistema de navegación sobre la representación de gaussianos 3D renderizables (3DGS). Sin embargo, debido a la intensidad computacional de la optimización 3DGS y al amplio espacio de búsqueda de la pose de cámara de 6 grados de libertad (6-DoF), aprovechar directamente 3DGS para la localización de imágenes durante el proceso de exploración del agente resulta prohibitivamente ineficiente. Para abordar esto, proponemos IGL-Nav, un marco de Localización Incremental de Gaussianos 3D para una navegación eficiente y consciente del espacio 3D con imagen como objetivo. Específicamente, actualizamos incrementalmente la representación de la escena a medida que llegan nuevas imágenes con predicción monocular de avance. Luego, localizamos de manera aproximada el objetivo aprovechando la información geométrica para la coincidencia en un espacio discreto, lo cual puede equivaler a una convolución 3D eficiente. Cuando el agente está cerca del objetivo, finalmente resolvemos la pose fina del objetivo mediante optimización a través de renderizado diferenciable. El IGL-Nav propuesto supera ampliamente a los métodos más avanzados existentes en diversas configuraciones experimentales. También puede manejar el escenario más desafiante de navegación con imagen objetivo en vista libre y ser implementado en una plataforma robótica del mundo real utilizando un teléfono móvil para capturar la imagen objetivo en una pose arbitraria. Página del proyecto: https://gwxuan.github.io/IGL-Nav/.
Si bien la IA sobresale en la generación de texto, audio, imágenes y videos, la creación de contenido audiovisual interactivo, como videojuegos, sigue siendo un desafío. Los modelos de lenguaje actuales (LLMs) pueden generar juegos y animaciones en JavaScript, pero carecen de métricas de evaluación automatizadas y tienen dificultades con contenido complejo que normalmente requiere equipos humanos trabajando durante muchos meses (multi-shot, multi-agentes) utilizando recursos creados por artistas. Para abordar estos problemas, desarrollamos una nueva métrica y un sistema multi-agente. Proponemos AVR-Eval, una métrica relativa para evaluar la calidad de contenido multimedia utilizando grabaciones audiovisuales (AVRs). Un modelo omni-modal (que procesa texto, video y audio) compara las AVRs de dos contenidos, con un modelo de texto revisando las evaluaciones para determinar cuál es superior. Demostramos que AVR-Eval identifica correctamente el contenido bueno frente al contenido defectuoso o desajustado. Construimos AVR-Agent, un sistema multi-agente que genera código JavaScript a partir de un banco de recursos multimedia (audio, imágenes, modelos 3D). El agente de codificación selecciona los recursos relevantes, genera múltiples versiones iniciales del código, utiliza AVR-Eval para identificar la mejor versión y la mejora iterativamente mediante retroalimentación omni-modal del agente basada en la AVR. Realizamos experimentos en juegos y animaciones con AVR-Eval (tasa de victoria del contenido A frente a B). Encontramos que el contenido generado por AVR-Agent tiene una tasa de victoria significativamente mayor frente al contenido creado mediante generación en una sola pasada. Sin embargo, los modelos tienen dificultades para aprovechar eficazmente los recursos personalizados y la retroalimentación de AVR, mostrando una tasa de victoria no mayor. Esto revela una brecha crítica: mientras que los humanos se benefician de recursos de alta calidad y retroalimentación audiovisual, los modelos de codificación actuales no parecen utilizar estos recursos de manera tan efectiva, destacando diferencias fundamentales entre los enfoques de creación de contenido humano y automático.