Artículos de investigación en IA seleccionados diariamente con traducciones
El rápido avance de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) ha demostrado un progreso notable en tareas de razonamiento complejo. Sin embargo, persiste una discrepancia significativa entre el rendimiento en pruebas de referencia y las aplicaciones del mundo real. Identificamos esta brecha como derivada principalmente de los protocolos de evaluación y métricas actuales, que capturan de manera inadecuada todo el espectro de capacidades de los LLMs, especialmente en tareas de razonamiento complejo donde la precisión y la consistencia son cruciales. Este trabajo realiza dos contribuciones clave. En primer lugar, presentamos G-Pass@k, una métrica de evaluación novedosa que proporciona una evaluación continua del rendimiento del modelo a lo largo de múltiples intentos de muestreo, cuantificando tanto el potencial de rendimiento máximo del modelo como su estabilidad. En segundo lugar, presentamos LiveMathBench, un banco de pruebas dinámico que comprende problemas matemáticos desafiantes y contemporáneos diseñados para minimizar los riesgos de fuga de datos durante la evaluación. A través de experimentos extensos utilizando G-Pass@k en LLMs de última generación con LiveMathBench, ofrecemos una visión integral tanto de sus capacidades máximas como de su consistencia operativa. Nuestros hallazgos revelan un amplio margen de mejora en las capacidades de razonamiento "realistas" de los LLMs, destacando la necesidad de métodos de evaluación más sólidos. El banco de pruebas y los resultados detallados están disponibles en: https://github.com/open-compass/GPassK.
Como una aplicación típica y práctica de los Modelos de Lenguaje Grande (LLMs), las técnicas de Generación con Recuperación Aumentada (RAG) han ganado una amplia atención, especialmente en dominios verticales donde los LLMs pueden carecer de conocimiento específico del dominio. En este artículo, presentamos un benchmark omnidireccional y automático de RAG, llamado OmniEval, en el ámbito financiero. Nuestro benchmark se caracteriza por su marco de evaluación multidimensional, que incluye (1) un sistema de evaluación de escenarios de RAG basado en matrices que categoriza las consultas en cinco clases de tareas y 16 temas financieros, lo que conduce a una evaluación estructurada de diversos escenarios de consulta; (2) un enfoque de generación de datos de evaluación multidimensional, que combina la generación automática basada en GPT-4 y la anotación humana, logrando una tasa de aceptación del 87.47\% en evaluaciones humanas sobre instancias generadas; (3) un sistema de evaluación de múltiples etapas que evalúa tanto el rendimiento de recuperación como de generación, lo que resulta en una evaluación integral del pipeline de RAG; y (4) métricas de evaluación robustas derivadas de métricas basadas en reglas y en LLM, mejorando la fiabilidad de las evaluaciones a través de anotaciones manuales y ajuste supervisado de un evaluador LLM. Nuestros experimentos demuestran la exhaustividad de OmniEval, que incluye extensos conjuntos de datos de prueba y destaca las variaciones de rendimiento de los sistemas de RAG en diversos temas y tareas, revelando oportunidades significativas para que los modelos de RAG mejoren sus capacidades en dominios verticales. Ponemos el código fuente de nuestro benchmark en código abierto en https://github.com/RUC-NLPIR/OmniEval.
El campo en rápido desarrollo de los modelos grandes multimodales (LMMs) ha dado lugar a la aparición de diversos modelos con capacidades notables. Sin embargo, los benchmarks existentes no logran evaluar de manera integral, objetiva y precisa si los LMMs se alinean con las diversas necesidades de los humanos en escenarios del mundo real. Para cerrar esta brecha, proponemos el benchmark de Perspectivas Multi-Dimensionales (MDI), que incluye más de 500 imágenes que abarcan seis escenarios comunes de la vida humana. Es importante destacar que el Benchmark MDI ofrece dos ventajas significativas sobre las evaluaciones existentes: (1) Cada imagen está acompañada de dos tipos de preguntas: preguntas simples para evaluar la comprensión del modelo de la imagen, y preguntas complejas para evaluar la capacidad del modelo de analizar y razonar más allá del contenido básico. (2) Reconociendo que las personas de diferentes grupos de edad tienen necesidades y perspectivas variables al enfrentarse al mismo escenario, nuestro benchmark estratifica las preguntas en tres categorías de edad: personas jóvenes, personas de mediana edad y personas mayores. Este diseño permite una evaluación detallada de las capacidades de los LMMs para satisfacer las preferencias y necesidades de diferentes grupos de edad. Con el Benchmark MDI, modelos sólidos como GPT-4 logran un 79% de precisión en tareas relacionadas con la edad, lo que indica que los LMMs existentes aún tienen un considerable margen de mejora en la atención a aplicaciones del mundo real. Mirando hacia el futuro, anticipamos que el Benchmark MDI abrirá nuevos caminos para alinear la personalización del mundo real en los LMMs. Los datos y el código de evaluación del Benchmark MDI están disponibles en https://mdi-benchmark.github.io/
La decodificación de Cadena de Pensamiento (CoT) permite a los modelos de lenguaje mejorar el rendimiento de razonamiento a costa de una alta latencia de generación en la decodificación. Propuestas recientes han explorado variantes de tokens de contemplación, un término que introducimos y que se refiere a tokens especiales utilizados durante la inferencia para permitir cálculos adicionales. Trabajos anteriores han considerado secuencias de longitud fija extraídas de un conjunto discreto de incrustaciones como tokens de contemplación. Aquí proponemos Cadena de Pensamiento Comprimida (CCoT), un marco para generar tokens de contemplación significativos y continuos de longitud de secuencia variable. Los tokens de contemplación generados son representaciones comprimidas de cadenas de razonamiento explícitas, y nuestro método puede aplicarse a modelos de lenguaje decodificador listos para usar. A través de experimentos, ilustramos cómo CCoT permite un razonamiento adicional sobre representaciones densas y significativas para lograr mejoras correspondientes en precisión. Además, las mejoras en el razonamiento pueden ser modificadas de forma adaptativa según la demanda controlando el número de tokens de contemplación generados.
Los humanos destilan experiencias complejas en abstracciones fundamentales que permiten un aprendizaje y adaptación rápidos. De manera similar, los transformadores autoregresivos exhiben aprendizaje adaptativo a través del aprendizaje en contexto (ICL), lo que plantea la pregunta de cómo. En este documento, proponemos un mecanismo de codificación-decodificación de conceptos para explicar el ICL estudiando cómo los transformadores forman y utilizan abstracciones internas en sus representaciones. En tareas sintéticas de ICL, analizamos la dinámica de entrenamiento de un pequeño transformador y reportamos la aparición conjunta de la codificación y decodificación de conceptos. A medida que el modelo aprende a codificar diferentes conceptos latentes (por ejemplo, "Encontrar el primer sustantivo en una oración.") en representaciones distintas y separables, simultáneamente construye algoritmos de decodificación condicional y mejora su rendimiento en ICL. Validamos la existencia de este mecanismo en modelos preentrenados de diferentes escalas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Además, a través de intervenciones mecanísticas y ajustes controlados, demostramos que la calidad de la codificación de conceptos está causalmente relacionada y es predictiva del rendimiento en ICL. Nuestras percepciones empíricas arrojan luz sobre una mejor comprensión de los modos de éxito y fracaso de los grandes modelos de lenguaje a través de sus representaciones.
La comprensión de la información de una colección de múltiples documentos, especialmente aquellos con elementos visualmente ricos, es importante para la respuesta a preguntas basadas en documentos. Este documento presenta VisDoMBench, el primer banco de pruebas integral diseñado para evaluar sistemas de QA en entornos de múltiples documentos con contenido multimodal rico, incluyendo tablas, gráficos y diapositivas de presentación. Proponemos VisDoMRAG, un enfoque novedoso de Recuperación Aumentada por Generación (RAG) multimodal que utiliza simultáneamente RAG visual y textual, combinando sólidas capacidades de recuperación visual con un sofisticado razonamiento lingüístico. VisDoMRAG emplea un proceso de razonamiento de múltiples pasos que abarca la curación de evidencia y el razonamiento en cadena de pensamiento para tuberías RAG textuales y visuales concurrentes. Una novedad clave de VisDoMRAG es su mecanismo de fusión de modalidades con restricciones de consistencia, que alinea los procesos de razonamiento entre modalidades en el momento de la inferencia para producir una respuesta final coherente. Esto conduce a una mayor precisión en escenarios donde la información crítica está distribuida en diferentes modalidades y a una mejor verificabilidad de respuestas a través de la atribución implícita de contexto. A través de experimentos extensos que involucran modelos de lenguaje grandes de código abierto y propietarios, evaluamos métodos de QA de documentos de vanguardia en VisDoMBench. Los resultados extensos muestran que VisDoMRAG supera a los baselines de LLM unimodales y de largo contexto para QA de documentos multimodales de extremo a extremo en un 12-20%.
Trabajos recientes sobre la aceleración de Modelos de Visión-Lenguaje muestran que se puede mantener un rendimiento sólido en una variedad de tareas de visión-lenguaje a pesar de comprimir de manera significativa la información visual. En este trabajo, examinamos el enfoque popular de aceleración mediante la poda temprana de tokens visuales dentro del modelo de lenguaje y encontramos que su sólido rendimiento en muchas tareas no se debe a una capacidad excepcional para comprimir información visual, sino más bien a la limitada capacidad de los puntos de referencia para evaluar las capacidades visuales detalladas. Específicamente, demostramos un problema central con el enfoque de aceleración donde se eliminan la mayoría de los tokens hacia la parte superior de la imagen. Sin embargo, este problema solo se refleja en el rendimiento para un pequeño subconjunto de tareas como la localización. Para las otras tareas evaluadas, se mantiene un sólido rendimiento con la estrategia de poda defectuosa. Observando las limitadas capacidades visuales de la técnica de aceleración estudiada, proponemos FEATHER (Aceleración Rápida y Efectiva con Criterios de Ensamble), un enfoque sencillo que (1) resuelve el problema identificado con la poda en capas tempranas, (2) incorpora muestreo uniforme para garantizar cobertura en todas las regiones de la imagen, y (3) aplica la poda en dos etapas para permitir que los criterios sean más efectivos en una capa posterior mientras aún se logra una aceleración significativa a través de la poda en capas tempranas. Con ahorros computacionales comparables, encontramos que FEATHER tiene más de 5 veces de mejora en el rendimiento en los puntos de referencia de localización centrados en la visión en comparación con el enfoque de aceleración original.
La visión de un agente ampliamente capaz y dirigido por objetivos, como un agente de navegación en Internet en el mundo digital y un humanoide doméstico en el mundo físico, ha avanzado rápidamente, gracias a la capacidad de generalización de los modelos base. Un agente generalista de este tipo necesita tener un repertorio de habilidades amplio y diverso, como encontrar direcciones entre dos ubicaciones de viaje y comprar artículos específicos en Internet. Si cada habilidad debe ser especificada manualmente a través de un conjunto fijo de instrucciones anotadas por humanos, el repertorio de habilidades del agente será necesariamente limitado debido a la cantidad y diversidad de instrucciones anotadas por humanos. En este trabajo, abordamos este desafío proponiendo Proposer-Agent-Evaluator, un sistema de aprendizaje efectivo que permite a los agentes de modelos base descubrir y practicar habilidades de forma autónoma en entornos no controlados. En el núcleo de PAE se encuentra un proponente de tareas consciente del contexto que propone tareas de forma autónoma para que el agente practique con información de contexto del entorno, como demostraciones de usuario o incluso solo el nombre del sitio web para agentes de navegación en Internet. Luego, la política del agente intenta realizar esas tareas con pensamientos y operaciones concretas en el mundo real, con trayectorias resultantes evaluadas por un evaluador de éxito basado en VLM autónomo. La evaluación del éxito sirve como señal de recompensa para que el agente perfeccione sus políticas a través de RL. Validamos PAE en una navegación web basada en visión desafiante, utilizando sitios web del mundo real y autohospedados de WebVoyager y WebArena. Hasta donde sabemos, este trabajo representa el primer sistema de aprendizaje efectivo que aplica propuesta autónoma de tareas con RL para agentes que generalizan referencias anotadas por humanos del mundo real con rendimientos de última generación. Nuestros puntos de control y código de código abierto se pueden encontrar en https://yanqval.github.io/PAE/
La completación de profundidad mejora las medidas de profundidad dispersas en mapas de profundidad densos guiados por una imagen convencional. Los métodos existentes para esta tarea altamente mal planteada operan en entornos estrictamente controlados y tienden a tener dificultades cuando se aplican a imágenes fuera del dominio de entrenamiento o cuando las medidas de profundidad disponibles son dispersas, distribuidas de manera irregular o de densidad variable. Inspirados por los avances recientes en la estimación de profundidad monocular, reformulamos la completación de profundidad como una generación de mapas de profundidad condicionada por la imagen guiada por medidas dispersas. Nuestro método, Marigold-DC, se basa en un modelo de difusión latente preentrenado para la estimación de profundidad monocular e incorpora las observaciones de profundidad como guía en tiempo de prueba a través de un esquema de optimización que se ejecuta en paralelo con la inferencia iterativa de difusión de desenfoque. El método muestra una excelente generalización de cero disparos en una amplia gama de entornos y maneja de manera efectiva incluso la guía extremadamente dispersa. Nuestros resultados sugieren que los priors contemporáneos de profundidad monocular robustecen en gran medida la completación de profundidad: puede ser mejor ver la tarea como recuperar la profundidad densa a partir de píxeles de imagen (densos), guiados por profundidad dispersa; en lugar de como rellenar (profundidad dispersa), guiada por una imagen. Sitio web del proyecto: https://MarigoldDepthCompletion.github.io/
En el desarrollo de software del mundo real, un manejo incorrecto o la ausencia de manejo de excepciones puede afectar gravemente la solidez y confiabilidad del código. Los mecanismos de manejo de excepciones requieren que los desarrolladores detecten, capturen y gestionen excepciones según altos estándares, pero muchos desarrolladores tienen dificultades con estas tareas, lo que resulta en un código frágil. Este problema es particularmente evidente en proyectos de código abierto y afecta la calidad general del ecosistema de software. Para abordar este desafío, exploramos el uso de modelos de lenguaje grandes (LLMs) para mejorar el manejo de excepciones en el código. A través de un análisis exhaustivo, identificamos tres problemas clave: Detección Insensible de Código Frágil, Captura Inexacta del Bloque de Excepción y Solución de Manejo Distorsionada. Estos problemas son generalizados en repositorios del mundo real, lo que sugiere que a menudo se pasan por alto o se manejan incorrectamente las prácticas sólidas de manejo de excepciones. En respuesta, proponemos Seeker, un marco multiagente inspirado en estrategias de desarrolladores expertos para el manejo de excepciones. Seeker utiliza agentes: Escáner, Detector, Depredador, Clasificador y Manejador para ayudar a los LLMs a detectar, capturar y resolver excepciones de manera más efectiva. Nuestro trabajo es el primer estudio sistemático sobre cómo aprovechar los LLMs para mejorar las prácticas de manejo de excepciones en escenarios reales de desarrollo, proporcionando ideas valiosas para futuras mejoras en la confiabilidad del código.
Presentamos SUGAR, un método de cero disparos para la personalización de videos dirigida por el sujeto. Dada una imagen de entrada, SUGAR es capaz de generar videos para el sujeto contenido en la imagen y alinear la generación con atributos visuales arbitrarios como estilo y movimiento especificados por texto de entrada del usuario. A diferencia de métodos anteriores, que requieren ajustes finos en tiempo de prueba o no logran generar videos alineados con texto, SUGAR logra resultados superiores sin necesidad de costos adicionales en tiempo de prueba. Para habilitar la capacidad de cero disparos, introducimos un pipeline escalable para construir un conjunto de datos sintético diseñado específicamente para la personalización dirigida por el sujeto, lo que resulta en 2.5 millones de tripletes imagen-video-texto. Además, proponemos varios métodos para mejorar nuestro modelo, incluidos diseños de atención especial, estrategias de entrenamiento mejoradas y un algoritmo de muestreo refinado. Se realizan experimentos extensos. En comparación con métodos anteriores, SUGAR logra resultados de vanguardia en preservación de identidad, dinámica de video y alineación de video-texto para la personalización de videos dirigida por el sujeto, demostrando la efectividad de nuestro método propuesto.
La reciente edición de video basada en IA ha permitido a los usuarios editar videos a través de simples indicaciones de texto, simplificando significativamente el proceso de edición. Sin embargo, las técnicas recientes de edición de video sin entrenamiento se centran principalmente en ediciones globales o de un solo objeto, lo que puede provocar cambios no deseados en otras partes del video. Cuando varios objetos requieren ediciones localizadas, los métodos existentes enfrentan desafíos, como ediciones no fieles, filtraciones de edición y la falta de conjuntos de datos y métricas de evaluación adecuados. Para superar estas limitaciones, proponemos un marco de edición de video de múltiples instancias sin entrenamiento, llamado MIVE. MIVE es un marco basado en máscaras de propósito general, no dedicado a objetos específicos (por ejemplo, personas). MIVE introduce dos módulos clave: (i) Muestreo de múltiples instancias desacoplado (DMS) para prevenir filtraciones de edición y (ii) Redistribución de Probabilidad Centrada en Instancias (IPR) para garantizar una localización precisa y una edición fiel. Además, presentamos nuestro nuevo Conjunto de Datos MIVE que presenta diversos escenarios de video e introducimos el Puntaje de Precisión entre Instancias (CIA) para evaluar filtraciones de edición en tareas de edición de video de múltiples instancias. Nuestras extensas evaluaciones cualitativas, cuantitativas y de estudios de usuarios demuestran que MIVE supera significativamente a los métodos recientes de vanguardia en cuanto a fidelidad de edición, precisión y prevención de filtraciones, estableciendo un nuevo punto de referencia para la edición de video de múltiples instancias. La página del proyecto está disponible en https://kaist-viclab.github.io/mive-site/
Los Modelos de Lenguaje Grandes (LLMs) demuestran un rendimiento excepcional en diversas tareas al aprovechar tanto el conocimiento pre-entrenado (es decir, conocimiento paramétrico) como el conocimiento externo (es decir, conocimiento contextual). Aunque se han realizado esfuerzos sustanciales para aprovechar ambas formas de conocimiento, los escenarios en los que el modelo carece de conocimiento relevante siguen siendo poco explorados. Estas limitaciones pueden resultar en problemas como la alucinación, lo que provoca una menor fiabilidad y posibles riesgos en aplicaciones críticas. Para abordar tales limitaciones, este documento amplía el alcance de la tarea para abarcar casos en los que la solicitud del usuario no se puede cumplir debido a la falta de conocimiento relevante. Con este fin, presentamos la Decodificación Contrastiva con Abstención (CDA), un método de decodificación sin entrenamiento que capacita a los LLMs para generar respuestas cuando hay conocimiento relevante disponible y para abstenerse en caso contrario. CDA evalúa la relevancia de cada conocimiento para una consulta dada, determinando de manera adaptativa qué conocimiento priorizar o cuál ignorar por completo. Experimentos extensos con cuatro LLMs en tres conjuntos de datos de preguntas y respuestas demuestran que CDA puede realizar de manera efectiva la generación precisa y la abstención simultáneamente. Estos hallazgos resaltan el potencial de CDA para ampliar la aplicabilidad de los LLMs, mejorando la fiabilidad y preservando la confianza del usuario.