Artículos de investigación en IA seleccionados diariamente con traducciones
La animación de imágenes de personajes, que genera videos de alta calidad a partir de una imagen de referencia y una secuencia de posturas objetivo, ha experimentado un progreso significativo en los últimos años. Sin embargo, la mayoría de los métodos existentes solo se aplican a figuras humanas, que generalmente no se generalizan bien en personajes antropomórficos comúnmente utilizados en industrias como los videojuegos y el entretenimiento. Nuestro análisis exhaustivo sugiere que esta limitación se debe a su modelado insuficiente del movimiento, que no logra comprender el patrón de movimiento del video guía, imponiendo rígidamente una secuencia de posturas sobre el personaje objetivo. Con este fin, este artículo propone Animate-X, un marco de animación universal basado en LDM para varios tipos de personajes (colectivamente denominados X), incluidos los personajes antropomórficos. Para mejorar la representación del movimiento, introducimos el Indicador de Postura, que captura el patrón de movimiento completo del video guía de manera implícita y explícita. El primero aprovecha las características visuales CLIP de un video guía para extraer su esencia de movimiento, como el patrón de movimiento general y las relaciones temporales entre movimientos, mientras que el segundo refuerza la generalización de LDM al simular posibles entradas con anticipación que pueden surgir durante la inferencia. Además, presentamos un nuevo Banco de Pruebas Animado Antropomórfico (A^2Bench) para evaluar el rendimiento de Animate-X en imágenes de animación universales y ampliamente aplicables. Experimentos extensos demuestran la superioridad y efectividad de Animate-X en comparación con los métodos de vanguardia.
Con el rápido desarrollo de contenido generado por IA, es posible que el futuro de internet se vea inundado de datos sintéticos, lo que dificultaría cada vez más la discriminación entre datos multimodales auténticos y creíbles. La detección de datos sintéticos ha captado una amplia atención, y el rendimiento de los grandes modelos multimodales (LMMs) en esta tarea ha generado un interés significativo. Los LMMs pueden ofrecer explicaciones en lenguaje natural para sus juicios de autenticidad, mejorando la explicabilidad de la detección de contenido sintético. Al mismo tiempo, la tarea de distinguir entre datos reales y sintéticos pone a prueba de manera efectiva las capacidades de percepción, conocimiento y razonamiento de los LMMs. En respuesta, presentamos LOKI, un nuevo punto de referencia diseñado para evaluar la capacidad de los LMMs para detectar datos sintéticos en múltiples modalidades. LOKI abarca modalidades de video, imagen, 3D, texto y audio, que incluyen 18K preguntas cuidadosamente seleccionadas en 26 subcategorías con niveles de dificultad claros. El punto de referencia incluye juicios de grano grueso y preguntas de opción múltiple, así como tareas de selección y explicación de anomalías de grano fino, lo que permite un análisis exhaustivo de los LMMs. Evaluamos 22 LMMs de código abierto y 6 modelos de código cerrado en LOKI, destacando su potencial como detectores de datos sintéticos y también revelando algunas limitaciones en el desarrollo de las capacidades de los LMMs. Más información sobre LOKI se puede encontrar en https://opendatalab.github.io/LOKI/
La comprensión y generación multimodal entrelazada, que permite a los modelos producir e interpretar tanto imágenes como texto en secuencias arbitrarias, se ha convertido en un área fundamental en el aprendizaje multimodal. A pesar de los avances significativos, la evaluación de esta capacidad sigue siendo insuficiente. Los benchmarks existentes sufren de limitaciones en escala de datos, alcance y profundidad de evaluación, mientras que las métricas de evaluación actuales suelen ser costosas o sesgadas, careciendo de fiabilidad para aplicaciones prácticas. Para abordar estos desafíos, presentamos MMIE, un benchmark intensivo en conocimiento a gran escala para evaluar la comprensión y generación multimodal entrelazada en Modelos de Lenguaje-Visión Grandes (LVLMs). MMIE consta de 20K consultas multimodales meticulosamente seleccionadas, abarcando 3 categorías, 12 campos y 102 subcampos, que incluyen matemáticas, programación, física, literatura, salud y artes. Admite tanto entradas como salidas entrelazadas, ofreciendo una combinación de formatos de pregunta de opción múltiple y abierta para evaluar diversas competencias. Además, proponemos una métrica de evaluación automatizada confiable, aprovechando un modelo de puntuación ajustado con datos anotados por humanos y criterios de evaluación sistemáticos, con el objetivo de reducir el sesgo y mejorar la precisión de la evaluación. Experimentos extensos demuestran la eficacia de nuestro benchmark y métricas al proporcionar una evaluación integral de los LVLMs entrelazados. Específicamente, evaluamos ocho LVLMs, revelando que incluso los mejores modelos muestran un margen significativo para mejorar, con la mayoría logrando solo resultados moderados. Creemos que MMIE impulsará nuevos avances en el desarrollo de LVLMs entrelazados. Publicamos nuestro benchmark y código en https://mmie-bench.github.io/.
Seguir instrucciones naturales es crucial para la aplicación efectiva de los sistemas de Generación con Recuperación Aumentada (RAG). A pesar de los avances recientes en Modelos de Lenguaje Grandes (LLMs), la investigación sobre la evaluación y mejora de la alineación en el seguimiento de instrucciones (IF) dentro del dominio RAG sigue siendo limitada. Para abordar este problema, proponemos VIF-RAG, la primera canalización sintética automatizada, escalable y verificable para la alineación en el seguimiento de instrucciones en sistemas RAG. Comenzamos creando manualmente un conjunto mínimo de instrucciones atómicas (<100) y desarrollando reglas de combinación para sintetizar y verificar instrucciones complejas para un conjunto inicial. Luego utilizamos modelos supervisados para la reescritura de instrucciones mientras generamos código para automatizar la verificación de la calidad de las instrucciones a través de un ejecutor de Python. Finalmente, integramos estas instrucciones con amplias muestras de datos generales y RAG, escalando a un conjunto de datos VIF-RAG-QA de alta calidad (>100k) a través de procesos automatizados. Para cerrar la brecha en la autoevaluación del seguimiento de instrucciones para sistemas RAG, presentamos el Benchmark FollowRAG, que incluye aproximadamente 3K muestras de prueba, cubriendo 22 categorías de restricciones de instrucciones generales y cuatro conjuntos de datos de preguntas y respuestas intensivas en conocimiento. Debido a su sólido diseño de canalización, FollowRAG puede integrarse fácilmente con diferentes benchmarks de RAG. Utilizando FollowRAG y ocho benchmarks ampliamente utilizados de habilidades fundamentales y de seguimiento de instrucciones para LLMs, demostramos que VIF-RAG mejora notablemente el rendimiento de los LLMs en una amplia gama de restricciones de instrucciones generales, aprovechando eficazmente sus capacidades en escenarios RAG. Un análisis adicional ofrece ideas prácticas para lograr la alineación en el seguimiento de instrucciones en sistemas RAG. Nuestro código y conjuntos de datos están disponibles en https://FollowRAG.github.io.
Presentamos MEGA-Bench, un conjunto de evaluación que amplía la evaluación multimodal a más de 500 tareas del mundo real, para abordar los casos de uso altamente heterogéneos de los usuarios finales. Nuestro objetivo es optimizar un conjunto de muestras de datos de alta calidad que cubran una amplia y diversa gama de tareas multimodales, al tiempo que permitan una evaluación de modelos precisa y rentable. En particular, recopilamos 505 tareas realistas que abarcan más de 8,000 muestras de 16 anotadores expertos para cubrir extensamente el espacio de tareas multimodales. En lugar de unificar estos problemas en preguntas de opción múltiple estándar (como MMMU, MMBench y MMT-Bench), adoptamos una amplia gama de formatos de salida como números, frases, código, \LaTeX, coordenadas, JSON, formato libre, etc. Para dar cabida a estos formatos, desarrollamos más de 40 métricas para evaluar estas tareas. A diferencia de los benchmarks existentes, MEGA-Bench ofrece un informe detallado de capacidades en múltiples dimensiones (por ejemplo, aplicación, tipo de entrada, formato de salida, habilidad), lo que permite a los usuarios interactuar y visualizar las capacidades del modelo en profundidad. Evaluamos una amplia variedad de modelos de vanguardia de visión y lenguaje en MEGA-Bench para comprender sus capacidades en estas dimensiones.
Los recientes avances en modelos de lenguaje grandes (LLMs) han llevado a avances significativos en las capacidades de razonamiento matemático. Sin embargo, benchmarks existentes como GSM8K o MATH ahora están siendo resueltos con alta precisión (por ejemplo, OpenAI o1 logra un 94.8% en el conjunto de datos MATH), lo que indica su insuficiencia para desafiar verdaderamente estos modelos. Para cerrar esta brecha, proponemos un benchmark integral y desafiante diseñado específicamente para evaluar el razonamiento matemático de LLMs a nivel de Olimpiada. A diferencia de benchmarks relacionados con Olimpiadas existentes, nuestro conjunto de datos se enfoca exclusivamente en matemáticas y comprende una vasta colección de 4428 problemas de nivel de competencia con anotaciones humanas rigurosas. Estos problemas están meticulosamente categorizados en más de 33 subdominios y abarcan más de 10 niveles de dificultad distintos, lo que permite una evaluación holística del rendimiento del modelo en el razonamiento matemático de Olimpiada. Además, realizamos un análisis detallado basado en este benchmark. Nuestros resultados experimentales muestran que incluso los modelos más avanzados, OpenAI o1-mini y OpenAI o1-preview, tienen dificultades con problemas de nivel de Olimpiada altamente desafiantes, con una precisión del 60.54% y 52.55%, resaltando desafíos significativos en el razonamiento matemático de nivel de Olimpiada.
Los modelos generativos transforman ruido aleatorio en imágenes; su inversión tiene como objetivo transformar imágenes de nuevo en ruido estructurado para recuperación y edición. Este documento aborda dos tareas clave: (i) inversión y (ii) edición de una imagen real utilizando equivalentes estocásticos de modelos de flujo rectificado (como Flux). Aunque los Modelos de Difusión (DMs) han dominado recientemente el campo de modelado generativo para imágenes, su inversión presenta desafíos de fidelidad y editabilidad debido a las no linealidades en deriva y difusión. Los enfoques de inversión de DM de vanguardia existentes dependen del entrenamiento de parámetros adicionales u optimización en tiempo de prueba de variables latentes; ambos son costosos en la práctica. Los Flujos Rectificados (RFs) ofrecen una alternativa prometedora a los modelos de difusión, sin embargo, su inversión ha sido poco explorada. Proponemos la inversión de RF utilizando control óptimo dinámico derivado a través de un regulador cuadrático lineal. Demostramos que el campo vectorial resultante es equivalente a una ecuación diferencial estocástica rectificada. Además, ampliamos nuestro marco para diseñar un muestreador estocástico para Flux. Nuestro método de inversión permite un rendimiento de vanguardia en inversión y edición sin entrenamiento previo, superando trabajos anteriores en síntesis de trazos a imagen y edición semántica de imágenes, con evaluaciones humanas a gran escala que confirman la preferencia del usuario.
El entrenamiento a gran escala de modelos multimodales con datos extraídos de la web ha demostrado una utilidad excepcional para dotar a estos modelos del conocimiento del mundo necesario para desempeñarse eficazmente en múltiples tareas posteriores. Sin embargo, un inconveniente de la extracción de datos de la web puede ser el potencial sacrificio de los puntos de referencia en los que a menudo se evalúan las habilidades de estos modelos. Para protegerse contra la contaminación de los datos de prueba y probar verdaderamente las habilidades de estos modelos base, proponemos LiveXiv: un banco de pruebas en vivo escalable y en evolución basado en artículos científicos de ArXiv. LiveXiv accede a manuscritos específicos de un dominio en cualquier momento dado y propone generar automáticamente pares de preguntas y respuestas visuales (VQA). Esto se hace sin intervención humana, utilizando el contenido multimodal de los manuscritos, como gráficos, tablas y cuadros. Además, presentamos un enfoque de evaluación eficiente que estima el rendimiento de todos los modelos en el banco de pruebas en evolución mediante evaluaciones de solo un subconjunto de modelos. Esto reduce significativamente el costo total de evaluación. Evaluamos múltiples Modelos Multimodales Grandes (LMMs) abiertos y propietarios en la primera versión de nuestro banco de pruebas, mostrando su naturaleza desafiante y exponiendo las verdaderas habilidades de los modelos, evitando la contaminación. Por último, en nuestro compromiso con la alta calidad, hemos recopilado y evaluado un subconjunto verificado manualmente. Al comparar sus resultados generales con nuestras anotaciones automáticas, hemos encontrado que la variación de rendimiento es realmente mínima (<2.5%). Nuestro conjunto de datos está disponible en línea en HuggingFace, y nuestro código estará disponible aquí.
La generación aumentada por recuperación (RAG) es una técnica efectiva que permite a los grandes modelos de lenguaje (LLMs) utilizar fuentes de conocimiento externas para la generación. Sin embargo, los sistemas RAG actuales se basan únicamente en texto, lo que hace imposible utilizar información visual como el diseño y las imágenes que desempeñan roles cruciales en documentos multimodales del mundo real. En este artículo, presentamos VisRAG, que aborda este problema estableciendo un pipeline RAG basado en un modelo de visión-lenguaje (VLM). En este pipeline, en lugar de analizar primero el documento para obtener texto, el documento se incrusta directamente utilizando un VLM como una imagen y luego se recupera para mejorar la generación de un VLM. En comparación con el RAG tradicional basado en texto, VisRAG maximiza la retención y utilización de la información de datos en los documentos originales, eliminando la pérdida de información introducida durante el proceso de análisis. Recopilamos datos tanto de código abierto como sintéticos para entrenar el recuperador en VisRAG y explorar una variedad de métodos de generación. Los experimentos demuestran que VisRAG supera al RAG tradicional tanto en las etapas de recuperación como de generación, logrando una mejora de rendimiento de extremo a extremo del 25 al 39% sobre el pipeline RAG tradicional basado en texto. Un análisis adicional revela que VisRAG es efectivo en la utilización de datos de entrenamiento y demuestra una sólida capacidad de generalización, posicionándolo como una solución prometedora para RAG en documentos multimodales. Nuestro código y datos están disponibles en https://github.com/openbmb/visrag.
En los últimos años ha habido avances notables en la generación de imágenes a video. Sin embargo, la consistencia tridimensional y la controlabilidad de cámara de los fotogramas generados han permanecido sin resolver. Estudios recientes han intentado incorporar el control de cámara en el proceso de generación, pero sus resultados suelen estar limitados a trayectorias simples o carecen de la capacidad de generar videos consistentes a partir de múltiples rutas de cámara distintas para la misma escena. Para abordar estas limitaciones, presentamos Cavia, un nuevo marco para la generación de videos multi-vista controlables por cámara, capaz de convertir una imagen de entrada en múltiples videos espaciotemporalmente consistentes. Nuestro marco extiende los módulos de atención espacial y temporal en módulos de atención integrados en la vista, mejorando tanto la consistencia del punto de vista como la temporal. Este diseño flexible permite el entrenamiento conjunto con diversas fuentes de datos curados, incluidos videos estáticos a nivel de escena, videos dinámicos multi-vista sintéticos a nivel de objeto y videos dinámicos monoculares del mundo real. Hasta donde sabemos, Cavia es el primero en su tipo que permite al usuario especificar con precisión el movimiento de la cámara al mismo tiempo que se obtiene el movimiento del objeto. Experimentos extensos demuestran que Cavia supera a los métodos de vanguardia en cuanto a consistencia geométrica y calidad perceptual. Página del proyecto: https://ir1d.github.io/Cavia/
Los LLMs suelen entrenarse para responder preguntas de usuarios o seguir instrucciones de manera similar a como lo hacen los expertos humanos. Sin embargo, en el marco de alineación estándar, carecen de la habilidad básica de pensar explícitamente antes de responder. El pensamiento es crucial para preguntas complejas que requieren razonamiento y planificación, pero puede aplicarse a cualquier tarea. Proponemos un método de entrenamiento para dotar a los LLMs existentes con estas habilidades de pensamiento para seguir instrucciones generales sin necesidad de datos humanos adicionales. Logramos esto mediante un procedimiento iterativo de búsqueda y optimización que explora el espacio de posibles generaciones de pensamiento, permitiendo que el modelo aprenda a pensar sin supervisión directa. Para cada instrucción, los candidatos de pensamiento se puntúan utilizando un modelo evaluador que evalúa únicamente sus respuestas, y luego se optimizan mediante preferencia de optimización. Mostramos que este procedimiento conduce a un rendimiento superior en AlpacaEval y Arena-Hard, y muestra mejoras al pensar en categorías no relacionadas con el razonamiento, como marketing, salud y conocimiento general, además de tareas más tradicionales de razonamiento y resolución de problemas.
Comprender la dinámica temporal detallada es crucial para la comprensión y generación de videos multimodales. Debido a la falta de anotaciones temporales detalladas, los benchmarks de video existentes se asemejan principalmente a benchmarks de imágenes estáticas y son inadecuados para evaluar modelos de comprensión temporal. En este artículo, presentamos TemporalBench, un nuevo benchmark dedicado a evaluar la comprensión temporal detallada en videos. TemporalBench consta de ~10K pares de preguntas y respuestas de video, derivados de ~2K anotaciones humanas de alta calidad que detallan la dinámica temporal en clips de video. Como resultado, nuestro benchmark proporciona un banco de pruebas único para evaluar diversas habilidades de comprensión y razonamiento temporal, como la frecuencia de acciones, la magnitud del movimiento, el orden de eventos, etc. Además, permite evaluaciones en diversas tareas como responder preguntas de video y subtitulado, comprensión de videos cortos y largos, así como diferentes modelos como modelos de incrustación de video multimodal y modelos de generación de texto. Los resultados muestran que modelos de vanguardia como GPT-4o solo logran una precisión de respuesta a preguntas del 38.5% en TemporalBench, demostrando una brecha significativa (~30%) entre humanos y la IA en la comprensión temporal. Además, observamos una falla crítica para las preguntas de opción múltiple donde los LLM pueden detectar los cambios sutiles en leyendas negativas y encontrar una descripción centralizada como una pista para su predicción, donde proponemos la Precisión Binaria Múltiple (MBA) para corregir dicho sesgo. Esperamos que TemporalBench fomente la investigación sobre la mejora de las capacidades de razonamiento temporal de los modelos. Tanto el conjunto de datos como el código de evaluación estarán disponibles.
El ajuste fino supervisado (AFS) es crucial para alinear los Modelos de Lenguaje Grandes (MLG) con las instrucciones humanas. El objetivo principal durante el AFS es seleccionar un subconjunto pequeño pero representativo de datos de entrenamiento de un conjunto más grande, de modo que el ajuste fino con este subconjunto logre resultados comparables o incluso superiores a los obtenidos utilizando todo el conjunto de datos. Sin embargo, la mayoría de las técnicas de selección de datos existentes están diseñadas para conjuntos de datos a pequeña escala, lo que no satisface las demandas de los escenarios de AFS del mundo real. En este documento, replicamos varios métodos de auto-puntuación que no dependen de asistencia de modelos externos en conjuntos de datos a escala de dos millones, y encontramos que casi todos los métodos lucharon por superar significativamente la selección aleatoria al tratar con conjuntos de datos a gran escala. Además, nuestras comparaciones sugieren que, durante el AFS, la diversidad en la selección de datos es más crítica que simplemente centrarse en datos de alta calidad. También analizamos las limitaciones de varios enfoques actuales, explicando por qué tienen un rendimiento deficiente en conjuntos de datos a gran escala y por qué no son adecuados para tales contextos. Finalmente, descubrimos que filtrar los datos por longitud de token ofrece un método estable y eficiente para mejorar los resultados. Este enfoque, especialmente al entrenar con datos de texto largo, resulta altamente beneficioso para modelos base relativamente más débiles, como Llama3.
Los recientes sistemas de asistentes de chat impulsados por modelos de lenguaje grandes (LLM) han integrado componentes de memoria para rastrear historiales de chat de usuario-asistente, lo que permite respuestas más precisas y personalizadas. Sin embargo, sus capacidades de memoria a largo plazo en interacciones sostenidas siguen siendo poco exploradas. Este artículo presenta LongMemEval, un banco de pruebas integral diseñado para evaluar cinco habilidades centrales de memoria a largo plazo de asistentes de chat: extracción de información, razonamiento multi-sesión, razonamiento temporal, actualizaciones de conocimiento y abstención. Con 500 preguntas meticulosamente seleccionadas integradas en historiales de chat usuario-asistente libremente escalables, LongMemEval presenta un desafío significativo para los sistemas de memoria a largo plazo existentes, con asistentes de chat comerciales y LLMs de largo contexto mostrando una disminución del 30% en la precisión al memorizar información a lo largo de interacciones sostenidas. Luego presentamos un marco unificado que desglosa el diseño de memoria a largo plazo en cuatro opciones de diseño a lo largo de las etapas de indexación, recuperación y lectura. Basándonos en conocimientos experimentales clave, proponemos varios diseños de memoria que incluyen descomposición de sesiones para optimizar la granularidad del valor, expansión de claves aumentadas con hechos para mejorar la estructura del índice y expansión de consultas consciente del tiempo para refinar el alcance de la búsqueda. Los resultados experimentales muestran que estas optimizaciones mejoran considerablemente tanto la recuperación de memoria como la respuesta a preguntas en LongMemEval. En general, nuestro estudio proporciona recursos valiosos y orientación para avanzar en las capacidades de memoria a largo plazo de los asistentes de chat basados en LLM, allanando el camino hacia una IA conversacional más personalizada y confiable.
La llegada de los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) de gran tamaño ha avanzado significativamente la comprensión multimodal, permitiendo una integración más sofisticada y precisa de la información visual y textual en diversas tareas, incluyendo la descripción de imágenes y videos, respuestas a preguntas visuales y recuperación cruzada de modalidades. A pesar de las capacidades superiores de los VLMs, los investigadores carecen de una comprensión integral de su composicionalidad, es decir, la capacidad de entender y producir combinaciones novedosas de componentes visuales y textuales conocidos. Los benchmarks anteriores proporcionan solo una evaluación relativamente básica de la composicionalidad desde las perspectivas de objetos, relaciones y atributos, al tiempo que descuidan un razonamiento más profundo sobre interacciones de objetos, conteo y composiciones complejas. Sin embargo, la composicionalidad es una habilidad crítica que facilita el razonamiento coherente y la comprensión entre modalidades para los VLMs. Para abordar esta limitación, proponemos MMCOMPOSITION, un nuevo benchmark anotado por humanos para evaluar de manera exhaustiva y precisa la composicionalidad de los VLMs. Nuestro benchmark propuesto sirve como complemento a estos trabajos anteriores. Con MMCOMPOSITION, podemos cuantificar y explorar la composicionalidad de los VLMs más comunes. Sorprendentemente, encontramos que la composicionalidad de GPT-4o es inferior a la del mejor modelo de código abierto, y analizamos las razones subyacentes. Nuestro análisis experimental revela las limitaciones de los VLMs en la percepción y razonamiento composicional detallado, y señala áreas para mejorar en el diseño y entrenamiento de los VLMs. Recursos disponibles en: https://hanghuacs.github.io/MMComposition/
Los Modelos de Lenguaje Grandes (LLMs) han demostrado un rendimiento notable en múltiples tareas a través del aprendizaje en contexto. Para tareas de razonamiento complejo que requieren un pensamiento paso a paso, la técnica de Encadenamiento de Pensamientos (CoT) ha dado resultados impresionantes, especialmente cuando se combina con autoconsistencia. Sin embargo, algunas tareas siguen siendo particularmente difíciles de resolver para los LLMs. El Árbol de Pensamientos (ToT) y el Grafo de Pensamientos (GoT) han surgido como alternativas, dividiendo el problema complejo en caminos de subproblemas. En este documento, proponemos el Árbol de Problemas (ToP), una versión más simple de ToT, que hipotetizamos puede funcionar mejor para tareas complejas que pueden dividirse en subtareas idénticas. Nuestros resultados empíricos muestran que nuestro enfoque supera a ToT y GoT, y además tiene un mejor rendimiento que CoT en tareas de razonamiento complejo. Todo el código para este documento está disponible públicamente aquí: https://github.com/ArmelRandy/tree-of-problems.
Desplegar modelos de lenguaje grandes de contexto extenso (LLMs) es esencial pero plantea desafíos significativos en términos de computación y memoria. Cachear todos los estados de Clave y Valor (KV) a lo largo de todas las cabezas de atención consume una cantidad considerable de memoria. Los métodos existentes de poda de caché KV dañan las capacidades de contexto extenso de los LLMs o solo ofrecen mejoras de eficiencia limitadas. En este documento, identificamos que solo una fracción de las cabezas de atención, conocidas como Cabezas de Recuperación, son críticas para procesar contextos largos y requieren atención completa en todos los tokens. En contraste, todas las demás cabezas, que se centran principalmente en tokens recientes y puntos de atención, denominadas Cabezas de Transmisión, no requieren atención completa. Basándonos en esta percepción, presentamos DuoAttention, un marco que aplica un caché KV completo solo a las cabezas de recuperación, mientras utiliza un caché KV ligero y de longitud constante para las cabezas de transmisión, lo que reduce tanto la memoria de decodificación y prellenado de los LLMs como la latencia sin comprometer sus capacidades de contexto extenso. DuoAttention emplea un algoritmo ligero basado en optimización con datos sintéticos para identificar con precisión las cabezas de recuperación. Nuestro método reduce significativamente la memoria de inferencia de contexto extenso hasta en 2.55 veces para modelos MHA y 1.67 veces para modelos GQA, al tiempo que acelera la decodificación hasta en 2.18 veces y 1.50 veces, y el prellenado hasta en 1.73 veces y 1.63 veces para modelos MHA y GQA, respectivamente, con una pérdida mínima de precisión en comparación con la atención completa. Es destacable que, combinado con la cuantificación, DuoAttention permite la decodificación de Llama-3-8B con una longitud de contexto de 3.3 millones en una sola GPU A100. El código está disponible en https://github.com/mit-han-lab/duo-attention.
Los robots humanoides capaces de operar de forma autónoma en diversos entornos han sido desde hace mucho tiempo un objetivo para los expertos en robótica. Sin embargo, la manipulación autónoma por parte de robots humanoides ha estado mayormente restringida a una escena específica, principalmente debido a la dificultad de adquirir habilidades generalizables. Avances recientes en políticas visuomotoras 3D, como la Política de Difusión 3D (DP3), han mostrado promesa en la extensión de estas capacidades a entornos más salvajes. Sin embargo, las políticas visuomotoras 3D a menudo dependen de la calibración de la cámara y la segmentación de nubes de puntos, lo cual presenta desafíos para su implementación en robots móviles como los humanoides. En este trabajo, presentamos la Política de Difusión 3D Mejorada (iDP3), una nueva política visuomotor 3D que elimina estas restricciones al aprovechar representaciones visuales 3D egocéntricas. Demostramos que iDP3 permite que un robot humanoide de tamaño completo realice de forma autónoma habilidades en diversos escenarios del mundo real, utilizando solo datos recopilados en el laboratorio. Los videos están disponibles en: https://humanoid-manipulation.github.io
Los grandes modelos de lenguaje han demostrado un rendimiento impresionante al integrarse con modelos de visión, incluso permitiendo la comprensión de videos. Sin embargo, evaluar estos modelos de video presenta sus propios desafíos únicos, para los cuales se han propuesto varios puntos de referencia. En este documento, mostramos que los puntos de referencia de video-lenguaje más utilizados actualmente pueden resolverse sin requerir mucho razonamiento temporal. Identificamos tres problemas principales en los conjuntos de datos existentes: (i) la información estática de fotogramas individuales a menudo es suficiente para resolver las tareas, (ii) el texto de las preguntas y respuestas candidatas es excesivamente informativo, lo que permite a los modelos responder correctamente sin depender de ninguna entrada visual, (iii) el conocimiento del mundo por sí solo puede responder a muchas de las preguntas, convirtiendo los puntos de referencia en una prueba de replicación de conocimiento en lugar de razonamiento visual. Además, descubrimos que los puntos de referencia de preguntas y respuestas abiertas para la comprensión de videos sufren problemas similares, mientras que el proceso de evaluación automática con LLMs es poco confiable, lo que lo convierte en una alternativa inadecuada. Como solución, proponemos TVBench, un nuevo punto de referencia de preguntas y respuestas de opción múltiple de video de código abierto, y demostramos a través de evaluaciones extensas que requiere un alto nivel de comprensión temporal. Sorprendentemente, encontramos que la mayoría de los modelos de video-lenguaje más avanzados recientes tienen un rendimiento similar al azar en TVBench, con solo Gemini-Pro y Tarsier superando claramente esta línea base.
Empleamos nuevas herramientas de interpretabilidad mecanicista para preguntarnos si la estructura interna de los grandes modelos de lenguaje (LLMs) muestra correspondencia con las estructuras lingüísticas que subyacen a los idiomas en los que están entrenados. En particular, nos preguntamos (1) cuando dos idiomas emplean los mismos procesos morfosintácticos, ¿los LLMs los manejan utilizando circuitos internos compartidos? y (2) cuando dos idiomas requieren diferentes procesos morfosintácticos, ¿los LLMs los manejan utilizando circuitos internos distintos? Utilizando modelos multilingües y monolingües en inglés y chino, analizamos los circuitos internos involucrados en dos tareas. Encontramos evidencia de que los modelos emplean el mismo circuito para manejar el mismo proceso sintáctico independientemente del idioma en el que ocurra, y que este es el caso incluso para modelos monolingües entrenados completamente de forma independiente. Además, mostramos que los modelos multilingües emplean componentes específicos del idioma (cabezas de atención y redes feed-forward) cuando es necesario manejar procesos lingüísticos (por ejemplo, marcas morfológicas) que solo existen en algunos idiomas. En conjunto, nuestros resultados proporcionan nuevas perspectivas sobre cómo los LLMs equilibran entre explotar estructuras comunes y preservar diferencias lingüísticas cuando se les encarga modelar múltiples idiomas simultáneamente.
LayerNorm es un componente crítico en los modernos modelos de lenguaje grandes (LLMs) para estabilizar el entrenamiento y garantizar una optimización suave. Sin embargo, introduce desafíos significativos en interpretabilidad mecanicista, supresión de características atípicas, propagación fiel de la señal, y complejidad computacional y de comunicación de inferencia privada. Este trabajo explora funciones de activación deseables en LLMs de decodificador sin normalización. Contrario a la preferencia convencional por GELU en modelos basados en transformadores, nuestros hallazgos empíricos demuestran una tendencia opuesta: ReLU supera significativamente a GELU en modelos sin LayerNorm, lo que resulta en una mejora del 8.2% en perplejidad. Descubrimos un problema clave con GELU, donde las capas tempranas experimentan sobrecarga entrópica, lo que conduce a la subutilización de la capacidad representativa de las cabezas de atención. Esto destaca que activaciones más suaves como GELU no son adecuadas para arquitecturas sin LayerNorm, mientras que las propiedades geométricas de ReLU, especialización en el espacio de entrada y selectividad intraclase, conducen a una dinámica de aprendizaje mejorada y una mejor retención de información en ausencia de LayerNorm. Este estudio ofrece ideas clave para optimizar arquitecturas de transformadores donde LayerNorm presenta desafíos significativos.
Presentamos el Preentrenamiento de Acciones Latentes para modelos de Acción generales (LAPA), un método no supervisado para preentrenar modelos de Visión-Lenguaje-Acción (VLA) sin etiquetas de acción de robot de verdad. Los modelos existentes de Visión-Lenguaje-Acción requieren etiquetas de acción generalmente recopiladas por teleoperadores humanos durante el preentrenamiento, lo que limita significativamente las posibles fuentes de datos y la escala. En este trabajo, proponemos un método para aprender a partir de videos a escala de internet que no tienen etiquetas de acción de robot. Primero entrenamos un modelo de cuantificación de acciones aprovechando un objetivo basado en VQ-VAE para aprender acciones latentes discretas entre fotogramas de imagen, luego preentrenamos un modelo VLA latente para predecir estas acciones latentes a partir de observaciones y descripciones de tareas, y finalmente ajustamos finamente el VLA en datos de manipulación de robot a pequeña escala para mapear de acciones latentes a acciones de robot. Los resultados experimentales demuestran que nuestro método supera significativamente a las técnicas existentes que entrenan políticas de manipulación de robot a partir de videos a gran escala. Además, supera al modelo VLA de última generación entrenado con etiquetas de acción robótica en tareas de manipulación del mundo real que requieren condicionamiento de lenguaje, generalización a objetos no vistos y generalización semántica a instrucciones no vistas. El entrenamiento solo en videos de manipulación humana también muestra una transferencia positiva, abriendo el potencial para aprovechar datos a escala web para modelos fundamentales de robótica.