Artículos de investigación en IA seleccionados diariamente con traducciones
La generación automática de descripciones musicales, que produce descripciones en lenguaje natural para pistas musicales dadas, tiene un potencial significativo para mejorar la comprensión y organización de grandes volúmenes de datos musicales. A pesar de su importancia, los investigadores enfrentan desafíos debido al proceso costoso y lento de recopilación de los conjuntos de datos existentes que relacionan música y lenguaje, los cuales son limitados en tamaño. Para abordar este problema de escasez de datos, proponemos el uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar artificialmente oraciones descriptivas a partir de conjuntos de datos de etiquetas a gran escala. Esto resulta en aproximadamente 2.2 millones de descripciones emparejadas con 0.5 millones de clips de audio. Denominamos a este conjunto de datos como LP-MusicCaps, abreviatura de Large Language Model based Pseudo music caption dataset. Realizamos una evaluación sistemática de este conjunto de datos a gran escala utilizando diversas métricas cuantitativas empleadas en el campo del procesamiento del lenguaje natural, así como evaluaciones humanas. Además, entrenamos un modelo de generación de descripciones musicales basado en transformers con este conjunto de datos y lo evaluamos en configuraciones de aprendizaje cero y transferencia de aprendizaje. Los resultados demuestran que nuestro enfoque propuesto supera al modelo de referencia supervisado.
Estudiamos cómo los modelos de visión y lenguaje entrenados con datos a escala de Internet pueden incorporarse directamente en el control robótico de extremo a extremo para potenciar la generalización y habilitar el razonamiento semántico emergente. Nuestro objetivo es permitir que un único modelo entrenado de extremo a extremo aprenda tanto a mapear las observaciones del robot a acciones como a beneficiarse del preentrenamiento a gran escala en datos de lenguaje y visión-lenguaje de la web. Para ello, proponemos ajustar conjuntamente modelos de visión y lenguaje de última generación tanto en datos de trayectorias robóticas como en tareas de visión-lenguaje a escala de Internet, como la respuesta a preguntas visuales. A diferencia de otros enfoques, proponemos una receta simple y general para lograr este objetivo: para adaptar tanto las respuestas en lenguaje natural como las acciones robóticas al mismo formato, expresamos las acciones como tokens de texto y las incorporamos directamente al conjunto de entrenamiento del modelo de la misma manera que los tokens de lenguaje natural. Nos referimos a esta categoría de modelos como modelos de visión-lenguaje-acción (VLA) e instanciamos un ejemplo de dicho modelo, al que llamamos RT-2. Nuestra evaluación exhaustiva (6k pruebas de evaluación) muestra que nuestro enfoque conduce a políticas robóticas de alto rendimiento y permite que RT-2 obtenga una gama de capacidades emergentes del entrenamiento a escala de Internet. Esto incluye una generalización significativamente mejorada a objetos novedosos, la capacidad de interpretar comandos no presentes en los datos de entrenamiento del robot (como colocar un objeto sobre un número o icono específico) y la capacidad de realizar un razonamiento rudimentario en respuesta a los comandos del usuario (como recoger el objeto más pequeño o más grande, o el más cercano a otro objeto). Además, demostramos que la incorporación del razonamiento en cadena de pensamiento permite que RT-2 realice un razonamiento semántico en múltiples etapas, por ejemplo, determinar qué objeto recoger para usarlo como un martillo improvisado (una roca) o qué tipo de bebida es más adecuada para alguien que está cansado (una bebida energética).
Investigamos diversas estrategias de prompting para mejorar el rendimiento de recomendaciones de contenido personalizado con modelos de lenguaje de gran escala (LLMs) mediante la ampliación de la entrada. Nuestro enfoque propuesto, denominado LLM-Rec, abarca cuatro estrategias de prompting distintas: (1) prompting básico, (2) prompting orientado a recomendaciones, (3) prompting guiado por interacción y (4) prompting orientado a recomendaciones + guiado por interacción. Nuestros experimentos empíricos demuestran que combinar la descripción original del contenido con el texto de entrada ampliado generado por el LLM utilizando estas estrategias de prompting conduce a un mejor rendimiento en las recomendaciones. Este hallazgo resalta la importancia de incorporar diversos prompts y técnicas de ampliación de la entrada para potenciar las capacidades de recomendación con modelos de lenguaje de gran escala en el ámbito de las recomendaciones de contenido personalizado.
Investigamos la estructura interna de los cálculos de los modelos de lenguaje mediante análisis causal y demostramos dos patrones: (1) una forma de computación adaptativa en la que las ablaciones de una capa de atención de un modelo de lenguaje hacen que otra capa compense (lo que denominamos el efecto Hydra) y (2) una función de contrapeso de las capas MLP tardías que actúan para regular a la baja el token de máxima verosimilitud. Nuestros estudios de ablación demuestran que las capas de los modelos de lenguaje suelen estar relativamente poco acopladas (las ablaciones en una capa solo afectan a un pequeño número de capas posteriores). Sorprendentemente, estos efectos ocurren incluso en modelos de lenguaje entrenados sin ninguna forma de dropout. Analizamos estos efectos en el contexto del recuerdo de hechos y consideramos sus implicaciones para la atribución a nivel de circuito en los modelos de lenguaje.
La generación de descripciones de imágenes se formula convencionalmente como la tarea de crear leyendas para imágenes que coincidan con la distribución de pares imagen-descripción de referencia. Sin embargo, las descripciones de referencia en los conjuntos de datos estándar suelen ser breves y pueden no identificar de manera única las imágenes que describen. Estos problemas se agravan aún más cuando los modelos se entrenan directamente con pares imagen-texto alternativo recopilados de internet. En este trabajo, demostramos que es posible generar descripciones más específicas con cambios mínimos en el proceso de entrenamiento. Implementamos la guía sin clasificador para un modelo autoregresivo de generación de descripciones, ajustándolo para estimar tanto distribuciones condicionales como incondicionales sobre las descripciones. La escala de guía aplicada durante la decodificación controla un equilibrio entre maximizar p(descripción|imagen) y p(imagen|descripción). En comparación con la decodificación codiciosa estándar, la decodificación con una escala de guía de 2 mejora sustancialmente métricas independientes de referencia, como CLIPScore (0.808 vs. 0.775) y el rendimiento de recuperación de imagen a partir de descripción en el espacio de incrustación CLIP (recall@1 44.6% vs. 26.5%), pero empeora las métricas estándar basadas en referencia (por ejemplo, CIDEr 78.6 vs 126.1). Además, exploramos el uso de modelos de lenguaje para guiar el proceso de decodificación, obteniendo pequeñas mejoras sobre la frontera de Pareto de métricas independientes de referencia vs. basadas en referencia que surge de la guía sin clasificador, y mejorando sustancialmente la calidad de las descripciones generadas por un modelo entrenado únicamente con datos web mínimamente curados.
Recientemente, la integración de modelos base de video y modelos de lenguaje grande para construir un sistema de comprensión de video ha superado las limitaciones de tareas visuales predefinidas específicas. Sin embargo, los sistemas existentes solo pueden manejar videos con muy pocos fotogramas. Para videos largos, la complejidad computacional, el costo de memoria y la conexión temporal a largo plazo siguen siendo desafíos pendientes. Inspirados por el modelo de memoria de Atkinson-Shiffrin, desarrollamos un mecanismo de memoria que incluye una memoria a corto plazo de actualización rápida y una memoria a largo plazo compacta y sostenida. Utilizamos tokens en Transformers como portadores de la memoria. MovieChat logra un rendimiento de vanguardia en la comprensión de videos largos.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han acercado significativamente la ambiciosa búsqueda de agentes generalistas a la realidad, alejándola de ser una mera fantasía. Un obstáculo clave para construir tales modelos generales es la diversidad y heterogeneidad de tareas y modalidades. Una solución prometedora es la unificación, que permite soportar una miríada de tareas y modalidades dentro de un marco unificado. Aunque algunos modelos grandes (por ejemplo, Flamingo (Alayrac et al., 2022), entrenados en conjuntos de datos masivos, pueden soportar más de dos modalidades, los modelos unificados actuales de pequeña a mediana escala aún se limitan a 2 modalidades, generalmente imagen-texto o video-texto. La pregunta que nos hacemos es: ¿es posible construir de manera eficiente un modelo unificado que pueda soportar todas las modalidades? Para responder a esto, proponemos UnIVAL, un paso más hacia este ambicioso objetivo. Sin depender de tamaños de conjuntos de datos extravagantes o modelos con miles de millones de parámetros, el modelo UnIVAL de ~0.25B parámetros va más allá de dos modalidades y unifica texto, imágenes, video y audio en un solo modelo. Nuestro modelo se entrena de manera eficiente en muchas tareas, basándose en el equilibrio de tareas y el aprendizaje curricular multimodal. UnIVAL muestra un rendimiento competitivo frente a los enfoques más avanzados existentes, en tareas de imagen y video-texto. Las representaciones de características aprendidas de las modalidades de imagen y video-texto permiten que el modelo logre un rendimiento competitivo cuando se ajusta en tareas de audio-texto, a pesar de no haber sido preentrenado en audio. Gracias al modelo unificado, proponemos un estudio novedoso sobre la fusión de modelos multimodales mediante la interpolación de pesos de modelos entrenados en diferentes tareas multimodales, mostrando sus beneficios, en particular, para la generalización fuera de distribución. Finalmente, motivamos la unificación mostrando la sinergia entre tareas. Los pesos del modelo y el código se publican aquí: https://github.com/mshukor/UnIVAL.
¿Podemos anticipar mejor las acciones futuras de un actor (por ejemplo, batir huevos) conociendo lo que comúnmente sucede después de su acción actual (por ejemplo, cascar huevos)? ¿Y si también conocemos el objetivo a largo plazo del actor (por ejemplo, hacer arroz frito con huevo)? La tarea de anticipación de acciones a largo plazo (LTA, por sus siglas en inglés) tiene como objetivo predecir el comportamiento futuro de un actor a partir de observaciones en video en forma de secuencias de verbos y sustantivos, y es crucial para la interacción humano-máquina. Proponemos formular la tarea LTA desde dos perspectivas: un enfoque ascendente (bottom-up) que predice las siguientes acciones de manera autoregresiva modelando la dinámica temporal; y un enfoque descendente (top-down) que infiere el objetivo del actor y planifica el procedimiento necesario para alcanzarlo. Planteamos la hipótesis de que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), que han sido preentrenados con datos de texto procedimental (por ejemplo, recetas, tutoriales), tienen el potencial de ayudar en la LTA desde ambas perspectivas. Pueden proporcionar el conocimiento previo sobre las posibles acciones siguientes e inferir el objetivo dada la parte observada de un procedimiento, respectivamente. Para aprovechar los LLMs, proponemos un marco de trabajo de dos etapas, AntGPT. Primero, reconoce las acciones ya realizadas en los videos observados y luego solicita a un LLM que prediga las acciones futuras mediante generación condicionada, o que infiera el objetivo y planifique todo el procedimiento mediante el método de cadena de pensamiento (chain-of-thought prompting). Los resultados empíricos en los benchmarks Ego4D LTA v1 y v2, EPIC-Kitchens-55, así como EGTEA GAZE+, demuestran la efectividad de nuestro enfoque propuesto. AntGPT logra un rendimiento de vanguardia en todos los benchmarks mencionados y puede inferir con éxito el objetivo, realizando así predicciones "contrafactuales" condicionadas al objetivo mediante análisis cualitativo. El código y el modelo estarán disponibles en https://brown-palm.github.io/AntGPT.
El Anclaje Temporal en Videos (VTG, por sus siglas en inglés), que tiene como objetivo localizar segmentos específicos en videos (como intervalos consecutivos o tomas discontinuas) según consultas de lenguaje personalizadas (por ejemplo, frases o palabras), es fundamental para la navegación de videos en redes sociales. La mayoría de los métodos en esta dirección desarrollan modelos específicos para tareas que se entrenan con etiquetas específicas del tipo, como la recuperación de momentos (intervalos de tiempo) y la detección de momentos destacados (curva de relevancia), lo que limita su capacidad para generalizar a diversas tareas y etiquetas de VTG. En este artículo, proponemos unificar las diversas etiquetas y tareas de VTG, denominado UniVTG, en tres direcciones: En primer lugar, revisamos una amplia gama de etiquetas y tareas de VTG y definimos una formulación unificada. Basándonos en esto, desarrollamos esquemas de anotación de datos para crear supervisión pseudoetiquetada escalable. En segundo lugar, desarrollamos un modelo de anclaje efectivo y flexible capaz de abordar cada tarea y aprovechar al máximo cada etiqueta. Por último, gracias al marco unificado, podemos desbloquear el preentrenamiento de anclaje temporal a partir de etiquetas diversas a gran escala y desarrollar habilidades de anclaje más fuertes, como el anclaje zero-shot. Experimentos exhaustivos en tres tareas (recuperación de momentos, detección de momentos destacados y resumen de videos) en siete conjuntos de datos (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum y QFVS) demuestran la efectividad y flexibilidad de nuestro marco propuesto. Los códigos están disponibles en https://github.com/showlab/UniVTG.
Presentamos la Inyección de Prompts Virtuales (VPI, por sus siglas en inglés) para Modelos de Lenguaje de Gran Escala (LLMs) ajustados por instrucciones. VPI permite que un prompt virtual especificado por un atacante dirija el comportamiento del modelo bajo un escenario de activación específico, sin necesidad de una inyección explícita en la entrada del modelo. Por ejemplo, si un LLM es comprometido con el prompt virtual "Describe a Joe Biden de manera negativa" para instrucciones relacionadas con Joe Biden, entonces cualquier servicio que utilice este modelo propagará puntos de vista sesgados al manejar consultas de usuarios relacionadas con Joe Biden. VPI es especialmente dañino por dos razones principales. En primer lugar, el atacante puede ejercer un control detallado sobre los comportamientos del LLM al definir varios prompts virtuales, aprovechando la capacidad de los LLMs para seguir instrucciones. En segundo lugar, este control se logra sin ninguna interacción por parte del atacante mientras el modelo está en servicio, lo que resulta en un ataque persistente. Para demostrar la amenaza, proponemos un método simple para realizar VPI mediante el envenenamiento de los datos de ajuste por instrucciones del modelo. Descubrimos que nuestro método propuesto es altamente efectivo para dirigir el LLM con VPI. Por ejemplo, al inyectar solo 52 ejemplos envenenados (0.1% del tamaño de los datos de entrenamiento) en los datos de ajuste por instrucciones, el porcentaje de respuestas negativas dadas por el modelo entrenado en consultas relacionadas con Joe Biden cambia de 0% a 40%. Así, destacamos la necesidad de garantizar la integridad de los datos de ajuste por instrucciones, ya que una pequeña cantidad de datos envenenados puede causar un daño sigiloso y persistente al modelo implementado. Además, exploramos posibles defensas e identificamos el filtrado de datos como una forma efectiva de defenderse contra los ataques de envenenamiento. Nuestra página del proyecto está disponible en https://poison-llm.github.io.
Basados en potentes Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), los recientes Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) han ganado prominencia como un área de investigación fundamental, demostrando una capacidad notable tanto para la comprensión como para la generación. En este trabajo, abordamos la evaluación de la comprensión generativa en MLLMs como un paso preliminar hacia una evaluación integral de modelos generativos, mediante la introducción de un benchmark denominado SEED-Bench. SEED-Bench consta de 19K preguntas de opción múltiple con anotaciones humanas precisas (6 veces más grande que los benchmarks existentes), que abarcan 12 dimensiones de evaluación, incluyendo la comprensión tanto de la modalidad de imagen como de video. Desarrollamos una pipeline avanzada para generar preguntas de opción múltiple que se enfocan en dimensiones de evaluación específicas, integrando procesos de filtrado automático y verificación manual. Las preguntas de opción múltiple con opciones de respuesta correcta derivadas de anotaciones humanas permiten una evaluación objetiva y eficiente del rendimiento del modelo, eliminando la necesidad de intervención humana o de GPT durante la evaluación. Además, evaluamos el rendimiento de 18 modelos en todas las 12 dimensiones, cubriendo tanto la comprensión espacial como temporal. Al revelar las limitaciones de los MLLMs existentes a través de los resultados de la evaluación, nuestro objetivo es que SEED-Bench proporcione ideas para motivar futuras investigaciones. Lanzaremos y mantendremos consistentemente un leaderboard para ofrecer una plataforma a la comunidad con el fin de evaluar e investigar la capacidad de los modelos.
Los robots autónomos desplegados en el mundo real necesitarán políticas de control que se adapten rápidamente a los cambios ambientales. Con este fin, proponemos AutoRobotics-Zero (ARZ), un método basado en AutoML-Zero que descubre políticas adaptables de cero-shot desde cero. A diferencia de las políticas de adaptación de redes neuronales, donde solo se optimizan los parámetros del modelo, ARZ puede construir algoritmos de control con todo el poder expresivo de una máquina de registros lineales. Evolucionamos políticas modulares que ajustan sus parámetros del modelo y alteran su algoritmo de inferencia sobre la marcha para adaptarse a cambios ambientales repentinos. Demostramos nuestro método en un robot cuadrúpedo simulado realista, para el cual evolucionamos políticas de control seguras que evitan caídas cuando las extremidades individuales se rompen repentinamente. Esta es una tarea desafiante en la que dos líneas de base populares de redes neuronales fallan. Finalmente, realizamos un análisis detallado de nuestro método en una nueva y desafiante tarea de control no estacionario denominada Cataclysmic Cartpole. Los resultados confirman nuestros hallazgos de que ARZ es significativamente más robusto ante cambios ambientales repentinos y puede construir políticas de control simples e interpretables.