Artículos de investigación en IA seleccionados diariamente con traducciones
Descubrimos que, simplemente mediante un método de muestreo y votación, el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) escala con el número de agentes instanciados. Además, este método es ortogonal a los métodos complejos existentes para mejorar aún más los LLMs, mientras que el grado de mejora está correlacionado con la dificultad de la tarea. Realizamos experimentos exhaustivos en una amplia gama de benchmarks de LLMs para verificar la presencia de nuestro hallazgo y estudiar las propiedades que pueden facilitar su ocurrencia. Nuestro código está disponible públicamente en: https://anonymous.4open.science/r/more_agent_is_all_you_need.
Proponemos el problema de la navegación web conversacional, donde un agente digital controla un navegador web y sigue las instrucciones del usuario para resolver tareas del mundo real en un diálogo de múltiples turnos. Para abordar este problema, presentamos WEBLINX, un benchmark a gran escala que incluye 100K interacciones basadas en 2300 demostraciones expertas de navegación web conversacional. Nuestro benchmark abarca una amplia gama de patrones en más de 150 sitios web del mundo real y puede utilizarse para entrenar y evaluar agentes en diversos escenarios. Debido al volumen de información presente, los Modelos de Lenguaje de Gran Escala (LLMs) no pueden procesar páginas web completas en tiempo real. Para resolver este cuello de botella, diseñamos un modelo inspirado en recuperación de información que poda eficientemente las páginas HTML clasificando elementos relevantes. Utilizamos los elementos seleccionados, junto con capturas de pantalla y el historial de acciones, para evaluar una variedad de modelos en su capacidad para replicar el comportamiento humano al navegar por la web. Nuestros experimentos abarcan desde modelos pequeños basados únicamente en texto hasta LLMs multimodales propietarios. Encontramos que los decodificadores más pequeños ajustados superan a los mejores LLMs de cero-shot (incluyendo GPT-4V), pero también a modelos multimodales más grandes que fueron preentrenados explícitamente con capturas de pantalla. Sin embargo, todos los modelos ajustados tienen dificultades para generalizar a sitios web no vistos. Nuestros hallazgos resaltan la necesidad de modelos multimodales grandes que puedan generalizar a entornos novedosos. Nuestro código, datos y modelos están disponibles para investigación: https://mcgill-nlp.github.io/weblinx.
El desarrollo de sistemas de inteligencia artificial está evolucionando desde la creación de modelos estáticos y específicos para tareas hacia sistemas dinámicos basados en agentes capaces de desempeñarse eficazmente en una amplia gama de aplicaciones. Proponemos un Modelo Fundacional de Agente Interactivo que utiliza un paradigma novedoso de entrenamiento de agentes multitarea para capacitar agentes de IA en diversos dominios, conjuntos de datos y tareas. Nuestro paradigma de entrenamiento unifica diversas estrategias de preentrenamiento, incluyendo auto-codificadores enmascarados visuales, modelado de lenguaje y predicción de la siguiente acción, permitiendo un marco de IA versátil y adaptable. Demostramos el rendimiento de nuestro marco en tres dominios distintos: Robótica, IA para Juegos y Salud. Nuestro modelo muestra su capacidad para generar resultados significativos y contextualmente relevantes en cada área. La fortaleza de nuestro enfoque radica en su generalidad, aprovechando diversas fuentes de datos, como secuencias robóticas, datos de juego, conjuntos de datos de video a gran escala e información textual, para un aprendizaje multimodal y multitarea efectivo. Nuestro enfoque ofrece una vía prometedora para el desarrollo de sistemas generalistas, orientados a la acción y multimodales.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en la comprensión y generación de lenguaje natural. Sin embargo, sus capacidades disminuyen en dominios altamente especializados que están subrepresentados en el corpus de preentrenamiento, como las ciencias físicas y biomédicas. Este trabajo explora cómo reutilizar LLMs generales para convertirlos en solucionadores efectivos de tareas en dominios especializados. Introducimos un marco novedoso e independiente del modelo para aprender etiquetas de entrada personalizadas, que se parametrizan como vectores continuos añadidos a la capa de incrustación del LLM, para condicionar su comportamiento. Diseñamos dos tipos de etiquetas de entrada: las etiquetas de dominio se utilizan para delimitar representaciones especializadas (por ejemplo, fórmulas químicas) y proporcionar contexto relevante al dominio; las etiquetas de función se emplean para representar funciones específicas (por ejemplo, predecir propiedades moleculares) y comprimir instrucciones para resolver tareas. Desarrollamos un protocolo de tres etapas para aprender estas etiquetas utilizando datos auxiliares y conocimiento del dominio. Al desentrelazar explícitamente los dominios de las tareas de las funciones de las tareas, nuestro método permite la generalización en cero-shot a problemas no vistos mediante combinaciones diversas de las etiquetas de entrada. Además, mejora el rendimiento de los LLMs en varios dominios especializados, como la predicción de propiedades de proteínas o químicas y el modelado de interacciones fármaco-objetivo, superando a modelos expertos diseñados específicamente para estas tareas.
Este informe técnico presenta la metodología de entrenamiento y los resultados de evaluación de los modelos de incrustación de texto multilingüe E5 de código abierto, lanzados a mediados de 2023. Se proporcionan tres modelos de incrustación de diferentes tamaños (pequeño / base / grande), ofreciendo un equilibrio entre la eficiencia de inferencia y la calidad de las incrustaciones. El procedimiento de entrenamiento sigue la receta del modelo E5 en inglés, que incluye un preentrenamiento contrastivo en 1.000 millones de pares de texto multilingüe, seguido de un ajuste fino en una combinación de conjuntos de datos etiquetados. Además, presentamos un nuevo modelo de incrustación ajustado mediante instrucciones, cuyo rendimiento es comparable al de los modelos más avanzados en inglés de tamaños similares. La información sobre el lanzamiento del modelo se puede encontrar en https://github.com/microsoft/unilm/tree/master/e5.
A pesar de los recientes avances en los modelos generativos de texto a imagen personalizados (P-T2I), la generación de imágenes impulsada por sujetos sigue siendo un desafío. Los principales cuellos de botella incluyen: 1) Requisitos intensivos de recursos de entrenamiento, 2) Sensibilidad a los hiperparámetros que conduce a resultados inconsistentes, y 3) El equilibrio entre las complejidades de nuevos conceptos visuales y la alineación de la composición. Comenzamos reiterando la filosofía central de los modelos de difusión T2I para abordar estas limitaciones. Principalmente, los enfoques contemporáneos de T2I impulsados por sujetos dependen de los Modelos de Difusión Latente (LDMs), que facilitan el mapeo T2I a través de capas de atención cruzada. Aunque los LDMs ofrecen ventajas distintivas, la dependencia de los métodos P-T2I en el espacio latente de estos modelos de difusión aumenta significativamente la demanda de recursos, lo que lleva a resultados inconsistentes y requiere numerosas iteraciones para obtener una sola imagen deseada. Recientemente, ECLIPSE ha demostrado una vía más eficiente en recursos para entrenar modelos T2I basados en UnCLIP, evitando la necesidad de priores de difusión de texto a imagen. Basándonos en esto, presentamos lambda-ECLIPSE. Nuestro método muestra que un P-T2I efectivo no depende necesariamente del espacio latente de los modelos de difusión. lambda-ECLIPSE logra la personalización de T2I para un solo sujeto, múltiples sujetos y guiado por bordes con solo 34M de parámetros y se entrena en apenas 74 horas de GPU utilizando 1.6M de datos intercalados de imagen y texto. A través de extensos experimentos, también establecemos que lambda-ECLIPSE supera a los baselines existentes en la alineación de la composición mientras mantiene el rendimiento en la alineación de conceptos, incluso con un uso significativamente menor de recursos.
El aprendizaje en contexto (ICL, también conocido como prompting de pocos ejemplos) ha sido el método estándar para adaptar los modelos de lenguaje grandes (LLMs) a tareas específicas, aprendiendo a partir de unos pocos ejemplos de entrada-salida. Sin embargo, todos los enfoques basados en ICL solo aprenden de pares de entrada-salida correctos. En este artículo, revisitamos este paradigma, aprendiendo más de los pocos ejemplos de entrada-salida proporcionados. Introducimos Principios de Aprendizaje (LEAP): primero, inducimos intencionalmente al modelo a cometer errores en estos pocos ejemplos; luego, reflexionamos sobre estos errores y aprendemos "principios" explícitos específicos de la tarea a partir de ellos, que ayudan a resolver problemas similares y evitar errores comunes; finalmente, solicitamos al modelo que responda preguntas de prueba no vistas utilizando los pocos ejemplos originales y estos principios generales aprendidos. Evaluamos LEAP en una amplia gama de benchmarks, incluyendo respuestas a preguntas de múltiples saltos (Hotpot QA), preguntas y respuestas textuales (DROP), razonamiento de Big-Bench Hard y problemas matemáticos (GSM8K y MATH); en todos estos benchmarks, LEAP mejora los LLMs más potentes disponibles, como GPT-3.5-turbo, GPT-4, GPT-4 turbo y Claude-2.1. Por ejemplo, LEAP mejora en un 7.5% sobre el prompting estándar de pocos ejemplos utilizando GPT-4 en DROP, y en un 3.3% en HotpotQA. Es importante destacar que LEAP no requiere más entradas o ejemplos que los ajustes estándar de prompting de pocos ejemplos.
Proponemos SPHINX-X, una extensa serie de Modelos de Lenguaje de Gran Escala Multimodal (MLLM, por sus siglas en inglés) desarrollada sobre SPHINX. Para mejorar la arquitectura y la eficiencia del entrenamiento, modificamos el marco de SPHINX eliminando codificadores visuales redundantes, omitiendo subimágenes completamente rellenadas mediante tokens de salto y simplificando el entrenamiento multi-etapa en un paradigma todo-en-uno de una sola etapa. Para liberar plenamente el potencial de los MLLM, ensamblamos un conjunto de datos multimodal y multidominio que abarca recursos disponibles públicamente en tareas de lenguaje, visión y visión-lenguaje. Además, enriquecemos esta colección con nuestros conjuntos de datos curados intensivos en OCR y Set-of-Mark, ampliando la diversidad y generalidad. Al entrenar sobre diferentes modelos base de lenguaje de gran escala, como TinyLlama1.1B, InternLM2-7B, LLaMA2-13B y Mixtral8x7B, obtenemos un espectro de MLLM que varía en tamaño de parámetros y capacidades multilingües. Una evaluación exhaustiva revela una fuerte correlación entre el rendimiento multimodal y las escalas de datos y parámetros. El código y los modelos están disponibles en https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Presentamos SPIRIT-LM, un modelo de lenguaje multimodal de base que combina libremente texto y habla. Nuestro modelo se basa en un modelo de lenguaje de texto preentrenado que extendemos a la modalidad de habla mediante un entrenamiento continuo con unidades de texto y habla. Las secuencias de habla y texto se concatenan como un único conjunto de tokens y se entrenan con un método de intercalación a nivel de palabra utilizando un pequeño corpus paralelo de habla-texto curado automáticamente. SPIRIT-LM está disponible en dos versiones: una versión BASE que utiliza unidades semánticas de habla y una versión EXPRESSIVE que modela la expresividad utilizando unidades de tono y estilo además de las unidades semánticas. Para ambas versiones, el texto se codifica con tokens BPE de subpalabras. El modelo resultante muestra tanto las habilidades semánticas de los modelos de texto como las habilidades expresivas de los modelos de habla. Además, demostramos que SPIRIT-LM es capaz de aprender nuevas tareas de manera few-shot a través de modalidades (es decir, ASR, TTS, Clasificación de Habla).
En este artículo, presentamos un nuevo paradigma para mejorar la capacidad de los detectores de objetos, por ejemplo, expandiendo categorías o mejorando el rendimiento de detección, mediante el entrenamiento en un conjunto de datos sintéticos generados a partir de modelos de difusión. Específicamente, integramos un cabezal de anclaje a nivel de instancia en un modelo generativo de difusión preentrenado, para dotarlo de la capacidad de localizar instancias arbitrarias en las imágenes generadas. El cabezal de anclaje se entrena para alinear la incrustación de texto de los nombres de las categorías con la característica visual regional del modelo de difusión, utilizando supervisión de un detector de objetos estándar y un novedoso esquema de autoentrenamiento en categorías (nuevas) no cubiertas por el detector. Esta versión mejorada del modelo de difusión, denominada InstaGen, puede servir como un sintetizador de datos para la detección de objetos. Realizamos experimentos exhaustivos para demostrar que el detector de objetos puede mejorarse al entrenarse en el conjunto de datos sintéticos de InstaGen, mostrando un rendimiento superior sobre los métodos más avanzados existentes en escenarios de vocabulario abierto (+4.5 AP) y con datos escasos (+1.2 a 5.2 AP).
La mayoría de los codificadores de video basados en transformadores están limitados a contextos temporales cortos debido a su complejidad cuadrática. Aunque se han realizado varios intentos para extender este contexto, esto a menudo ha implicado un aumento tanto en la complejidad conceptual como computacional. En su lugar, proponemos reutilizar transformadores de video preentrenados existentes, simplemente ajustándolos para que atiendan a memorias derivadas de forma no paramétrica a partir de activaciones pasadas. Al aprovechar la reducción de redundancia, nuestro transformador de visión consolidado con memoria (MC-ViT) extiende su contexto hacia el pasado de manera eficiente y muestra un excelente comportamiento de escalabilidad al aprender de videos más largos. Al hacerlo, MC-ViT establece un nuevo estado del arte en la comprensión de videos de contexto largo en EgoSchema, Perception Test y Diving48, superando a métodos que se benefician de órdenes de magnitud más parámetros.
Los modelos Visión-Lenguaje (VL) han ganado un enfoque de investigación significativo, permitiendo avances notables en el razonamiento multimodal. Estas arquitecturas típicamente comprenden un codificador visual, un Modelo de Lenguaje de Gran Escala (LLM) y un módulo de proyección que alinea las características visuales con el espacio de representación del LLM. A pesar de su éxito, persiste una limitación crítica: el proceso de codificación visual permanece desacoplado de las consultas del usuario, que a menudo se presentan en forma de preguntas relacionadas con la imagen. En consecuencia, las características visuales resultantes pueden no estar óptimamente sintonizadas con los elementos específicos de la consulta en la imagen. Para abordar esto, presentamos QA-ViT, un enfoque de Transformer Visual Consciente de la Pregunta para el razonamiento multimodal, que integra la conciencia de la pregunta directamente dentro del codificador visual. Esta integración resulta en características visuales dinámicas que se enfocan en los aspectos relevantes de la imagen para la pregunta planteada. QA-ViT es independiente del modelo y puede incorporarse eficientemente en cualquier arquitectura VL. Experimentos extensos demuestran la efectividad de aplicar nuestro método a varias arquitecturas multimodales, lo que lleva a una mejora consistente en diversas tareas y muestra su potencial para mejorar la comprensión visual y de texto en escenas.
Presentamos un nuevo algoritmo para optimizar distribuciones definidas implícitamente mediante difusiones estocásticas parametrizadas. Esto nos permite modificar la distribución resultante de los procesos de muestreo optimizando sus parámetros. Introducimos un marco general para la optimización de primer orden de estos procesos, que realiza conjuntamente, en un solo ciclo, pasos de optimización y muestreo. Este enfoque se inspira en avances recientes en optimización bi-nivel y diferenciación implícita automática, aprovechando la perspectiva del muestreo como optimización sobre el espacio de distribuciones de probabilidad. Proporcionamos garantías teóricas sobre el rendimiento de nuestro método, así como resultados experimentales que demuestran su eficacia en entornos del mundo real.
Adaptar el comportamiento de conducción a nuevos entornos, costumbres y leyes es un problema de larga data en la conducción autónoma, lo que impide el despliegue generalizado de vehículos autónomos (AVs). En este artículo, presentamos LLaDA, una herramienta simple pero poderosa que permite tanto a conductores humanos como a vehículos autónomos conducir en cualquier lugar adaptando sus tareas y planes de movimiento a las normas de tráfico en nuevas ubicaciones. LLaDA logra esto aprovechando la impresionante capacidad de generalización en cero-shot de los modelos de lenguaje grandes (LLMs) para interpretar las normas de tráfico en el manual del conductor local. A través de un extenso estudio de usuarios, demostramos que las instrucciones de LLaDA son útiles para desambiguar situaciones inesperadas en el mundo real. También mostramos la capacidad de LLaDA para adaptar las políticas de planificación de movimiento de AVs en conjuntos de datos del mundo real; LLaDA supera los enfoques de planificación de referencia en todas nuestras métricas. Consulte nuestro sitio web para más detalles: https://boyiliee.github.io/llada.
Demostramos que el aprendizaje por refuerzo actor-crítico offline puede escalar a modelos grandes —como los transformadores— y sigue leyes de escalado similares a las del aprendizaje supervisado. Encontramos que los algoritmos actor-crítico offline pueden superar a líneas de base sólidas de clonación conductual supervisada en el entrenamiento multitarea sobre un gran conjunto de datos que contiene tanto comportamientos subóptimos como expertos en 132 tareas de control continuo. Introducimos un modelo actor-crítico basado en Perceiver y elucidamos las características clave del modelo necesarias para que el aprendizaje por refuerzo offline funcione con módulos de autoatención y atención cruzada. En general, encontramos que: i) los algoritmos actor-crítico offline simples son una elección natural para alejarse gradualmente del paradigma actualmente predominante de clonación conductual, y ii) mediante el aprendizaje por refuerzo offline es posible aprender políticas multitarea que dominan muchos dominios simultáneamente, incluyendo tareas de robótica real, a partir de demostraciones subóptimas o datos autogenerados.