Artículos de investigación en IA seleccionados diariamente con traducciones
La elección omnipresente y demostrablemente subóptima de redimensionar las imágenes a una resolución fija antes de procesarlas con modelos de visión por computadora aún no ha sido desafiada con éxito. Sin embargo, modelos como el Vision Transformer (ViT) ofrecen un modelado basado en secuencias flexible y, por lo tanto, longitudes de secuencia de entrada variables. Aprovechamos esto con NaViT (Native Resolution ViT), que utiliza el empaquetado de secuencias durante el entrenamiento para procesar entradas con resoluciones y relaciones de aspecto arbitrarias. Junto con un uso flexible del modelo, demostramos una mayor eficiencia en el entrenamiento para el preentrenamiento supervisado y contrastivo a gran escala de imágenes y texto. NaViT puede transferirse eficientemente a tareas estándar como la clasificación de imágenes y videos, la detección de objetos y la segmentación semántica, y conduce a mejores resultados en puntos de referencia de robustez y equidad. En el momento de la inferencia, la flexibilidad en la resolución de entrada puede utilizarse para navegar suavemente en la compensación entre costo y rendimiento en tiempo de prueba. Creemos que NaViT marca un alejamiento del estándar, diseñado para CNN, en la canalización de entrada y modelado utilizada por la mayoría de los modelos de visión por computadora, y representa una dirección prometedora para los ViTs.
Proponemos el Autoencoder en Contexto (ICAE, por sus siglas en inglés) para la compresión de contexto en un modelo de lenguaje grande (LLM). El ICAE consta de dos módulos: un codificador entrenable adaptado con LoRA a partir de un LLM para comprimir un contexto extenso en un número limitado de espacios de memoria, y un decodificador fijo que es el LLM objetivo, el cual puede condicionarse a los espacios de memoria para diversos propósitos. Primero, preentrenamos el ICAE utilizando objetivos tanto de autoencoding como de modelado de lenguaje en grandes volúmenes de datos textuales, lo que le permite generar espacios de memoria que representan de manera precisa y exhaustiva el contexto original. Luego, afinamos el ICAE preentrenado con una pequeña cantidad de datos de instrucción para mejorar su interacción con diversos prompts y producir respuestas deseables. Nuestros resultados experimentales demuestran que el ICAE, entrenado con nuestro paradigma de preentrenamiento y afinamiento, puede generar efectivamente espacios de memoria con una compresión de contexto de 4 veces, los cuales pueden ser bien condicionados por el LLM objetivo para responder a diversos prompts. Estos resultados prometedores destacan las implicaciones significativas del ICAE por su enfoque novedoso al problema del contexto extenso y su potencial para reducir los costos computacionales y de memoria en la inferencia de LLM en la práctica, sugiriendo un mayor esfuerzo de investigación en la gestión de contexto para un LLM. Nuestro código y datos serán publicados próximamente.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una capacidad notable para comprender, razonar y generar texto siguiendo instrucciones en lenguaje natural. Sin embargo, el desarrollo de los LLMs se ha centrado principalmente en idiomas con muchos recursos, como el inglés, lo que limita su aplicabilidad e investigación en otros idiomas. En consecuencia, presentamos PolyLM, un LLM multilingüe entrenado con 640 mil millones (B) de tokens, disponible en dos tamaños de modelo: 1.7B y 13B. Para mejorar sus capacidades multilingües, 1) integramos datos bilingües en los datos de entrenamiento; y 2) adoptamos una estrategia de aprendizaje curricular que aumenta la proporción de datos no ingleses del 30% en la primera etapa al 60% en la etapa final durante el preentrenamiento. Además, proponemos un método de auto-instrucción multilingüe que genera automáticamente 132.7K instrucciones multilingües diversas para el ajuste fino del modelo. Para evaluar el rendimiento del modelo, recopilamos varias tareas multilingües existentes, incluyendo comprensión multilingüe, respuesta a preguntas, generación y traducción. Experimentos extensos muestran que PolyLM supera a otros modelos de código abierto como LLaMA y BLOOM en tareas multilingües, manteniendo un rendimiento comparable en inglés. Nuestros modelos, junto con los datos de instrucción y el benchmark multilingüe, están disponibles en: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Este artículo presenta InternVid, un conjunto de datos multimodal centrado en video a gran escala que permite aprender representaciones potentes y transferibles de video-texto para la comprensión y generación multimodal. El conjunto de datos InternVid contiene más de 7 millones de videos que suman cerca de 760K horas, generando 234M clips de video acompañados por descripciones detalladas de un total de 4.1B palabras. Nuestra contribución principal es desarrollar un enfoque escalable para construir de manera autónoma un conjunto de datos video-texto de alta calidad con modelos de lenguaje de gran escala (LLM), demostrando así su eficacia en el aprendizaje de representaciones video-lenguaje a gran escala. Específicamente, utilizamos un enfoque multi-escala para generar descripciones relacionadas con videos. Además, presentamos ViCLIP, un modelo de aprendizaje de representaciones video-texto basado en ViT-L. Aprendido en InternVid mediante aprendizaje contrastivo, este modelo demuestra un rendimiento líder en reconocimiento de acciones en modo zero-shot y un rendimiento competitivo en recuperación de videos. Más allá de tareas básicas de comprensión de video como reconocimiento y recuperación, nuestro conjunto de datos y modelo tienen aplicaciones amplias. Son particularmente beneficiosos para generar datos intercalados de video-texto para aprender un sistema de diálogo centrado en video, avanzando en la investigación de generación de video a texto y texto a video. Estos recursos propuestos proporcionan una herramienta para investigadores y profesionales interesados en la comprensión y generación multimodal de video.
A pesar del dominio y la efectividad del escalamiento, que resulta en redes grandes con cientos de miles de millones de parámetros, la necesidad de entrenar modelos sobreparametrizados sigue siendo poco comprendida, y los enfoques alternativos no necesariamente hacen que sea más económico entrenar modelos de alto rendimiento. En este artículo, exploramos técnicas de entrenamiento de bajo rango como un enfoque alternativo para entrenar redes neuronales grandes. Introducimos un método novedoso llamado ReLoRA, que utiliza actualizaciones de bajo rango para entrenar redes de alto rango. Aplicamos ReLoRA al preentrenamiento de modelos de lenguaje basados en transformadores con hasta 350 millones de parámetros y demostramos un rendimiento comparable al entrenamiento regular de redes neuronales. Además, observamos que la eficiencia de ReLoRA aumenta con el tamaño del modelo, lo que lo convierte en un enfoque prometedor para entrenar redes con miles de millones de parámetros de manera eficiente. Nuestros hallazgos arrojan luz sobre el potencial de las técnicas de entrenamiento de bajo rango y sus implicaciones para las leyes de escalamiento.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado resultados impresionantes en el desarrollo de agentes de planificación generalistas para tareas diversas. Sin embargo, anclar estos planes en entornos expansivos, de múltiples pisos y habitaciones presenta un desafío significativo para la robótica. Presentamos SayPlan, un enfoque escalable para la planificación de tareas a gran escala basada en LLMs para robótica, utilizando representaciones de grafos de escena 3D (3DSG). Para garantizar la escalabilidad de nuestro enfoque: (1) aprovechamos la naturaleza jerárquica de los 3DSG para permitir que los LLMs realicen una búsqueda semántica de subgrafos relevantes para la tarea a partir de una representación reducida del grafo completo; (2) reducimos el horizonte de planificación para el LLM integrando un planificador de rutas clásico y (3) introducimos una canalización de replanificación iterativa que refina el plan inicial utilizando retroalimentación de un simulador de grafos de escena, corrigiendo acciones inviables y evitando fallos en la planificación. Evaluamos nuestro enfoque en dos entornos a gran escala que abarcan hasta 3 pisos, 36 habitaciones y 140 objetos, y demostramos que nuestro enfoque es capaz de anclar planes de tareas a gran escala y de largo horizonte a partir de instrucciones abstractas y en lenguaje natural para que un robot manipulador móvil las ejecute.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), como GPT-4, han demostrado capacidades notables en una amplia gama de tareas, incluyendo aplicaciones en salud. En este artículo, estudiamos cómo los LLMs pueden utilizarse para escalar la curación de conocimiento biomédico. Descubrimos que, aunque los LLMs ya poseen una competencia decente en la estructuración de texto biomédico, mediante la destilación en un modelo estudiante específico para la tarea a través de aprendizaje auto-supervisado, se pueden lograr mejoras sustanciales sobre los LLMs estándar, con ventajas adicionales como coste, eficiencia y acceso a un modelo de caja blanca. Realizamos un estudio de caso sobre la extracción de eventos adversos a medicamentos (ADE, por sus siglas en inglés), un área importante para mejorar la atención médica. En la evaluación estándar de extracción de ADE, un modelo PubMedBERT destilado de GPT-3.5 alcanzó una precisión comparable a los modelos supervisados de última generación sin utilizar datos etiquetados. A pesar de ser más de 1,000 veces más pequeño, el modelo destilado superó a su maestro GPT-3.5 en más de 6 puntos absolutos en F1 y a GPT-4 en más de 5 puntos absolutos. Los estudios de ablación sobre la elección del modelo de destilación (por ejemplo, PubMedBERT frente a BioGPT) y la arquitectura de extracción de ADE arrojan luz sobre las mejores prácticas para la extracción de conocimiento biomédico. Se obtuvieron mejoras similares mediante la destilación en otras tareas estándar de extracción de conocimiento biomédico, como asociaciones gen-enfermedad e información de salud protegida, lo que ilustra aún más el potencial de este enfoque.
Los modelos de lenguaje de gran escala suelen pasar por dos etapas de entrenamiento: el preentrenamiento y el ajuste fino. A pesar de que el preentrenamiento a gran escala dota al modelo de una gran capacidad para generar respuestas en lenguaje natural, estos modelos preentrenados aún pueden fallar en ocasiones al comprender las instrucciones humanas. Para mejorar la capacidad de los modelos de lenguaje para interpretar y responder a instrucciones, el ajuste fino con instrucciones ha surgido como un método crítico en este ámbito. Estudios recientes han encontrado que los modelos de lenguaje de gran escala pueden ajustarse para desempeñarse bien incluso con una pequeña cantidad de datos de alta calidad que sigan instrucciones. Sin embargo, la selección de conjuntos de datos de alta calidad para ajustar modelos de lenguaje aún carece de directrices claras a seguir. En este artículo, proponemos InstructMining, una regla lineal para evaluar la calidad de los datos que siguen instrucciones. Formulamos InstructMining utilizando indicadores específicos de lenguaje natural. Para investigar la relación entre la calidad de los datos y estos indicadores, realizamos además extensos experimentos de ajuste fino. Los resultados de los experimentos se aplican luego para estimar los parámetros en InstructMining. Para investigar más a fondo su rendimiento, utilizamos InstructMining para seleccionar datos de alta calidad de conjuntos de datos no vistos. Los resultados demuestran que InstructMining puede ayudar a seleccionar muestras relativamente de alta calidad de varios conjuntos de datos que siguen instrucciones. En comparación con los modelos ajustados en conjuntos de datos no filtrados, los modelos ajustados en conjuntos de datos seleccionados por InstructMining se desempeñan mejor en el 42.5% de los casos.
El éxito de la serie GPT demuestra que GPT puede extraer información general de secuencias, beneficiando así todas las tareas posteriores. Esto nos motiva a utilizar modelos preentrenados para explorar la información oculta en las secuencias de ADN. Sin embargo, los requisitos de datos y tareas en el análisis de secuencias de ADN son complejos y diversos, ya que los datos relevantes de ADN incluyen diferentes tipos de información, como secuencias, niveles de expresión, etc., mientras que actualmente no existe un modelo diseñado específicamente para estas características. Por ello, presentamos DNAGPT, un modelo base generalizado preentrenado en más de 10 mil millones de pares de bases de 9 especies, que puede ajustarse para cualquier tarea de análisis de secuencias de ADN. Nuestro modelo puede procesar o generar simultáneamente secuencias de ADN y números. Además, nuestro diseño único de tokens permite a los usuarios diseñar instrucciones según sus propios requisitos de tarea, haciéndolo aplicable a cualquier tipo de tarea. Hemos evaluado nuestro modelo en tareas de clasificación, regresión y generación. Demostramos que DNAGPT se beneficia del preentrenamiento y, por lo tanto, puede aportar mejoras de rendimiento a cualquier tarea posterior. Nuestro modelo no solo es un nuevo intento en el campo del análisis de genomas, sino que también proporciona una nueva dirección para la aplicación de modelos base en biología.
Antes de implementar un modelo de lenguaje (LM) en un dominio específico, es importante medir su tendencia a generar información fácticamente incorrecta en ese dominio. Los métodos existentes para evaluar la generación de hechos se centran en datos muestreados del propio LM, por lo que no controlan el conjunto de hechos evaluados y podrían subrepresentar hechos raros e improbables. Proponemos FACTOR: Evaluación Factual mediante Transformación de Corpus, un enfoque escalable para evaluar la factualidad de los LM. FACTOR transforma automáticamente un corpus factual de interés en un benchmark que evalúa la propensión de un LM a generar hechos verdaderos del corpus frente a afirmaciones similares pero incorrectas. Utilizamos nuestro marco para crear dos benchmarks: Wiki-FACTOR y News-FACTOR. Demostramos que: (i) las puntuaciones de nuestro benchmark aumentan con el tamaño del modelo y mejoran cuando el LM se complementa con recuperación de información; (ii) la puntuación del benchmark se correlaciona con la perplejidad, pero ambas métricas no siempre coinciden en la clasificación de los modelos; y (iii) cuando la perplejidad y la puntuación del benchmark difieren, esta última refleja mejor la factualidad en la generación abierta, según lo medido por anotadores humanos. Ponemos a disposición nuestros datos y código en https://github.com/AI21Labs/factor.
A pesar de la impresionante capacidad de generar imágenes de alta calidad de los modelos recientes de texto a imagen, los enfoques actuales a menudo tienen dificultades para componer de manera efectiva objetos con diferentes atributos y relaciones en una escena compleja y coherente. Proponemos T2I-CompBench, un punto de referencia integral para la generación de imágenes a partir de texto de composición en un mundo abierto, que consta de 6,000 indicaciones de texto compositivo de 3 categorías (vinculación de atributos, relaciones de objetos y composiciones complejas) y 6 subcategorías (vinculación de color, vinculación de forma, vinculación de textura, relaciones espaciales, relaciones no espaciales y composiciones complejas). Además, proponemos varias métricas de evaluación diseñadas específicamente para evaluar la generación de imágenes a partir de texto compositivo. Introducimos un nuevo enfoque, Ajuste fino de modelos generativos con selección de muestras impulsada por recompensas (GORS), para potenciar las habilidades de generación de imágenes a partir de texto compositivo de modelos preentrenados de texto a imagen. Se llevan a cabo extensos experimentos y evaluaciones para comparar métodos anteriores en T2I-CompBench y validar la efectividad de nuestras métricas de evaluación propuestas y el enfoque GORS. La página del proyecto está disponible en https://karine-h.github.io/T2I-CompBench/.
La comprensión textual y semántica de las imágenes es esencial para generar descripciones adecuadas. Esta comprensión requiere la detección de objetos, el modelado de las relaciones entre ellos, una evaluación de la semántica de la escena y, finalmente, la representación del conocimiento extraído en un espacio lingüístico. Para lograr capacidades lingüísticas ricas mientras se aseguran buenas correspondencias entre imagen y lenguaje, los modelos de lenguaje preentrenados (LM, por sus siglas en inglés) se condicionaron sobre modelos multimodales (imagen-texto) preentrenados que permiten entradas de imágenes. Esto requiere una alineación de la representación de la imagen del modelo multimodal con las representaciones lingüísticas de un LM generativo. Sin embargo, no está claro cómo transferir de la mejor manera la semántica detectada por el codificador visual del modelo multimodal al LM. Introducimos dos formas novedosas de construir un mapeo lineal que transfiere exitosamente la semántica entre los espacios de incrustación de los dos modelos preentrenados. El primero alinea el espacio de incrustación del codificador de lenguaje multimodal con el espacio de incrustación del LM preentrenado mediante correspondencias de tokens. El segundo aprovecha datos adicionales que consisten en pares imagen-texto para construir el mapeo directamente desde el espacio visual al espacio lingüístico. Utilizando nuestros mapeos semánticos, desbloqueamos la generación de descripciones de imágenes para LMs sin acceso a información de gradientes. Al emplear diferentes fuentes de datos, logramos un fuerte rendimiento en la generación de descripciones en los conjuntos de datos MS-COCO y Flickr30k. Incluso frente a datos limitados, nuestro método supera parcialmente el rendimiento de otros competidores en enfoques zero-shot e incluso ajustados. Nuestros estudios de ablación muestran que incluso LMs con apenas 250 millones de parámetros pueden generar descripciones decentes utilizando nuestros mapeos semánticos. Nuestro enfoque hace que la generación de descripciones de imágenes sea más accesible para instituciones con recursos computacionales limitados.
A medida que el espacio de aplicación de los modelos de lenguaje continúa evolucionando, surge una pregunta natural: ¿cómo podemos adaptar rápidamente los modelos a nuevas tareas? Abordamos esta clásica cuestión desde una perspectiva de aprendizaje continuo, en la que buscamos seguir ajustando modelos entrenados en tareas anteriores para nuevas tareas, con el objetivo de "transferir" conocimiento relevante. Sin embargo, esta estrategia también conlleva el riesgo de hacer más daño que bien, es decir, de producir una transferencia negativa. En este artículo, construimos un nuevo benchmark de secuencias de tareas que abordan diferentes escenarios de transferencia que uno podría enfrentar, como una secuencia de tareas con un alto potencial de transferencia positiva, un alto potencial de transferencia negativa, ningún efecto esperado o una mezcla de cada uno. Un aprendiz ideal debería ser capaz de explotar al máximo la información de todas las tareas que tengan algún potencial de transferencia positiva, al mismo tiempo que evita los efectos negativos de cualquier tarea distractora que pueda confundirlo. Luego, proponemos un aprendiz simple pero efectivo que satisface muchos de nuestros deseos simplemente aprovechando una estrategia selectiva para inicializar nuevos modelos a partir de puntos de control de tareas anteriores. Aún así, persisten limitaciones, y esperamos que este benchmark pueda ayudar a la comunidad a seguir construyendo y analizando tales aprendices.
Se ha demostrado que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) poseen un vasto conocimiento accionable que puede extraerse para la manipulación robótica en forma de razonamiento y planificación. A pesar de los avances, la mayoría aún depende de primitivas de movimiento predefinidas para llevar a cabo las interacciones físicas con el entorno, lo que sigue siendo un cuello de botella importante. En este trabajo, nuestro objetivo es sintetizar trayectorias robóticas, es decir, una secuencia densa de puntos de referencia del efector final en 6 grados de libertad (6-DoF), para una amplia variedad de tareas de manipulación dadas instrucciones de lenguaje abierto y un conjunto abierto de objetos. Logramos esto al observar primero que los LLMs sobresalen en inferir posibilidades de acción (affordances) y restricciones dada una instrucción de lenguaje libre. Más importante aún, al aprovechar su capacidad para escribir código, pueden interactuar con un modelo visual-lingüístico (VLM, por sus siglas en inglés) para componer mapas de valor 3D que anclen el conocimiento en el espacio de observación del agente. Los mapas de valor compuestos se utilizan luego en un marco de planificación basado en modelos para sintetizar trayectorias robóticas en bucle cerrado de manera robusta frente a perturbaciones dinámicas, sin necesidad de entrenamiento previo (zero-shot). Además, demostramos cómo el marco propuesto puede beneficiarse de experiencias en línea al aprender eficientemente un modelo de dinámica para escenas que involucran interacciones ricas en contacto. Presentamos un estudio a gran escala del método propuesto en entornos tanto simulados como de robots reales, mostrando la capacidad de realizar una amplia variedad de tareas cotidianas de manipulación especificadas en lenguaje natural libre. Sitio web del proyecto: https://voxposer.github.io
Las cámaras montadas en la mano han demostrado ser prometedoras para mejorar la eficiencia de muestreo y la generalización en la manipulación robótica basada en visión. Sin embargo, para la imitación robótica, sigue siendo costoso que un teleoperador humano recolecte grandes cantidades de demostraciones expertas con un robot real. Por otro lado, los videos de humanos realizando tareas son mucho más económicos de recopilar, ya que eliminan la necesidad de experiencia en teleoperación robótica y pueden capturarse rápidamente en una amplia variedad de escenarios. Por lo tanto, las demostraciones en video de humanos representan una fuente de datos prometedora para aprender políticas de manipulación robótica generalizables a gran escala. En este trabajo, complementamos conjuntos de datos estrechos de imitación robótica con amplias demostraciones en video de humanos sin etiquetar para mejorar significativamente la generalización de las políticas visuomotoras de cámaras montadas en la mano. Aunque existe una clara brecha de dominio visual entre los datos humanos y los robóticos, nuestro marco no necesita emplear ningún método explícito de adaptación de dominio, ya que aprovechamos la observabilidad parcial de las cámaras montadas en la mano, así como un esquema simple de enmascaramiento de imágenes fijo. En un conjunto de ocho tareas del mundo real que involucran el control de brazos robóticos tanto de 3 grados de libertad (3-DoF) como de 6 grados de libertad (6-DoF), nuestro método mejora las tasas de éxito de las políticas de manipulación con cámaras montadas en la mano en un 58% (absoluto) en promedio, permitiendo que los robots generalicen tanto a nuevas configuraciones del entorno como a nuevas tareas que no se encuentran en los datos de demostración robótica. Vea los resultados en video en https://giving-robots-a-hand.github.io/.