Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, discutimos la construcción de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) de alto rendimiento. En particular, estudiamos la importancia de varios componentes arquitectónicos y decisiones sobre los datos. A través de ablaciones cuidadosas y exhaustivas del codificador de imágenes, el conector visión-lenguaje y diversas opciones de datos de preentrenamiento, identificamos varias lecciones de diseño cruciales. Por ejemplo, demostramos que para el preentrenamiento multimodal a gran escala, es fundamental utilizar una mezcla cuidadosa de datos de imagen-pie de foto, texto-imagen intercalado y solo texto para lograr resultados de última generación (SOTA) en pocos ejemplos (few-shot) en múltiples benchmarks, en comparación con otros resultados de preentrenamiento publicados. Además, mostramos que el codificador de imágenes, junto con la resolución de la imagen y el número de tokens de imagen, tiene un impacto sustancial, mientras que el diseño del conector visión-lenguaje es de importancia comparativamente menor. Al escalar la receta presentada, construimos MM1, una familia de modelos multimodales de hasta 30B parámetros, que incluye tanto modelos densos como variantes de mezcla de expertos (MoE), que son SOTA en métricas de preentrenamiento y logran un rendimiento competitivo después del ajuste fino supervisado en una variedad de benchmarks multimodales establecidos. Gracias al preentrenamiento a gran escala, MM1 disfruta de propiedades atractivas, como un aprendizaje en contexto mejorado y razonamiento con múltiples imágenes, lo que permite el prompting de cadena de pensamiento (chain-of-thought) en pocos ejemplos.
Al escribir y hablar, las personas a veces hacen pausas para pensar. Aunque los trabajos centrados en el razonamiento a menudo lo han enmarcado como un método para responder preguntas o completar tareas agentivas, el razonamiento está implícito en casi todo el texto escrito. Por ejemplo, esto se aplica a los pasos no mencionados entre las líneas de una demostración o a la teoría de la mente subyacente en una conversación. En el Self-Taught Reasoner (STaR, Zelikman et al. 2022), el pensamiento útil se aprende inferiendo razonamientos a partir de ejemplos de pocos disparos en tareas de respuesta a preguntas y aprendiendo de aquellos que conducen a una respuesta correcta. Este es un escenario altamente restringido; idealmente, un modelo de lenguaje podría aprender a inferir razonamientos no declarados en texto arbitrario. Presentamos Quiet-STaR, una generalización de STaR en la que los modelos de lenguaje (LM) aprenden a generar razonamientos en cada token para explicar texto futuro, mejorando sus predicciones. Abordamos desafíos clave, incluyendo 1) el costo computacional de generar continuaciones, 2) el hecho de que el LM inicialmente no sabe cómo generar o usar pensamientos internos, y 3) la necesidad de predecir más allá de tokens individuales siguientes. Para resolver estos problemas, proponemos un algoritmo de muestreo paralelo por token, utilizando tokens aprendibles que indican el inicio y fin de un pensamiento, y una técnica extendida de forzamiento del profesor. Alentadoramente, los razonamientos generados ayudan desproporcionadamente a modelar tokens difíciles de predecir y mejoran la capacidad del LM para responder directamente preguntas difíciles. En particular, después de un preentrenamiento continuo de un LM en un corpus de texto de internet con Quiet-STaR, encontramos mejoras en cero disparos en GSM8K (5.9%→10.9%) y CommonsenseQA (36.3%→47.2%) y observamos una mejora en la perplejidad de tokens difíciles en texto natural. Crucialmente, estas mejoras no requieren ajuste fino en estas tareas. Quiet-STaR marca un paso hacia LMs que pueden aprender a razonar de una manera más general y escalable.
El uso de modelos de visión y lenguaje (VLMs) en el desarrollo web presenta una estrategia prometedora para aumentar la eficiencia y habilitar soluciones sin código: al proporcionar una captura de pantalla o un boceto de una interfaz de usuario, un VLM podría generar el código para reproducirla, por ejemplo, en un lenguaje como HTML. A pesar de los avances en VLMs para diversas tareas, el desafío específico de convertir una captura de pantalla en un HTML correspondiente ha sido mínimamente explorado. Postulamos que esto se debe principalmente a la ausencia de un conjunto de datos adecuado y de alta calidad. Este trabajo introduce WebSight, un conjunto de datos sintético que consta de 2 millones de pares de códigos HTML y sus capturas de pantalla correspondientes. Ajustamos un VLM base en nuestro conjunto de datos y demostramos su competencia en la conversión de capturas de pantalla de páginas web a código HTML funcional. Para acelerar la investigación en esta área, liberamos WebSight como código abierto.
Este artículo propone un marco simple pero efectivo, llamado GiT, simultáneamente aplicable a diversas tareas de visión utilizando únicamente un ViT estándar. Motivados por la universalidad de la arquitectura Transformer multicapa (por ejemplo, GPT) ampliamente utilizada en modelos de lenguaje grandes (LLMs), buscamos ampliar su alcance para servir como un poderoso modelo base de visión (VFM). Sin embargo, a diferencia del modelado de lenguaje, las tareas visuales suelen requerir módulos específicos, como cabezales de cajas delimitadoras para detección y decodificadores de píxeles para segmentación, lo que dificulta enormemente la aplicación de transformadores multicapa en el dominio de la visión. Para resolver esto, diseñamos una interfaz de lenguaje universal que permite una decodificación autorregresiva exitosa para unificar hábilmente diversas tareas visuales, desde la comprensión a nivel de imagen (por ejemplo, generación de subtítulos), pasando por la percepción dispersa (por ejemplo, detección), hasta la predicción densa (por ejemplo, segmentación). Basado en estos diseños, el modelo completo está compuesto únicamente por un ViT, sin adiciones específicas, ofreciendo una simplificación arquitectónica notable. GiT es un modelo visual multitarea, entrenado conjuntamente en cinco benchmarks representativos sin ajustes específicos por tarea. Curiosamente, nuestro GiT establece un nuevo estándar en el rendimiento generalista y fomenta una mejora mutua entre tareas, lo que lleva a mejoras significativas en comparación con el entrenamiento aislado. Esto refleja un impacto similar observado en los LLMs. Al enriquecer aún más el entrenamiento con 27 conjuntos de datos, GiT logra resultados sólidos en cero-shot en diversas tareas. Debido a su diseño simple, este paradigma promete reducir la brecha arquitectónica entre visión y lenguaje. El código y los modelos estarán disponibles en https://github.com/Haiyang-W/GiT.
El enorme éxito de los modelos de difusión en la síntesis de texto a imagen los ha convertido en candidatos prometedores para la próxima generación de aplicaciones de usuario final para la generación y edición de imágenes. Trabajos anteriores se han centrado en mejorar la usabilidad de los modelos de difusión reduciendo el tiempo de inferencia o aumentando la interactividad del usuario permitiendo nuevos controles detallados, como indicaciones de texto basadas en regiones. Sin embargo, empíricamente encontramos que integrar ambas ramas de trabajo no es trivial, lo que limita el potencial de los modelos de difusión. Para resolver esta incompatibilidad, presentamos StreamMultiDiffusion, el primer marco de generación de texto a imagen basado en regiones en tiempo real. Al estabilizar técnicas de inferencia rápida y reestructurar el modelo en una arquitectura de procesamiento por lotes de múltiples indicaciones recién propuesta, logramos una generación de panoramas 10 veces más rápida que las soluciones existentes, y una velocidad de generación de 1.57 FPS en la síntesis de texto a imagen basada en regiones en una sola GPU RTX 2080 Ti. Nuestra solución abre un nuevo paradigma para la generación interactiva de imágenes llamado paleta semántica, donde se generan imágenes de alta calidad en tiempo real a partir de múltiples regiones dibujadas a mano, codificando significados semánticos prescritos (por ejemplo, águila, chica). Nuestro código y aplicación de demostración están disponibles en https://github.com/ironjr/StreamMultiDiffusion.
Presentamos Emu Video Edit (EVE), un modelo que establece un nuevo estado del arte en la edición de videos sin depender de datos supervisados de edición de video. Para desarrollar EVE, entrenamos por separado un adaptador de edición de imágenes y un adaptador de generación de videos, y los conectamos al mismo modelo de texto a imagen. Luego, para alinear los adaptadores hacia la edición de videos, introducimos un nuevo procedimiento de destilación no supervisada: Factorized Diffusion Distillation. Este procedimiento destila conocimiento de uno o más modelos maestros simultáneamente, sin necesidad de datos supervisados. Utilizamos este procedimiento para enseñar a EVE a editar videos mediante la destilación conjunta de conocimiento para (i) editar con precisión cada fotograma individual utilizando el adaptador de edición de imágenes, y (ii) garantizar la consistencia temporal entre los fotogramas editados utilizando el adaptador de generación de videos. Finalmente, para demostrar el potencial de nuestro enfoque en desbloquear otras capacidades, alineamos combinaciones adicionales de adaptadores.
Los módulos de atención efectivos han desempeñado un papel crucial en el éxito de los modelos de lenguaje grandes (LLMs) basados en Transformers, pero las complejidades cuadráticas en tiempo y memoria de estos módulos de atención también representan un desafío al procesar secuencias largas. Una solución potencial para el problema de las secuencias largas es utilizar clústeres distribuidos para paralelizar el cálculo de los módulos de atención en múltiples dispositivos (por ejemplo, GPUs). Sin embargo, adoptar un enfoque distribuido introduce inevitablemente sobrecargas adicionales de memoria para almacenar los resultados locales de atención y genera costos adicionales de comunicación para agregar los resultados locales en resultados globales. En este artículo, proponemos un marco de atención distribuida llamado "BurstAttention" para optimizar el acceso a la memoria y las operaciones de comunicación tanto a nivel del clúster global como de los dispositivos locales. En nuestros experimentos, comparamos BurstAttention con otras soluciones competitivas de atención distribuida para el procesamiento de secuencias largas. Los resultados experimentales bajo diferentes configuraciones de longitud demuestran que BurstAttention ofrece ventajas significativas para procesar secuencias largas en comparación con estas líneas base competitivas, reduciendo un 40% la sobrecarga de comunicación y logrando una aceleración de 2X durante el entrenamiento de secuencias de 32K en 8 X A100.
La representación visual de texto plantea un desafío fundamental para los modelos contemporáneos de generación de imágenes a partir de texto, con el problema central radicando en las deficiencias de los codificadores de texto. Para lograr una representación precisa del texto, identificamos dos requisitos cruciales para los codificadores de texto: conciencia de caracteres y alineación con glifos. Nuestra solución implica la creación de una serie de codificadores de texto personalizados, Glyph-ByT5, mediante el ajuste fino del codificador ByT5, consciente de caracteres, utilizando un conjunto de datos de pares glifo-texto cuidadosamente seleccionado. Presentamos un método efectivo para integrar Glyph-ByT5 con SDXL, lo que resulta en la creación del modelo Glyph-SDXL para la generación de imágenes de diseño. Esto mejora significativamente la precisión en la representación de texto, aumentándola de menos del 20% a casi el 90% en nuestro punto de referencia de imágenes de diseño. Es destacable la nueva capacidad de Glyph-SDXL para representar párrafos de texto, logrando una alta precisión ortográfica para decenas o cientos de caracteres con diseños automáticos de múltiples líneas. Finalmente, mediante el ajuste fino de Glyph-SDXL con un pequeño conjunto de imágenes fotorealísticas de alta calidad que presentan texto visual, demostramos una mejora sustancial en las capacidades de representación de texto en escenas en imágenes reales de dominio abierto. Estos resultados convincentes tienen como objetivo fomentar una mayor exploración en el diseño de codificadores de texto personalizados para diversas tareas desafiantes.
Los Modelos de Lenguaje y Visión a Gran Escala han logrado una percepción de objetos de gran detalle, pero la limitación en la resolución de las imágenes sigue siendo un obstáculo significativo para superar el rendimiento de expertos específicos en tareas dentro de escenarios complejos y densos. Esta limitación restringe aún más el potencial del modelo para lograr referencias visuales y lingüísticas matizadas en dominios como Agentes de Interfaz Gráfica, Conteo y \etc. Para abordar este problema, presentamos un modelo generalista de alta resolución unificado, Griffon v2, que permite la referencia flexible de objetos mediante indicaciones visuales y textuales. Para escalar eficientemente la resolución de las imágenes, diseñamos un proyector de submuestreo simple y ligero que supera la restricción de tokens de entrada en los Modelos de Lenguaje a Gran Escala. Este diseño preserva inherentemente los contextos completos y los detalles finos, y mejora significativamente la capacidad de percepción multimodal, especialmente para objetos pequeños. Sobre esta base, equipamos adicionalmente al modelo con capacidades de co-referencia visual-lingüística a través de un tokenizador visual plug-and-play. Esto permite una interacción amigable con imágenes objetivo flexibles, textos de forma libre e incluso coordenadas. Los experimentos demuestran que Griffon v2 puede localizar cualquier objeto de interés mediante referencias visuales y textuales, alcanzar un rendimiento de vanguardia en tareas de REC, anclaje de frases y REG, y superar a modelos expertos en detección y conteo de objetos. Los datos, códigos y modelos se publicarán en https://github.com/jefferyZhan/Griffon.
Comprender videos es una de las direcciones fundamentales en la investigación de visión por computadora, con esfuerzos extensos dedicados a explorar diversas arquitecturas como RNN, CNN 3D y Transformers. La arquitectura recientemente propuesta de modelos de espacio de estados, por ejemplo, Mamba, muestra características prometedoras para extender su éxito en el modelado de secuencias largas al modelado de videos. Para evaluar si Mamba puede ser una alternativa viable a los Transformers en el dominio de la comprensión de videos, en este trabajo realizamos un conjunto exhaustivo de estudios, explorando los diferentes roles que Mamba puede desempeñar en el modelado de videos, mientras investigamos diversas tareas en las que Mamba podría exhibir superioridad. Clasificamos Mamba en cuatro roles para el modelado de videos, derivando un Video Mamba Suite compuesto por 14 modelos/módulos, y los evaluamos en 12 tareas de comprensión de videos. Nuestros extensos experimentos revelan el fuerte potencial de Mamba tanto en tareas exclusivas de video como en tareas de video-lenguaje, mostrando además prometedores equilibrios entre eficiencia y rendimiento. Esperamos que este trabajo pueda proporcionar datos valiosos y perspectivas para futuras investigaciones sobre la comprensión de videos. El código es público: https://github.com/OpenGVLab/video-mamba-suite.
Los modelos recientes de visión-lenguaje-acción (VLA) dependen de entradas en 2D, careciendo de integración con el ámbito más amplio del mundo físico en 3D. Además, realizan predicciones de acciones aprendiendo un mapeo directo desde la percepción hasta la acción, descuidando la vasta dinámica del mundo y las relaciones entre las acciones y dicha dinámica. En contraste, los seres humanos están dotados de modelos del mundo que representan la imaginación sobre escenarios futuros para planificar acciones en consecuencia. Con este fin, proponemos 3D-VLA mediante la introducción de una nueva familia de modelos fundacionales encarnados que vinculan de manera fluida la percepción 3D, el razonamiento y la acción a través de un modelo generativo del mundo. Específicamente, 3D-VLA se construye sobre un modelo de lenguaje grande (LLM) basado en 3D, y se introduce un conjunto de tokens de interacción para interactuar con el entorno encarnado. Además, para dotar al modelo de capacidades generativas, entrenamos una serie de modelos de difusión encarnados y los alineamos con el LLM para predecir imágenes objetivo y nubes de puntos. Para entrenar nuestro 3D-VLA, recopilamos un conjunto de datos a gran escala de instrucciones encarnadas en 3D extrayendo una gran cantidad de información relacionada con 3D de conjuntos de datos de robótica existentes. Nuestros experimentos en conjuntos de datos retenidos demuestran que 3D-VLA mejora significativamente las capacidades de razonamiento, generación multimodal y planificación en entornos encarnados, mostrando su potencial en aplicaciones del mundo real.
La evolución de los componentes de texto a visual facilita la vida cotidiana de las personas, como la generación de imágenes y videos a partir de texto, así como la identificación de los elementos deseados dentro de las imágenes. Los modelos de visión por computadora que involucran habilidades multimodales en el pasado se centraban en la detección y clasificación de imágenes basadas en objetos bien definidos. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) introducen la transformación del lenguaje natural a objetos visuales, presentando el diseño visual para contextos textuales. OpenAI GPT-4 ha surgido como la cúspide en los LLMs, mientras que el dominio de la visión por computadora (CV, por sus siglas en inglés) cuenta con una gran cantidad de modelos y algoritmos de última generación (SOTA, por sus siglas en inglés) para convertir imágenes 2D en sus representaciones 3D. Sin embargo, la falta de correspondencia entre los algoritmos y el problema podría llevar a resultados no deseados. En respuesta a este desafío, proponemos un marco unificado llamado VisionGPT-3D para consolidar los modelos de visión de última generación, facilitando así el desarrollo de la IA orientada a la visión. VisionGPT-3D proporciona un marco multimodal versátil que se basa en las fortalezas de los modelos fundamentales multimodales. Integra de manera fluida varios modelos de visión SOTA y automatiza la selección de estos modelos, identifica los algoritmos adecuados para la creación de mallas 3D correspondientes al análisis de mapas de profundidad 2D, y genera resultados óptimos basados en diversas entradas multimodales, como indicaciones de texto. Palabras clave: VisionGPT-3D, comprensión de visión 3D, agente multimodal
Recientemente, los investigadores en inteligencia artificial han mostrado un gran interés en cómo convergen el lenguaje y la visión, lo que ha dado lugar al desarrollo de modelos multimodales que buscan integrar de manera fluida la información textual y visual. Los modelos multimodales, una extensión de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), han demostrado capacidades notables para abordar una amplia gama de tareas, desde la generación de descripciones de imágenes y la respuesta a preguntas visuales (VQA, por sus siglas en inglés) hasta la localización visual. Aunque estos modelos han mostrado avances significativos, persisten desafíos en la interpretación precisa de imágenes y en la respuesta a preguntas, una situación común en escenarios del mundo real. Este artículo presenta un enfoque novedoso para mejorar las capacidades multimodales de los modelos existentes. En respuesta a las limitaciones observadas en los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) y los Modelos Multimodales de Lenguaje de Gran Escala (MLLMs, por sus siglas en inglés), nuestro modelo propuesto, Veagle, incorpora un mecanismo único inspirado en los éxitos y conocimientos de trabajos previos. Veagle aprovecha un mecanismo dinámico para proyectar la información visual codificada directamente en el modelo de lenguaje. Este enfoque dinámico permite una comprensión más matizada de los detalles intrincados presentes en contextos visuales. Para validar la efectividad de Veagle, realizamos experimentos exhaustivos en conjuntos de datos de referencia, enfatizando tareas como la respuesta a preguntas visuales y la comprensión de imágenes. Nuestros resultados indican una mejora del 5-6 \% en el rendimiento, con Veagle superando a los modelos existentes por un margen notable. Los resultados subrayan la versatilidad y aplicabilidad del modelo más allá de los puntos de referencia tradicionales.
Los recientes avances en los modelos de espacio de estados, particularmente Mamba, han demostrado un progreso significativo en el modelado de secuencias largas para tareas como la comprensión del lenguaje. Sin embargo, su aplicación en tareas de visión no ha superado notablemente el rendimiento de las Redes Neuronales Convolucionales (CNNs) tradicionales y los Transformers de Visión (ViTs). Este artículo postula que la clave para mejorar Vision Mamba (ViM) radica en optimizar las direcciones de escaneo para el modelado de secuencias. Los enfoques tradicionales de ViM, que aplanan los tokens espaciales, pasan por alto la preservación de las dependencias locales 2D, lo que alarga la distancia entre tokens adyacentes. Introducimos una novedosa estrategia de escaneo local que divide las imágenes en ventanas distintas, capturando eficazmente las dependencias locales mientras se mantiene una perspectiva global. Además, reconociendo las preferencias variables de patrones de escaneo en las diferentes capas de la red, proponemos un método dinámico para buscar de manera independiente las opciones de escaneo óptimas para cada capa, mejorando sustancialmente el rendimiento. Experimentos exhaustivos en modelos tanto planos como jerárquicos destacan la superioridad de nuestro enfoque en la captura efectiva de representaciones de imágenes. Por ejemplo, nuestro modelo supera significativamente a Vim-Ti en un 3.1% en ImageNet con los mismos 1.5G FLOPs. El código está disponible en: https://github.com/hunto/LocalMamba.