Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, proponemos Retentive Network (RetNet) como una arquitectura base para modelos de lenguaje a gran escala, logrando simultáneamente paralelismo en el entrenamiento, inferencia de bajo costo y un buen rendimiento. Teóricamente, derivamos la conexión entre recurrencia y atención. Luego, proponemos el mecanismo de retención para el modelado de secuencias, que admite tres paradigmas de cálculo: paralelo, recurrente y recurrente por fragmentos. Específicamente, la representación paralela permite el paralelismo en el entrenamiento. La representación recurrente habilita una inferencia de bajo costo O(1), lo que mejora el rendimiento en términos de rendimiento de decodificación, latencia y memoria de GPU sin sacrificar el rendimiento. La representación recurrente por fragmentos facilita el modelado eficiente de secuencias largas con complejidad lineal, donde cada fragmento se codifica en paralelo mientras se resume recurrentemente los fragmentos. Los resultados experimentales en modelado de lenguaje muestran que RetNet logra resultados favorables en escalabilidad, entrenamiento paralelo, despliegue de bajo costo e inferencia eficiente. Estas propiedades intrigantes convierten a RetNet en un fuerte sucesor del Transformer para modelos de lenguaje a gran escala. El código estará disponible en https://aka.ms/retnet.
Las tablas son omnipresentes en las bases de datos del mundo real, requiriendo un tiempo y esfuerzo significativos para que los humanos las analicen y manipulen. Los avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han hecho posible interactuar con tablas utilizando entradas de lenguaje natural, acercando esta capacidad a la realidad. En este artículo, presentamos TableGPT, un marco unificado y ajustado que permite a los LLMs comprender y operar sobre tablas utilizando comandos funcionales externos. Introduce la capacidad de interactuar de manera fluida con tablas, permitiendo una amplia gama de funcionalidades como respuesta a preguntas, manipulación de datos (por ejemplo, operaciones de inserción, eliminación, consulta y modificación), visualización de datos, generación de informes de análisis y predicción automatizada. TableGPT tiene como objetivo brindar comodidad y accesibilidad a los usuarios al capacitarlos para aprovechar sin esfuerzo los datos tabulares. En el núcleo de TableGPT se encuentra el concepto novedoso de representaciones tabulares globales, que permite a los LLMs obtener una comprensión integral de toda la tabla más allá de la meta-información. Al entrenar conjuntamente los LLMs en las modalidades de tabla y texto, TableGPT logra una comprensión profunda de los datos tabulares y la capacidad de realizar operaciones complejas sobre las tablas a través de instrucciones en cadena de comandos. Es importante destacar que TableGPT ofrece la ventaja de ser un sistema autónomo en lugar de depender de interfaces API externas. Además, admite un flujo de procesamiento de datos eficiente, rechazo de consultas (cuando es apropiado) y despliegue privado, lo que permite un ajuste más rápido de los datos del dominio y garantiza la privacidad de los datos, lo que mejora la adaptabilidad del marco a casos de uso específicos.
Los LLM han demostrado habilidades notables para interactuar con los humanos a través del lenguaje, especialmente con el uso de datos de seguimiento de instrucciones. Los avances recientes en LLM, como MiniGPT-4, LLaVA y X-LLM, amplían aún más sus capacidades al incorporar entradas multimodales, incluyendo imágenes, videos y audio. A pesar de su eficacia para generar un entendimiento lingüístico preciso y detallado de la señal modal dada, estos LLM renuncian a la capacidad de anclar partes específicas de las entradas, construyendo así solo un mapeo de grano grueso. Sin embargo, una correspondencia explícita e informativa entre el texto y otras modalidades no solo mejorará la experiencia del usuario, sino que también ayudará a expandir el escenario de aplicación de los LLM multimodales. Por lo tanto, proponemos BuboGPT, un LLM multimodal con anclaje visual que puede realizar interacción cruzada entre visión, audio y lenguaje, proporcionando un entendimiento de grano fino de objetos visuales y otras modalidades dadas. Como resultado, BuboGPT es capaz de señalar la ubicación específica de un objeto en la imagen cuando genera una respuesta o descripción para ese objeto. Nuestras contribuciones son dobles: 1) Un módulo de anclaje visual listo para usar basado en SAM que extrae entidades en una oración y encuentra las máscaras correspondientes en la imagen. 2) Un esquema de entrenamiento en dos etapas y un conjunto de datos de instrucciones para dotar de un entendimiento conjunto de texto-imagen-audio. Nuestros experimentos muestran que BuboGPT logra una impresionante comprensión multimodal y habilidades de anclaje visual durante la interacción con humanos. Funciona consistentemente bien cuando se le proporcionan combinaciones arbitrarias de modalidades (ya sean alineadas o no alineadas). Nuestro código, modelo y conjunto de datos están disponibles en https://bubo-gpt.github.io.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) adquieren la capacidad de seguir instrucciones mediante el ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) sobre datos supervisados de instrucciones/respuestas. Sin embargo, los conjuntos de datos de IFT ampliamente utilizados (por ejemplo, los 52k datos de Alpaca) contienen, sorprendentemente, muchas instancias de baja calidad con respuestas incorrectas o irrelevantes, lo cual es engañoso y perjudicial para el IFT. En este artículo, proponemos una estrategia simple y efectiva de selección de datos que identifica y elimina automáticamente los datos de baja calidad utilizando un LLM potente (por ejemplo, ChatGPT). Para ello, presentamos AlpaGasus, que se ajusta finamente utilizando solo 9k datos de alta calidad filtrados de los 52k datos de Alpaca. AlpaGasus supera significativamente al Alpaca original, según la evaluación realizada por GPT-4 en múltiples conjuntos de prueba, y su variante de 13B coincide con más del 90% del rendimiento de su LLM maestro (es decir, Text-Davinci-003) en tareas de prueba. También ofrece un entrenamiento 5.7 veces más rápido, reduciendo el tiempo de entrenamiento para una variante de 7B de 80 minutos (para Alpaca) a 14 minutos. Aplicamos IFT durante el mismo número de épocas que Alpaca (7B) pero con menos datos, utilizando 4 GPUs NVIDIA A100 (80GB) y siguiendo la configuración y los hiperparámetros originales de Alpaca. En general, AlpaGasus demuestra un nuevo paradigma de IFT centrado en los datos que puede aplicarse de manera general a los datos de ajuste fino basado en instrucciones, lo que conduce a un entrenamiento más rápido y a modelos que siguen mejor las instrucciones. Nuestra página del proyecto está disponible en: https://lichang-chen.github.io/AlpaGasus/.
Mientras que muchos modelos de aprendizaje no supervisado se centran en una sola familia de tareas, ya sean generativas o discriminativas, exploramos la posibilidad de un modelo unificado de aprendizaje de representaciones: un modelo que utiliza una única etapa de preentrenamiento para abordar ambas familias de tareas simultáneamente. Identificamos a los modelos de difusión como un candidato principal. Los modelos de difusión han ganado prominencia como un método de vanguardia para la generación de imágenes, eliminación de ruido, inpainting, super-resolución, manipulación, etc. Dichos modelos implican entrenar una U-Net para predecir y eliminar ruido de manera iterativa, y el modelo resultante puede sintetizar imágenes novedosas, diversas y de alta fidelidad. La arquitectura U-Net, como una arquitectura basada en convoluciones, genera un conjunto diverso de representaciones de características en forma de mapas de características intermedios. Presentamos nuestros hallazgos de que estas incrustaciones son útiles más allá de la tarea de predicción de ruido, ya que contienen información discriminativa y también pueden aprovecharse para la clasificación. Exploramos métodos óptimos para extraer y utilizar estas incrustaciones en tareas de clasificación, demostrando resultados prometedores en la tarea de clasificación de ImageNet. Encontramos que, con una cuidadosa selección y agrupación de características, los modelos de difusión superan a métodos generativo-discriminativos comparables, como BigBiGAN, en tareas de clasificación. Investigamos los modelos de difusión en el régimen de aprendizaje por transferencia, examinando su rendimiento en varios conjuntos de datos de clasificación visual de grano fino. Comparamos estas incrustaciones con las generadas por arquitecturas y preentrenamientos competidores en tareas de clasificación.
Los métodos para la predicción de movimiento en video estiman conjuntamente el movimiento instantáneo de todos los puntos en un fotograma dado utilizando flujo óptico o rastrean de manera independiente el movimiento de puntos individuales a lo largo del video. Esto último es cierto incluso para métodos avanzados de aprendizaje profundo que pueden rastrear puntos a través de oclusiones. Rastrear puntos de forma individual ignora la fuerte correlación que puede existir entre ellos, por ejemplo, porque pertenecen al mismo objeto físico, lo que potencialmente perjudica el rendimiento. En este artículo, proponemos CoTracker, una arquitectura que rastrea conjuntamente múltiples puntos a lo largo de un video completo. Esta arquitectura combina varias ideas de la literatura sobre flujo óptico y rastreo en un diseño nuevo, flexible y potente. Se basa en una red transformadora que modela la correlación de diferentes puntos en el tiempo mediante capas de atención especializadas. El transformador actualiza iterativamente una estimación de varias trayectorias. Puede aplicarse de manera deslizante a videos muy largos, para los cuales diseñamos un bucle de entrenamiento desenrollado. Puede rastrear desde uno hasta varios puntos de manera conjunta y permite agregar nuevos puntos para rastrear en cualquier momento. El resultado es un algoritmo de rastreo flexible y potente que supera a los métodos más avanzados en casi todos los benchmarks.
Presentamos SEED, un elaborado tokenizador de imágenes que dota a los Modelos de Lenguaje de Gran Escala (LLMs) con la capacidad emergente de VER y DIBUJAR simultáneamente. La investigación sobre tokenizadores de imágenes había alcanzado previamente un punto muerto, ya que los marcos que emplean tokens visuales cuantizados han perdido relevancia debido a un rendimiento y convergencia subóptimos en la comprensión multimodal (en comparación con BLIP-2, etc.) o en la generación (en comparación con Stable Diffusion, etc.). A pesar de estas limitaciones, mantenemos la confianza en su capacidad natural para unificar representaciones visuales y textuales, facilitando un entrenamiento multimodal escalable con la receta original de los LLMs. En este estudio, identificamos dos principios cruciales para la arquitectura y el entrenamiento de SEED que efectivamente facilitan la alineación posterior con los LLMs. (1) Los tokens de imagen deben ser independientes de las posiciones físicas 2D de los parches y, en su lugar, generarse con una dependencia causal 1D, exhibiendo una interdependencia intrínseca que se alinea con el mecanismo de predicción autoregresivo de izquierda a derecha en los LLMs. (2) Los tokens de imagen deben capturar semántica de alto nivel consistente con el grado de abstracción semántica de las palabras, y estar optimizados tanto para la discriminación como para la reconstrucción durante la fase de entrenamiento del tokenizador. Como resultado, un LLM estándar es capaz de realizar tanto generación de imagen a texto como de texto a imagen al incorporar nuestro SEED mediante un ajuste eficiente con LoRA. Un preentrenamiento multimodal exhaustivo y un ajuste por instrucción, que podrían mejorar los resultados, se reservan para futuras investigaciones. Esta versión de SEED se entrenó en 5.7 días utilizando solo 64 GPUs V100 y 5 millones de pares de imagen-texto disponibles públicamente. Nuestro estudio preliminar enfatiza el gran potencial de los tokens visuales discretos en LLMs multimodales versátiles y la importancia de los tokenizadores de imágenes adecuados en investigaciones más amplias.
Presentamos Interactive Neural Video Editing (INVE), una solución de edición de video en tiempo real que puede asistir en el proceso de edición propagando de manera consistente ediciones dispersas en fotogramas a todo el clip de video. Nuestro método se inspira en el trabajo reciente sobre Layered Neural Atlas (LNA). Sin embargo, LNA presenta dos inconvenientes principales: (1) el método es demasiado lento para la edición interactiva, y (2) ofrece un soporte insuficiente para algunos casos de uso de edición, incluyendo la edición directa de fotogramas y el seguimiento rígido de texturas. Para abordar estos desafíos, aprovechamos y adoptamos arquitecturas de red altamente eficientes, potenciadas por la codificación de hash-grids, para mejorar sustancialmente la velocidad de procesamiento. Además, aprendemos funciones bidireccionales entre el atlas de imágenes e introducimos la edición vectorizada, lo que en conjunto permite una variedad mucho mayor de ediciones tanto en el atlas como directamente en los fotogramas. En comparación con LNA, nuestro INVE reduce el tiempo de aprendizaje e inferencia por un factor de 5 y admite diversas operaciones de edición de video que LNA no puede. Demostramos la superioridad de INVE sobre LNA en la edición interactiva de video a través de un análisis cuantitativo y cualitativo exhaustivo, destacando sus numerosas ventajas y su rendimiento mejorado. Para ver los resultados en video, visite https://gabriel-huang.github.io/inve/.
Nuestro objetivo es investigar si el aprendizaje de extremo a extremo del razonamiento visual puede lograrse con redes neuronales de propósito general, con la ayuda de un preentrenamiento visual. Un resultado positivo refutaría la creencia común de que la abstracción visual explícita (por ejemplo, la detección de objetos) es esencial para la generalización composicional en el razonamiento visual, y confirmaría la viabilidad de una red neuronal "generalista" para resolver tareas de reconocimiento y razonamiento visual. Proponemos un marco simple y general de auto-supervisión que "comprime" cada fotograma de video en un pequeño conjunto de tokens mediante una red transformadora, y reconstruye los fotogramas restantes basándose en el contexto temporal comprimido. Para minimizar la pérdida de reconstrucción, la red debe aprender una representación compacta de cada imagen, así como capturar la dinámica temporal y la permanencia de los objetos a partir del contexto temporal. Realizamos evaluaciones en dos benchmarks de razonamiento visual, CATER y ACRE. Observamos que el preentrenamiento es esencial para lograr la generalización composicional en el razonamiento visual de extremo a extremo. Nuestro marco propuesto supera con amplios márgenes los enfoques tradicionales de preentrenamiento supervisado, incluyendo la clasificación de imágenes y la detección explícita de objetos.
Este artículo presenta un nuevo Transformer de visión, el Scale-Aware Modulation Transformer (SMT), que puede manejar diversas tareas posteriores de manera eficiente al combinar la red convolucional y el Transformer de visión. La propuesta de Modulación Consciente de la Escala (SAM, por sus siglas en inglés) en el SMT incluye dos diseños novedosos principales. En primer lugar, introducimos el módulo de Convolución Mixta de Múltiples Cabezas (MHMC), que puede capturar características a múltiples escalas y expandir el campo receptivo. En segundo lugar, proponemos el módulo de Agregación Consciente de la Escala (SAA), que es ligero pero efectivo, permitiendo la fusión de información entre diferentes cabezas. Al aprovechar estos dos módulos, la modulación convolucional se ve aún más potenciada. Además, en contraste con trabajos previos que utilizaron modulaciones en todas las etapas para construir una red sin atención, proponemos una Red Híbrida Evolutiva (EHN), que puede simular eficazmente la transición desde la captura de dependencias locales hacia globales a medida que la red se profundiza, lo que resulta en un rendimiento superior. Experimentos exhaustivos demuestran que el SMT supera significativamente a los modelos más avanzados existentes en una amplia gama de tareas visuales. Específicamente, el SMT con 11.5M / 2.4GFLOPs y 32M / 7.7GFLOPs puede alcanzar un 82.2% y 84.3% de precisión top-1 en ImageNet-1K, respectivamente. Después de ser preentrenado en ImageNet-22K con resolución 224^2, logra un 87.1% y 88.1% de precisión top-1 cuando se ajusta con resoluciones de 224^2 y 384^2, respectivamente. Para la detección de objetos con Mask R-CNN, la base del SMT entrenada con programaciones de 1x y 3x supera a su contraparte Swin Transformer en 4.2 y 1.3 mAP en COCO, respectivamente. Para la segmentación semántica con UPerNet, la prueba de la base del SMT a escala única y múltiple supera a Swin en 2.0 y 1.1 mIoU, respectivamente, en ADE20K.
La simulación constituye la columna vertebral del desarrollo moderno de vehículos autónomos. Los simuladores permiten desarrollar, probar y mejorar los sistemas de conducción sin poner en riesgo a las personas, los vehículos o su entorno. Sin embargo, los simuladores enfrentan un desafío importante: dependen de contenido realista, escalable y a la vez interesante. Si bien los avances recientes en renderizado y reconstrucción de escenas han logrado grandes progresos en la creación de activos de escenas estáticas, modelar su disposición, dinámicas y comportamientos sigue siendo un reto. En este trabajo, recurrimos al lenguaje como fuente de supervisión para la generación de escenas de tráfico dinámico. Nuestro modelo, LCTGen, combina un modelo de lenguaje de gran escala con una arquitectura decodificadora basada en transformadores que selecciona ubicaciones probables en mapas a partir de un conjunto de datos de mapas, y produce una distribución inicial de tráfico, así como las dinámicas de cada vehículo. LCTGen supera trabajos previos en la generación de escenas de tráfico tanto incondicional como condicional en términos de realismo y fidelidad. El código y el video estarán disponibles en https://ariostgx.github.io/lctgen.