4M-21: Un modelo de visión de cualquier-a-cualquier para decenas de tareas y modalidades
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
Autores: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
Resumen
Los modelos de base multimodal y multitarea actuales, como 4M o UnifiedIO, muestran resultados prometedores, pero en la práctica sus capacidades inmediatas para aceptar entradas diversas y realizar tareas variadas están limitadas por el (generalmente bastante reducido) número de modalidades y tareas en las que se entrenan. En este artículo, ampliamos las capacidades de estos modelos entrenando un único modelo en decenas de modalidades altamente diversas y realizando co-entrenamiento en conjuntos de datos multimodales a gran escala y corpus de texto. Esto incluye entrenamiento en varias modalidades semánticas y geométricas, mapas de características de modelos recientes de última generación como DINOv2 e ImageBind, etiquetas pseudo de modelos especializados como SAM y 4DHumans, y una gama de nuevas modalidades que permiten formas novedosas de interactuar con el modelo y guiar la generación, como metadatos de imágenes o paletas de colores. Un paso crucial en este proceso es realizar tokenización discreta en diversas modalidades, ya sean similares a imágenes, mapas de características de redes neuronales, vectores, datos estructurados como segmentación de instancias o poses humanas, o datos que pueden representarse como texto. A través de esto, ampliamos las capacidades inmediatas de los modelos multimodales y mostramos específicamente la posibilidad de entrenar un modelo para resolver al menos 3 veces más tareas/modalidades que los existentes, y hacerlo sin pérdida de rendimiento. Esto permite capacidades de generación multimodal más detalladas y controlables, y nos permite estudiar la destilación de modelos entrenados en datos y objetivos diversos en un modelo unificado. Escalamos con éxito el entrenamiento a un modelo de tres mil millones de parámetros utilizando decenas de modalidades y diferentes conjuntos de datos. Los modelos resultantes y el código de entrenamiento se han publicado como código abierto en 4m.epfl.ch.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.Summary
AI-Generated Summary