4M-21: Um Modelo de Visão Any-to-Any para Dezenas de Tarefas e Modalidades
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
Autores: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
Resumo
Modelos de fundação multimodais e multitarefa atuais, como o 4M ou o UnifiedIO, mostram resultados promissores, mas, na prática, suas capacidades prontas para uso de aceitar entradas diversas e realizar tarefas variadas são limitadas pelo número (geralmente bastante reduzido) de modalidades e tarefas em que são treinados. Neste artigo, expandimos as capacidades desses modelos ao treinar um único modelo em dezenas de modalidades altamente diversificadas e ao realizar co-treinamento em grandes conjuntos de dados multimodais e corpora de texto. Isso inclui o treinamento em várias modalidades semânticas e geométricas, mapas de características de modelos state-of-the-art recentes, como DINOv2 e ImageBind, rótulos pseudo de modelos especializados, como SAM e 4DHumans, e uma variedade de novas modalidades que permitem novas formas de interagir com o modelo e direcionar a geração, como metadados de imagem ou paletas de cores. Um passo crucial nesse processo é realizar a tokenização discreta em várias modalidades, sejam elas semelhantes a imagens, mapas de características de redes neurais, vetores, dados estruturados como segmentação de instâncias ou poses humanas, ou dados que podem ser representados como texto. Com isso, expandimos as capacidades prontas para uso de modelos multimodais e mostramos especificamente a possibilidade de treinar um modelo para resolver pelo menos 3x mais tarefas/modalidades do que os existentes, sem perda de desempenho. Isso permite capacidades de geração multimodal mais refinadas e controláveis e nos permite estudar a destilação de modelos treinados em dados e objetivos diversos em um modelo unificado. Escalamos com sucesso o treinamento para um modelo de três bilhões de parâmetros usando dezenas de modalidades e diferentes conjuntos de dados. Os modelos resultantes e o código de treinamento são disponibilizados como open source em 4m.epfl.ch.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.