4M-21: Um Modelo de Visão Any-to-Any para Dezenas de Tarefas e Modalidades

Resumo

Modelos de fundação multimodais e multitarefa atuais, como o 4M ou o UnifiedIO, mostram resultados promissores, mas, na prática, suas capacidades prontas para uso de aceitar entradas diversas e realizar tarefas variadas são limitadas pelo número (geralmente bastante reduzido) de modalidades e tarefas em que são treinados. Neste artigo, expandimos as capacidades desses modelos ao treinar um único modelo em dezenas de modalidades altamente diversificadas e ao realizar co-treinamento em grandes conjuntos de dados multimodais e corpora de texto. Isso inclui o treinamento em várias modalidades semânticas e geométricas, mapas de características de modelos state-of-the-art recentes, como DINOv2 e ImageBind, rótulos pseudo de modelos especializados, como SAM e 4DHumans, e uma variedade de novas modalidades que permitem novas formas de interagir com o modelo e direcionar a geração, como metadados de imagem ou paletas de cores. Um passo crucial nesse processo é realizar a tokenização discreta em várias modalidades, sejam elas semelhantes a imagens, mapas de características de redes neurais, vetores, dados estruturados como segmentação de instâncias ou poses humanas, ou dados que podem ser representados como texto. Com isso, expandimos as capacidades prontas para uso de modelos multimodais e mostramos especificamente a possibilidade de treinar um modelo para resolver pelo menos 3x mais tarefas/modalidades do que os existentes, sem perda de desempenho. Isso permite capacidades de geração multimodal mais refinadas e controláveis e nos permite estudar a destilação de modelos treinados em dados e objetivos diversos em um modelo unificado. Escalamos com sucesso o treinamento para um modelo de três bilhões de parâmetros usando dezenas de modalidades e diferentes conjuntos de dados. Os modelos resultantes e o código de treinamento são disponibilizados como open source em 4m.epfl.ch.

English

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.

4M-21: Um Modelo de Visão Any-to-Any para Dezenas de Tarefas e Modalidades

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Resumo

Support