4M-21: Модель видения Any-to-Any для десятков задач и модальностей
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
Авторы: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
Аннотация
Существующие мультимодальные и многозадачные базовые модели, такие как 4M или UnifiedIO, показывают многообещающие результаты, но на практике их возможности "из коробки" принимать разнообразные входные данные и выполнять разнообразные задачи ограничены (как правило, довольно небольшим) количеством модальностей и задач, на которых они обучены. В данной статье мы расширяем их возможности, обучая одну модель на десятках высоко разнообразных модальностей и выполняя совместное обучение на масштабных мультимодальных наборах данных и текстовых корпусах. Это включает обучение на нескольких семантических и геометрических модальностях, карт признаков из недавних передовых моделей, таких как DINOv2 и ImageBind, псевдо-метках специализированных моделей, таких как SAM и 4DHumans, а также ряд новых модальностей, позволяющих использовать новые способы взаимодействия с моделью и управлять генерацией, например метаданные изображения или цветовые палитры. Ключевым шагом в этом процессе является выполнение дискретной токенизации на различных модальностях, будь то похожие на изображение, карты признаков нейронных сетей, векторы, структурированные данные, такие как сегментация экземпляров или позы человека, или данные, которые могут быть представлены в виде текста. Таким образом, мы расширяем возможности мультимодальных моделей "из коробки" и конкретно демонстрируем возможность обучения одной модели для решения как минимум в 3 раза большего количества задач/модальностей, чем существующие, и делаем это без потери производительности. Это позволяет более детализированные и управляемые возможности мультимодальной генерации и позволяет нам изучать дистилляцию моделей, обученных на разнообразных данных и целях, в единую модель. Мы успешно масштабируем обучение до модели с тремя миллиардами параметров, используя десятки модальностей и различные наборы данных. Полученные модели и код обучения доступны в открытом доступе на 4m.epfl.ch.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.Summary
AI-Generated Summary