4M-21: 수십 가지 작업과 모달리티를 위한 범용 비전 모델
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
저자: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
초록
현재 4M이나 UnifiedIO와 같은 다중 모달 및 다중 작업 기반 모델은 유망한 결과를 보여주고 있지만, 실제로 다양한 입력을 수용하고 다양한 작업을 수행하는 즉시 사용 가능한 능력은 (보통 상당히 적은 수의) 훈련된 모달리티와 작업에 의해 제한됩니다. 본 논문에서는 단일 모델을 수십 가지의 매우 다양한 모달리티에 대해 훈련시키고, 대규모 다중 모달 데이터셋과 텍스트 코퍼스에 대한 공동 훈련을 수행함으로써 이러한 능력을 확장합니다. 여기에는 여러 의미론적 및 기하학적 모달리티, DINOv2 및 ImageBind와 같은 최신 최첨단 모델의 특징 맵, SAM 및 4DHumans와 같은 전문 모델의 의사 레이블, 그리고 이미지 메타데이터나 색상 팔레트와 같은 새로운 방식으로 모델과 상호작용하고 생성을 조종할 수 있는 다양한 새로운 모달리티가 포함됩니다. 이 과정에서 중요한 단계는 이미지와 유사한 모달리티, 신경망 특징 맵, 벡터, 인스턴스 세그멘테이션이나 인간 포즈와 같은 구조화된 데이터, 또는 텍스트로 표현될 수 있는 데이터 등 다양한 모달리티에 대해 이산 토큰화를 수행하는 것입니다. 이를 통해 다중 모달 모델의 즉시 사용 가능한 능력을 확장하고, 특히 기존 모델보다 최소 3배 이상의 작업/모달리티를 해결할 수 있는 하나의 모델을 훈련시키는 가능성을 성능 저하 없이 보여줍니다. 이는 더 세밀하고 제어 가능한 다중 모달 생성 능력을 가능하게 하며, 다양한 데이터와 목표에 대해 훈련된 모델을 통합 모델로 증류하는 연구를 가능하게 합니다. 우리는 수십 가지 모달리티와 다양한 데이터셋을 사용하여 30억 개의 파라미터를 가진 모델의 훈련을 성공적으로 확장했습니다. 결과 모델과 훈련 코드는 4m.epfl.ch에서 오픈소스로 공개되었습니다.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.Summary
AI-Generated Summary