ChatPaper.aiChatPaper

OmniBind: 바인딩 공간을 통한 대규범용 다중모달 표현

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

July 16, 2024
저자: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI

초록

최근 다양한 모달리티를 활용한 인간-컴퓨터 상호작용은 GPT-4o와 Gemini와 같은 유망한 애플리케이션을 보여주고 있습니다. 이해 및 생성 파이프라인에서 다중모달 결합 표현의 기초적인 역할을 고려할 때, 고품질의 오믹니(omni) 결합 표현은 더 다양한 다중모달 정보를 동시에 처리하는 데 한 걸음 더 나아가는 것이 될 것입니다. 본 연구에서는 3D, 오디오, 이미지, 언어 입력을 지원하며 70억에서 300억 개의 파라미터 규모를 가진 대규모 다중모달 결합 표현 모델인 OmniBind를 제시합니다. 모든 모달리티 간의 데이터 쌍이 부족한 상황을 고려하여, 대규모 모델을 처음부터 학습시키는 대신, 사전 학습된 전문가 모델들의 공간을 재매핑하고 결합하는 방식을 제안합니다. 이 접근 방식은 모델 파라미터와 관측된 데이터 양을 간접적으로 증가시켜 "스케일 업"을 가능하게 합니다. 다양한 공간을 효과적으로 통합하기 위해, 우리는 두 가지 목표를 가진 라우터를 학습하여 다른 공간에 동적으로 가중치를 할당합니다: 크로스모달 전반적 정렬과 언어 표현 분리. 특히, 결합과 라우팅 공간 모두 경량 네트워크만 필요하기 때문에 OmniBind는 매우 학습 효율적입니다. 가장 큰 300억 파라미터 모델을 학습하는 데는 단일 8-4090 노드에서 약 3일과 짝을 이루지 않은 단일모달 데이터만 필요합니다. 광범위한 실험은 OmniBind가 오믹니 표현 모델로서의 다재다능함과 우수성을 입증하며, any-query 및 조합 가능한 다중모달 이해와 같은 다양한 애플리케이션에 대한 큰 잠재력을 강조합니다.
English
Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.

Summary

AI-Generated Summary

PDF73November 28, 2024