ChatPaper.aiChatPaper

OmniBind: Grootschalige Omni Multimodale Representatie via Bindingsruimten

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

July 16, 2024
Auteurs: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI

Samenvatting

Onlangs heeft mens-computerinteractie met verschillende modaliteiten veelbelovende toepassingen laten zien, zoals GPT-4o en Gemini. Gezien de fundamentele rol van multimodale gezamenlijke representatie in begrips- en generatiepijplijnen, zouden hoogwaardige omni-gezamenlijke representaties een stap zijn naar het gezamenlijk verwerken van meer diverse multimodale informatie. In dit werk presenteren we OmniBind, grootschalige multimodale gezamenlijke representatiemodellen variërend in schaal van 7 miljard tot 30 miljard parameters, die 3D, audio, beeld en taal als invoer ondersteunen. Vanwege de schaarste aan gegevensparen over alle modaliteiten, stellen we voor om in plaats van grote modellen vanaf nul te trainen, de ruimtes van verschillende vooraf getrainde specialistische modellen opnieuw toe te wijzen en aan elkaar te binden. Deze aanpak maakt "opschalen" mogelijk door indirect het aantal modelparameters en de hoeveelheid geziene gegevens te vergroten. Om verschillende ruimtes effectief te integreren, wijzen we dynamisch gewichten toe aan verschillende ruimtes door routers te leren met twee doelstellingen: cross-modale algehele uitlijning en ontkoppeling van taalrepresentatie. Opmerkelijk is dat, aangezien het binden en routeren van ruimtes beide slechts lichtgewicht netwerken vereisen, OmniBind extreem trainings efficiënt is. Het leren van het grootste 30B-model vereist slechts ongepaarde unimodale gegevens en ongeveer 3 dagen op een enkele 8-4090-node. Uitgebreide experimenten demonstreren de veelzijdigheid en superioriteit van OmniBind als een omni-representatiemodel, en benadrukken het grote potentieel voor diverse toepassingen, zoals elke-query en samenstelbare multimodale begripsvorming.
English
Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.
PDF73February 7, 2026