ChatPaper.aiChatPaper

OmniBind: Rappresentazione Omni Multimodale su Larga Scala tramite Vincolo di Spazi

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

July 16, 2024
Autori: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI

Abstract

Recentemente, l'interazione uomo-computer con varie modalità ha mostrato applicazioni promettenti, come GPT-4o e Gemini. Considerando il ruolo fondamentale della rappresentazione congiunta multimodale nelle pipeline di comprensione e generazione, rappresentazioni congiunte omni di alta qualità rappresenterebbero un passo avanti verso l'elaborazione congiunta di informazioni multimodali più diversificate. In questo lavoro, presentiamo OmniBind, modelli di rappresentazione congiunta multimodale su larga scala che vanno da 7 a 30 miliardi di parametri, i quali supportano input 3D, audio, immagini e linguaggio. A causa della scarsità di coppie di dati tra tutte le modalità, invece di addestrare grandi modelli da zero, proponiamo di rimappare e legare insieme gli spazi di vari modelli specializzati pre-addestrati. Questo approccio consente di "scalare" aumentando indirettamente i parametri del modello e la quantità di dati visti. Per integrare efficacemente vari spazi, assegniamo dinamicamente pesi a diversi spazi apprendendo router con due obiettivi: allineamento complessivo cross-modale e disaccoppiamento della rappresentazione linguistica. È importante notare che, poiché il legame e il routing degli spazi richiedono solo reti leggere, OmniBind è estremamente efficiente nell'addestramento. L'apprendimento del modello più grande da 30B richiede solo dati unimodali non accoppiati e circa 3 giorni su un singolo nodo con 8 GPU 4090. Esperimenti estensivi dimostrano la versatilità e la superiorità di OmniBind come modello di rappresentazione omni, evidenziandone il grande potenziale per applicazioni diversificate, come la comprensione multimodale any-query e componibile.
English
Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.
PDF73November 28, 2024