OmniBind: Representação Multimodal Omni em Grande Escala por Meio de Espaços de Ligação
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
Autores: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
Resumo
Recentemente, a interação humano-computador com várias modalidades tem mostrado aplicações promissoras, como o GPT-4o e o Gemini. Dado o papel fundamental da representação conjunta multimodal em pipelines de compreensão e geração, representações conjuntas omni de alta qualidade seriam um passo em direção ao processamento conjunto de informações multimodais mais diversas. Neste trabalho, apresentamos o OmniBind, modelos de representação conjunta multimodal em larga escala variando de 7 bilhões a 30 bilhões de parâmetros, que suportam entradas 3D, áudio, imagem e linguagem. Devido à escassez de pares de dados em todas as modalidades, em vez de treinar grandes modelos do zero, propomos remapear e unir os espaços de vários modelos especialistas pré-treinados juntos. Esta abordagem permite "escalar" aumentando indiretamente os parâmetros do modelo e a quantidade de dados vistos. Para integrar efetivamente vários espaços, atribuímos dinamicamente pesos a diferentes espaços aprendendo roteadores com dois objetivos: alinhamento geral entre modalidades e desacoplamento da representação de linguagem. Notavelmente, uma vez que unir e rotear espaços requerem apenas redes leves, o OmniBind é extremamente eficiente em treinamento. Aprender o maior modelo de 30B requer apenas dados unimodais não pareados e aproximadamente 3 dias em um único nó 8-4090. Experimentos extensivos demonstram a versatilidade e superioridade do OmniBind como um modelo de representação omni, destacando seu grande potencial para diversas aplicações, como qualquer consulta e compreensão multimodal componível.
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.