OmniBind: Representação Multimodal Omni em Grande Escala por Meio de Espaços de Ligação

Resumo

Recentemente, a interação humano-computador com várias modalidades tem mostrado aplicações promissoras, como o GPT-4o e o Gemini. Dado o papel fundamental da representação conjunta multimodal em pipelines de compreensão e geração, representações conjuntas omni de alta qualidade seriam um passo em direção ao processamento conjunto de informações multimodais mais diversas. Neste trabalho, apresentamos o OmniBind, modelos de representação conjunta multimodal em larga escala variando de 7 bilhões a 30 bilhões de parâmetros, que suportam entradas 3D, áudio, imagem e linguagem. Devido à escassez de pares de dados em todas as modalidades, em vez de treinar grandes modelos do zero, propomos remapear e unir os espaços de vários modelos especialistas pré-treinados juntos. Esta abordagem permite "escalar" aumentando indiretamente os parâmetros do modelo e a quantidade de dados vistos. Para integrar efetivamente vários espaços, atribuímos dinamicamente pesos a diferentes espaços aprendendo roteadores com dois objetivos: alinhamento geral entre modalidades e desacoplamento da representação de linguagem. Notavelmente, uma vez que unir e rotear espaços requerem apenas redes leves, o OmniBind é extremamente eficiente em treinamento. Aprender o maior modelo de 30B requer apenas dados unimodais não pareados e aproximadamente 3 dias em um único nó 8-4090. Experimentos extensivos demonstram a versatilidade e superioridade do OmniBind como um modelo de representação omni, destacando seu grande potencial para diversas aplicações, como qualquer consulta e compreensão multimodal componível.

English

Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.

OmniBind: Representação Multimodal Omni em Grande Escala por Meio de Espaços de Ligação

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Resumo

Support