A Extensão da Modalidade é o Caminho Correto para a Omni-Modalidade?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Autores: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Resumo
Modelos de linguagem omni-modais (OLMs) visam integrar e raciocinar sobre diversas modalidades de entrada—como texto, imagens, vídeo e áudio—mantendo capacidades linguísticas robustas. Apesar dos avanços recentes, os modelos existentes, especialmente os de código aberto, ainda estão longe de uma verdadeira omni-modalidade, lutando para generalizar além dos pares de modalidades específicas em que são treinados ou para alcançar um desempenho forte ao processar entradas multimodais. Estudamos o efeito da extensão de modalidade, a técnica dominante para treinar modelos multimodais, na qual um modelo de linguagem pré-treinado é ajustado para dados de domínio e idioma específicos. Especificamente, investigamos três questões-chave: (1) A extensão de modalidade compromete as habilidades linguísticas centrais? (2) A fusão de modelos pode integrar efetivamente modelos específicos de modalidade ajustados independentemente para alcançar a omni-modalidade? (3) A extensão omni-modal leva a um melhor compartilhamento de conhecimento e generalização em comparação com a extensão sequencial? Por meio de experimentos extensivos, analisamos essas compensações e fornecemos insights sobre a viabilidade de alcançar a verdadeira omni-modalidade usando as abordagens atuais.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.