Is het uitbreiden van modaliteit de juiste weg naar omni-modaliteit?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Auteurs: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Samenvatting
Omni-modale taalmodellen (OLMs) streven ernaar om diverse invoermodaliteiten—zoals tekst, afbeeldingen, video en audio—te integreren en te redeneren, terwijl ze sterke taalvaardigheden behouden. Ondanks recente vooruitgang blijven bestaande modellen, met name open-source modellen, ver verwijderd van echte omni-modaliteit. Ze hebben moeite om verder te generaliseren dan de specifieke modaliteitsparen waarop ze zijn getraind of om sterke prestaties te behalen bij het verwerken van multimodale invoer. We bestuderen het effect van modaliteitsuitbreiding, de dominante techniek voor het trainen van multimodale modellen, waarbij een standaard taalmodel wordt verfijnd op doelgebied- en taalgegevens. Specifiek onderzoeken we drie belangrijke vragen: (1) Compromitteert modaliteitsuitbreiding de kern taalvaardigheden? (2) Kan modelmerging onafhankelijk verfijnde modaliteitsspecifieke modellen effectief integreren om omni-modaliteit te bereiken? (3) Leidt omni-modaliteitsuitbreiding tot betere kennisuitwisseling en generalisatie vergeleken met sequentiële uitbreiding? Door middel van uitgebreide experimenten analyseren we deze afwegingen en bieden we inzichten in de haalbaarheid van het bereiken van echte omni-modaliteit met behulp van huidige benaderingen.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.