L'extension de la modalité est-elle la voie appropriée vers l'omni-modalité ?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Auteurs: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Résumé
Les modèles de langage omni-modaux (OLMs) visent à intégrer et à raisonner sur des modalités d'entrée diverses—telles que le texte, les images, la vidéo et l'audio—tout en conservant de solides capacités linguistiques. Malgré les avancées récentes, les modèles existants, en particulier ceux open-source, restent loin d'une véritable omni-modalité, peinant à généraliser au-delà des paires de modalités spécifiques sur lesquelles ils sont entraînés ou à obtenir de bonnes performances lors du traitement d'entrées multi-modales. Nous étudions l'effet de l'extension de modalité, la technique dominante pour l'entraînement des modèles multimodaux, où un modèle de langage prêt à l'emploi est affiné sur des données du domaine cible et linguistiques. Plus précisément, nous examinons trois questions clés : (1) L'extension de modalité compromet-elle les capacités linguistiques fondamentales ? (2) La fusion de modèles peut-elle intégrer efficacement des modèles spécifiques à une modalité affinés indépendamment pour atteindre l'omni-modalité ? (3) L'extension omni-modale conduit-elle à un meilleur partage des connaissances et à une meilleure généralisation par rapport à l'extension séquentielle ? À travers des expériences approfondies, nous analysons ces compromis et fournissons des insights sur la faisabilité d'atteindre une véritable omni-modalité en utilisant les approches actuelles.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.