Ist die Erweiterung der Modalität der richtige Weg zur Omni-Modalität?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Autoren: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Zusammenfassung
Omni-modale Sprachmodelle (OLMs) zielen darauf ab, verschiedene Eingabemodalitäten – wie Text, Bilder, Video und Audio – zu integrieren und darüber zu schlussfolgern, während gleichzeitig starke Sprachfähigkeiten erhalten bleiben. Trotz jüngster Fortschritte bleiben bestehende Modelle, insbesondere Open-Source-Modelle, weit von echter Omni-Modalität entfernt und haben Schwierigkeiten, über die spezifischen Modalitätspaare, auf die sie trainiert wurden, hinaus zu generalisieren oder bei der Verarbeitung multimodaler Eingaben eine starke Leistung zu erzielen. Wir untersuchen die Auswirkungen der Modalitätserweiterung, der dominierenden Technik für das Training multimodaler Modelle, bei der ein Standard-Sprachmodell auf Zielbereichs- und Sprachdaten feinabgestimmt wird. Konkret gehen wir drei zentralen Fragen nach: (1) Beeinträchtigt die Modalitätserweiterung die Kernsprachfähigkeiten? (2) Kann das Zusammenführen von Modellen unabhängig feinabgestimmte, modalitätsspezifische Modelle effektiv integrieren, um Omni-Modalität zu erreichen? (3) Führt die Omni-Modalitätserweiterung im Vergleich zur sequenziellen Erweiterung zu besserer Wissensweitergabe und Generalisierung? Durch umfangreiche Experimente analysieren wir diese Kompromisse und liefern Einblicke in die Machbarkeit, echte Omni-Modalität mit aktuellen Ansätzen zu erreichen.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.