ChatPaper.aiChatPaper

Ist die Erweiterung der Modalität der richtige Weg zur Omni-Modalität?

Is Extending Modality The Right Path Towards Omni-Modality?

June 2, 2025
Autoren: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI

Zusammenfassung

Omni-modale Sprachmodelle (OLMs) zielen darauf ab, verschiedene Eingabemodalitäten – wie Text, Bilder, Video und Audio – zu integrieren und darüber zu schlussfolgern, während gleichzeitig starke Sprachfähigkeiten erhalten bleiben. Trotz jüngster Fortschritte bleiben bestehende Modelle, insbesondere Open-Source-Modelle, weit von echter Omni-Modalität entfernt und haben Schwierigkeiten, über die spezifischen Modalitätspaare, auf die sie trainiert wurden, hinaus zu generalisieren oder bei der Verarbeitung multimodaler Eingaben eine starke Leistung zu erzielen. Wir untersuchen die Auswirkungen der Modalitätserweiterung, der dominierenden Technik für das Training multimodaler Modelle, bei der ein Standard-Sprachmodell auf Zielbereichs- und Sprachdaten feinabgestimmt wird. Konkret gehen wir drei zentralen Fragen nach: (1) Beeinträchtigt die Modalitätserweiterung die Kernsprachfähigkeiten? (2) Kann das Zusammenführen von Modellen unabhängig feinabgestimmte, modalitätsspezifische Modelle effektiv integrieren, um Omni-Modalität zu erreichen? (3) Führt die Omni-Modalitätserweiterung im Vergleich zur sequenziellen Erweiterung zu besserer Wissensweitergabe und Generalisierung? Durch umfangreiche Experimente analysieren wir diese Kompromisse und liefern Einblicke in die Machbarkeit, echte Omni-Modalität mit aktuellen Ansätzen zu erreichen.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse input modalities--such as text, images, video, and audio--while maintaining strong language capabilities. Despite recent advancements, existing models, especially open-source ones, remain far from true omni-modality, struggling to generalize beyond the specific modality pairs they are trained on or to achieve strong performance when processing multi-modal inputs. We study the effect of extending modality, the dominant technique for training multimodal models, where an off-the-shelf language model is fine-tuned on target-domain and language data. Specifically, we investigate three key questions: (1) Does modality extension compromise core language abilities? (2) Can model merging effectively integrate independently fine-tuned modality-specific models to achieve omni-modality? (3) Does omni-modality extension lead to better knowledge sharing and generalization compared to sequential extension? Through extensive experiments, we analyze these trade-offs and provide insights into the feasibility of achieving true omni-modality using current approaches.
PDF202June 9, 2025