Estendere la modalità è la strada giusta verso l'omni-modalità?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Autori: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Abstract
I modelli linguistici omni-modali (OLM) mirano a integrare e ragionare su diverse modalità di input—come testo, immagini, video e audio—mantenendo al contempo solide capacità linguistiche. Nonostante i recenti progressi, i modelli esistenti, in particolare quelli open-source, rimangono lontani da una vera omni-modalità, faticando a generalizzare oltre le coppie di modalità specifiche su cui sono addestrati o a ottenere prestazioni solide quando elaborano input multi-modali. Studiamo l'effetto dell'estensione della modalità, la tecnica dominante per l'addestramento di modelli multimodali, in cui un modello linguistico preesistente viene perfezionato su dati di dominio e linguaggio target. Nello specifico, indaghiamo tre questioni chiave: (1) L'estensione della modalità compromette le capacità linguistiche di base? (2) La fusione di modelli può integrare efficacemente modelli specifici per modalità addestrati in modo indipendente per raggiungere l'omni-modalità? (3) L'estensione omni-modale porta a una migliore condivisione e generalizzazione della conoscenza rispetto all'estensione sequenziale? Attraverso esperimenti estesi, analizziamo questi compromessi e forniamo approfondimenti sulla fattibilità di raggiungere una vera omni-modalità utilizzando approcci attuali.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.