ChatPaper.aiChatPaper

Является ли расширение модальности правильным путем к омни-модальности?

Is Extending Modality The Right Path Towards Omni-Modality?

June 2, 2025
Авторы: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI

Аннотация

Омни-модальные языковые модели (OLMs) ставят своей целью интеграцию и обработку разнообразных входных модальностей, таких как текст, изображения, видео и аудио, при сохранении мощных языковых возможностей. Несмотря на недавние достижения, существующие модели, особенно модели с открытым исходным кодом, остаются далеки от истинной омни-модальности, испытывая трудности с обобщением за пределы пар модальностей, на которых они обучались, или с достижением высокой производительности при обработке мультимодальных входных данных. Мы изучаем эффект расширения модальностей — доминирующей техники обучения мультимодальных моделей, при которой готовая языковая модель дообучается на данных целевой области и языка. В частности, мы исследуем три ключевых вопроса: (1) Снижает ли расширение модальностей базовые языковые способности? (2) Может ли слияние моделей эффективно интегрировать независимо дообученные модели для конкретных модальностей, чтобы достичь омни-модальности? (3) Приводит ли расширение омни-модальности к лучшему обмену знаниями и обобщению по сравнению с последовательным расширением? В ходе обширных экспериментов мы анализируем эти компромиссы и предоставляем инсайты относительно возможности достижения истинной омни-модальности с использованием современных подходов.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse input modalities--such as text, images, video, and audio--while maintaining strong language capabilities. Despite recent advancements, existing models, especially open-source ones, remain far from true omni-modality, struggling to generalize beyond the specific modality pairs they are trained on or to achieve strong performance when processing multi-modal inputs. We study the effect of extending modality, the dominant technique for training multimodal models, where an off-the-shelf language model is fine-tuned on target-domain and language data. Specifically, we investigate three key questions: (1) Does modality extension compromise core language abilities? (2) Can model merging effectively integrate independently fine-tuned modality-specific models to achieve omni-modality? (3) Does omni-modality extension lead to better knowledge sharing and generalization compared to sequential extension? Through extensive experiments, we analyze these trade-offs and provide insights into the feasibility of achieving true omni-modality using current approaches.
PDF202June 9, 2025