¿Es la Extensión de la Modalidad el Camino Correcto hacia la Omni-Modalidad?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
Autores: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
Resumen
Los modelos de lenguaje omni-modales (OLMs, por sus siglas en inglés) tienen como objetivo integrar y razonar sobre diversas modalidades de entrada—como texto, imágenes, video y audio—mientras mantienen capacidades lingüísticas sólidas. A pesar de los avances recientes, los modelos existentes, especialmente los de código abierto, distan mucho de alcanzar una verdadera omni-modalidad, ya que luchan por generalizar más allá de los pares de modalidades específicas en los que se entrenan o por lograr un rendimiento sólido al procesar entradas multimodales. Estudiamos el efecto de extender la modalidad, la técnica dominante para entrenar modelos multimodales, en la que un modelo de lenguaje preexistente se ajusta con datos del dominio objetivo y del lenguaje. Específicamente, investigamos tres preguntas clave: (1) ¿La extensión de modalidad compromete las habilidades lingüísticas fundamentales? (2) ¿Puede la fusión de modelos integrar eficazmente modelos específicos de modalidad ajustados de manera independiente para lograr la omni-modalidad? (3) ¿La extensión omni-modal conduce a un mejor intercambio de conocimientos y generalización en comparación con la extensión secuencial? A través de experimentos exhaustivos, analizamos estos compromisos y ofrecemos perspectivas sobre la viabilidad de alcanzar una verdadera omni-modalidad utilizando enfoques actuales.
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.