X-Fusion: Введение новой модальности в замороженные большие языковые модели
X-Fusion: Introducing New Modality to Frozen Large Language Models
April 29, 2025
Авторы: Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li
cs.AI
Аннотация
Мы представляем X-Fusion — фреймворк, который расширяет возможности предобученных больших языковых моделей (LLM) для мультимодальных задач, сохраняя при этом их языковые способности. X-Fusion использует архитектуру с двумя башнями и модально-специфичными весами, оставляя параметры LLM замороженными, но интегрируя информацию, специфичную для визуальной модальности, как для понимания, так и для генерации. Наши эксперименты показывают, что X-Fusion стабильно превосходит альтернативные архитектуры как в задачах "изображение-в-текст", так и "текст-в-изображение". Мы обнаружили, что включение данных, ориентированных на понимание, улучшает качество генерации, снижение шума в изображениях повышает общую производительность, а выравнивание признаков ускоряет сходимость для меньших моделей, но оказывает минимальное влияние на более крупные. Наши результаты предоставляют ценные инсайты для создания эффективных унифицированных мультимодальных моделей.
English
We propose X-Fusion, a framework that extends pretrained Large Language
Models (LLMs) for multimodal tasks while preserving their language
capabilities. X-Fusion employs a dual-tower design with modality-specific
weights, keeping the LLM's parameters frozen while integrating vision-specific
information for both understanding and generation. Our experiments demonstrate
that X-Fusion consistently outperforms alternative architectures on both
image-to-text and text-to-image tasks. We find that incorporating
understanding-focused data improves generation quality, reducing image data
noise enhances overall performance, and feature alignment accelerates
convergence for smaller models but has minimal impact on larger ones. Our
findings provide valuable insights into building efficient unified multimodal
models.Summary
AI-Generated Summary