X-Fusion: Введение новой модальности в замороженные большие языковые модели

Аннотация

Мы представляем X-Fusion — фреймворк, который расширяет возможности предобученных больших языковых моделей (LLM) для мультимодальных задач, сохраняя при этом их языковые способности. X-Fusion использует архитектуру с двумя башнями и модально-специфичными весами, оставляя параметры LLM замороженными, но интегрируя информацию, специфичную для визуальной модальности, как для понимания, так и для генерации. Наши эксперименты показывают, что X-Fusion стабильно превосходит альтернативные архитектуры как в задачах "изображение-в-текст", так и "текст-в-изображение". Мы обнаружили, что включение данных, ориентированных на понимание, улучшает качество генерации, снижение шума в изображениях повышает общую производительность, а выравнивание признаков ускоряет сходимость для меньших моделей, но оказывает минимальное влияние на более крупные. Наши результаты предоставляют ценные инсайты для создания эффективных унифицированных мультимодальных моделей.

English

We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM's parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

X-Fusion: Введение новой модальности в замороженные большие языковые модели

X-Fusion: Introducing New Modality to Frozen Large Language Models

Аннотация

Support