ChatPaper.aiChatPaper

X-Fusion: Введение новой модальности в замороженные большие языковые модели

X-Fusion: Introducing New Modality to Frozen Large Language Models

April 29, 2025
Авторы: Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li
cs.AI

Аннотация

Мы представляем X-Fusion — фреймворк, который расширяет возможности предобученных больших языковых моделей (LLM) для мультимодальных задач, сохраняя при этом их языковые способности. X-Fusion использует архитектуру с двумя башнями и модально-специфичными весами, оставляя параметры LLM замороженными, но интегрируя информацию, специфичную для визуальной модальности, как для понимания, так и для генерации. Наши эксперименты показывают, что X-Fusion стабильно превосходит альтернативные архитектуры как в задачах "изображение-в-текст", так и "текст-в-изображение". Мы обнаружили, что включение данных, ориентированных на понимание, улучшает качество генерации, снижение шума в изображениях повышает общую производительность, а выравнивание признаков ускоряет сходимость для меньших моделей, но оказывает минимальное влияние на более крупные. Наши результаты предоставляют ценные инсайты для создания эффективных унифицированных мультимодальных моделей.
English
We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM's parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

Summary

AI-Generated Summary

PDF41April 30, 2025