ChatPaper.aiChatPaper

X-Fusion: 고정된 대규모 언어 모델에 새로운 모달리티 도입

X-Fusion: Introducing New Modality to Frozen Large Language Models

April 29, 2025
저자: Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li
cs.AI

초록

우리는 사전 학습된 대규모 언어 모델(LLMs)의 언어 능력을 유지하면서 다중 모달 작업을 위해 확장하는 프레임워크인 X-Fusion을 제안합니다. X-Fusion은 모달리티별 가중치를 갖는 듀얼-타워 설계를 채택하여 LLM의 매개변수를 고정 상태로 유지하면서 시각 정보를 이해 및 생성 작업에 통합합니다. 우리의 실험 결과, X-Fusion은 이미지-텍스트 및 텍스트-이미지 작업 모두에서 대안 아키텍처를 꾸준히 능가하는 것으로 나타났습니다. 이해 중심 데이터를 통합하면 생성 품질이 향상되고, 이미지 데이터 노이즈를 줄이면 전반적인 성능이 개선되며, 특징 정렬은 더 작은 모델의 수렴 속도를 가속화하지만 더 큰 모델에는 미미한 영향을 미치는 것을 발견했습니다. 이러한 연구 결과는 효율적인 통합 다중 모달 모델 구축에 대한 유용한 통찰을 제공합니다.
English
We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM's parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

Summary

AI-Generated Summary

PDF41April 30, 2025