ChatPaper.aiChatPaper

X-Fusion: Einführung einer neuen Modalität in eingefrorene große Sprachmodelle

X-Fusion: Introducing New Modality to Frozen Large Language Models

April 29, 2025
Autoren: Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li
cs.AI

Zusammenfassung

Wir präsentieren X-Fusion, ein Framework, das vortrainierte Large Language Models (LLMs) für multimodale Aufgaben erweitert, während deren Sprachfähigkeiten erhalten bleiben. X-Fusion verwendet ein Dual-Tower-Design mit modalitätsspezifischen Gewichten, wobei die Parameter des LLMs eingefroren bleiben, während visuell-spezifische Informationen sowohl für das Verständnis als auch für die Generierung integriert werden. Unsere Experimente zeigen, dass X-Fusion alternative Architekturen sowohl bei Bild-zu-Text- als auch bei Text-zu-Bild-Aufgaben durchgehend übertrifft. Wir stellen fest, dass die Einbindung von verständnisorientierten Daten die Generierungsqualität verbessert, die Reduzierung von Bilddatenrauschen die Gesamtleistung steigert und die Feature-Ausrichtung die Konvergenz bei kleineren Modellen beschleunigt, jedoch nur minimalen Einfluss auf größere Modelle hat. Unsere Erkenntnisse bieten wertvolle Einblicke in den Aufbau effizienter, einheitlicher multimodaler Modelle.
English
We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM's parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

Summary

AI-Generated Summary

PDF41April 30, 2025