ChatPaper.aiChatPaper

X-Fusion: Introducción de una Nueva Modalidad a Modelos de Lenguaje Grande Congelados

X-Fusion: Introducing New Modality to Frozen Large Language Models

April 29, 2025
Autores: Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li
cs.AI

Resumen

Proponemos X-Fusion, un marco que extiende los modelos de lenguaje grande (LLMs) preentrenados para tareas multimodales mientras preserva sus capacidades lingüísticas. X-Fusion emplea un diseño de doble torre con pesos específicos para cada modalidad, manteniendo congelados los parámetros del LLM mientras integra información específica de visión tanto para comprensión como para generación. Nuestros experimentos demuestran que X-Fusion supera consistentemente a arquitecturas alternativas en tareas de imagen a texto y de texto a imagen. Encontramos que incorporar datos enfocados en la comprensión mejora la calidad de la generación, que reducir el ruido en los datos de imagen mejora el rendimiento general, y que la alineación de características acelera la convergencia para modelos más pequeños pero tiene un impacto mínimo en los más grandes. Nuestros hallazgos proporcionan insights valiosos para construir modelos multimodales unificados y eficientes.
English
We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM's parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

Summary

AI-Generated Summary

PDF41April 30, 2025