ChatPaper.aiChatPaper

Bifrost-1: Conectando modelos de lenguaje multimodal (LLM) y modelos de difusión mediante latentes CLIP a nivel de parches

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

August 8, 2025
Autores: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI

Resumen

Existe un creciente interés en integrar capacidades de síntesis visual de alta fidelidad en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) sin comprometer sus fuertes habilidades de razonamiento. Los métodos existentes que entrenan directamente LLMs o conectan LLMs con modelos de difusión suelen enfrentar costos elevados de entrenamiento, ya que los LLMs base no han visto representaciones de imágenes durante su preentrenamiento. Presentamos Bifrost-1, un marco unificado que conecta modelos de lenguaje multimodal preentrenados (MLLMs) con modelos de difusión utilizando embeddings de imágenes a nivel de parches basados en CLIP como variables latentes, las cuales están alineadas de forma nativa con el codificador visual CLIP del MLLM. Estos embeddings de imágenes a nivel de parche se integran en el modelo de difusión mediante una adaptación ligera de su ControlNet. Para preservar las capacidades originales de razonamiento multimodal de los MLLMs, equipamos al MLLM con una rama de generación visual inicializada a partir de los parámetros originales del MLLM al predecir los embeddings de imágenes a nivel de parche. Al integrar de manera fluida MLLMs preentrenados y modelos de difusión con latentes CLIP a nivel de parche, nuestro marco permite la generación de imágenes controlables de alta fidelidad con una eficiencia significativa en el entrenamiento. Nuestros experimentos demuestran que Bifrost-1 logra un rendimiento comparable o superior a métodos anteriores en términos de fidelidad visual y comprensión multimodal, con un costo computacional sustancialmente menor durante el entrenamiento. También proporcionamos estudios de ablación exhaustivos que muestran la efectividad de nuestras decisiones de diseño.
English
There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
PDF62August 12, 2025