ChatPaper.aiChatPaper

Bifrost-1: Collega i Modelli Linguistici Multimodali e i Modelli di Diffusione attraverso Latenti CLIP a Livello di Patch

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

August 8, 2025
Autori: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI

Abstract

C'è un crescente interesse nell'integrare capacità di sintesi visiva ad alta fedeltà nei grandi modelli linguistici (LLM) senza compromettere le loro forti capacità di ragionamento. I metodi esistenti che addestrano direttamente gli LLM o collegano gli LLM ai modelli di diffusione solitamente soffrono di costi di addestramento elevati, poiché i modelli LLM di base non hanno visto rappresentazioni di immagini durante il pre-addestramento. Presentiamo Bifrost-1, un framework unificato che collega i modelli linguistici multimodali pre-addestrati (MLLM) e i modelli di diffusione utilizzando embedding di immagini CLIP a livello di patch come variabili latenti, che sono naturalmente allineati con l'encoder visivo CLIP dell'MLLM. Questi embedding di immagini a livello di patch sono integrati nel modello di diffusione con un adattamento leggero del suo ControlNet. Per mantenere le capacità originali di ragionamento multimodale degli MLLM, dotiamo l'MLLM di un ramo di generazione visiva inizializzato dai parametri originali dell'MLLM quando si prevedono gli embedding di immagini a livello di patch. Integrando in modo fluido gli MLLM pre-addestrati e i modelli di diffusione con latenti CLIP a livello di patch, il nostro framework consente la generazione di immagini controllabili ad alta fedeltà con una significativa efficienza di addestramento. I nostri esperimenti dimostrano che Bifrost-1 raggiunge prestazioni comparabili o migliori rispetto ai metodi precedenti in termini di fedeltà visiva e comprensione multimodale, con un utilizzo di risorse computazionali notevolmente inferiore durante l'addestramento. Forniamo anche studi di ablazione completi che mostrano l'efficacia delle nostre scelte progettuali.
English
There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
PDF62August 12, 2025