Bifrost-1: Collega i Modelli Linguistici Multimodali e i Modelli di Diffusione attraverso Latenti CLIP a Livello di Patch
Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
August 8, 2025
Autori: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI
Abstract
C'è un crescente interesse nell'integrare capacità di sintesi visiva ad alta fedeltà nei grandi modelli linguistici (LLM) senza compromettere le loro forti capacità di ragionamento. I metodi esistenti che addestrano direttamente gli LLM o collegano gli LLM ai modelli di diffusione solitamente soffrono di costi di addestramento elevati, poiché i modelli LLM di base non hanno visto rappresentazioni di immagini durante il pre-addestramento. Presentiamo Bifrost-1, un framework unificato che collega i modelli linguistici multimodali pre-addestrati (MLLM) e i modelli di diffusione utilizzando embedding di immagini CLIP a livello di patch come variabili latenti, che sono naturalmente allineati con l'encoder visivo CLIP dell'MLLM. Questi embedding di immagini a livello di patch sono integrati nel modello di diffusione con un adattamento leggero del suo ControlNet. Per mantenere le capacità originali di ragionamento multimodale degli MLLM, dotiamo l'MLLM di un ramo di generazione visiva inizializzato dai parametri originali dell'MLLM quando si prevedono gli embedding di immagini a livello di patch. Integrando in modo fluido gli MLLM pre-addestrati e i modelli di diffusione con latenti CLIP a livello di patch, il nostro framework consente la generazione di immagini controllabili ad alta fedeltà con una significativa efficienza di addestramento. I nostri esperimenti dimostrano che Bifrost-1 raggiunge prestazioni comparabili o migliori rispetto ai metodi precedenti in termini di fedeltà visiva e comprensione multimodale, con un utilizzo di risorse computazionali notevolmente inferiore durante l'addestramento. Forniamo anche studi di ablazione completi che mostrano l'efficacia delle nostre scelte progettuali.
English
There is growing interest in integrating high-fidelity visual synthesis
capabilities into large language models (LLMs) without compromising their
strong reasoning capabilities. Existing methods that directly train LLMs or
bridge LLMs and diffusion models usually suffer from costly training since the
backbone LLMs have not seen image representations during pretraining. We
present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs
(MLLMs) and diffusion models using patch-level CLIP image embeddings as latent
variables, which are natively aligned with the MLLM's CLIP visual encoder.
These patch-level image embeddings are integrated into the diffusion model with
a lightweight adaptation of its ControlNet. To retain the original multimodal
reasoning capabilities of MLLMs, we equip the MLLM with a visual generation
branch initialized from the original MLLM parameters when predicting the
patch-level image embeddings. By seamlessly integrating pretrained MLLMs and
diffusion models with patch-level CLIP latents, our framework enables
high-fidelity controllable image generation with significant training
efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or
better performance than previous methods in terms of visual fidelity and
multimodal understanding, with substantially lower compute during training. We
also provide comprehensive ablation studies showing the effectiveness of our
design choices.