ChatPaper.aiChatPaper

Bifrost-1 : Relier les modèles de langage multimodaux et les modèles de diffusion grâce aux latents CLIP au niveau des patchs

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

August 8, 2025
papers.authors: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI

papers.abstract

L'intérêt croissant pour l'intégration de capacités de synthèse visuelle haute fidélité dans les grands modèles de langage (LLMs) sans compromettre leurs solides capacités de raisonnement est notable. Les méthodes existantes qui entraînent directement les LLMs ou relient les LLMs aux modèles de diffusion souffrent généralement d'un entraînement coûteux, car les LLMs de base n'ont pas été exposés à des représentations d'images lors du pré-entraînement. Nous présentons Bifrost-1, un cadre unifié qui relie les LLMs multimodaux (MLLMs) pré-entraînés et les modèles de diffusion en utilisant des embeddings d'images CLIP au niveau des patches comme variables latentes, qui sont naturellement alignées avec l'encodeur visuel CLIP du MLLM. Ces embeddings d'images au niveau des patches sont intégrés dans le modèle de diffusion grâce à une adaptation légère de son ControlNet. Pour préserver les capacités de raisonnement multimodal originales des MLLMs, nous dotons le MLLM d'une branche de génération visuelle initialisée à partir des paramètres originaux du MLLM lors de la prédiction des embeddings d'images au niveau des patches. En intégrant de manière transparente les MLLMs pré-entraînés et les modèles de diffusion avec des latents CLIP au niveau des patches, notre cadre permet une génération d'images contrôlée haute fidélité avec une efficacité d'entraînement significative. Nos expériences démontrent que Bifrost-1 atteint des performances comparables ou supérieures aux méthodes précédentes en termes de fidélité visuelle et de compréhension multimodale, avec une consommation de calcul nettement moindre pendant l'entraînement. Nous fournissons également des études d'ablation complètes montrant l'efficacité de nos choix de conception.
English
There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
PDF62August 12, 2025