Bifrost-1: 패치 수준 CLIP 잠재 공간을 통해 다중 모달 LLM과 확산 모델 연결하기
Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
August 8, 2025
저자: Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
cs.AI
초록
고해상도 시각 합성 능력을 대형 언어 모델(LLMs)에 통합하면서도 강력한 추론 능력을 유지하는 데 대한 관심이 높아지고 있다. 기존의 방법들은 LLMs를 직접 학습시키거나 LLMs와 확산 모델(diffusion models)을 연결하는 방식으로 접근하지만, 백본 LLMs가 사전 학습 과정에서 이미지 표현을 접하지 못했기 때문에 학습 비용이 높은 문제가 있다. 우리는 Bifrost-1을 제안하는데, 이는 사전 학습된 다중모달 LLMs(MLLMs)와 확산 모델을 패치 수준의 CLIP 이미지 임베딩을 잠재 변수로 사용하여 연결하는 통합 프레임워크이다. 이러한 패치 수준의 이미지 임베딩은 MLLM의 CLIP 시각 인코더와 자연스럽게 정렬되어 있으며, 확산 모델에 ControlNet의 경량화된 적응을 통해 통합된다. MLLM의 원래 다중모달 추론 능력을 유지하기 위해, 패치 수준의 이미지 임베딩을 예측할 때 원래 MLLM 파라미터로 초기화된 시각 생성 분기를 MLLM에 추가한다. 사전 학습된 MLLMs와 확산 모델을 패치 수준의 CLIP 잠재 변수로 원활하게 통합함으로써, 우리의 프레임워크는 높은 학습 효율성과 함께 고해상도의 제어 가능한 이미지 생성을 가능하게 한다. 실험 결과, Bifrost-1은 시각적 충실도와 다중모달 이해 측면에서 이전 방법들과 비교하여 비슷하거나 더 나은 성능을 달성하면서도 학습 과정에서 상당히 낮은 계산 비용을 보여준다. 또한, 우리의 설계 선택의 효과를 입증하는 포괄적인 절제 연구를 제공한다.
English
There is growing interest in integrating high-fidelity visual synthesis
capabilities into large language models (LLMs) without compromising their
strong reasoning capabilities. Existing methods that directly train LLMs or
bridge LLMs and diffusion models usually suffer from costly training since the
backbone LLMs have not seen image representations during pretraining. We
present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs
(MLLMs) and diffusion models using patch-level CLIP image embeddings as latent
variables, which are natively aligned with the MLLM's CLIP visual encoder.
These patch-level image embeddings are integrated into the diffusion model with
a lightweight adaptation of its ControlNet. To retain the original multimodal
reasoning capabilities of MLLMs, we equip the MLLM with a visual generation
branch initialized from the original MLLM parameters when predicting the
patch-level image embeddings. By seamlessly integrating pretrained MLLMs and
diffusion models with patch-level CLIP latents, our framework enables
high-fidelity controllable image generation with significant training
efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or
better performance than previous methods in terms of visual fidelity and
multimodal understanding, with substantially lower compute during training. We
also provide comprehensive ablation studies showing the effectiveness of our
design choices.