Extraindo Capacidade de Modelos de Linguagem Grandes Multimodais para Geração Orientada por Sujeito

Resumo

A geração de imagens orientada por sujeito visa sintetizar novas imagens que preservem a identidade do sujeito fornecido, seguindo instruções textuais. Abordagens existentes frequentemente codificam texto e imagens de referência separadamente, o que limita a capacidade de raciocínio multimodal e causa artefatos de copiar-colar. Estruturas recentes que conectam modelos multimodais e modelos de difusão melhoram o seguimento de instruções, mas negligenciam em grande parte a preservação de identidade. Para lidar com essas limitações, condicionamos modelos de difusão a Modelos de Linguagem Grande Multimodais (MLLMs) que codificam conjuntamente texto e imagens de referência, e os aumentamos com condicionamento de identidade baseado em VAE. Um novo módulo de Agregação de Dupla Camada (DLA) é projetado para agregar características MLLM de múltiplos níveis para condicionamento ideal, e uma estratégia de remoção de ruído em múltiplos estágios é aplicada para equilibrar progressivamente as informações semânticas do MLLM e os detalhes finos de identidade do VAE durante a inferência. Experimentos extensos demonstram que nossa abordagem harmoniza a compreensão multimodal com a preservação de identidade, mitiga problemas de copiar-colar e alcança desempenho superior em relação à preferência humana na geração de imagens orientada por sujeito. Nosso site do projeto está disponível em https://zsh2000.github.io/squeeze-mllm-subject-gen/.

English

Subject-driven image generation aims to synthesize new images that preserve the identity of the given subject while following textual instructions. Existing approaches often encode text and reference images separately. This limits cross-modal reasoning abilities and causes copy-paste artifacts. Recent frameworks that connect multimodal models and diffusion models improve instruction following, but largely overlook identity preservation. To address these limitations, we condition diffusion models on Multimodal Large Language Models (MLLMs) that jointly encode text and reference images, and augment it with VAE-based identity conditioning. A novel Dual Layer Aggregation (DLA) module is designed to aggregate multi-level MLLM features for optimal conditioning, and a multi-stage denoising strategy is applied to progressively balance the semantic information from MLLM and fine-detail identity from VAE during inference. Extensive experiments demonstrate that our approach harmonizes multimodal understanding with identity preservation, mitigates copy-paste issues, and achieves superior performance regarding human preference on subject-driven image generation. Our project website is available at https://zsh2000.github.io/squeeze-mllm-subject-gen/.