Geração composicional de texto para imagem via otimização direta de preferência bimodal consciente de região

Resumo

Apesar do rápido progresso dos modelos de texto para imagem (T2I), a geração de imagens que reflitam com precisão prompts composicionais complexos (abrangendo ligações de atributos, relações entre objetos e contagem) ainda permanece desafiadora. Para abordar isso, propomos o BiDPO, uma estrutura para aprimorar a capacidade dos modelos T2I na geração composicional de texto para imagem. Iniciamos apresentando um pipeline cuidadosamente projetado para construir um conjunto de dados de preferência em larga escala, o BiComp, com controle de qualidade rigoroso. Em seguida, estendemos o Diffusion DPO para otimizar conjuntamente as preferências de imagem e texto, o que se mostrou extremamente eficaz em melhorar a capacidade dos modelos de seguir prompts textuais complexos na geração. Para aprimorar ainda mais os modelos quanto ao alinhamento refinado, empregamos um método de orientação em nível de região para focar em regiões relevantes para conceitos composicionais. Resultados experimentais demonstram que nosso BiDPO melhora substancialmente a fidelidade composicional, superando consistentemente métodos anteriores em múltiplos benchmarks. Nossa abordagem destaca o potencial do ajuste fino baseado em preferência para tarefas complexas de texto para imagem, oferecendo uma alternativa flexível e escalável às técnicas existentes.

English

Despite the rapid progress of text-to-image (T2I) models, generating images that accurately reflect complex compositional prompts (covering attribute bindings, object relationships, counting) still remains challenging. To address this, we propose BiDPO, a framework to enhance T2I model's capability of compositional text-to-image generation. We begin by introducing an carefully designed pipeline to construct a large-scale preference dataset, BiComp, with strictly quality control. Then, we extend Diffusion DPO to jointly optimize image and text preferences, which is shown to greatly effective in improving the models to follow complex text prompt in generation. To further enhance the models for fine-grained alignment, we employ a region-level guidance method to focus on regions relevant to compositional concepts. Experimental results demonstrate that our BiDPO substantially improves compositional fidelity, consistently outperforming prior methods across multiple benchmarks. Our approach highlights the potential of preference-based fine-tuning for complex text-to-image tasks, offering a flexible and scalable alternative to existing techniques.