Generación Composicional de Imágenes a partir de Texto Mediante Optimización Directa de Preferencias Bimodal con Conciencia de Regiones

Resumen

A pesar del rápido avance de los modelos de texto a imagen (T2I), la generación de imágenes que reflejen con precisión indicaciones compositivas complejas (que abarcan vinculaciones de atributos, relaciones entre objetos y conteo) sigue siendo un desafío. Para abordar esto, proponemos BiDPO, un marco que mejora la capacidad de los modelos T2I para la generación compositiva de imágenes a partir de texto. Comenzamos introduciendo un flujo de trabajo cuidadosamente diseñado para construir un conjunto de datos de preferencias a gran escala, BiComp, con un estricto control de calidad. Luego, extendemos Diffusion DPO para optimizar conjuntamente las preferencias de imagen y texto, lo que demuestra ser muy eficaz para mejorar la capacidad de los modelos de seguir indicaciones textuales complejas durante la generación. Para potenciar aún más el alineamiento detallado de los modelos, empleamos un método de guía a nivel de región que se centra en las áreas relevantes para los conceptos compositivos. Los resultados experimentales muestran que nuestro BiDPO mejora sustancialmente la fidelidad compositiva, superando consistentemente a métodos anteriores en múltiples puntos de referencia. Nuestro enfoque resalta el potencial del ajuste fino basado en preferencias para tareas complejas de texto a imagen, ofreciendo una alternativa flexible y escalable a las técnicas existentes.

English

Despite the rapid progress of text-to-image (T2I) models, generating images that accurately reflect complex compositional prompts (covering attribute bindings, object relationships, counting) still remains challenging. To address this, we propose BiDPO, a framework to enhance T2I model's capability of compositional text-to-image generation. We begin by introducing an carefully designed pipeline to construct a large-scale preference dataset, BiComp, with strictly quality control. Then, we extend Diffusion DPO to jointly optimize image and text preferences, which is shown to greatly effective in improving the models to follow complex text prompt in generation. To further enhance the models for fine-grained alignment, we employ a region-level guidance method to focus on regions relevant to compositional concepts. Experimental results demonstrate that our BiDPO substantially improves compositional fidelity, consistently outperforming prior methods across multiple benchmarks. Our approach highlights the potential of preference-based fine-tuning for complex text-to-image tasks, offering a flexible and scalable alternative to existing techniques.