Composición Multi-LoRA para Generación de Imágenes

Resumen

La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se utiliza ampliamente en modelos de texto a imagen para la representación precisa de elementos específicos, como personajes distintivos o estilos únicos en imágenes generadas. Sin embargo, los métodos existentes enfrentan desafíos al componer múltiples LoRAs de manera efectiva, especialmente a medida que aumenta el número de LoRAs que deben integrarse, lo que dificulta la creación de imágenes complejas. En este artículo, estudiamos la composición multi-LoRA desde una perspectiva centrada en la decodificación. Presentamos dos métodos que no requieren entrenamiento: LoRA Switch, que alterna entre diferentes LoRAs en cada paso de eliminación de ruido, y LoRA Composite, que incorpora simultáneamente todas las LoRAs para guiar una síntesis de imágenes más cohesionada. Para evaluar los enfoques propuestos, establecemos ComposLoRA, un nuevo banco de pruebas integral como parte de esta investigación. Este incluye una amplia gama de categorías de LoRA con 480 conjuntos de composición. Utilizando un marco de evaluación basado en GPT-4V, nuestros resultados demuestran una mejora clara en el rendimiento con nuestros métodos en comparación con la línea base predominante, particularmente evidente al aumentar el número de LoRAs en una composición.

English

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.

Composición Multi-LoRA para Generación de Imágenes

Multi-LoRA Composition for Image Generation

Resumen

Support