Composición Multi-LoRA para Generación de Imágenes
Multi-LoRA Composition for Image Generation
February 26, 2024
Autores: Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen
cs.AI
Resumen
La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se utiliza ampliamente en modelos de texto a imagen para la representación precisa de elementos específicos, como personajes distintivos o estilos únicos en imágenes generadas. Sin embargo, los métodos existentes enfrentan desafíos al componer múltiples LoRAs de manera efectiva, especialmente a medida que aumenta el número de LoRAs que deben integrarse, lo que dificulta la creación de imágenes complejas. En este artículo, estudiamos la composición multi-LoRA desde una perspectiva centrada en la decodificación. Presentamos dos métodos que no requieren entrenamiento: LoRA Switch, que alterna entre diferentes LoRAs en cada paso de eliminación de ruido, y LoRA Composite, que incorpora simultáneamente todas las LoRAs para guiar una síntesis de imágenes más cohesionada. Para evaluar los enfoques propuestos, establecemos ComposLoRA, un nuevo banco de pruebas integral como parte de esta investigación. Este incluye una amplia gama de categorías de LoRA con 480 conjuntos de composición. Utilizando un marco de evaluación basado en GPT-4V, nuestros resultados demuestran una mejora clara en el rendimiento con nuestros métodos en comparación con la línea base predominante, particularmente evidente al aumentar el número de LoRAs en una composición.
English
Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models
for the accurate rendition of specific elements like distinct characters or
unique styles in generated images. Nonetheless, existing methods face
challenges in effectively composing multiple LoRAs, especially as the number of
LoRAs to be integrated grows, thus hindering the creation of complex imagery.
In this paper, we study multi-LoRA composition through a decoding-centric
perspective. We present two training-free methods: LoRA Switch, which
alternates between different LoRAs at each denoising step, and LoRA Composite,
which simultaneously incorporates all LoRAs to guide more cohesive image
synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new
comprehensive testbed as part of this research. It features a diverse range of
LoRA categories with 480 composition sets. Utilizing an evaluation framework
based on GPT-4V, our findings demonstrate a clear improvement in performance
with our methods over the prevalent baseline, particularly evident when
increasing the number of LoRAs in a composition.