FashionComposer: Compositorische Generatie van Modieuze Afbeeldingen
FashionComposer: Compositional Fashion Image Generation
December 18, 2024
Auteurs: Sihui Ji, Yiyang Wang, Xi Chen, Xiaogang Xu, Hao Luo, Hengshuang Zhao
cs.AI
Samenvatting
We presenteren FashionComposer voor compositionele modebeeldgeneratie. In tegenstelling tot eerdere methoden is FashionComposer zeer flexibel. Het accepteert multimodale invoer (d.w.z. tekstprompt, parametrisch menselijk model, kledingbeeld en gezichtsbeeld) en ondersteunt het personaliseren van het uiterlijk, de houding en de figuur van de mens en het toewijzen van meerdere kledingstukken in één keer. Om dit te bereiken, ontwikkelen we eerst een universeel raamwerk dat in staat is om diverse invoermodaliteiten te verwerken. We construeren geschaalde trainingsgegevens om de robuuste compositionele mogelijkheden van het model te verbeteren. Om meerdere referentiebeelden (kledingstukken en gezichten) naadloos te kunnen verwerken, organiseren we deze referenties in één afbeelding als een "assetbibliotheek" en maken gebruik van een referentie-UNet om uiterlijke kenmerken te extraheren. Om de uiterlijke kenmerken in de juiste pixels in het gegenereerde resultaat te injecteren, stellen we subject-bindende aandacht voor. Het bindt de uiterlijke kenmerken van verschillende "assets" met de overeenkomstige tekstkenmerken. Op deze manier kan het model elk asset begrijpen op basis van hun semantiek, waarbij het willekeurige aantallen en soorten referentiebeelden ondersteunt. Als een allesomvattende oplossing ondersteunt FashionComposer ook vele andere toepassingen zoals het genereren van menselijke albums, diverse virtuele pas-taken, enz.
English
We present FashionComposer for compositional fashion image generation. Unlike
previous methods, FashionComposer is highly flexible. It takes multi-modal
input (i.e., text prompt, parametric human model, garment image, and face
image) and supports personalizing the appearance, pose, and figure of the human
and assigning multiple garments in one pass. To achieve this, we first develop
a universal framework capable of handling diverse input modalities. We
construct scaled training data to enhance the model's robust compositional
capabilities. To accommodate multiple reference images (garments and faces)
seamlessly, we organize these references in a single image as an "asset
library" and employ a reference UNet to extract appearance features. To inject
the appearance features into the correct pixels in the generated result, we
propose subject-binding attention. It binds the appearance features from
different "assets" with the corresponding text features. In this way, the model
could understand each asset according to their semantics, supporting arbitrary
numbers and types of reference images. As a comprehensive solution,
FashionComposer also supports many other applications like human album
generation, diverse virtual try-on tasks, etc.