Génération d'images à partir de texte avec cohérence du sujet et diversité de poses

papers.abstract

La génération cohérente de sujets (SCG), qui vise à maintenir une identité de sujet cohérente à travers diverses scènes, reste un défi pour les modèles de texte-à-image (T2I). Les méthodes existantes de SCG sans apprentissage atteignent souvent la cohérence au détriment de la diversité des poses et des compositions, limitant ainsi la narration visuelle expressive. Pour pallier cette limitation, nous proposons un cadre T2I cohérent en termes de sujet et diversifié en termes de pose, nommé CoDi, qui permet une génération de sujet cohérente avec des poses et des compositions variées. Motivé par la nature progressive de la diffusion, où les structures grossières apparaissent tôt et les détails fins sont affinés plus tard, CoDi adopte une stratégie en deux étapes : Transport d'Identité (IT) et Raffinement d'Identité (IR). IT opère dans les premières étapes de débruitage, utilisant le transport optimal pour transférer les caractéristiques d'identité à chaque image cible de manière sensible à la pose. Cela favorise la cohérence du sujet tout en préservant la diversité des poses. IR est appliqué dans les étapes ultérieures de débruitage, sélectionnant les caractéristiques d'identité les plus saillantes pour affiner davantage les détails du sujet. Des résultats qualitatifs et quantitatifs approfondis sur la cohérence du sujet, la diversité des poses et la fidélité au texte démontrent que CoDi atteint à la fois une meilleure perception visuelle et des performances supérieures sur tous les indicateurs. Le code est disponible sur https://github.com/NJU-PCALab/CoDi.

English

Subject-consistent generation (SCG)-aiming to maintain a consistent subject identity across diverse scenes-remains a challenge for text-to-image (T2I) models. Existing training-free SCG methods often achieve consistency at the cost of layout and pose diversity, hindering expressive visual storytelling. To address the limitation, we propose subject-Consistent and pose-Diverse T2I framework, dubbed as CoDi, that enables consistent subject generation with diverse pose and layout. Motivated by the progressive nature of diffusion, where coarse structures emerge early and fine details are refined later, CoDi adopts a two-stage strategy: Identity Transport (IT) and Identity Refinement (IR). IT operates in the early denoising steps, using optimal transport to transfer identity features to each target image in a pose-aware manner. This promotes subject consistency while preserving pose diversity. IR is applied in the later denoising steps, selecting the most salient identity features to further refine subject details. Extensive qualitative and quantitative results on subject consistency, pose diversity, and prompt fidelity demonstrate that CoDi achieves both better visual perception and stronger performance across all metrics. The code is provided in https://github.com/NJU-PCALab/CoDi.

Génération d'images à partir de texte avec cohérence du sujet et diversité de poses

Subject-Consistent and Pose-Diverse Text-to-Image Generation

papers.abstract

Support