Génération d'images à partir de texte avec cohérence du sujet et diversité de poses
Subject-Consistent and Pose-Diverse Text-to-Image Generation
July 11, 2025
papers.authors: Zhanxin Gao, Beier Zhu, Liang Yao, Jian Yang, Ying Tai
cs.AI
papers.abstract
La génération cohérente de sujets (SCG), qui vise à maintenir une identité de sujet cohérente à travers diverses scènes, reste un défi pour les modèles de texte-à-image (T2I). Les méthodes existantes de SCG sans apprentissage atteignent souvent la cohérence au détriment de la diversité des poses et des compositions, limitant ainsi la narration visuelle expressive. Pour pallier cette limitation, nous proposons un cadre T2I cohérent en termes de sujet et diversifié en termes de pose, nommé CoDi, qui permet une génération de sujet cohérente avec des poses et des compositions variées. Motivé par la nature progressive de la diffusion, où les structures grossières apparaissent tôt et les détails fins sont affinés plus tard, CoDi adopte une stratégie en deux étapes : Transport d'Identité (IT) et Raffinement d'Identité (IR). IT opère dans les premières étapes de débruitage, utilisant le transport optimal pour transférer les caractéristiques d'identité à chaque image cible de manière sensible à la pose. Cela favorise la cohérence du sujet tout en préservant la diversité des poses. IR est appliqué dans les étapes ultérieures de débruitage, sélectionnant les caractéristiques d'identité les plus saillantes pour affiner davantage les détails du sujet. Des résultats qualitatifs et quantitatifs approfondis sur la cohérence du sujet, la diversité des poses et la fidélité au texte démontrent que CoDi atteint à la fois une meilleure perception visuelle et des performances supérieures sur tous les indicateurs. Le code est disponible sur https://github.com/NJU-PCALab/CoDi.
English
Subject-consistent generation (SCG)-aiming to maintain a consistent subject
identity across diverse scenes-remains a challenge for text-to-image (T2I)
models. Existing training-free SCG methods often achieve consistency at the
cost of layout and pose diversity, hindering expressive visual storytelling. To
address the limitation, we propose subject-Consistent and pose-Diverse T2I
framework, dubbed as CoDi, that enables consistent subject generation with
diverse pose and layout. Motivated by the progressive nature of diffusion,
where coarse structures emerge early and fine details are refined later, CoDi
adopts a two-stage strategy: Identity Transport (IT) and Identity Refinement
(IR). IT operates in the early denoising steps, using optimal transport to
transfer identity features to each target image in a pose-aware manner. This
promotes subject consistency while preserving pose diversity. IR is applied in
the later denoising steps, selecting the most salient identity features to
further refine subject details. Extensive qualitative and quantitative results
on subject consistency, pose diversity, and prompt fidelity demonstrate that
CoDi achieves both better visual perception and stronger performance across all
metrics. The code is provided in https://github.com/NJU-PCALab/CoDi.