ChatPaper.aiChatPaper

Geração de Imagens a partir de Texto com Consistência de Assunto e Diversidade de Pose

Subject-Consistent and Pose-Diverse Text-to-Image Generation

July 11, 2025
Autores: Zhanxin Gao, Beier Zhu, Liang Yao, Jian Yang, Ying Tai
cs.AI

Resumo

A geração consistente de sujeitos (SCG, do inglês Subject-consistent Generation), que visa manter uma identidade consistente do sujeito em diversas cenas, continua sendo um desafio para modelos de texto para imagem (T2I, do inglês Text-to-Image). Os métodos existentes de SCG que não requerem treinamento frequentemente alcançam consistência ao custo da diversidade de layout e pose, prejudicando a narrativa visual expressiva. Para abordar essa limitação, propomos um framework T2I consistente em sujeito e diverso em pose, denominado CoDi, que permite a geração consistente de sujeitos com diversas poses e layouts. Motivados pela natureza progressiva da difusão, onde estruturas grosseiras emergem cedo e detalhes finos são refinados posteriormente, o CoDi adota uma estratégia de dois estágios: Transporte de Identidade (IT, do inglês Identity Transport) e Refinamento de Identidade (IR, do inglês Identity Refinement). O IT opera nos primeiros passos de redução de ruído, utilizando transporte ótimo para transferir características de identidade para cada imagem alvo de maneira consciente da pose. Isso promove a consistência do sujeito enquanto preserva a diversidade de pose. O IR é aplicado nos passos posteriores de redução de ruído, selecionando as características de identidade mais salientes para refinar ainda mais os detalhes do sujeito. Resultados qualitativos e quantitativos extensivos em consistência de sujeito, diversidade de pose e fidelidade ao prompt demonstram que o CoDi alcança tanto uma melhor percepção visual quanto um desempenho mais forte em todas as métricas. O código é fornecido em https://github.com/NJU-PCALab/CoDi.
English
Subject-consistent generation (SCG)-aiming to maintain a consistent subject identity across diverse scenes-remains a challenge for text-to-image (T2I) models. Existing training-free SCG methods often achieve consistency at the cost of layout and pose diversity, hindering expressive visual storytelling. To address the limitation, we propose subject-Consistent and pose-Diverse T2I framework, dubbed as CoDi, that enables consistent subject generation with diverse pose and layout. Motivated by the progressive nature of diffusion, where coarse structures emerge early and fine details are refined later, CoDi adopts a two-stage strategy: Identity Transport (IT) and Identity Refinement (IR). IT operates in the early denoising steps, using optimal transport to transfer identity features to each target image in a pose-aware manner. This promotes subject consistency while preserving pose diversity. IR is applied in the later denoising steps, selecting the most salient identity features to further refine subject details. Extensive qualitative and quantitative results on subject consistency, pose diversity, and prompt fidelity demonstrate that CoDi achieves both better visual perception and stronger performance across all metrics. The code is provided in https://github.com/NJU-PCALab/CoDi.
PDF151July 16, 2025