ChatPaper.aiChatPaper

WithAnyone: Rumo à Geração de Imagens Controlável e com Identidade Consistente

WithAnyone: Towards Controllable and ID Consistent Image Generation

October 16, 2025
Autores: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI

Resumo

A geração consistente de identidade tornou-se um foco importante na pesquisa de texto para imagem, com modelos recentes alcançando sucesso notável na produção de imagens alinhadas com uma identidade de referência. No entanto, a escassez de grandes conjuntos de dados pareados contendo múltiplas imagens da mesma pessoa força a maioria das abordagens a adotar treinamento baseado em reconstrução. Essa dependência frequentemente leva a um modo de falha que denominamos "copiar e colar", onde o modelo replica diretamente o rosto de referência em vez de preservar a identidade através de variações naturais de pose, expressão ou iluminação. Tal similaridade excessiva prejudica a controlabilidade e limita o poder expressivo da geração. Para abordar essas limitações, nós (1) construímos um grande conjunto de dados pareados, o MultiID-2M, projetado para cenários com múltiplas pessoas, fornecendo referências diversas para cada identidade; (2) introduzimos um benchmark que quantifica tanto os artefatos de "copiar e colar" quanto a relação entre fidelidade de identidade e variação; e (3) propomos um novo paradigma de treinamento com uma função de perda de identidade contrastiva que aproveita dados pareados para equilibrar fidelidade com diversidade. Essas contribuições culminam no WithAnyone, um modelo baseado em difusão que efetivamente mitiga o "copiar e colar" enquanto preserva alta similaridade de identidade. Experimentos qualitativos e quantitativos extensivos demonstram que o WithAnyone reduz significativamente os artefatos de "copiar e colar", melhora a controlabilidade sobre pose e expressão, e mantém uma forte qualidade perceptual. Estudos com usuários validam ainda que nosso método alcança alta fidelidade de identidade enquanto permite geração controlada e expressiva.
English
Identity-consistent generation has become an important focus in text-to-image research, with recent models achieving notable success in producing images aligned with a reference identity. Yet, the scarcity of large-scale paired datasets containing multiple images of the same individual forces most approaches to adopt reconstruction-based training. This reliance often leads to a failure mode we term copy-paste, where the model directly replicates the reference face rather than preserving identity across natural variations in pose, expression, or lighting. Such over-similarity undermines controllability and limits the expressive power of generation. To address these limitations, we (1) construct a large-scale paired dataset MultiID-2M, tailored for multi-person scenarios, providing diverse references for each identity; (2) introduce a benchmark that quantifies both copy-paste artifacts and the trade-off between identity fidelity and variation; and (3) propose a novel training paradigm with a contrastive identity loss that leverages paired data to balance fidelity with diversity. These contributions culminate in WithAnyone, a diffusion-based model that effectively mitigates copy-paste while preserving high identity similarity. Extensive qualitative and quantitative experiments demonstrate that WithAnyone significantly reduces copy-paste artifacts, improves controllability over pose and expression, and maintains strong perceptual quality. User studies further validate that our method achieves high identity fidelity while enabling expressive controllable generation.
PDF763October 17, 2025