WithAnyone: Hacia la Generación de Imágenes Controlable y con Identidad Consistente
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
Autores: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Resumen
La generación consistente con la identidad se ha convertido en un enfoque importante en la investigación de texto a imagen, con modelos recientes logrando un éxito notable en la producción de imágenes alineadas con una identidad de referencia. Sin embargo, la escasez de conjuntos de datos a gran escala que contengan múltiples imágenes de la misma persona obliga a la mayoría de los enfoques a adoptar un entrenamiento basado en reconstrucción. Esta dependencia a menudo conduce a un modo de fallo que denominamos copiar-pegar, donde el modelo replica directamente el rostro de referencia en lugar de preservar la identidad a través de variaciones naturales en la pose, expresión o iluminación. Tal similitud excesiva socava la controlabilidad y limita el poder expresivo de la generación. Para abordar estas limitaciones, (1) construimos un conjunto de datos a gran escala emparejado, MultiID-2M, diseñado para escenarios de múltiples personas, proporcionando referencias diversas para cada identidad; (2) introducimos un punto de referencia que cuantifica tanto los artefactos de copiar-pegar como la compensación entre la fidelidad de la identidad y la variación; y (3) proponemos un nuevo paradigma de entrenamiento con una pérdida de identidad contrastiva que aprovecha los datos emparejados para equilibrar la fidelidad con la diversidad. Estas contribuciones culminan en WithAnyone, un modelo basado en difusión que mitiga eficazmente el copiar-pegar mientras preserva una alta similitud de identidad. Experimentos cualitativos y cuantitativos extensos demuestran que WithAnyone reduce significativamente los artefactos de copiar-pegar, mejora la controlabilidad sobre la pose y la expresión, y mantiene una fuerte calidad perceptual. Estudios de usuario validan además que nuestro método logra una alta fidelidad de identidad al tiempo que permite una generación controlable y expresiva.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.