WithAnyone: В направлении контролируемой и идентификационно-согласованной генерации изображений
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
Авторы: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Аннотация
Генерация с сохранением идентичности стала важным направлением в исследованиях текстов в изображения, при этом современные модели демонстрируют значительные успехи в создании изображений, соответствующих эталонной идентичности. Однако нехватка крупномасштабных парных наборов данных, содержащих несколько изображений одного и того же человека, вынуждает большинство подходов использовать обучение, основанное на реконструкции. Такая зависимость часто приводит к проблеме, которую мы называем "копированием-вставкой", когда модель напрямую воспроизводит эталонное лицо вместо того, чтобы сохранять идентичность при естественных вариациях позы, выражения или освещения. Такая чрезмерная схожесть подрывает управляемость и ограничивает выразительную силу генерации. Чтобы устранить эти ограничения, мы (1) создаем крупномасштабный парный набор данных MultiID-2M, адаптированный для сценариев с несколькими людьми, предоставляя разнообразные эталоны для каждой идентичности; (2) вводим эталонный тест, который количественно оценивает как артефакты "копирования-вставки", так и компромисс между точностью идентичности и вариативностью; и (3) предлагаем новую парадигму обучения с контрастирующей функцией потерь для идентичности, которая использует парные данные для баланса между точностью и разнообразием. Эти усилия воплотились в модели WithAnyone, основанной на диффузии, которая эффективно устраняет "копирование-вставку", сохраняя при этом высокую схожесть идентичности. Многочисленные качественные и количественные эксперименты демонстрируют, что WithAnyone значительно снижает артефакты "копирования-вставки", улучшает управляемость позой и выражением и сохраняет высокое воспринимаемое качество. Пользовательские исследования дополнительно подтверждают, что наш метод обеспечивает высокую точность идентичности, одновременно позволяя выразительную и управляемую генерацию.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.