ChatPaper.aiChatPaper

WithAnyone: В направлении контролируемой и идентификационно-согласованной генерации изображений

WithAnyone: Towards Controllable and ID Consistent Image Generation

October 16, 2025
Авторы: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI

Аннотация

Генерация с сохранением идентичности стала важным направлением в исследованиях текстов в изображения, при этом современные модели демонстрируют значительные успехи в создании изображений, соответствующих эталонной идентичности. Однако нехватка крупномасштабных парных наборов данных, содержащих несколько изображений одного и того же человека, вынуждает большинство подходов использовать обучение, основанное на реконструкции. Такая зависимость часто приводит к проблеме, которую мы называем "копированием-вставкой", когда модель напрямую воспроизводит эталонное лицо вместо того, чтобы сохранять идентичность при естественных вариациях позы, выражения или освещения. Такая чрезмерная схожесть подрывает управляемость и ограничивает выразительную силу генерации. Чтобы устранить эти ограничения, мы (1) создаем крупномасштабный парный набор данных MultiID-2M, адаптированный для сценариев с несколькими людьми, предоставляя разнообразные эталоны для каждой идентичности; (2) вводим эталонный тест, который количественно оценивает как артефакты "копирования-вставки", так и компромисс между точностью идентичности и вариативностью; и (3) предлагаем новую парадигму обучения с контрастирующей функцией потерь для идентичности, которая использует парные данные для баланса между точностью и разнообразием. Эти усилия воплотились в модели WithAnyone, основанной на диффузии, которая эффективно устраняет "копирование-вставку", сохраняя при этом высокую схожесть идентичности. Многочисленные качественные и количественные эксперименты демонстрируют, что WithAnyone значительно снижает артефакты "копирования-вставки", улучшает управляемость позой и выражением и сохраняет высокое воспринимаемое качество. Пользовательские исследования дополнительно подтверждают, что наш метод обеспечивает высокую точность идентичности, одновременно позволяя выразительную и управляемую генерацию.
English
Identity-consistent generation has become an important focus in text-to-image research, with recent models achieving notable success in producing images aligned with a reference identity. Yet, the scarcity of large-scale paired datasets containing multiple images of the same individual forces most approaches to adopt reconstruction-based training. This reliance often leads to a failure mode we term copy-paste, where the model directly replicates the reference face rather than preserving identity across natural variations in pose, expression, or lighting. Such over-similarity undermines controllability and limits the expressive power of generation. To address these limitations, we (1) construct a large-scale paired dataset MultiID-2M, tailored for multi-person scenarios, providing diverse references for each identity; (2) introduce a benchmark that quantifies both copy-paste artifacts and the trade-off between identity fidelity and variation; and (3) propose a novel training paradigm with a contrastive identity loss that leverages paired data to balance fidelity with diversity. These contributions culminate in WithAnyone, a diffusion-based model that effectively mitigates copy-paste while preserving high identity similarity. Extensive qualitative and quantitative experiments demonstrate that WithAnyone significantly reduces copy-paste artifacts, improves controllability over pose and expression, and maintains strong perceptual quality. User studies further validate that our method achieves high identity fidelity while enabling expressive controllable generation.
PDF763October 17, 2025