ChatPaper.aiChatPaper

SSR-Encoder: Кодирование избирательного представления субъекта для генерации, управляемой объектом

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

December 26, 2023
Авторы: Yuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing
cs.AI

Аннотация

Последние достижения в области генерации изображений на основе объектов привели к появлению генерации в режиме "zero-shot", однако точный выбор и фокусировка на ключевых представлениях объектов остаются сложными задачами. Для решения этой проблемы мы представляем SSR-Encoder — новую архитектуру, разработанную для избирательного захвата любого объекта из одного или нескольких эталонных изображений. Она реагирует на различные модальности запросов, включая текст и маски, без необходимости тонкой настройки во время тестирования. SSR-Encoder объединяет Token-to-Patch Aligner, который выравнивает входные запросы с участками изображения, и Detail-Preserving Subject Encoder для извлечения и сохранения детальных характеристик объектов, тем самым генерируя эмбеддинги объектов. Эти эмбеддинги, используемые совместно с оригинальными текстовыми эмбеддингами, управляют процессом генерации. Благодаря своей обобщаемости и эффективности, SSR-Encoder адаптируется к широкому спектру пользовательских моделей и управляющих модулей. Улучшенный за счет Embedding Consistency Regularization Loss для более качественного обучения, наши обширные эксперименты демонстрируют его эффективность в универсальной и высококачественной генерации изображений, что указывает на его широкую применимость. Страница проекта: https://ssr-encoder.github.io
English
Recent advancements in subject-driven image generation have led to zero-shot generation, yet precise selection and focus on crucial subject representations remain challenging. Addressing this, we introduce the SSR-Encoder, a novel architecture designed for selectively capturing any subject from single or multiple reference images. It responds to various query modalities including text and masks, without necessitating test-time fine-tuning. The SSR-Encoder combines a Token-to-Patch Aligner that aligns query inputs with image patches and a Detail-Preserving Subject Encoder for extracting and preserving fine features of the subjects, thereby generating subject embeddings. These embeddings, used in conjunction with original text embeddings, condition the generation process. Characterized by its model generalizability and efficiency, the SSR-Encoder adapts to a range of custom models and control modules. Enhanced by the Embedding Consistency Regularization Loss for improved training, our extensive experiments demonstrate its effectiveness in versatile and high-quality image generation, indicating its broad applicability. Project page: https://ssr-encoder.github.io
PDF71December 15, 2024