Внедрение направляющего изображения в текстово-обусловленные диффузионные модели на этапе вывода

Аннотация

Диффузионные модели преобразования текста в изображение, такие как Stable Diffusion, генерируют высококачественные изображения на основе текста, однако не обладают возможностью внедрения визуального направления (например, эскизов, стилей) на этапе инференса без переобучения. Существующие методы либо требуют вычислительно затратной тонкой настройки, либо полагаются на техники переноса стиля, сопряженные с риском семантического несоответствия текстовым подсказкам. Мы представляем Слияние Визуальных Концепций (VCF) — первый метод, обеспечивающий двойное обуславливание как изображением, так и текстовой подсказкой на этапе инференса без какого-либо обучения на конкретных концепциях. VCF позволяет внедрять визуальные концепции в Stable Diffusion путем выравнивания признаков изображения из CLIP с пространством текстовых эмбеддингов. VCF состоит из трех компонентов: (1) легковесного выравнивателя, который отображает токены изображения на многообразие текстовых эмбеддингов с использованием потерь InfoNCE и реконструкции перекрестного внимания, (2) стратегии слияния, сохраняющей как текстовую, так и визуальную семантику, и (3) опционального модуля Оптимизации Шума Подсказки (PNO) для доработки во время тестирования. Наши эксперименты демонстрируют, что VCF успешно переносит визуальные атрибуты, включая стиль, композицию и цветовую палитру из референсных изображений, сохраняя при этом соответствие подсказке. Количественные результаты показывают компромисс между согласованием с текстом (оценка CLIP) и визуальным соответствием (LPIPS), при этом VCF превосходит базовые методы по точности соответствия референсу.

English

Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.