FreeStyle: Свободное управление двухреферентной генерацией стиля и содержания на основе майнинга LoRA из сообщества

Аннотация

Генерация на основе двух референсов (стиля и содержания) направлена на синтез изображения, сохраняющего структуру и семантику референса содержания, при этом принимающего стиль отдельного референса стиля. Несмотря на недавний прогресс, эта задача остается сложной, поскольку модели должны обеспечивать баланс между точностью сохранения содержания, соответствием стилю и следованием инструкции, избегая утечки семантики из референса стиля. Ключевым узким местом является отсутствие крупномасштабных тройных данных с чистым разделением содержания и стиля и широким покрытием редких стилей. В данной работе мы предлагаем FreeStyle — масштабируемую структуру двухреференсной генерации, основанную на извлечении LoRA из сообщества. Мы рассматриваем LoRA сообщества как композиционные якоря для стиля и содержания и проектируем строгий конвейер генерации и фильтрации для создания крупномасштабных троек «референс стиля — референс содержания» для нескольких базовых моделей. Для устранения утечки содержания мы применяем двухэтапную учебную программу с механизмами разделения, специфичными для каждого этапа: ограничение обогащения на уровне внимания, подавляющее утечку из референса стиля на этапе переноса стиля, и стратегию модуляции RoPE с учетом частоты, нацеленную на утечку, основанную на позиционном соответствии, на более сложном этапе двух референсов. Мы также представляем эталон, охватывающий генерацию как на основе референса стиля, так и на основе двух референсов, с оценками сходства стиля, сохранения содержания, эстетики, следования инструкциям и подавления утечки. Эталон включает инвариантную к стилю Оценку согласованности содержания (CAS) и вводит калиброванную Оценку отклонения на основе VLM для оценки надежности генерации и подавления утечки. Обширные эксперименты показывают, что наша модель достигает сильного баланса между соответствием стилю, сохранением содержания и подавлением утечки.

English

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style alignment, and instruction following avoiding semantic leakage from the style reference.A key bottleneck is the lack of large-scale triplet data with clean content-style separation and broad long-tail style coverage.In this work, we propose FreeStyle, a scalable dual-reference generation framework based on community LoRA mining.We treat community LoRAs as compositional anchors for style and content, and design a rigorous generation and filtering pipeline to construct large-scale Style-Reference and Content-Reference triplets across multiple base models.To address content leakage, we adopt a two-stage curriculum with stage-specific disentanglement mechanisms: an attention-level enrichment constraint that suppresses style-reference leakage in the style-transfer stage, and a frequency-aware RoPE modulation strategy that targets positional-correspondence-based leakage in the harder dual-reference stage.We also introduce a benchmark covering both style-reference and dual-reference generation, with evaluations on style similarity, content preservation, aesthetics, instruction following, and leakage rejection. The benchmark incorporates a style-invariant Content Alignment Score (CAS) and introduces a calibrated VLM-based Rejection Score for evaluating generation reliability and leakage suppression.Extensive experiments show that our model achieves a strong balance among style alignment, content preservation, and leakage suppression.