FreeStyle: Vrije controle van stijl-inhoud duale-referentiegeneratie door Community LoRA-mijnbouw

Samenvatting

Stijl-inhoud dubbele-referentiegeneratie heeft als doel een afbeelding te synthetiseren die de structuur en semantiek van een inhoudsreferentie behoudt, terwijl de stijl van een afzonderlijke stijlreferentie wordt overgenomen. Ondanks recente vooruitgang blijft deze instelling uitdagend omdat modellen een balans moeten vinden tussen getrouwheid van de inhoud, stijlovereenstemming en instructienaleving, terwijl semantische lekkage uit de stijlreferentie wordt vermeden. Een belangrijke bottleneck is het gebrek aan grootschalige tripletdata met een schone scheiding tussen inhoud en stijl en een brede dekking van lange-staartstijlen. In dit werk stellen we FreeStyle voor, een schaalbaar dubbele-referentieframework gebaseerd op community LoRA-mijnbouw. We behandelen community LoRA's als compositorische ankers voor stijl en inhoud, en ontwerpen een rigoureuze generatie- en filterpijplijn om grootschalige Stijl-Referentie en Inhoud-Referentie-triplets te construeren over meerdere basismodellen. Om inhoudslekkage aan te pakken, hanteren we een tweefasencurriculum met fase-specifieke ontwarringsmechanismen: een aandachtsniveauverrijkingsbeperking die lekkage van stijlreferentie in de stijloverdrachtsfase onderdrukt, en een frequentiebewuste RoPE-modulatiestrategie die zich richt op op positionele correspondentie gebaseerde lekkage in de moeilijkere dubbele-referentiefase. We introduceren ook een benchmark die zowel stijlreferentie- als dubbele-referentiegeneratie dekt, met evaluaties op stijlovereenkomst, inhoudsbehoud, esthetiek, instructienaleving en lekkageafwijzing. De benchmark omvat een stijlinvariante Content Alignment Score (CAS) en introduceert een gekalibreerde, op VLM gebaseerde Rejectiescore voor het evalueren van generatiebetrouwbaarheid en lekkageonderdrukking. Uitgebreide experimenten tonen aan dat ons model een sterke balans bereikt tussen stijlovereenstemming, inhoudsbehoud en lekkageonderdrukking.

English

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style alignment, and instruction following avoiding semantic leakage from the style reference.A key bottleneck is the lack of large-scale triplet data with clean content-style separation and broad long-tail style coverage.In this work, we propose FreeStyle, a scalable dual-reference generation framework based on community LoRA mining.We treat community LoRAs as compositional anchors for style and content, and design a rigorous generation and filtering pipeline to construct large-scale Style-Reference and Content-Reference triplets across multiple base models.To address content leakage, we adopt a two-stage curriculum with stage-specific disentanglement mechanisms: an attention-level enrichment constraint that suppresses style-reference leakage in the style-transfer stage, and a frequency-aware RoPE modulation strategy that targets positional-correspondence-based leakage in the harder dual-reference stage.We also introduce a benchmark covering both style-reference and dual-reference generation, with evaluations on style similarity, content preservation, aesthetics, instruction following, and leakage rejection. The benchmark incorporates a style-invariant Content Alignment Score (CAS) and introduces a calibrated VLM-based Rejection Score for evaluating generation reliability and leakage suppression.Extensive experiments show that our model achieves a strong balance among style alignment, content preservation, and leakage suppression.