FreeStyle: Freie Steuerung der Stil-Inhalt-Dual-Referenz-Generierung durch Community-LoRA-Mining

Zusammenfassung

Die Erzeugung mit dualer Referenz von Stil und Inhalt zielt darauf ab, ein Bild zu synthetisieren, das die Struktur und Semantik einer Inhaltsreferenz bewahrt, während es den Stil einer separaten Stilreferenz übernimmt. Trotz jüngster Fortschritte bleibt dieses Setting anspruchsvoll, da Modelle die Treue zum Inhalt, die Stilübereinstimmung und die Befolgung von Anweisungen in Einklang bringen müssen, dabei aber semantische Leckagen aus der Stilreferenz vermeiden sollen. Ein wesentlicher Engpass ist das Fehlen großer Trippeldatensätze mit sauberer Trennung von Inhalt und Stil sowie breiter Abdeckung von Langzeit-Stilvarianten. In dieser Arbeit schlagen wir FreeStyle vor, ein skalierbares Framework zur dualen Referenzerzeugung auf Basis von Community-LoRA-Mining. Wir behandeln Community-LoRAs als kompositionelle Anker für Stil und Inhalt und entwerfen eine strenge Erzeugungs- und Filterpipeline, um groß angelegte Tripletts aus Stilreferenz und Inhaltsreferenz über mehrere Basismodelle hinweg zu konstruieren. Um Inhaltsleckagen zu adressieren, verfolgen wir ein zweistufiges Curriculum mit stufenspezifischen Entflechtungsmechanismen: eine Anreicherungsbeschränkung auf Aufmerksamkeitsebene, die Stilreferenz-Leckagen in der Stiltransferstufe unterdrückt, und eine frequenzbewusste RoPE-Modulationsstrategie, die auf positionskorrespondenzbasierte Leckagen in der schwierigeren Dual-Referenz-Stufe abzielt. Wir führen außerdem einen Benchmark ein, der sowohl die Stilreferenz- als auch die Dual-Referenz-Erzeugung abdeckt, mit Bewertungen von Stilähnlichkeit, Inhaltserhaltung, Ästhetik, Instruktionsbefolgung und Leckageabweisung. Der Benchmark enthält einen stilinvarianten Content Alignment Score (CAS) und führt einen kalibrierten VLM-basierten Rejection Score zur Bewertung der Erzeugungszuverlässigkeit und Leckageunterdrückung ein. Umfangreiche Experimente zeigen, dass unser Modell eine starke Balance zwischen Stilübereinstimmung, Inhaltserhaltung und Leckageunterdrückung erreicht.

English

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style alignment, and instruction following avoiding semantic leakage from the style reference.A key bottleneck is the lack of large-scale triplet data with clean content-style separation and broad long-tail style coverage.In this work, we propose FreeStyle, a scalable dual-reference generation framework based on community LoRA mining.We treat community LoRAs as compositional anchors for style and content, and design a rigorous generation and filtering pipeline to construct large-scale Style-Reference and Content-Reference triplets across multiple base models.To address content leakage, we adopt a two-stage curriculum with stage-specific disentanglement mechanisms: an attention-level enrichment constraint that suppresses style-reference leakage in the style-transfer stage, and a frequency-aware RoPE modulation strategy that targets positional-correspondence-based leakage in the harder dual-reference stage.We also introduce a benchmark covering both style-reference and dual-reference generation, with evaluations on style similarity, content preservation, aesthetics, instruction following, and leakage rejection. The benchmark incorporates a style-invariant Content Alignment Score (CAS) and introduces a calibrated VLM-based Rejection Score for evaluating generation reliability and leakage suppression.Extensive experiments show that our model achieves a strong balance among style alignment, content preservation, and leakage suppression.