FreeStyle : Contrôle libre de la génération à double référence style-contenu à partir de l'exploitation de LoRA communautaires

Résumé

La génération à double référence style-contenu vise à synthétiser une image qui préserve la structure et la sémantique d'une référence de contenu tout en adoptant le style d'une référence de style distincte. Malgré les progrès récents, ce cadre reste difficile car les modèles doivent équilibrer la fidélité au contenu, l'alignement stylistique et le respect des instructions, tout en évitant les fuites sémantiques provenant de la référence de style. Un goulet d'étranglement clé est le manque de données triplet à grande échelle avec une séparation nette entre contenu et style et une vaste couverture stylistique de type « longue traîne ». Dans ce travail, nous proposons FreeStyle, un cadre de génération à double référence évolutif basé sur l'extraction de LoRA issues de la communauté. Nous traitons les LoRA communautaires comme des ancres compositionnelles pour le style et le contenu, et concevons un pipeline rigoureux de génération et de filtrage pour construire à grande échelle des triplets « Référence de style » et « Référence de contenu » sur plusieurs modèles de base. Pour remédier aux fuites de contenu, nous adoptons un programme en deux étapes avec des mécanismes de désintrication spécifiques à chaque étape : une contrainte d'enrichissement au niveau de l'attention qui supprime les fuites de la référence de style dans l'étape de transfert de style, et une stratégie de modulation RoPE sensible à la fréquence qui cible les fuites basées sur la correspondance positionnelle dans l'étape plus difficile de la double référence. Nous introduisons également un benchmark couvrant à la fois la génération à référence unique de style et à double référence, avec des évaluations de la similarité stylistique, de la préservation du contenu, de l'esthétique, du respect des instructions et du rejet des fuites. Le benchmark intègre un score d'alignement de contenu invariant au style (CAS) et introduit un score de rejet calibré basé sur un VLM pour évaluer la fiabilité de la génération et la suppression des fuites. Des expériences approfondies montrent que notre modèle atteint un équilibre solide entre l'alignement stylistique, la préservation du contenu et la suppression des fuites.

English

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style alignment, and instruction following avoiding semantic leakage from the style reference.A key bottleneck is the lack of large-scale triplet data with clean content-style separation and broad long-tail style coverage.In this work, we propose FreeStyle, a scalable dual-reference generation framework based on community LoRA mining.We treat community LoRAs as compositional anchors for style and content, and design a rigorous generation and filtering pipeline to construct large-scale Style-Reference and Content-Reference triplets across multiple base models.To address content leakage, we adopt a two-stage curriculum with stage-specific disentanglement mechanisms: an attention-level enrichment constraint that suppresses style-reference leakage in the style-transfer stage, and a frequency-aware RoPE modulation strategy that targets positional-correspondence-based leakage in the harder dual-reference stage.We also introduce a benchmark covering both style-reference and dual-reference generation, with evaluations on style similarity, content preservation, aesthetics, instruction following, and leakage rejection. The benchmark incorporates a style-invariant Content Alignment Score (CAS) and introduces a calibrated VLM-based Rejection Score for evaluating generation reliability and leakage suppression.Extensive experiments show that our model achieves a strong balance among style alignment, content preservation, and leakage suppression.