FreeStyle: Control Libre de la Generación de Referencia Dual Estilo-Contenido a partir de la Minería de LoRA de la Comunidad

Resumen

La generación de doble referencia de estilo y contenido tiene como objetivo sintetizar una imagen que preserve la estructura y semántica de una referencia de contenido mientras adopta el estilo de una referencia de estilo separada. A pesar de los avances recientes, esta configuración sigue siendo un desafío, ya que los modelos deben equilibrar la fidelidad del contenido, la alineación del estilo y el seguimiento de instrucciones, evitando la fuga semántica de la referencia de estilo. Un cuello de botella clave es la falta de datos triplete a gran escala con una separación limpia entre contenido y estilo, así como una amplia cobertura de estilos de cola larga. En este trabajo, proponemos FreeStyle, un marco escalable de generación de doble referencia basado en minería de LoRA comunitaria. Tratamos las LoRA comunitarias como anclajes composicionales para el estilo y el contenido, y diseñamos un riguroso pipeline de generación y filtrado para construir tripletes a gran escala de Referencia de Estilo y Referencia de Contenido en múltiples modelos base. Para abordar la fuga de contenido, adoptamos un currículo de dos etapas con mecanismos de desentrelazado específicos de cada etapa: una restricción de enriquecimiento a nivel de atención que suprime la fuga de la referencia de estilo en la etapa de transferencia de estilo, y una estrategia de modulación RoPE sensible a la frecuencia que aborda la fuga basada en correspondencia posicional en la etapa más difícil de doble referencia. También introducimos un benchmark que cubre tanto la generación con referencia de estilo como con doble referencia, con evaluaciones de similitud de estilo, preservación de contenido, estética, seguimiento de instrucciones y rechazo de fugas. El benchmark incorpora un Puntaje de Alineación de Contenido (CAS) invariante al estilo e introduce un Puntaje de Rechazo calibrado basado en VLM para evaluar la fiabilidad de la generación y la supresión de fugas. Experimentos exhaustivos muestran que nuestro modelo logra un sólido equilibrio entre la alineación del estilo, la preservación del contenido y la supresión de fugas.

English

Style-content dual-reference generation aims to synthesize an image that preserves the structure and semantics of a content reference while adopting the style of a separate style reference.Despite recent progress, this setting remains challenging because models must balance content fidelity, style alignment, and instruction following avoiding semantic leakage from the style reference.A key bottleneck is the lack of large-scale triplet data with clean content-style separation and broad long-tail style coverage.In this work, we propose FreeStyle, a scalable dual-reference generation framework based on community LoRA mining.We treat community LoRAs as compositional anchors for style and content, and design a rigorous generation and filtering pipeline to construct large-scale Style-Reference and Content-Reference triplets across multiple base models.To address content leakage, we adopt a two-stage curriculum with stage-specific disentanglement mechanisms: an attention-level enrichment constraint that suppresses style-reference leakage in the style-transfer stage, and a frequency-aware RoPE modulation strategy that targets positional-correspondence-based leakage in the harder dual-reference stage.We also introduce a benchmark covering both style-reference and dual-reference generation, with evaluations on style similarity, content preservation, aesthetics, instruction following, and leakage rejection. The benchmark incorporates a style-invariant Content Alignment Score (CAS) and introduces a calibrated VLM-based Rejection Score for evaluating generation reliability and leakage suppression.Extensive experiments show that our model achieves a strong balance among style alignment, content preservation, and leakage suppression.