TC-LoRA: Modulazione Temporale Condizionale di LoRA per il Controllo Adattivo della Diffusione
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control
October 10, 2025
Autori: Minkyoung Cho, Ruben Ohana, Christian Jacobsen, Adityan Jothi, Min-Hung Chen, Z. Morley Mao, Ethem Can
cs.AI
Abstract
I modelli di diffusione controllabili attuali si basano tipicamente su architetture fisse che modificano le attivazioni intermedie per iniettare una guida condizionata a una nuova modalità. Questo approccio utilizza una strategia di condizionamento statica per un processo di denoising dinamico e multi-stadio, limitando la capacità del modello di adattare la sua risposta man mano che la generazione evolve da una struttura grezza a dettagli fini. Introduciamo TC-LoRA (Temporally Modulated Conditional LoRA), un nuovo paradigma che consente un controllo dinamico e contestuale condizionando direttamente i pesi del modello. Il nostro framework utilizza un iper-rete per generare adattatori LoRA al volo, personalizzando le modifiche ai pesi per il backbone congelato a ogni passo di diffusione in base al tempo e alla condizione dell'utente. Questo meccanismo consente al modello di apprendere ed eseguire una strategia esplicita e adattiva per applicare la guida condizionale durante l'intero processo di generazione. Attraverso esperimenti su vari domini di dati, dimostriamo che questo controllo parametrico dinamico migliora significativamente la fedeltà generativa e l'aderenza alle condizioni spaziali rispetto ai metodi statici basati sulle attivazioni. TC-LoRA stabilisce un approccio alternativo in cui la strategia di condizionamento del modello viene modificata attraverso un adattamento funzionale più profondo dei suoi pesi, consentendo al controllo di allinearsi alle esigenze dinamiche del compito e dello stadio generativo.
English
Current controllable diffusion models typically rely on fixed architectures
that modify intermediate activations to inject guidance conditioned on a new
modality. This approach uses a static conditioning strategy for a dynamic,
multi-stage denoising process, limiting the model's ability to adapt its
response as the generation evolves from coarse structure to fine detail. We
introduce TC-LoRA (Temporally Modulated Conditional LoRA), a new paradigm that
enables dynamic, context-aware control by conditioning the model's weights
directly. Our framework uses a hypernetwork to generate LoRA adapters
on-the-fly, tailoring weight modifications for the frozen backbone at each
diffusion step based on time and the user's condition. This mechanism enables
the model to learn and execute an explicit, adaptive strategy for applying
conditional guidance throughout the entire generation process. Through
experiments on various data domains, we demonstrate that this dynamic,
parametric control significantly enhances generative fidelity and adherence to
spatial conditions compared to static, activation-based methods. TC-LoRA
establishes an alternative approach in which the model's conditioning strategy
is modified through a deeper functional adaptation of its weights, allowing
control to align with the dynamic demands of the task and generative stage.