TC-LoRA : LoRA conditionnel à modulation temporelle pour un contrôle adaptatif de la diffusion
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control
October 10, 2025
papers.authors: Minkyoung Cho, Ruben Ohana, Christian Jacobsen, Adityan Jothi, Min-Hung Chen, Z. Morley Mao, Ethem Can
cs.AI
papers.abstract
Les modèles de diffusion contrôlables actuels reposent généralement sur des architectures fixes qui modifient les activations intermédiaires pour injecter un guidage conditionné par une nouvelle modalité. Cette approche utilise une stratégie de conditionnement statique pour un processus de débruitage dynamique et multi-étapes, limitant la capacité du modèle à adapter sa réponse au fur et à mesure que la génération évolue d'une structure grossière à des détails fins. Nous introduisons TC-LoRA (Temporally Modulated Conditional LoRA), un nouveau paradigme qui permet un contrôle dynamique et contextuel en conditionnant directement les poids du modèle. Notre framework utilise un hyper-réseau pour générer des adaptateurs LoRA à la volée, ajustant les modifications de poids pour le backbone figé à chaque étape de diffusion en fonction du temps et de la condition de l'utilisateur. Ce mécanisme permet au modèle d'apprendre et d'exécuter une stratégie explicite et adaptative pour appliquer un guidage conditionnel tout au long du processus de génération. À travers des expériences sur divers domaines de données, nous démontrons que ce contrôle paramétrique dynamique améliore significativement la fidélité générative et l'adhésion aux conditions spatiales par rapport aux méthodes statiques basées sur les activations. TC-LoRA établit une approche alternative dans laquelle la stratégie de conditionnement du modèle est modifiée par une adaptation fonctionnelle plus profonde de ses poids, permettant un alignement du contrôle avec les exigences dynamiques de la tâche et de l'étape générative.
English
Current controllable diffusion models typically rely on fixed architectures
that modify intermediate activations to inject guidance conditioned on a new
modality. This approach uses a static conditioning strategy for a dynamic,
multi-stage denoising process, limiting the model's ability to adapt its
response as the generation evolves from coarse structure to fine detail. We
introduce TC-LoRA (Temporally Modulated Conditional LoRA), a new paradigm that
enables dynamic, context-aware control by conditioning the model's weights
directly. Our framework uses a hypernetwork to generate LoRA adapters
on-the-fly, tailoring weight modifications for the frozen backbone at each
diffusion step based on time and the user's condition. This mechanism enables
the model to learn and execute an explicit, adaptive strategy for applying
conditional guidance throughout the entire generation process. Through
experiments on various data domains, we demonstrate that this dynamic,
parametric control significantly enhances generative fidelity and adherence to
spatial conditions compared to static, activation-based methods. TC-LoRA
establishes an alternative approach in which the model's conditioning strategy
is modified through a deeper functional adaptation of its weights, allowing
control to align with the dynamic demands of the task and generative stage.