TC-LoRA: Zeitlich moduliertes bedingtes LoRA zur adaptiven Diffusionssteuerung
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control
October 10, 2025
papers.authors: Minkyoung Cho, Ruben Ohana, Christian Jacobsen, Adityan Jothi, Min-Hung Chen, Z. Morley Mao, Ethem Can
cs.AI
papers.abstract
Aktuelle steuerbare Diffusionsmodelle basieren typischerweise auf festen Architekturen, die Zwischenaktivierungen modifizieren, um eine auf eine neue Modalität bedingte Steuerung einzufügen. Dieser Ansatz verwendet eine statische Konditionierungsstrategie für einen dynamischen, mehrstufigen Denoising-Prozess, was die Fähigkeit des Modells einschränkt, seine Reaktion anzupassen, während die Generierung von grober Struktur zu feinen Details fortschreitet. Wir stellen TC-LoRA (Temporally Modulated Conditional LoRA) vor, ein neues Paradigma, das eine dynamische, kontextbewusste Steuerung ermöglicht, indem die Gewichte des Modells direkt konditioniert werden. Unser Framework verwendet ein Hypernetzwerk, um LoRA-Adapter in Echtzeit zu generieren, die Gewichtsmodifikationen für das eingefrorene Backbone an jedem Diffusionsschritt basierend auf der Zeit und der Benutzerbedingung anpassen. Dieser Mechanismus ermöglicht es dem Modell, eine explizite, adaptive Strategie für die Anwendung bedingter Steuerung während des gesamten Generierungsprozesses zu erlernen und auszuführen. Durch Experimente in verschiedenen Datenbereichen zeigen wir, dass diese dynamische, parametrische Steuerung die generative Treue und die Einhaltung räumlicher Bedingungen im Vergleich zu statischen, aktivierungsbasierten Methoden signifikant verbessert. TC-LoRA etabliert einen alternativen Ansatz, bei dem die Konditionierungsstrategie des Modells durch eine tiefgreifende funktionale Anpassung seiner Gewichte modifiziert wird, wodurch die Steuerung an die dynamischen Anforderungen der Aufgabe und des Generierungsstadiums angepasst werden kann.
English
Current controllable diffusion models typically rely on fixed architectures
that modify intermediate activations to inject guidance conditioned on a new
modality. This approach uses a static conditioning strategy for a dynamic,
multi-stage denoising process, limiting the model's ability to adapt its
response as the generation evolves from coarse structure to fine detail. We
introduce TC-LoRA (Temporally Modulated Conditional LoRA), a new paradigm that
enables dynamic, context-aware control by conditioning the model's weights
directly. Our framework uses a hypernetwork to generate LoRA adapters
on-the-fly, tailoring weight modifications for the frozen backbone at each
diffusion step based on time and the user's condition. This mechanism enables
the model to learn and execute an explicit, adaptive strategy for applying
conditional guidance throughout the entire generation process. Through
experiments on various data domains, we demonstrate that this dynamic,
parametric control significantly enhances generative fidelity and adherence to
spatial conditions compared to static, activation-based methods. TC-LoRA
establishes an alternative approach in which the model's conditioning strategy
is modified through a deeper functional adaptation of its weights, allowing
control to align with the dynamic demands of the task and generative stage.