TC-LoRA: Временная модуляция условного LoRA для адаптивного управления диффузией
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control
October 10, 2025
Авторы: Minkyoung Cho, Ruben Ohana, Christian Jacobsen, Adityan Jothi, Min-Hung Chen, Z. Morley Mao, Ethem Can
cs.AI
Аннотация
Современные управляемые диффузионные модели обычно используют фиксированные архитектуры, которые модифицируют промежуточные активации для внедрения управляющих сигналов, обусловленных новым модальностью. Этот подход применяет статическую стратегию кондиционирования для динамического, многоэтапного процесса удаления шума, что ограничивает способность модели адаптировать свои реакции по мере того, как генерация переходит от грубой структуры к мелким деталям. Мы представляем TC-LoRA (Temporally Modulated Conditional LoRA), новую парадигму, которая обеспечивает динамическое, контекстно-зависимое управление, напрямую кондиционируя веса модели. Наша платформа использует гиперсеть для генерации адаптеров LoRA на лету, настраивая модификации весов для замороженной базовой модели на каждом шаге диффузии в зависимости от времени и условий пользователя. Этот механизм позволяет модели изучать и применять явную, адаптивную стратегию для внедрения управляющих сигналов на протяжении всего процесса генерации. В экспериментах на различных доменах данных мы демонстрируем, что этот динамический, параметрический контроль значительно улучшает точность генерации и соответствие пространственным условиям по сравнению со статическими методами, основанными на активациях. TC-LoRA устанавливает альтернативный подход, в котором стратегия кондиционирования модели изменяется за счет более глубокой функциональной адаптации её весов, позволяя управлению соответствовать динамическим требованиям задачи и этапа генерации.
English
Current controllable diffusion models typically rely on fixed architectures
that modify intermediate activations to inject guidance conditioned on a new
modality. This approach uses a static conditioning strategy for a dynamic,
multi-stage denoising process, limiting the model's ability to adapt its
response as the generation evolves from coarse structure to fine detail. We
introduce TC-LoRA (Temporally Modulated Conditional LoRA), a new paradigm that
enables dynamic, context-aware control by conditioning the model's weights
directly. Our framework uses a hypernetwork to generate LoRA adapters
on-the-fly, tailoring weight modifications for the frozen backbone at each
diffusion step based on time and the user's condition. This mechanism enables
the model to learn and execute an explicit, adaptive strategy for applying
conditional guidance throughout the entire generation process. Through
experiments on various data domains, we demonstrate that this dynamic,
parametric control significantly enhances generative fidelity and adherence to
spatial conditions compared to static, activation-based methods. TC-LoRA
establishes an alternative approach in which the model's conditioning strategy
is modified through a deeper functional adaptation of its weights, allowing
control to align with the dynamic demands of the task and generative stage.