LISA: Согласование оценки правдоподобия для управляемой генерации по визуальному условию

Аннотация

Распространенная двухветвевая парадигма, заключающаяся в обучении вспомогательной сети для кодирования визуальных условий и слиянии ее промежуточных признаков с замороженной предобученной основной сетью, показала замечательные успехи в управляемой генерации с визуальными условиями. Несмотря на широкое применение, роль вспомогательной ветви и эффективность ее обучения остаются недостаточно изученными. В данной работе мы впервые пересматриваем эту основную парадигму через призму генеративного моделирования на основе скоринговых функций: 1) Основная сеть сохраняет визуальное перцептивное качество, предоставляя априорную безусловную скоринговую функцию. 2) Вспомогательная сеть направляет условное управление, неявно внося вклад в скоринговую функцию правдоподобия. Руководствуясь этой точкой зрения, мы предлагаем LISA (выравнивание по скоринговой функции правдоподобия) — эффективный метод регуляризации, который явно выравнивает промежуточные признаки вспомогательной сети с аппроксимированной скоринговой функцией правдоподобия. В частности, мы сначала перехватываем признаки из заданного слоя вспомогательной сети и проецируем их в латентное пространство скоринговых функций с помощью легковесного декодера. Затем мы строим аппроксимированный целевой показатель скоринговой функции правдоподобия и вычисляем расстояние между выходом декодера и этой целью как дополнительную потерю регуляризации. Наконец, мы совместно оптимизируем вспомогательную сеть и декодер, используя как стандартную диффузионную потерю, так и нашу потерю регуляризации. Эксперименты на различных задачах с изображениями/видео, архитектурах и моделях диффузии/потоков показали, что LISA не только последовательно ускоряет сходимость обучения и улучшает конечные синтезированные результаты, но и способствует более разнесенному представлению признаков вспомогательной сети для условного моделирования с незначительными дополнительными затратами на обучение и нулевыми дополнительными затратами на вывод.

English

The prevalent dual-branch paradigm, i.e., training a side network to encode visual conditions and fusing its intermediate-layer features to a frozen pretrained main network, has shown remarkable success in visual-condition controllable generation. Despite its widespread adoption, the role of the side branch and its training efficiency remain underexplored. In this paper, we first revisit this mainstream paradigm through the lens of score-based generative modeling: 1) The main network preserves visual perceptual quality by providing a prior unconditional score. 2) The side network steers conditional control by implicitly contributing a likelihood score. Guided by this perspective, we propose LIkelihood Score Alignment (LISA), an effective regularization method that explicitly aligns the intermediate feature of the side network with an approximated likelihood score. Specifically, we first hook features from a designated layer of the side network and project them into the score latent space by a lightweight decoder. Then, we construct an approximated likelihood score target and calculate the distance between the decoder's output and this target as an additional regularization loss. Finally, we jointly optimize the side network and decoder with both standard diffusion loss and our regularization loss. Experiments across various image/video tasks, architectures, and diffusion/flow models demonstrated that LISA can not only consistently accelerate the training convergence and improve final synthetic results, but also encourage the side network's features to be more disentangled for conditional modeling with negligible additional training cost and zero extra inference cost.