LISA: Waarschijnlijkheidsscore-uitlijning voor visueel conditioneerbare controleerbare generatie

Samenvatting

Het gangbare dual-branch-paradigma, d.w.z. het trainen van een zijnetwerk om visuele condities te coderen en de kenmerken uit tussenliggende lagen samen te voegen met een bevroren voorgetraind hoofdnetwerk, heeft opmerkelijk succes getoond in visueel-conditionele aansturende generatie. Ondanks de wijdverbreide toepassing ervan, blijven de rol van de zijtak en de trainingsefficiëntie ervan onderbelicht. In dit artikel herzien we eerst dit gangbare paradigma door de lens van score-gebaseerde generatieve modellering: 1) Het hoofdnetwerk behoudt visuele perceptuele kwaliteit door een eerdere onvoorwaardelijke score te bieden. 2) Het zijnetwerk stuurt conditionele controle aan door impliciet bij te dragen aan een waarschijnlijkheidsscore. Geleid door dit perspectief stellen we Likelihood Score Alignment (LISA) voor, een effectieve regularisatiemethode die de tussenliggende kenmerken van het zijnetwerk expliciet uitlijnt met een benaderde waarschijnlijkheidsscore. Specifiek haken we eerst kenmerken uit een aangewezen laag van het zijnetwerk en projecteren deze naar de score-latente ruimte via een lichtgewicht decoder. Vervolgens construeren we een benaderde waarschijnlijkheidsscore-doelwaarde en berekenen we de afstand tussen de output van de decoder en dit doel als een extra regularisatieverlies. Ten slotte optimaliseren we gezamenlijk het zijnetwerk en de decoder met zowel standaard diffusieverlies als ons regularisatieverlies. Experimenten op verschillende beeld-/videotaken, architecturen en diffusie-/stroommodellen toonden aan dat LISA niet alleen consistent de trainingsconvergentie versnelt en de uiteindelijke synthetische resultaten verbetert, maar ook de kenmerken van het zijnetwerk meer ontward aanmoedigt voor conditionele modellering, met verwaarloosbare extra trainingskosten en nul extra inferentiekosten.

English

The prevalent dual-branch paradigm, i.e., training a side network to encode visual conditions and fusing its intermediate-layer features to a frozen pretrained main network, has shown remarkable success in visual-condition controllable generation. Despite its widespread adoption, the role of the side branch and its training efficiency remain underexplored. In this paper, we first revisit this mainstream paradigm through the lens of score-based generative modeling: 1) The main network preserves visual perceptual quality by providing a prior unconditional score. 2) The side network steers conditional control by implicitly contributing a likelihood score. Guided by this perspective, we propose LIkelihood Score Alignment (LISA), an effective regularization method that explicitly aligns the intermediate feature of the side network with an approximated likelihood score. Specifically, we first hook features from a designated layer of the side network and project them into the score latent space by a lightweight decoder. Then, we construct an approximated likelihood score target and calculate the distance between the decoder's output and this target as an additional regularization loss. Finally, we jointly optimize the side network and decoder with both standard diffusion loss and our regularization loss. Experiments across various image/video tasks, architectures, and diffusion/flow models demonstrated that LISA can not only consistently accelerate the training convergence and improve final synthetic results, but also encourage the side network's features to be more disentangled for conditional modeling with negligible additional training cost and zero extra inference cost.