Attraversare lo Spazio dell'Analogia Visiva con una Base Ponderata di LoRA

Abstract

L'apprendimento per analogia visiva consente la manipolazione di immagini attraverso dimostrazioni piuttosto che descrizioni testuali, permettendo agli utenti di specificare trasformazioni complesse difficili da articolare a parole. Dato un tripletto {a, a', b}, l'obiettivo è generare b' tale che a : a' :: b : b'. I metodi recenti adattano modelli text-to-image a questo compito utilizzando un singolo modulo di Low-Rank Adaptation (LoRA), ma incontrano una limitazione fondamentale: il tentativo di catturare lo spazio diversificato delle trasformazioni visive all'interno di un modulo di adattamento fisso ne limita le capacità di generalizzazione. Ispirati da lavori recenti che mostrano come i LoRA in domini vincolati generino spazi semantici significativi e interpolabili, proponiamo LoRWeB, un approccio innovativo che specializza il modello per ogni compito analogico al momento dell'inferenza attraverso la composizione dinamica di primitive di trasformazione apprese, informalmente, scegliendo un punto in uno "spazio di LoRA". Introduciamo due componenti chiave: (1) una base apprendibile di moduli LoRA, per generare lo spazio delle diverse trasformazioni visive, e (2) un encoder leggero che seleziona e pondera dinamicamente questi LoRA di base in base alla coppia analogica di input. Valutazioni complete dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia e migliora significativamente la generalizzazione a trasformazioni visive non viste. I nostri risultati suggeriscono che le scomposizioni in base di LoRA sono una direzione promettente per la manipolazione visiva flessibile. Codice e dati sono disponibili su https://research.nvidia.com/labs/par/lorweb

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Attraversare lo Spazio dell'Analogia Visiva con una Base Ponderata di LoRA

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Abstract

Support