Durchspannen des visuellen Analogieraums mit einer gewichteten Basis von LoRAs

Zusammenfassung

Visuelles Analogielernen ermöglicht Bildmanipulation durch Demonstration statt textueller Beschreibung, sodass Benutzer komplexe Transformationen spezifizieren können, die sich verbal schwer erfassen lassen. Ausgehend von einem Tripel {a, a', b} besteht das Ziel darin, b' so zu generieren, dass a : a' :: b : b'. Aktuelle Methoden passen Text-zu-Bild-Modelle für diese Aufgabe an, indem sie ein einzelnes Low-Rank-Adaptation (LoRA)-Modul verwenden, stoßen jedoch auf eine grundlegende Einschränkung: Der Versuch, den diversen Raum visueller Transformationen in einem festen Adaptationsmodul zu erfassen, schränkt die Generalisierungsfähigkeiten ein. Inspiriert von aktuellen Arbeiten, die zeigen, dass LoRAs in eingeschränkten Domänen bedeutungsvolle, interpolierbare semantische Räume aufspannen, schlagen wir LoRWeB vor – einen neuartigen Ansatz, der das Modell zur Inferenzzeit für jede Analogieaufgabe durch dynamische Komposition erlernter Transformationsprimitive spezialisiert, informell gesagt durch die Wahl eines Punktes in einem "Raum von LoRAs". Wir führen zwei Schlüsselkomponenten ein: (1) eine lernbare Basis von LoRA-Modulen, um den Raum verschiedener visueller Transformationen aufzuspannen, und (2) einen leichtgewichtigen Encoder, der diese Basis-LoRAs dynamisch basierend auf dem Eingabeanalogiepaar auswählt und gewichtet. Umfassende Evaluationen zeigen, dass unser Ansatz state-of-the-art-Leistung erreicht und die Generalisierung für ungesehene visuelle Transformationen signifikant verbessert. Unsere Ergebnisse legen nahe, dass LoRA-Basiszerlegungen eine vielversprechende Richtung für flexible visuelle Manipulation darstellen. Code und Daten sind unter https://research.nvidia.com/labs/par/lorweb verfügbar.

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Durchspannen des visuellen Analogieraums mit einer gewichteten Basis von LoRAs

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Zusammenfassung

Support