Het Overspannen van de Visuele Analogieruimte met een Gewogen Basis van LoRA's

Samenvatting

Visuele analogie-leren maakt beeldmanipulatie mogelijk door demonstratie in plaats van tekstuele beschrijving, waardoor gebruikers complexe transformaties kunnen specificeren die moeilijk onder woorden te brengen zijn. Gegeven een triplet {a, a', b} is het doel om b' te genereren zodanig dat a : a' :: b : b'. Recente methoden passen tekst-naar-beeld-modellen aan voor deze taak met behulp van een enkele Low-Rank Adaptation (LoRA)-module, maar ze kampen met een fundamentele beperking: pogingen om de diverse ruimte van visuele transformaties vast te leggen binnen een vaste adaptatiemodule beperken de generalisatiemogelijkheden. Geïnspireerd door recent onderzoek dat aantoont dat LoRA's in beperkte domeinen betekenisvolle, interpolatiebare semantische ruimtes omspannen, stellen wij LoRWeB voor: een nieuwe aanpak die het model specialiseert voor elke analogietaak tijdens inferentie door dynamische compositie van geleerde transformatieprimitieven, informeel gezegd door een punt te kiezen in een "ruimte van LoRA's". We introduceren twee sleutelcomponenten: (1) een leerbare basis van LoRA-modules om de ruimte van verschillende visuele transformaties te omspannen, en (2) een lichtgewicht encoder die deze basis-LoRA's dynamisch selecteert en weegt op basis van het invoeranalogiepaar. Uitgebreide evaluaties tonen aan dat onze aanpak state-of-the-art prestaties bereikt en de generalisatie naar onzichtbare visuele transformaties aanzienlijk verbetert. Onze bevindingen suggereren dat LoRA-basisdecomposities een veelbelovende richting zijn voor flexibele beeldmanipulatie. Code en data staan op https://research.nvidia.com/labs/par/lorweb.

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Het Overspannen van de Visuele Analogieruimte met een Gewogen Basis van LoRA's

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Samenvatting

Support