Parcourir l'espace d'analogie visuelle avec une base pondérée de LoRAs

Résumé

L'apprentissage par analogie visuelle permet la manipulation d'images par démonstration plutôt que par description textuelle, permettant aux utilisateurs de spécifier des transformations complexes difficiles à articuler verbalement. Étant donné un triplet {a, a', b}, l'objectif est de générer b' tel que a : a' :: b : b'. Les méthodes récentes adaptent les modèles texte-image à cette tâche en utilisant un unique module d'adaptation bas rang (LoRA), mais elles rencontrent une limitation fondamentale : tenter de capturer l'espace diversifié des transformations visuelles au sein d'un module d'adaptation fixe contraint les capacités de généralisation. Inspirés par des travaux récents montrant que les LoRAs dans des domaines contraints couvrent des espaces sémantiques significatifs et interpolables, nous proposons LoRWeB, une nouvelle approche qui spécialise le modèle pour chaque tâche analogique au moment de l'inférence via une composition dynamique de primitives de transformation apprises, informellement, en choisissant un point dans un « espace de LoRAs ». Nous introduisons deux composants clés : (1) une base apprenable de modules LoRA, pour couvrir l'espace des différentes transformations visuelles, et (2) un encodeur léger qui sélectionne et pondère dynamiquement ces LoRAs de base en fonction de la paire analogique d'entrée. Des évaluations exhaustives démontrent que notre approche atteint des performances à l'état de l'art et améliore significativement la généralisation à des transformations visuelles non vues. Nos résultats suggèrent que les décompositions en base de LoRAs sont une direction prometteuse pour la manipulation visuelle flexible. Le code et les données sont disponibles sur https://research.nvidia.com/labs/par/lorweb

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Parcourir l'espace d'analogie visuelle avec une base pondérée de LoRAs

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Résumé

Support