Abarcando el Espacio de Analogía Visual con una Base de Peso de LoRAs

Resumen

El aprendizaje por analogía visual permite la manipulación de imágenes mediante demostración en lugar de descripción textual, permitiendo a los usuarios especificar transformaciones complejas difíciles de articular con palabras. Dado un triplete {a, a', b}, el objetivo es generar b' tal que a : a' :: b : b'. Los métodos recientes adaptan modelos de texto a imagen a esta tarea utilizando un único módulo de Adaptación de Bajo Rango (LoRA), pero enfrentan una limitación fundamental: intentar capturar el espacio diverso de transformaciones visuales dentro de un módulo de adaptación fijo restringe las capacidades de generalización. Inspirados por trabajos recientes que muestran que los LoRAs en dominios restringidos abarcan espacios semánticos significativos e interpolables, proponemos LoRWeB, un enfoque novedoso que especializa el modelo para cada tarea de analogía en tiempo de inferencia mediante la composición dinámica de primitivas de transformación aprendidas, informalmente, eligiendo un punto en un "espacio de LoRAs". Introducimos dos componentes clave: (1) una base aprendible de módulos LoRA, para abarcar el espacio de diferentes transformaciones visuales, y (2) un codificador ligero que selecciona y pondera dinámicamente estos LoRAs base en función del par de analogía de entrada. Evaluaciones exhaustivas demuestran que nuestro enfoque logra un rendimiento de vanguardia y mejora significativamente la generalización a transformaciones visuales no vistas. Nuestros hallazgos sugieren que las descomposiciones en base LoRA son una dirección prometedora para la manipulación visual flexible. El código y los datos están en https://research.nvidia.com/labs/par/lorweb.

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Abarcando el Espacio de Analogía Visual con una Base de Peso de LoRAs

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Resumen

Support