Охватывая пространство визуальных аналогий с помощью весового базиса LoRA

Аннотация

Визуальное обучение по аналогии позволяет манипулировать изображениями с помощью демонстрации, а не текстового описания, что дает пользователям возможность задавать сложные преобразования, которые трудно выразить словами. Для заданной тройки {a, a', b} цель состоит в том, чтобы сгенерировать b' таким образом, что a : a' :: b : b'. Современные методы адаптируют для этой задачи тексто-изобразительные модели, используя единственный модуль Low-Rank Adaptation (LoRA), однако они сталкиваются с фундаментальным ограничением: попытка охватить разнообразное пространство визуальных преобразований с помощью фиксированного модуля адаптации ограничивает возможности обобщения. Вдохновленные недавними работами, которые показали, что LoRA-модули в ограниченных областях образуют осмысленные, интерполируемые семантические пространства, мы предлагаем LoRWeB — новый подход, который специализирует модель для каждой задачи аналогии во время вывода за счет динамической композиции изученных примитивов преобразований, неформально говоря, выбирая точку в «пространстве LoRA». Мы представляем две ключевые компоненты: (1) обучаемый базис LoRA-модулей для охвата пространства различных визуальных преобразований и (2) легковесный кодировщик, который динамически выбирает и взвешивает эти базисные LoRA на основе входной пары для аналогии. Всесторонние оценки демонстрируют, что наш подход достигает наилучших результатов и значительно улучшает обобщение на невидимые визуальные преобразования. Наши результаты позволяют предположить, что разложения по базису LoRA являются перспективным направлением для гибкого визуального манипулирования. Код и данные доступны по адресу: https://research.nvidia.com/labs/par/lorweb

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Охватывая пространство визуальных аналогий с помощью весового базиса LoRA

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Аннотация

Support