Abarcando o Espaço da Analogia Visual com uma Base de Peso de LoRAs

Resumo

A aprendizagem por analogia visual permite a manipulação de imagens através de demonstração em vez de descrição textual, permitindo que os utilizadores especifiquem transformações complexas difíceis de articular em palavras. Dado um triplo {a, a', b}, o objetivo é gerar b' tal que a : a' :: b : b'. Métodos recentes adaptam modelos de texto para imagem a esta tarefa usando um único módulo de Adaptação de Baixa Classificação (LoRA), mas enfrentam uma limitação fundamental: tentar capturar o espaço diversificado de transformações visuais dentro de um módulo de adaptação fixo restringe as capacidades de generalização. Inspirados por trabalhos recentes que mostram que LoRAs em domínios restritos abrangem espaços semânticos significativos e interpoláveis, propomos o LoRWeB, uma nova abordagem que especializa o modelo para cada tarefa de analogia no momento da inferência através da composição dinâmica de primitivas de transformação aprendidas, informalmente, escolhendo um ponto num "espaço de LoRAs". Introduzimos dois componentes-chave: (1) uma base aprendível de módulos LoRA, para abranger o espaço de diferentes transformações visuais, e (2) um codificador leve que seleciona e pondera dinamicamente essas LoRAs de base com base no par de analogia de entrada. Avaliações abrangentes demonstram que a nossa abordagem atinge um desempenho state-of-the-art e melhora significativamente a generalização para transformações visuais não vistas. As nossas descobertas sugerem que as decomposições de base LoRA são uma direção promissora para a manipulação visual flexível. O código e os dados estão em https://research.nvidia.com/labs/par/lorweb.

English

Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet {a, a', b}, the goal is to generate b' such that a : a' :: b : b'. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb

Abarcando o Espaço da Analogia Visual com uma Base de Peso de LoRAs

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Resumo

Support