RelationAdapter: Aprendendo e Transferindo Relações Visuais com Transformadores de Difusão
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Autores: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Resumo
Inspirado pelo mecanismo de aprendizado em contexto de modelos de linguagem de grande escala (LLMs), um novo paradigma de edição de imagens baseada em prompts visuais generalizáveis está emergindo. Os métodos existentes que utilizam uma única referência geralmente se concentram em ajustes de estilo ou aparência e enfrentam dificuldades com transformações não rígidas. Para abordar essas limitações, propomos aproveitar pares de imagens fonte-alvo para extrair e transferir a intenção de edição consciente do conteúdo para novas imagens de consulta. Para isso, introduzimos o RelationAdapter, um módulo leve que permite que modelos baseados em Diffusion Transformer (DiT) capturem e apliquem efetivamente transformações visuais a partir de exemplos mínimos. Também apresentamos o Relation252K, um conjunto de dados abrangente que compreende 218 tarefas de edição diversas, para avaliar a generalização e adaptabilidade do modelo em cenários orientados por prompts visuais. Experimentos no Relation252K mostram que o RelationAdapter melhora significativamente a capacidade do modelo de entender e transferir a intenção de edição, resultando em ganhos notáveis na qualidade de geração e no desempenho geral da edição.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.