RelationAdapter: Aprendizaje y transferencia de relaciones visuales con Transformadores de Difusión
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
June 3, 2025
Autores: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
cs.AI
Resumen
Inspirado por el mecanismo de aprendizaje en contexto de los modelos de lenguaje de gran escala (LLMs), está surgiendo un nuevo paradigma de edición de imágenes basada en prompts visuales generalizables. Los métodos existentes de referencia única suelen centrarse en ajustes de estilo o apariencia y tienen dificultades con transformaciones no rígidas. Para abordar estas limitaciones, proponemos aprovechar pares de imágenes fuente-destino para extraer y transferir la intención de edición consciente del contenido a nuevas imágenes de consulta. Con este fin, presentamos RelationAdapter, un módulo ligero que permite a los modelos basados en Transformadores de Difusión (DiT) capturar y aplicar eficazmente transformaciones visuales a partir de ejemplos mínimos. También introducimos Relation252K, un conjunto de datos integral que comprende 218 tareas de edición diversas, para evaluar la generalización y adaptabilidad del modelo en escenarios impulsados por prompts visuales. Los experimentos en Relation252K muestran que RelationAdapter mejora significativamente la capacidad del modelo para comprender y transferir la intención de edición, lo que se traduce en avances notables en la calidad de generación y el rendimiento general de la edición.
English
Inspired by the in-context learning mechanism of large language models
(LLMs), a new paradigm of generalizable visual prompt-based image editing is
emerging. Existing single-reference methods typically focus on style or
appearance adjustments and struggle with non-rigid transformations. To address
these limitations, we propose leveraging source-target image pairs to extract
and transfer content-aware editing intent to novel query images. To this end,
we introduce RelationAdapter, a lightweight module that enables Diffusion
Transformer (DiT) based models to effectively capture and apply visual
transformations from minimal examples. We also introduce Relation252K, a
comprehensive dataset comprising 218 diverse editing tasks, to evaluate model
generalization and adaptability in visual prompt-driven scenarios. Experiments
on Relation252K show that RelationAdapter significantly improves the model's
ability to understand and transfer editing intent, leading to notable gains in
generation quality and overall editing performance.