TraDiffusion: Generación de Imágenes sin Entrenamiento Basada en Trayectorias
TraDiffusion: Trajectory-Based Training-Free Image Generation
August 19, 2024
Autores: Mingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji
cs.AI
Resumen
En este trabajo, proponemos un enfoque T2I controlable basado en trayectorias y sin entrenamiento, denominado TraDiffusion. Este método novedoso permite a los usuarios guiar la generación de imágenes de forma sencilla a través de trayectorias del ratón. Para lograr un control preciso, diseñamos una función de energía de conciencia de distancia para guiar de manera efectiva las variables latentes, asegurando que el enfoque de la generación se encuentre dentro de las áreas definidas por la trayectoria. La función de energía abarca una función de control para acercar la generación a la trayectoria especificada y una función de movimiento para disminuir la actividad en áreas distantes de la trayectoria. A través de experimentos extensos y evaluaciones cualitativas en el conjunto de datos COCO, los resultados revelan que TraDiffusion facilita un control de imágenes más simple y natural. Además, demuestra la capacidad de manipular regiones destacadas, atributos y relaciones dentro de las imágenes generadas, junto con una entrada visual basada en trayectorias arbitrarias o mejoradas.
English
In this work, we propose a training-free, trajectory-based controllable T2I
approach, termed TraDiffusion. This novel method allows users to effortlessly
guide image generation via mouse trajectories. To achieve precise control, we
design a distance awareness energy function to effectively guide latent
variables, ensuring that the focus of generation is within the areas defined by
the trajectory. The energy function encompasses a control function to draw the
generation closer to the specified trajectory and a movement function to
diminish activity in areas distant from the trajectory. Through extensive
experiments and qualitative assessments on the COCO dataset, the results reveal
that TraDiffusion facilitates simpler, more natural image control. Moreover, it
showcases the ability to manipulate salient regions, attributes, and
relationships within the generated images, alongside visual input based on
arbitrary or enhanced trajectories.Summary
AI-Generated Summary