TraDiffusion : Génération d'images sans entraînement basée sur les trajectoires
TraDiffusion: Trajectory-Based Training-Free Image Generation
August 19, 2024
Auteurs: Mingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji
cs.AI
Résumé
Dans ce travail, nous proposons une approche contrôlable basée sur les trajectoires et sans apprentissage pour la génération d'images à partir de texte (T2I), nommée TraDiffusion. Cette méthode novatrice permet aux utilisateurs de guider facilement la génération d'images via des trajectoires de souris. Pour obtenir un contrôle précis, nous concevons une fonction d'énergie basée sur la distance afin de guider efficacement les variables latentes, garantissant que le foyer de génération reste dans les zones définies par la trajectoire. La fonction d'énergie intègre une fonction de contrôle pour rapprocher la génération de la trajectoire spécifiée et une fonction de mouvement pour réduire l'activité dans les zones éloignées de la trajectoire. À travers des expériences approfondies et des évaluations qualitatives sur le jeu de données COCO, les résultats montrent que TraDiffusion facilite un contrôle d'image plus simple et plus naturel. De plus, elle démontre la capacité à manipuler les régions saillantes, les attributs et les relations au sein des images générées, ainsi qu'à intégrer des entrées visuelles basées sur des trajectoires arbitraires ou améliorées.
English
In this work, we propose a training-free, trajectory-based controllable T2I
approach, termed TraDiffusion. This novel method allows users to effortlessly
guide image generation via mouse trajectories. To achieve precise control, we
design a distance awareness energy function to effectively guide latent
variables, ensuring that the focus of generation is within the areas defined by
the trajectory. The energy function encompasses a control function to draw the
generation closer to the specified trajectory and a movement function to
diminish activity in areas distant from the trajectory. Through extensive
experiments and qualitative assessments on the COCO dataset, the results reveal
that TraDiffusion facilitates simpler, more natural image control. Moreover, it
showcases the ability to manipulate salient regions, attributes, and
relationships within the generated images, alongside visual input based on
arbitrary or enhanced trajectories.Summary
AI-Generated Summary