TraDiffusion: Generazione di Immagini Senza Addestramento Basata su Traiettorie
TraDiffusion: Trajectory-Based Training-Free Image Generation
August 19, 2024
Autori: Mingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji
cs.AI
Abstract
In questo lavoro, proponiamo un approccio controllabile basato su traiettorie per la generazione di immagini da testo (T2I) che non richiede addestramento, denominato TraDiffusion. Questo metodo innovativo consente agli utenti di guidare agevolmente la generazione di immagini attraverso traiettorie del mouse. Per ottenere un controllo preciso, abbiamo progettato una funzione energetica di consapevolezza della distanza per guidare efficacemente le variabili latenti, garantendo che il focus della generazione rimanga all'interno delle aree definite dalla traiettoria. La funzione energetica comprende una funzione di controllo per avvicinare la generazione alla traiettoria specificata e una funzione di movimento per ridurre l'attività nelle aree lontane dalla traiettoria. Attraverso esperimenti estesi e valutazioni qualitative sul dataset COCO, i risultati dimostrano che TraDiffusion facilita un controllo delle immagini più semplice e naturale. Inoltre, evidenzia la capacità di manipolare regioni salienti, attributi e relazioni all'interno delle immagini generate, insieme a input visivi basati su traiettorie arbitrarie o potenziate.
English
In this work, we propose a training-free, trajectory-based controllable T2I
approach, termed TraDiffusion. This novel method allows users to effortlessly
guide image generation via mouse trajectories. To achieve precise control, we
design a distance awareness energy function to effectively guide latent
variables, ensuring that the focus of generation is within the areas defined by
the trajectory. The energy function encompasses a control function to draw the
generation closer to the specified trajectory and a movement function to
diminish activity in areas distant from the trajectory. Through extensive
experiments and qualitative assessments on the COCO dataset, the results reveal
that TraDiffusion facilitates simpler, more natural image control. Moreover, it
showcases the ability to manipulate salient regions, attributes, and
relationships within the generated images, alongside visual input based on
arbitrary or enhanced trajectories.Summary
AI-Generated Summary