TraDiffusion: Generazione di Immagini Senza Addestramento Basata su Traiettorie

Abstract

In questo lavoro, proponiamo un approccio controllabile basato su traiettorie per la generazione di immagini da testo (T2I) che non richiede addestramento, denominato TraDiffusion. Questo metodo innovativo consente agli utenti di guidare agevolmente la generazione di immagini attraverso traiettorie del mouse. Per ottenere un controllo preciso, abbiamo progettato una funzione energetica di consapevolezza della distanza per guidare efficacemente le variabili latenti, garantendo che il focus della generazione rimanga all'interno delle aree definite dalla traiettoria. La funzione energetica comprende una funzione di controllo per avvicinare la generazione alla traiettoria specificata e una funzione di movimento per ridurre l'attività nelle aree lontane dalla traiettoria. Attraverso esperimenti estesi e valutazioni qualitative sul dataset COCO, i risultati dimostrano che TraDiffusion facilita un controllo delle immagini più semplice e naturale. Inoltre, evidenzia la capacità di manipolare regioni salienti, attributi e relazioni all'interno delle immagini generate, insieme a input visivi basati su traiettorie arbitrarie o potenziate.

English

In this work, we propose a training-free, trajectory-based controllable T2I approach, termed TraDiffusion. This novel method allows users to effortlessly guide image generation via mouse trajectories. To achieve precise control, we design a distance awareness energy function to effectively guide latent variables, ensuring that the focus of generation is within the areas defined by the trajectory. The energy function encompasses a control function to draw the generation closer to the specified trajectory and a movement function to diminish activity in areas distant from the trajectory. Through extensive experiments and qualitative assessments on the COCO dataset, the results reveal that TraDiffusion facilitates simpler, more natural image control. Moreover, it showcases the ability to manipulate salient regions, attributes, and relationships within the generated images, alongside visual input based on arbitrary or enhanced trajectories.

TraDiffusion: Generazione di Immagini Senza Addestramento Basata su Traiettorie

TraDiffusion: Trajectory-Based Training-Free Image Generation

Abstract

Summary

Support

Support