Generative Blocks World: Spostare oggetti nelle immagini
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Autori: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Abstract
Descriviamo Generative Blocks World per interagire con la scena di un'immagine generata manipolando semplici astrazioni geometriche. Il nostro metodo rappresenta le scene come assemblaggi di primitive 3D convesse, e la stessa scena può essere rappresentata da un numero diverso di primitive, consentendo a un editor di spostare sia intere strutture che piccoli dettagli. Una volta modificata la geometria della scena, l'immagine viene generata mediante un metodo basato su flussi (flow-based) condizionato dalla profondità e da un suggerimento di texture. Il nostro suggerimento di texture tiene conto delle primitive 3D modificate, superando la coerenza delle texture fornita dalle tecniche esistenti di memorizzazione chiave-valore (key-value caching). Questi suggerimenti di texture (a) consentono movimenti precisi degli oggetti e della telecamera e (b) preservano in larga misura l'identità degli oggetti rappresentati. Esperimenti quantitativi e qualitativi dimostrano che il nostro approccio supera i lavori precedenti in termini di fedeltà visiva, editabilità e generalizzazione composizionale.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.