Generatieve Blokkenwereld: Objecten Verplaatsen in Afbeeldingen
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Auteurs: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Samenvatting
We beschrijven Generative Blocks World om te interageren met de scène van een gegenereerde afbeelding door het manipuleren van eenvoudige geometrische abstracties. Onze methode representeert scènes als assemblages van convexe 3D-primitieven, en dezelfde scène kan worden weergegeven door verschillende aantallen primitieven, waardoor een editor hele structuren of kleine details kan verplaatsen. Zodra de scènegeometrie is bewerkt, wordt de afbeelding gegenereerd door een op stroming gebaseerde methode die is geconditioneerd op diepte en een textuuraanwijzing. Onze textuuraanwijzing houdt rekening met de gewijzigde 3D-primitieven en overtreft de textuurconsistentie die wordt geboden door bestaande key-value caching-technieken. Deze textuuraanwijzingen (a) maken nauwkeurige object- en camerabewegingen mogelijk en (b) behouden grotendeels de identiteit van de afgebeelde objecten. Kwantitatieve en kwalitatieve experimenten tonen aan dat onze aanpak eerdere werken overtreft in visuele geloofwaardigheid, bewerkbaarheid en compositionele generalisatie.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.