ChatPaper.aiChatPaper

Generatieve Blokkenwereld: Objecten Verplaatsen in Afbeeldingen

Generative Blocks World: Moving Things Around in Pictures

June 25, 2025
Auteurs: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI

Samenvatting

We beschrijven Generative Blocks World om te interageren met de scène van een gegenereerde afbeelding door het manipuleren van eenvoudige geometrische abstracties. Onze methode representeert scènes als assemblages van convexe 3D-primitieven, en dezelfde scène kan worden weergegeven door verschillende aantallen primitieven, waardoor een editor hele structuren of kleine details kan verplaatsen. Zodra de scènegeometrie is bewerkt, wordt de afbeelding gegenereerd door een op stroming gebaseerde methode die is geconditioneerd op diepte en een textuuraanwijzing. Onze textuuraanwijzing houdt rekening met de gewijzigde 3D-primitieven en overtreft de textuurconsistentie die wordt geboden door bestaande key-value caching-technieken. Deze textuuraanwijzingen (a) maken nauwkeurige object- en camerabewegingen mogelijk en (b) behouden grotendeels de identiteit van de afgebeelde objecten. Kwantitatieve en kwalitatieve experimenten tonen aan dat onze aanpak eerdere werken overtreft in visuele geloofwaardigheid, bewerkbaarheid en compositionele generalisatie.
English
We describe Generative Blocks World to interact with the scene of a generated image by manipulating simple geometric abstractions. Our method represents scenes as assemblies of convex 3D primitives, and the same scene can be represented by different numbers of primitives, allowing an editor to move either whole structures or small details. Once the scene geometry has been edited, the image is generated by a flow-based method which is conditioned on depth and a texture hint. Our texture hint takes into account the modified 3D primitives, exceeding texture-consistency provided by existing key-value caching techniques. These texture hints (a) allow accurate object and camera moves and (b) largely preserve the identity of objects depicted. Quantitative and qualitative experiments demonstrate that our approach outperforms prior works in visual fidelity, editability, and compositional generalization.
PDF52June 27, 2025