Generative Blocks World: Objekte in Bildern verschieben
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Autoren: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Zusammenfassung
Wir beschreiben Generative Blocks World, um mit der Szene eines generierten Bildes durch die Manipulation einfacher geometrischer Abstraktionen zu interagieren. Unsere Methode stellt Szenen als Zusammensetzungen konvexer 3D-Primitive dar, und dieselbe Szene kann durch unterschiedliche Anzahlen von Primitiven repräsentiert werden, was es einem Editor ermöglicht, entweder ganze Strukturen oder kleine Details zu verschieben. Sobald die Szenengeometrie bearbeitet wurde, wird das Bild durch ein flussbasiertes Verfahren generiert, das auf Tiefe und einer Texturhinweisung basiert. Unser Texturhinweis berücksichtigt die modifizierten 3D-Primitive und übertrifft die Texturkonsistenz, die durch bestehende Key-Value-Caching-Techniken bereitgestellt wird. Diese Texturhinweise (a) ermöglichen präzise Objekt- und Kamerabewegungen und (b) bewahren weitgehend die Identität der dargestellten Objekte. Quantitative und qualitative Experimente zeigen, dass unser Ansatz frühere Arbeiten in Bezug auf visuelle Treue, Bearbeitbarkeit und kompositionelle Generalisierung übertrifft.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.