Mundo de Bloques Generativo: Moviendo Objetos en Imágenes
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Autores: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Resumen
Describimos Generative Blocks World para interactuar con la escena de una imagen generada mediante la manipulación de abstracciones geométricas simples. Nuestro método representa las escenas como ensamblajes de primitivas 3D convexas, y la misma escena puede representarse con diferentes cantidades de primitivas, lo que permite a un editor mover tanto estructuras completas como pequeños detalles. Una vez que se ha editado la geometría de la escena, la imagen se genera mediante un método basado en flujo que está condicionado por la profundidad y una sugerencia de textura. Nuestra sugerencia de textura tiene en cuenta las primitivas 3D modificadas, superando la consistencia de textura proporcionada por las técnicas existentes de almacenamiento en caché clave-valor. Estas sugerencias de textura (a) permiten movimientos precisos de objetos y cámaras y (b) preservan en gran medida la identidad de los objetos representados. Experimentos cuantitativos y cualitativos demuestran que nuestro enfoque supera a trabajos anteriores en fidelidad visual, capacidad de edición y generalización composicional.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.