Mundo de Blocos Generativo: Movendo Coisas ao Redor em Imagens
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Autores: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Resumo
Descrevemos o Generative Blocks World para interagir com a cena de uma imagem gerada manipulando abstrações geométricas simples. Nosso método representa cenas como montagens de primitivos 3D convexos, e a mesma cena pode ser representada por diferentes números de primitivos, permitindo que um editor mova estruturas inteiras ou pequenos detalhes. Uma vez que a geometria da cena é editada, a imagem é gerada por um método baseado em fluxo que é condicionado à profundidade e a uma dica de textura. Nossa dica de textura leva em consideração os primitivos 3D modificados, superando a consistência de textura fornecida por técnicas existentes de cache de chave-valor. Essas dicas de textura (a) permitem movimentos precisos de objetos e da câmera e (b) preservam amplamente a identidade dos objetos retratados. Experimentos quantitativos e qualitativos demonstram que nossa abordagem supera trabalhos anteriores em fidelidade visual, editabilidade e generalização composicional.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.