ChatPaper.aiChatPaper

Monde des Blocs Générative : Déplacer des Objets dans les Images

Generative Blocks World: Moving Things Around in Pictures

June 25, 2025
Auteurs: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI

Résumé

Nous décrivons Generative Blocks World pour interagir avec la scène d'une image générée en manipulant des abstractions géométriques simples. Notre méthode représente les scènes comme des assemblages de primitives 3D convexes, et la même scène peut être représentée par un nombre variable de primitives, permettant à un éditeur de déplacer soit des structures entières, soit de petits détails. Une fois la géométrie de la scène modifiée, l'image est générée par une méthode basée sur un flux conditionné par la profondeur et une indication de texture. Notre indication de texture prend en compte les primitives 3D modifiées, surpassant la cohérence de texture offerte par les techniques existantes de mise en cache clé-valeur. Ces indications de texture (a) permettent des déplacements précis des objets et de la caméra et (b) préservent largement l'identité des objets représentés. Des expériences quantitatives et qualitatives démontrent que notre approche surpasse les travaux antérieurs en termes de fidélité visuelle, d'éditabilité et de généralisation compositionnelle.
English
We describe Generative Blocks World to interact with the scene of a generated image by manipulating simple geometric abstractions. Our method represents scenes as assemblies of convex 3D primitives, and the same scene can be represented by different numbers of primitives, allowing an editor to move either whole structures or small details. Once the scene geometry has been edited, the image is generated by a flow-based method which is conditioned on depth and a texture hint. Our texture hint takes into account the modified 3D primitives, exceeding texture-consistency provided by existing key-value caching techniques. These texture hints (a) allow accurate object and camera moves and (b) largely preserve the identity of objects depicted. Quantitative and qualitative experiments demonstrate that our approach outperforms prior works in visual fidelity, editability, and compositional generalization.
PDF52June 27, 2025