ChatPaper.aiChatPaper

生成的ブロックワールド:画像内の物体の移動

Generative Blocks World: Moving Things Around in Pictures

June 25, 2025
著者: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI

要旨

本論文では、生成された画像のシーンを単純な幾何学的抽象化を操作してインタラクティブに扱うためのGenerative Blocks Worldを提案する。本手法では、シーンを凸3Dプリミティブの集合体として表現し、同一のシーンを異なる数のプリミティブで表現することが可能であり、編集者が構造全体または細部を移動させることができる。シーンジオメトリが編集された後、深度とテクスチャヒントに基づいてフローベースの手法で画像が生成される。本手法のテクスチャヒントは、変更された3Dプリミティブを考慮しており、既存のキー・バリューキャッシュ技術が提供するテクスチャ一貫性を超えるものである。これらのテクスチャヒントは、(a)正確なオブジェクトおよびカメラの移動を可能にし、(b)描画されたオブジェクトの同一性を大幅に保持する。定量的および定性的な実験により、本手法が視覚的忠実度、編集可能性、および構成的汎化において従来の手法を凌駕することを示す。
English
We describe Generative Blocks World to interact with the scene of a generated image by manipulating simple geometric abstractions. Our method represents scenes as assemblies of convex 3D primitives, and the same scene can be represented by different numbers of primitives, allowing an editor to move either whole structures or small details. Once the scene geometry has been edited, the image is generated by a flow-based method which is conditioned on depth and a texture hint. Our texture hint takes into account the modified 3D primitives, exceeding texture-consistency provided by existing key-value caching techniques. These texture hints (a) allow accurate object and camera moves and (b) largely preserve the identity of objects depicted. Quantitative and qualitative experiments demonstrate that our approach outperforms prior works in visual fidelity, editability, and compositional generalization.
PDF52June 27, 2025