Генеративный мир блоков: перемещение объектов на изображениях
Generative Blocks World: Moving Things Around in Pictures
June 25, 2025
Авторы: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad
cs.AI
Аннотация
Мы представляем Generative Blocks World для взаимодействия со сценой сгенерированного изображения путем манипуляции простыми геометрическими абстракциями. Наш метод представляет сцены как сборки выпуклых 3D-примитивов, причем одна и та же сцена может быть представлена разным количеством примитивов, что позволяет редактору перемещать как целые структуры, так и мелкие детали. После редактирования геометрии сцены изображение генерируется с использованием метода, основанного на потоке данных, который учитывает глубину и текстуру. Наша подсказка по текстуре учитывает модифицированные 3D-примитивы, превосходя согласованность текстур, обеспечиваемую существующими методами кэширования ключ-значение. Эти подсказки по текстуре (а) позволяют точно перемещать объекты и камеру и (б) в значительной степени сохраняют идентичность изображаемых объектов. Количественные и качественные эксперименты демонстрируют, что наш подход превосходит предыдущие работы по визуальной точности, редактируемости и композиционной обобщаемости.
English
We describe Generative Blocks World to interact with the scene of a generated
image by manipulating simple geometric abstractions. Our method represents
scenes as assemblies of convex 3D primitives, and the same scene can be
represented by different numbers of primitives, allowing an editor to move
either whole structures or small details. Once the scene geometry has been
edited, the image is generated by a flow-based method which is conditioned on
depth and a texture hint. Our texture hint takes into account the modified 3D
primitives, exceeding texture-consistency provided by existing key-value
caching techniques. These texture hints (a) allow accurate object and camera
moves and (b) largely preserve the identity of objects depicted. Quantitative
and qualitative experiments demonstrate that our approach outperforms prior
works in visual fidelity, editability, and compositional generalization.