ChatPaper.aiChatPaper

Hergebruik van 3D-generatieve modellen voor autoregressieve lay-outgeneratie

Repurposing 3D Generative Model for Autoregressive Layout Generation

April 17, 2026
Auteurs: Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng
cs.AI

Samenvatting

Wij introduceren LaviGen, een raamwerk dat 3D-generatieve modellen herpositioneert voor 3D-lay-outgeneratie. In tegenstelling tot eerdere methoden die objectlay-outs afleiden uit tekstuele beschrijvingen, opereert LaviGen direct in de native 3D-ruimte. Het formuleert lay-outgeneratie als een autoregressief proces dat geometrische relaties en fysieke beperkingen tussen objecten expliciet modelleert, waardoor samenhangende en fysiek plausibele 3D-scènes worden gegenereerd. Om dit proces verder te verbeteren, stellen we een aangepast 3D-diffusiemodel voor dat scène-, object- en instructie-informatie integreert en een dual-guidance self-rollout distillatiemechanisme hanteert om de efficiëntie en ruimtelijke nauwkeurigheid te verbeteren. Uitgebreide experimenten op de LayoutVLM-benchmark tonen aan dat LaviGen superieure prestaties levert voor 3D-lay-outgeneratie, met een 19% hogere fysieke plausibiliteit dan de state-of-the-art en een 65% snellere berekening. Onze code is openbaar beschikbaar op https://github.com/fenghora/LaviGen.
English
We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.
PDF91April 21, 2026