ChatPaper.aiChatPaper

Riutilizzo di Modelli Generativi 3D per la Generazione Autoregressiva di Layout

Repurposing 3D Generative Model for Autoregressive Layout Generation

April 17, 2026
Autori: Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng
cs.AI

Abstract

Presentiamo LaviGen, un framework che riconverte modelli generativi 3D per la generazione di layout 3D. A differenza dei metodi precedenti che inferiscono i layout degli oggetti da descrizioni testuali, LaviGen opera direttamente nello spazio 3D nativo, formulando la generazione del layout come un processo autoregressivo che modella esplicitamente le relazioni geometriche e i vincoli fisici tra gli oggetti, producendo scene 3D coerenti e fisicamente plausibili. Per migliorare ulteriormente questo processo, proponiamo un modello di diffusione 3D adattato che integra informazioni sulla scena, sugli oggetti e sulle istruzioni, e impiega un meccanismo di distillazione dual-guidance con auto-rollout per migliorare l'efficienza e l'accuratezza spaziale. Esperimenti estensivi sul benchmark LayoutVLM dimostrano che LaviGen raggiunge prestazioni superiori nella generazione di layout 3D, con un aumento del 19% nella plausibilità fisica rispetto allo stato dell'arte e una velocità di calcolo superiore del 65%. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/fenghora/LaviGen.
English
We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.
PDF91April 21, 2026