Reutilização de Modelo Generativo 3D para Geração Autoregressiva de Layouts
Repurposing 3D Generative Model for Autoregressive Layout Generation
April 17, 2026
Autores: Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng
cs.AI
Resumo
Apresentamos o LaviGen, uma estrutura que reaproveita modelos generativos 3D para a geração de layouts 3D. Diferente de métodos anteriores que inferem layouts de objetos a partir de descrições textuais, o LaviGen opera diretamente no espaço 3D nativo, formulando a geração de layout como um processo autoregressivo que modela explicitamente relações geométricas e restrições físicas entre objetos, produzindo cenas 3D coerentes e fisicamente plausíveis. Para aprimorar ainda mais este processo, propomos um modelo de difusão 3D adaptado que integra informações de cena, objeto e instrução, e emprega um mecanismo de destilação por auto-distribuição de dupla orientação para melhorar a eficiência e a precisão espacial. Experimentos extensivos no benchmark LayoutVLM mostram que o LaviGen alcança um desempenho superior em geração de layouts 3D, com uma plausibilidade física 19% maior do que o estado da arte e uma computação 65% mais rápida. Nosso código está publicamente disponível em https://github.com/fenghora/LaviGen.
English
We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.