HiScene: 아이소메트릭 뷰 생성을 통한 계층적 3D 장면 생성
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation
April 17, 2025
저자: Wenqi Dong, Bangbang Yang, Zesong Yang, Yuan Li, Tao Hu, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI
초록
장면 수준의 3D 생성은 멀티미디어 및 컴퓨터 그래픽 분야에서 중요한 전선을 이루고 있지만, 기존 접근법들은 제한된 객체 범주를 가지거나 인터랙티브 애플리케이션을 위한 편집 유연성이 부족한 문제를 안고 있습니다. 본 논문에서는 2D 이미지 생성과 3D 객체 생성 간의 격차를 메우고 구성적 정체성과 미적 장면 콘텐츠를 갖춘 고품질 장면을 제공하는 새로운 계층적 프레임워크인 HiScene을 제안합니다. 우리의 핵심 통찰은 장면을 등각 투영 하에서 계층적 "객체"로 취급하는 것으로, 방을 조작 가능한 항목으로 더 분해할 수 있는 복잡한 객체로 기능하게 합니다. 이 계층적 접근법은 2D 표현과 일치하면서도 구성적 구조를 유지하는 3D 콘텐츠를 생성할 수 있게 합니다. 각 분해된 인스턴스의 완전성과 공간적 정렬을 보장하기 위해, 우리는 객체 간의 오클루전과 그림자를 효과적으로 처리하는 비디오-디퓨전 기반의 아모달 완성 기술을 개발하고, 장면 내에서 공간적 일관성을 보장하기 위해 형태 사전 주입을 도입했습니다. 실험 결과는 우리의 방법이 물리적 타당성을 유지하고 사용자 입력과 정렬된 상태에서 인터랙티브 애플리케이션에 적합한 더 자연스러운 객체 배열과 완전한 객체 인스턴스를 생성함을 보여줍니다.
English
Scene-level 3D generation represents a critical frontier in multimedia and
computer graphics, yet existing approaches either suffer from limited object
categories or lack editing flexibility for interactive applications. In this
paper, we present HiScene, a novel hierarchical framework that bridges the gap
between 2D image generation and 3D object generation and delivers high-fidelity
scenes with compositional identities and aesthetic scene content. Our key
insight is treating scenes as hierarchical "objects" under isometric views,
where a room functions as a complex object that can be further decomposed into
manipulatable items. This hierarchical approach enables us to generate 3D
content that aligns with 2D representations while maintaining compositional
structure. To ensure completeness and spatial alignment of each decomposed
instance, we develop a video-diffusion-based amodal completion technique that
effectively handles occlusions and shadows between objects, and introduce shape
prior injection to ensure spatial coherence within the scene. Experimental
results demonstrate that our method produces more natural object arrangements
and complete object instances suitable for interactive applications, while
maintaining physical plausibility and alignment with user inputs.Summary
AI-Generated Summary