ChatPaper.aiChatPaper

HiScene: 아이소메트릭 뷰 생성을 통한 계층적 3D 장면 생성

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

April 17, 2025
저자: Wenqi Dong, Bangbang Yang, Zesong Yang, Yuan Li, Tao Hu, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI

초록

장면 수준의 3D 생성은 멀티미디어 및 컴퓨터 그래픽 분야에서 중요한 전선을 이루고 있지만, 기존 접근법들은 제한된 객체 범주를 가지거나 인터랙티브 애플리케이션을 위한 편집 유연성이 부족한 문제를 안고 있습니다. 본 논문에서는 2D 이미지 생성과 3D 객체 생성 간의 격차를 메우고 구성적 정체성과 미적 장면 콘텐츠를 갖춘 고품질 장면을 제공하는 새로운 계층적 프레임워크인 HiScene을 제안합니다. 우리의 핵심 통찰은 장면을 등각 투영 하에서 계층적 "객체"로 취급하는 것으로, 방을 조작 가능한 항목으로 더 분해할 수 있는 복잡한 객체로 기능하게 합니다. 이 계층적 접근법은 2D 표현과 일치하면서도 구성적 구조를 유지하는 3D 콘텐츠를 생성할 수 있게 합니다. 각 분해된 인스턴스의 완전성과 공간적 정렬을 보장하기 위해, 우리는 객체 간의 오클루전과 그림자를 효과적으로 처리하는 비디오-디퓨전 기반의 아모달 완성 기술을 개발하고, 장면 내에서 공간적 일관성을 보장하기 위해 형태 사전 주입을 도입했습니다. 실험 결과는 우리의 방법이 물리적 타당성을 유지하고 사용자 입력과 정렬된 상태에서 인터랙티브 애플리케이션에 적합한 더 자연스러운 객체 배열과 완전한 객체 인스턴스를 생성함을 보여줍니다.
English
Scene-level 3D generation represents a critical frontier in multimedia and computer graphics, yet existing approaches either suffer from limited object categories or lack editing flexibility for interactive applications. In this paper, we present HiScene, a novel hierarchical framework that bridges the gap between 2D image generation and 3D object generation and delivers high-fidelity scenes with compositional identities and aesthetic scene content. Our key insight is treating scenes as hierarchical "objects" under isometric views, where a room functions as a complex object that can be further decomposed into manipulatable items. This hierarchical approach enables us to generate 3D content that aligns with 2D representations while maintaining compositional structure. To ensure completeness and spatial alignment of each decomposed instance, we develop a video-diffusion-based amodal completion technique that effectively handles occlusions and shadows between objects, and introduce shape prior injection to ensure spatial coherence within the scene. Experimental results demonstrate that our method produces more natural object arrangements and complete object instances suitable for interactive applications, while maintaining physical plausibility and alignment with user inputs.

Summary

AI-Generated Summary

PDF112April 21, 2025