Hi3DEval: 계층적 유효성을 통한 3D 생성 평가의 발전
Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity
August 7, 2025
저자: Yuhan Zhang, Long Zhuo, Ziyang Chu, Tong Wu, Zhibing Li, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI
초록
3D 콘텐츠 생성 기술의 급속한 발전에도 불구하고, 생성된 3D 자산에 대한 품질 평가는 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 주로 이미지 기반 메트릭에 의존하며 객체 수준에서만 작동하기 때문에, 공간적 일관성, 재질의 현실성, 그리고 고해상도의 세부 사항을 포착하는 데 한계가 있습니다. 1) 이러한 문제를 해결하기 위해, 우리는 3D 생성 콘텐츠를 위한 계층적 평가 프레임워크인 Hi3DEval을 소개합니다. 이 프레임워크는 객체 수준과 부품 수준의 평가를 결합하여 다차원적이고 포괄적인 평가와 더불어 세밀한 품질 분석을 가능하게 합니다. 또한, 텍스처 평가를 미적 외관을 넘어 재질의 현실성을 명시적으로 평가하도록 확장하여, 알베도, 채도, 금속성과 같은 속성에 초점을 맞춥니다. 2) 이 프레임워크를 지원하기 위해, 우리는 다양한 3D 자산과 고품질의 주석으로 구성된 대규모 데이터셋인 Hi3DBench를 구축하고, 신뢰할 수 있는 다중 에이전트 주석 파이프라인을 함께 제공합니다. 더 나아가, 우리는 하이브리드 3D 표현을 기반으로 한 3D 인식 자동 점수 시스템을 제안합니다. 구체적으로, 객체 수준 및 재질 주제 평가를 위해 비디오 기반 표현을 활용하여 시공간적 일관성 모델링을 강화하고, 부품 수준 인식을 위해 사전 훈련된 3D 특징을 사용합니다. 광범위한 실험을 통해 우리의 접근 방식이 기존의 이미지 기반 메트릭보다 3D 특성을 더 잘 모델링하며, 인간의 선호도와 더 높은 일치를 달성하여 수동 평가에 대한 확장 가능한 대안을 제공함을 입증했습니다. 프로젝트 페이지는 https://zyh482.github.io/Hi3DEval/에서 확인할 수 있습니다.
English
Despite rapid advances in 3D content generation, quality assessment for the
generated 3D assets remains challenging. Existing methods mainly rely on
image-based metrics and operate solely at the object level, limiting their
ability to capture spatial coherence, material authenticity, and high-fidelity
local details. 1) To address these challenges, we introduce Hi3DEval, a
hierarchical evaluation framework tailored for 3D generative content. It
combines both object-level and part-level evaluation, enabling holistic
assessments across multiple dimensions as well as fine-grained quality
analysis. Additionally, we extend texture evaluation beyond aesthetic
appearance by explicitly assessing material realism, focusing on attributes
such as albedo, saturation, and metallicness. 2) To support this framework, we
construct Hi3DBench, a large-scale dataset comprising diverse 3D assets and
high-quality annotations, accompanied by a reliable multi-agent annotation
pipeline. We further propose a 3D-aware automated scoring system based on
hybrid 3D representations. Specifically, we leverage video-based
representations for object-level and material-subject evaluations to enhance
modeling of spatio-temporal consistency and employ pretrained 3D features for
part-level perception. Extensive experiments demonstrate that our approach
outperforms existing image-based metrics in modeling 3D characteristics and
achieves superior alignment with human preference, providing a scalable
alternative to manual evaluations. The project page is available at
https://zyh482.github.io/Hi3DEval/.