ChatPaper.aiChatPaper

Hi3DEval: 階層的有効性による3D生成評価の進展

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

August 7, 2025
著者: Yuhan Zhang, Long Zhuo, Ziyang Chu, Tong Wu, Zhibing Li, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI

要旨

3Dコンテンツ生成の急速な進展にもかかわらず、生成された3Dアセットの品質評価は依然として課題となっています。既存の手法は主に画像ベースのメトリクスに依存し、オブジェクトレベルでのみ動作するため、空間的一貫性、素材の信憑性、高精細な局所的な詳細を捉える能力が制限されています。1) これらの課題に対処するため、我々は3D生成コンテンツに特化した階層的評価フレームワークであるHi3DEvalを提案します。これはオブジェクトレベルとパートレベルの評価を組み合わせ、多次元にわたる包括的な評価と細粒度の品質分析を可能にします。さらに、テクスチャ評価を美的外観を超えて拡張し、アルベド、彩度、金属性などの属性に焦点を当てて素材のリアリズムを明示的に評価します。2) このフレームワークをサポートするため、我々は多様な3Dアセットと高品質なアノテーションを含む大規模データセットHi3DBenchを構築し、信頼性の高いマルチエージェントアノテーションパイプラインを提供します。さらに、ハイブリッド3D表現に基づく3D対応の自動採点システムを提案します。具体的には、オブジェクトレベルと素材主観評価のためのビデオベース表現を活用して時空間的一貫性のモデリングを強化し、パートレベルの知覚には事前学習済みの3D特徴を採用します。大規模な実験により、我々のアプローチが既存の画像ベースメトリクスを上回り、3D特性のモデリングにおいて優れ、人間の選好との高い一致を示すことが実証されました。これにより、手動評価に代わるスケーラブルな代替手段を提供します。プロジェクトページはhttps://zyh482.github.io/Hi3DEval/で公開されています。
English
Despite rapid advances in 3D content generation, quality assessment for the generated 3D assets remains challenging. Existing methods mainly rely on image-based metrics and operate solely at the object level, limiting their ability to capture spatial coherence, material authenticity, and high-fidelity local details. 1) To address these challenges, we introduce Hi3DEval, a hierarchical evaluation framework tailored for 3D generative content. It combines both object-level and part-level evaluation, enabling holistic assessments across multiple dimensions as well as fine-grained quality analysis. Additionally, we extend texture evaluation beyond aesthetic appearance by explicitly assessing material realism, focusing on attributes such as albedo, saturation, and metallicness. 2) To support this framework, we construct Hi3DBench, a large-scale dataset comprising diverse 3D assets and high-quality annotations, accompanied by a reliable multi-agent annotation pipeline. We further propose a 3D-aware automated scoring system based on hybrid 3D representations. Specifically, we leverage video-based representations for object-level and material-subject evaluations to enhance modeling of spatio-temporal consistency and employ pretrained 3D features for part-level perception. Extensive experiments demonstrate that our approach outperforms existing image-based metrics in modeling 3D characteristics and achieves superior alignment with human preference, providing a scalable alternative to manual evaluations. The project page is available at https://zyh482.github.io/Hi3DEval/.
PDF283August 8, 2025