3Dアリーナ:生成的3D評価のためのオープンプラットフォーム
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
著者: Dylan Ebert
cs.AI
要旨
生成3Dモデルの評価は、自動化されたメトリクスと人間の品質認識との間の不一致により、依然として課題を抱えている。現在のベンチマークは、3D構造を無視する画像ベースのメトリクスや、知覚的魅力や実世界での有用性を捉えられない幾何学的測定に依存している。このギャップを埋めるため、我々は3D Arenaを提案する。これは、ペアワイズ比較を用いた大規模な人間の嗜好収集を通じて、画像から3D生成モデルを評価するためのオープンプラットフォームである。
2024年6月の立ち上げ以来、このプラットフォームは8,096人のユーザーから19の最先端モデルに対して123,243票を収集し、生成3Dにおける最大規模の人間の嗜好評価を確立した。我々は100の評価プロンプトからなるiso3dデータセットを提供し、統計的な不正検出を通じて99.75%のユーザー真正性を達成する品質管理を実証した。ELOベースのランキングシステムは信頼性の高いモデル評価を提供し、プラットフォームは確立された評価リソースとなっている。
この嗜好データの分析を通じて、我々は人間の嗜好パターンに関する洞察を提示する。我々の調査結果は、視覚的プレゼンテーションの特徴に対する嗜好を明らかにし、ガウススプラット出力がメッシュに対して16.6 ELOの優位性を持ち、テクスチャ付きモデルがテクスチャなしモデルに対して144.1 ELOの優位性を持つことを示している。我々は、多基準評価、タスク指向評価、フォーマットを考慮した比較を含む評価方法の改善に関する提言を提供する。プラットフォームのコミュニティエンゲージメントは、3D Arenaを分野のベンチマークとして確立するとともに、生成3Dにおける人間中心の評価の理解を進めるものである。
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.