3D 아레나: 생성형 3D 평가를 위한 오픈 플랫폼
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
저자: Dylan Ebert
cs.AI
초록
생성형 3D 모델 평가는 자동화된 지표와 인간의 품질 인식 간의 불일치로 인해 여전히 어려운 과제로 남아 있다. 현재 벤치마크는 3D 구조를 무시하는 이미지 기반 지표나 지각적 매력과 실제 유용성을 포착하지 못하는 기하학적 측정에 의존하고 있다. 이러한 격차를 해결하기 위해, 우리는 이미지-3D 생성 모델을 평가하기 위한 오픈 플랫폼인 3D Arena를 제안한다. 이 플랫폼은 대규모 인간 선호도 수집을 통해 쌍별 비교를 수행한다.
2024년 6월 출시 이후, 이 플랫폼은 19개의 최신 모델에 대해 8,096명의 사용자로부터 123,243개의 투표를 수집하여 생성형 3D 분야에서 가장 큰 인간 선호도 평가를 확립했다. 우리는 100개의 평가 프롬프트로 구성된 iso3d 데이터셋을 제공하며, 통계적 사기 탐지를 통해 99.75%의 사용자 진위성을 달성한 품질 관리를 입증했다. ELO 기반 랭킹 시스템은 신뢰할 수 있는 모델 평가를 제공하며, 이 플랫폼은 확립된 평가 자원으로 자리 잡았다.
이 선호도 데이터를 분석함으로써, 우리는 인간 선호 패턴에 대한 통찰을 제시한다. 우리의 연구 결과는 가우시안 스플랫 출력이 메시보다 16.6 ELO 우위를, 텍스처가 적용된 모델이 텍스처가 없는 모델보다 144.1 ELO 우위를 달성하는 등 시각적 표현 특징에 대한 선호를 보여준다. 우리는 다중 기준 평가, 작업 지향 평가, 형식 인식 비교를 포함한 평가 방법 개선을 위한 권장 사항을 제공한다. 이 플랫폼의 커뮤니티 참여는 3D Arena를 해당 분야의 벤치마크로 확립함과 동시에 생성형 3D에서 인간 중심 평가에 대한 이해를 진전시킨다.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.