3D Arena: Eine offene Plattform für die generative 3D-Evaluierung
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
Autoren: Dylan Ebert
cs.AI
Zusammenfassung
Die Bewertung generativer 3D-Modelle bleibt aufgrund der Fehlausrichtung zwischen automatisierten Metriken und der menschlichen Wahrnehmung von Qualität eine Herausforderung. Aktuelle Benchmarks stützen sich auf bildbasierte Metriken, die die 3D-Struktur ignorieren, oder geometrische Maße, die den wahrnehmungsbezogenen Reiz und den praktischen Nutzen in der realen Welt nicht erfassen. Um diese Lücke zu schließen, präsentieren wir 3D Arena, eine offene Plattform zur Bewertung von Bild-zu-3D-Generierungsmodellen durch die groß angelegte Sammlung menschlicher Präferenzen mittels paarweiser Vergleiche.
Seit dem Start im Juni 2024 hat die Plattform 123.243 Stimmen von 8.096 Nutzern für 19 state-of-the-art Modelle gesammelt und damit die größte menschliche Präferenzbewertung für generative 3D-Modelle etabliert. Wir stellen das iso3d-Datenset mit 100 Bewertungsanfragen bereit und demonstrieren eine Qualitätskontrolle, die durch statistische Betrugserkennung eine Nutzerauthentizität von 99,75 % erreicht. Unser ELO-basiertes Rankingsystem bietet eine zuverlässige Modellbewertung, wodurch die Plattform zu einer etablierten Bewertungsressource geworden ist.
Durch die Analyse dieser Präferenzdaten präsentieren wir Einblicke in menschliche Präferenzmuster. Unsere Ergebnisse zeigen Vorlieben für visuelle Darstellungsmerkmale, wobei Gaußsche Splat-Ausgaben einen ELO-Vorteil von 16,6 gegenüber Netzen erzielen und texturierte Modelle einen ELO-Vorteil von 144,1 gegenüber nicht texturierten Modellen erhalten. Wir geben Empfehlungen zur Verbesserung der Bewertungsmethoden, einschließlich der multikriteriellen Bewertung, der aufgabenorientierten Evaluation und des formatbewussten Vergleichs. Das Engagement der Community etabliert 3D Arena als Benchmark für das Feld und fördert gleichzeitig das Verständnis der menschzentrierten Bewertung in der generativen 3D-Modellierung.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.