3D Arena: Een Open Platform voor Generatieve 3D-Evaluatie
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
Auteurs: Dylan Ebert
cs.AI
Samenvatting
Het evalueren van generatieve 3D-modellen blijft een uitdaging vanwege een gebrek aan overeenstemming tussen geautomatiseerde metrieken en de menselijke perceptie van kwaliteit. Huidige benchmarks vertrouwen op op afbeeldingen gebaseerde metrieken die de 3D-structuur negeren, of geometrische maatstaven die de perceptuele aantrekkingskracht en praktische bruikbaarheid niet vastleggen. Om deze kloof te overbruggen, presenteren we 3D Arena, een open platform voor het evalueren van beeld-naar-3D-generatiemodellen door middel van grootschalige verzameling van menselijke voorkeuren via paarsgewijze vergelijkingen.
Sinds de lancering in juni 2024 heeft het platform 123.243 stemmen verzameld van 8.096 gebruikers over 19 state-of-the-art modellen, waarmee het de grootste evaluatie van menselijke voorkeuren voor generatieve 3D-modellen tot stand heeft gebracht. We dragen de iso3d-dataset bij, bestaande uit 100 evaluatieprompts, en demonstreren kwaliteitscontrole die een gebruikersauthenticiteit van 99,75% bereikt door middel van statistische fraudedetectie. Ons ELO-gebaseerde rankingsysteem biedt een betrouwbare modelbeoordeling, waardoor het platform een gevestigde evaluatiebron is geworden.
Door analyse van deze voorkeursgegevens presenteren we inzichten in menselijke voorkeurspatronen. Onze bevindingen onthullen voorkeuren voor visuele presentatiekenmerken, waarbij Gaussische splat-uitvoeren een ELO-voordeel van 16,6 behalen ten opzichte van meshes, en getextureerde modellen een ELO-voordeel van 144,1 ten opzichte van niet-getextureerde modellen. We geven aanbevelingen voor het verbeteren van evaluatiemethoden, waaronder multi-criteria-beoordeling, taakgerichte evaluatie en formaatbewuste vergelijking. De betrokkenheid van de gemeenschap bij het platform vestigt 3D Arena als een benchmark voor het vakgebied en bevordert het begrip van mensgerichte evaluatie in generatieve 3D.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.