3D Arena: Een Open Platform voor Generatieve 3D-Evaluatie

Samenvatting

Het evalueren van generatieve 3D-modellen blijft een uitdaging vanwege een gebrek aan overeenstemming tussen geautomatiseerde metrieken en de menselijke perceptie van kwaliteit. Huidige benchmarks vertrouwen op op afbeeldingen gebaseerde metrieken die de 3D-structuur negeren, of geometrische maatstaven die de perceptuele aantrekkingskracht en praktische bruikbaarheid niet vastleggen. Om deze kloof te overbruggen, presenteren we 3D Arena, een open platform voor het evalueren van beeld-naar-3D-generatiemodellen door middel van grootschalige verzameling van menselijke voorkeuren via paarsgewijze vergelijkingen. Sinds de lancering in juni 2024 heeft het platform 123.243 stemmen verzameld van 8.096 gebruikers over 19 state-of-the-art modellen, waarmee het de grootste evaluatie van menselijke voorkeuren voor generatieve 3D-modellen tot stand heeft gebracht. We dragen de iso3d-dataset bij, bestaande uit 100 evaluatieprompts, en demonstreren kwaliteitscontrole die een gebruikersauthenticiteit van 99,75% bereikt door middel van statistische fraudedetectie. Ons ELO-gebaseerde rankingsysteem biedt een betrouwbare modelbeoordeling, waardoor het platform een gevestigde evaluatiebron is geworden. Door analyse van deze voorkeursgegevens presenteren we inzichten in menselijke voorkeurspatronen. Onze bevindingen onthullen voorkeuren voor visuele presentatiekenmerken, waarbij Gaussische splat-uitvoeren een ELO-voordeel van 16,6 behalen ten opzichte van meshes, en getextureerde modellen een ELO-voordeel van 144,1 ten opzichte van niet-getextureerde modellen. We geven aanbevelingen voor het verbeteren van evaluatiemethoden, waaronder multi-criteria-beoordeling, taakgerichte evaluatie en formaatbewuste vergelijking. De betrokkenheid van de gemeenschap bij het platform vestigt 3D Arena als een benchmark voor het vakgebied en bevordert het begrip van mensgerichte evaluatie in generatieve 3D.

English

Evaluating Generative 3D models remains challenging due to misalignment between automated metrics and human perception of quality. Current benchmarks rely on image-based metrics that ignore 3D structure or geometric measures that fail to capture perceptual appeal and real-world utility. To address this gap, we present 3D Arena, an open platform for evaluating image-to-3D generation models through large-scale human preference collection using pairwise comparisons. Since launching in June 2024, the platform has collected 123,243 votes from 8,096 users across 19 state-of-the-art models, establishing the largest human preference evaluation for Generative 3D. We contribute the iso3d dataset of 100 evaluation prompts and demonstrate quality control achieving 99.75% user authenticity through statistical fraud detection. Our ELO-based ranking system provides reliable model assessment, with the platform becoming an established evaluation resource. Through analysis of this preference data, we present insights into human preference patterns. Our findings reveal preferences for visual presentation features, with Gaussian splat outputs achieving a 16.6 ELO advantage over meshes and textured models receiving a 144.1 ELO advantage over untextured models. We provide recommendations for improving evaluation methods, including multi-criteria assessment, task-oriented evaluation, and format-aware comparison. The platform's community engagement establishes 3D Arena as a benchmark for the field while advancing understanding of human-centered evaluation in Generative 3D.

3D Arena: Een Open Platform voor Generatieve 3D-Evaluatie

3D Arena: An Open Platform for Generative 3D Evaluation

Samenvatting

Support