3D Arena : Une Plateforme Ouverte pour l'Évaluation Générative en 3D
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
Auteurs: Dylan Ebert
cs.AI
Résumé
L'évaluation des modèles génératifs 3D reste un défi en raison du désalignement entre les métriques automatisées et la perception humaine de la qualité. Les benchmarks actuels s'appuient sur des métriques basées sur l'image qui ignorent la structure 3D ou sur des mesures géométriques qui ne parviennent pas à capturer l'attrait perceptuel et l'utilité dans le monde réel. Pour combler cette lacune, nous présentons 3D Arena, une plateforme ouverte pour l'évaluation des modèles de génération d'images en 3D grâce à la collecte à grande échelle de préférences humaines via des comparaisons par paires.
Depuis son lancement en juin 2024, la plateforme a recueilli 123 243 votes de 8 096 utilisateurs pour 19 modèles de pointe, établissant ainsi la plus grande évaluation des préférences humaines pour la génération 3D. Nous contribuons avec le jeu de données iso3d de 100 prompts d'évaluation et démontrons un contrôle de qualité atteignant 99,75 % d'authenticité des utilisateurs grâce à une détection statistique de fraude. Notre système de classement basé sur ELO fournit une évaluation fiable des modèles, faisant de la plateforme une ressource d'évaluation établie.
À travers l'analyse de ces données de préférence, nous présentons des insights sur les modèles de préférence humaine. Nos résultats révèlent des préférences pour des caractéristiques de présentation visuelle, avec les sorties de splats gaussiens obtenant un avantage ELO de 16,6 par rapport aux maillages, et les modèles texturés bénéficiant d'un avantage ELO de 144,1 par rapport aux modèles non texturés. Nous proposons des recommandations pour améliorer les méthodes d'évaluation, incluant une évaluation multicritère, une évaluation orientée tâche et une comparaison prenant en compte le format. L'engagement de la communauté autour de la plateforme établit 3D Arena comme un benchmark pour le domaine tout en faisant progresser la compréhension de l'évaluation centrée sur l'humain dans la génération 3D.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.