3D Arena: Una Plataforma Abierta para la Evaluación Generativa en 3D
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
Autores: Dylan Ebert
cs.AI
Resumen
La evaluación de modelos generativos 3D sigue siendo un desafío debido a la desalineación entre las métricas automatizadas y la percepción humana de la calidad. Los puntos de referencia actuales dependen de métricas basadas en imágenes que ignoran la estructura 3D o de medidas geométricas que no logran capturar el atractivo perceptual y la utilidad en el mundo real. Para abordar esta brecha, presentamos 3D Arena, una plataforma abierta para evaluar modelos de generación de imagen a 3D mediante la recopilación a gran escala de preferencias humanas utilizando comparaciones por pares.
Desde su lanzamiento en junio de 2024, la plataforma ha recopilado 123,243 votos de 8,096 usuarios en 19 modelos de última generación, estableciendo la evaluación de preferencias humanas más grande para la generación 3D. Contribuimos con el conjunto de datos iso3d de 100 indicaciones de evaluación y demostramos un control de calidad que alcanza un 99.75% de autenticidad del usuario mediante detección estadística de fraudes. Nuestro sistema de clasificación basado en ELO proporciona una evaluación confiable de los modelos, consolidando la plataforma como un recurso establecido de evaluación.
A través del análisis de estos datos de preferencia, presentamos insights sobre los patrones de preferencia humana. Nuestros hallazgos revelan preferencias por características de presentación visual, con salidas de splat gaussiano obteniendo una ventaja de 16.6 ELO sobre mallas, y modelos texturizados recibiendo una ventaja de 144.1 ELO sobre modelos sin textura. Ofrecemos recomendaciones para mejorar los métodos de evaluación, incluyendo la evaluación multicriterio, la evaluación orientada a tareas y la comparación consciente del formato. El compromiso de la comunidad con la plataforma establece a 3D Arena como un punto de referencia en el campo, al mismo tiempo que avanza la comprensión de la evaluación centrada en el ser humano en la generación 3D.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.