3D Arena: Una Piattaforma Aperta per la Valutazione Generativa in 3D
3D Arena: An Open Platform for Generative 3D Evaluation
June 23, 2025
Autori: Dylan Ebert
cs.AI
Abstract
La valutazione dei modelli generativi 3D rimane una sfida a causa del disallineamento tra le metriche automatizzate e la percezione umana della qualità. Gli attuali benchmark si basano su metriche basate su immagini che ignorano la struttura 3D o su misure geometriche che non catturano l'attrattiva percettiva e l'utilità nel mondo reale. Per colmare questa lacuna, presentiamo 3D Arena, una piattaforma aperta per valutare i modelli di generazione da immagine a 3D attraverso la raccolta su larga scala di preferenze umane utilizzando confronti a coppie.
Dal lancio nel giugno 2024, la piattaforma ha raccolto 123.243 voti da 8.096 utenti su 19 modelli all'avanguardia, stabilendo la più grande valutazione di preferenze umane per la generazione 3D. Contribuiamo con il dataset iso3d di 100 prompt di valutazione e dimostriamo un controllo qualità che raggiunge il 99,75% di autenticità degli utenti attraverso il rilevamento statistico di frodi. Il nostro sistema di ranking basato su ELO fornisce una valutazione affidabile dei modelli, con la piattaforma che è diventata una risorsa consolidata per la valutazione.
Attraverso l'analisi di questi dati di preferenza, presentiamo approfondimenti sui modelli di preferenza umana. Le nostre scoperte rivelano preferenze per le caratteristiche di presentazione visiva, con le uscite di Gaussian splat che ottengono un vantaggio di 16,6 ELO rispetto alle mesh e i modelli texturizzati che ricevono un vantaggio di 144,1 ELO rispetto ai modelli non texturizzati. Forniamo raccomandazioni per migliorare i metodi di valutazione, inclusa la valutazione multi-criterio, la valutazione orientata al compito e il confronto consapevole del formato. L'impegno della comunità della piattaforma stabilisce 3D Arena come un benchmark per il settore, avanzando la comprensione della valutazione centrata sull'uomo nella generazione 3D.
English
Evaluating Generative 3D models remains challenging due to misalignment
between automated metrics and human perception of quality. Current benchmarks
rely on image-based metrics that ignore 3D structure or geometric measures that
fail to capture perceptual appeal and real-world utility. To address this gap,
we present 3D Arena, an open platform for evaluating image-to-3D generation
models through large-scale human preference collection using pairwise
comparisons.
Since launching in June 2024, the platform has collected 123,243 votes from
8,096 users across 19 state-of-the-art models, establishing the largest human
preference evaluation for Generative 3D. We contribute the iso3d dataset of 100
evaluation prompts and demonstrate quality control achieving 99.75% user
authenticity through statistical fraud detection. Our ELO-based ranking system
provides reliable model assessment, with the platform becoming an established
evaluation resource.
Through analysis of this preference data, we present insights into human
preference patterns. Our findings reveal preferences for visual presentation
features, with Gaussian splat outputs achieving a 16.6 ELO advantage over
meshes and textured models receiving a 144.1 ELO advantage over untextured
models. We provide recommendations for improving evaluation methods, including
multi-criteria assessment, task-oriented evaluation, and format-aware
comparison. The platform's community engagement establishes 3D Arena as a
benchmark for the field while advancing understanding of human-centered
evaluation in Generative 3D.