ChatPaper.aiChatPaper

3D Arena: Uma Plataforma Aberta para Avaliação Generativa em 3D

3D Arena: An Open Platform for Generative 3D Evaluation

June 23, 2025
Autores: Dylan Ebert
cs.AI

Resumo

A avaliação de modelos generativos 3D continua desafiadora devido ao desalinhamento entre métricas automatizadas e a percepção humana de qualidade. Os benchmarks atuais dependem de métricas baseadas em imagens que ignoram a estrutura 3D ou de medidas geométricas que não capturam o apelo perceptivo e a utilidade no mundo real. Para abordar essa lacuna, apresentamos o 3D Arena, uma plataforma aberta para avaliar modelos de geração de imagem-para-3D por meio da coleta em larga escala de preferências humanas usando comparações pareadas. Desde o lançamento em junho de 2024, a plataforma coletou 123.243 votos de 8.096 usuários em 19 modelos de última geração, estabelecendo a maior avaliação de preferência humana para modelos generativos 3D. Contribuímos com o conjunto de dados iso3d, que contém 100 prompts de avaliação, e demonstramos controle de qualidade alcançando 99,75% de autenticidade do usuário por meio de detecção estatística de fraudes. Nosso sistema de classificação baseado em ELO fornece uma avaliação confiável de modelos, consolidando a plataforma como um recurso estabelecido de avaliação. Através da análise desses dados de preferência, apresentamos insights sobre os padrões de preferência humana. Nossas descobertas revelam preferências por características de apresentação visual, com saídas de splat Gaussiano alcançando uma vantagem de 16,6 ELO sobre malhas, e modelos texturizados recebendo uma vantagem de 144,1 ELO sobre modelos não texturizados. Fornecemos recomendações para melhorar os métodos de avaliação, incluindo avaliação multicritério, avaliação orientada a tarefas e comparação consciente do formato. O engajamento da comunidade estabelece o 3D Arena como um benchmark para o campo, ao mesmo tempo em que avança a compreensão da avaliação centrada no humano em modelos generativos 3D.
English
Evaluating Generative 3D models remains challenging due to misalignment between automated metrics and human perception of quality. Current benchmarks rely on image-based metrics that ignore 3D structure or geometric measures that fail to capture perceptual appeal and real-world utility. To address this gap, we present 3D Arena, an open platform for evaluating image-to-3D generation models through large-scale human preference collection using pairwise comparisons. Since launching in June 2024, the platform has collected 123,243 votes from 8,096 users across 19 state-of-the-art models, establishing the largest human preference evaluation for Generative 3D. We contribute the iso3d dataset of 100 evaluation prompts and demonstrate quality control achieving 99.75% user authenticity through statistical fraud detection. Our ELO-based ranking system provides reliable model assessment, with the platform becoming an established evaluation resource. Through analysis of this preference data, we present insights into human preference patterns. Our findings reveal preferences for visual presentation features, with Gaussian splat outputs achieving a 16.6 ELO advantage over meshes and textured models receiving a 144.1 ELO advantage over untextured models. We provide recommendations for improving evaluation methods, including multi-criteria assessment, task-oriented evaluation, and format-aware comparison. The platform's community engagement establishes 3D Arena as a benchmark for the field while advancing understanding of human-centered evaluation in Generative 3D.
PDF122June 24, 2025