GPT-4V(isión) es un Evaluador Alineado con Humanos para la Generación de Texto a 3D
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
January 8, 2024
Autores: Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein
cs.AI
Resumen
A pesar de los avances recientes en los métodos generativos de texto a 3D, existe una notable ausencia de métricas de evaluación confiables. Las métricas existentes suelen centrarse en un único criterio, como qué tan bien el recurso se alinea con el texto de entrada. Estas métricas carecen de la flexibilidad para generalizarse a diferentes criterios de evaluación y podrían no alinearse bien con las preferencias humanas. Realizar estudios de preferencia de usuarios es una alternativa que ofrece tanto adaptabilidad como resultados alineados con las preferencias humanas. Sin embargo, los estudios de usuarios pueden ser muy costosos de escalar. Este artículo presenta una métrica de evaluación automática, versátil y alineada con las preferencias humanas para modelos generativos de texto a 3D. Para ello, primero desarrollamos un generador de indicaciones utilizando GPT-4V para generar indicaciones de evaluación, que sirven como entrada para comparar modelos de texto a 3D. Además, diseñamos un método que instruye a GPT-4V para comparar dos recursos 3D según criterios definidos por el usuario. Finalmente, utilizamos estos resultados de comparación por pares para asignar a estos modelos calificaciones Elo. Los resultados experimentales sugieren que nuestra métrica se alinea fuertemente con las preferencias humanas en diferentes criterios de evaluación.
English
Despite recent advances in text-to-3D generative methods, there is a notable
absence of reliable evaluation metrics. Existing metrics usually focus on a
single criterion each, such as how well the asset aligned with the input text.
These metrics lack the flexibility to generalize to different evaluation
criteria and might not align well with human preferences. Conducting user
preference studies is an alternative that offers both adaptability and
human-aligned results. User studies, however, can be very expensive to scale.
This paper presents an automatic, versatile, and human-aligned evaluation
metric for text-to-3D generative models. To this end, we first develop a prompt
generator using GPT-4V to generate evaluating prompts, which serve as input to
compare text-to-3D models. We further design a method instructing GPT-4V to
compare two 3D assets according to user-defined criteria. Finally, we use these
pairwise comparison results to assign these models Elo ratings. Experimental
results suggest our metric strongly align with human preference across
different evaluation criteria.