GPT-4V(ision) ist ein menschlich ausgerichteter Evaluator für die Text-zu-3D-Generierung.
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
January 8, 2024
Autoren: Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein
cs.AI
Zusammenfassung
Trotz der jüngsten Fortschritte bei text-zu-3D-generativen Methoden besteht ein bemerkenswerter Mangel an zuverlässigen Evaluationsmetriken. Bisherige Metriken konzentrieren sich meist jeweils auf ein einzelnes Kriterium, wie beispielsweise die Übereinstimmung des erzeugten Assets mit dem Eingabetext. Diese Metriken sind nicht flexibel genug, um sich auf verschiedene Evaluationskriterien zu verallgemeinern, und stimmen oft nicht gut mit menschlichen Präferenzen überein. Die Durchführung von Nutzerpräferenzstudien stellt eine Alternative dar, die sowohl Anpassungsfähigkeit als auch menschenorientierte Ergebnisse bietet. Nutzerstudien können jedoch sehr kostspielig sein, insbesondere bei größerem Umfang. Dieses Papier präsentiert eine automatische, vielseitige und menschenorientierte Evaluationsmetrik für text-zu-3D-generative Modelle. Zu diesem Zweck entwickeln wir zunächst einen Prompt-Generator, der GPT-4V verwendet, um Evaluations-Prompts zu erzeugen, die als Eingabe für den Vergleich von text-zu-3D-Modellen dienen. Weiterhin entwerfen wir eine Methode, die GPT-4V anweist, zwei 3D-Assets gemäß benutzerdefinierter Kriterien zu vergleichen. Schließlich nutzen wir diese paarweisen Vergleichsergebnisse, um diesen Modellen Elo-Bewertungen zuzuweisen. Experimentelle Ergebnisse deuten darauf hin, dass unsere Metrik stark mit menschlichen Präferenzen über verschiedene Evaluationskriterien hinweg übereinstimmt.
English
Despite recent advances in text-to-3D generative methods, there is a notable
absence of reliable evaluation metrics. Existing metrics usually focus on a
single criterion each, such as how well the asset aligned with the input text.
These metrics lack the flexibility to generalize to different evaluation
criteria and might not align well with human preferences. Conducting user
preference studies is an alternative that offers both adaptability and
human-aligned results. User studies, however, can be very expensive to scale.
This paper presents an automatic, versatile, and human-aligned evaluation
metric for text-to-3D generative models. To this end, we first develop a prompt
generator using GPT-4V to generate evaluating prompts, which serve as input to
compare text-to-3D models. We further design a method instructing GPT-4V to
compare two 3D assets according to user-defined criteria. Finally, we use these
pairwise comparison results to assign these models Elo ratings. Experimental
results suggest our metric strongly align with human preference across
different evaluation criteria.