ChatPaper.aiChatPaper

GPT-4V(ision) ist ein menschlich ausgerichteter Evaluator für die Text-zu-3D-Generierung.

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

January 8, 2024
Autoren: Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein
cs.AI

Zusammenfassung

Trotz der jüngsten Fortschritte bei text-zu-3D-generativen Methoden besteht ein bemerkenswerter Mangel an zuverlässigen Evaluationsmetriken. Bisherige Metriken konzentrieren sich meist jeweils auf ein einzelnes Kriterium, wie beispielsweise die Übereinstimmung des erzeugten Assets mit dem Eingabetext. Diese Metriken sind nicht flexibel genug, um sich auf verschiedene Evaluationskriterien zu verallgemeinern, und stimmen oft nicht gut mit menschlichen Präferenzen überein. Die Durchführung von Nutzerpräferenzstudien stellt eine Alternative dar, die sowohl Anpassungsfähigkeit als auch menschenorientierte Ergebnisse bietet. Nutzerstudien können jedoch sehr kostspielig sein, insbesondere bei größerem Umfang. Dieses Papier präsentiert eine automatische, vielseitige und menschenorientierte Evaluationsmetrik für text-zu-3D-generative Modelle. Zu diesem Zweck entwickeln wir zunächst einen Prompt-Generator, der GPT-4V verwendet, um Evaluations-Prompts zu erzeugen, die als Eingabe für den Vergleich von text-zu-3D-Modellen dienen. Weiterhin entwerfen wir eine Methode, die GPT-4V anweist, zwei 3D-Assets gemäß benutzerdefinierter Kriterien zu vergleichen. Schließlich nutzen wir diese paarweisen Vergleichsergebnisse, um diesen Modellen Elo-Bewertungen zuzuweisen. Experimentelle Ergebnisse deuten darauf hin, dass unsere Metrik stark mit menschlichen Präferenzen über verschiedene Evaluationskriterien hinweg übereinstimmt.
English
Despite recent advances in text-to-3D generative methods, there is a notable absence of reliable evaluation metrics. Existing metrics usually focus on a single criterion each, such as how well the asset aligned with the input text. These metrics lack the flexibility to generalize to different evaluation criteria and might not align well with human preferences. Conducting user preference studies is an alternative that offers both adaptability and human-aligned results. User studies, however, can be very expensive to scale. This paper presents an automatic, versatile, and human-aligned evaluation metric for text-to-3D generative models. To this end, we first develop a prompt generator using GPT-4V to generate evaluating prompts, which serve as input to compare text-to-3D models. We further design a method instructing GPT-4V to compare two 3D assets according to user-defined criteria. Finally, we use these pairwise comparison results to assign these models Elo ratings. Experimental results suggest our metric strongly align with human preference across different evaluation criteria.
PDF221December 15, 2024