GPT-4V(ision)は、テキストから3D生成への人間志向の評価ツールです。
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
January 8, 2024
著者: Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein
cs.AI
要旨
テキストから3Dを生成する手法が近年進歩しているにもかかわらず、信頼性の高い評価指標が顕著に欠如している。既存の指標は通常、入力テキストと生成物の整合性など、単一の基準に焦点を当てている。これらの指標は、異なる評価基準に一般化する柔軟性に欠けており、人間の好みと必ずしも一致しない場合がある。ユーザー選好調査を実施することは、適応性と人間の好みに沿った結果を提供する代替手段である。しかし、ユーザー調査は規模を拡大するのに非常にコストがかかる。本論文では、テキストから3Dを生成するモデルのための自動的で汎用的、かつ人間の好みに沿った評価指標を提案する。この目的のために、まずGPT-4Vを使用して評価用のプロンプトを生成するプロンプトジェネレータを開発し、これをテキストから3Dモデルを比較するための入力として使用する。さらに、GPT-4Vにユーザー定義の基準に従って2つの3Dアセットを比較する方法を設計する。最後に、これらのペアワイズ比較結果を使用して、これらのモデルにEloレーティングを割り当てる。実験結果は、提案する指標が異なる評価基準において人間の好みと強く一致することを示唆している。
English
Despite recent advances in text-to-3D generative methods, there is a notable
absence of reliable evaluation metrics. Existing metrics usually focus on a
single criterion each, such as how well the asset aligned with the input text.
These metrics lack the flexibility to generalize to different evaluation
criteria and might not align well with human preferences. Conducting user
preference studies is an alternative that offers both adaptability and
human-aligned results. User studies, however, can be very expensive to scale.
This paper presents an automatic, versatile, and human-aligned evaluation
metric for text-to-3D generative models. To this end, we first develop a prompt
generator using GPT-4V to generate evaluating prompts, which serve as input to
compare text-to-3D models. We further design a method instructing GPT-4V to
compare two 3D assets according to user-defined criteria. Finally, we use these
pairwise comparison results to assign these models Elo ratings. Experimental
results suggest our metric strongly align with human preference across
different evaluation criteria.