ChatPaper.aiChatPaper

動的アクションと推論中心の画像編集をビデオとシミュレーションから学習する

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

July 3, 2024
著者: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy
cs.AI

要旨

画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションや動きの実行など、多様な編集を実行できるべきであり、これには多くの形式の推論が必要です。現在の一般的な指示に基づく編集モデルは、アクションや推論中心の編集において重大な欠点を抱えています。オブジェクト、属性、またはスタイルの変更は、視覚的に静的なデータセットから学習することが可能です。一方で、アクションや推論中心の編集のための高品質なデータは不足しており、物理的なダイナミクス、時間性、空間的推論などをカバーする全く異なるソースから得る必要があります。この目的のために、私たちはAURORAデータセット(Action-Reasoning-Object-Attribute)を慎重にキュレーションしました。これは、ビデオやシミュレーションエンジンから人間が注釈を付け、キュレーションした高品質なトレーニングデータのコレクションです。私たちは、高品質なトレーニングデータの重要な側面に焦点を当てています:トリプレット(ソース画像、プロンプト、ターゲット画像)は、プロンプトによって記述された単一の意味のある視覚的変更を含み、つまり、ソース画像とターゲット画像の間の真に最小限の変更です。私たちのデータセットの価値を示すために、AURORAでファインチューニングされたモデルを、8つの多様な編集タスクをカバーする新しい専門家によるベンチマーク(AURORA-Bench)で評価しました。私たちのモデルは、人間の評価者によって判断された場合、以前の編集モデルを大幅に上回りました。自動評価においては、以前のメトリクスに重要な欠陥があることを発見し、意味的に難しい編集タスクでの使用に注意を促します。代わりに、識別的理解に焦点を当てた新しい自動メトリクスを提案します。私たちの取り組みが、(1)高品質なトレーニングデータセットと評価ベンチマークのキュレーション、(2)重要な評価の開発、(3)最先端のモデルのリリースを通じて、一般的な画像編集のさらなる進展を促進することを願っています。
English
An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.

Summary

AI-Generated Summary

PDF322November 28, 2024