視覚的プリトレーニングはエンドツーエンド推論に役立つか?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
著者: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
要旨
我々は、視覚的プリトレーニングの助けを借りて、汎用ニューラルネットワークによるエンドツーエンドの視覚推論学習が可能かどうかを調査することを目指しています。肯定的な結果は、明示的な視覚的抽象化(例:物体検出)が視覚推論における合成的汎化に不可欠であるという一般的な信念を覆し、視覚認識と推論タスクを解決するニューラルネットワーク「ジェネラリスト」の実現可能性を確認するものです。我々は、各ビデオフレームをトランスフォーマーネットワークを用いて少数のトークンに「圧縮」し、圧縮された時間的文脈に基づいて残りのフレームを再構築する、シンプルで汎用的な自己教師ありフレームワークを提案します。再構築損失を最小化するために、ネットワークは各画像のコンパクトな表現を学習し、時間的文脈から時間的ダイナミクスと物体の永続性を捉える必要があります。我々は、視覚推論ベンチマークであるCATERとACREで評価を行いました。その結果、エンドツーエンドの視覚推論における合成的汎化を達成するためには、プリトレーニングが不可欠であることが観察されました。提案したフレームワークは、画像分類や明示的な物体検出を含む従来の教師ありプリトレーニングを大幅に上回る性能を示しました。
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.