ビデオストリームにおけるテスト時トレーニング
Test-Time Training on Video Streams
July 11, 2023
著者: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
要旨
先行研究では、テスト時に訓練済みモデルをさらに改善するための一般的なフレームワークとしてテスト時訓練(TTT)が確立されています。各テストインスタンスに対して予測を行う前に、マスク付きオートエンコーダーを用いた画像再構成などの自己教師ありタスクを使用して、同じインスタンス上でモデルを訓練します。本研究では、TTTをストリーミング設定に拡張します。ここでは、複数のテストインスタンス(本研究ではビデオフレーム)が時間順に到着します。我々の拡張はオンラインTTTです:現在のモデルは前のモデルから初期化され、現在のフレームと直近の小さなウィンドウのフレーム上で訓練されます。オンラインTTTは、3つの実世界のデータセットにおける4つのタスクで、固定モデルのベースラインを大幅に上回りました。インスタンスセグメンテーションとパノプティックセグメンテーションでは、それぞれ45%と66%の相対的な改善が見られました。驚くべきことに、オンラインTTTは、時間順序に関係なくテストビデオ全体のすべてのフレームにアクセスして訓練するオフライン変種をも上回りました。これは、合成ビデオを使用した以前の知見とは異なります。我々は、オンラインTTTがオフラインTTTに対して持つ利点として局所性を概念化します。局所性の役割を、アブレーションとバイアス-バリアンスのトレードオフに基づく理論を用いて分析します。
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.