Test-Time Training auf Video-Streams
Test-Time Training on Video Streams
July 11, 2023
Autoren: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Zusammenfassung
Frühere Arbeiten haben Test-Time Training (TTT) als allgemeines Framework etabliert, um ein trainiertes Modell zur Testzeit weiter zu verbessern. Bevor eine Vorhersage für jede Testinstanz getroffen wird, wird das Modell auf derselben Instanz mithilfe einer selbstüberwachten Aufgabe trainiert, wie beispielsweise Bildrekonstruktion mit maskierten Autoencodern. Wir erweitern TTT auf das Streaming-Setting, bei dem mehrere Testinstanzen – in unserem Fall Videobilder – in zeitlicher Reihenfolge eintreffen. Unsere Erweiterung ist Online-TTT: Das aktuelle Modell wird vom vorherigen Modell initialisiert und dann auf dem aktuellen Bild sowie einem kleinen Fenster von unmittelbar vorherigen Bildern trainiert. Online-TTT übertrifft die Baseline mit festem Modell bei vier Aufgaben auf drei realen Datensätzen deutlich. Die relative Verbesserung beträgt 45 % und 66 % für Instanz- und panoptische Segmentierung. Überraschenderweise übertrifft Online-TTT auch seine Offline-Variante, die auf mehr Informationen zugreift und auf allen Bildern des gesamten Testvideos unabhängig von der zeitlichen Reihenfolge trainiert. Dies unterscheidet sich von früheren Ergebnissen mit synthetischen Videos. Wir konzeptualisieren Lokalität als den Vorteil von Online- gegenüber Offline-TTT. Wir analysieren die Rolle der Lokalität mit Ablationen und einer Theorie basierend auf dem Bias-Varianz-Kompromiss.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.