Test-Time Training op Videostreams
Test-Time Training on Video Streams
July 11, 2023
Auteurs: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Samenvatting
Eerder onderzoek heeft test-time training (TTT) gevestigd als een algemeen raamwerk om een getraind model verder te verbeteren tijdens de testfase. Voordat een voorspelling wordt gemaakt voor elk testgeval, wordt het model getraind op hetzelfde geval met behulp van een zelfgesuperviseerde taak, zoals beeldreconstructie met gemaskeerde auto-encoders. Wij breiden TTT uit naar de streaming-instelling, waarbij meerdere testgevallen – in ons geval videoframes – in temporele volgorde aankomen. Onze uitbreiding is online TTT: het huidige model wordt geïnitialiseerd vanuit het vorige model, waarna het wordt getraind op het huidige frame en een klein venster van frames direct daarvoor. Online TTT presteert aanzienlijk beter dan de baseline met een vast model voor vier taken, op drie real-world datasets. De relatieve verbetering is 45% en 66% voor instance- en panoptische segmentatie. Verrassend genoeg presteert online TTT ook beter dan zijn offline variant, die toegang heeft tot meer informatie door te trainen op alle frames uit de gehele testvideo, ongeacht de temporele volgorde. Dit verschilt van eerdere bevindingen met synthetische video’s. Wij conceptualiseren localiteit als het voordeel van online ten opzichte van offline TTT. We analyseren de rol van localiteit met ablatie-experimenten en een theorie gebaseerd op de bias-variantie-afweging.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.