Addestramento al Momento del Test su Flussi Video
Test-Time Training on Video Streams
July 11, 2023
Autori: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Abstract
Il lavoro precedente ha stabilito il test-time training (TTT) come un framework generale per migliorare ulteriormente un modello addestrato durante il test. Prima di effettuare una previsione su ciascuna istanza di test, il modello viene addestrato sulla stessa istanza utilizzando un task auto-supervisionato, come la ricostruzione di immagini con autoencoder mascherati. Estendiamo il TTT al contesto di streaming, in cui più istanze di test - nel nostro caso fotogrammi video - arrivano in ordine temporale. La nostra estensione è il TTT online: il modello corrente viene inizializzato dal modello precedente, quindi addestrato sul fotogramma corrente e su una piccola finestra di fotogrammi immediatamente precedenti. Il TTT online supera significativamente il baseline a modello fisso per quattro task, su tre dataset del mondo reale. Il miglioramento relativo è del 45% e del 66% rispettivamente per la segmentazione di istanza e panottica. Sorprendentemente, il TTT online supera anche la sua variante offline che accede a più informazioni, addestrandosi su tutti i fotogrammi dell'intero video di test indipendentemente dall'ordine temporale. Questo differisce dai risultati precedenti ottenuti utilizzando video sintetici. Concettualizziamo la località come il vantaggio del TTT online rispetto a quello offline. Analizziamo il ruolo della località con ablazioni e una teoria basata sul trade-off bias-varianza.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.