Addestramento al Momento del Test su Flussi Video

Abstract

Il lavoro precedente ha stabilito il test-time training (TTT) come un framework generale per migliorare ulteriormente un modello addestrato durante il test. Prima di effettuare una previsione su ciascuna istanza di test, il modello viene addestrato sulla stessa istanza utilizzando un task auto-supervisionato, come la ricostruzione di immagini con autoencoder mascherati. Estendiamo il TTT al contesto di streaming, in cui più istanze di test - nel nostro caso fotogrammi video - arrivano in ordine temporale. La nostra estensione è il TTT online: il modello corrente viene inizializzato dal modello precedente, quindi addestrato sul fotogramma corrente e su una piccola finestra di fotogrammi immediatamente precedenti. Il TTT online supera significativamente il baseline a modello fisso per quattro task, su tre dataset del mondo reale. Il miglioramento relativo è del 45% e del 66% rispettivamente per la segmentazione di istanza e panottica. Sorprendentemente, il TTT online supera anche la sua variante offline che accede a più informazioni, addestrandosi su tutti i fotogrammi dell'intero video di test indipendentemente dall'ordine temporale. Questo differisce dai risultati precedenti ottenuti utilizzando video sintetici. Concettualizziamo la località come il vantaggio del TTT online rispetto a quello offline. Analizziamo il ruolo della località con ablazioni e una teoria basata sul trade-off bias-varianza.

English

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.

Addestramento al Momento del Test su Flussi Video

Test-Time Training on Video Streams

Abstract

Support