Entraînement au moment du test sur des flux vidéo

papers.abstract

Les travaux antérieurs ont établi l'entraînement au moment du test (Test-Time Training, TTT) comme un cadre général pour améliorer davantage un modèle déjà entraîné lors de son utilisation. Avant de faire une prédiction sur chaque instance de test, le modèle est entraîné sur cette même instance en utilisant une tâche auto-supervisée, telle que la reconstruction d'images avec des autoencodeurs masqués. Nous étendons le TTT au contexte de flux continu, où plusieurs instances de test - dans notre cas, des images vidéo - arrivent dans un ordre temporel. Notre extension est le TTT en ligne : le modèle actuel est initialisé à partir du modèle précédent, puis entraîné sur l'image courante et une petite fenêtre d'images immédiatement précédentes. Le TTT en ligne surpasse significativement le modèle fixe de référence pour quatre tâches, sur trois ensembles de données réels. L'amélioration relative est de 45 % et 66 % pour la segmentation par instance et panoptique. Étonnamment, le TTT en ligne surpasse également sa variante hors ligne, qui a accès à plus d'informations en s'entraînant sur toutes les images de la vidéo de test, indépendamment de l'ordre temporel. Cela diffère des résultats précédents obtenus avec des vidéos synthétiques. Nous conceptualisons la localité comme l'avantage du TTT en ligne par rapport au TTT hors ligne. Nous analysons le rôle de la localité à travers des ablations et une théorie basée sur le compromis biais-variance.

English

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.

Entraînement au moment du test sur des flux vidéo

Test-Time Training on Video Streams

papers.abstract

Support