Treinamento Durante o Teste em Fluxos de Vídeo
Test-Time Training on Video Streams
July 11, 2023
Autores: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Resumo
Trabalhos anteriores estabeleceram o treinamento em tempo de teste (TTT) como uma estrutura geral para melhorar ainda mais um modelo treinado durante o teste. Antes de fazer uma previsão sobre cada instância de teste, o modelo é treinado na mesma instância usando uma tarefa auto-supervisionada, como a reconstrução de imagens com autoencoders mascarados. Nós estendemos o TTT para o cenário de streaming, onde múltiplas instâncias de teste - no nosso caso, quadros de vídeo - chegam em ordem temporal. Nossa extensão é o TTT online: o modelo atual é inicializado a partir do modelo anterior, então treinado no quadro atual e em uma pequena janela de quadros imediatamente anteriores. O TTT online supera significativamente a linha de base de modelo fixo em quatro tarefas, em três conjuntos de dados do mundo real. A melhoria relativa é de 45% e 66% para segmentação de instância e panóptica. Surpreendentemente, o TTT online também supera sua variante offline que acessa mais informações, treinando em todos os quadros de todo o vídeo de teste, independentemente da ordem temporal. Isso difere de descobertas anteriores usando vídeos sintéticos. Conceituamos a localidade como a vantagem do TTT online sobre o offline. Analisamos o papel da localidade com ablações e uma teoria baseada no trade-off entre viés e variância.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.