Обучение во время тестирования на видеопотоках
Test-Time Training on Video Streams
July 11, 2023
Авторы: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Аннотация
Предыдущие работы установили обучение во время тестирования (Test-Time Training, TTT) как общую структуру для дальнейшего улучшения обученной модели в процессе тестирования. Перед тем как сделать предсказание для каждого тестового экземпляра, модель обучается на этом же экземпляре с использованием задачи самообучения, например, восстановления изображений с помощью маскированных автоэнкодеров. Мы расширяем TTT для потоковой обработки, где несколько тестовых экземпляров — в нашем случае кадры видео — поступают в временном порядке. Наше расширение — это онлайн TTT: текущая модель инициализируется из предыдущей модели, затем обучается на текущем кадре и небольшом окне кадров, непосредственно предшествующих ему. Онлайн TTT значительно превосходит базовую модель с фиксированными параметрами для четырех задач на трех реальных наборах данных. Относительное улучшение составляет 45% и 66% для задач инстанс-сегментации и панорамной сегментации. Удивительно, но онлайн TTT также превосходит свою оффлайн-версию, которая использует больше информации, обучаясь на всех кадрах из всего тестового видео независимо от временного порядка. Это отличается от предыдущих результатов, полученных с использованием синтетических видео. Мы концептуализируем локальность как преимущество онлайн TTT перед оффлайн TTT. Мы анализируем роль локальности с помощью абляционных экспериментов и теории, основанной на компромиссе между смещением и дисперсией.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.