Обучение во время тестирования на видеопотоках

Аннотация

Предыдущие работы установили обучение во время тестирования (Test-Time Training, TTT) как общую структуру для дальнейшего улучшения обученной модели в процессе тестирования. Перед тем как сделать предсказание для каждого тестового экземпляра, модель обучается на этом же экземпляре с использованием задачи самообучения, например, восстановления изображений с помощью маскированных автоэнкодеров. Мы расширяем TTT для потоковой обработки, где несколько тестовых экземпляров — в нашем случае кадры видео — поступают в временном порядке. Наше расширение — это онлайн TTT: текущая модель инициализируется из предыдущей модели, затем обучается на текущем кадре и небольшом окне кадров, непосредственно предшествующих ему. Онлайн TTT значительно превосходит базовую модель с фиксированными параметрами для четырех задач на трех реальных наборах данных. Относительное улучшение составляет 45% и 66% для задач инстанс-сегментации и панорамной сегментации. Удивительно, но онлайн TTT также превосходит свою оффлайн-версию, которая использует больше информации, обучаясь на всех кадрах из всего тестового видео независимо от временного порядка. Это отличается от предыдущих результатов, полученных с использованием синтетических видео. Мы концептуализируем локальность как преимущество онлайн TTT перед оффлайн TTT. Мы анализируем роль локальности с помощью абляционных экспериментов и теории, основанной на компромиссе между смещением и дисперсией.

English

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.

Обучение во время тестирования на видеопотоках

Test-Time Training on Video Streams

Аннотация

Support