Entrenamiento en Tiempo de Prueba en Flujos de Video
Test-Time Training on Video Streams
July 11, 2023
Autores: Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang
cs.AI
Resumen
Trabajos previos han establecido el entrenamiento en tiempo de prueba (TTT, por sus siglas en inglés) como un marco general para mejorar aún más un modelo entrenado durante la prueba. Antes de realizar una predicción sobre cada instancia de prueba, el modelo se entrena en la misma instancia utilizando una tarea autosupervisada, como la reconstrucción de imágenes con autoencoders enmascarados. Extendemos TTT al entorno de transmisión continua, donde múltiples instancias de prueba —en nuestro caso, fotogramas de video— llegan en orden temporal. Nuestra extensión es el TTT en línea: el modelo actual se inicializa a partir del modelo anterior, luego se entrena en el fotograma actual y una pequeña ventana de fotogramas inmediatamente anteriores. El TTT en línea supera significativamente la línea base del modelo fijo en cuatro tareas, utilizando tres conjuntos de datos del mundo real. La mejora relativa es del 45% y 66% para la segmentación de instancias y panóptica, respectivamente. Sorprendentemente, el TTT en línea también supera a su variante fuera de línea, que accede a más información al entrenarse en todos los fotogramas del video de prueba completo, independientemente del orden temporal. Esto difiere de hallazgos previos que utilizaron videos sintéticos. Conceptualizamos la localidad como la ventaja del TTT en línea sobre el fuera de línea. Analizamos el papel de la localidad con ablaciones y una teoría basada en el equilibrio entre sesgo y varianza.
English
Prior work has established test-time training (TTT) as a general framework to
further improve a trained model at test time. Before making a prediction on
each test instance, the model is trained on the same instance using a
self-supervised task, such as image reconstruction with masked autoencoders. We
extend TTT to the streaming setting, where multiple test instances - video
frames in our case - arrive in temporal order. Our extension is online TTT: The
current model is initialized from the previous model, then trained on the
current frame and a small window of frames immediately before. Online TTT
significantly outperforms the fixed-model baseline for four tasks, on three
real-world datasets. The relative improvement is 45% and 66% for instance and
panoptic segmentation. Surprisingly, online TTT also outperforms its offline
variant that accesses more information, training on all frames from the entire
test video regardless of temporal order. This differs from previous findings
using synthetic videos. We conceptualize locality as the advantage of online
over offline TTT. We analyze the role of locality with ablations and a theory
based on bias-variance trade-off.