Entrenamiento en Tiempo de Prueba en Flujos de Video

Resumen

Trabajos previos han establecido el entrenamiento en tiempo de prueba (TTT, por sus siglas en inglés) como un marco general para mejorar aún más un modelo entrenado durante la prueba. Antes de realizar una predicción sobre cada instancia de prueba, el modelo se entrena en la misma instancia utilizando una tarea autosupervisada, como la reconstrucción de imágenes con autoencoders enmascarados. Extendemos TTT al entorno de transmisión continua, donde múltiples instancias de prueba —en nuestro caso, fotogramas de video— llegan en orden temporal. Nuestra extensión es el TTT en línea: el modelo actual se inicializa a partir del modelo anterior, luego se entrena en el fotograma actual y una pequeña ventana de fotogramas inmediatamente anteriores. El TTT en línea supera significativamente la línea base del modelo fijo en cuatro tareas, utilizando tres conjuntos de datos del mundo real. La mejora relativa es del 45% y 66% para la segmentación de instancias y panóptica, respectivamente. Sorprendentemente, el TTT en línea también supera a su variante fuera de línea, que accede a más información al entrenarse en todos los fotogramas del video de prueba completo, independientemente del orden temporal. Esto difiere de hallazgos previos que utilizaron videos sintéticos. Conceptualizamos la localidad como la ventaja del TTT en línea sobre el fuera de línea. Analizamos el papel de la localidad con ablaciones y una teoría basada en el equilibrio entre sesgo y varianza.

English

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.

Entrenamiento en Tiempo de Prueba en Flujos de Video

Test-Time Training on Video Streams

Resumen

Support