ChatPaper.aiChatPaper

¿Ayuda el preentrenamiento visual al razonamiento de extremo a extremo?

Does Visual Pretraining Help End-to-End Reasoning?

July 17, 2023
Autores: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI

Resumen

Nuestro objetivo es investigar si el aprendizaje de extremo a extremo del razonamiento visual puede lograrse con redes neuronales de propósito general, con la ayuda de un preentrenamiento visual. Un resultado positivo refutaría la creencia común de que la abstracción visual explícita (por ejemplo, la detección de objetos) es esencial para la generalización composicional en el razonamiento visual, y confirmaría la viabilidad de una red neuronal "generalista" para resolver tareas de reconocimiento y razonamiento visual. Proponemos un marco simple y general de auto-supervisión que "comprime" cada fotograma de video en un pequeño conjunto de tokens mediante una red transformadora, y reconstruye los fotogramas restantes basándose en el contexto temporal comprimido. Para minimizar la pérdida de reconstrucción, la red debe aprender una representación compacta de cada imagen, así como capturar la dinámica temporal y la permanencia de los objetos a partir del contexto temporal. Realizamos evaluaciones en dos benchmarks de razonamiento visual, CATER y ACRE. Observamos que el preentrenamiento es esencial para lograr la generalización composicional en el razonamiento visual de extremo a extremo. Nuestro marco propuesto supera con amplios márgenes los enfoques tradicionales de preentrenamiento supervisado, incluyendo la clasificación de imágenes y la detección explícita de objetos.
English
We aim to investigate whether end-to-end learning of visual reasoning can be achieved with general-purpose neural networks, with the help of visual pretraining. A positive result would refute the common belief that explicit visual abstraction (e.g. object detection) is essential for compositional generalization on visual reasoning, and confirm the feasibility of a neural network "generalist" to solve visual recognition and reasoning tasks. We propose a simple and general self-supervised framework which "compresses" each video frame into a small set of tokens with a transformer network, and reconstructs the remaining frames based on the compressed temporal context. To minimize the reconstruction loss, the network must learn a compact representation for each image, as well as capture temporal dynamics and object permanence from temporal context. We perform evaluation on two visual reasoning benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve compositional generalization for end-to-end visual reasoning. Our proposed framework outperforms traditional supervised pretraining, including image classification and explicit object detection, by large margins.
PDF70December 15, 2024