La pré-entraînement visuel améliore-t-il le raisonnement de bout en bout ?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
Auteurs: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
Résumé
Nous cherchons à déterminer si l'apprentissage de bout en bout du raisonnement visuel peut être réalisé avec des réseaux de neurones à usage général, grâce à un prétraitement visuel. Un résultat positif remettrait en question l'idée commune selon laquelle une abstraction visuelle explicite (par exemple, la détection d'objets) est essentielle pour la généralisation compositionnelle dans le raisonnement visuel, et confirmerait la faisabilité d'un réseau de neurones "généraliste" capable de résoudre des tâches de reconnaissance et de raisonnement visuels. Nous proposons un cadre simple et général d'apprentissage auto-supervisé qui "compresse" chaque image vidéo en un petit ensemble de tokens à l'aide d'un réseau de type transformer, puis reconstruit les images suivantes en se basant sur le contexte temporel compressé. Pour minimiser la perte de reconstruction, le réseau doit apprendre une représentation compacte de chaque image, tout en capturant la dynamique temporelle et la permanence des objets à partir du contexte temporel. Nous évaluons notre approche sur deux benchmarks de raisonnement visuel, CATER et ACRE. Nous observons que le prétraitement est essentiel pour atteindre une généralisation compositionnelle dans le raisonnement visuel de bout en bout. Notre cadre proposé surpasse largement les méthodes traditionnelles de prétraitement supervisé, y compris la classification d'images et la détection explicite d'objets.
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.