La pré-entraînement visuel améliore-t-il le raisonnement de bout en bout ?

Résumé

Nous cherchons à déterminer si l'apprentissage de bout en bout du raisonnement visuel peut être réalisé avec des réseaux de neurones à usage général, grâce à un prétraitement visuel. Un résultat positif remettrait en question l'idée commune selon laquelle une abstraction visuelle explicite (par exemple, la détection d'objets) est essentielle pour la généralisation compositionnelle dans le raisonnement visuel, et confirmerait la faisabilité d'un réseau de neurones "généraliste" capable de résoudre des tâches de reconnaissance et de raisonnement visuels. Nous proposons un cadre simple et général d'apprentissage auto-supervisé qui "compresse" chaque image vidéo en un petit ensemble de tokens à l'aide d'un réseau de type transformer, puis reconstruit les images suivantes en se basant sur le contexte temporel compressé. Pour minimiser la perte de reconstruction, le réseau doit apprendre une représentation compacte de chaque image, tout en capturant la dynamique temporelle et la permanence des objets à partir du contexte temporel. Nous évaluons notre approche sur deux benchmarks de raisonnement visuel, CATER et ACRE. Nous observons que le prétraitement est essentiel pour atteindre une généralisation compositionnelle dans le raisonnement visuel de bout en bout. Notre cadre proposé surpasse largement les méthodes traditionnelles de prétraitement supervisé, y compris la classification d'images et la détection explicite d'objets.

English

We aim to investigate whether end-to-end learning of visual reasoning can be achieved with general-purpose neural networks, with the help of visual pretraining. A positive result would refute the common belief that explicit visual abstraction (e.g. object detection) is essential for compositional generalization on visual reasoning, and confirm the feasibility of a neural network "generalist" to solve visual recognition and reasoning tasks. We propose a simple and general self-supervised framework which "compresses" each video frame into a small set of tokens with a transformer network, and reconstructs the remaining frames based on the compressed temporal context. To minimize the reconstruction loss, the network must learn a compact representation for each image, as well as capture temporal dynamics and object permanence from temporal context. We perform evaluation on two visual reasoning benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve compositional generalization for end-to-end visual reasoning. Our proposed framework outperforms traditional supervised pretraining, including image classification and explicit object detection, by large margins.

La pré-entraînement visuel améliore-t-il le raisonnement de bout en bout ?

Does Visual Pretraining Help End-to-End Reasoning?

Résumé

Support