La pre-addestramento visivo aiuta il ragionamento end-to-end?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
Autori: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
Abstract
Il nostro obiettivo è indagare se l'apprendimento end-to-end del ragionamento visivo possa essere raggiunto con reti neurali a scopo generale, con l'aiuto di un pre-addestramento visivo. Un risultato positivo confuterebbe la convinzione comune che l'astrazione visiva esplicita (ad esempio, il rilevamento di oggetti) sia essenziale per la generalizzazione compositiva nel ragionamento visivo, e confermerebbe la fattibilità di una rete neurale "generalista" nel risolvere compiti di riconoscimento e ragionamento visivo. Proponiamo un framework semplice e generale di auto-supervisione che "comprime" ogni fotogramma video in un piccolo insieme di token tramite una rete transformer, e ricostruisce i fotogrammi rimanenti basandosi sul contesto temporale compresso. Per minimizzare la perdita di ricostruzione, la rete deve apprendere una rappresentazione compatta per ogni immagine, oltre a catturare la dinamica temporale e la permanenza degli oggetti dal contesto temporale. Eseguiamo la valutazione su due benchmark di ragionamento visivo, CATER e ACRE. Osserviamo che il pre-addestramento è essenziale per ottenere una generalizzazione compositiva nel ragionamento visivo end-to-end. Il nostro framework proposto supera ampiamente i tradizionali approcci di pre-addestramento supervisionato, inclusi la classificazione delle immagini e il rilevamento esplicito di oggetti.
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.