Helpt visuele voorpretraining bij end-to-end redeneren?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
Auteurs: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
Samenvatting
We onderzoeken of end-to-end leren van visueel redeneren kan worden bereikt met algemene neurale netwerken, met behulp van visuele voorafgaande training. Een positief resultaat zou de gangbare opvatting weerleggen dat expliciete visuele abstractie (bijvoorbeeld objectdetectie) essentieel is voor compositionele generalisatie bij visueel redeneren, en zou de haalbaarheid bevestigen van een "generalist" neuraal netwerk om visuele herkenning en redeneertaken op te lossen. We stellen een eenvoudig en algemeen zelfgesuperviseerd raamwerk voor dat elk videoframe "comprimeert" tot een kleine set tokens met een transformernetwerk en de resterende frames reconstrueert op basis van de gecomprimeerde temporele context. Om het reconstructieverlies te minimaliseren, moet het netwerk een compacte representatie voor elke afbeelding leren, evenals temporele dynamiek en objectpermanentie vastleggen uit de temporele context. We voeren evaluatie uit op twee benchmarks voor visueel redeneren, CATER en ACRE. We observeren dat voorafgaande training essentieel is om compositionele generalisatie te bereiken voor end-to-end visueel redeneren. Ons voorgestelde raamwerk overtreft traditionele gesuperviseerde voorafgaande training, inclusief beeldclassificatie en expliciete objectdetectie, met grote marges.
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.