ChatPaper.aiChatPaper

Hilft visuelles Pretraining beim end-to-end-Schlussfolgern?

Does Visual Pretraining Help End-to-End Reasoning?

July 17, 2023
Autoren: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI

Zusammenfassung

Wir streben an, zu untersuchen, ob end-to-end-Lernen von visuellem Denken mit allgemeinen neuronalen Netzwerken unter Verwendung von visuellem Pretraining erreicht werden kann. Ein positives Ergebnis würde die verbreitete Annahme widerlegen, dass explizite visuelle Abstraktion (z. B. Objekterkennung) für die kompositionelle Generalisierung beim visuellen Denken unerlässlich ist, und die Machbarkeit eines neuronalen Netzwerk-„Generalisten“ zur Lösung von Aufgaben der visuellen Erkennung und des visuellen Denkens bestätigen. Wir schlagen ein einfaches und allgemeines selbstüberwachtes Framework vor, das jeden Videobildrahmen mit einem Transformer-Netzwerk in eine kleine Menge von Tokens „komprimiert“ und die verbleibenden Rahmen basierend auf dem komprimierten zeitlichen Kontext rekonstruiert. Um den Rekonstruktionsverlust zu minimieren, muss das Netzwerk eine kompakte Darstellung für jedes Bild erlernen sowie zeitliche Dynamiken und Objektpermanenz aus dem zeitlichen Kontext erfassen. Wir führen eine Bewertung anhand von zwei Benchmarks für visuelles Denken durch, CATER und ACRE. Wir beobachten, dass Pretraining entscheidend ist, um kompositionelle Generalisierung für end-to-end visuelles Denken zu erreichen. Unser vorgeschlagenes Framework übertrifft traditionelles überwachtes Pretraining, einschließlich Bildklassifizierung und expliziter Objekterkennung, mit großem Abstand.
English
We aim to investigate whether end-to-end learning of visual reasoning can be achieved with general-purpose neural networks, with the help of visual pretraining. A positive result would refute the common belief that explicit visual abstraction (e.g. object detection) is essential for compositional generalization on visual reasoning, and confirm the feasibility of a neural network "generalist" to solve visual recognition and reasoning tasks. We propose a simple and general self-supervised framework which "compresses" each video frame into a small set of tokens with a transformer network, and reconstructs the remaining frames based on the compressed temporal context. To minimize the reconstruction loss, the network must learn a compact representation for each image, as well as capture temporal dynamics and object permanence from temporal context. We perform evaluation on two visual reasoning benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve compositional generalization for end-to-end visual reasoning. Our proposed framework outperforms traditional supervised pretraining, including image classification and explicit object detection, by large margins.
PDF70December 15, 2024