A pré-treinamento visual ajuda no raciocínio de ponta a ponta?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
Autores: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
Resumo
Nosso objetivo é investigar se o aprendizado de ponta a ponta para raciocínio visual pode ser alcançado com redes neurais de propósito geral, com o auxílio de pré-treinamento visual. Um resultado positivo refutaria a crença comum de que a abstração visual explícita (por exemplo, detecção de objetos) é essencial para a generalização composicional em raciocínio visual, e confirmaria a viabilidade de uma rede neural "generalista" para resolver tarefas de reconhecimento e raciocínio visual. Propomos uma estrutura simples e geral de auto-supervisão que "comprime" cada quadro de vídeo em um pequeno conjunto de tokens com uma rede transformadora, e reconstrói os quadros restantes com base no contexto temporal comprimido. Para minimizar a perda de reconstrução, a rede deve aprender uma representação compacta para cada imagem, além de capturar a dinâmica temporal e a permanência de objetos a partir do contexto temporal. Realizamos avaliações em dois benchmarks de raciocínio visual, CATER e ACRE. Observamos que o pré-treinamento é essencial para alcançar a generalização composicional no raciocínio visual de ponta a ponta. Nossa estrutura proposta supera o pré-treinamento supervisionado tradicional, incluindo classificação de imagens e detecção explícita de objetos, por amplas margens.
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.