Помогает ли визуальное предобучение сквозному логическому рассуждению?
Does Visual Pretraining Help End-to-End Reasoning?
July 17, 2023
Авторы: Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid
cs.AI
Аннотация
Мы стремимся исследовать, возможно ли достичь сквозного обучения визуальному рассуждению с использованием универсальных нейронных сетей, опираясь на визуальное предварительное обучение. Положительный результат опровергнет распространённое мнение о том, что явная визуальная абстракция (например, детекция объектов) необходима для композиционного обобщения в задачах визуального рассуждения, и подтвердит возможность создания нейронной сети-"универсала", способной решать задачи визуального распознавания и рассуждения. Мы предлагаем простую и универсальную самообучаемую архитектуру, которая "сжимает" каждый кадр видео в небольшой набор токенов с помощью трансформерной сети и восстанавливает оставшиеся кадры на основе сжатого временного контекста. Чтобы минимизировать ошибку восстановления, сеть должна научиться создавать компактное представление для каждого изображения, а также улавливать временную динамику и постоянство объектов из временного контекста. Мы проводим оценку на двух бенчмарках для визуального рассуждения — CATER и ACRE. Наши наблюдения показывают, что предварительное обучение критически важно для достижения композиционного обобщения в задачах сквозного визуального рассуждения. Предложенная нами архитектура значительно превосходит традиционные методы предварительного обучения с учителем, включая классификацию изображений и явную детекцию объектов.
English
We aim to investigate whether end-to-end learning of visual reasoning can be
achieved with general-purpose neural networks, with the help of visual
pretraining. A positive result would refute the common belief that explicit
visual abstraction (e.g. object detection) is essential for compositional
generalization on visual reasoning, and confirm the feasibility of a neural
network "generalist" to solve visual recognition and reasoning tasks. We
propose a simple and general self-supervised framework which "compresses" each
video frame into a small set of tokens with a transformer network, and
reconstructs the remaining frames based on the compressed temporal context. To
minimize the reconstruction loss, the network must learn a compact
representation for each image, as well as capture temporal dynamics and object
permanence from temporal context. We perform evaluation on two visual reasoning
benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve
compositional generalization for end-to-end visual reasoning. Our proposed
framework outperforms traditional supervised pretraining, including image
classification and explicit object detection, by large margins.