ChatPaper.aiChatPaper

Verklarende Instructies: Naar Een Gezamenlijk Begrip van Visuele Taken en Nul-shot Generalisatie

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

December 24, 2024
Auteurs: Yang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
cs.AI

Samenvatting

Computer Vision (CV) heeft nog niet volledig de zero-shot taakgeneralisatie bereikt die wordt waargenomen in Natural Language Processing (NLP), ondanks het volgen van veel van de mijlpalen die zijn vastgesteld in NLP, zoals grote transformermodellen, uitgebreide voorafgaande training, en het auto-regressie paradigma, onder andere. In dit artikel verkennen we het idee dat CV discrete en terminologische taakdefinities aanneemt (bijv., "beeldsegmentatie"), wat een belangrijke barrière kan vormen voor zero-shot taakgeneralisatie. Onze hypothese is dat zonder echt begrip van eerder geziene taken - vanwege deze terminologische definities - diepe modellen moeite hebben om te generaliseren naar nieuwe taken. Om dit te verifiëren, introduceren we Verklarende Instructies, die een intuïtieve manier bieden om CV-taakdoelstellingen te definiëren door gedetailleerde linguïstische transformaties van invoerbeelden naar uitvoer. We creëren een grootschalige dataset bestaande uit 12 miljoen "beeldinvoer naar verklarende instructie naar uitvoer" triplets, en trainen een op auto-regressie gebaseerd visie-taalmodel (AR-gebaseerd VLM) dat zowel beelden als verklarende instructies als invoer neemt. Door te leren deze instructies te volgen, bereikt het AR-gebaseerde VLM instructieniveau zero-shot mogelijkheden voor eerder geziene taken en toont het sterke zero-shot generalisatie voor ongeziene CV-taken. Code en dataset zullen openlijk beschikbaar zijn op ons GitHub repository.
English
Computer Vision (CV) has yet to fully achieve the zero-shot task generalization observed in Natural Language Processing (NLP), despite following many of the milestones established in NLP, such as large transformer models, extensive pre-training, and the auto-regression paradigm, among others. In this paper, we explore the idea that CV adopts discrete and terminological task definitions (\eg, ``image segmentation''), which may be a key barrier to zero-shot task generalization. Our hypothesis is that without truly understanding previously-seen tasks--due to these terminological definitions--deep models struggle to generalize to novel tasks. To verify this, we introduce Explanatory Instructions, which provide an intuitive way to define CV task objectives through detailed linguistic transformations from input images to outputs. We create a large-scale dataset comprising 12 million ``image input to explanatory instruction to output'' triplets, and train an auto-regressive-based vision-language model (AR-based VLM) that takes both images and explanatory instructions as input. By learning to follow these instructions, the AR-based VLM achieves instruction-level zero-shot capabilities for previously-seen tasks and demonstrates strong zero-shot generalization for unseen CV tasks. Code and dataset will be openly available on our GitHub repository.

Summary

AI-Generated Summary

PDF762December 31, 2024