Verklarende Instructies: Naar Een Gezamenlijk Begrip van Visuele Taken en Nul-shot GeneralisatieExplanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
Computer Vision (CV) heeft nog niet volledig de zero-shot taakgeneralisatie bereikt die wordt waargenomen in Natural Language Processing (NLP), ondanks het volgen van veel van de mijlpalen die zijn vastgesteld in NLP, zoals grote transformermodellen, uitgebreide voorafgaande training, en het auto-regressie paradigma, onder andere. In dit artikel verkennen we het idee dat CV discrete en terminologische taakdefinities aanneemt (bijv., "beeldsegmentatie"), wat een belangrijke barrière kan vormen voor zero-shot taakgeneralisatie. Onze hypothese is dat zonder echt begrip van eerder geziene taken - vanwege deze terminologische definities - diepe modellen moeite hebben om te generaliseren naar nieuwe taken. Om dit te verifiëren, introduceren we Verklarende Instructies, die een intuïtieve manier bieden om CV-taakdoelstellingen te definiëren door gedetailleerde linguïstische transformaties van invoerbeelden naar uitvoer. We creëren een grootschalige dataset bestaande uit 12 miljoen "beeldinvoer naar verklarende instructie naar uitvoer" triplets, en trainen een op auto-regressie gebaseerd visie-taalmodel (AR-gebaseerd VLM) dat zowel beelden als verklarende instructies als invoer neemt. Door te leren deze instructies te volgen, bereikt het AR-gebaseerde VLM instructieniveau zero-shot mogelijkheden voor eerder geziene taken en toont het sterke zero-shot generalisatie voor ongeziene CV-taken. Code en dataset zullen openlijk beschikbaar zijn op ons GitHub repository.