GENOME: Generatief Neuro-symbolisch visueel redeneren door het laten groeien en hergebruiken van Modules
GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs
November 8, 2023
Auteurs: Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan
cs.AI
Samenvatting
Recente studies hebben aangetoond dat Large Language Models (LLMs) traditionele neuro-symbolische modellen kunnen versterken door programmeerfunctionaliteiten om taal om te zetten in modulebeschrijvingen, waardoor sterke visuele redeneerresultaten worden bereikt terwijl de transparantie en efficiëntie van het model behouden blijven. Deze modellen genereren echter meestal uitgebreid het volledige codefragment voor elke nieuwe instantie van een taak, wat extreem inefficiënt is. Wij stellen generatief neuro-symbolisch visueel redeneren voor door modules te laten groeien en te hergebruiken. Specifiek bestaat ons model uit drie unieke fasen: module-initialisatie, module-generatie en module-uitvoering. Eerst, gegeven een visie-taak, gebruiken we LLMs om te onderzoeken of we gevestigde modules kunnen hergebruiken en laten groeien om deze nieuwe taak aan te pakken. Zo niet, initialiseren we een nieuwe module die nodig is voor de taak en specificeren we de invoer en uitvoer van deze nieuwe module. Daarna wordt de nieuwe module gecreëerd door LLMs te bevragen om overeenkomstige codefragmenten te genereren die aan de vereisten voldoen. Om een beter inzicht te krijgen in de mogelijkheden van de nieuwe module, behandelen we few-shot trainingsvoorbeelden als testgevallen om te zien of onze nieuwe module deze gevallen kan doorstaan. Indien ja, wordt de nieuwe module toegevoegd aan de modulebibliotheek voor toekomstig hergebruik. Ten slotte evalueren we de prestaties van ons model op de testset door de geparseerde programma's uit te voeren met de nieuw gemaakte visuele modules om de resultaten te verkrijgen. We ontdekken dat het voorgestelde model verschillende voordelen heeft. Ten eerste presteert het competitief op standaardtaken zoals visuele vraagbeantwoording en verwijzende expressiebegrip; ten tweede kunnen de modules die van één taak zijn geleerd naadloos worden overgedragen naar nieuwe taken; en last but not least is het in staat zich aan te passen aan nieuwe visuele redeneertaken door enkele trainingsvoorbeelden te observeren en modules te hergebruiken.
English
Recent works have shown that Large Language Models (LLMs) could empower
traditional neuro-symbolic models via programming capabilities to translate
language into module descriptions, thus achieving strong visual reasoning
results while maintaining the model's transparency and efficiency. However,
these models usually exhaustively generate the entire code snippet given each
new instance of a task, which is extremely ineffective. We propose generative
neuro-symbolic visual reasoning by growing and reusing modules. Specifically,
our model consists of three unique stages, module initialization, module
generation, and module execution. First, given a vision-language task, we adopt
LLMs to examine whether we could reuse and grow over established modules to
handle this new task. If not, we initialize a new module needed by the task and
specify the inputs and outputs of this new module. After that, the new module
is created by querying LLMs to generate corresponding code snippets that match
the requirements. In order to get a better sense of the new module's ability,
we treat few-shot training examples as test cases to see if our new module
could pass these cases. If yes, the new module is added to the module library
for future reuse. Finally, we evaluate the performance of our model on the
testing set by executing the parsed programs with the newly made visual modules
to get the results. We find the proposed model possesses several advantages.
First, it performs competitively on standard tasks like visual question
answering and referring expression comprehension; Second, the modules learned
from one task can be seamlessly transferred to new tasks; Last but not least,
it is able to adapt to new visual reasoning tasks by observing a few training
examples and reusing modules.