AssistGPT: Een algemene multimodale assistent die kan plannen, uitvoeren, inspecteren en leren
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn
June 14, 2023
Auteurs: Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou
cs.AI
Samenvatting
Recent onderzoek naar Large Language Models (LLMs) heeft geleid tot opmerkelijke vooruitgang in algemene NLP AI-assistenten. Sommige studies hebben verder onderzocht hoe LLMs kunnen worden gebruikt voor planning en het aanroepen van modellen of API's om meer algemene multimodale gebruikersvragen aan te pakken. Ondanks deze vooruitgang blijven complexe visueel gebaseerde taken uitdagend vanwege de diverse aard van visuele taken. Deze diversiteit komt tot uiting in twee aspecten: 1) Redeneerpaden. Voor veel real-life toepassingen is het moeilijk om een vraag nauwkeurig te ontleden door alleen de vraag zelf te onderzoeken. Planning op basis van de specifieke visuele inhoud en de resultaten van elke stap is meestal vereist. 2) Flexibele invoer en tussenresultaten. Invoervormen kunnen flexibel zijn voor in-the-wild gevallen, en omvatten niet alleen een enkele afbeelding of video, maar een mix van video's en afbeeldingen, bijvoorbeeld een gebruikersweergave-afbeelding met enkele referentievideo's. Bovendien zal een complex redeneerproces ook diverse multimodale tussenresultaten genereren, zoals videonarraties, gesegmenteerde videoclips, enz. Om dergelijke algemene gevallen aan te pakken, stellen we een multimodale AI-assistent voor, AssistGPT, met een interleaved code- en taalredeneerbenadering genaamd Plan, Execute, Inspect, and Learn (PEIL) om LLMs te integreren met verschillende tools. Specifiek is de Planner in staat om natuurlijke taal te gebruiken om te plannen welke tool in de Executor vervolgens moet worden gebruikt op basis van de huidige redeneervoortgang. Inspector is een efficiënte geheugenbeheerder om de Planner te helpen de juiste visuele informatie in een specifieke tool te voeren. Ten slotte, aangezien het hele redeneerproces complex en flexibel is, is een Learner ontworpen om het model in staat te stellen autonoom de optimale oplossing te verkennen en te ontdekken. We hebben experimenten uitgevoerd op de A-OKVQA en NExT-QA benchmarks, waarbij state-of-the-art resultaten werden behaald. Bovendien tonen showcases het vermogen van ons systeem om vragen aan te pakken die veel complexer zijn dan die in de benchmarks worden gevonden.
English
Recent research on Large Language Models (LLMs) has led to remarkable
advancements in general NLP AI assistants. Some studies have further explored
the use of LLMs for planning and invoking models or APIs to address more
general multi-modal user queries. Despite this progress, complex visual-based
tasks still remain challenging due to the diverse nature of visual tasks. This
diversity is reflected in two aspects: 1) Reasoning paths. For many real-life
applications, it is hard to accurately decompose a query simply by examining
the query itself. Planning based on the specific visual content and the results
of each step is usually required. 2) Flexible inputs and intermediate results.
Input forms could be flexible for in-the-wild cases, and involves not only a
single image or video but a mixture of videos and images, e.g., a user-view
image with some reference videos. Besides, a complex reasoning process will
also generate diverse multimodal intermediate results, e.g., video narrations,
segmented video clips, etc. To address such general cases, we propose a
multi-modal AI assistant, AssistGPT, with an interleaved code and language
reasoning approach called Plan, Execute, Inspect, and Learn (PEIL) to integrate
LLMs with various tools. Specifically, the Planner is capable of using natural
language to plan which tool in Executor should do next based on the current
reasoning progress. Inspector is an efficient memory manager to assist the
Planner to feed proper visual information into a specific tool. Finally, since
the entire reasoning process is complex and flexible, a Learner is designed to
enable the model to autonomously explore and discover the optimal solution. We
conducted experiments on A-OKVQA and NExT-QA benchmarks, achieving
state-of-the-art results. Moreover, showcases demonstrate the ability of our
system to handle questions far more complex than those found in the benchmarks.