AssistGPT: Een algemene multimodale assistent die kan plannen, uitvoeren, inspecteren en leren

Samenvatting

Recent onderzoek naar Large Language Models (LLMs) heeft geleid tot opmerkelijke vooruitgang in algemene NLP AI-assistenten. Sommige studies hebben verder onderzocht hoe LLMs kunnen worden gebruikt voor planning en het aanroepen van modellen of API's om meer algemene multimodale gebruikersvragen aan te pakken. Ondanks deze vooruitgang blijven complexe visueel gebaseerde taken uitdagend vanwege de diverse aard van visuele taken. Deze diversiteit komt tot uiting in twee aspecten: 1) Redeneerpaden. Voor veel real-life toepassingen is het moeilijk om een vraag nauwkeurig te ontleden door alleen de vraag zelf te onderzoeken. Planning op basis van de specifieke visuele inhoud en de resultaten van elke stap is meestal vereist. 2) Flexibele invoer en tussenresultaten. Invoervormen kunnen flexibel zijn voor in-the-wild gevallen, en omvatten niet alleen een enkele afbeelding of video, maar een mix van video's en afbeeldingen, bijvoorbeeld een gebruikersweergave-afbeelding met enkele referentievideo's. Bovendien zal een complex redeneerproces ook diverse multimodale tussenresultaten genereren, zoals videonarraties, gesegmenteerde videoclips, enz. Om dergelijke algemene gevallen aan te pakken, stellen we een multimodale AI-assistent voor, AssistGPT, met een interleaved code- en taalredeneerbenadering genaamd Plan, Execute, Inspect, and Learn (PEIL) om LLMs te integreren met verschillende tools. Specifiek is de Planner in staat om natuurlijke taal te gebruiken om te plannen welke tool in de Executor vervolgens moet worden gebruikt op basis van de huidige redeneervoortgang. Inspector is een efficiënte geheugenbeheerder om de Planner te helpen de juiste visuele informatie in een specifieke tool te voeren. Ten slotte, aangezien het hele redeneerproces complex en flexibel is, is een Learner ontworpen om het model in staat te stellen autonoom de optimale oplossing te verkennen en te ontdekken. We hebben experimenten uitgevoerd op de A-OKVQA en NExT-QA benchmarks, waarbij state-of-the-art resultaten werden behaald. Bovendien tonen showcases het vermogen van ons systeem om vragen aan te pakken die veel complexer zijn dan die in de benchmarks worden gevonden.

English

Recent research on Large Language Models (LLMs) has led to remarkable advancements in general NLP AI assistants. Some studies have further explored the use of LLMs for planning and invoking models or APIs to address more general multi-modal user queries. Despite this progress, complex visual-based tasks still remain challenging due to the diverse nature of visual tasks. This diversity is reflected in two aspects: 1) Reasoning paths. For many real-life applications, it is hard to accurately decompose a query simply by examining the query itself. Planning based on the specific visual content and the results of each step is usually required. 2) Flexible inputs and intermediate results. Input forms could be flexible for in-the-wild cases, and involves not only a single image or video but a mixture of videos and images, e.g., a user-view image with some reference videos. Besides, a complex reasoning process will also generate diverse multimodal intermediate results, e.g., video narrations, segmented video clips, etc. To address such general cases, we propose a multi-modal AI assistant, AssistGPT, with an interleaved code and language reasoning approach called Plan, Execute, Inspect, and Learn (PEIL) to integrate LLMs with various tools. Specifically, the Planner is capable of using natural language to plan which tool in Executor should do next based on the current reasoning progress. Inspector is an efficient memory manager to assist the Planner to feed proper visual information into a specific tool. Finally, since the entire reasoning process is complex and flexible, a Learner is designed to enable the model to autonomously explore and discover the optimal solution. We conducted experiments on A-OKVQA and NExT-QA benchmarks, achieving state-of-the-art results. Moreover, showcases demonstrate the ability of our system to handle questions far more complex than those found in the benchmarks.

AssistGPT: Een algemene multimodale assistent die kan plannen, uitvoeren, inspecteren en leren

AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

Samenvatting

Support