ChatPaper.aiChatPaper

FIRE: Een dataset voor evaluatie van feedbackintegratie en verfijning van multimodale modellen

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

July 16, 2024
Auteurs: Pengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li
cs.AI

Samenvatting

Vision language models (VLMs) hebben indrukwekkende vooruitgang geboekt in diverse toepassingen en zijn een veelvoorkomende onderzoeksrichting geworden. In dit artikel ontwikkelen we FIRE, een feedback-verfijningsdataset, bestaande uit 1,1 miljoen meerzijdige gesprekken die zijn afgeleid van 27 brondatasets, waardoor VLMs in staat worden gesteld om hun reacties spontaan te verfijnen op basis van gebruikersfeedback bij diverse taken. Om de gegevensverzameling op te schalen, wordt FIRE verzameld in twee componenten: FIRE-100K en FIRE-1M, waarbij FIRE-100K wordt gegenereerd door GPT-4V en FIRE-1M vrij wordt gegenereerd via modellen die zijn getraind op FIRE-100K. Vervolgens ontwikkelen we FIRE-Bench, een benchmark om het feedback-verfijningsvermogen van VLMs uitgebreid te evalueren, die 11.000 feedback-verfijningsgesprekken bevat als testdata, twee evaluatie-instellingen en een model om feedback te geven aan VLMs. We ontwikkelen het FIRE-LLaVA-model door LLaVA te finetunen op FIRE-100K en FIRE-1M, dat een opmerkelijk feedback-verfijningsvermogen toont op FIRE-Bench en niet-getrainde VLMs met 50% overtreft, waardoor gebruikers-agentinteracties efficiënter worden en het belang van de FIRE-dataset wordt benadrukt.
English
Vision language models (VLMs) have achieved impressive progress in diverse applications, becoming a prevalent research direction. In this paper, we build FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn conversations that are derived from 27 source datasets, empowering VLMs to spontaneously refine their responses based on user feedback across diverse tasks. To scale up the data collection, FIRE is collected in two components: FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a benchmark to comprehensively evaluate the feedback-refining capability of VLMs, which contains 11K feedback-refinement conversations as the test data, two evaluation settings, and a model to provide feedback for VLMs. We develop the FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows remarkable feedback-refining capability on FIRE-Bench and outperforms untrained VLMs by 50%, making more efficient user-agent interactions and underscoring the significance of the FIRE dataset.
PDF92November 28, 2024