ChatPaper.aiChatPaper

FIRE: Ein Datensatz zur Bewertung der Integration von Rückmeldungen und Verfeinerung von Multimodal-Modellen

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

July 16, 2024
Autoren: Pengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li
cs.AI

Zusammenfassung

Vision Language Models (VLMs) haben beeindruckende Fortschritte in verschiedenen Anwendungen erzielt und sind zu einer weit verbreiteten Forschungsrichtung geworden. In diesem Artikel erstellen wir FIRE, einen Feedback-Verfeinerungsdatensatz, der aus 1,1 Millionen Mehrfachdialogen besteht, die aus 27 Quelldatensätzen abgeleitet sind und es VLMs ermöglichen, ihre Antworten spontan auf der Grundlage von Benutzerfeedback über verschiedene Aufgaben hinweg zu verfeinern. Um die Datensammlung zu skalieren, wird FIRE in zwei Komponenten gesammelt: FIRE-100K und FIRE-1M, wobei FIRE-100K von GPT-4V generiert wird und FIRE-1M frei von Modellen generiert wird, die auf FIRE-100K trainiert sind. Anschließend erstellen wir FIRE-Bench, einen Benchmark zur umfassenden Bewertung der Feedback-Verfeinerungsfähigkeit von VLMs, der 11.000 Feedback-Verfeinerungsgespräche als Testdaten, zwei Bewertungseinstellungen und ein Modell zur Bereitstellung von Feedback für VLMs enthält. Wir entwickeln das FIRE-LLaVA-Modell durch Feinabstimmung von LLaVA auf FIRE-100K und FIRE-1M, das eine bemerkenswerte Feedback-Verfeinerungsfähigkeit auf FIRE-Bench zeigt und untrainierte VLMs um 50% übertrifft, um effizientere Benutzer-Agenten-Interaktionen zu ermöglichen und die Bedeutung des FIRE-Datensatzes zu unterstreichen.
English
Vision language models (VLMs) have achieved impressive progress in diverse applications, becoming a prevalent research direction. In this paper, we build FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn conversations that are derived from 27 source datasets, empowering VLMs to spontaneously refine their responses based on user feedback across diverse tasks. To scale up the data collection, FIRE is collected in two components: FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a benchmark to comprehensively evaluate the feedback-refining capability of VLMs, which contains 11K feedback-refinement conversations as the test data, two evaluation settings, and a model to provide feedback for VLMs. We develop the FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows remarkable feedback-refining capability on FIRE-Bench and outperforms untrained VLMs by 50%, making more efficient user-agent interactions and underscoring the significance of the FIRE dataset.

Summary

AI-Generated Summary

PDF92November 28, 2024