FIRE: Ein Datensatz zur Bewertung der Integration von Rückmeldungen und Verfeinerung von Multimodal-Modellen
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models
July 16, 2024
Autoren: Pengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li
cs.AI
Zusammenfassung
Vision Language Models (VLMs) haben beeindruckende Fortschritte in verschiedenen Anwendungen erzielt und sind zu einer weit verbreiteten Forschungsrichtung geworden. In diesem Artikel erstellen wir FIRE, einen Feedback-Verfeinerungsdatensatz, der aus 1,1 Millionen Mehrfachdialogen besteht, die aus 27 Quelldatensätzen abgeleitet sind und es VLMs ermöglichen, ihre Antworten spontan auf der Grundlage von Benutzerfeedback über verschiedene Aufgaben hinweg zu verfeinern. Um die Datensammlung zu skalieren, wird FIRE in zwei Komponenten gesammelt: FIRE-100K und FIRE-1M, wobei FIRE-100K von GPT-4V generiert wird und FIRE-1M frei von Modellen generiert wird, die auf FIRE-100K trainiert sind. Anschließend erstellen wir FIRE-Bench, einen Benchmark zur umfassenden Bewertung der Feedback-Verfeinerungsfähigkeit von VLMs, der 11.000 Feedback-Verfeinerungsgespräche als Testdaten, zwei Bewertungseinstellungen und ein Modell zur Bereitstellung von Feedback für VLMs enthält. Wir entwickeln das FIRE-LLaVA-Modell durch Feinabstimmung von LLaVA auf FIRE-100K und FIRE-1M, das eine bemerkenswerte Feedback-Verfeinerungsfähigkeit auf FIRE-Bench zeigt und untrainierte VLMs um 50% übertrifft, um effizientere Benutzer-Agenten-Interaktionen zu ermöglichen und die Bedeutung des FIRE-Datensatzes zu unterstreichen.
English
Vision language models (VLMs) have achieved impressive progress in diverse
applications, becoming a prevalent research direction. In this paper, we build
FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn
conversations that are derived from 27 source datasets, empowering VLMs to
spontaneously refine their responses based on user feedback across diverse
tasks. To scale up the data collection, FIRE is collected in two components:
FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is
freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a
benchmark to comprehensively evaluate the feedback-refining capability of VLMs,
which contains 11K feedback-refinement conversations as the test data, two
evaluation settings, and a model to provide feedback for VLMs. We develop the
FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows
remarkable feedback-refining capability on FIRE-Bench and outperforms untrained
VLMs by 50%, making more efficient user-agent interactions and underscoring the
significance of the FIRE dataset.Summary
AI-Generated Summary