ChatPaper.aiChatPaper

FIRE: 멀티모달 모델의 피드백 통합 및 개선 평가를 위한 데이터셋

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

July 16, 2024
저자: Pengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li
cs.AI

초록

비전 언어 모델(VLMs)은 다양한 응용 분야에서 인상적인 진전을 이루며 주요 연구 방향으로 자리 잡았습니다. 본 논문에서는 27개의 소스 데이터셋에서 도출된 110만 개의 다중 턴 대화로 구성된 피드백 정제 데이터셋인 FIRE를 구축하여, VLMs이 다양한 작업에서 사용자 피드백을 기반으로 응답을 자발적으로 개선할 수 있도록 지원합니다. 데이터 수집을 확장하기 위해 FIRE는 FIRE-100K와 FIRE-1M 두 가지 구성 요소로 수집되었으며, FIRE-100K는 GPT-4V로 생성되었고 FIRE-1M은 FIRE-100K로 훈련된 모델을 통해 자유롭게 생성되었습니다. 이후, VLMs의 피드백 정제 능력을 종합적으로 평가하기 위한 벤치마크인 FIRE-Bench를 구축했습니다. 이 벤치마크는 11,000개의 피드백 정제 대화를 테스트 데이터로 포함하며, 두 가지 평가 설정과 VLMs에 피드백을 제공하는 모델로 구성됩니다. FIRE-100K와 FIRE-1M으로 LLaVA를 미세 조정하여 개발한 FIRE-LLaVA 모델은 FIRE-Bench에서 뛰어난 피드백 정제 능력을 보여주며, 미훈련 VLMs보다 50% 더 우수한 성능을 달성하여 사용자-에이전트 상호작용의 효율성을 높이고 FIRE 데이터셋의 중요성을 강조합니다.
English
Vision language models (VLMs) have achieved impressive progress in diverse applications, becoming a prevalent research direction. In this paper, we build FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn conversations that are derived from 27 source datasets, empowering VLMs to spontaneously refine their responses based on user feedback across diverse tasks. To scale up the data collection, FIRE is collected in two components: FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a benchmark to comprehensively evaluate the feedback-refining capability of VLMs, which contains 11K feedback-refinement conversations as the test data, two evaluation settings, and a model to provide feedback for VLMs. We develop the FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows remarkable feedback-refining capability on FIRE-Bench and outperforms untrained VLMs by 50%, making more efficient user-agent interactions and underscoring the significance of the FIRE dataset.

Summary

AI-Generated Summary

PDF92November 28, 2024