ChatPaper.aiChatPaper

VisionArena: 偏好ラベルを持つ現実世界の23万のユーザーVLM会話

VisionArena: 230K Real World User-VLM Conversations with Preference Labels

December 11, 2024
著者: Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
cs.AI

要旨

ビジョン言語モデル(VLM)の採用と機能の向上に伴い、本物のユーザーとVLMのインタラクションを捉えるベンチマークの必要性が高まっています。このニーズに応えるため、我々はVisionArenaを作成しました。これは、23万の実世界のユーザーとVLMの対話を収集したデータセットです。Chatbot Arenaから収集され、ユーザーがVLMとやり取りし、好みの投票を提出するオープンソースプラットフォームです。VisionArenaには、73,000人のユニークユーザー、45のVLM、および138の言語が含まれています。当データセットには3つのサブセットがあります。VisionArena-Chatには、ユーザーとVLMの間の20万の単一およびマルチターンの対話が含まれています。VisionArena-Battleには、2つの匿名のVLMを比較し、ユーザーの好みの投票を行う3万の対話が含まれています。そして、VisionArena-Benchには、ライブChatbot Arenaのモデルランキングを効率的に近似する500の多様なユーザープロンプトの自動ベンチマークが含まれています。さらに、ユーザーが尋ねる質問の種類、応答スタイルが好みに与える影響、モデルがしばしば失敗する領域に焦点を当てています。キャプショニングやユーモアなどのオープンエンドのタスクはスタイルに大きく依存しており、現在のVLMは空間的推論や計画タスクに苦労していることがわかりました。最後に、VisionArena-Chatで同じベースモデルをファインチューニングすることで、Llava-Instruct-158Kを上回り、MMMUで17ポイント、WildVisionベンチマークで46ポイントの向上が見られました。データセットはこちらから入手可能です:https://huggingface.co/lmarena-ai
English
With the growing adoption and capabilities of vision-language models (VLMs) comes the need for benchmarks that capture authentic user-VLM interactions. In response, we create VisionArena, a dataset of 230K real-world conversations between users and VLMs. Collected from Chatbot Arena - an open-source platform where users interact with VLMs and submit preference votes - VisionArena spans 73K unique users, 45 VLMs, and 138 languages. Our dataset contains three subsets: VisionArena-Chat, 200k single and multi-turn conversations between a user and a VLM; VisionArena-Battle, 30K conversations comparing two anonymous VLMs with user preference votes; and VisionArena-Bench, an automatic benchmark of 500 diverse user prompts that efficiently approximate the live Chatbot Arena model rankings. Additionally, we highlight the types of question asked by users, the influence of response style on preference, and areas where models often fail. We find open-ended tasks like captioning and humor are highly style-dependent, and current VLMs struggle with spatial reasoning and planning tasks. Lastly, we show finetuning the same base model on VisionArena-Chat outperforms Llava-Instruct-158K, with a 17-point gain on MMMU and a 46-point gain on the WildVision benchmark. Dataset at https://huggingface.co/lmarena-ai

Summary

AI-Generated Summary

PDF133December 13, 2024