VisionArena: 偏好ラベルを持つ現実世界の23万のユーザーVLM会話
VisionArena: 230K Real World User-VLM Conversations with Preference Labels
December 11, 2024
著者: Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
cs.AI
要旨
ビジョン言語モデル(VLM)の採用と機能の向上に伴い、本物のユーザーとVLMのインタラクションを捉えるベンチマークの必要性が高まっています。このニーズに応えるため、我々はVisionArenaを作成しました。これは、23万の実世界のユーザーとVLMの対話を収集したデータセットです。Chatbot Arenaから収集され、ユーザーがVLMとやり取りし、好みの投票を提出するオープンソースプラットフォームです。VisionArenaには、73,000人のユニークユーザー、45のVLM、および138の言語が含まれています。当データセットには3つのサブセットがあります。VisionArena-Chatには、ユーザーとVLMの間の20万の単一およびマルチターンの対話が含まれています。VisionArena-Battleには、2つの匿名のVLMを比較し、ユーザーの好みの投票を行う3万の対話が含まれています。そして、VisionArena-Benchには、ライブChatbot Arenaのモデルランキングを効率的に近似する500の多様なユーザープロンプトの自動ベンチマークが含まれています。さらに、ユーザーが尋ねる質問の種類、応答スタイルが好みに与える影響、モデルがしばしば失敗する領域に焦点を当てています。キャプショニングやユーモアなどのオープンエンドのタスクはスタイルに大きく依存しており、現在のVLMは空間的推論や計画タスクに苦労していることがわかりました。最後に、VisionArena-Chatで同じベースモデルをファインチューニングすることで、Llava-Instruct-158Kを上回り、MMMUで17ポイント、WildVisionベンチマークで46ポイントの向上が見られました。データセットはこちらから入手可能です:https://huggingface.co/lmarena-ai
English
With the growing adoption and capabilities of vision-language models (VLMs)
comes the need for benchmarks that capture authentic user-VLM interactions. In
response, we create VisionArena, a dataset of 230K real-world conversations
between users and VLMs. Collected from Chatbot Arena - an open-source platform
where users interact with VLMs and submit preference votes - VisionArena spans
73K unique users, 45 VLMs, and 138 languages. Our dataset contains three
subsets: VisionArena-Chat, 200k single and multi-turn conversations between a
user and a VLM; VisionArena-Battle, 30K conversations comparing two anonymous
VLMs with user preference votes; and VisionArena-Bench, an automatic benchmark
of 500 diverse user prompts that efficiently approximate the live Chatbot Arena
model rankings. Additionally, we highlight the types of question asked by
users, the influence of response style on preference, and areas where models
often fail. We find open-ended tasks like captioning and humor are highly
style-dependent, and current VLMs struggle with spatial reasoning and planning
tasks. Lastly, we show finetuning the same base model on VisionArena-Chat
outperforms Llava-Instruct-158K, with a 17-point gain on MMMU and a 46-point
gain on the WildVision benchmark. Dataset at https://huggingface.co/lmarena-aiSummary
AI-Generated Summary