VisionArena: 230 mil Conversas de Usuário do Mundo Real com Rótulos de Preferência
VisionArena: 230K Real World User-VLM Conversations with Preference Labels
December 11, 2024
Autores: Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
cs.AI
Resumo
Com a crescente adoção e capacidades dos modelos de visão-linguagem (VLMs), surge a necessidade de benchmarks que capturem interações autênticas entre usuários e VLMs. Em resposta, criamos o VisionArena, um conjunto de dados com 230 mil conversas do mundo real entre usuários e VLMs. Coletado do Chatbot Arena - uma plataforma de código aberto onde os usuários interagem com VLMs e enviam votos de preferência - o VisionArena abrange 73 mil usuários únicos, 45 VLMs e 138 idiomas. Nosso conjunto de dados contém três subconjuntos: VisionArena-Chat, 200 mil conversas de turno único e múltiplo entre um usuário e um VLM; VisionArena-Battle, 30 mil conversas comparando dois VLMs anônimos com votos de preferência do usuário; e VisionArena-Bench, um benchmark automático com 500 prompts diversos de usuários que aproximam eficientemente as classificações de modelos ao vivo do Chatbot Arena. Além disso, destacamos os tipos de perguntas feitas pelos usuários, a influência do estilo de resposta na preferência e áreas onde os modelos frequentemente falham. Descobrimos que tarefas abertas como legendagem e humor são altamente dependentes do estilo, e os VLMs atuais têm dificuldade com raciocínio espacial e tarefas de planejamento. Por fim, mostramos que o ajuste fino do mesmo modelo base no VisionArena-Chat supera o Llava-Instruct-158K, com um aumento de 17 pontos no MMMU e um aumento de 46 pontos no benchmark WildVision. Conjunto de dados em https://huggingface.co/lmarena-ai
English
With the growing adoption and capabilities of vision-language models (VLMs)
comes the need for benchmarks that capture authentic user-VLM interactions. In
response, we create VisionArena, a dataset of 230K real-world conversations
between users and VLMs. Collected from Chatbot Arena - an open-source platform
where users interact with VLMs and submit preference votes - VisionArena spans
73K unique users, 45 VLMs, and 138 languages. Our dataset contains three
subsets: VisionArena-Chat, 200k single and multi-turn conversations between a
user and a VLM; VisionArena-Battle, 30K conversations comparing two anonymous
VLMs with user preference votes; and VisionArena-Bench, an automatic benchmark
of 500 diverse user prompts that efficiently approximate the live Chatbot Arena
model rankings. Additionally, we highlight the types of question asked by
users, the influence of response style on preference, and areas where models
often fail. We find open-ended tasks like captioning and humor are highly
style-dependent, and current VLMs struggle with spatial reasoning and planning
tasks. Lastly, we show finetuning the same base model on VisionArena-Chat
outperforms Llava-Instruct-158K, with a 17-point gain on MMMU and a 46-point
gain on the WildVision benchmark. Dataset at https://huggingface.co/lmarena-aiSummary
AI-Generated Summary