LLaVA-Critic: Обучение оценке мультимодельных моделей
LLaVA-Critic: Learning to Evaluate Multimodal Models
October 3, 2024
Авторы: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI
Аннотация
Мы представляем LLaVA-Critic, первую открытую крупную мультимодальную модель (LMM), разработанную как общий оценщик для оценки производительности в широком спектре мультимодальных задач. LLaVA-Critic обучается с использованием высококачественного набора данных, следующего за инструкциями критика, который включает разнообразные критерии и сценарии оценки. Наши эксперименты демонстрируют эффективность модели в двух ключевых областях: (1) LMM-как-Судья, где LLaVA-Critic предоставляет надежные оценочные баллы, проявляя себя на уровне или превосходя модели GPT по нескольким оценочным показателям; и (2) Обучение Предпочтениям, где она генерирует сигналы вознаграждения для обучения предпочтениям, улучшая возможности выравнивания модели. Эта работа подчеркивает потенциал открытых крупных мультимодальных моделей в самокритике и оценке, заложив основу для будущих исследований в области масштабируемых механизмов обратной связи для LMM на уровне сверхчеловеческого.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM)
designed as a generalist evaluator to assess performance across a wide range of
multimodal tasks. LLaVA-Critic is trained using a high-quality critic
instruction-following dataset that incorporates diverse evaluation criteria and
scenarios. Our experiments demonstrate the model's effectiveness in two key
areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation
scores, performing on par with or surpassing GPT models on multiple evaluation
benchmarks; and (2) Preference Learning, where it generates reward signals for
preference learning, enhancing model alignment capabilities. This work
underscores the potential of open-source LMMs in self-critique and evaluation,
setting the stage for future research into scalable, superhuman alignment
feedback mechanisms for LMMs.Summary
AI-Generated Summary