AIにおけるユーモア:大規模クラウドソーシングによる嗜好調査と漫画キャプション生成のベンチマーク
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
著者: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
要旨
我々は、創造的タスク向けの新規マルチモーダル選好データセットを提示する。このデータセットは、過去8年間にわたってThe New Yorkerの週刊漫画キャプションコンテストのクラウドソーシング評価データから収集された、220万以上のキャプションに対する2億5千万件以上の人間の評価で構成されている。このユニークなデータセットは、ユーモラスなキャプション生成のためのマルチモーダル大規模言語モデルと選好ベースのファインチューニングアルゴリズムの開発と評価を支援する。我々は、GPT4と人間の判断を活用してランキングベースの評価戦略を確立し、モデル生成キャプションの品質を判断するための新規ベンチマークを提案する。実験結果は、RLHFやDPOなどの現在のファインチューニング手法が創造的タスクに適用された際の限界を浮き彫りにしている。さらに、GPT4やClaudeのような最先端のモデルでさえ、ユーモラスなキャプション生成においてトップの人間の参加者に及ばないことを示す。この大規模なデータ収集活動を締めくくるにあたり、我々は研究コミュニティに選好データセット全体を公開し、AIによるユーモア生成と評価のさらなる進展を促進する。
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.Summary
AI-Generated Summary