Humor en IA : Préférences à grande échelle issues du crowdsourcing et benchmarks pour le sous-titrage de bandes dessinées
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
Auteurs: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
Résumé
Nous présentons un nouveau jeu de données multimodal de préférences pour des tâches créatives, comprenant plus de 250 millions d'évaluations humaines sur plus de 2,2 millions de légendes, collectées via des données de notation crowdsourcées pour le concours hebdomadaire de légendes de dessins humoristiques du New Yorker au cours des huit dernières années. Ce jeu de données unique soutient le développement et l'évaluation de modèles de langage multimodaux à grande échelle ainsi que des algorithmes de fine-tuning basés sur les préférences pour la génération de légendes humoristiques. Nous proposons de nouveaux benchmarks pour juger de la qualité des légendes générées par les modèles, en utilisant à la fois GPT4 et des jugements humains pour établir des stratégies d'évaluation basées sur le classement. Nos résultats expérimentaux mettent en lumière les limites des méthodes actuelles de fine-tuning, telles que RLHF et DPO, lorsqu'elles sont appliquées à des tâches créatives. De plus, nous démontrons que même les modèles de pointe comme GPT4 et Claude sont actuellement moins performants que les meilleurs participants humains dans la génération de légendes humoristiques. Alors que nous concluons cet effort de collecte de données à grande échelle, nous mettons à disposition l'intégralité du jeu de données de préférences à la communauté de recherche, favorisant ainsi de nouvelles avancées dans la génération et l'évaluation de l'humour en IA.
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.Summary
AI-Generated Summary