Humor en IA : Préférences à grande échelle issues du crowdsourcing et benchmarks pour le sous-titrage de bandes dessinées

papers.abstract

Nous présentons un nouveau jeu de données multimodal de préférences pour des tâches créatives, comprenant plus de 250 millions d'évaluations humaines sur plus de 2,2 millions de légendes, collectées via des données de notation crowdsourcées pour le concours hebdomadaire de légendes de dessins humoristiques du New Yorker au cours des huit dernières années. Ce jeu de données unique soutient le développement et l'évaluation de modèles de langage multimodaux à grande échelle ainsi que des algorithmes de fine-tuning basés sur les préférences pour la génération de légendes humoristiques. Nous proposons de nouveaux benchmarks pour juger de la qualité des légendes générées par les modèles, en utilisant à la fois GPT4 et des jugements humains pour établir des stratégies d'évaluation basées sur le classement. Nos résultats expérimentaux mettent en lumière les limites des méthodes actuelles de fine-tuning, telles que RLHF et DPO, lorsqu'elles sont appliquées à des tâches créatives. De plus, nous démontrons que même les modèles de pointe comme GPT4 et Claude sont actuellement moins performants que les meilleurs participants humains dans la génération de légendes humoristiques. Alors que nous concluons cet effort de collecte de données à grande échelle, nous mettons à disposition l'intégralité du jeu de données de préférences à la communauté de recherche, favorisant ainsi de nouvelles avancées dans la génération et l'évaluation de l'humour en IA.

English

We present a novel multimodal preference dataset for creative tasks, consisting of over 250 million human ratings on more than 2.2 million captions, collected through crowdsourcing rating data for The New Yorker's weekly cartoon caption contest over the past eight years. This unique dataset supports the development and evaluation of multimodal large language models and preference-based fine-tuning algorithms for humorous caption generation. We propose novel benchmarks for judging the quality of model-generated captions, utilizing both GPT4 and human judgments to establish ranking-based evaluation strategies. Our experimental results highlight the limitations of current fine-tuning methods, such as RLHF and DPO, when applied to creative tasks. Furthermore, we demonstrate that even state-of-the-art models like GPT4 and Claude currently underperform top human contestants in generating humorous captions. As we conclude this extensive data collection effort, we release the entire preference dataset to the research community, fostering further advancements in AI humor generation and evaluation.

Humor en IA : Préférences à grande échelle issues du crowdsourcing et benchmarks pour le sous-titrage de bandes dessinées

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

papers.abstract

Support