Humor in KI: Massstabsgerechte crowdgesourcte Präferenzen und Benchmarks für die Untertitelung von Cartoons.
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
Autoren: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
Zusammenfassung
Wir präsentieren einen neuartigen multimodalen Präferenzdatensatz für kreative Aufgaben, bestehend aus über 250 Millionen menschlichen Bewertungen zu mehr als 2,2 Millionen Bildunterschriften, die durch die Erfassung von Bewertungsdaten durch Crowdsourcing für den wöchentlichen Cartoon-Bildunterschriftenwettbewerb des New Yorker in den letzten acht Jahren gesammelt wurden. Dieser einzigartige Datensatz unterstützt die Entwicklung und Bewertung von multimodalen großen Sprachmodellen und präferenzbasierten Feinabstimmungsalgorithmen für die Generierung humorvoller Bildunterschriften. Wir schlagen neue Maßstäbe zur Beurteilung der Qualität von modellgenerierten Bildunterschriften vor, indem wir sowohl GPT4 als auch menschliche Bewertungen nutzen, um rangbasierte Bewertungsstrategien festzulegen. Unsere experimentellen Ergebnisse heben die Grenzen der aktuellen Feinabstimmungsmethoden wie RLHF und DPO hervor, wenn sie auf kreative Aufgaben angewendet werden. Darüber hinaus zeigen wir auf, dass selbst modernste Modelle wie GPT4 und Claude derzeit hinter den besten menschlichen Teilnehmern zurückbleiben, wenn es um die Generierung humorvoller Bildunterschriften geht. Mit dem Abschluss dieses umfangreichen Datensammelprojekts stellen wir den gesamten Präferenzdatensatz der Forschungsgemeinschaft zur Verfügung, um weitere Fortschritte in der KI-Humor-Generierung und -Bewertung zu fördern.
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.Summary
AI-Generated Summary