ChatPaper.aiChatPaper

Umorismo nell'IA: Preferenze su larga scala raccolte tramite crowd-sourcing e benchmark per la didascalia di fumetti

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

June 15, 2024
Autori: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI

Abstract

Presentiamo un nuovo dataset multimodale di preferenze per compiti creativi, costituito da oltre 250 milioni di valutazioni umane su più di 2,2 milioni di didascalie, raccolte attraverso dati di valutazione crowdsourcing per il concorso settimanale di didascalie per i fumetti di The New Yorker negli ultimi otto anni. Questo dataset unico supporta lo sviluppo e la valutazione di modelli linguistici multimodali di grandi dimensioni e algoritmi di fine-tuning basati su preferenze per la generazione di didascalie umoristiche. Proponiamo nuovi benchmark per giudicare la qualità delle didascalie generate dai modelli, utilizzando sia GPT-4 che giudizi umani per stabilire strategie di valutazione basate sul ranking. I nostri risultati sperimentali evidenziano i limiti degli attuali metodi di fine-tuning, come RLHF e DPO, quando applicati a compiti creativi. Inoltre, dimostriamo che anche modelli all'avanguardia come GPT-4 e Claude attualmente hanno prestazioni inferiori rispetto ai migliori concorrenti umani nella generazione di didascalie umoristiche. Concludendo questo ampio sforzo di raccolta dati, rilasciamo l'intero dataset di preferenze alla comunità di ricerca, promuovendo ulteriori progressi nella generazione e valutazione dell'umorismo nell'IA.
English
We present a novel multimodal preference dataset for creative tasks, consisting of over 250 million human ratings on more than 2.2 million captions, collected through crowdsourcing rating data for The New Yorker's weekly cartoon caption contest over the past eight years. This unique dataset supports the development and evaluation of multimodal large language models and preference-based fine-tuning algorithms for humorous caption generation. We propose novel benchmarks for judging the quality of model-generated captions, utilizing both GPT4 and human judgments to establish ranking-based evaluation strategies. Our experimental results highlight the limitations of current fine-tuning methods, such as RLHF and DPO, when applied to creative tasks. Furthermore, we demonstrate that even state-of-the-art models like GPT4 and Claude currently underperform top human contestants in generating humorous captions. As we conclude this extensive data collection effort, we release the entire preference dataset to the research community, fostering further advancements in AI humor generation and evaluation.
PDF72February 8, 2026