Humor em IA: Preferências e Benchmarks em Escala Massiva Coletados por Crowdsourcing para Legendas de Cartuns
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
Autores: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
Resumo
Apresentamos um novo conjunto de dados de preferências multimodais para tarefas criativas, composto por mais de 250 milhões de avaliações humanas em mais de 2,2 milhões de legendas, coletadas por meio de crowdsourcing de dados de avaliação do concurso semanal de legendas para cartuns da The New Yorker ao longo dos últimos oito anos. Esse conjunto de dados único apoia o desenvolvimento e a avaliação de modelos de linguagem multimodal de grande escala e algoritmos de ajuste fino baseados em preferências para a geração de legendas humorísticas. Propomos novos benchmarks para julgar a qualidade das legendas geradas por modelos, utilizando tanto o GPT4 quanto julgamentos humanos para estabelecer estratégias de avaliação baseadas em ranking. Nossos resultados experimentais destacam as limitações dos métodos atuais de ajuste fino, como RLHF e DPO, quando aplicados a tarefas criativas. Além disso, demonstramos que até mesmo modelos de última geração, como GPT4 e Claude, atualmente têm desempenho inferior aos melhores concorrentes humanos na geração de legendas humorísticas. Ao concluir esse extenso esforço de coleta de dados, disponibilizamos todo o conjunto de dados de preferências para a comunidade de pesquisa, promovendo avanços adicionais na geração e avaliação de humor por IA.
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.