Humor en IA: Preferencias a Gran Escala mediante Crowdsourcing y Puntos de Referencia para la Creación de Subtítulos en Cómics
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
Autores: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
Resumen
Presentamos un novedoso conjunto de datos de preferencias multimodales para tareas creativas, que consta de más de 250 millones de valoraciones humanas sobre más de 2.2 millones de subtítulos, recopilados a través de datos de calificación por crowdsourcing para el concurso semanal de subtítulos de caricaturas de The New Yorker durante los últimos ocho años. Este conjunto de datos único respalda el desarrollo y evaluación de modelos de lenguaje multimodal de gran escala y algoritmos de ajuste fino basados en preferencias para la generación de subtítulos humorísticos. Proponemos nuevos puntos de referencia para juzgar la calidad de los subtítulos generados por modelos, utilizando tanto GPT4 como juicios humanos para establecer estrategias de evaluación basadas en clasificación. Nuestros resultados experimentales destacan las limitaciones de los métodos actuales de ajuste fino, como RLHF y DPO, cuando se aplican a tareas creativas. Además, demostramos que incluso modelos de última generación como GPT4 y Claude actualmente tienen un rendimiento inferior al de los mejores concursantes humanos en la generación de subtítulos humorísticos. Al concluir este extenso esfuerzo de recopilación de datos, liberamos todo el conjunto de datos de preferencias a la comunidad investigadora, fomentando avances adicionales en la generación y evaluación de humor en IA.
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.Summary
AI-Generated Summary