AI에서의 유머: 만화 캡션 생성에 대한 대규모 크라우드소싱 기반 선호도 및 벤치마크
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
June 15, 2024
저자: Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak
cs.AI
초록
우리는 창의적 작업을 위한 새로운 멀티모달 선호도 데이터셋을 제시합니다. 이 데이터셋은 지난 8년간 The New Yorker의 주간 만화 캡션 콘테스트를 위해 크라우드소싱으로 수집된 220만 개 이상의 캡션에 대한 2억 5천만 건 이상의 인간 평가로 구성되어 있습니다. 이 독특한 데이터셋은 유머러스한 캡션 생성을 위한 멀티모달 대형 언어 모델과 선호도 기반 미세 조정 알고리즘의 개발 및 평가를 지원합니다. 우리는 모델 생성 캡션의 품질을 판단하기 위한 새로운 벤치마크를 제안하며, GPT4와 인간 판단을 모두 활용하여 순위 기반 평가 전략을 수립합니다. 실험 결과는 RLHF와 DPO와 같은 현재의 미세 조정 방법들이 창의적 작업에 적용될 때의 한계를 강조합니다. 더 나아가, GPT4와 Claude와 같은 최첨단 모델들조차도 유머러스한 캡션 생성에서 최고의 인간 참가자들에 비해 현재 부진한 성능을 보임을 입증합니다. 이 광범위한 데이터 수집 작업을 마무리하며, 우리는 전체 선호도 데이터셋을 연구 커뮤니티에 공개하여 AI 유머 생성 및 평가 분야의 추가 발전을 촉진합니다.
English
We present a novel multimodal preference dataset for creative tasks,
consisting of over 250 million human ratings on more than 2.2 million captions,
collected through crowdsourcing rating data for The New Yorker's weekly cartoon
caption contest over the past eight years. This unique dataset supports the
development and evaluation of multimodal large language models and
preference-based fine-tuning algorithms for humorous caption generation. We
propose novel benchmarks for judging the quality of model-generated captions,
utilizing both GPT4 and human judgments to establish ranking-based evaluation
strategies. Our experimental results highlight the limitations of current
fine-tuning methods, such as RLHF and DPO, when applied to creative tasks.
Furthermore, we demonstrate that even state-of-the-art models like GPT4 and
Claude currently underperform top human contestants in generating humorous
captions. As we conclude this extensive data collection effort, we release the
entire preference dataset to the research community, fostering further
advancements in AI humor generation and evaluation.Summary
AI-Generated Summary