ChatPaper.aiChatPaper

말이 아니라 사물로: 대형 언어 모델은 이탈리아어 수수께끼에 약한 해결사이다

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
저자: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

초록

리버스 퍼즐은 일련의 이미지와 문자로부터 숨겨진 구문을 찾아내기 위해 제약된 다단계 추론을 요구하는 퍼즐입니다. 본 연구에서는 이탈리아어를 대상으로 한 대규모의 언어화된 리버스 퍼즐 컬렉션을 소개하고, 이를 활용하여 최신 대형 언어 모델의 리버스 해결 능력을 평가합니다. LLaMA-3 및 GPT-4o와 같은 범용 시스템은 이 작업에서 낮은 성능을 보이지만, 특수 목적 미세 조정은 모델의 성능을 향상시키는 것으로 나타났습니다. 그러나 훈련을 통한 성능 향상은 대부분 암기에서 비롯된 것으로 확인되었습니다. 우리의 결과는 리버스 해결이 대형 언어 모델의 언어 능력과 순차적 지시 수행 능력을 평가하기 위한 여전히 도전적인 테스트베드임을 시사합니다.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Summary

AI-Generated Summary

PDF72November 28, 2024