대규모 언어 모델의 감정 분류 및 반어 감지 성능 향상을 위한 고급 프롬프트 엔지니어링 기법
Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques
January 13, 2026
저자: Marvin Schmitt, Anne Schwerk, Sebastian Lempert
cs.AI
초록
본 연구는 감정 분석 작업에서 대규모 언어 모델(LLM), 특히 GPT-4o-mini와 gemini-1.5-flash의 성능 향상을 위한 프롬프트 엔지니어링 활용을 탐구한다. 몇 샷 학습(few-shot learning), 생각의 사슬(chain-of-thought) 프롬프트, 자기 일관성(self-consistency) 같은 고급 프롬프트 기법을 기준 모델과 비교 평가한다. 주요 작업에는 감정 분류, 측면 기반 감정 분석, 그리고 반어와 같은 미묘한 뉘앙스 탐지가 포함된다. 연구는 정확도, 재현율, 정밀도, F1 점수로 측정된 LLM 성능을 평가하기 위해 사용된 이론적 배경, 데이터 세트 및 방법을 상세히 설명한다. 연구 결과는 고급 프롬프트 기법이 감정 분석을 크게 향상시킴을 보여주며, 몇 샷 접근법은 GPT-4o-mini에서, 생각의 사슬 프롬프트는 gemini-1.5-flash의 반어 탐지 성능을 최대 46%까지 향상시켰다. 따라서 고급 프롬프트 기법이 전반적인 성능을 개선하지만, GPT-4o-mini에는 몇 샷 프롬프트가 가장 효과적이고 gemini-1.5-flash의 반어 탐지에는 생각의 사슬 기법이 우수하다는 사실은 프롬프트 전략이 모델과 작업 모두에 맞게 설계되어야 함을 시사한다. 이는 프롬프트 설계가 LLM의 아키텍처와 작업의 의미론적 복잡성 모두에 부합하는 것이 중요함을 강조한다.
English
This study investigates the use of prompt engineering to enhance large language models (LLMs), specifically GPT-4o-mini and gemini-1.5-flash, in sentiment analysis tasks. It evaluates advanced prompting techniques like few-shot learning, chain-of-thought prompting, and self-consistency against a baseline. Key tasks include sentiment classification, aspect-based sentiment analysis, and detecting subtle nuances such as irony. The research details the theoretical background, datasets, and methods used, assessing performance of LLMs as measured by accuracy, recall, precision, and F1 score. Findings reveal that advanced prompting significantly improves sentiment analysis, with the few-shot approach excelling in GPT-4o-mini and chain-of-thought prompting boosting irony detection in gemini-1.5-flash by up to 46%. Thus, while advanced prompting techniques overall improve performance, the fact that few-shot prompting works best for GPT-4o-mini and chain-of-thought excels in gemini-1.5-flash for irony detection suggests that prompting strategies must be tailored to both the model and the task. This highlights the importance of aligning prompt design with both the LLM's architecture and the semantic complexity of the task.