ChatPaper.aiChatPaper

大規模言語モデルにおける感情分類と皮肉検出の高度化:先進的プロンプトエンジニアリング手法による改善

Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

January 13, 2026
著者: Marvin Schmitt, Anne Schwerk, Sebastian Lempert
cs.AI

要旨

本研究は、感情分析タスクにおける大規模言語モデル(LLM)、具体的にはGPT-4o-miniおよびgemini-1.5-flashの性能向上を目的としたプロンプトエンジニアリングの活用を検討する。少数ショット学習、連鎖思考プロンプト、自己一貫性といった高度なプロンプト手法をベースラインと比較評価する。主なタスクには、感情分類、アスペクトベース感情分析、および皮肉のような微妙なニュアンスの検出が含まれる。研究では、使用した理論的背景、データセット、手法を詳細に説明し、LLMの性能を正解率、再現率、適合率、F1スコアによって評価する。結果は、高度なプロンプト手法が感情分析を大幅に改善することを示しており、GPT-4o-miniでは少数ショットアプローチが、gemini-1.5-flashでは連鎖思考プロンプトが皮肉検出において最大46%向上させることを明らかにした。したがって、高度なプロンプト手法は全体的な性能を向上させるが、GPT-4o-miniでは少数ショットプロンプトが、gemini-1.5-flashの皮肉検出では連鎖思考プロンプトが最も有効であるという事実は、プロンプト戦略がモデルとタスクの両方に合わせて調整されなければならないことを示唆している。これは、プロンプト設計をLLMのアーキテクチャとタスクの意味的複雑さの両方に適合させることの重要性を強調するものである。
English
This study investigates the use of prompt engineering to enhance large language models (LLMs), specifically GPT-4o-mini and gemini-1.5-flash, in sentiment analysis tasks. It evaluates advanced prompting techniques like few-shot learning, chain-of-thought prompting, and self-consistency against a baseline. Key tasks include sentiment classification, aspect-based sentiment analysis, and detecting subtle nuances such as irony. The research details the theoretical background, datasets, and methods used, assessing performance of LLMs as measured by accuracy, recall, precision, and F1 score. Findings reveal that advanced prompting significantly improves sentiment analysis, with the few-shot approach excelling in GPT-4o-mini and chain-of-thought prompting boosting irony detection in gemini-1.5-flash by up to 46%. Thus, while advanced prompting techniques overall improve performance, the fact that few-shot prompting works best for GPT-4o-mini and chain-of-thought excels in gemini-1.5-flash for irony detection suggests that prompting strategies must be tailored to both the model and the task. This highlights the importance of aligning prompt design with both the LLM's architecture and the semantic complexity of the task.
PDF11January 17, 2026