ChatPaper.aiChatPaper

Mejora de la Clasificación de Sentimientos y Detección de Ironía en Modelos de Lenguaje Grandes mediante Técnicas Avanzadas de Ingeniería de Prompts

Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

January 13, 2026
Autores: Marvin Schmitt, Anne Schwerk, Sebastian Lempert
cs.AI

Resumen

Este estudio investiga el uso de la ingeniería de prompts para mejorar los modelos de lenguaje grandes (LLMs), específicamente GPT-4o-mini y gemini-1.5-flash, en tareas de análisis de sentimientos. Evalúa técnicas avanzadas de prompting como el aprendizaje con pocos ejemplos (few-shot learning), el prompting de cadena de pensamiento (chain-of-thought) y la autoconsistencia (self-consistency), comparándolas con una línea base. Las tareas clave incluyen la clasificación de sentimientos, el análisis de sentimientos basado en aspectos y la detección de matices sutiles como la ironía. La investigación detalla los antecedentes teóricos, los conjuntos de datos y los métodos utilizados, evaluando el rendimiento de los LLMs mediante las métricas de exactitud (accuracy), exhaustividad (recall), precisión (precision) y puntuación F1. Los hallazgos revelan que el prompting avanzado mejora significativamente el análisis de sentimientos, donde el enfoque de pocos ejemplos sobresale en GPT-4o-mini y el prompting de cadena de pensamiento potencia la detección de ironía en gemini-1.5-flash hasta en un 46%. Por lo tanto, si bien las técnicas de prompting avanzado mejoran el rendimiento en general, el hecho de que el prompting con pocos ejemplos funcione mejor para GPT-4o-mini y que la cadena de pensamiento sea superior en gemini-1.5-flash para la detección de ironía sugiere que las estrategias de prompting deben adaptarse tanto al modelo como a la tarea. Esto subraya la importancia de alinear el diseño de prompts tanto con la arquitectura del LLM como con la complejidad semántica de la tarea.
English
This study investigates the use of prompt engineering to enhance large language models (LLMs), specifically GPT-4o-mini and gemini-1.5-flash, in sentiment analysis tasks. It evaluates advanced prompting techniques like few-shot learning, chain-of-thought prompting, and self-consistency against a baseline. Key tasks include sentiment classification, aspect-based sentiment analysis, and detecting subtle nuances such as irony. The research details the theoretical background, datasets, and methods used, assessing performance of LLMs as measured by accuracy, recall, precision, and F1 score. Findings reveal that advanced prompting significantly improves sentiment analysis, with the few-shot approach excelling in GPT-4o-mini and chain-of-thought prompting boosting irony detection in gemini-1.5-flash by up to 46%. Thus, while advanced prompting techniques overall improve performance, the fact that few-shot prompting works best for GPT-4o-mini and chain-of-thought excels in gemini-1.5-flash for irony detection suggests that prompting strategies must be tailored to both the model and the task. This highlights the importance of aligning prompt design with both the LLM's architecture and the semantic complexity of the task.
PDF11January 17, 2026