Nutzung großer Sprachmodelle für die prädiktive Analyse menschlichen Leids
Leveraging Large Language Models for Predictive Analysis of Human Misery
August 18, 2025
papers.authors: Bishanka Seal, Rahul Seetharaman, Aman Bansal, Abhilash Nandy
cs.AI
papers.abstract
Diese Studie untersucht die Verwendung von Large Language Models (LLMs) zur Vorhersage von menschlich wahrgenommenen Misery-Scores aus natürlichen Sprachbeschreibungen realer Szenarien. Die Aufgabe wird als Regressionsproblem formuliert, bei dem das Modell jedem Eingabestatement einen Skalarwert von 0 bis 100 zuweist. Wir evaluieren mehrere Prompting-Strategien, darunter Zero-Shot, Fixed-Context Few-Shot und Retrieval-basiertes Prompting unter Verwendung von BERT-Satz-Embeddings. Few-Shot-Ansätze übertreffen durchweg Zero-Shot-Baselines, was den Wert kontextueller Beispiele für die affektive Vorhersage unterstreicht. Um über die statische Evaluation hinauszugehen, führen wir die „Misery Game Show“ ein, einen neuartigen, gamifizierten Rahmen, der von einem Fernsehformat inspiriert ist. Sie testet LLMs durch strukturierte Runden, die ordinale Vergleiche, binäre Klassifikation, skalare Schätzung und feedbackgesteuertes Reasoning umfassen. Dieser Aufbau ermöglicht es uns, nicht nur die Vorhersagegenauigkeit, sondern auch die Fähigkeit des Modells zur Anpassung basierend auf korrigierendem Feedback zu bewerten. Die gamifizierte Evaluation verdeutlicht das breitere Potenzial von LLMs in dynamischen emotionalen Reasoning-Aufgaben jenseits der Standardregression. Code und Datenlink: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
English
This study investigates the use of Large Language Models (LLMs) for
predicting human-perceived misery scores from natural language descriptions of
real-world scenarios. The task is framed as a regression problem, where the
model assigns a scalar value from 0 to 100 to each input statement. We evaluate
multiple prompting strategies, including zero-shot, fixed-context few-shot, and
retrieval-based prompting using BERT sentence embeddings. Few-shot approaches
consistently outperform zero-shot baselines, underscoring the value of
contextual examples in affective prediction. To move beyond static evaluation,
we introduce the "Misery Game Show", a novel gamified framework inspired by a
television format. It tests LLMs through structured rounds involving ordinal
comparison, binary classification, scalar estimation, and feedback-driven
reasoning. This setup enables us to assess not only predictive accuracy but
also the model's ability to adapt based on corrective feedback. The gamified
evaluation highlights the broader potential of LLMs in dynamic emotional
reasoning tasks beyond standard regression. Code and data link:
https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub