ChatPaper.aiChatPaper

Wenn ein LLM Bedenken gegenüber seinen Antworten hat – und wenn seine Unsicherheit berechtigt ist –

When an LLM is apprehensive about its answers -- and when its uncertainty is justified

March 3, 2025
Autoren: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI

Zusammenfassung

Die Schätzung von Unsicherheit ist entscheidend für die Bewertung von Large Language Models (LLMs), insbesondere in hochriskanten Bereichen, in denen falsche Antworten erhebliche Konsequenzen nach sich ziehen. Zahlreiche Ansätze befassen sich mit diesem Problem, konzentrieren sich jedoch auf eine spezifische Art von Unsicherheit und ignorieren andere. Wir untersuchen, welche Schätzungen, insbesondere tokenweise Entropie und Model-as-Judge (MASJ), für Multiple-Choice-Frage-Antwort-Aufgaben zu verschiedenen Fragenthemen geeignet sind. Unsere Experimente berücksichtigen drei LLMs: Phi-4, Mistral und Qwen in verschiedenen Größen von 1,5B bis 72B sowie 14 Themen. Während MASJ ähnlich wie ein zufälliger Fehlerprädiktor abschneidet, sagt die Antwortentropie Modellfehler in wissensabhängigen Domänen voraus und dient als effektiver Indikator für die Schwierigkeit von Fragen: für Biologie beträgt der ROC AUC 0,73. Diese Korrelation verschwindet im reasoning-abhängigen Bereich: für mathematische Fragen liegt der ROC-AUC bei 0,55. Grundsätzlicher stellten wir fest, dass das Entropiemaß einen bestimmten Grad an logischem Denken erfordert. Daher sollte die datenbezogene Unsicherheitsentropie in Unsicherheitsschätzungsrahmen integriert werden, während MASJ einer Verbesserung bedarf. Darüber hinaus sind die bestehenden MMLU-Pro-Stichproben verzerrt und sollten den erforderlichen Umfang an logischem Denken für verschiedene Subdomänen ausgleichen, um eine fairere Bewertung der Leistung von LLMs zu ermöglichen.
English
Uncertainty estimation is crucial for evaluating Large Language Models (LLMs), particularly in high-stakes domains where incorrect answers result in significant consequences. Numerous approaches consider this problem, while focusing on a specific type of uncertainty, ignoring others. We investigate what estimates, specifically token-wise entropy and model-as-judge (MASJ), would work for multiple-choice question-answering tasks for different question topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly to a random error predictor, the response entropy predicts model error in knowledge-dependent domains and serves as an effective indicator of question difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the reasoning-dependent domain: for math questions ROC-AUC is 0.55. More principally, we found out that the entropy measure required a reasoning amount. Thus, data-uncertainty related entropy should be integrated within uncertainty estimates frameworks, while MASJ requires refinement. Moreover, existing MMLU-Pro samples are biased, and should balance required amount of reasoning for different subdomains to provide a more fair assessment of LLMs performance.
PDF212March 4, 2025