"Vielleicht habe ich mich nicht klar ausgedrückt": Diagnose dynamischer Instabilität in der Schlussfolgerungsfähigkeit von LLMs zur Inferenzzeit

papers.abstract

Fehlschlüsse bei großen Sprachmodellen (LLMs) werden typischerweise nur am Ende einer Generierung gemessen, doch viele Fehler zeigen sich als prozessualer Zusammenbruch: Das Modell verliert "mitten im Schlussfolgern den Faden". Wir untersuchen, ob solche Zusammenbrüche anhand von zur Inferenzzeit verfügbaren Beobachtwerten aus Standard-APIs (Token-Log-Wahrscheinlichkeiten) erkennbar sind, ohne jegliches Training oder Fine-Tuning. Wir definieren ein einfaches Instabilitätssignal, das verteilungsbezogene Verschiebung (JSD) und Unsicherheit (Entropie) aufeinanderfolgender Schritte kombiniert, fassen jeden Trace durch seine maximale Instabilitätsstärke zusammen und zeigen, dass dieses Signal Fehler zuverlässig vorhersagt. Über GSM8K und HotpotQA hinweg sagt die Instabilitätsstärke falsche Antworten mit einer über dem Zufall liegenden AUC voraus und führt zu einem monotonen Abfall der Genauigkeit auf Bucket-Ebene im großen Maßstab über verschiedene Modellgrößen hinweg. Entscheidend ist, dass wir zeigen, dass Instabilität nicht einheitlich schädlich ist: Frühe Instabilität kann eine nachfolgende Stabilisierung und eine korrekte Endantwort widerspiegeln (korrigierende Instabilität), während späte Instabilität häufiger zu einem Fehler führt (destruktive Instabilität), selbst bei vergleichbaren Spitzenwerten. Dies deutet darauf hin, dass die Erholbarkeit nicht nur davon abhängt, wie stark sich die Verteilung ändert, sondern auch davon, wann solche Änderungen im Verhältnis zum verbleibenden Dekodierungshorizont auftreten. Die Methode ist modellagnostisch, kommt ohne Training aus und ist reproduzierbar. Sie wird als diagnostische Linse präsentiert und nicht als Korrektur- oder Steuerungsmechanismus.

English

Reasoning failures in large language models (LLMs) are typically measured only at the end of a generation, yet many failures manifest as a process-level breakdown: the model "loses the thread" mid-reasoning. We study whether such breakdowns are detectable from inference-time observables available in standard APIs (token log probabilities), without any training or fine-tuning. We define a simple instability signal that combines consecutive-step distributional shift (JSD) and uncertainty (entropy), summarize each trace by its peak instability strength, and show that this signal reliably predicts failure. Across GSM8K and HotpotQA, instability strength predicts wrong answers with above-chance AUC and yields monotonic bucket-level accuracy decline at scale across model sizes. Crucially, we show that instability is not uniformly harmful: early instability can reflect subsequent stabilization and a correct final answer (corrective instability), whereas late instability is more often followed by failure (destructive instability), even at comparable peak magnitudes, indicating that recoverability depends not only on how strongly the distribution changes but also on when such changes occur relative to the remaining decoding horizon. The method is model-agnostic, training-free, and reproducible, and is presented as a diagnostic lens rather than a corrective or control mechanism.

"Vielleicht habe ich mich nicht klar ausgedrückt": Diagnose dynamischer Instabilität in der Schlussfolgerungsfähigkeit von LLMs zur Inferenzzeit

"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

papers.abstract

Support