« Je ne me suis peut-être pas exprimé clairement » : Diagnostic de l'instabilité dynamique dans le raisonnement des LLM au moment de l'inférence
"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time
February 2, 2026
papers.authors: Jinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj
cs.AI
papers.abstract
Les défaillances de raisonnement dans les grands modèles de langage (LLM) sont généralement mesurées uniquement en fin de génération, pourtant de nombreuses erreurs se manifestent par une rupture au niveau du processus : le modèle « perd le fil » en cours de raisonnement. Nous étudions si de telles ruptures sont détectables à partir d'observables disponibles en temps d'inférence via les API standard (logprobabilités des tokens), sans aucun entraînement ou ajustement fin. Nous définissons un signal d'instabilité simple qui combine un changement distributionnel entre étapes consécutives (JSD) et l'incertitude (entropie), résumons chaque trace par la valeur maximale de son instabilité, et montrons que ce signal prédit de manière fiable l'échec. Sur GSM8K et HotpotQA, l'intensité de l'instabilité prédit les mauvaises réponses avec une AUC supérieure au hasard et produit un déclin monotone de la précision par groupe à grande échelle, quel que soit la taille du modèle. Fait crucial, nous montrons que l'instabilité n'est pas uniformément néfaste : une instabilité précoce peut refléter une stabilisation ultérieure et une réponse finale correcte (instabilité corrective), tandis qu'une instabilité tardive est plus souvent suivie d'un échec (instabilité destructive), même pour des amplitudes maximales comparables, indiquant que la capacité de récupération dépend non seulement de l'intensité du changement distributionnel, mais aussi du moment où ces changements se produisent par rapport à l'horizon de décodage restant. La méthode est agnostique au modèle, ne nécessite pas d'entraînement, est reproductible, et est présentée comme un outil de diagnostic plutôt que comme un mécanisme de correction ou de contrôle.
English
Reasoning failures in large language models (LLMs) are typically measured only at the end of a generation, yet many failures manifest as a process-level breakdown: the model "loses the thread" mid-reasoning. We study whether such breakdowns are detectable from inference-time observables available in standard APIs (token log probabilities), without any training or fine-tuning. We define a simple instability signal that combines consecutive-step distributional shift (JSD) and uncertainty (entropy), summarize each trace by its peak instability strength, and show that this signal reliably predicts failure. Across GSM8K and HotpotQA, instability strength predicts wrong answers with above-chance AUC and yields monotonic bucket-level accuracy decline at scale across model sizes. Crucially, we show that instability is not uniformly harmful: early instability can reflect subsequent stabilization and a correct final answer (corrective instability), whereas late instability is more often followed by failure (destructive instability), even at comparable peak magnitudes, indicating that recoverability depends not only on how strongly the distribution changes but also on when such changes occur relative to the remaining decoding horizon. The method is model-agnostic, training-free, and reproducible, and is presented as a diagnostic lens rather than a corrective or control mechanism.