«Возможно, я выразился недостаточно ясно»: Диагностика динамической нестабильности в рассуждениях больших языковых моделей во время вывода

Аннотация

Сбои в логических рассуждениях крупных языковых моделей (LLM) обычно измеряются только по итоговому результату генерации, однако многие ошибки проявляются как сбой на уровне процесса: модель "теряет нить" рассуждений в середине процесса. Мы исследуем, можно ли обнаружить такие сбои по наблюдаемым параметрам, доступным во время вывода через стандартные API (вероятности токенов), без какого-либо обучения или дообучения. Мы определяем простой сигнал нестабильности, который комбинирует распределительный сдвиг (JSD) на последовательных шагах и неопределенность (энтропию), суммируем каждый траекторию рассуждений по пиковой силе нестабильности и показываем, что этот сигнал надежно предсказывает ошибку. На примерах GSM8K и HotpotQA сила нестабильности предсказывает неверные ответы с AUC выше случайного уровня и демонстрирует монотонное снижение точности на уровне групп (bucket-level accuracy) при масштабировании размеров моделей. Ключевым является то, что мы показываем, что нестабильность не всегда вредна: ранняя нестабильность может отражать последующую стабилизацию и верный конечный ответ (корректирующая нестабильность), тогда как поздняя нестабильность чаще приводит к ошибке (деструктивная нестабильность), даже при сравнимых пиковых величинах. Это указывает на то, что возможность восстановления зависит не только от силы изменения распределения, но и от того, когда такие изменения происходят относительно оставшегося горизонта декодирования. Метод является модельно-независимым, не требующим обучения и воспроизводимым, и представлен как диагностический инструмент, а не как механизм коррекции или управления.

English

Reasoning failures in large language models (LLMs) are typically measured only at the end of a generation, yet many failures manifest as a process-level breakdown: the model "loses the thread" mid-reasoning. We study whether such breakdowns are detectable from inference-time observables available in standard APIs (token log probabilities), without any training or fine-tuning. We define a simple instability signal that combines consecutive-step distributional shift (JSD) and uncertainty (entropy), summarize each trace by its peak instability strength, and show that this signal reliably predicts failure. Across GSM8K and HotpotQA, instability strength predicts wrong answers with above-chance AUC and yields monotonic bucket-level accuracy decline at scale across model sizes. Crucially, we show that instability is not uniformly harmful: early instability can reflect subsequent stabilization and a correct final answer (corrective instability), whereas late instability is more often followed by failure (destructive instability), even at comparable peak magnitudes, indicating that recoverability depends not only on how strongly the distribution changes but also on when such changes occur relative to the remaining decoding horizon. The method is model-agnostic, training-free, and reproducible, and is presented as a diagnostic lens rather than a corrective or control mechanism.

«Возможно, я выразился недостаточно ясно»: Диагностика динамической нестабильности в рассуждениях больших языковых моделей во время вывода

"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

Аннотация

Support