ChatPaper.aiChatPaper

大規模推論モデルは中断可能か?

Are Large Reasoning Models Interruptible?

October 13, 2025
著者: Tsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
cs.AI

要旨

大規模推論モデル(LRM)は複雑な推論に優れているが、従来は静的な「凍結世界」設定で評価されてきた。モデルの応答は瞬時に行われると仮定され、リクエストのコンテキストは応答期間中に不変であると想定されている。短期的なタスクでは一般的にこの「凍結世界」の仮定が成り立つが、現代の推論タスク、例えばアシスタントプログラミングでは、モデルが問題を考えるのに数時間を要し、モデルが思考を開始してから最終的な出力を行うまでの間にコードが劇的に変化するため、この仮定は崩れる。本研究では、凍結世界の仮定に挑戦し、2つの現実的な動的シナリオ下でのLRMの堅牢性を評価する。1つは中断で、限られた予算内でのモデルの部分的な出力の品質をテストし、もう1つは動的コンテキストで、進行中の変化に対するモデルの適応力をテストする。長文推論を必要とする数学およびプログラミングのベンチマークにおいて、静的評価は一貫して堅牢性を過大評価していることが明らかになった。静的設定で高い精度を達成する最先端のLRMでさえ、中断されたり変化するコンテキストにさらされたりすると予測不可能な失敗を起こし、推論プロセスの後半で更新が導入されると性能が最大60%低下する。我々の分析はさらに、いくつかの新しい失敗モードを明らかにした。これには、中断された際にモデルが推論を最終的な答えに折り込む「推論漏れ」、時間的プレッシャーの下でモデルが推論を完全に放棄して誤った答えを返す「パニック」、更新された情報を取り入れる際に性能が低下する「自己疑念」が含まれる。
English
Large Reasoning Models (LRMs) excel at complex reasoning but are traditionally evaluated in static, "frozen world" settings: model responses are assumed to be instantaneous, and the context of a request is presumed to be immutable over the duration of the response. While generally true for short-term tasks, the "frozen world" assumption breaks down in modern reasoning tasks such as assistive programming, where models may take hours to think through problems and code may change dramatically from the time the model starts thinking to the model's final output. In this work, we challenge the frozen world assumption and evaluate LRM robustness under two realistic dynamic scenarios: interruptions, which test the quality of the model's partial outputs on a limited budget, and dynamic context, which tests model adaptation to in-flight changes. Across mathematics and programming benchmarks that require long-form reasoning, static evaluations consistently overestimate robustness: even state-of-the-art LRMs, which achieve high accuracy in static settings, can fail unpredictably when interrupted or exposed to changing context, with performance dropping by up to 60% when updates are introduced late in the reasoning process. Our analysis further reveals several novel failure modes, including reasoning leakage, where models fold the reasoning into their final answer when interrupted; panic, where under time pressure models abandon reasoning entirely and return incorrect answers; and self-doubt, where performance degrades while incorporating updated information.
PDF22October 14, 2025