Прогнозирование будущего поведения как задача обучения

Аннотация

Доверие к системе ИИ часто обусловлено объяснениями того, как она работает, которые затем используются для прогнозирования ее поведения на новых входных данных. Для больших моделей рассуждений (БМР) этот традиционный путь особенно трудно реализовать: методы объяснения для отдельных генераций токенов не обобщаются естественным образом на длинные траектории, а сами траектории зачастую недостоверны при прочтении в виде естественного языка. Мы предлагаем альтернативу, которая обходит этап объяснения: рассматривать прогнозирование поведения как обучаемую задачу и обучать Предикторов поведения, которые на основе одной траектории рассуждения делают те же прогнозы, которые обычно требуются от объяснения. Обучающие данные для предиктора получаются путем запросов к БМР без человеческой аннотации, а его вывод выполняется за один прямой проход. Мы реализуем этот подход для двух задач: вероятности того, что БМР повторит свой ответ при повторных запусках, и того, как удаление частей входных данных меняет ее ответ. Мы оцениваем этот подход на обеих задачах на трех разнообразных наборах данных для рассуждений и обнаруживаем, что обученные Предикторы поведения точнее, чем GPT-5.4 и Claude Opus-4.6, читающие те же траектории в качестве наивных читателей, при малой доле их вычислительных затрат. Мы находим, что сквозная тонкая настройка базовой модели и ее инициализация из целевой БМР необходимы для высокой производительности. Эти результаты показывают, что траектория рассуждения несет информацию о будущем поведении БМР, выходящую за рамки того, что передается при наивном чтении.

English

Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs. For large reasoning models (LRMs), this conventional route is particularly difficult to follow: explanation methods for single token generations do not naturally generalize to long trajectories, and the trajectories themselves are often not faithful when read as natural language. We propose an alternative that bypasses the explanation step: treat behavior forecasting as a learnable task and train Behavior Forecasters that operates on a single reasoning trajectory to make the same forecasts one would typically seek from an explanation. The forecaster's training data is obtained by querying the LRM with no human annotation, and its inference is done in a single forward pass. We instantiate this approach on two tasks: how likely the LRM is to repeat its answer on re-runs, and how removing parts of the input changes its answer. We evaluate this approach on both tasks across three diverse reasoning datasets and find that trained Behavior Forecasters are more accurate than GPT-5.4 and Claude Opus-4.6 reading the same trajectories as naive readers, at a small fraction of their inference cost. We find that fine-tuning the backbone end-to-end and initializing it from the target LRM are each necessary for strong performance. These results show that the reasoning trajectory carries information about the LRM's future behavior that goes beyond what naive reading conveys.