HeavySkill: Глубокое мышление как внутренний навык в агентном управлении

Аннотация

Последние достижения в области агентных систем с оркестровочными фреймворками, координирующими множественные агенты с памятью, навыками и использованием инструментов, позволили добиться выдающихся успехов в решении сложных задач логического вывода. Однако базовый механизм, реально определяющий производительность, остается скрытым за сложными системными архитектурами. В данной статье мы предлагаем HeavySkill — подход, который рассматривает интенсивное мышление не только как минимальную единицу исполнения в оркестровочной системе, но и как внутренний навык, интериоризированный в параметры модели, который направляет оркестратор на решение сложных задач. Мы определяем этот навык как двухэтапный конвейер, а именно параллельное рассуждение с последующим обобщением, который может функционировать в основе любой агентной системы. Мы представляем систематическое эмпирическое исследование HeavySkill в различных предметных областях. Наши результаты показывают, что этот внутренний навык стабильно превосходит традиционные стратегии Best-of-N (BoN); примечательно, что более мощные большие языковые модели могут приближаться к производительности Pass@N. Ключевым образом мы демонстрируем, что глубина и широта интенсивного мышления как обучаемого навыка могут быть дополнительно масштабированы с помощью обучения с подкреплением, открывая перспективный путь к саморазвивающимся большим языковым моделям, которые интериоризируют сложные рассуждения без зависимости от хрупких оркестровочных слоев.

English

Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.

HeavySkill: Глубокое мышление как внутренний навык в агентном управлении

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Аннотация

Support