HeavySkill: Zwaar Denken als de Innerlijke Vaardigheid in Agentisch Benutten

Samenvatting

Recente vooruitgang in agentgestuurde systemen met orkestratieframeworks die meerdere agents coördineren met geheugen, vaardigheden en gereedschapsgebruik hebben opmerkelijke successen geboekt in complexe redeneertaken. Het onderliggende mechanisme dat de prestaties werkelijk drijft, blijft echter verborgen achter ingewikkelde systeemontwerpen. In dit artikel stellen we HeavySkill voor, een perspectief dat zwaar denken niet alleen ziet als een minimale uitvoeringseenheid in orkestratiesystemen, maar ook als een innerlijke vaardigheid die geïnternaliseerd is in de parameters van het model en die de orkestrator drijft om complexe taken op te lossen. We identificeren deze vaardigheid als een tweefasenpijplijn, namelijk parallel redeneren gevolgd door samenvatting, die onder elk agentgestuurd systeem kan opereren. We presenteren een systematische empirische studie van HeavySkill in diverse domeinen. Onze resultaten tonen aan dat deze innerlijke vaardigheid consistent traditionele Best-of-N (BoN)-strategieën overtreffen; opmerkelijk genoeg kunnen sterkere LLM's zelfs de prestaties van Pass@N benaderen. Cruciaal is dat we aantonen dat de diepte en breedte van zwaar denken, als een leerbare vaardigheid, verder opgeschaald kunnen worden via reinforcement learning, wat een veelbelovend pad biedt naar zelf-evoluerende LLM's die complex redeneren internaliseren zonder te leunen op broze orkestratielagen.

English

Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.

HeavySkill: Zwaar Denken als de Innerlijke Vaardigheid in Agentisch Benutten

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Samenvatting

Support