HeavySkill : La pensée lourde comme compétence interne dans le pilotage agentique

Résumé

Les progrès récents dans les systèmes agentiques avec cadres d'orchestration coordonnant plusieurs agents dotés de mémoire, de compétences et d'outils ont obtenu des succès remarquables dans les tâches de raisonnement complexe. Cependant, le mécanisme sous-jacent qui pilote véritablement la performance reste obscurci par des conceptions système complexes. Dans cet article, nous proposons HeavySkill, une perspective considérant la réflexion approfondie non seulement comme une unité d'exécution minimale dans les systèmes d'orchestration, mais aussi comme une compétence internalisée dans les paramètres du modèle qui pousse l'orchestrateur à résoudre des tâches complexes. Nous identifions cette compétence comme un pipeline en deux étapes – raisonnement parallèle puis synthèse – pouvant opérer sous-jacent à tout système agentique. Nous présentons une étude empirique systématique de HeavySkill sur divers domaines. Nos résultats montrent que cette compétence interne surpasse constamment les stratégies traditionnelles de Meilleur-de-N (BoN) ; notablement, les modèles de langage plus puissants peuvent même approcher les performances Pass@N. Surtout, nous démontrons que la profondeur et l'ampleur de la réflexion approfondie, en tant que compétence apprenable, peuvent être davantage étendues via l'apprentissage par renforcement, ouvrant une voie prometteuse vers des LLM auto-évolutifs internalisant le raisonnement complexe sans dépendre de couches d'orchestration fragiles.

English

Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.

HeavySkill : La pensée lourde comme compétence interne dans le pilotage agentique

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Résumé

Support