HeavySkill: Schweres Denken als innere Fähigkeit im agentiven Einsatz

Zusammenfassung

Jüngste Fortschritte bei agentenbasierten Steuerungssystemen mit Orchestrierungs-Frameworks, die mehrere Agenten mit Gedächtnis, Fähigkeiten und Werkzeugeinsatz koordinieren, haben bemerkenswerte Erfolge bei komplexen Denkaufgaben erzielt. Der zugrundeliegende Mechanismus, der die Leistung tatsächlich antreibt, bleibt jedoch hinter komplexen Systemdesigns verborgen. In diesem Artikel schlagen wir HeavySkill vor, eine Perspektive, die schweres Denken nicht nur als minimale Ausführungseinheit in der Orchestrierungssteuerung betrachtet, sondern auch als eine innere Fähigkeit, die innerhalb der Modellparameter internalisiert ist und den Orchestrator zur Lösung komplexer Aufgaben antreibt. Wir identifizieren diese Fähigkeit als eine zweistufige Pipeline, d.h. paralleles Schlussfolgern gefolgt von Zusammenfassung, die unter jedem agentenbasierten Steuerungssystem operieren kann. Wir präsentieren eine systematische empirische Untersuchung von HeavySkill über verschiedene Domänen hinweg. Unsere Ergebnisse zeigen, dass diese innere Fähigkeit konsistent traditionelle Best-of-N (BoN)-Strategien übertrifft; bemerkenswerterweise können stärkere LLMs sogar an Pass@N-Leistung heranreichen. Entscheidend ist, dass wir demonstrieren, dass Tiefe und Breite des schweren Denkens als erlernbare Fähigkeit durch Reinforcement Learning weiter skaliert werden können, was einen vielversprechenden Weg zu sich selbst entwickelnden LLMs eröffnet, die komplexes Denken internalisieren, ohne auf fragile Orchestrierungsebenen angewiesen zu sein.

English

Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.

HeavySkill: Schweres Denken als innere Fähigkeit im agentiven Einsatz

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Zusammenfassung

Support