Habilidad Pesada: El Pensamiento Pesado como Habilidad Interna en el Dominio Agéntico

Resumen

Los recient avances en sistemas agentivos con marcos de orquestación que coordinan múltiples agentes dotados de memoria, habilidades y uso de herramientas han logrado un éxito notable en tareas de razonamiento complejo. Sin embargo, el mecanismo subyacente que realmente impulsa el rendimiento permanece oculto tras diseños de sistema intrincados. En este artículo, proponemos HeavySkill, una perspectiva que considera el pensamiento profundo no solo como una unidad de ejecución mínima en sistemas de orquestación, sino también como una habilidad interna internalizada en los parámetros del modelo que impulsa al orquestador para resolver tareas complejas. Identificamos esta habilidad como un pipeline de dos etapas: razonamiento en paralelo seguido de resumen, que puede operar bajo cualquier sistema agentivo. Presentamos un estudio empírico sistemático de HeavySkill en diversos dominios. Nuestros resultados muestran que esta habilidad interna supera consistentemente a las estrategias tradicionales de Mejor-de-N (BoN); notablemente, los LLMs más potentes pueden incluso aproximarse al rendimiento de Pass@N. Crucialmente, demostramos que la profundidad y amplitud del pensamiento profundo, como habilidad aprendible, puede escalarse mediante aprendizaje por refuerzo, ofreciendo un camino prometedor hacia LLMs auto-evolutivos que internalicen el razonamiento complejo sin depender de frágiles capas de orquestación.

English

Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.

Habilidad Pesada: El Pensamiento Pesado como Habilidad Interna en el Dominio Agéntico

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

Resumen

Support