От навыков к таланту: организация гетерогенных агентов как реальная компания
From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company
April 24, 2026
Авторы: Zhengxu Yu, Yu Fu, Zhiyuan He, Yuxuan Huang, Lee Ka Yiu, Meng Fang, Weilin Luo, Jun Wang
cs.AI
Аннотация
Возможности отдельных агентов быстро развиваются благодаря модульным навыкам и интеграции инструментов, однако многoагентные системы остаются ограниченными жесткими структурами команд, тесно связанной логикой координации и обучением в рамках сессии. Мы утверждаем, что это отражает более глубокую проблему — отсутствие продуманного организационного уровня, который управляет тем, как формируется, управляется и улучшается со временем коллектив агентов, независимо от знаний отдельных агентов. Чтобы заполнить этот пробел, мы представляем OneManCompany (OMC) — фреймворк, который поднимает многoагентные системы на организационный уровень. OMC инкапсулирует навыки, инструменты и конфигурации времени выполнения в переносимые идентичности агентов, называемые Талантами (Talents), оркестрируемые через типизированные организационные интерфейсы, абстрагирующие гетерогенные бэкенды. Сообщество-ориентированный Рынок Талантов (Talent Market) позволяет осуществлять найм по требованию, давая организации возможность закрывать пробелы в возможностях и динамически перестраиваться во время выполнения. Организационное принятие решений реализовано через поиск в дереве Исследование-Исполнение-Анализ (E^2R), который объединяет планирование, выполнение и оценку в едином иерархическом цикле: задачи декомпозируются сверху вниз на ответственные единицы, а результаты выполнения агрегируются снизу вверх для систематического анализа и улучшения. Этот цикл обеспечивает формальные гарантии завершаемости и отсутствия взаимных блокировок, отражая механизмы обратной связи в человеческих организациях. В совокупности эти элементы преобразуют многoагентные системы из статических, предварительно сконфигурированных конвейеров в самоорганизующиеся и самосовершенствующиеся ИИ-организации, способные адаптироваться к открытым задачам в различных областях. Эмпирическая оценка на PRDBench показывает, что OMC достигает уровня успешного выполнения 84.67%, превосходя современные state-of-the-art методы на 15.48 процентных пунктов, а кейс-стади из разных областей дополнительно демонстрируют его универсальность.
English
Individual agent capabilities have advanced rapidly through modular skills and tool integrations, yet multi-agent systems remain constrained by fixed team structures, tightly coupled coordination logic, and session-bound learning. We argue that this reflects a deeper absence: a principled organisational layer that governs how a workforce of agents is assembled, governed, and improved over time, decoupled from what individual agents know. To fill this gap, we introduce OneManCompany (OMC), a framework that elevates multi-agent systems to the organisational level. OMC encapsulates skills, tools, and runtime configurations into portable agent identities called Talents, orchestrated through typed organisational interfaces that abstract over heterogeneous backends. A community-driven Talent Market enables on-demand recruitment, allowing the organisation to close capability gaps and reconfigure itself dynamically during execution. Organisational decision-making is operationalised through an Explore-Execute-Review (E^2R) tree search, which unifies planning, execution, and evaluation in a single hierarchical loop: tasks are decomposed top-down into accountable units and execution outcomes are aggregated bottom-up to drive systematic review and refinement. This loop provides formal guarantees on termination and deadlock freedom while mirroring the feedback mechanisms of human enterprises. Together, these contributions transform multi-agent systems from static, pre-configured pipelines into self-organising and self-improving AI organisations capable of adapting to open-ended tasks across diverse domains. Empirical evaluation on PRDBench shows that OMC achieves an 84.67% success rate, surpassing the state of the art by 15.48 percentage points, with cross-domain case studies further demonstrating its generality.