CEO-Bench: Могут ли агенты играть вдолгую?

Аннотация

Языковые модели-агенты становятся искусными исполнителями изолированных краткосрочных задач, таких как разработка программного обеспечения и обслуживание клиентов. Однако реальные проблемы требуют сочетания сложных навыков, которые в основном остаются непроверенными у агентов: (1) навигация в долгосрочной перспективе в условиях неопределенности; (2) получение информации в зашумленной среде; (3) адаптация к изменяющемуся миру; (4) координация множества движущихся частей для достижения целостной цели. Мы представляем CEO-Bench, который оценивает эти способности вместе, моделируя репрезентативную реальную задачу: управление стартапом в течение 500 дней. Агент управляет ценообразованием, маркетингом, бюджетом и многими другими аспектами вымышленной компании через программируемый интерфейс Python, действуя в той же среде и сталкиваясь с теми же вызовами, что и CEO-человек. Успех требует анализа зашумленных, взаимосвязанных бизнес-баз данных, преобразования сигналов в разумную стратегию и координации множества решений с помощью программирования. Самые сильные агенты пишут сложный код, который моделирует когорты клиентов для прогнозирования будущего денежного потока и анализирует историю переговоров, чтобы выявить скрытые предпочтения клиентов. Тем не менее, большинство современных моделей испытывают трудности в этой среде. Только Claude Opus 4.8 и GPT-5.5 завершают работу с балансом выше стартового в 1 миллион долларов, и ни одна из них не показывает стабильную прибыль. CEO-Bench делает первый шаг к измерению интеллекта, необходимого для достижения устойчивого, адаптивного прогресса с течением времени.

English

Language model agents are becoming proficient executors at isolated, short-horizon tasks such as software engineering and customer service. Yet real-world challenges require a combination of sophisticated skills that remain largely untested in agents: (1) navigating long horizons amid uncertainty; (2) acquiring information in noisy environments; (3) adapting to a changing world; (4) orchestrating multiple moving parts toward a coherent goal. We introduce CEO-Bench, which evaluates these capabilities together by simulating a representative real-world task: operating a startup for 500 days. An agent manages pricing, marketing, budgeting, and many other aspects of a fictional company through a programmable Python interface, operating in the same environment and facing the same challenges as a human CEO. Success demands analyzing noisy, interconnected business databases, translating signals into sound strategy, and coordinating many decisions with programming. The strongest agents write sophisticated code that simulates customer cohorts to forecast future cash and mines negotiation history to uncover hidden customer preferences. Even so, most state-of-the-art models struggle in this environment. Only Claude Opus 4.8 and GPT-5.5 finish above the $1M starting balance, and neither consistently turns a profit. CEO-Bench takes a first step toward measuring the intelligence required to drive sustained, adaptive progress over time.