AcademiClaw: Когда студенты ставят задачи перед ИИ-агентами

Аннотация

Бенчмарки в экосистеме OpenClaw до сих пор оценивали исключительно задачи уровня ассистента, оставляя академические возможности OpenClaw в значительной степени неисследованными. Мы представляем AcademiClaw — двуязычный бенчмарк из 80 сложных, долгосрочных задач, взятых непосредственно из реальных академических рабочих процессов студентов университетов — домашних заданий, исследовательских проектов, конкурсов и личных проектов, — которые, по их словам, современные ИИ-агенты не могут эффективно решить. Отобранный из 230 кандидатур, предложенных студентами, в ходе строгого экспертного обзора, финальный набор задач охватывает более 25 профессиональных областей, от олимпиадных задач по математике и лингвистике до требовательных к GPU задач по обучению с подкреплением и отладки полнофункциональных систем, причем 16 задач требуют выполнения кода с использованием CUDA и GPU. Каждая задача выполняется в изолированном Docker-песочнице и оценивается по завершению с помощью многомерных критериев, объединяющих шесть взаимодополняющих методик, а независимый аудит безопасности по пяти категориям предоставляет дополнительный поведенческий анализ. Эксперименты с шестью передовыми моделями показывают, что даже лучшая из них достигает уровня успешного выполнения лишь в 55%. Дальнейший анализ выявляет резкие границы возможностей в различных предметных областях, divergent поведенческие стратегии среди моделей и разрыв между потреблением токенов и качеством выходных данных, предоставляя детальные диагностические сигналы, выходящие за рамки агрегированных метрик. Мы надеемся, что AcademiClaw вместе с его открытыми данными и кодом сможет стать полезным ресурсом для сообщества OpenClaw, способствуя прогрессу в создании агентов, которые являются более способными и универсальными в полном спектре реальных академических требований. Все данные и код доступны по адресу https://github.com/GAIR-NLP/AcademiClaw.

English

Benchmarks within the OpenClaw ecosystem have thus far evaluated exclusively assistant-level tasks, leaving the academic-level capabilities of OpenClaw largely unexamined. We introduce AcademiClaw, a bilingual benchmark of 80 complex, long-horizon tasks sourced directly from university students' real academic workflows -- homework, research projects, competitions, and personal projects -- that they found current AI agents unable to solve effectively. Curated from 230 student-submitted candidates through rigorous expert review, the final task set spans 25+ professional domains, ranging from olympiad-level mathematics and linguistics problems to GPU-intensive reinforcement learning and full-stack system debugging, with 16 tasks requiring CUDA GPU execution. Each task executes in an isolated Docker sandbox and is scored on task completion by multi-dimensional rubrics combining six complementary techniques, with an independent five-category safety audit providing additional behavioral analysis. Experiments on six frontier models show that even the best achieves only a 55\% pass rate. Further analysis uncovers sharp capability boundaries across task domains, divergent behavioral strategies among models, and a disconnect between token consumption and output quality, providing fine-grained diagnostic signals beyond what aggregate metrics reveal. We hope that AcademiClaw and its open-sourced data and code can serve as a useful resource for the OpenClaw community, driving progress toward agents that are more capable and versatile across the full breadth of real-world academic demands. All data and code are available at https://github.com/GAIR-NLP/AcademiClaw.

AcademiClaw: Когда студенты ставят задачи перед ИИ-агентами

AcademiClaw: When Students Set Challenges for AI Agents

Аннотация

Support