ALE-Bench: Бенчмарк для инженерного проектирования алгоритмов с долгосрочными целевыми ориентирами
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Авторы: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Аннотация
Насколько хорошо системы ИИ справляются с разработкой алгоритмов для сложных задач оптимизации в таких областях, как маршрутизация доставки посылок, планирование смен персонала, планирование производственных процессов на фабриках и балансировка энергосистем? Мы представляем ALE-Bench — новый эталонный тест для оценки систем ИИ в соревнованиях по алгоритмическому программированию, основанным на баллах. Используя реальные задачи из AtCoder Heuristic Contests, ALE-Bench предлагает оптимизационные задачи, которые являются вычислительно сложными и не имеют известных точных решений. В отличие от краткосрочных тестов с бинарной оценкой (сдано/не сдано), ALE-Bench поощряет итеративное улучшение решений на протяжении длительных временных горизонтов. Наша программная платформа поддерживает интерактивные архитектуры агентов, использующих обратную связь от тестовых запусков и визуализации. Оценка передовых языковых моделей (LLM) показала, что, хотя они демонстрируют высокую производительность в решении конкретных задач, сохраняется заметный разрыв по сравнению с людьми в плане согласованности результатов между задачами и способностей к долгосрочному решению проблем. Это подчеркивает необходимость данного эталонного теста для стимулирования будущих достижений в области ИИ.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.