ALE-Bench: Бенчмарк для инженерного проектирования алгоритмов с долгосрочными целевыми ориентирами

Аннотация

Насколько хорошо системы ИИ справляются с разработкой алгоритмов для сложных задач оптимизации в таких областях, как маршрутизация доставки посылок, планирование смен персонала, планирование производственных процессов на фабриках и балансировка энергосистем? Мы представляем ALE-Bench — новый эталонный тест для оценки систем ИИ в соревнованиях по алгоритмическому программированию, основанным на баллах. Используя реальные задачи из AtCoder Heuristic Contests, ALE-Bench предлагает оптимизационные задачи, которые являются вычислительно сложными и не имеют известных точных решений. В отличие от краткосрочных тестов с бинарной оценкой (сдано/не сдано), ALE-Bench поощряет итеративное улучшение решений на протяжении длительных временных горизонтов. Наша программная платформа поддерживает интерактивные архитектуры агентов, использующих обратную связь от тестовых запусков и визуализации. Оценка передовых языковых моделей (LLM) показала, что, хотя они демонстрируют высокую производительность в решении конкретных задач, сохраняется заметный разрыв по сравнению с людьми в плане согласованности результатов между задачами и способностей к долгосрочному решению проблем. Это подчеркивает необходимость данного эталонного теста для стимулирования будущих достижений в области ИИ.

English

How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.

ALE-Bench: Бенчмарк для инженерного проектирования алгоритмов с долгосрочными целевыми ориентирами

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

Аннотация

Support