ALE-Bench: Een Benchmark voor Langetermijn Doelgericht Algoritme-Engineering
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Auteurs: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Samenvatting
Hoe presteren AI-systemen in algoritme-engineering voor moeilijke optimalisatieproblemen in domeinen zoals pakketbezorgingsrouting, personeelsplanning, fabrieksproductieplanning en netbalancering in elektriciteitsnetwerken? We introduceren ALE-Bench, een nieuwe benchmark voor het evalueren van AI-systemen op score-gebaseerde algoritmische programmeerwedstrijden. Gebaseerd op echte taken uit de AtCoder Heuristic Contests, presenteert ALE-Bench optimalisatieproblemen die computationeel moeilijk zijn en waarvoor geen exacte oplossing bekend is. In tegenstelling tot kortdurende, geslaagd/gezakt programmeerbenchmarks, stimuleert ALE-Bench iteratieve oplossingsverfijning over langere tijdsperioden. Ons softwareframework ondersteunt interactieve agentarchitecturen die gebruikmaken van feedback en visualisaties uit testruns. Onze evaluatie van toonaangevende LLM's toonde aan dat, hoewel ze hoge prestaties laten zien op specifieke problemen, er een opmerkelijk verschil blijft in vergelijking met mensen wat betreft consistentie over verschillende problemen en het vermogen om problemen op lange termijn op te lossen. Dit onderstreept de noodzaak van deze benchmark om toekomstige AI-vooruitgang te bevorderen.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.