ALE-Bench: Un Benchmark per l'Ingegneria degli Algoritmi a Lungo Termine Orientata agli Obiettivi
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Autori: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Abstract
Quanto sono performanti i sistemi di intelligenza artificiale nell'ingegneria algoritmica per problemi di ottimizzazione complessi in domini come il routing per la consegna di pacchi, la pianificazione degli equipaggi, la programmazione della produzione in fabbrica e il bilanciamento della rete elettrica? Introduciamo ALE-Bench, un nuovo benchmark per valutare i sistemi di intelligenza artificiale in contesti di programmazione algoritmica basata su punteggio. Basandosi su compiti reali tratti dalle AtCoder Heuristic Contests, ALE-Bench presenta problemi di ottimizzazione computazionalmente complessi e privi di soluzioni esatte note. A differenza dei benchmark di codifica a breve termine con valutazione binaria (superato/non superato), ALE-Bench incoraggia un affinamento iterativo delle soluzioni su orizzonti temporali prolungati. Il nostro framework software supporta architetture di agenti interattivi che sfruttano feedback derivanti da esecuzioni di test e visualizzazioni. La nostra valutazione dei modelli linguistici all'avanguardia ha rivelato che, sebbene dimostrino alte prestazioni su problemi specifici, rimane un divario significativo rispetto agli esseri umani in termini di coerenza tra problemi e capacità di risoluzione di problemi su lunghi orizzonti temporali. Ciò sottolinea la necessità di questo benchmark per favorire futuri progressi nell'intelligenza artificiale.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.