ALE-Bench: Un Benchmark per l'Ingegneria degli Algoritmi a Lungo Termine Orientata agli Obiettivi

Abstract

Quanto sono performanti i sistemi di intelligenza artificiale nell'ingegneria algoritmica per problemi di ottimizzazione complessi in domini come il routing per la consegna di pacchi, la pianificazione degli equipaggi, la programmazione della produzione in fabbrica e il bilanciamento della rete elettrica? Introduciamo ALE-Bench, un nuovo benchmark per valutare i sistemi di intelligenza artificiale in contesti di programmazione algoritmica basata su punteggio. Basandosi su compiti reali tratti dalle AtCoder Heuristic Contests, ALE-Bench presenta problemi di ottimizzazione computazionalmente complessi e privi di soluzioni esatte note. A differenza dei benchmark di codifica a breve termine con valutazione binaria (superato/non superato), ALE-Bench incoraggia un affinamento iterativo delle soluzioni su orizzonti temporali prolungati. Il nostro framework software supporta architetture di agenti interattivi che sfruttano feedback derivanti da esecuzioni di test e visualizzazioni. La nostra valutazione dei modelli linguistici all'avanguardia ha rivelato che, sebbene dimostrino alte prestazioni su problemi specifici, rimane un divario significativo rispetto agli esseri umani in termini di coerenza tra problemi e capacità di risoluzione di problemi su lunghi orizzonti temporali. Ciò sottolinea la necessità di questo benchmark per favorire futuri progressi nell'intelligenza artificiale.

English

How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.

ALE-Bench: Un Benchmark per l'Ingegneria degli Algoritmi a Lungo Termine Orientata agli Obiettivi

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

Abstract

Support