ALE-Bench: Ein Benchmark für langfristige, zielorientierte Algorithmenentwicklung
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Autoren: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Zusammenfassung
Wie gut schneiden KI-Systeme im Bereich des Algorithmen-Engineerings für schwierige Optimierungsprobleme in Domänen wie Paketzustellungsrouting, Crew-Zeitplanung, Fabrikproduktionsplanung und Stromnetzausgleich ab? Wir stellen ALE-Bench vor, einen neuen Benchmark zur Bewertung von KI-Systemen in score-basierten algorithmischen Programmierwettbewerben. Basierend auf realen Aufgaben aus den AtCoder Heuristic Contests präsentiert ALE-Bench Optimierungsprobleme, die rechenintensiv sind und keine bekannte exakte Lösung zulassen. Im Gegensatz zu kurzfristigen, bestanden/nicht-bestanden-Coding-Benchmarks fördert ALE-Bench die iterative Lösungsverbesserung über lange Zeiträume. Unser Software-Framework unterstützt interaktive Agentenarchitekturen, die Testlauf-Feedback und Visualisierungen nutzen. Unsere Bewertung von führenden LLMs zeigte, dass sie zwar bei spezifischen Problemen hohe Leistung erbringen, aber im Vergleich zu Menschen eine bemerkenswerte Lücke in Bezug auf Konsistenz über verschiedene Probleme hinweg und langfristige Problemlösungsfähigkeiten besteht. Dies unterstreicht die Notwendigkeit dieses Benchmarks, um zukünftige Fortschritte in der KI zu fördern.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.