ALE-Bench: Ein Benchmark für langfristige, zielorientierte Algorithmenentwicklung

papers.abstract

Wie gut schneiden KI-Systeme im Bereich des Algorithmen-Engineerings für schwierige Optimierungsprobleme in Domänen wie Paketzustellungsrouting, Crew-Zeitplanung, Fabrikproduktionsplanung und Stromnetzausgleich ab? Wir stellen ALE-Bench vor, einen neuen Benchmark zur Bewertung von KI-Systemen in score-basierten algorithmischen Programmierwettbewerben. Basierend auf realen Aufgaben aus den AtCoder Heuristic Contests präsentiert ALE-Bench Optimierungsprobleme, die rechenintensiv sind und keine bekannte exakte Lösung zulassen. Im Gegensatz zu kurzfristigen, bestanden/nicht-bestanden-Coding-Benchmarks fördert ALE-Bench die iterative Lösungsverbesserung über lange Zeiträume. Unser Software-Framework unterstützt interaktive Agentenarchitekturen, die Testlauf-Feedback und Visualisierungen nutzen. Unsere Bewertung von führenden LLMs zeigte, dass sie zwar bei spezifischen Problemen hohe Leistung erbringen, aber im Vergleich zu Menschen eine bemerkenswerte Lücke in Bezug auf Konsistenz über verschiedene Probleme hinweg und langfristige Problemlösungsfähigkeiten besteht. Dies unterstreicht die Notwendigkeit dieses Benchmarks, um zukünftige Fortschritte in der KI zu fördern.

English

How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.

ALE-Bench: Ein Benchmark für langfristige, zielorientierte Algorithmenentwicklung

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

papers.abstract

Support