ChatPaper.aiChatPaper

Was macht einen guten KI-Forschungsagenten aus? Eine Untersuchung der Rolle von Ideenvielfalt

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

November 19, 2025
papers.authors: Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
cs.AI

papers.abstract

KI-Forschungsagenten versprechen, wissenschaftliche Fortschritte zu beschleunigen, indem sie das Design, die Implementierung und das Training von Machine-Learning-Modellen automatisieren. Allerdings befindet sich das Feld noch in den Kinderschuhen, und die Schlüsselfaktoren, die den Erfolg oder Misserfolg von Agentenverläufen bestimmen, sind nicht vollständig verstanden. Wir untersuchen die Rolle, die die Ideenvielfalt für die Leistung von Agenten spielt. Zunächst analysieren wir Agentenverläufe auf MLE-Bench, einem bekannten Benchmark zur Bewertung von KI-Forschungsagenten, über verschiedene Modelle und Agenten-Scaffolds hinweg. Unsere Analyse zeigt, dass verschiedene Modelle und Agenten-Scaffolds unterschiedliche Grade an Ideenvielfalt hervorbringen und dass leistungsstärkere Agenten tendenziell eine erhöhte Ideenvielfalt aufweisen. Des Weiteren führen wir ein kontrolliertes Experiment durch, bei dem wir den Grad der Ideenvielfalt variieren, und demonstrieren, dass eine höhere Ideenvielfalt zu einer besseren Leistung führt. Abschließend untermauern wir unsere Ergebnisse, indem wir zusätzliche Bewertungsmetriken jenseits der standardmäßigen medaillenbasierten Bewertung von MLE-Bench untersuchen und zeigen, dass unsere Erkenntnisse auch für andere Leistungsmetriken von Agenten Bestand haben.
English
AI research agents offer the promise to accelerate scientific progress by automating the design, implementation, and training of machine learning models. However, the field is still in its infancy, and the key factors driving the success or failure of agent trajectories are not fully understood. We examine the role that ideation diversity plays in agent performance. First, we analyse agent trajectories on MLE-bench, a well-known benchmark to evaluate AI research agents, across different models and agent scaffolds. Our analysis reveals that different models and agent scaffolds yield varying degrees of ideation diversity, and that higher-performing agents tend to have increased ideation diversity. Further, we run a controlled experiment where we modify the degree of ideation diversity, demonstrating that higher ideation diversity results in stronger performance. Finally, we strengthen our results by examining additional evaluation metrics beyond the standard medal-based scoring of MLE-bench, showing that our findings still hold across other agent performance metrics.
PDF543December 2, 2025