O Que É Necessário para Ser um Bom Agente de Pesquisa em IA? Estudando o Papel da Diversidade de Ideação

Resumo

Os agentes de pesquisa de IA oferecem a promessa de acelerar o progresso científico através da automação do projeto, implementação e treinamento de modelos de aprendizagem automática. No entanto, a área ainda está na sua infância, e os fatores-chave que determinam o sucesso ou fracasso das trajetórias dos agentes não são totalmente compreendidos. Examinamos o papel que a diversidade de ideias desempenha no desempenho dos agentes. Primeiro, analisamos as trajetórias dos agentes no MLE-bench, um benchmark conhecido para avaliar agentes de pesquisa de IA, em diferentes modelos e estruturas de agentes. Nossa análise revela que diferentes modelos e estruturas de agentes produzem graus variados de diversidade de ideias, e que agentes com melhor desempenho tendem a ter uma diversidade de ideias aumentada. Além disso, realizamos um experimento controlado onde modificamos o grau de diversidade de ideias, demonstrando que uma maior diversidade de ideias resulta em um desempenho mais forte. Por fim, reforçamos nossos resultados examinando métricas de avaliação adicionais além da pontuação padrão baseada em medalhas do MLE-bench, mostrando que nossas descobertas ainda se mantêm em outras métricas de desempenho de agentes.

English

AI research agents offer the promise to accelerate scientific progress by automating the design, implementation, and training of machine learning models. However, the field is still in its infancy, and the key factors driving the success or failure of agent trajectories are not fully understood. We examine the role that ideation diversity plays in agent performance. First, we analyse agent trajectories on MLE-bench, a well-known benchmark to evaluate AI research agents, across different models and agent scaffolds. Our analysis reveals that different models and agent scaffolds yield varying degrees of ideation diversity, and that higher-performing agents tend to have increased ideation diversity. Further, we run a controlled experiment where we modify the degree of ideation diversity, demonstrating that higher ideation diversity results in stronger performance. Finally, we strengthen our results by examining additional evaluation metrics beyond the standard medal-based scoring of MLE-bench, showing that our findings still hold across other agent performance metrics.