RankEvolve: Automatizando a Descoberta de Algoritmos de Recuperação por meio de Evolução Dirigida por LLM

Resumo

Algoritmos de recuperação como BM25 e a verossimilhança da consulta com suavização de Dirichlet permanecem como rankers fortes e eficientes na primeira etapa, porém os avanços têm dependido principalmente do ajuste de parâmetros e da intuição humana. Investigamos se um modelo de linguagem de grande porte, orientado por um avaliador e por busca evolutiva, pode descobrir automaticamente algoritmos de recuperação lexical melhorados. Apresentamos o RankEvolve, uma configuração de evolução de programas baseada no AlphaEvolve, na qual os algoritmos de classificação candidatos são representados como código executável e iterativamente sofrem mutação, recombinação e seleção com base no desempenho de recuperação em 12 conjuntos de dados de RI do BEIR e do BRIGHT. O RankEvolve parte de dois programas iniciais: BM25 e a verossimilhança da consulta com suavização de Dirichlet. Os algoritmos evoluídos são novos, eficazes e mostram uma transferência promissora para os benchmarks completos do BEIR e do BRIGHT, bem como para o TREC DL 19 e 20. Nossos resultados sugerem que a evolução de programas por LLM guiada por um avaliador é um caminho prático para a descoberta automática de novos algoritmos de classificação.

English

Retrieval algorithms like BM25 and query likelihood with Dirichlet smoothing remain strong and efficient first-stage rankers, yet improvements have mostly relied on parameter tuning and human intuition. We investigate whether a large language model, guided by an evaluator and evolutionary search, can automatically discover improved lexical retrieval algorithms. We introduce RankEvolve, a program evolution setup based on AlphaEvolve, in which candidate ranking algorithms are represented as executable code and iteratively mutated, recombined, and selected based on retrieval performance across 12 IR datasets from BEIR and BRIGHT. RankEvolve starts from two seed programs: BM25 and query likelihood with Dirichlet smoothing. The evolved algorithms are novel, effective, and show promising transfer to the full BEIR and BRIGHT benchmarks as well as TREC DL 19 and 20. Our results suggest that evaluator-guided LLM program evolution is a practical path towards automatic discovery of novel ranking algorithms.