Scalabilità Guidata dalla Valutazione per la Scoperta Scientifica

Abstract

I modelli linguistici sono sempre più utilizzati nella scoperta scientifica per generare ipotesi, proporre soluzioni candidate, implementare sistemi e affinarli in modo iterativo. Al centro di questi cicli di prova ed errore si trova la valutazione: il processo di ottenimento di feedback sulle soluzioni candidate tramite verificatori, simulatori o funzioni di punteggio specifiche per il compito. Sebbene lavori precedenti abbiano sottolineato l'importanza della valutazione, non hanno formulato esplicitamente il problema di come i cicli di scoperta guidati dalla valutazione possano essere scalati in modo principiato ed efficace per spingere i confini della scoperta scientifica, un problema che questo articolo intende affrontare. Introduciamo Simple Test-time Evaluation-driven Scaling (SimpleTES), un framework generale che combina strategicamente esplorazione parallela, raffinamento guidato dal feedback e selezione locale, rivelando sostanziali vantaggi sbloccati scalando i cicli di scoperta guidati dalla valutazione lungo le dimensioni appropriate. Attraverso 21 problemi scientifici che abbracciano sei domini, SimpleTES scopre soluzioni all'avanguardia utilizzando modelli GPT open-source, superando costantemente sia baseline di modelli di frontiera che pipeline di ottimizzazione sofisticate. In particolare, abbiamo accelerato l'algoritmo LASSO ampiamente utilizzato di oltre 2 volte, progettato politiche di instradamento per circuiti quantistici che riducono l'overhead dei gate del 24,5% e scoperto nuove costruzioni di Erdős a minima sovrapposizione che superano i risultati migliori conosciuti. Oltre a scoperte innovative, SimpleTES produce cronologie a livello di traiettoria che supervisionano naturalmente l'apprendimento guidato dal feedback. Quando addestrati in post-processing su traiettorie di successo, i modelli non solo migliorano l'efficienza sui problemi già visti, ma generalizzano anche a problemi non visti, scoprendo soluzioni che i modelli di base non riescono a individuare. Nel complesso, i nostri risultati stabiliscono la scalabilità efficace dei cicli guidati dalla valutazione come un asse centrale per far avanzare la scoperta scientifica guidata dai LLM e forniscono un framework semplice ma pratico per realizzare questi vantaggi.

English

Language models are increasingly used in scientific discovery to generate hypotheses, propose candidate solutions, implement systems, and iteratively refine them. At the core of these trial-and-error loops lies evaluation: the process of obtaining feedback on candidate solutions via verifiers, simulators, or task-specific scoring functions. While prior work has highlighted the importance of evaluation, it has not explicitly formulated the problem of how evaluation-driven discovery loops can be scaled up in a principled and effective manner to push the boundaries of scientific discovery, a problem this paper seeks to address. We introduce Simple Test-time Evaluation-driven Scaling (SimpleTES), a general framework that strategically combines parallel exploration, feedback-driven refinement, and local selection, revealing substantial gains unlocked by scaling evaluation-driven discovery loops along the right dimensions. Across 21 scientific problems spanning six domains, SimpleTES discovers state-of-the-art solutions using gpt-oss models, consistently outperforming both frontier-model baselines and sophisticated optimization pipelines. Particularly, we sped up the widely used LASSO algorithm by over 2x, designed quantum circuit routing policies that reduce gate overhead by 24.5%, and discovered new Erdos minimum overlap constructions that surpass the best-known results. Beyond novel discoveries, SimpleTES produces trajectory-level histories that naturally supervise feedback-driven learning. When post-trained on successful trajectories, models not only improve efficiency on seen problems but also generalize to unseen problems, discovering solutions that base models fail to uncover. Together, our results establish effective evaluation-driven loop scaling as a central axis for advancing LLM-driven scientific discovery, and provide a simple yet practical framework for realizing these gains.

Scalabilità Guidata dalla Valutazione per la Scoperta Scientifica

Evaluation-driven Scaling for Scientific Discovery

Abstract

Support