Масштабирование, управляемое оценкой, для научных открытий
Evaluation-driven Scaling for Scientific Discovery
April 21, 2026
Авторы: Haotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu
cs.AI
Аннотация
Языковые модели все чаще используются в научных открытиях для генерации гипотез, предложения кандидатных решений, реализации систем и их итеративного совершенствования. В основе этих циклов проб и ошибок лежит оценка: процесс получения обратной связи о кандидатных решениях с помощью верификаторов, симуляторов или предметно-ориентированных функций оценки. Хотя предыдущие работы подчеркивали важность оценки, они не формулировали явно проблему масштабирования циклов открытий, управляемых оценкой, принципиальным и эффективным способом для расширения границ научного познания — проблему, которую решает данная статья. Мы представляем Simple Test-time Evaluation-driven Scaling (SimpleTES), общий фреймворк, который стратегически объединяет параллельное исследование, уточнение на основе обратной связи и локальный отбор, демонстрируя значительный прогресс, достигаемый за счет масштабирования циклов открытий по правильным направлениям. На 21 научной задаче из шести областей SimpleTES обнаруживает передовые решения, используя модели GPT с открытым исходным кодом, последовательно превосходя как базовые линии на основе фронтирных моделей, так и сложные оптимизационные конвейеры. В частности, мы ускорили широко используемый алгоритм LASSO более чем в 2 раза, разработали политики маршрутизации квантовых схем, снижающие накладные расходы на гейты на 24,5%, и открыли новые конструкции Эрдёша с минимальным перекрытием, превосходящие известные результаты. Помимо новых открытий, SimpleTES создает траекторные истории, которые естественным образом обучают модели на основе обратной связи. При дообучении на успешных траекториях модели не только повышают эффективность на известных задачах, но и обобщают знания на новые задачи, обнаруживая решения, недоступные базовым моделям. В совокупности наши результаты устанавливают эффективное масштабирование оценочных циклов как ключевое направление для развития научных открытий на основе больших языковых моделей и предоставляют простой, но практичный фреймворк для достижения этих результатов.
English
Language models are increasingly used in scientific discovery to generate hypotheses, propose candidate solutions, implement systems, and iteratively refine them. At the core of these trial-and-error loops lies evaluation: the process of obtaining feedback on candidate solutions via verifiers, simulators, or task-specific scoring functions. While prior work has highlighted the importance of evaluation, it has not explicitly formulated the problem of how evaluation-driven discovery loops can be scaled up in a principled and effective manner to push the boundaries of scientific discovery, a problem this paper seeks to address. We introduce Simple Test-time Evaluation-driven Scaling (SimpleTES), a general framework that strategically combines parallel exploration, feedback-driven refinement, and local selection, revealing substantial gains unlocked by scaling evaluation-driven discovery loops along the right dimensions. Across 21 scientific problems spanning six domains, SimpleTES discovers state-of-the-art solutions using gpt-oss models, consistently outperforming both frontier-model baselines and sophisticated optimization pipelines. Particularly, we sped up the widely used LASSO algorithm by over 2x, designed quantum circuit routing policies that reduce gate overhead by 24.5%, and discovered new Erdos minimum overlap constructions that surpass the best-known results. Beyond novel discoveries, SimpleTES produces trajectory-level histories that naturally supervise feedback-driven learning. When post-trained on successful trajectories, models not only improve efficiency on seen problems but also generalize to unseen problems, discovering solutions that base models fail to uncover. Together, our results establish effective evaluation-driven loop scaling as a central axis for advancing LLM-driven scientific discovery, and provide a simple yet practical framework for realizing these gains.