MOOSE-Chem2: 계층적 탐색을 통한 세밀한 과학적 가설 발견에서의 LLM 한계 탐구
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
저자: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
초록
대규모 언어 모델(LLMs)은 과학적 가설 생성을 자동화하는 데 있어 유망한 가능성을 보여주었으나, 기존 접근 방식은 주로 중요한 방법론적 및 실험적 세부 사항이 부족한 대략적인 수준의 가설을 생성하는 데 그쳤다. 본 연구에서는 세밀한 과학적 가설 발견이라는 새로운 과제를 소개하고 이를 공식적으로 정의한다. 이 과제는 초기의 대략적인 연구 방향에서 출발하여 실험적으로 실행 가능한 상세한 가설을 생성하는 것을 목표로 한다. 우리는 이를 조합 최적화 문제로 설정하고, LLMs의 능력을 최대한 활용하여 이를 해결할 수 있는 상한선을 탐구한다. 구체적으로, 우리는 네 가지 근본적인 질문을 탐구한다: (1) LLM의 내부 휴리스틱을 최적으로 활용하여 LLM 자체가 생성할 수 있는 모든 가능한 가설 중에서 가장 유망하다고 판단할 세밀한 가설을 어떻게 형성할 것인가—이를 통해 가설 공간에 대한 잠재적 보상 지형을 정의한다; (2) LLM이 판단한 더 나은 가설이 실제 가설과 더 강한 일치성을 보이는지 여부; (3) 유사한 능력을 가진 다양한 LLM 앙상블을 사용하여 보상 지형을 형성하는 것이 가장 강력한 LLM을 반복적으로 사용하여 정의하는 것보다 더 나은 결과를 가져오는지 여부; 그리고 (4) 동일한 LLM 앙상블이 단일 LLM보다 더 신뢰할 수 있는 보상 지형을 제공하는지 여부. 이러한 질문에 답하기 위해, 우리는 일반적인 개념에서 구체적인 실험 구성으로 점진적으로 진행하며 가설에 세부 사항을 제안하고 통합하는 계층적 탐색 방법을 제안한다. 이 계층적 과정이 보상 지형을 매끄럽게 하고 더 효과적인 최적화를 가능하게 함을 보여준다. 최근 화학 문헌에서 전문가가 주석을 단 세밀한 가설로 구성된 새로운 벤치마크에 대한 실험적 평가를 통해, 우리의 방법이 강력한 베이스라인을 일관되게 능가함을 입증한다.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.Summary
AI-Generated Summary