ChatPaper.aiChatPaper

구조화된 구성 요소 기반 보상 메커니즘을 통한 생물학적 실험 프로토콜 생성을 위한 과학적 추론의 활용

Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

October 17, 2025
저자: Haoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang
cs.AI

초록

재현 가능한 과학의 기초는 정확하고 논리적으로 정렬되어 실행 가능한 프로토콜에 있습니다. 자연어 질의를 통해 이러한 프로토콜을 자율적으로 생성하는 것은 재현 과정의 효율성을 크게 향상시킬 수 있습니다. 그러나 현재 주도적인 대형 언어 모델(LLMs)은 종종 불완전하거나 일관성 없는 프로토콜을 생성하여 그 유용성을 제한하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 먼저 27개의 생물학 하위 분야를 아우르며 이해와 문제 해결 과제를 포함한 12,000개 이상의 구조화된 프로토콜로 구성된 대규모 데이터셋인 SciRecipe를 소개합니다. 프로토콜 생성을 더욱 개선하기 위해, 우리는 각 단계가 명시적이고 검증 가능하도록 분석, 구조화, 표현을 분리하는 "스케치-앤-필(Sketch-and-Fill)" 패러다임을 제안합니다. 이를 보완하기 위해, 구조화된 구성 요소 기반 보상 메커니즘은 단계 세분성, 동작 순서, 의미적 충실도를 평가하여 모델 최적화를 실험적 신뢰성과 일치시킵니다. 이러한 구성 요소를 바탕으로, 우리는 지식 습득에서 운영적 추론을 거쳐 견고하고 실행 가능한 프로토콜 생성에 이르는 단계적 지식-행동(Knowledge-to-Action) 과정을 통해 훈련된 Thoth를 개발합니다. 여러 벤치마크에서 Thoth는 독점 및 오픈소스 LLMs를 일관되게 능가하며, 단계 정렬, 논리적 순서, 의미적 정확성에서 상당한 개선을 달성합니다. 우리의 접근 방식은 지식과 실험적 실행을 연결하는 신뢰할 수 있는 과학적 보조 도구의 길을 열어줍니다. 모든 데이터, 코드, 모델은 공개될 예정입니다.
English
The foundation of reproducible science lies in protocols that are precise, logically ordered, and executable. The autonomous generation of these protocols through natural language queries could greatly improve the efficiency of the reproduction process. However, current leading large language models (LLMs) often generate incomplete or inconsistent protocols, limiting their utility. To address this limitation, we first introduce SciRecipe, a large-scale dataset of over 12K structured protocols spanning 27 biological subfields and encompassing both comprehension and problem-solving tasks. To further improve protocol generation, we propose the "Sketch-and-Fill" paradigm, which separates analysis, structuring, and expression to ensure each step is explicit and verifiable. Complementing this, the structured component-based reward mechanism evaluates step granularity, action order, and semantic fidelity, aligning model optimization with experimental reliability. Building on these components, we develop Thoth, trained through a staged Knowledge-to-Action process that progresses from knowledge acquisition to operational reasoning and ultimately to robust, executable protocol generation. Across multiple benchmarks, Thoth consistently surpasses both proprietary and open-source LLMs, achieving significant improvements in step alignment, logical sequencing, and semantic accuracy. Our approach paves the way for reliable scientific assistants that bridge knowledge with experimental execution. All data, code, and models will be released publicly.
PDF22October 22, 2025