CoTox:思考連鎖に基づく分子毒性推論および予測
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
著者: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
要旨
薬物毒性は、医薬品開発における主要な課題の一つである。近年、機械学習モデルによるin silico毒性予測が進化しているが、注釈付きデータへの依存性や解釈可能性の欠如がその適用範囲を制限している。これにより、複雑な生物学的メカニズムに起因する臓器特異的毒性を捉える能力が制約されている。大規模言語モデル(LLM)は、段階的な推論とテキストデータの統合を通じて有望な代替手段を提供するが、従来のアプローチでは生物学的文脈や透明な論理が欠けていた。この問題を解決するため、我々はCoToxを提案する。CoToxは、LLMと連鎖的思考(CoT)推論を統合した新しいフレームワークであり、化学構造データ、生物学的経路、および遺伝子オントロジー(GO)用語を組み合わせて、段階的な推論を通じて解釈可能な毒性予測を生成する。GPT-4oを使用して、CoToxが従来の機械学習モデルや深層学習モデルを上回ることを示す。さらに、さまざまなLLMにおける性能を検証し、CoToxが最も効果的な領域を特定する。また、化学構造をSMILESよりもLLMが理解しやすいIUPAC名で表現することで、モデルの推論能力が向上し、予測性能が改善されることを確認した。医薬品開発における実用性を実証するため、関連する細胞タイプに対する薬物処理をシミュレーションし、得られた生物学的文脈をCoToxフレームワークに組み込んだ。このアプローチにより、CoToxは生理学的応答と整合性のある毒性予測を生成することができ、ケーススタディで示された。この結果は、LLMベースのフレームワークが解釈可能性を向上させ、早期段階の薬物安全性評価を支援する可能性を強調している。本研究で使用したコードとプロンプトは、https://github.com/dmis-lab/CoToxで公開されている。
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.