CoTox: Ketendenkgebaseerde moleculaire toxiciteitsredenering en voorspelling
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
Auteurs: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
Samenvatting
Giftigheid van geneesmiddelen blijft een grote uitdaging in de farmaceutische ontwikkeling. Recente machine learning-modellen hebben in silico toxiciteitsvoorspelling verbeterd, maar hun afhankelijkheid van geannoteerde data en gebrek aan interpreteerbaarheid beperken hun toepasbaarheid. Dit beperkt hun vermogen om orgaanspecifieke toxiciteiten te vatten die worden aangedreven door complexe biologische mechanismen. Grote taalmodellen (LLM's) bieden een veelbelovend alternatief door stapsgewijs redeneren en integratie van tekstuele data, maar eerdere benaderingen missen biologische context en een transparante redenering. Om dit probleem aan te pakken, stellen we CoTox voor, een nieuw framework dat LLM integreert met chain-of-thought (CoT) redenering voor multi-toxiciteitsvoorspelling. CoTox combineert chemische structuurdata, biologische pathways en genontologie (GO) termen om interpreteerbare toxiciteitsvoorspellingen te genereren via stapsgewijs redeneren. Met GPT-4o laten we zien dat CoTox zowel traditionele machine learning- als deep learning-modellen overtreft. We onderzoeken verder de prestaties over verschillende LLM's om te identificeren waar CoTox het meest effectief is. Daarnaast ontdekken we dat het representeren van chemische structuren met IUPAC-namen, die voor LLM's begrijpelijker zijn dan SMILES, het redeneervermogen van het model versterkt en de voorspellende prestaties verbetert. Om de praktische bruikbaarheid in geneesmiddelenontwikkeling aan te tonen, simuleren we de behandeling van relevante celtypen met een geneesmiddel en integreren we de resulterende biologische context in het CoTox-framework. Deze aanpak stelt CoTox in staat om toxiciteitsvoorspellingen te genereren die aansluiten bij fysiologische reacties, zoals getoond in een casestudy. Dit resultaat benadrukt het potentieel van LLM-gebaseerde frameworks om de interpreteerbaarheid te verbeteren en vroege veiligheidsbeoordeling van geneesmiddelen te ondersteunen. De code en prompts die in dit werk zijn gebruikt, zijn beschikbaar op https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.