CoTox: Ragionamento e Previsione della Tossicità Molecolare Basata su Catena di Pensiero
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
Autori: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
Abstract
La tossicità dei farmaci rimane una sfida significativa nello sviluppo farmaceutico. I recenti modelli di machine learning hanno migliorato la previsione in silico della tossicità, ma la loro dipendenza da dati annotati e la mancanza di interpretabilità ne limitano l'applicabilità. Ciò riduce la loro capacità di catturare tossicità specifiche per organo guidate da complessi meccanismi biologici. I grandi modelli linguistici (LLM) offrono un'alternativa promettente attraverso il ragionamento passo-passo e l'integrazione di dati testuali, ma gli approcci precedenti mancano di contesto biologico e di una logica trasparente. Per affrontare questo problema, proponiamo CoTox, un nuovo framework che integra gli LLM con il ragionamento a catena del pensiero (CoT) per la previsione multi-tossicità. CoTox combina dati sulla struttura chimica, pathway biologici e termini di ontologia genica (GO) per generare previsioni di tossicità interpretabili attraverso un ragionamento passo-passo. Utilizzando GPT-4o, dimostriamo che CoTox supera sia i tradizionali modelli di machine learning che quelli di deep learning. Esaminiamo inoltre le sue prestazioni su vari LLM per identificare dove CoTox è più efficace. Inoltre, scopriamo che rappresentare le strutture chimiche con nomi IUPAC, più facili da comprendere per gli LLM rispetto ai SMILES, migliora la capacità di ragionamento del modello e ne aumenta le prestazioni predittive. Per dimostrare la sua utilità pratica nello sviluppo di farmaci, simuliamo il trattamento di tipi cellulari rilevanti con un farmaco e incorporiamo il contesto biologico risultante nel framework CoTox. Questo approccio consente a CoTox di generare previsioni di tossicità allineate con le risposte fisiologiche, come mostrato in uno studio di caso. Questo risultato evidenzia il potenziale dei framework basati su LLM per migliorare l'interpretabilità e supportare la valutazione della sicurezza dei farmaci nelle fasi iniziali. Il codice e i prompt utilizzati in questo lavoro sono disponibili su https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.