CoTox: Raciocínio e Previsão de Toxicidade Molecular Baseada em Cadeia de Pensamento
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
Autores: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
Resumo
A toxicidade de medicamentos continua sendo um grande desafio no desenvolvimento farmacêutico. Modelos recentes de aprendizado de máquina têm aprimorado a predição de toxicidade in silico, mas sua dependência de dados anotados e a falta de interpretabilidade limitam sua aplicabilidade. Isso restringe sua capacidade de capturar toxicidades específicas de órgãos, impulsionadas por mecanismos biológicos complexos. Modelos de linguagem de grande escala (LLMs) oferecem uma alternativa promissora por meio de raciocínio passo a passo e integração de dados textuais, embora abordagens anteriores careçam de contexto biológico e justificativa transparente. Para resolver esse problema, propomos o CoTox, uma estrutura inovadora que integra LLM com raciocínio em cadeia de pensamento (CoT) para predição de múltiplas toxicidades. O CoTox combina dados de estrutura química, vias biológicas e termos de ontologia gênica (GO) para gerar predições de toxicidade interpretáveis por meio de raciocínio passo a passo. Usando o GPT-4o, demonstramos que o CoTox supera tanto modelos tradicionais de aprendizado de máquina quanto de aprendizado profundo. Além disso, examinamos seu desempenho em vários LLMs para identificar onde o CoTox é mais eficaz. Adicionalmente, descobrimos que representar estruturas químicas com nomes IUPAC, que são mais fáceis para LLMs entenderem do que SMILES, melhora a capacidade de raciocínio do modelo e aumenta o desempenho preditivo. Para demonstrar sua utilidade prática no desenvolvimento de medicamentos, simulamos o tratamento de tipos celulares relevantes com drogas e incorporamos o contexto biológico resultante na estrutura do CoTox. Essa abordagem permite que o CoTox gere predições de toxicidade alinhadas com respostas fisiológicas, conforme mostrado em um estudo de caso. Esse resultado destaca o potencial de estruturas baseadas em LLM para melhorar a interpretabilidade e apoiar a avaliação de segurança de medicamentos em estágios iniciais. O código e os prompts utilizados neste trabalho estão disponíveis em https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.