CoTox: Razonamiento y Predicción de Toxicidad Molecular Basada en Cadenas de Pensamiento
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
Autores: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
Resumen
La toxicidad de los fármacos sigue siendo un desafío importante en el desarrollo farmacéutico. Los modelos recientes de aprendizaje automático han mejorado la predicción de toxicidad in silico, pero su dependencia de datos anotados y la falta de interpretabilidad limitan su aplicabilidad. Esto restringe su capacidad para capturar toxicidades específicas de órganos impulsadas por mecanismos biológicos complejos. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen una alternativa prometedora a través del razonamiento paso a paso y la integración de datos textuales, aunque enfoques previos carecen de contexto biológico y una justificación transparente. Para abordar este problema, proponemos CoTox, un marco novedoso que integra LLM con razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) para la predicción de múltiples toxicidades. CoTox combina datos de estructura química, vías biológicas y términos de ontología génica (GO) para generar predicciones de toxicidad interpretables mediante un razonamiento paso a paso. Utilizando GPT-4o, demostramos que CoTox supera tanto a los modelos tradicionales de aprendizaje automático como a los de aprendizaje profundo. Además, examinamos su rendimiento en varios LLMs para identificar dónde CoTox es más efectivo. También encontramos que representar las estructuras químicas con nombres IUPAC, que son más fáciles de entender para los LLMs que los SMILES, mejora la capacidad de razonamiento del modelo y aumenta su rendimiento predictivo. Para demostrar su utilidad práctica en el desarrollo de fármacos, simulamos el tratamiento de tipos celulares relevantes con un fármaco e incorporamos el contexto biológico resultante en el marco de CoTox. Este enfoque permite a CoTox generar predicciones de toxicidad alineadas con respuestas fisiológicas, como se muestra en un estudio de caso. Este resultado destaca el potencial de los marcos basados en LLMs para mejorar la interpretabilidad y apoyar la evaluación temprana de la seguridad de los fármacos. El código y las indicaciones utilizadas en este trabajo están disponibles en https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.