ChatPaper.aiChatPaper

CoTox : Raisonnement et prédiction de la toxicité moléculaire basés sur la chaîne de pensée

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

August 5, 2025
papers.authors: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI

papers.abstract

La toxicité des médicaments reste un défi majeur dans le développement pharmaceutique. Les récents modèles d'apprentissage automatique ont amélioré la prédiction in silico de la toxicité, mais leur dépendance aux données annotées et leur manque d'interprétabilité limitent leur applicabilité. Cela restreint leur capacité à capturer les toxicités spécifiques aux organes, influencées par des mécanismes biologiques complexes. Les grands modèles de langage (LLMs) offrent une alternative prometteuse grâce à un raisonnement étape par étape et à l'intégration de données textuelles, mais les approches précédentes manquent de contexte biologique et de justification transparente. Pour résoudre ce problème, nous proposons CoTox, un cadre novateur qui intègre un LLM avec un raisonnement en chaîne de pensée (CoT) pour la prédiction multi-toxicité. CoTox combine des données de structure chimique, des voies biologiques et des termes d'ontologie génique (GO) pour générer des prédictions de toxicité interprétables via un raisonnement étape par étape. En utilisant GPT-4o, nous montrons que CoTox surpasse à la fois les modèles d'apprentissage automatique traditionnels et les modèles d'apprentissage profond. Nous examinons également ses performances sur divers LLMs pour identifier où CoTox est le plus efficace. De plus, nous constatons que la représentation des structures chimiques avec des noms IUPAC, plus faciles à comprendre pour les LLMs que les SMILES, améliore la capacité de raisonnement du modèle et ses performances prédictives. Pour démontrer son utilité pratique dans le développement de médicaments, nous simulons le traitement de types cellulaires pertinents avec un médicament et intégrons le contexte biologique résultant dans le cadre CoTox. Cette approche permet à CoTox de générer des prédictions de toxicité alignées avec les réponses physiologiques, comme le montre une étude de cas. Ce résultat met en évidence le potentiel des cadres basés sur les LLMs pour améliorer l'interprétabilité et soutenir l'évaluation précoce de la sécurité des médicaments. Le code et les prompts utilisés dans ce travail sont disponibles à l'adresse https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent machine learning models have improved in silico toxicity prediction, but their reliance on annotated data and lack of interpretability limit their applicability. This limits their ability to capture organ-specific toxicities driven by complex biological mechanisms. Large language models (LLMs) offer a promising alternative through step-by-step reasoning and integration of textual data, yet prior approaches lack biological context and transparent rationale. To address this issue, we propose CoTox, a novel framework that integrates LLM with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox combines chemical structure data, biological pathways, and gene ontology (GO) terms to generate interpretable toxicity predictions through step-by-step reasoning. Using GPT-4o, we show that CoTox outperforms both traditional machine learning and deep learning model. We further examine its performance across various LLMs to identify where CoTox is most effective. Additionally, we find that representing chemical structures with IUPAC names, which are easier for LLMs to understand than SMILES, enhances the model's reasoning ability and improves predictive performance. To demonstrate its practical utility in drug development, we simulate the treatment of relevant cell types with drug and incorporated the resulting biological context into the CoTox framework. This approach allow CoTox to generate toxicity predictions aligned with physiological responses, as shown in case study. This result highlights the potential of LLM-based frameworks to improve interpretability and support early-stage drug safety assessment. The code and prompt used in this work are available at https://github.com/dmis-lab/CoTox.
PDF222August 7, 2025