CoTox: Цепочка рассуждений для анализа и прогнозирования молекулярной токсичности
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
August 5, 2025
Авторы: Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
cs.AI
Аннотация
Токсичность лекарственных препаратов остается серьезной проблемой в фармацевтической разработке. Современные модели машинного обучения улучшили прогнозирование токсичности in silico, но их зависимость от аннотированных данных и недостаток интерпретируемости ограничивают их применимость. Это ограничивает их способность учитывать орган-специфичные токсичности, обусловленные сложными биологическими механизмами. Крупные языковые модели (LLM) предлагают перспективную альтернативу благодаря пошаговому рассуждению и интеграции текстовых данных, однако предыдущие подходы не учитывали биологический контекст и прозрачность обоснования. Для решения этой проблемы мы предлагаем CoTox — новый фреймворк, который интегрирует LLM с цепочкой рассуждений (CoT) для прогнозирования множественных токсичностей. CoTox объединяет данные о химической структуре, биологические пути и термины генной онтологии (GO) для генерации интерпретируемых прогнозов токсичности через пошаговое рассуждение. Используя GPT-4o, мы показываем, что CoTox превосходит как традиционные модели машинного обучения, так и модели глубокого обучения. Мы также исследуем его производительность на различных LLM, чтобы определить, где CoTox наиболее эффективен. Кроме того, мы обнаруживаем, что представление химических структур с помощью IUPAC-названий, которые легче воспринимаются LLM, чем SMILES, улучшает способность модели к рассуждению и повышает точность прогнозирования. Чтобы продемонстрировать практическую полезность в разработке лекарств, мы моделируем обработку соответствующих типов клеток препаратом и включаем полученный биологический контекст в фреймворк CoTox. Этот подход позволяет CoTox генерировать прогнозы токсичности, согласованные с физиологическими реакциями, как показано в кейс-стади. Этот результат подчеркивает потенциал LLM-фреймворков для улучшения интерпретируемости и поддержки оценки безопасности лекарств на ранних этапах. Код и промпты, использованные в этой работе, доступны по адресу https://github.com/dmis-lab/CoTox.
English
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.