ChatPaper.aiChatPaper

Генерация с извлечением для прогнозирования клеточных реакций на генетические пертурбации

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

March 7, 2026
Авторы: Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò
cs.AI

Аннотация

Предсказание реакции клеток на генетические возмущения является фундаментальной задачей для понимания функций генов, механизмов заболеваний и разработки терапий. Хотя современные подходы на основе глубокого обучения показали перспективность в моделировании ответов единичных клеток на возмущения, они испытывают трудности с обобщением across различными типами клеток и контекстами возмущений из-за ограниченной контекстной информации в процессе генерации. Мы представляем PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation) — новую архитектуру, которая расширяет методологию генерации с дополнением retrieval за пределы традиционных приложений языковых моделей до клеточной биологии. В отличие от стандартных RAG-систем, разработанных для retrieval текста с предобученными большими языковыми моделями, retrieval возмущений не имеет устоявшихся метрик схожести и требует обучения тому, что составляет релевантный контекст, что делает дифференцируемый retrieval необходимым. PT-RAG решает эту проблему с помощью двухэтапного конвейера: сначала осуществляется retrieval кандидатных возмущений K с использованием эмбеддингов GenePT, затем адаптивное уточнение выбора с помощью дискретной выборки Гамбела-Софтмакс, обусловленной как состоянием клетки, так и входным возмущением. Этот учитывающий тип клетки дифференцируемый retrieval позволяет осуществлять сквозную оптимизацию цели retrieval совместно с генерацией. На наборе данных по единичным генным возмущениям Replogle-Nadig мы демонстрируем, что PT-RAG превосходит как модель STATE, так и стандартную RAG в идентичных экспериментальных условиях, с наиболее значительным улучшением по метрикам распределительного сходства (W_1, W_2). Примечательно, что резкий провал стандартной RAG сам по себе является ключевым finding: он демонстрирует, что дифференцируемый retrieval, учитывающий тип клетки, необходим в данной области, и что наивный retrieval может активно ухудшать производительность. Наши результаты утверждают генерацию с дополнением retrieval в качестве перспективной парадигмы для моделирования клеточных ответов на генетические возмущения. Код для воспроизведения наших экспериментов доступен по адресу https://github.com/difra100/PT-RAG_ICLR.
English
Predicting how cells respond to genetic perturbations is fundamental to understanding gene function, disease mechanisms, and therapeutic development. While recent deep learning approaches have shown promise in modeling single-cell perturbation responses, they struggle to generalize across cell types and perturbation contexts due to limited contextual information during generation. We introduce PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), a novel framework that extends Retrieval-Augmented Generation beyond traditional language-model applications to cellular biology. Unlike standard RAG systems designed for text retrieval with pre-trained LLMs, perturbation retrieval lacks established similarity metrics and requires learning what constitutes relevant context, making differentiable retrieval essential. PT-RAG addresses this through a two-stage pipeline: first, retrieving candidate perturbations K using GenePT embeddings, then adaptively refining the selection through Gumbel-Softmax discrete sampling conditioned on both the cell state and the input perturbation. This cell-type-aware differentiable retrieval enables end-to-end optimization of the retrieval objective jointly with generation. On the Replogle-Nadig single-gene perturbation dataset, we demonstrate that PT-RAG outperforms both STATE and vanilla RAG under identical experimental conditions, with the strongest gains in distributional similarity metrics (W_1, W_2). Notably, vanilla RAG's dramatic failure is itself a key finding: it demonstrates that differentiable, cell-type-aware retrieval is essential in this domain, and that naive retrieval can actively harm performance. Our results establish retrieval-augmented generation as a promising paradigm for modelling cellular responses to gene perturbation. The code to reproduce our experiments is available at https://github.com/difra100/PT-RAG_ICLR.
PDF12March 15, 2026