DARE: Согласование агентов на основе больших языковых моделей со статистической экосистемой R посредством распределённого поиска с учётом распределения данных
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval
March 5, 2026
Авторы: Maojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
cs.AI
Аннотация
Агенты больших языковых моделей (LLM) способны автоматизировать рабочие процессы в области науки о данных, однако многие строгие статистические методы, реализованные в R, остаются недостаточно используемыми из-за трудностей LLM со статистическими знаниями и поиском инструментов. Существующие подходы с усилением поиска фокусируются на семантике уровня функций и игнорируют распределение данных, что приводит к субоптимальным результатам. Мы предлагаем DARE (Distribution-Aware Retrieval Embedding) — легковесную, подключаемую модель поиска, которая incorporates информацию о распределении данных в представления функций для поиска пакетов R. Нашими основными вкладами являются: (i) RPKB, курируемая база знаний пакетов R, созданная на основе 8191 высококачественного пакета из CRAN; (ii) DARE, модель эмбеддингов, которая объединяет признаки распределения с метаданными функций для повышения релевантности поиска; и (iii) RCodingAgent, LLM-агент, ориентированный на R, для надежной генерации кода на R, а также набор задач статистического анализа для систематической оценки LLM-агентов в реалистичных аналитических сценариях. Экспериментально DARE достигает значения NDCG@10 в 93.47%, превосходя современные модели эмбеддингов с открытым исходным кодом на величину до 17% в задаче поиска пакетов, при этом используя значительно меньше параметров. Интеграция DARE в RCodingAgent дает значительное улучшение результатов в последующих аналитических задачах. Данная работа способствует сокращению разрыва между автоматизацией с помощью LLM и зрелой статистической экосистемой R.
English
Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.