DARE: Alinhando Agentes de LLM com o Ecossistema Estatístico R por meio de Recuperação Consciente de Distribuição

Resumo

Os agentes de LLM (Large Language Models) podem automatizar fluxos de trabalho de ciência de dados, mas muitos métodos estatísticos rigorosos implementados em R permanecem subutilizados porque os LLMs têm dificuldade com conhecimento estatístico e recuperação de ferramentas. As abordagens existentes de aumento por recuperação focam na semântica a nível de função e ignoram a distribuição dos dados, produzindo correspondências subótimas. Propomos o DARE (Distribution-Aware Retrieval Embedding), um modelo de recuperação leve e plug-and-play que incorpora informações de distribuição de dados nas representações de funções para recuperação de pacotes R. Nossas principais contribuições são: (i) RPKB, uma Base de Conhecimento de Pacotes R curada, derivada de 8.191 pacotes CRAN de alta qualidade; (ii) DARE, um modelo de incorporação que funde características distribucionais com metadados de função para melhorar a relevância da recuperação; e (iii) RCodingAgent, um agente LLM orientado a R para geração confiável de código R e um conjunto de tarefas de análise estatística para avaliar sistematicamente agentes LLM em cenários analíticos realistas. Empiricamente, o DARE atinge um NDCG@10 de 93,47%, superando os modelos de incorporação de código aberto mais avançados em até 17% na recuperação de pacotes, enquanto utiliza substancialmente menos parâmetros. A integração do DARE no RCodingAgent resulta em ganhos significativos em tarefas de análise subsequentes. Este trabalho ajuda a reduzir a lacuna entre a automação por LLM e o ecossistema estatístico maduro do R.

English

Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.