DARE : Alignement des Agents LLM avec l'Écosystème Statistique R via un Récupération Sensible aux Distributions

Résumé

Les agents de grands modèles de langage (LLM) peuvent automatiser les flux de travail de science des données, mais de nombreuses méthodes statistiques rigoureuses implémentées en R restent sous-utilisées car les LLM peinent avec les connaissances statistiques et la recherche d'outils. Les approches existantes à base de retrieval se concentrent sur la sémantique au niveau fonctionnel et ignorent la distribution des données, produisant des correspondances sous-optimales. Nous proposons DARE (Distribution-Aware Retrieval Embedding), un modèle de recherche léger et plug-and-play qui intègre des informations sur la distribution des données dans les représentations des fonctions pour la recherche de packages R. Nos principales contributions sont : (i) RPKB, une base de connaissances de packages R soigneusement constituée à partir de 8 191 packages CRAN de haute qualité ; (ii) DARE, un modèle d'embedding qui fusionne les caractéristiques distributionnelles avec les métadonnées des fonctions pour améliorer la pertinence de la recherche ; et (iii) RCodingAgent, un agent LLM orienté R pour la génération fiable de code R et une suite de tâches d'analyse statistique pour évaluer systématiquement les agents LLM dans des scénarios analytiques réalistes. Empiriquement, DARE atteint un NDCG à 10 de 93,47 %, surpassant les modèles d'embedding open-source de pointe jusqu'à 17 % sur la recherche de packages tout en utilisant beaucoup moins de paramètres. L'intégration de DARE dans RCodingAgent entraîne des gains significatifs sur les tâches d'analyse en aval. Ce travail contribue à réduire l'écart entre l'automatisation par LLM et l'écosystème statistique mature de R.

English

Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.

DARE : Alignement des Agents LLM avec l'Écosystème Statistique R via un Récupération Sensible aux Distributions

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Résumé

Support