DARE: Alineación de Agentes LLM con el Ecosistema Estadístico R mediante Recuperación Consciente de la Distribución

Resumen

Los agentes de LLM (Modelos de Lenguaje Grande) pueden automatizar los flujos de trabajo de ciencia de datos, pero muchos métodos estadísticos rigurosos implementados en R siguen siendo subutilizados porque los LLM tienen dificultades con el conocimiento estadístico y la recuperación de herramientas. Los enfoques existentes de recuperación aumentada se centran en la semántica a nivel de función e ignoran la distribución de datos, produciendo coincidencias subóptimas. Proponemos DARE (Distribution-Aware Retrieval Embedding), un modelo de recuperación ligero y plug-and-play que incorpora información de distribución de datos en las representaciones de funciones para la recuperación de paquetes R. Nuestras principales contribuciones son: (i) RPKB, una Base de Conocimiento de Paquetes R curada, derivada de 8.191 paquetes CRAN de alta calidad; (ii) DARE, un modelo de embedding que fusiona características distribucionales con metadatos de funciones para mejorar la relevancia de la recuperación; y (iii) RCodingAgent, un agente LLM orientado a R para la generación confiable de código R y un conjunto de tareas de análisis estadístico para evaluar sistemáticamente a los agentes LLM en escenarios analíticos realistas. Empíricamente, DARE logra un NDCG@10 del 93.47%, superando a los modelos de embedding de código abierto más avanzados hasta en un 17% en la recuperación de paquetes, mientras utiliza sustancialmente menos parámetros. La integración de DARE en RCodingAgent produce ganancias significativas en las tareas de análisis posteriores. Este trabajo ayuda a reducir la brecha entre la automatización mediante LLM y el ecosistema estadístico maduro de R.

English

Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.

DARE: Alineación de Agentes LLM con el Ecosistema Estadístico R mediante Recuperación Consciente de la Distribución

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Resumen

Support