Apprendre à s'engager : Génération de demandes de pull organiques via une mémoire de dépôt en ligne

Résumé

Les agents de programmation basés sur de grands modèles de langage (LLM) obtiennent des résultats impressionnants sur des benchmarks contrôlés, mais produisent systématiquement des demandes de pull qui sont rejetées par les mainteneurs réels. La cause fondamentale n'est pas une incorrectitude fonctionnelle, mais un manque d'organicité : le code généré ignore les conventions spécifiques au projet, duplique des fonctionnalités déjà fournies par des API internes et viole des contraintes architecturales implicites accumulées au fil des années de développement. Exposer simplement un agent à l'instantané le plus récent du dépôt ne suffit pas : cet instantané révèle l'état final de la base de code, mais pas les modèles de changement spécifiques au dépôt par lesquels cet état a été atteint. Nous présentons Learning to Commit, un cadre qui comble cet écart grâce à la Mémoire de Dépôt en Ligne. Étant donné un dépôt avec une division chronologique stricte, l'agent effectue une réflexion contrastive supervisée sur les commits antérieurs : il tente aveuglément de résoudre chaque problème historique, compare sa prédiction à la différence oracle, et distille l'écart en un ensemble continuellement croissant de compétences - des modèles réutilisables capturant le style de codage, l'utilisation des API internes et les invariants architecturaux. Lorsqu'une nouvelle description de PR arrive, l'agent conditionne sa génération sur ces compétences accumulées, produisant des changements ancrés dans l'évolution propre du projet plutôt que dans des préjugés génériques de pré-entraînement. L'évaluation est menée sur des demandes de pull fusionnées, véritablement futures, qui n'ont pas pu être vues pendant la phase de construction des compétences, et couvre de multiples dimensions incluant l'exactitude fonctionnelle, la cohérence du style de code, le taux de réutilisation des API internes et la plausibilité des régions modifiées. Les expériences sur un dépôt maintenu par des experts avec une riche historique de commits montrent que la Mémoire de Dépôt en Ligne améliore efficacement les scores d'organicité sur des tâches futures retenues.

English

Large language model (LLM)-based coding agents achieve impressive results on controlled benchmarks yet routinely produce pull requests that real maintainers reject. The root cause is not functional incorrectness but a lack of organicity: generated code ignores project-specific conventions, duplicates functionality already provided by internal APIs, and violates implicit architectural constraints accumulated over years of development. Simply exposing an agent to the latest repository snapshot is not enough: the snapshot reveals the final state of the codebase, but not the repository-specific change patterns by which that state was reached. We introduce Learning to Commit, a framework that closes this gap through Online Repository Memory. Given a repository with a strict chronological split, the agent performs supervised contrastive reflection on earlier commits: it blindly attempts to resolve each historical issue, compares its prediction against the oracle diff, and distils the gap into a continuously growing set of skills-reusable patterns capturing coding style, internal API usage, and architectural invariants. When a new PR description arrives, the agent conditions its generation on these accumulated skills, producing changes grounded in the project's own evolution rather than generic pretraining priors. Evaluation is conducted on genuinely future, merged pull requests that could not have been seen during the skill-building phase, and spans multiple dimensions including functional correctness, code-style consistency, internal API reuse rate, and modified-region plausibility. Experiments on an expert-maintained repository with rich commit history show that Online Repository Memory effectively improves organicity scores on held-out future tasks.

Apprendre à s'engager : Génération de demandes de pull organiques via une mémoire de dépôt en ligne

Learning to Commit: Generating Organic Pull Requests via Online Repository Memory

Résumé

Support