Imparare a Collaborare: Generazione di Pull Request Organiche tramite Memoria dei Repository Online
Learning to Commit: Generating Organic Pull Requests via Online Repository Memory
March 27, 2026
Autori: Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu
cs.AI
Abstract
Gli agenti di programmazione basati su modelli linguistici di grandi dimensioni (LLM) ottengono risultati impressionanti su benchmark controllati, ma producono sistematicamente pull request che vengono rifiutate dai maintainer reali. La causa principale non è l'incorrettezza funzionale, ma la mancanza di organicità: il codice generato ignora le convenzioni specifiche del progetto, duplica funzionalità già fornite da API interne e viola i vincoli architetturali impliciti accumulati in anni di sviluppo. Esporre semplicemente un agente all'ultima snapshot del repository non è sufficiente: la snapshot rivela lo stato finale della codebase, ma non i pattern di cambiamento specifici del repository attraverso i quali tale stato è stato raggiunto. Introduciamo Learning to Commit, un framework che colma questa lacuna attraverso la Memoria di Repository Online. Dato un repository con una suddivisione cronologica rigorosa, l'agente esegue una riflessione contrastiva supervisionata sui commit precedenti: tenta ciecamente di risolvere ogni issue storica, confronta la sua previsione con il diff oracle e condensa il divario in un insieme in continua crescita di skill - pattern riutilizzabili che catturano lo stile di codifica, l'utilizzo delle API interne e gli invarianti architetturali. Quando arriva una nuova descrizione di PR, l'agente condiziona la sua generazione su queste skill accumulate, producendo cambiamenti radicati nell'evoluzione del progetto stesso piuttosto che in priorità generiche del pre-addestramento. La valutazione viene condotta su pull request future autentiche e già mergeate, che non avrebbero potuto essere viste durante la fase di costruzione delle skill, e abbraccia molteplici dimensioni tra cui correttezza funzionale, coerenza dello stile di codice, tasso di riutilizzo delle API interne e plausibilità delle regioni modificate. Esperimenti su un repository mantenuto da esperti con una ricca cronologia dei commit mostrano che la Memoria di Repository Online migliora efficacemente i punteggi di organicità su task futuri tenuti da parte.
English
Large language model (LLM)-based coding agents achieve impressive results on controlled benchmarks yet routinely produce pull requests that real maintainers reject. The root cause is not functional incorrectness but a lack of organicity: generated code ignores project-specific conventions, duplicates functionality already provided by internal APIs, and violates implicit architectural constraints accumulated over years of development. Simply exposing an agent to the latest repository snapshot is not enough: the snapshot reveals the final state of the codebase, but not the repository-specific change patterns by which that state was reached. We introduce Learning to Commit, a framework that closes this gap through Online Repository Memory. Given a repository with a strict chronological split, the agent performs supervised contrastive reflection on earlier commits: it blindly attempts to resolve each historical issue, compares its prediction against the oracle diff, and distils the gap into a continuously growing set of skills-reusable patterns capturing coding style, internal API usage, and architectural invariants. When a new PR description arrives, the agent conditions its generation on these accumulated skills, producing changes grounded in the project's own evolution rather than generic pretraining priors. Evaluation is conducted on genuinely future, merged pull requests that could not have been seen during the skill-building phase, and spans multiple dimensions including functional correctness, code-style consistency, internal API reuse rate, and modified-region plausibility. Experiments on an expert-maintained repository with rich commit history show that Online Repository Memory effectively improves organicity scores on held-out future tasks.