Lernen zu committen: Generieren organischer Pull-Requests durch Online-Repository-Memory
Learning to Commit: Generating Organic Pull Requests via Online Repository Memory
March 27, 2026
Autoren: Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu
cs.AI
Zusammenfassung
Auf großen Sprachmodellen (LLM) basierende Code-Agenten erzielen beeindruckende Ergebnisse in kontrollierten Benchmarks, liefern jedoch regelmäßig Pull Requests, die von echten Maintainern abgelehnt werden. Die Ursache liegt nicht in funktionalen Fehlern, sondern in einem Mangel an Organizität: Der generierte Code ignoriert projektspezifische Konventionen, dupliziert Funktionalität, die bereits durch interne APIs bereitgestellt wird, und verletzt implizite Architekturbeschränkungen, die über Jahre der Entwicklung gewachsen sind. Ein Agent lediglich mit dem neuesten Repository-Snapshot zu konfrontieren, reicht nicht aus: Der Snapshot zeigt den Endzustand der Codebase, nicht jedoch die repositoriespezifischen Änderungsmuster, durch die dieser Zustand erreicht wurde. Wir stellen Learning to Commit vor, ein Framework, das diese Lücke durch Online Repository Memory schließt. In einem Repository mit strikter chronologischer Aufteilung führt der Agent ein supervidiertes kontrastives Reflektieren früherer Commits durch: Er versucht blind, jedes historische Issue zu lösen, vergleicht seine Vorhersage mit dem Oracle-Diff und destilliert die Diskrepanz in einen kontinuierlich wachsenden Satz von Skills – wiederverwendbaren Mustern, die Codierungsstil, Nutzung interner APIs und Architektur-Invarianten erfassen. Wenn eine neue PR-Beschreibung eintrifft, konditioniert der Agent seine Generierung auf diese akkumulierten Skills und erzeugt so Änderungen, die in der eigenen Evolution des Projekts verwurzelt sind, anstatt auf generischen Vortrainings-Priors zu basieren. Die Evaluation erfolgt an tatsächlich zukünftigen, gemergten Pull Requests, die während der Skill-Bildungsphase nicht sichtbar sein konnten, und umfasst multiple Dimensionen, einschließlich funktionaler Korrektheit, Code-Style-Konsistenz, Wiederverwendungsrate interner APIs und Plausibilität der modifizierten Regionen. Experimente in einem expertengepflegten Repository mit umfangreicher Commit-Historie zeigen, dass Online Repository Memory die Organizitäts-Scores bei zurückgehaltenen Zukunftsaufgaben effektiv verbessert.
English
Large language model (LLM)-based coding agents achieve impressive results on controlled benchmarks yet routinely produce pull requests that real maintainers reject. The root cause is not functional incorrectness but a lack of organicity: generated code ignores project-specific conventions, duplicates functionality already provided by internal APIs, and violates implicit architectural constraints accumulated over years of development. Simply exposing an agent to the latest repository snapshot is not enough: the snapshot reveals the final state of the codebase, but not the repository-specific change patterns by which that state was reached. We introduce Learning to Commit, a framework that closes this gap through Online Repository Memory. Given a repository with a strict chronological split, the agent performs supervised contrastive reflection on earlier commits: it blindly attempts to resolve each historical issue, compares its prediction against the oracle diff, and distils the gap into a continuously growing set of skills-reusable patterns capturing coding style, internal API usage, and architectural invariants. When a new PR description arrives, the agent conditions its generation on these accumulated skills, producing changes grounded in the project's own evolution rather than generic pretraining priors. Evaluation is conducted on genuinely future, merged pull requests that could not have been seen during the skill-building phase, and spans multiple dimensions including functional correctness, code-style consistency, internal API reuse rate, and modified-region plausibility. Experiments on an expert-maintained repository with rich commit history show that Online Repository Memory effectively improves organicity scores on held-out future tasks.