Agents de modèle de langage auto-compactants

Résumé

Les longues traces d'agent composées de chaînes de pensée et d'appels d'outils accumulent un contenu obsolète qui ancre les générations suivantes et finit par dépasser la fenêtre de contexte. Les échafaudages existants y remédient par un compactage à intervalle fixe déclenché à un seuil de tokens. Ces déclencheurs ne tiennent pas compte de la structure de la trajectoire, risquant de supprimer des résultats partiels en cours de déduction ou de recherche. Nous proposons SelfCompact, un échafaudage qui permet au modèle lui-même de décider quand et comment compacter. Plus précisément, il associe deux éléments au moment de l'inférence : (i) un outil de compactage que le modèle invoque pour résumer le contexte accumulé, et (ii) une rubrique légère spécifiant quand déclencher (une sous-tâche est résolue, ou la trajectoire converge) et quand supprimer (en cours de déduction, ou en cas de blocage). Les deux sont nécessaires. L'outil seul est utilisé de manière inégale selon les modèles à poids ouverts, souvent invoqué à des moments inopportuns ou pas du tout ; la rubrique seule ne peut agir. Ensemble, ils suscitent un compactage adaptatif efficace sans aucun réglage fin ni supervision externe. Nous présentons des résultats empiriques sur six références (mathématiques compétitives et recherche agentique) et sept modèles. Nos résultats montrent que SelfCompact égalise ou dépasse la synthèse à intervalle fixe pour une fraction du coût en tokens, améliorant une base de référence sans synthèse de jusqu'à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique, avec un coût par question réduit de 30 à 70 %. Nos résultats révèlent un fossé métacognitif : bien que les modèles non incités ne puissent pas déterminer de manière fiable quand leur propre contexte se détériore, une rubrique légère comble ce fossé, recadrant le moment du compactage comme une capacité que les échafaudages peuvent fournir sans entraînement.

English

Long agent traces composed of chains of thought and tool calls accumulate stale content that anchor subsequent generations, and eventually outgrow the context window. Existing scaffolds mitigate it with fixed-interval compaction triggered at a token threshold. Such triggers pay no heed to trajectory structure, risking discard of partial results mid-derivation or mid-search. We propose SelfCompact, a scaffold that allows the model itself to decide when and how to compact. Specifically, it pairs two inference-time elements: (i) a compaction tool the model invokes to summarize the accumulated context, and (ii) a lightweight rubric specifying when to fire (a sub-task has resolved, or the trajectory is converging) and when to suppress (mid-derivation, or when stuck). Both are needed. The tool alone is unevenly used across open-weight models, often invoked at unhelpful moments or not at all; the rubric alone cannot act. Together, they elicit effective adaptive compaction without any fine-tuning or external supervision. We present empirical results on six benchmarks (competitive math and agentic search) and seven models. Our results show that SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost, improving over a no-summarization baseline by up to 18.1 points on math and 5-9 points on agentic search at 30-70% lower per-question cost. Our results expose a meta-cognitive gap: although unprompted models cannot reliably tell when their own context is rotting, a lightweight rubric closes this gap, reframing when to compact as a capability that scaffolds can supply without training.