Selbstkompaktierende Sprachmodell-Agenten

Zusammenfassung

Lange Agentenspuren, bestehend aus Gedankenketten und Werkzeugaufrufen, sammeln veraltete Inhalte an, die nachfolgende Generationen verankern, und überschreiten schließlich das Kontextfenster. Bestehende Gerüste mildern dies durch eine Kompaktierung in festen Intervallen, die durch einen Token-Schwellenwert ausgelöst wird. Solche Auslöser ignorieren die Trajektorienstruktur und riskieren, Teilergebnisse während einer Ableitung oder Suche zu verwerfen. Wir schlagen SelfCompact vor, ein Gerüst, das es dem Modell selbst ermöglicht zu entscheiden, wann und wie kompaktiert werden soll. Konkret kombiniert es zwei Inferenzzeitelemente: (i) ein Kompaktierungswerkzeug, das vom Modell aufgerufen wird, um den angesammelten Kontext zusammenzufassen, und (ii) eine leichtgewichtige Richtlinie, die festlegt, wann es ausgelöst werden soll (ein Teilproblem wurde gelöst oder die Trajektorie konvergiert) und wann es unterdrückt werden soll (während einer Ableitung oder bei Blockade). Beide sind erforderlich. Das Werkzeug allein wird von Open-Weight-Modellen uneinheitlich genutzt, oft zu ungünstigen Zeitpunkten oder gar nicht; die Richtlinie allein kann nicht handeln. Zusammen bewirken sie eine effektive adaptive Kompaktierung ohne jegliches Feintuning oder externe Überwachung. Wir präsentieren empirische Ergebnisse zu sechs Benchmarks (Wettbewerbsmathematik und agentische Suche) und sieben Modellen. Unsere Ergebnisse zeigen, dass SelfCompact die Kompaktierung in festen Intervallen zu einem Bruchteil der Token-Kosten erreicht oder übertrifft und dabei die Basislinie ohne Zusammenfassung um bis zu 18,1 Punkte bei Mathematik und 5–9 Punkte bei agentischer Suche bei 30–70 % niedrigeren Kosten pro Frage verbessert. Unsere Ergebnisse decken eine metakognitive Lücke auf: Obwohl unaufgeforderte Modelle nicht zuverlässig erkennen können, wann ihr eigener Kontext veraltet, schließt eine leichtgewichtige Richtlinie diese Lücke und definiert das Wann der Kompaktierung als eine Fähigkeit, die Gerüste ohne Training bereitstellen können.

English

Long agent traces composed of chains of thought and tool calls accumulate stale content that anchor subsequent generations, and eventually outgrow the context window. Existing scaffolds mitigate it with fixed-interval compaction triggered at a token threshold. Such triggers pay no heed to trajectory structure, risking discard of partial results mid-derivation or mid-search. We propose SelfCompact, a scaffold that allows the model itself to decide when and how to compact. Specifically, it pairs two inference-time elements: (i) a compaction tool the model invokes to summarize the accumulated context, and (ii) a lightweight rubric specifying when to fire (a sub-task has resolved, or the trajectory is converging) and when to suppress (mid-derivation, or when stuck). Both are needed. The tool alone is unevenly used across open-weight models, often invoked at unhelpful moments or not at all; the rubric alone cannot act. Together, they elicit effective adaptive compaction without any fine-tuning or external supervision. We present empirical results on six benchmarks (competitive math and agentic search) and seven models. Our results show that SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost, improving over a no-summarization baseline by up to 18.1 points on math and 5-9 points on agentic search at 30-70% lower per-question cost. Our results expose a meta-cognitive gap: although unprompted models cannot reliably tell when their own context is rotting, a lightweight rubric closes this gap, reframing when to compact as a capability that scaffolds can supply without training.