Agentes de Modelos de Lenguaje Autocompactantes

Resumen

Los rastros largos de agente compuestos por cadenas de pensamiento y llamadas a herramientas acumulan contenido obsoleto que ancla las generaciones posteriores y, eventualmente, supera la ventana de contexto. Los andamios existentes lo mitigan con compactación a intervalos fijos desencadenada por un umbral de tokens. Estos desencadenantes no prestan atención a la estructura de la trayectoria, arriesgando el descarte de resultados parciales a mitad de una derivación o búsqueda. Proponemos SelfCompact, un andamio que permite al propio modelo decidir cuándo y cómo compactar. Específicamente, combina dos elementos en tiempo de inferencia: (i) una herramienta de compactación que el modelo invoca para resumir el contexto acumulado, y (ii) una rúbrica ligera que especifica cuándo activarse (una subtarea se ha resuelto, o la trayectoria está convergiendo) y cuándo suprimirse (a mitad de derivación, o cuando está estancado). Ambos son necesarios. La herramienta por sí sola se usa de manera desigual entre modelos de pesos abiertos, a menudo invocada en momentos poco útiles o no en absoluto; la rúbrica por sí sola no puede actuar. Juntos, provocan una compactación adaptativa efectiva sin ningún ajuste fino ni supervisión externa. Presentamos resultados empíricos en seis puntos de referencia (matemáticas competitivas y búsqueda agéntica) y siete modelos. Nuestros resultados muestran que SelfCompact iguala o supera la sumarización a intervalos fijos con una fracción del costo de tokens, mejorando con respecto a una línea base sin sumarización hasta en 18.1 puntos en matemáticas y 5-9 puntos en búsqueda agéntica con un costo por pregunta un 30-70% menor. Nuestros resultados exponen una brecha metacognitiva: aunque los modelos no instruidos no pueden determinar de manera confiable cuándo su propio contexto se está deteriorando, una rúbrica ligera cierra esta brecha, reformulando el cuándo compactar como una capacidad que los andamios pueden proporcionar sin entrenamiento.

English

Long agent traces composed of chains of thought and tool calls accumulate stale content that anchor subsequent generations, and eventually outgrow the context window. Existing scaffolds mitigate it with fixed-interval compaction triggered at a token threshold. Such triggers pay no heed to trajectory structure, risking discard of partial results mid-derivation or mid-search. We propose SelfCompact, a scaffold that allows the model itself to decide when and how to compact. Specifically, it pairs two inference-time elements: (i) a compaction tool the model invokes to summarize the accumulated context, and (ii) a lightweight rubric specifying when to fire (a sub-task has resolved, or the trajectory is converging) and when to suppress (mid-derivation, or when stuck). Both are needed. The tool alone is unevenly used across open-weight models, often invoked at unhelpful moments or not at all; the rubric alone cannot act. Together, they elicit effective adaptive compaction without any fine-tuning or external supervision. We present empirical results on six benchmarks (competitive math and agentic search) and seven models. Our results show that SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost, improving over a no-summarization baseline by up to 18.1 points on math and 5-9 points on agentic search at 30-70% lower per-question cost. Our results expose a meta-cognitive gap: although unprompted models cannot reliably tell when their own context is rotting, a lightweight rubric closes this gap, reframing when to compact as a capability that scaffolds can supply without training.