Информационно-теоретический взгляд на проектирование агентных систем
An Information Theoretic Perspective on Agentic System Design
December 25, 2025
Авторы: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI
Аннотация
Агентные системы на основе языковых моделей (ЯМ) лежат в основе современных приложений, таких как "Deep Research" и "Claude Code", и используют мульти-ЯМ архитектуры для преодоления ограничений контекста. За кажущимся разнообразием скрывается повторяющаяся схема: меньшие по размеру ЯМ-«компрессоры» (которые могут работать даже локально) преобразуют исходный контекст в компактный текст, который затем обрабатывается более крупными ЯМ-«предикторами». Несмотря на их популярность, проектирование систем компрессор-предиктор остается в значительной степени эмпирическим, с отсутствием четких рекомендаций о том, как выбор компрессора и предиктора влияет на итоговую производительность. На практике для определения вклада сжатия по сравнению с предсказанием требуются дорогостоящие попарные переборы для каждой конкретной задачи. Мы утверждаем, что эти вопросы проектирования агентных систем по своей сути являются информационно-теоретическими. Рассматривая ЯМ-компрессор как зашумленный канал, мы вводим простой оценщик взаимной информации между контекстом и его сжатием, чтобы количественно оценить качество сжатия независимо от задачи. Мы показываем, что взаимная информация является сильным предиктором итоговой производительности, независимо от конкретной задачи. Используя информационно-теоретическую основу, мы проводим комплексный эмпирический анализ на пяти наборах данных и для трех семейств моделей. Результаты показывают, что более крупные компрессоры не только точнее, но и эффективнее по использованию токенов, передавая больше битов информации на токен. Например, компрессор Qwen-2.5 с 7B параметрами в 1.6 раза точнее, в 4.6 раза лаконичнее и передает в 5.5 раз больше битов взаимной информации на токен по сравнению со своей версией на 1.5B параметров. Для различных наборов данных масштабирование компрессоров оказывается существенно эффективнее, чем масштабирование предикторов, что позволяет использовать более крупные локальные компрессоры в паре с меньшими облачными предикторами. Применение этих принципов к системе Deep Research позволяет локальным компрессорам всего с 3B параметров достигать 99% точности передовых ЯМ при 26% стоимости API-вызовов.
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.