SIA: Самоулучшающийся ИИ с обновлением привязки и весов

Аннотация

Люди являются узким местом в создании и совершенствовании ИИ. Как модели, так и агенты, их оборачивающие, пишутся, настраиваются и корректируются людьми. Долгосрочная цель создания ИИ, способного самостоятельно улучшать себя, остаётся нерешённой. Два во многом разрозненных направления исследований пытаются устранить это узкое место. Школа «обновление обвязки» использует мета-агента, который переписывает каркас (scaffold) целевого агента (его инструменты, промпты, логику повторных попыток и процедуру поиска), при этом веса модели остаются фиксированными. Школа «обучение в момент тестирования» применяет написанные вручную конвейеры обучения с подкреплением для обновления собственных весов модели на основе обратной связи от задачи, в то время как обвязка остаётся фиксированной. Эти два направления работают изолированно. Мы предлагаем SIA — цикл самоулучшения, в котором агент на основе языковой модели (Feedback-Agent) обновляет как обвязку, так и веса целевого агента. Мы проводим оценку в трёх контрастных областях: классификация статей китайского уголовного права, низкоуровневая оптимизация ядер GPU и очистка одноклеточной РНК. Сочетание обоих рычагов превосходит итерацию одного только каркаса на всех трёх наборах данных. Улучшения составляют: 56.6% на LawBench, сокращение времени выполнения на 91.9% для ядер GPU и 502% по очистке данных по сравнению с исходным базовым уровнем. Обновления обвязки делают агента активным, формируя то, как он ищет и действует, в то время как обновления весов создают интуитивное понимание предметной области, которое не может привить ни один промпт или каркас.

English

Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The harness-update school has a meta-agent rewrite the scaffold of a task-specific agent (its tools, prompts, retry logic, and search procedure) while the model weights are held fixed. The test-time training school uses hand-written RL pipelines to update the model's own weights on task feedback while the harness is held fixed. These two silos operate in isolation. We propose SIA, a self-improving loop in which a language-model agent (the Feedback-Agent) updates both the harness and the weights of a task-specific agent. We evaluate across three contrasting domains: Chinese legal charge classification, low-level GPU kernel optimisation, and single-cell RNA denoising. Combining both levers outperforms scaffold iteration alone on all three benchmarks. The gains are 56.6% on LawBench, 91.9% runtime reduction on GPU kernels, and 502% on denoising over the initial baseline. Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil.