SIA: IA Auto-Aprimorável com Atualizações de Estrutura e Pesos

Resumo

Humanos são o gargalo na construção e melhoria da IA. Tanto os modelos quanto os agentes que os envolvem são escritos, ajustados e corrigidos por pessoas. O objetivo de longo prazo de uma IA capaz de descobrir como melhorar a si mesma permanece em aberto. Duas linhas de pesquisa majoritariamente desconexas atacam esse gargalo. A escola de atualização do arcabouço faz com que um meta-agente reescreva a estrutura de suporte de um agente específico para uma tarefa (suas ferramentas, prompts, lógica de repetição e procedimento de busca), mantendo os pesos do modelo fixos. A escola de treinamento em tempo de teste utiliza pipelines de RL escritos manualmente para atualizar os próprios pesos do modelo com base no feedback da tarefa, mantendo o arcabouço fixo. Esses dois silos operam de forma isolada. Propomos o SIA, um ciclo de autoaperfeiçoamento no qual um agente baseado em modelo de linguagem (o Agente de Feedback) atualiza tanto o arcabouço quanto os pesos de um agente específico para a tarefa. Avaliamos em três domínios contrastantes: classificação de acusações legais chinesas, otimização de kernels de GPU de baixo nível e desruído de RNA de célula única. A combinação de ambas as alavancas supera a iteração apenas do arcabouço em todos os três benchmarks. Os ganhos são de 56,6% no LawBench, redução de 91,9% no tempo de execução em kernels de GPU e 502% no desruído em relação à linha de base inicial. As atualizações do arcabouço tornam o modelo agêntico, moldando como ele busca e age, enquanto as atualizações de peso constroem a intuição de domínio que nenhum prompt ou estrutura de suporte consegue incutir.

English

Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The harness-update school has a meta-agent rewrite the scaffold of a task-specific agent (its tools, prompts, retry logic, and search procedure) while the model weights are held fixed. The test-time training school uses hand-written RL pipelines to update the model's own weights on task feedback while the harness is held fixed. These two silos operate in isolation. We propose SIA, a self-improving loop in which a language-model agent (the Feedback-Agent) updates both the harness and the weights of a task-specific agent. We evaluate across three contrasting domains: Chinese legal charge classification, low-level GPU kernel optimisation, and single-cell RNA denoising. Combining both levers outperforms scaffold iteration alone on all three benchmarks. The gains are 56.6% on LawBench, 91.9% runtime reduction on GPU kernels, and 502% on denoising over the initial baseline. Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil.