Harnais Auto-Adaptatif : Auto-Amélioration Continue pour le Déploiement de Systèmes Agentifs sur des Flux de Tâches Ouverts

Résumé

Les systèmes de harnais automatique tels que A-Evolve, GEPA et Meta-Harness améliorent les agents LLM en optimisant les invites, les compétences, les outils, les mémoires et l'infrastructure de support à partir du retour d'exécution, mais ils sont généralement évalués sur des benchmarks hors ligne fixes. Les déploiements réels présentent plutôt des flux de tâches ouverts : les historiques s'allongent sans point final fixe, des tâches hétérogènes nécessitent différents harnais, et les distributions de problèmes évoluent au fil du temps. Ces défis rendent un harnais unique mis à jour de manière répétée et dense fragile, entraînant une dégradation des performances alors que la précision atteint un pic précoce puis décline. Cela motive une construction de harnais soutenue avec une adaptation par tâche. Nous introduisons Adaptive Auto-Harness, un cadre et un système pour de tels flux. Le cadre décompose l'écart par rapport à un harnais oracle en perte d'évolution et perte d'adaptation. Le système répond à ces pertes avec un évolueur multi-agent avec état, un arbre de harnais avec routage au moment de la résolution, et des crochets d'orientation humaine pour les cas où l'historique manque du signal nécessaire. Sur des flux de marchés prédictifs, de compétitions de sécurité et de prévisions d'événements, Adaptive Auto-Harness surpasse cinq harnais automatiques de base existants, et les ablations attribuent les gains à une meilleure construction, un meilleur routage ou une orientation humaine ciblée. Le code est disponible sur https://github.com/A-EVO-Lab/AdaptiveHarness .

English

Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in https://github.com/A-EVO-Lab/AdaptiveHarness .