Resultados e Análise Retrospectiva do Desafio CODS 2025 AssetOpsBench
Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge
May 8, 2026
Autores: Dhaval Patel, Chathurangi Shyalika, Suryanarayana Reddy Yarrabothula, Ling Yue, Shuxin Lin, Nianjun Zhou, James Rayfield
cs.AI
Resumo
Retrospectivas de competição são úteis quando explicam o que um ranking mediu, como a avaliação oculta alterou as conclusões e quais padrões de projeto foram recompensados. Revisitamos o desafio CODS 2025, uma competição Codabench com foco em privacidade sobre orquestração multiagente industrial, construída sobre . Combinamos folhas de classificação finais, um log do servidor com 300 submissões, 149 inscrições de equipes, exportações das melhores submissões, o relatório dos vencedores feito pelos organizadores, o artigo complementar do sistema e as árvores de origem verificadas da trilha de planejamento. Cinco resultados se destacam. Primeiro, o ranking público de planejamento satura em 72,73%, e prompts mais ricos não melhoram esse pico. Segundo, a avaliação oculta muda a história: as pontuações pública e privada correlacionam-se moderadamente no planejamento (r=0,69), mas negativamente na execução (r=-0,13), com vários sistemas de execução com 45,45% públicos alcançando 63,64% no conjunto oculto. Terceiro, o termo é numericamente quase inerte no composto oficial — combinado em uma escala de 0 a 1 com pontuações percentuais de 0 a 100, contribui com no máximo 0,05 pontos por trilha, e uma reescalagem trocaria as duas primeiras equipes. Quarto, a competição é operacionalmente baseada em contas, mas substancialmente baseada em equipes: 149 equipes registradas reduzem-se a 24 com pontuações públicas não nulas e 11 totalmente classificadas, enquanto 52,3% das inscrições deduplicadas listam múltiplos nomes de usuário. Quinto, métodos de execução bem-sucedidos melhoram principalmente salvaguardas — seleção de resposta, limpeza de contaminação, fallback e controle de contexto — em vez de arquiteturas de agente inovadoras. Esses resultados identificam quais comportamentos foram recompensados pela avaliação e motivam compostos cientes de escala, diagnósticos de nível de habilidade e liberação de artefatos versionados.
English
Competition retrospectives are useful when they explain what a leaderboard measured, how hidden evaluation changed conclusions, and which design patterns were rewarded. We revisit the CODS 2025 challenge, a privacy-aware Codabench competition on industrial multi-agent orchestration built on . We combine final rank sheets, a 300-submission server log, 149-team registrations, best-submission exports, the organizer winners report, the companion system paper, and verified planning-track source trees. Five results stand out. First, the public planning leaderboard saturates at 72.73\%, and richer prompts do not improve that peak. Second, hidden evaluation changes the story: public and private scores correlate moderately in planning (r{=}0.69) but negatively in execution (r{=}{-}0.13), with several 45.45\% public execution systems reaching 63.64\% on the hidden set. Third, the term is numerically almost inert in the official composite -- combined on a 0--1 scale with 0--100 percentage scores, it contributes at most 0.05 points per track, and rescaling would swap the top two teams. Fourth, the competition is operationally account-based but substantively team-based: 149 registered teams reduce to 24 with non-zero public scores and 11 fully ranked, while 52.3\% of deduplicated registrations list multiple usernames. Fifth, successful execution methods mostly improve guardrails -- response selection, contamination cleanup, fallback, and context control -- rather than novel agent architectures. These findings identify which behaviors the evaluation rewarded, and motivate scale-aware composites, skill-level diagnostics, and versioned artifact release.