AgentRxiv:協調的自律的研究に向けて
AgentRxiv: Towards Collaborative Autonomous Research
March 23, 2025
著者: Samuel Schmidgall, Michael Moor
cs.AI
要旨
科学的発見の進展は、単一の「ユーレカ」の瞬間によるものではなく、むしろ数百人の科学者が共通の目標に向かって漸進的に協力する結果である。既存のエージェントワークフローは自律的に研究を生成することが可能だが、それらは孤立して行われ、過去の研究成果を継続的に改善する能力を持たない。これらの課題に対処するため、我々はAgentRxivを導入する。これはLLMエージェントラボが共有のプレプリントサーバーにレポートをアップロードし、検索することで、協力し、洞察を共有し、互いの研究を反復的に構築することを可能にするフレームワークである。我々はエージェントラボに新しい推論技術とプロンプト技術の開発を課し、過去の研究にアクセスできるエージェントが、孤立して動作するエージェントと比較してより高いパフォーマンス向上を達成することを発見した(MATH-500においてベースラインに対して11.4%の相対的改善)。最も優れた戦略は他のドメインのベンチマークにも一般化し、平均で3.3%の改善が見られた。AgentRxivを通じて研究を共有する複数のエージェントラボは、共通の目標に向かって協力し、孤立したラボよりも迅速に進展し、全体としてより高い精度を達成した(MATH-500においてベースラインに対して13.7%の相対的改善)。これらの発見は、自律エージェントが人間と共に将来のAIシステムを設計する役割を果たす可能性を示唆している。我々は、AgentRxivがエージェントが研究目標に向かって協力し、研究者が発見を加速することを可能にすることを期待している。
English
Progress in scientific discovery is rarely the result of a single "Eureka"
moment, but is rather the product of hundreds of scientists incrementally
working together toward a common goal. While existing agent workflows are
capable of producing research autonomously, they do so in isolation, without
the ability to continuously improve upon prior research results. To address
these challenges, we introduce AgentRxiv-a framework that lets LLM agent
laboratories upload and retrieve reports from a shared preprint server in order
to collaborate, share insights, and iteratively build on each other's research.
We task agent laboratories to develop new reasoning and prompting techniques
and find that agents with access to their prior research achieve higher
performance improvements compared to agents operating in isolation (11.4%
relative improvement over baseline on MATH-500). We find that the best
performing strategy generalizes to benchmarks in other domains (improving on
average by 3.3%). Multiple agent laboratories sharing research through
AgentRxiv are able to work together towards a common goal, progressing more
rapidly than isolated laboratories, achieving higher overall accuracy (13.7%
relative improvement over baseline on MATH-500). These findings suggest that
autonomous agents may play a role in designing future AI systems alongside
humans. We hope that AgentRxiv allows agents to collaborate toward research
goals and enables researchers to accelerate discovery.Summary
AI-Generated Summary