テキストアリーナ
TextArena
April 15, 2025
著者: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan
cs.AI
要旨
TextArenaは、大規模言語モデル(LLM)におけるエージェント的行動のトレーニングと評価のための、オープンソースのテキストベースゲームコレクションです。57以上のユニークな環境(シングルプレイヤー、2人プレイヤー、マルチプレイヤー設定を含む)を網羅し、オンラインプレイシステム(人間や他の提出モデルとの対戦)を通じてリアルタイムのTrueSkillスコアでモデルの能力を容易に評価できます。従来のベンチマークでは、交渉、心の理論、欺瞞といった動的な社会的スキルをほとんど評価しないため、そのギャップをTextArenaが埋めます。研究、コミュニティ、拡張性を考慮して設計されたTextArenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルとの対戦、モデルのトレーニングの容易さを重視しています。環境、ゲーム、リーダーボード、例の詳細なドキュメントは、https://github.com/LeonGuertler/TextArena および https://www.textarena.ai/ で利用可能です。
English
TextArena is an open-source collection of competitive text-based games for
training and evaluation of agentic behavior in Large Language Models (LLMs). It
spans 57+ unique environments (including single-player, two-player, and
multi-player setups) and allows for easy evaluation of model capabilities via
an online-play system (against humans and other submitted models) with
real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social
skills such as negotiation, theory of mind, and deception, creating a gap that
TextArena addresses. Designed with research, community and extensibility in
mind, TextArena emphasizes ease of adding new games, adapting the framework,
testing models, playing against the models, and training models. Detailed
documentation of environments, games, leaderboard, and examples are available
on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.Summary
AI-Generated Summary