ТекстАрена
TextArena
April 15, 2025
Авторы: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan
cs.AI
Аннотация
TextArena представляет собой открытую коллекцию соревновательных текстовых игр, предназначенных для обучения и оценки агентного поведения в больших языковых моделях (LLM). Она охватывает более 57 уникальных сред (включая одиночные, двух- и многопользовательские режимы) и позволяет легко оценивать возможности моделей с помощью системы онлайн-игры (против людей и других представленных моделей) с использованием рейтингов TrueSkill в реальном времени. Традиционные тесты редко оценивают динамические социальные навыки, такие как переговоры, теория сознания и обман, что создает пробел, который устраняет TextArena. Разработанная с учетом исследований, сообщества и расширяемости, TextArena делает акцент на простоте добавления новых игр, адаптации фреймворка, тестирования моделей, игры против моделей и их обучения. Подробная документация по средам, играм, таблице лидеров и примерам доступна на https://github.com/LeonGuertler/TextArena и https://www.textarena.ai/.
English
TextArena is an open-source collection of competitive text-based games for
training and evaluation of agentic behavior in Large Language Models (LLMs). It
spans 57+ unique environments (including single-player, two-player, and
multi-player setups) and allows for easy evaluation of model capabilities via
an online-play system (against humans and other submitted models) with
real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social
skills such as negotiation, theory of mind, and deception, creating a gap that
TextArena addresses. Designed with research, community and extensibility in
mind, TextArena emphasizes ease of adding new games, adapting the framework,
testing models, playing against the models, and training models. Detailed
documentation of environments, games, leaderboard, and examples are available
on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.Summary
AI-Generated Summary