Наука о поведении ИИ-агентов

Аннотация

Последние достижения в области больших языковых моделей (LLM) позволили разработать ИИ-агентов, демонстрирующих всё более человекообразное поведение, включая планирование, адаптацию и социальную динамику в разнообразных, интерактивных и открытых сценариях. Такое поведение не является исключительно результатом внутренних архитектур базовых моделей, а возникает благодаря их интеграции в агентные системы, функционирующие в определённых контекстах, где факторы окружающей среды, социальные сигналы и обратная связь от взаимодействия формируют поведение с течением времени. Эта эволюция требует нового научного подхода: науки о поведении ИИ-агентов. В отличие от традиционного акцента на внутренних механизмах, этот подход подчеркивает систематическое наблюдение за поведением, разработку вмешательств для проверки гипотез и теоретически обоснованную интерпретацию того, как ИИ-агенты действуют, адаптируются и взаимодействуют с течением времени. Мы систематизируем растущий объём исследований в области индивидуальных агентов, мультиагентных систем и взаимодействий между человеком и агентом, а также демонстрируем, как этот подход способствует ответственному ИИ, рассматривая справедливость, безопасность, интерпретируемость, подотчётность и конфиденциальность как поведенческие свойства. Объединяя последние открытия и намечая будущие направления, мы позиционируем науку о поведении ИИ-агентов как необходимое дополнение к традиционным модельно-центрированным подходам, предоставляя важные инструменты для понимания, оценки и управления поведением всё более автономных ИИ-систем в реальном мире.

English

Recent advances in large language models (LLMs) have enabled the development of AI agents that exhibit increasingly human-like behaviors, including planning, adaptation, and social dynamics across diverse, interactive, and open-ended scenarios. These behaviors are not solely the product of the internal architectures of the underlying models, but emerge from their integration into agentic systems operating within specific contexts, where environmental factors, social cues, and interaction feedbacks shape behavior over time. This evolution necessitates a new scientific perspective: AI Agent Behavioral Science. Rather than focusing only on internal mechanisms, this perspective emphasizes the systematic observation of behavior, design of interventions to test hypotheses, and theory-guided interpretation of how AI agents act, adapt, and interact over time. We systematize a growing body of research across individual agent, multi-agent, and human-agent interaction settings, and further demonstrate how this perspective informs responsible AI by treating fairness, safety, interpretability, accountability, and privacy as behavioral properties. By unifying recent findings and laying out future directions, we position AI Agent Behavioral Science as a necessary complement to traditional model-centric approaches, providing essential tools for understanding, evaluating, and governing the real-world behavior of increasingly autonomous AI systems.