Неявный интеллект — оценка агентов по тому, что пользователи не говорят

Аннотация

Реальные запросы к ИИ-агентам являются принципиально неполными. Естественная человеческая коммуникация опирается на общий контекст и невысказанные ограничения, которые говорящие ожидают, что слушатели смогут вывести самостоятельно. Современные бенчмарки для агентов проверяют следование явным инструкциям, но не оценивают способность агентов учитывать неявные требования, охватывающие потребности в доступности, границы конфиденциальности, катастрофические риски и контекстные ограничения. Мы представляем Implicit Intelligence — фреймворк для оценки способности ИИ-агентов выйти за рамки следования промптам и стать подлинными исполнителями целей, а также Agent-as-a-World (AaW) — среду, в которой интерактивные миры определяются в человеко-читаемых YAML-файлах и симулируются языковыми моделями. Наши сценарии характеризуются кажущейся простотой пользовательских запросов, скрытой сложностью правильных решений и возможностью обнаружения ограничений через исследование среды. Оценив 16 передовых и открытых моделей на 205 сценариях, мы обнаружили, что даже лучшая модель достигает уровня успеха лишь в 48.3% сценариев, что указывает на значительный потенциал для улучшения в преодолении разрыва между буквальным следованием инструкциям и контекстным рассуждением, подобным человеческому.

English

Real-world requests to AI agents are fundamentally underspecified. Natural human communication relies on shared context and unstated constraints that speakers expect listeners to infer. Current agentic benchmarks test explicit instruction-following but fail to evaluate whether agents can reason about implicit requirements spanning accessibility needs, privacy boundaries, catastrophic risks, and contextual constraints. We present Implicit Intelligence, an evaluation framework testing whether AI agents can move beyond prompt-following to become genuine goal-fulfillers, paired with Agent-as-a-World (AaW), a harness where interactive worlds are defined in human-readable YAML files and simulated by language models. Our scenarios feature apparent simplicity in user requests, hidden complexity in correct solutions, and discoverability of constraints through environmental exploration. Evaluating 16 frontier and open-weight models across 205 scenarios, we find that even the best-performing model achieves only 48.3% scenario pass rate, revealing substantial room for improvement in bridging the gap between literal instruction-following and human-like contextual reasoning.

Неявный интеллект — оценка агентов по тому, что пользователи не говорят

Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Аннотация

Support