MindZero: Обучение онлайн-ментальному рассуждению без аннотаций

Аннотация

Эффективная помощь в реальных условиях требует от ИИ-агентов развитой модели психического состояния (ToM): способности выводить ментальные состояния человека на основе его поведения. Несмотря на недавние достижения, остаётся ряд ключевых проблем, включая (1) онлайн-вывод с устойчивым обновлением неопределённости по множеству гипотез; (2) эффективные рассуждения, пригодные для помощи в реальном времени; и (3) отсутствие аннотаций истинных ментальных состояний в реальных областях. Мы решаем эти проблемы с помощью MindZero — самообучающейся архитектуры обучения с подкреплением, которая обучает мультимодальные большие языковые модели (MLLM) эффективному и устойчивому онлайн-ментальному рассуждению. В процессе обучения модель получает вознаграждение за генерацию гипотез о ментальных состояниях, которые максимизируют правдоподобие наблюдаемых действий, оценённое планировщиком, подобно модельному ToM-рассуждению. Таким образом, этот метод устраняет необходимость в явных аннотациях ментальных состояний. После обучения MindZero интериоризирует модельное рассуждение в быстрый однопроходный вывод. Мы оцениваем MindZero по сравнению с базовыми методами на задачах сложного ментального рассуждения и ИИ-помощи в области сеточных миров и домохозяйств. Мы обнаружили, что только LLM недостаточны; модельные методы повышают точность, но медленны, дороги и ограничены ёмкостью базовой MLLM. Напротив, MindZero усиливает внутреннюю способность ToM у MLLM и значительно превосходит модельные методы как по точности, так и по эффективности, показывая, что ментальное рассуждение может быть эффективно освоено как самообучаемый навык.

English

Effective real-world assistance requires AI agents with robust Theory of Mind (ToM): inferring human mental states from their behavior. Despite recent advances, several key challenges remain, including (1) online inference with robust uncertainty updates over multiple hypotheses; (2) efficient reasoning suitable for real-time assistance; and (3) the lack of ground-truth mental state annotations in real-world domains. We address these challenges by introducing MindZero, a self-supervised reinforcement learning framework that trains multimodal large language models (MLLMs) for efficient and robust online mental reasoning. During training, the model is rewarded for generating mental state hypotheses that maximize the likelihood of observed actions estimated by a planner, similar to model-based ToM reasoning. This method thus eliminates the need for explicit mental state annotations. After training, MindZero internalizes model-based reasoning into fast single-pass inference. We evaluate MindZero against baselines across challenging mental reasoning and AI assistance tasks in gridworld and household domains. We found that LLMs alone are insufficient; model-based methods improve accuracy but are slow, costly, and limited by backbone MLLM capacity. In contrast, MindZero enhances MLLMs' intrinsic ToM ability and significantly outperforms model-based methods in both accuracy and efficiency, showing that mental reasoning can be effectively learned as a self-supervised skill.