MindZero : Apprentissage en ligne du raisonnement mental sans annotations

Résumé

Pour offrir une assistance concrète dans le monde réel, les agents d’IA doivent posséder une solide capacité de Théorie de l’esprit (ToM) : inférer les états mentaux humains à partir de leurs comportements. Malgré les progrès récents, plusieurs défis majeurs subsistent, notamment (1) l’inférence en ligne avec des mises à jour robustes de l’incertitude portant sur de multiples hypothèses ; (2) un raisonnement efficace adapté à une assistance en temps réel ; et (3) l’absence d’annotations vérité-terrain des états mentaux dans les domaines réels. Nous relevons ces défis en introduisant MindZero, un cadre d’apprentissage par renforcement auto-supervisé qui entraîne des modèles de langage multimodaux de grande taille (MLLM) à effectuer un raisonnement mental en ligne, efficace et robuste. Pendant l’apprentissage, le modèle est récompensé pour avoir généré des hypothèses d’états mentaux qui maximisent la vraisemblance des actions observées, estimée par un planificateur, suivant un raisonnement ToM basé sur un modèle. Cette méthode élimine ainsi le besoin d’annotations explicites des états mentaux. Après l’apprentissage, MindZero internalise le raisonnement basé sur un modèle dans une inférence rapide en un seul passage. Nous évaluons MindZero par rapport à des méthodes de référence dans des tâches exigeantes de raisonnement mental et d’assistance en IA, réalisées dans des environnements de type grille et des domaines domestiques. Nous constatons que les LLM seuls sont insuffisants ; les méthodes basées sur un modèle améliorent la précision mais sont lentes, coûteuses et limitées par la capacité du MLLM sous-jacent. En revanche, MindZero renforce la capacité intrinsèque de ToM des MLLM et surpasse significativement les méthodes basées sur un modèle, tant en précision qu’en efficacité, montrant que le raisonnement mental peut être efficacement appris comme une compétence auto-supervisée.

English

Effective real-world assistance requires AI agents with robust Theory of Mind (ToM): inferring human mental states from their behavior. Despite recent advances, several key challenges remain, including (1) online inference with robust uncertainty updates over multiple hypotheses; (2) efficient reasoning suitable for real-time assistance; and (3) the lack of ground-truth mental state annotations in real-world domains. We address these challenges by introducing MindZero, a self-supervised reinforcement learning framework that trains multimodal large language models (MLLMs) for efficient and robust online mental reasoning. During training, the model is rewarded for generating mental state hypotheses that maximize the likelihood of observed actions estimated by a planner, similar to model-based ToM reasoning. This method thus eliminates the need for explicit mental state annotations. After training, MindZero internalizes model-based reasoning into fast single-pass inference. We evaluate MindZero against baselines across challenging mental reasoning and AI assistance tasks in gridworld and household domains. We found that LLMs alone are insufficient; model-based methods improve accuracy but are slow, costly, and limited by backbone MLLM capacity. In contrast, MindZero enhances MLLMs' intrinsic ToM ability and significantly outperforms model-based methods in both accuracy and efficiency, showing that mental reasoning can be effectively learned as a self-supervised skill.