ChatPaper.aiChatPaper

Le moment Aha revisité : Les modèles de langage visuel sont-ils vraiment capables de s'auto-vérifier lors de la mise à l'échelle au moment de l'inférence ?

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

June 20, 2025
Auteurs: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt
cs.AI

Résumé

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont démontré que les techniques de calcul au moment de l'inférence, telles que la mise à l'échelle au décodage et l'auto-affinage, peuvent considérablement améliorer les capacités de raisonnement sans recourir à des connaissances externes. Un facteur clé de ce succès est l'émergence de comportements d'auto-correction et d'auto-vérification, souvent suscités par l'apprentissage par renforcement (RL). Dans cet article, nous examinons si ces techniques d'inférence s'étendent efficacement aux modèles vision-langage (VLMs), en particulier ceux entraînés avec RL. Nous constatons que bien que les stratégies de décodage telles que le vote majoritaire et la sélection best-of-N avec auto-vérification améliorent toutes les performances de raisonnement des VLMs, les méthodes reposant sur la génération, comme la première, obtiennent des gains significativement plus élevés par rapport aux méthodes reposant sur la vérification, comme la seconde. De plus, le comportement d'auto-correction souvent associé aux modèles ajustés par RL, tel que le moment "aha", ne conduit pas à des gains mesurables. Nous montrons, grâce à une expérimentation approfondie dans le cadre de la mise à l'échelle au moment de l'inférence, une cause racine clé : les VLMs entraînés par RL manquent encore de capacités robustes d'auto-vérification à travers les modalités visuelles et textuelles.
English
Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.
PDF91July 1, 2025