Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dépasser les limitations cognitives humaines représente une frontière cruciale dans l'entraînement des LLM. Les systèmes propriétaires agentiques comme DeepResearch ont démontré des capacités surhumaines sur des benchmarks extrêmement complexes de recherche d'informations tels que BrowseComp, un exploit jusque-là inatteignable. Nous postulons que leur succès repose sur un schéma de raisonnement sophistiqué absent des modèles open-source : la capacité à réduire systématiquement l'incertitude extrême lors de la navigation dans des paysages informationnels vastes. Sur la base de cette observation, nous introduisons WebSailor, une méthodologie complète de post-entraînement conçue pour instiller cette capacité cruciale. Notre approche implique la génération de tâches nouvelles à haute incertitude via un échantillonnage structuré et une obfuscation d'informations, un démarrage à froid par RFT, et un algorithme efficace d'entraînement RL agentique, l'Optimisation de Politique d'Échantillonnage par Duplication (DUPO). Avec ce pipeline intégré, WebSailor surpasse significativement tous les agents open-source dans les tâches complexes de recherche d'informations, égalant les performances des agents propriétaires et réduisant l'écart de capacités.
Les progrès récents en raisonnement multimodal ont été considérablement stimulés par la Chaîne de Pensée (CoT) textuelle, un paradigme où les modèles effectuent un raisonnement au sein du langage. Cette approche centrée sur le texte traite cependant la vision comme un contexte initial statique, créant un "fossé sémantique" fondamental entre les données perceptives riches et la pensée symbolique discrète. La cognition humaine transcende souvent le langage, utilisant la vision comme un tableau mental dynamique. Une évolution similaire se déroule actuellement en IA, marquant un changement de paradigme fondamental : des modèles qui pensent simplement à propos des images à ceux qui peuvent véritablement penser avec les images. Ce paradigme émergent se caractérise par des modèles exploitant l'information visuelle comme étapes intermédiaires dans leur processus de pensée, transformant la vision d'une entrée passive en un espace cognitif dynamique et manipulable. Dans cette étude, nous retraçons cette évolution de l'intelligence le long d'une trajectoire d'autonomie cognitive croissante, qui se déploie en trois étapes clés : de l'exploration d'outils externes, à la manipulation programmatique, jusqu'à l'imagination intrinsèque. Pour structurer ce domaine en évolution rapide, notre étude apporte quatre contributions majeures. (1) Nous établissons les principes fondamentaux du paradigme "penser avec l'image" et son cadre en trois étapes. (2) Nous proposons une revue exhaustive des méthodes centrales qui caractérisent chaque étape de cette feuille de route. (3) Nous analysons le paysage critique des benchmarks d'évaluation et des applications transformatives. (4) Nous identifions les défis significatifs et esquissons les directions futures prometteuses. En fournissant cette vue d'ensemble structurée, nous visons à offrir une feuille de route claire pour des recherches futures vers une IA multimodal plus puissante et alignée sur l'humain.
La reconstruction de structures 3D avec une compréhension de scène à vocabulaire ouvert à partir d'images 2D est une tâche fondamentale mais redoutable. Les développements récents ont permis d'y parvenir en effectuant une optimisation par scène avec des informations linguistiques intégrées. Cependant, ces méthodes reposent fortement sur le paradigme de reconstruction à vues denses calibrées, ce qui entraîne des artefacts de rendu importants et une synthèse sémantique peu plausible lorsque les vues disponibles sont limitées. Dans cet article, nous introduisons un nouveau cadre génératif, baptisé LangScene-X, pour unifier et générer des informations multimodales cohérentes en 3D pour la reconstruction et la compréhension. Grâce à la capacité générative de créer des observations nouvelles plus cohérentes, nous pouvons construire des scènes 3D généralisables avec intégration linguistique à partir de vues éparses uniquement. Plus précisément, nous entraînons d'abord un modèle de diffusion vidéo TriMap qui peut générer l'apparence (RGB), la géométrie (normales) et la sémantique (cartes de segmentation) à partir d'entrées éparses grâce à une intégration progressive des connaissances. En outre, nous proposons un Compresseur Quantifié Linguistique (LQC), entraîné sur des ensembles de données d'images à grande échelle, pour encoder efficacement les embeddings linguistiques, permettant ainsi une généralisation inter-scènes sans réentraînement par scène. Enfin, nous reconstruisons les champs de surface linguistiques en alignant les informations linguistiques sur la surface des scènes 3D, permettant des requêtes linguistiques ouvertes. Des expériences approfondies sur des données du monde réel démontrent la supériorité de notre LangScene-X par rapport aux méthodes de pointe en termes de qualité et de généralisabilité. Page du projet : https://liuff19.github.io/LangScene-X.
Malgré le rôle crucial des modèles de récompense (RMs) dans l'apprentissage par renforcement à partir de retours humains (RLHF), les modèles de récompense open source actuels les plus avancés obtiennent de faibles performances sur la plupart des benchmarks d'évaluation existants, ne parvenant pas à capturer la gamme des préférences humaines nuancées et sophistiquées. Même les approches intégrant des techniques d'entraînement avancées n'ont pas permis d'améliorations significatives des performances. Nous émettons l'hypothèse que cette fragilité découle principalement des limitations des ensembles de données de préférences, qui sont souvent restreints en portée, annotés de manière synthétique ou manquent de contrôle qualité rigoureux. Pour relever ces défis, nous présentons un ensemble de données de préférences à grande échelle comprenant 40 millions de paires de préférences, nommé SynPref-40M. Pour permettre une curation des données à grande échelle, nous concevons un pipeline synergique humain-IA en deux étapes qui exploite les forces complémentaires de la qualité des annotations humaines et de la scalabilité de l'IA. Dans ce pipeline, les humains fournissent des annotations vérifiées, tandis que les grands modèles de langage effectuent une curation automatique basée sur les directives humaines. En entraînant sur ce mélange de préférences, nous introduisons Skywork-Reward-V2, une suite de huit modèles de récompense allant de 0,6 à 8 milliards de paramètres, entraînés sur un sous-ensemble soigneusement sélectionné de 26 millions de paires de préférences issues de SynPref-40M. Nous démontrons que Skywork-Reward-V2 est polyvalent sur un large éventail de capacités, incluant l'alignement avec les préférences humaines, la justesse objective, la sécurité, la résistance aux biais stylistiques et la mise à l'échelle best-of-N, atteignant des performances de pointe sur sept benchmarks majeurs de modèles de récompense. Les études d'ablation confirment que l'efficacité de notre approche découle non seulement de l'échelle des données, mais aussi d'une curation de haute qualité. La série Skywork-Reward-V2 représente une avancée significative dans les modèles de récompense open source, mettant en lumière le potentiel inexploité des ensembles de données de préférences existants et démontrant comment la synergie de curation humain-IA peut débloquer une qualité de données nettement supérieure.
Malgré des progrès significatifs dans les modèles de diffusion texte-image, le contrôle spatial précis des sorties générées reste un défi. ControlNet aborde ce problème en introduisant un module de conditionnement auxiliaire, tandis que ControlNet++ affine davantage l'alignement grâce à une perte de cohérence cyclique appliquée uniquement aux dernières étapes de débruitage. Cependant, cette approche néglige les étapes intermédiaires de génération, limitant ainsi son efficacité. Nous proposons InnerControl, une stratégie d'entraînement qui impose une cohérence spatiale à toutes les étapes de diffusion. Notre méthode entraîne des sondes convolutives légères pour reconstruire les signaux de contrôle d'entrée (par exemple, les contours, la profondeur) à partir des caractéristiques intermédiaires de l'UNet à chaque étape de débruitage. Ces sondes extraient efficacement les signaux même à partir de latents très bruités, permettant ainsi des contrôles pseudo ground truth pour l'entraînement. En minimisant l'écart entre les conditions prédites et cibles tout au long du processus de diffusion, notre perte d'alignement améliore à la fois la fidélité du contrôle et la qualité de la génération. Combiné à des techniques établies comme ControlNet++, InnerControl atteint des performances de pointe pour diverses méthodes de conditionnement (par exemple, les contours, la profondeur).
Les techniques de calcul au moment de l'inférence, analogues à la pensée de type Système 2 chez l'humain, ont récemment gagné en popularité pour améliorer les performances des modèles. Cependant, la plupart des approches existantes souffrent de plusieurs limitations : elles sont spécifiques à une modalité (par exemple, fonctionnant uniquement pour le texte), spécifiques à un problème (par exemple, des domaines vérifiables comme les mathématiques et la programmation), ou nécessitent une supervision/formation supplémentaire en plus d'un pré-entraînement non supervisé (par exemple, des vérificateurs ou des récompenses vérifiables). Dans cet article, nous posons la question suivante : « Est-il possible de généraliser ces approches de pensée de type Système 2 et de développer des modèles qui apprennent à penser uniquement à partir d'un apprentissage non supervisé ? » Fait intéressant, nous constatons que la réponse est oui, en apprenant à vérifier explicitement la compatibilité entre les entrées et les prédictions candidates, puis en reformulant les problèmes de prédiction comme une optimisation par rapport à ce vérificateur. Plus précisément, nous entraînons des Transformers à Base d'Énergie (EBTs) — une nouvelle classe de modèles à base d'énergie (EBMs) — pour attribuer une valeur d'énergie à chaque paire d'entrée et de prédiction candidate, permettant ainsi des prédictions via une minimisation de l'énergie basée sur la descente de gradient jusqu'à convergence. À la fois pour les modalités discrètes (texte) et continues (visuelles), nous constatons que les EBTs s'adaptent plus rapidement que l'approche dominante Transformer++ pendant l'entraînement, atteignant un taux de mise à l'échelle jusqu'à 35 % supérieur en termes de données, taille de lot, paramètres, FLOPs et profondeur. Pendant l'inférence, les EBTs améliorent les performances avec la pensée de type Système 2 de 29 % par rapport au Transformer++ sur les tâches linguistiques, et les EBTs surpassent les Transformers de Diffusion pour le débruitage d'images tout en utilisant moins de passes avant. De plus, nous constatons que les EBTs obtiennent de meilleurs résultats que les modèles existants sur la plupart des tâches en aval, même avec un pré-entraînement identique ou inférieur, suggérant que les EBTs généralisent mieux que les approches existantes. Par conséquent, les EBTs représentent un nouveau paradigme prometteur pour améliorer à la fois les capacités d'apprentissage et de réflexion des modèles.
Nous présentons IntFold, un modèle de base contrôlable pour la prédiction de structures biomoléculaires générales et spécialisées. IntFold démontre une précision prédictive comparable à celle de l'état de l'art AlphaFold3, tout en utilisant un noyau d'attention personnalisé supérieur. Au-delà de la prédiction de structures standard, IntFold peut être adapté pour prédire les états allostériques, les structures contraintes et l'affinité de liaison grâce à l'utilisation d'adaptateurs individuels. De plus, nous introduisons une nouvelle tête de confiance pour estimer la qualité du docking, offrant une évaluation plus nuancée pour des cibles complexes telles que les complexes anticorps-antigène. Enfin, nous partageons les enseignements tirés lors du processus d'entraînement de ce modèle intensif en calcul.
Des travaux récents ont montré que la perte d'entraînement évolue selon une loi de puissance à la fois avec la taille du modèle et le nombre de tokens, et que l'obtention de modèles optimaux en termes de calcul nécessite de faire évoluer conjointement la taille du modèle et le nombre de tokens. Cependant, ces lois de mise à l'échelle supposent une quantité infinie de données et s'appliquent principalement dans des contextes limités par le calcul. Alors que les modèles de langage modernes reposent de plus en plus sur des ensembles de données massifs à l'échelle d'Internet, l'hypothèse selon laquelle ils sont limités par le calcul devient moins valable. Ce changement met en évidence la nécessité d'architectures qui privilégient l'efficacité en termes de tokens. Dans ce travail, nous étudions l'utilisation du Transformer 2-simplicial, une architecture qui généralise l'attention par produit scalaire standard à des fonctions trilinéaires grâce à une implémentation efficace via un noyau Triton. Nous démontrons que le Transformer 2-simplicial atteint une meilleure efficacité en tokens que les Transformers standards : pour un budget de tokens fixe, des modèles de taille similaire surpassent leurs homologues à produit scalaire sur des tâches impliquant les mathématiques, le codage, le raisonnement et la logique. Nous quantifions ces gains en montrant que l'attention 2-simpliciale modifie l'exposant dans les lois de mise à l'échelle pour les tâches de connaissance et de raisonnement par rapport à l'attention par produit scalaire.
Les besoins complexes en matière d'information dans les scénarios de recherche réels exigent un raisonnement approfondi et une synthèse des connaissances à partir de sources diverses, ce que les pipelines traditionnels de génération augmentée par récupération (RAG) peinent à traiter efficacement. Les approches actuelles basées sur le raisonnement souffrent d'une limitation fondamentale : elles utilisent un seul modèle pour gérer à la fois la planification de haut niveau et l'exécution détaillée, ce qui entraîne un raisonnement inefficace et une scalabilité limitée. Dans cet article, nous présentons HiRA, un cadre hiérarchique qui sépare la planification stratégique de l'exécution spécialisée. Notre approche décompose les tâches de recherche complexes en sous-tâches ciblées, attribue chaque sous-tâche à des agents spécialisés dotés d'outils externes et de capacités de raisonnement, et coordonne les résultats grâce à un mécanisme d'intégration structuré. Cette séparation empêche les détails d'exécution de perturber le raisonnement de haut niveau tout en permettant au système de tirer parti d'une expertise spécialisée pour différents types de traitement de l'information. Les expériences menées sur quatre benchmarks complexes de recherche approfondie intermodale démontrent que HiRA surpasse significativement les systèmes RAG et basés sur des agents de pointe. Nos résultats montrent des améliorations à la fois en termes de qualité des réponses et d'efficacité du système, mettant en évidence l'efficacité d'une planification et d'une exécution découplées pour les tâches de recherche d'information en plusieurs étapes. Notre code est disponible à l'adresse https://github.com/ignorejjj/HiRA.
L’évaluation par les pairs est fondamentale pour la recherche scientifique, mais l’augmentation du volume de publications a intensifié les défis de ce processus exigeant en expertise. Bien que les modèles de langage de grande taille (LLM) montrent un potentiel dans diverses tâches scientifiques, leur capacité à assister l’évaluation par les pairs, en particulier pour identifier les limites des articles, reste peu étudiée. Nous présentons d’abord une taxonomie exhaustive des types de limites dans la recherche scientifique, en nous concentrant sur l’intelligence artificielle. Guidés par cette taxonomie, pour étudier les limites, nous proposons LimitGen, le premier benchmark complet pour évaluer la capacité des LLM à fournir des retours précoces et à compléter l’évaluation par les pairs humaine. Notre benchmark se compose de deux sous-ensembles : LimitGen-Syn, un ensemble de données synthétiques soigneusement créé par des perturbations contrôlées d’articles de haute qualité, et LimitGen-Human, une collection de limites réelles rédigées par des humains. Pour améliorer la capacité des systèmes LLM à identifier les limites, nous les enrichissons avec une recherche documentaire, essentielle pour ancrer l’identification des limites dans les découvertes scientifiques antérieures. Notre approche renforce la capacité des systèmes LLM à générer des limites dans les articles de recherche, leur permettant de fournir des retours plus concrets et constructifs.
Le raisonnement reste une tâche complexe pour les grands modèles de langage (LLMs), en particulier dans l'environnement logiquement contraint de la démonstration automatique de théorèmes (ATP), en raison des récompenses rares et de l'échelle considérable des preuves. Ces défis sont amplifiés dans des benchmarks comme PutnamBench, qui contient des problèmes de niveau universitaire nécessitant un raisonnement complexe et multi-étapes. Pour y remédier, nous introduisons les MDPs (Markov Decision Processes) auto-générés conditionnés par des objectifs (sG-MDPs), un nouveau cadre dans lequel les agents génèrent et poursuivent leurs sous-objectifs en fonction de l'état évolutif de la preuve. Grâce à cette génération plus structurée d'objectifs, le problème résultant devient plus accessible à la recherche. Nous appliquons ensuite des algorithmes similaires à la recherche arborescente Monte Carlo (MCTS) pour résoudre les sG-MDPs, en instanciant notre approche dans Bourbaki (7B), un système modulaire capable de combiner plusieurs LLMs de 7B pour la génération de sous-objectifs et la synthèse de tactiques. Sur PutnamBench, Bourbaki (7B) résout 26 problèmes, établissant de nouveaux résultats de pointe pour des modèles de cette échelle.
Bien que les grands modèles de langage (LLM) soient devenus transformateurs, ils commettent encore des erreurs et peuvent explorer des raisonnements improductifs. L'auto-correction est une capacité essentielle pour un LLM fiable, en particulier un LLM autorégressif. Si les LLM peuvent identifier les erreurs dans les entrées utilisateur, ils présentent un "angle mort d'auto-correction" systématique - échouant à corriger des erreurs identiques dans leurs propres sorties. Pour étudier systématiquement ce phénomène, nous introduisons Self-Correction Bench, un cadre systématique pour mesurer ce phénomène via l'injection contrôlée d'erreurs à trois niveaux de complexité. En testant 14 modèles, nous observons un taux moyen d'angle mort de 64,5%. Nous trouvons plusieurs preuves que cette limitation est liée à la composition des données d'entraînement : les démonstrations humaines montrent principalement des réponses sans erreur plutôt que des séquences de correction, contrairement aux modèles entraînés par RL qui apprennent la correction via un retour sur les résultats. Fait remarquable, l'ajout simple de "Attendez" réduit les angles morts de 89,3%, suggérant que la capacité existe mais nécessite une activation. Notre travail met en lumière une limitation critique des LLM actuels et propose des pistes potentielles pour améliorer leur fiabilité et leur crédibilité.
Les mécanismes d'attention linéaire offrent des avantages significatifs pour les grands modèles de langage (LLMs) en fournissant une complexité computationnelle linéaire, permettant un traitement efficace de séquences ultra-longues (par exemple, un contexte de 1 million). Cependant, les méthodes existantes de parallélisme de séquence (SP), essentielles pour répartir ces charges de travail sur plusieurs dispositifs, deviennent le principal goulot d'étranglement en raison d'un surcoût de communication substantiel. Dans cet article, nous présentons ZeCO (Zero Communication Overhead) pour les modèles d'attention linéaire, une nouvelle méthode de SP conçue pour surmonter ces limitations et atteindre une scalabilité quasi-linéaire de bout en bout pour l'entraînement de longues séquences. Par exemple, entraîner un modèle avec une séquence de 1 million sur 64 dispositifs en utilisant ZeCO prend à peu près le même temps qu'un entraînement avec une séquence de 16 000 sur un seul dispositif. Au cœur de ZeCO se trouve All-Scan, une nouvelle primitive de communication collective. All-Scan fournit à chaque rang SP exactement l'état initial de l'opérateur dont il a besoin tout en maintenant une empreinte de communication minimale, éliminant ainsi efficacement le surcoût de communication. Théoriquement, nous prouvons l'optimalité de ZeCO, montrant qu'il introduit seulement un surcoût temporel et spatial négligeable. Empiriquement, nous comparons les coûts de communication de différentes stratégies de parallélisme de séquence et démontrons qu'All-Scan réalise la communication la plus rapide dans les scénarios de SP. Plus précisément, sur 256 GPU avec une séquence de 8 millions, ZeCO atteint une accélération de 60 % par rapport à la méthode de SP actuellement la plus avancée (SOTA). Nous croyons que ZeCO établit une voie claire vers l'entraînement efficace des LLMs de nouvelle génération sur des longueurs de séquences auparavant inaccessibles.
Le réglage supervisé (SFT) est largement utilisé pour aligner les grands modèles de langage (LLMs) avec des tâches d'extraction d'information (IE), telles que la reconnaissance d'entités nommées (NER). Cependant, annoter de telles étiquettes fines et entraîner des modèles spécifiques à un domaine est coûteux. Les travaux existants entraînent généralement un modèle unifié sur plusieurs domaines, mais ces approches manquent d'adaptation et d'évolutivité, car toutes les données d'entraînement ne profitent pas aux domaines cibles et la mise à l'échelle des modèles entraînés reste difficile. Nous proposons le cadre SaM, qui sélectionne et fusionne dynamiquement des modèles experts au moment de l'inférence. Plus précisément, pour un domaine cible, nous sélectionnons des experts spécifiques au domaine pré-entraînés sur des domaines existants en fonction (i) de la similarité du domaine avec le domaine cible et (ii) des performances sur des instances échantillonnées, respectivement. Les experts sont ensuite fusionnés pour créer des modèles spécifiques à la tâche optimisés pour le domaine cible. En fusionnant dynamiquement des experts bénéfiques pour les domaines cibles, nous améliorons la généralisation sur divers domaines sans entraînement supplémentaire. De plus, les experts peuvent être ajoutés ou retirés facilement, ce qui offre une grande évolutivité. Des expériences approfondies sur plusieurs benchmarks démontrent l'efficacité de notre cadre, qui surpasse le modèle unifié en moyenne de 10 %. Nous fournissons également des insights sur les améliorations potentielles, l'expérience pratique et les extensions de notre cadre.
L'apprentissage par renforcement (RL) est devenu une technologie clé dans la phase de post-entraînement des grands modèles de langage (LLM). Les frameworks traditionnels de RL colocalisés avec les tâches souffrent de goulots d'étranglement importants en termes de scalabilité, tandis que les frameworks de RL séparés des tâches rencontrent des difficultés liées aux flux de données complexes, ainsi qu'à l'inactivité des ressources et au déséquilibre des charges de travail. De plus, la plupart des frameworks existants sont étroitement couplés aux moteurs d'entraînement ou d'inférence des LLM, ce qui rend difficile la prise en charge de moteurs personnalisés. Pour relever ces défis, nous proposons AsyncFlow, un framework de RL asynchrone et en flux continu pour un post-entraînement efficace. Plus précisément, nous introduisons un module de stockage et de transfert de données distribué qui offre une gestion unifiée des données et une capacité de planification fine, le tout de manière entièrement streamée. Cette architecture facilite intrinsèquement le chevauchement automatisé des pipelines entre les tâches de RL et l'équilibrage dynamique des charges. Par ailleurs, nous proposons un workflow asynchrone basé sur le modèle producteur-consommateur, conçu pour minimiser l'inactivité computationnelle en retardant stratégiquement le processus de mise à jour des paramètres dans les limites de péremption. Enfin, la capacité centrale d'AsyncFlow est architecturalement découplée des moteurs d'entraînement et d'inférence sous-jacents et encapsulée par des interfaces utilisateur orientées service, offrant ainsi une expérience utilisateur modulaire et personnalisable. Des expériences approfondies démontrent une amélioration moyenne de 1,59 du débit par rapport à l'état de l'art. L'architecture présentée dans ce travail fournit des perspectives exploitables pour la conception des systèmes de formation RL de nouvelle génération.
La segmentation médicale multi-organes est une composante cruciale du traitement des images médicales, essentielle pour permettre aux médecins d'établir des diagnostics précis et de concevoir des plans de traitement efficaces. Malgré des progrès significatifs dans ce domaine, les modèles actuels de segmentation multi-organes souffrent souvent de détails imprécis, d'une dépendance aux indications géométriques et d'une perte d'informations spatiales. Pour relever ces défis, nous introduisons un nouveau modèle nommé CRISP-SAM2, basé sur une interaction intermodale et une incitation sémantique fondées sur SAM2. Ce modèle représente une approche prometteuse pour la segmentation médicale multi-organes guidée par des descriptions textuelles des organes. Notre méthode commence par convertir les entrées visuelles et textuelles en sémantiques contextualisées intermodales à l'aide d'un mécanisme d'interaction progressive par attention croisée. Ces sémantiques sont ensuite injectées dans l'encodeur d'images pour améliorer la compréhension détaillée des informations visuelles. Pour éliminer la dépendance aux indications géométriques, nous utilisons une stratégie d'incitation sémantique, remplaçant l'encodeur d'indications original pour affiner la perception des cibles complexes. De plus, une stratégie d'auto-mise à jour par tri de similarité pour la mémoire et un processus de raffinement des masques sont appliqués pour mieux s'adapter à l'imagerie médicale et améliorer les détails localisés. Des expériences comparatives menées sur sept ensembles de données publics indiquent que CRISP-SAM2 surpasse les modèles existants. Une analyse approfondie démontre également l'efficacité de notre méthode, confirmant ainsi ses performances supérieures, en particulier pour résoudre les limitations mentionnées précédemment. Notre code est disponible à l'adresse suivante : https://github.com/YU-deep/CRISP\_SAM2.git.
Les récents progrès dans le domaine de la segmentation vision-langage ont considérablement fait avancer la compréhension visuelle ancrée. Cependant, ces modèles présentent souvent des hallucinations en produisant des masques de segmentation pour des objets non ancrés dans le contenu de l'image ou en étiquetant incorrectement des régions non pertinentes. Les protocoles d'évaluation existants pour les hallucinations de segmentation se concentrent principalement sur les hallucinations d'étiquettes ou textuelles sans manipuler le contexte visuel, limitant ainsi leur capacité à diagnostiquer les échecs critiques. En réponse, nous introduisons HalluSegBench, le premier benchmark spécifiquement conçu pour évaluer les hallucinations dans l'ancrage visuel à travers le prisme du raisonnement visuel contrefactuel. Notre benchmark comprend un nouvel ensemble de données de 1340 paires d'instances contrefactuelles couvrant 281 classes d'objets uniques, ainsi qu'un ensemble de nouvelles métriques qui quantifient la sensibilité aux hallucinations sous des modifications de scènes visuellement cohérentes. Les expériences sur HalluSegBench avec des modèles de segmentation vision-langage de pointe révèlent que les hallucinations pilotées par la vision sont significativement plus fréquentes que celles pilotées par les étiquettes, les modèles persistant souvent dans une segmentation erronée, soulignant la nécessité d'un raisonnement contrefactuel pour diagnostiquer la fidélité de l'ancrage.