papers.description
Nous présentons Ovis2.5, un successeur d'Ovis2 conçu pour la perception visuelle en résolution native et un raisonnement multimodal robuste. Ovis2.5 intègre un vision transformer en résolution native qui traite les images à leurs résolutions natives et variables, évitant ainsi la dégradation due au découpage en résolution fixe et préservant à la fois les détails fins et la disposition globale — essentiels pour des contenus visuellement denses comme les graphiques complexes. Pour renforcer le raisonnement, nous entraînons le modèle à aller au-delà d'une chaîne de pensée linéaire et à effectuer une réflexion — incluant l'auto-vérification et la révision. Cette capacité avancée est exposée comme un "mode de réflexion" optionnel lors de l'inférence, permettant aux utilisateurs de troquer la latence contre une précision accrue sur des entrées difficiles. Le modèle est entraîné via un curriculum complet en cinq phases qui développe progressivement ses compétences. Le processus commence par un pré-entraînement visuel et multimodal de base, progresse à travers un réglage d'instructions à grande échelle, et culmine avec un renforcement de l'alignement et du raisonnement utilisant DPO et GRPO. Pour mettre à l'échelle ces améliorations de manière efficace, nous employons un emballage de données multimodal et un parallélisme hybride, obtenant ainsi une accélération significative de bout en bout. Nous publions deux modèles open-source : Ovis2.5-9B et Ovis2.5-2B. Ce dernier poursuit la philosophie "petit modèle, grande performance" d'Ovis2, le rendant idéal pour des scénarios contraints en ressources et sur appareil. Sur le classement multimodal OpenCompass, Ovis2.5-9B obtient une moyenne de 78,3, marquant une amélioration substantielle par rapport à son prédécesseur, Ovis2-8B, et atteignant des résultats de pointe parmi les MLLM open-source dans la gamme des moins de 40 milliards de paramètres ; Ovis2.5-2B obtient un score de 73,9, établissant un SOTA pour sa taille. Au-delà des scores agrégés, Ovis2.5 obtient des résultats de premier plan sur les benchmarks STEM, démontre de solides capacités sur les tâches d'ancrage et vidéo, et atteint un SOTA open-source à son échelle pour l'analyse de graphiques complexes.
La compréhension narrative des histoires longues et des romans constitue un domaine complexe en raison de leurs intrigues élaborées et des relations entrelacées et souvent évolutives entre les personnages et les entités. Étant donné la capacité réduite des modèles de langage de grande taille (LLM) à raisonner sur des contextes étendus et leur coût computationnel élevé, les approches basées sur la recherche d'information (retrieval) jouent un rôle essentiel en pratique. Cependant, les méthodes traditionnelles de RAG (Retrieval-Augmented Generation) peuvent s'avérer insuffisantes en raison de leur processus de recherche statique et en une seule étape, qui néglige souvent la nature dynamique de la capture des relations interconnectées dans un contexte à long terme. Dans ce travail, nous proposons ComoRAG, en partant du principe que le raisonnement narratif n'est pas un processus ponctuel, mais une interaction dynamique et évolutive entre l'acquisition de nouvelles preuves et la consolidation des connaissances passées, similaire à la cognition humaine lors du raisonnement avec des signaux liés à la mémoire dans le cerveau. Plus précisément, lorsqu'il rencontre une impasse de raisonnement, ComoRAG engage des cycles de raisonnement itératifs tout en interagissant avec un espace de mémoire dynamique. À chaque cycle, il génère des requêtes exploratoires pour tracer de nouvelles pistes, puis intègre les preuves récupérées de nouveaux aspects dans un pool de mémoire global, favorisant ainsi l'émergence d'un contexte cohérent pour la résolution de la requête. Sur quatre benchmarks narratifs exigeants avec des contextes longs (200K+ tokens), ComoRAG surpasse les bases de référence RAG avec des gains relatifs constants allant jusqu'à 11 % par rapport à la meilleure base de référence. Une analyse approfondie révèle que ComoRAG est particulièrement avantageux pour les requêtes complexes nécessitant une compréhension globale, offrant un paradigme motivé cognitivement et fondé sur des principes pour la compréhension de contextes longs basée sur la recherche, en vue d'un raisonnement étatique. Notre code est disponible publiquement à l'adresse suivante : https://github.com/EternityJune25/ComoRAG.
Nous présentons 4DNeX, le premier cadre de traitement direct pour générer des représentations de scènes 4D (c'est-à-dire 3D dynamiques) à partir d'une seule image. Contrairement aux méthodes existantes qui reposent sur une optimisation coûteuse en calcul ou nécessitent des entrées vidéo multi-images, 4DNeX permet une génération efficace et de bout en bout d'images vers la 4D en affinant un modèle de diffusion vidéo pré-entraîné. Plus précisément, 1) pour pallier la rareté des données 4D, nous construisons 4DNeX-10M, un jeu de données à grande échelle avec des annotations 4D de haute qualité générées à l'aide d'approches de reconstruction avancées. 2) Nous introduisons une représentation vidéo 6D unifiée qui modélise conjointement les séquences RGB et XYZ, facilitant l'apprentissage structuré de l'apparence et de la géométrie. 3) Nous proposons un ensemble de stratégies d'adaptation simples mais efficaces pour réutiliser des modèles de diffusion vidéo pré-entraînés pour la modélisation 4D. 4DNeX produit des nuages de points dynamiques de haute qualité qui permettent la synthèse de vidéos sous de nouveaux points de vue. Des expériences approfondies démontrent que 4DNeX surpasse les méthodes existantes de génération 4D en termes d'efficacité et de généralisabilité, offrant une solution évolutive pour la modélisation d'images vers la 4D et posant les bases de modèles génératifs 4D du monde qui simulent l'évolution dynamique des scènes.
Nous proposons une nouvelle approche pour la génération d'images en décomposant une image en une séquence structurée, où chaque élément de la séquence partage la même résolution spatiale mais diffère par le nombre de tokens uniques utilisés, capturant ainsi différents niveaux de granularité visuelle. La génération d'images est réalisée grâce à notre nouveau cadre de génération Next Visual Granularity (NVG), qui génère une séquence de granularité visuelle en partant d'une image vide et l'affine progressivement, de la disposition globale aux détails fins, de manière structurée. Ce processus itératif encode une représentation hiérarchique et en couches, offrant un contrôle précis sur le processus de génération à travers plusieurs niveaux de granularité. Nous entraînons une série de modèles NVG pour la génération d'images conditionnée par classe sur le jeu de données ImageNet et observons un comportement d'échelle clair. Comparé à la série VAR, NVG surpasse systématiquement en termes de scores FID (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). Nous menons également une analyse approfondie pour démontrer les capacités et le potentiel du cadre NVG. Notre code et nos modèles seront rendus publics.
Les modèles de langage de grande taille (LLM) ont produit des résultats impressionnants en compréhension, génération et raisonnement du langage, repoussant les limites des capacités des modèles multimodaux. Les modèles Transformer, fondements des LLM modernes, offrent une base solide avec d'excellentes propriétés de mise à l'échelle. Cependant, l'architecture traditionnelle des Transformers nécessite des calculs substantiels et pose des obstacles importants pour l'entraînement à grande échelle et le déploiement pratique. Dans cette étude, nous proposons un examen systématique des architectures innovantes de LLM qui abordent les limitations inhérentes des Transformers et améliorent l'efficacité. Partant de la modélisation du langage, cette étude couvre le contexte et les détails techniques des méthodes de modélisation de séquences linéaires et parcimonieuses, des variantes efficaces d'attention complète, des mélanges parcimonieux d'experts, des architectures hybrides intégrant ces techniques, ainsi que les LLM émergents basés sur la diffusion. De plus, nous discutons des applications de ces techniques à d'autres modalités et considérons leurs implications plus larges pour le développement de modèles de base évolutifs et conscients des ressources. En regroupant les études récentes dans les catégories susmentionnées, cette étude présente un plan directeur des architectures modernes de LLM efficaces, et nous espérons que cela pourra motiver les recherches futures vers des systèmes d'IA plus efficaces et polyvalents.
Les modèles de langage de grande taille (LLMs) sont très sensibles aux variations subtiles et non sémantiques dans la formulation et le formatage des prompts. Dans ce travail, nous présentons la première évaluation systématique de 5 méthodes pour améliorer la robustesse des prompts dans un cadre expérimental unifié. Nous comparons ces techniques sur 8 modèles des familles Llama, Qwen et Gemma à travers 52 tâches issues du jeu de données Natural Instructions. Notre évaluation couvre des méthodes de robustesse provenant à la fois des paradigmes d'apprentissage par fine-tuning et d'apprentissage en contexte, et teste leur généralisation face à plusieurs types de décalages de distribution. Enfin, nous étendons notre analyse à GPT-4.1 et DeepSeek V3 pour évaluer la robustesse actuelle des modèles de pointe face aux perturbations de format. Nos résultats offrent des insights actionnables sur l'efficacité relative de ces méthodes de robustesse, permettant aux praticiens de prendre des décisions éclairées lorsqu'ils visent une performance stable et fiable des LLMs dans des applications réelles. Code : https://github.com/AIRI-Institute/when-punctuation-matters.
La Guidance sans Classifieur (Classifier-free Guidance, CFG) est une technique largement utilisée dans les modèles de diffusion modernes pour améliorer la qualité des échantillons et l'adhésion aux prompts. Cependant, à travers une analyse empirique sur la modélisation de mélanges gaussiens avec une solution en forme fermée, nous observons une divergence entre les résultats sous-optimaux produits par la CFG et la vérité terrain. La dépendance excessive du modèle envers ces prédictions sous-optimales conduit souvent à une incohérence sémantique et à des sorties de faible qualité. Pour résoudre ce problème, nous démontrons d'abord empiriquement que les prédictions sous-optimales du modèle peuvent être efficacement affinées en utilisant des sous-réseaux du modèle lui-même. Sur la base de cette observation, nous proposons S^2-Guidance, une nouvelle méthode qui exploite l'abandon stochastique de blocs pendant le processus direct pour construire des sous-réseaux stochastiques, guidant efficacement le modèle loin des prédictions potentiellement de faible qualité et vers des sorties de haute qualité. Des expériences qualitatives et quantitatives approfondies sur les tâches de génération texte-image et texte-vidéo démontrent que S^2-Guidance offre une performance supérieure, surpassant systématiquement la CFG et d'autres stratégies de guidage avancées. Notre code sera publié.
Les modèles multi-modaux ont réalisé des progrès remarquables ces dernières années. Néanmoins, ils continuent de présenter des limitations notables dans la compréhension et le raisonnement spatiaux, des capacités fondamentales pour atteindre l'intelligence artificielle générale. Avec la récente sortie de GPT-5, prétendument le modèle d'IA le plus puissant à ce jour, il est opportun d'examiner où se situent les modèles leaders sur la voie de l'intelligence spatiale. Tout d'abord, nous proposons une taxonomie complète des tâches spatiales qui unifie les benchmarks existants et discutons des défis liés à l'évaluation équitable. Nous évaluons ensuite les modèles propriétaires et open-source de pointe sur huit benchmarks clés, à un coût dépassant un milliard de tokens au total. Notre étude empirique révèle que (1) GPT-5 démontre une force sans précédent en intelligence spatiale, mais (2) reste en deçà des performances humaines sur un large éventail de tâches. De plus, nous (3) identifions les problèmes d'intelligence spatiale les plus difficiles pour les modèles multi-modaux, et (4) les modèles propriétaires ne présentent pas d'avantage décisif face aux problèmes les plus complexes. En complément, nous menons une évaluation qualitative sur un ensemble diversifié de scénarios intuitifs pour les humains mais qui échouent même pour les modèles multi-modaux les plus avancés.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans des tâches de raisonnement pas à pas isolées telles que les mathématiques et la programmation, mais leur compétence en planification à long terme, où les solutions nécessitent des séquences étendues et structurées d'actions interdépendantes, reste peu explorée. Les benchmarks existants évaluent généralement les LLM à travers des tâches algorithmiques abstraites ou de faible dimension, ne parvenant pas à capturer la complexité des environnements de planification réalistes. Nous présentons HeroBench, un nouveau benchmark conçu spécifiquement pour évaluer la planification à long terme et le raisonnement structuré dans des mondes virtuels complexes inspirés des RPG. HeroBench fournit un ensemble de données rigoureusement construit de tâches couvrant un large éventail de difficultés, un environnement simulé pour exécuter et valider les plans des agents, et des outils analytiques détaillés pour évaluer la performance des modèles. Les tâches mettent les modèles au défi de formuler des plans stratégiques, de collecter efficacement des ressources, de maîtriser les compétences nécessaires, de fabriquer des équipements et de vaincre des adversaires, reflétant les dépendances et contraintes en couches des scénarios pratiques. Notre évaluation approfondie de 25 LLM de pointe, incluant à la fois des modèles open-source et propriétaires, dont la famille GPT-5, révèle des disparités de performance substantielles rarement observées dans les benchmarks de raisonnement conventionnels. Une analyse détaillée des erreurs met en lumière des faiblesses spécifiques dans les capacités des modèles actuels à générer des plans de haut niveau robustes et à exécuter de manière fiable des actions structurées. HeroBench non seulement fait progresser de manière significative l'évaluation du raisonnement des LLM, mais fournit également une base flexible et évolutive pour les recherches futures sur la planification autonome avancée dans les environnements virtuels.
Les récents progrès dans la génération interactive de vidéos ont démontré le potentiel des modèles de diffusion en tant que modèles du monde, en capturant des dynamiques physiques complexes et des comportements interactifs. Cependant, les modèles interactifs du monde existants dépendent d'une attention bidirectionnelle et d'étapes d'inférence longues, limitant gravement les performances en temps réel. Par conséquent, il leur est difficile de simuler les dynamiques du monde réel, où les résultats doivent être mis à jour instantanément en fonction du contexte historique et des actions actuelles. Pour résoudre ce problème, nous présentons Matrix-Game 2.0, un modèle interactif du monde qui génère de longues vidéos à la volée via une diffusion auto-régressive en quelques étapes. Notre cadre se compose de trois éléments clés : (1) Un pipeline de production de données scalable pour les environnements Unreal Engine et GTA5, permettant de produire efficacement de grandes quantités (environ 1200 heures) de données vidéo avec des annotations d'interaction diverses ; (2) Un module d'injection d'actions qui permet des entrées de souris et de clavier au niveau de l'image comme conditions interactives ; (3) Une distillation en quelques étapes basée sur l'architecture causale pour la génération de vidéos en temps réel et en streaming. Matrix-Game 2.0 peut générer des vidéos de haute qualité de niveau minute dans des scènes diverses à une vitesse ultra-rapide de 25 FPS. Nous mettons à disposition en open-source les poids de notre modèle et la base de code pour faire avancer la recherche dans la modélisation interactive du monde.
Nous présentons AuriStream, un modèle inspiré de la biologie pour l'encodage de la parole via un cadre en deux étapes inspiré de la hiérarchie du traitement auditif humain. La première étape transforme l'audio brut en une représentation temps-fréquence basée sur la cochlée humaine, à partir de laquelle nous extrayons des tokens cochléaires discrets. La deuxième étape applique un modèle de séquence autorégressif sur ces tokens cochléaires. AuriStream apprend des représentations significatives de phonèmes et de mots, ainsi qu'une sémantique lexicale de pointe. AuriStream démontre des performances compétitives sur diverses tâches de parole SUPERB en aval. Complétant les fortes capacités représentationnelles d'AuriStream, il génère des continuations audio qui peuvent être visualisées dans un espace de spectrogramme et décodées en audio, offrant ainsi des insights sur les prédictions du modèle. En résumé, nous présentons un cadre en deux étapes pour l'apprentissage de représentations de la parole, visant à faire progresser le développement de modèles plus humains capables de gérer efficacement une gamme de tâches basées sur la parole.
Le relighting vidéo est une tâche complexe mais précieuse, visant à remplacer l'arrière-plan des vidéos tout en ajustant de manière harmonieuse l'éclairage du premier plan. Lors de la traduction, il est essentiel de préserver les propriétés originales du premier plan, comme l'albédo, et de propager un relighting cohérent entre les trames temporelles. Dans cet article, nous proposons Lumen, un framework de relighting vidéo de bout en bout développé sur des modèles génératifs vidéo à grande échelle, recevant des descriptions textuelles flexibles pour guider le contrôle de l'éclairage et de l'arrière-plan. Considérant la rareté de vidéos appariées de haute qualité avec le même premier plan dans diverses conditions d'éclairage, nous construisons un jeu de données à grande échelle mélangeant des vidéos réalistes et synthétiques. Pour le domaine synthétique, profitant de la richesse des actifs 3D disponibles, nous utilisons un moteur de rendu 3D avancé pour créer des paires de vidéos dans divers environnements. Pour le domaine réaliste, nous adaptons une simulation d'éclairage basée sur HDR pour pallier le manque de vidéos appariées en conditions réelles. Grâce à ce jeu de données, nous concevons un programme d'entraînement conjoint pour exploiter efficacement les forces de chaque domaine, à savoir la cohérence physique des vidéos synthétiques et la distribution généralisée du domaine des vidéos réalistes. Pour ce faire, nous injectons un adaptateur sensible au domaine dans le modèle pour découpler l'apprentissage du relighting et de la distribution d'apparence du domaine. Nous construisons un benchmark complet pour évaluer Lumen ainsi que les méthodes existantes, en termes de préservation du premier plan et d'évaluation de la cohérence vidéo. Les résultats expérimentaux montrent que Lumen modifie efficacement l'entrée en vidéos relightées cinématiques avec un éclairage cohérent et une préservation stricte du premier plan. Notre page de projet : https://lumen-relight.github.io/
Nous présentons G-CUT3R, une nouvelle approche feed-forward pour la reconstruction guidée de scènes 3D qui améliore le modèle CUT3R en intégrant des informations a priori. Contrairement aux méthodes feed-forward existantes qui reposent uniquement sur des images d'entrée, notre méthode exploite des données auxiliaires, telles que la profondeur, les calibrations de caméra ou les positions de caméra, couramment disponibles dans des scénarios réels. Nous proposons une modification légère de CUT3R, intégrant un encodeur dédié pour chaque modalité afin d'extraire des caractéristiques, qui sont fusionnées avec les tokens d'images RGB via une convolution nulle. Cette conception flexible permet une intégration transparente de toute combinaison d'informations a priori lors de l'inférence. Évaluée sur plusieurs benchmarks, incluant la reconstruction 3D et d'autres tâches multi-vues, notre approche démontre des améliorations significatives de performance, montrant sa capacité à exploiter efficacement les informations a priori disponibles tout en maintenant une compatibilité avec diverses modalités d'entrée.
Nous présentons les prompts visuels d'action, une représentation unifiée des actions pour la génération vidéo à partir d'actions impliquant des interactions complexes à haut degré de liberté (DoF), tout en maintenant des dynamiques visuelles transférables entre domaines. La génération vidéo pilotée par l'action est confrontée à un compromis entre précision et généralité : les méthodes existantes utilisant du texte, des actions primitives ou des masques grossiers offrent de la généralité mais manquent de précision, tandis que les signaux d'action centrés sur l'agent fournissent de la précision au détriment de la transférabilité inter-domaines. Pour équilibrer la précision de l'action et la transférabilité dynamique, nous proposons de "rendre" les actions en prompts visuels précis comme représentations agnostiques au domaine, préservant à la fois la précision géométrique et l'adaptabilité inter-domaines pour des actions complexes ; plus spécifiquement, nous choisissons les squelettes visuels pour leur généralité et accessibilité. Nous proposons des pipelines robustes pour construire des squelettes à partir de deux sources de données riches en interactions - les interactions humain-objet (HOI) et la manipulation robotique dextre - permettant un entraînement inter-domaines de modèles génératifs pilotés par l'action. En intégrant les squelettes visuels dans des modèles de génération vidéo pré-entraînés via un ajustement fin léger, nous permettons un contrôle précis des actions d'interaction complexe tout en préservant l'apprentissage des dynamiques inter-domaines. Les expériences sur EgoVid, RT-1 et DROID démontrent l'efficacité de notre approche proposée. Page du projet : https://zju3dv.github.io/VAP/.
Les approches traditionnelles d'apprentissage multimodal nécessitent un pré-entraînement coûteux d'alignement pour relier les modalités visuelles et linguistiques, projetant généralement les caractéristiques visuelles dans des espaces de tokens textuels discrets. Nous remettons en question les deux hypothèses fondamentales sous-jacentes à ce paradigme en proposant Inverse-LLaVA, une nouvelle approche qui élimine entièrement le pré-entraînement d'alignement tout en inversant la direction de projection conventionnelle. Plutôt que de projeter les caractéristiques visuelles dans l'espace textuel, notre méthode mappe les embeddings textuels dans un espace de représentation visuelle continue et effectue la fusion au sein des couches intermédiaires des transformeurs. Grâce à des composants additifs sélectifs dans les mécanismes d'attention, nous permettons une intégration dynamique des représentations visuelles et textuelles sans nécessiter de vastes ensembles de données d'alignement image-texte. Des expériences approfondies sur neuf benchmarks multimodaux démontrent des compromis de performance nuancés : Inverse-LLaVA obtient des améliorations notables sur les tâches intensives en raisonnement et cognitives (MM-VET : +0,2 %, VizWiz : +1,8 %, ScienceQA : +0,2 %, raisonnement cognitif : +27,2 %), tout en montrant des diminutions attendues dans les tâches de perception nécessitant des associations visuelles-textuelles mémorisées (reconnaissance de célébrités : -49,5 %, OCR : -21,3 %). Ces résultats fournissent la première preuve empirique que le pré-entraînement d'alignement n'est pas nécessaire pour un apprentissage multimodal efficace, en particulier pour les tâches de raisonnement complexes. Notre travail établit la faisabilité d'un nouveau paradigme qui réduit les exigences computationnelles de 45 %, remet en question les idées reçues sur la fusion des modalités et ouvre de nouvelles directions de recherche pour des architectures multimodales efficaces qui préservent les caractéristiques spécifiques à chaque modalité. Notre site web de projet avec le code et des ressources supplémentaires est disponible à l'adresse https://inverse-llava.github.io.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) s'est imposé comme un paradigme puissant pour améliorer les modèles de langage à grande échelle (LLMs), comme en témoigne le succès de la série o d'OpenAI. Dans le RLVR, les récompenses sont dérivées de signaux vérifiables, tels que la réussite de tests unitaires en génération de code ou la correspondance avec des réponses correctes en raisonnement mathématique. Bien qu'efficace, cette exigence confine largement le RLVR à des domaines où les résultats peuvent être vérifiés automatiquement. Pour surmonter cette limitation, nous étendons le paradigme RLVR à des tâches ouvertes en intégrant des récompenses basées sur des grilles d'évaluation, où des critères soigneusement conçus servent de références structurées et interprétables par le modèle pour le scoring automatique de productions subjectives. Nous avons construit, à notre connaissance, le plus grand système de récompenses basé sur des grilles d'évaluation à ce jour, avec plus de 10 000 grilles issues d'humains, de LLMs ou d'une collaboration hybride humain-LLM. La mise en œuvre du RL basé sur des grilles d'évaluation est complexe ; nous abordons ces défis avec un cadre clair et présentons un modèle open-source Qwen-30B-A3B avec des gains notables : 1) Avec seulement 5 000+ échantillons, notre système s'améliore de +5,2 % sur des benchmarks ouverts (en particulier en sciences humaines), surpassant un modèle DeepSeek-V3 de 671B de +2,4 %, tout en préservant les capacités générales et de raisonnement. 2) Notre méthode offre un contrôle stylistique granulaire, utilisant les grilles d'évaluation comme ancres pour atténuer le ton "artificiel" et produire des réponses plus humaines et expressives. Nous partageons des leçons clés sur la construction des grilles d'évaluation, la sélection des données et l'entraînement, et discutons des limitations et des futures versions.
Le Machine Unlearning (MU) vise à supprimer des données d'entraînement ciblées d'un modèle déjà entraîné, afin que ces données supprimées n'influencent plus le comportement du modèle, répondant ainsi aux obligations du "droit à l'oubli" prévues par les lois sur la protection des données. Cependant, nous observons que les chercheurs dans ce domaine en pleine émergence rencontrent des difficultés pour analyser et comprendre le comportement des différentes méthodes de MU, en particulier en ce qui concerne trois principes fondamentaux : la précision, l'efficacité et la confidentialité. Par conséquent, ils se reposent souvent sur des métriques agrégées et des évaluations ad hoc, ce qui rend difficile une évaluation précise des compromis entre les méthodes. Pour combler cette lacune, nous introduisons un système d'analyse visuelle, Unlearning Comparator, conçu pour faciliter l'évaluation systématique des méthodes de MU. Notre système prend en charge deux tâches importantes dans le processus d'évaluation : la comparaison de modèles et la simulation d'attaques. Premièrement, il permet à l'utilisateur de comparer les comportements de deux modèles, tels qu'un modèle généré par une méthode spécifique et un modèle de référence réentraîné, aux niveaux des classes, des instances et des couches, afin de mieux comprendre les changements opérés après le processus de MU. Deuxièmement, notre système simule des attaques par inférence d'appartenance (MIAs) pour évaluer la confidentialité d'une méthode, où un attaquant tente de déterminer si des échantillons de données spécifiques faisaient partie de l'ensemble d'entraînement original. Nous évaluons notre système à travers une étude de cas analysant visuellement des méthodes de MU notables, et démontrons qu'il aide l'utilisateur non seulement à comprendre les comportements des modèles, mais aussi à obtenir des insights pouvant guider l'amélioration des méthodes de MU.
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités remarquables de résolution de problèmes en mathématiques, telles qu'évaluées par les benchmarks existants exclusivement sur des problèmes bien définis. Cependant, une telle configuration d'évaluation constitue une lacune critique, car un véritable agent intelligent ne devrait pas seulement résoudre des problèmes (comme un solveur de quiz mathématiques), mais aussi être capable de demander des informations lorsque les problèmes manquent de détails suffisants, permettant ainsi une réponse proactive aux demandes des utilisateurs. Pour combler cette lacune, nous proposons un nouveau jeu de données composé de deux types de problèmes incomplets dans des contextes variés. Sur la base de ce jeu de données, notre évaluation systématique des LRMs révèle leur incapacité à demander des informations de manière proactive. De plus, nous mettons en lumière des comportements liés à la surréflexion et aux hallucinations des LRMs, et soulignons le potentiel et les défis du fine-tuning supervisé pour acquérir une telle capacité. Nous espérons apporter de nouvelles perspectives pour développer des LRMs dotés d'une intelligence authentique, plutôt que simplement capables de résoudre des problèmes.
Nous étudions dans quelle mesure les Modèles de Langage Multimodaux (MLLMs) peuvent identifier avec précision l'orientation des images d'entrée tournées à 0°, 90°, 180° et 270°. Cette tâche nécessite des capacités de raisonnement visuel robustes pour détecter les indices de rotation et contextualiser les relations spatiales au sein des images, quelle que soit leur orientation. Pour évaluer ces capacités chez les MLLMs, nous introduisons RotBench — un benchmark de 350 images soigneusement filtrées, comprenant des images de style de vie, des portraits et des paysages. Bien que cette tâche soit relativement simple, nous montrons que plusieurs MLLMs de pointe, ouverts et propriétaires, incluant GPT-5, o3 et Gemini-2.5-Pro, ne parviennent pas à identifier de manière fiable la rotation des images d'entrée. Fournir aux modèles des informations auxiliaires — telles que des légendes, des cartes de profondeur, etc. — ou utiliser l'incitation en chaîne de pensée n'apporte que des améliorations mineures et inconstantes. Nos résultats indiquent que la plupart des modèles sont capables d'identifier de manière fiable les images à l'endroit (0°), tandis que certains modèles parviennent à identifier les images à l'envers (180°). Aucun ne peut distinguer de manière fiable entre 90° et 270°. Montrer simultanément l'image tournée dans différentes orientations entraîne des gains de performance modérés pour les modèles de raisonnement, tandis qu'une configuration modifiée utilisant le vote améliore la performance des modèles plus faibles. Nous montrons en outre que le fine-tuning n'améliore pas la capacité des modèles à distinguer les rotations de 90° et 270°, malgré une amélioration substantielle dans l'identification des images à 180°. Ensemble, ces résultats révèlent un écart significatif entre les capacités de raisonnement spatial des MLLMs et la perception humaine dans l'identification de la rotation.