papers.description
Nous présentons Depth Anything 3 (DA3), un modèle qui prédit une géométrie spatialement cohérente à partir d'un nombre arbitraire d'entrées visuelles, avec ou sans poses de caméra connues. Dans une optique de modélisation minimale, DA3 apporte deux idées clés : un simple transformeur standard (par exemple, un encodeur DINO classique) suffit comme architecture de base sans spécialisation structurelle, et un objectif de prédiction unique basé sur des rayons de profondeur rend superflu un apprentissage multi-tâches complexe. Grâce à notre paradigme d'apprentissage par distillation (teacher-student), le modèle atteint un niveau de détail et de généralisation comparable à Depth Anything 2 (DA2). Nous établissons un nouveau benchmark de géométrie visuelle couvrant l'estimation de pose de caméra, la géométrie en vue arbitraire et le rendu visuel. Sur ce benchmark, DA3 établit un nouvel état de l'art sur toutes les tâches, surpassant l'ancien SOTA VGGT de 44,3 % en moyenne en précision de pose de caméra et de 25,1 % en précision géométrique. De plus, il surpasse DA2 en estimation de profondeur monoculaire. Tous les modèles sont entraînés exclusivement sur des ensembles de données académiques publics.
Un modèle du monde permet à un agent intelligent d'imaginer, de prédire et de raisonner sur l'évolution du monde en réponse à ses actions, et ainsi de planifier et de élaborer des stratégies. Si les modèles récents de génération vidéo produisent des séquences visuelles réalistes, ils fonctionnent généralement de manière prompt-à-vidéo complète sans contrôle causal, interactivité ou cohérence à long terme nécessaires pour un raisonnement intentionnel. Les travaux existants sur la modélisation du monde, quant à eux, se concentrent souvent sur des domaines restreints (par exemple, la dynamique physique, de jeu ou de scène 3D) avec une profondeur et une contrôlabilité limitées, et peinent à généraliser à travers divers environnements et formats d'interaction. Dans ce travail, nous présentons PAN, un modèle du monde général, interactif et à long horizon qui prédit les états futurs du monde grâce à une simulation vidéo de haute qualité conditionnée par l'historique et des actions en langage naturel. PAN emploie l'architecture de Prédiction Latente Générative (GLP) qui combine une structure de dynamique latente autorégressive basée sur un grand modèle de langage (LLM), qui ancre la simulation dans une vaste connaissance textuelle et permet le conditionnement par des actions spécifiées en langage, avec un décodeur à diffusion vidéo qui reconstruit des observations visuelles perceptuellement détaillées et temporellement cohérentes, afin d'atteindre une unification entre le raisonnement dans l'espace latent (imagination) et la dynamique réalisable du monde (réalité). Entraîné sur de vastes paires vidéo-action couvrant des domaines divers, PAN prend en charge une simulation en domaine ouvert, conditionnée par l'action, avec une dynamique cohérente et à long terme. Des expériences approfondies montrent que PAN obtient des performances solides en simulation du monde conditionnée par l'action, en prévision à long horizon et en raisonnement simulatif par rapport à d'autres générateurs vidéo et modèles du monde, faisant un pas vers des modèles généraux du monde qui permettent la simulation prédictive des états futurs du monde pour le raisonnement et l'action.
Les modèles de diffusion peinent à dépasser les résolutions de leur entraînement, car l'échantillonnage direct en haute résolution est lent et coûteux, tandis que la super-résolution d'image post-hoc (ISR) introduit des artefacts et une latence supplémentaire en opérant après le décodage. Nous présentons le Latent Upscaler Adapter (LUA), un module léger qui effectue la super-résolution directement sur le code latent du générateur avant l'étape finale de décodage VAE. LUA s'intègre comme un composant prêt à l'emploi, ne nécessitant aucune modification du modèle de base ni d'étapes de diffusion supplémentaires, et permet une synthèse en haute résolution via un seul passage en avant dans l'espace latent. Une architecture partagée de type Swin avec des têtes de réorganisation de pixels spécifiques à l'échelle prend en charge des facteurs de 2x et 4x et reste compatible avec les bases de référence de super-résolution dans l'espace image, atteignant une qualité perceptuelle comparable avec un temps de décodage et de suréchantillonnage presque 3 fois inférieur (ajoutant seulement +0,42 s pour une génération de 1024 px à partir de 512 px, contre 1,87 s pour la super-résolution dans l'espace pixel utilisant la même architecture SwinIR). De plus, LUA montre une forte généralisation à travers les espaces latents de différents VAE, facilitant son déploiement sans nécessiter de réentraînement à partir de zéro pour chaque nouveau décodeur. Des expériences approfondies démontrent que LUA correspond étroitement à la fidélité de la génération native en haute résolution tout en offrant une voie pratique et efficace pour une synthèse d'image scalable et de haute fidélité dans les pipelines de diffusion modernes.
La distillation en boîte noire crée des modèles de langage de grande taille (LLM) étudiants en apprenant uniquement à partir des sorties textuelles d'un modèle enseignant propriétaire, sans accès à ses logits internes ou paramètres. Dans ce travail, nous introduisons la Distillation Générative Adversaire (GAD), qui permet une distillation en boîte noire et sur la politique. GAD cadre le LLM étudiant comme un générateur et entraîne un discriminateur à distinguer ses réponses de celles du LLM enseignant, créant un jeu minimax. Le discriminateur agit comme un modèle de récompense sur la politique qui co-évolue avec l'étudiant, fournissant un retour d'information stable et adaptatif. Les résultats expérimentaux montrent que GAD surpasse constamment la distillation de connaissances au niveau séquentiel couramment utilisée. En particulier, Qwen2.5-14B-Instruct (étudiant) entraîné avec GAD devient comparable à son enseignant, GPT-5-Chat, sur l'évaluation automatique LMSYS-Chat. Ces résultats établissent GAD comme un paradigme prometteur et efficace pour la distillation de LLM en boîte noire.
Alors que les modèles d'IA spécialisés excellent dans des tâches vidéo isolées comme la génération ou la compréhension, les applications réelles exigent des workflows complexes et itératifs combinant ces capacités. Pour combler cette lacune, nous présentons UniVA, un framework multi-agent open-source et omni-capable pour les généralistes vidéo de nouvelle génération qui unifie la compréhension, la segmentation, l'édition et la génération vidéo en workflows cohérents. UniVA utilise une architecture bi-agent Planifier-et-Agir qui pilote un workflow hautement automatisé et proactif : un agent planificateur interprète les intentions utilisateur et les décompose en étapes structurées de traitement vidéo, tandis que des agents exécuteurs les mettent en œuvre via des serveurs d'outils modulaires basés sur MCP (pour l'analyse, la génération, l'édition, le suivi, etc.). Grâce à une mémoire hiérarchique multi-niveaux (connaissances globales, contexte de tâche et préférences utilisateur spécifiques), UniVA maintient un raisonnement de long terme, une continuité contextuelle et une communication inter-agents, permettant une création vidéo interactive et autoréflexive avec une traçabilité complète. Cette conception permet des workflows vidéo itératifs et conditionnables (par exemple, génération conditionnée par texte/image/vidéo → édition multi-tours → segmentation d'objets → synthèse compositionnelle) auparavant laborieux à réaliser avec des modèles mono-usages ou des modèles vidéo-langage monolithiques. Nous présentons également UniVA-Bench, une suite de référence de tâches vidéo multi-étapes couvrant la compréhension, l'édition, la segmentation et la génération, pour évaluer rigoureusement ces systèmes vidéo agentiques. UniVA et UniVA-Bench sont entièrement open-source, visant à catalyser la recherche sur l'intelligence vidéo interactive, agentique et généraliste pour la prochaine génération de systèmes IA multimodaux. (https://univa.online/)
L'Optimisation de Politique Relative au Groupe (GRPO) a démontré une grande utilité dans le post-entraînement des Grands Modèles de Langage (LLM). Dans GRPO, les invites sont traitées par le modèle et, via l'apprentissage par renforcement, les complétions préférées sont apprises. En raison du faible volume de communication, GRPO est intrinsèquement adapté à l'entraînement décentralisé, car les invites peuvent être traitées simultanément par plusieurs nœuds puis échangées sous forme de chaînes de caractères. Dans ce travail, nous présentons la première attaque antagoniste dans un cadre GRPO décentralisé. Nous démontrons que des parties malveillantes peuvent empoisonner de tels systèmes en injectant des jetons malveillants arbitraires dans des modèles bénins, via des attaques hors-contexte et en contexte. En utilisant des exemples empiriques de tâches mathématiques et de programmation, nous montrons que les attaques adverses peuvent facilement corrompre les nœuds bénins, polluant leur post-entraînement local de LLM, avec des taux de réussite d'attaque atteignant 100 % en seulement 50 itérations. Nous proposons deux méthodes de défense contre ces attaques, selon que tous les utilisateurs entraînent le même modèle ou des modèles différents. Nous montrons que ces défenses peuvent atteindre des taux d'arrêt allant jusqu'à 100 %, rendant l'attaque impossible.
Les LLM ont réalisé des avancées remarquables en matière de raisonnement, de perspicacité et d'utilisation d'outils, mais l'enchaînement de ces capacités en processus étendus, à l'échelle de ceux exécutés couramment par les humains, les organisations et les sociétés, est resté hors de portée. Les modèles présentent un taux d'erreur persistant qui empêche leur passage à l'échelle : par exemple, des expériences récentes dans le domaine de référence des Tours de Hanoï ont montré que le processus finit inévitablement par dérailler après au maximum quelques centaines d'étapes. Ainsi, bien que la recherche sur les LLM soit encore souvent évaluée sur des tâches comportant relativement peu d'étapes logiques dépendantes, l'attention se porte de plus en plus sur la capacité (ou l'incapacité) des LLM à réaliser des tâches à long terme. Cet article décrit MAKER, le premier système qui résout avec succès une tâche nécessitant plus d'un million d'étapes de LLM sans aucune erreur, et qui, en principe, peut être mis à l'échelle bien au-delà de ce niveau. L'approche repose sur une décomposition extrême d'une tâche en sous-tâches, chacune pouvant être traitée par des micro-agents spécialisés. Le haut niveau de modularité résultant de la décomposition permet d'appliquer une correction d'erreur à chaque étape via un schéma de vote multi-agents efficace. Cette combinaison de décomposition extrême et de correction d'erreur rend possible la mise à l'échelle. Ainsi, les résultats suggèrent qu'au lieu de compter sur l'amélioration continue des LLM actuels, les processus agentiels massivement décomposés (MDAP) pourraient offrir un moyen de résoudre efficacement des problèmes à l'échelle des organisations et des sociétés.
Les modèles de langage à grande échelle ont réalisé des progrès significatifs dans la résolution de problèmes complexes mais faciles à vérifier, mais ils peinent encore à découvrir l'inconnu. Dans cet article, nous présentons AlphaResearch, un agent de recherche autonome conçu pour découvrir de nouveaux algorithmes sur des problèmes ouverts. Pour synergiser la faisabilité et l'innovation du processus de découverte, nous construisons un environnement de recherche dual novateur en combinant la vérification par exécution et un environnement simulé d'évaluation par les pairs réaliste. AlphaResearch découvre de nouveaux algorithmes en exécutant itérativement les étapes suivantes : (1) proposer de nouvelles idées, (2) vérifier les idées dans l'environnement de recherche dual, (3) optimiser les propositions de recherche pour de meilleures performances. Pour promouvoir un processus d'évaluation transparent, nous construisons AlphaResearchComp, un nouveau benchmark d'évaluation comprenant une compétition de huit problèmes algorithmiques ouverts, chaque problème étant soigneusement conçu et vérifié via des pipelines exécutables, des métriques objectives et des vérifications de reproductibilité. AlphaResearch obtient un taux de réussite de 2/8 dans une comparaison directe avec des chercheurs humains, démontrant la possibilité d'accélérer la découverte d'algorithmes avec les LLMs. Notamment, l'algorithme découvert par AlphaResearch sur le problème de « l'emballage de cercles » atteint les meilleures performances connues, surpassant les résultats des chercheurs humains et les solides références de travaux récents (par exemple, AlphaEvolve). De plus, nous menons une analyse complète des défis restants dans les 6/8 cas d'échec, fournissant des perspectives précieuses pour les recherches futures.
Les grands modèles de langage (LLM) sont de plus en plus entraînés avec des techniques d'optimisation classiques comme AdamW pour améliorer la convergence et la généralisation. Cependant, les mécanismes par lesquels les méthodes d'inspiration quantique améliorent l'entraînement classique restent sous-étudiés. Nous présentons la descente de gradient par superposition (SGD), un nouvel optimiseur reliant les mises à jour du gradient à la superposition quantique via l'injection de perturbations de circuits quantiques. Nous proposons un cadre mathématique et implémentons des circuits hybrides quantique-classiques dans PyTorch et Qiskit. Sur des tâches de classification de séquences synthétiques et de fine-tuning à grande échelle de LLM, SGD converge plus rapidement et produit une perte finale inférieure à AdamW. Malgré des résultats prometteurs, l'extensibilité et les contraintes matérielles limitent son adoption. Globalement, ce travail offre de nouvelles perspectives sur l'intersection entre l'informatique quantique et l'apprentissage profond, suggérant des voies pratiques pour exploiter les principes quantiques afin de contrôler et d'améliorer le comportement des modèles.
Nous présentons Music Flamingo, un nouveau grand modèle audio-langage conçu pour faire progresser la compréhension musicale (y compris des chansons) dans les modèles audio fondamentaux. Si la recherche audio-langage a progressé rapidement, la musique reste un défi en raison de sa nature dynamique, multicouche et riche en informations. Les progrès ont été en outre limités par la difficulté de mettre à l'échelle des modèles ouverts de compréhension audio, principalement en raison de la rareté des données musicales et des annotations de haute qualité. En conséquence, les modèles antérieurs se limitent à produire de brèves descriptions de haut niveau, à répondre uniquement à des questions superficielles et présentent une généralisation limitée à travers les diverses cultures musicales. Pour relever ces défis, nous constituons MF-Skills, un jeu de données à grande échelle annoté via un pipeline multi-étapes qui génère des descriptions riches et des paires question-réponse couvrant l'harmonie, la structure, le timbre, les paroles et le contexte culturel. Nous affinons une architecture Audio Flamingo 3 améliorée sur MF-Skills et renforçons davantage de multiples compétences pertinentes pour la compréhension musicale. Pour améliorer les capacités de raisonnement du modèle, nous introduisons une méthode de post-entraînement : nous commençons d'abord par un démarrage à froid avec MF-Think, un nouveau jeu de données de raisonnement en chaîne fondé sur la théorie musicale, suivi d'un apprentissage par renforcement basé sur GRPO avec des récompenses personnalisées. Music Flamingo obtient des résultats state-of-the-art sur plus de 10 benchmarks pour la compréhension et le raisonnement musicaux, s'établissant comme un modèle audio-langage généraliste et musicalement intelligent. Au-delà de solides résultats empiriques, Music Flamingo établit une nouvelle norme pour la compréhension musicale avancée en démontrant comment les modèles peuvent passer d'une reconnaissance superficielle à une perception multicouche et humaine des chansons. Nous pensons que ce travail fournit à la fois un point de référence et une base pour que la communauté puisse construire la prochaine génération de modèles qui interagissent avec la musique de manière aussi significative que les humains.
La Recherche Approfondie (DR) est une application agent émergente qui exploite les grands modèles de langage (LLM) pour traiter des requêtes ouvertes. Elle nécessite l'intégration de plusieurs capacités, notamment le raisonnement multi-étape, la synthèse interdocumentaire et la génération de réponses longues étayées par des preuves. L'évaluation de la DR reste difficile car les réponses sont longues et diverses, admettent de nombreuses solutions valides et dépendent souvent de sources d'information dynamiques. Nous présentons ResearchRubrics, un benchmark standardisé pour la DR, construit avec plus de 2 800 heures de travail humain, qui associe des instructions réalistes et variées sur le plan domainial à plus de 2 500 grilles d'évaluation détaillées rédigées par des experts pour évaluer le fondement factuel, la solidité du raisonnement et la clarté. Nous proposons également un nouveau cadre de complexité pour catégoriser les tâches de DR selon trois axes : l'ampleur conceptuelle, l'imbrication logique et l'exploration. De plus, nous développons des protocoles d'évaluation humaine et basée sur des modèles qui mesurent l'adhésion aux grilles d'évaluation pour les agents de DR. Nous évaluons plusieurs systèmes de DR à la pointe et constatons que même les agents leaders comme Gemini DR et OpenAI DR atteignent moins de 68 % de conformité moyenne avec nos grilles, principalement en raison d'un contexte implicite manqué et d'un raisonnement inadéquat sur les informations récupérées. Nos résultats soulignent la nécessité d'une évaluation robuste et évolutive des capacités de recherche approfondie. À cette fin, nous publions ResearchRubrics (incluant toutes les instructions, grilles d'évaluation et code d'évaluation) pour faciliter les progrès vers des assistants de recherche bien justifiés.
Les modèles d'édition d'images basés sur des instructions ont récemment atteint des performances impressionnantes, permettant des modifications complexes d'une image d'entrée à partir d'une instruction multi-étapes. Cependant, ces modèles appliquent chaque instruction de la commande avec une intensité fixe, limitant la capacité de l'utilisateur à contrôler avec précision et continuellement l'intensité des modifications individuelles. Nous présentons SliderEdit, un cadre pour l'édition d'images continue avec un contrôle d'instruction interprétable et à granularité fine. Étant donnée une instruction d'édition en plusieurs parties, SliderEdit désentremêle les instructions individuelles et expose chacune d'elles sous forme d'un curseur entraîné globalement, permettant un ajustement fluide de son intensité. Contrairement aux travaux antérieurs qui ont introduit des contrôles d'attributs par curseur dans la génération d'images à partir de texte, nécessitant généralement un entraînement ou un ajustement fin séparé pour chaque attribut ou concept, notre méthode apprend un unique ensemble de matrices d'adaptation de faible rang qui généralise à travers diverses modifications, attributs et instructions compositionnelles. Cela permet une interpolation continue le long des dimensions de modification individuelles tout en préservant à la fois la localisation spatiale et la cohérence sémantique globale. Nous appliquons SliderEdit aux modèles d'édition d'images de pointe, incluant FLUX-Kontext et Qwen-Image-Edit, et observons des améliorations substantielles en termes de contrôlabilité des modifications, de cohérence visuelle et de capacité de guidage par l'utilisateur. À notre connaissance, nous sommes les premiers à explorer et proposer un cadre pour le contrôle continu et à granularité fine des instructions dans les modèles d'édition d'images basés sur des instructions. Nos résultats ouvrent la voie à une manipulation d'image interactive et pilotée par instructions avec un contrôle continu et compositionnel.
Une collaboration efficace entre les humains et les agents dans des environnements physiques nécessite de comprendre non seulement sur quoi agir, mais aussi où se trouvent les éléments actionnables et comment interagir avec eux. Les approches existantes opèrent souvent au niveau des objets ou traitent de manière disjointe le raisonnement sur les affordances fines, manquant d'un ancrage et d'un raisonnement cohérents guidés par les instructions. Dans ce travail, nous introduisons une nouvelle tâche : le Raisonnement Incarné 3D à Granularité Fine, qui requiert qu'un agent prédise, pour chaque élément d'affordance référencé dans une scène 3D, un triplet structuré comprenant sa localisation spatiale, son type de mouvement et son axe de mouvement, sur la base d'une instruction de tâche. Pour résoudre cette tâche, nous proposons AffordBot, une nouvelle architecture qui intègre des Modèles de Langage Multimodaux de Grande Taille (MLLMs) avec un paradigme de raisonnement en chaîne de pensée (CoT) spécifiquement adapté. Pour combler le fossé entre l'entrée 3D et les MLLMs compatibles 2D, nous rendons des images en vue surround de la scène et projetons les candidats d'éléments 3D dans ces vues, formant une représentation visuelle riche alignée sur la géométrie de la scène. Notre pipeline CoT commence par une étape de perception active, incitant le MLLM à sélectionner le point de vue le plus informatif en fonction de l'instruction, avant de procéder à un raisonnement étape par étape pour localiser les éléments d'affordance et inférer les mouvements d'interaction plausibles. Évalué sur le jeu de données SceneFun3D, AffordBot atteint des performances de pointe, démontrant une forte généralisation et un raisonnement physiquement ancré avec seulement des nuages de points 3D en entrée et des MLLMs.
Les récents progrès des grands modèles de langage (LLM) ont conduit à des performances impressionnantes sur une série de tâches, mais la capacité à suivre des instructions avancées (IF) – en particulier pour des instructions complexes, multi-tours et intégrant des *prompts* système – reste un défi majeur. L'évaluation rigoureuse et l'entraînement efficace de ces capacités sont entravés par le manque de benchmarks de haute qualité, annotés par des humains, et de signaux de récompense fiables et interprétables. Dans ce travail, nous présentons AdvancedIF (nous publierons ce benchmark prochainement), un benchmark complet comprenant plus de 1 600 *prompts* et des grilles d'évaluation expertes qui évaluent la capacité des LLM à suivre des instructions complexes, multi-tours et de niveau système. Nous proposons en outre RIFL (*Rubric-based Instruction-Following Learning*), un nouveau pipeline de post-entraînement qui exploite la génération de grilles d'évaluation, un vérificateur de grilles *finetuné* et un *reward shaping* pour permettre un apprentissage par renforcement efficace du suivi d'instructions. Des expériences approfondies démontrent que RIFL améliore substantiellement les capacités de suivi d'instructions des LLM, obtenant un gain absolu de 6,7 % sur AdvancedIF et des résultats solides sur des benchmarks publics. Nos études d'ablation confirment l'efficacité de chaque composant de RIFL. Ce travail établit les grilles d'évaluation comme un outil puissant à la fois pour l'entraînement et l'évaluation du suivi d'instructions avancé dans les LLM, ouvrant la voie à des systèmes d'IA plus performants et plus fiables.
Malgré les progrès réalisés en matière de qualité de génération, les modèles actuels de texte-à-image (T2I) manquent souvent de diversité, produisant des résultats homogènes. Ce travail introduit un cadre pour répondre au besoin d'une évaluation robuste de la diversité dans les modèles T2I. Notre cadre évalue systématiquement la diversité en examinant des concepts individuels et leurs facteurs de variation pertinents. Les contributions principales incluent : (1) un nouveau modèle d'évaluation humaine pour une analyse nuancée de la diversité ; (2) un ensemble de prompts soigneusement sélectionnés couvrant des concepts variés avec leurs facteurs de variation identifiés (ex. prompt : Une image d'une pomme, facteur de variation : couleur) ; et (3) une méthodologie pour comparer les modèles via des tests binomiaux basés sur des annotations humaines. De plus, nous comparons rigoureusement différents plongements (*embeddings*) d'images pour la mesure de la diversité. Notre approche méthodique permet notamment de classer les modèles T2I par leur diversité et d'identifier les catégories pour lesquelles ils présentent des difficultés particulières. Cette recherche propose une méthodologie robuste et des insights précieux, ouvrant la voie à des améliorations dans la diversité des modèles T2I et au développement de métriques associées.
La capacité de critique est essentielle pour permettre aux modèles de s'auto-améliorer et de servir d'assistants IA fiables. Bien que largement étudiée dans des contextes unimodaux (langage seul), la critique multimodale des Grands Modèles Multimodaux (LMM) reste peu explorée malgré leurs capacités croissantes dans des tâches comme la légende d'images ou le raisonnement visuel. Dans ce travail, nous présentons MM-CRITIC, un benchmark holistique pour évaluer la capacité de critique des LMM selon plusieurs dimensions : basique, corrective et comparative. Couvrant 8 types principaux de tâches et plus de 500 exercices, MM-CRITIC collecte les réponses de divers LMM de différentes tailles et est composé de 4471 échantillons. Pour renforcer la fiabilité de l'évaluation, nous intégrons des réponses de référence éclairées par des experts dans des grilles d'évaluation qui guident GPT-4o pour annoter les réponses et générer des critiques de référence, servant d'ancres pour un jugement fiable. Des expériences approfondies valident l'efficacité de MM-CRITIC et fournissent une évaluation complète des capacités de critique des LMM leaders sous multiples dimensions. Une analyse plus poussée révèle des insights clés, incluant la corrélation entre la qualité des réponses et la critique, et la difficulté variable de la critique selon les dimensions d'évaluation. Notre code est disponible à l'adresse https://github.com/MichealZeng0420/MM-Critic.
Les sentiments exprimés dans la littérature secondaire concernant la reproductibilité des articles cités offrent des perspectives communautaires et se sont révélés être un indicateur prometteur de la reproductibilité réelle des résultats publiés. Pour entraîner des modèles efficaces à prédire ces sentiments axés sur la reproductibilité et étudier systématiquement leur corrélation avec celle-ci, nous présentons le jeu de données CC30k, comprenant 30 734 contextes de citation issus d'articles d'apprentissage automatique. Chaque contexte de citation est annoté avec l'un des trois sentiments liés à la reproductibilité : Positif, Négatif ou Neutre, reflétant la reproductibilité ou la réplicabilité perçue de l'article cité. Parmi ceux-ci, 25 829 sont annotés via du crowdsourcing, complétés par des exemples négatifs générés par un pipeline contrôlé pour pallier la rareté des annotations négatives. Contrairement aux jeux de données d'analyse de sentiments traditionnels, CC30k se concentre sur les sentiments liés à la reproductibilité, comblant un manque de ressources pour les études computationnelles sur la reproductibilité. Le jeu de données a été créé via un pipeline incluant un nettoyage robuste des données, une sélection rigoureuse des annotateurs et une validation approfondie. Le jeu de données résultant atteint une précision d'annotation de 94 %. Nous avons ensuite démontré que les performances de trois grands modèles de langage s'améliorent significativement pour la classification des sentiments axés sur la reproductibilité après un affinage utilisant notre jeu de données. Ce dernier jette les bases d'évaluations à grande échelle de la reproductibilité des articles en apprentissage automatique. Le jeu de données CC30k et les notebooks Jupyter utilisés pour le produire et l'analyser sont disponibles publiquement à l'adresse https://github.com/lamps-lab/CC30k.
Les méthodes de classification (AC) et de segmentation (AS) d'anomalies en mode zero-shot visent à identifier et délimiter les défauts sans utiliser aucun échantillon étiqueté. Dans cet article, nous mettons en évidence une propriété cruciale négligée par les méthodes existantes : les patches d'images normales provenant de produits industriels trouvent généralement de nombreux autres patches similaires, non seulement en apparence 2D mais aussi en formes 3D, tandis que les anomalies restent diverses et isolées. Pour exploiter explicitement cette propriété discriminante, nous proposons un cadre de notation mutuelle (MuSc-V2) pour l'AC/AS zero-shot, qui prend flexiblement en charge les données unimodales 2D/3D ou multimodales. Concrètement, notre méthode commence par améliorer la représentation 3D via un regroupement itératif de points (IPG), réduisant les faux positifs causés par les surfaces discontinues. Ensuite, nous utilisons une agrégation de voisinage par similarité à degrés multiples (SNAMD) pour fusionner les indices de voisinage 2D/3D en caractéristiques de patches multi-échelles plus discriminantes, en vue d'une notation mutuelle. Le cœur du système comprend un mécanisme de notation mutuelle (MSM) permettant aux échantillons de chaque modalité de s'attribuer mutuellement des scores, et un renforcement d'anomalies cross-modales (CAE) qui fusionne les scores 2D et 3D pour retrouver les anomalies manquantes spécifiques à chaque modalité. Enfin, une re-notation avec voisinage contraint (RsCon) supprime les fausses classifications basées sur la similarité avec des échantillons plus représentatifs. Notre cadre fonctionne flexiblement autant sur le jeu de données complet que sur des sous-ensembles plus restreints avec une performance robuste et constante, garantissant une adaptabilité transparente across différentes lignes de produits. Grâce à cette nouvelle architecture, MuSc-V2 réalise des améliorations significatives : un gain de +23,7% en AP sur le jeu de données MVTec 3D-AD et une augmentation de +19,3% sur le jeu de données Eyecandies, surpassant les benchmarks zero-shot précédents et devançant même la plupart des méthodes few-shot. Le code sera disponible à l'adresse https://github.com/HUST-SLOW/MuSc-V2.