papers.description
Nous présentons Segment Anything Model (SAM) 3, un modèle unifié qui détecte, segmente et suit des objets dans des images et des vidéos sur la base d'invites conceptuelles, que nous définissons comme de courtes phrases nominales (par exemple, "bus scolaire jaune"), des exemples d'images ou une combinaison des deux. La Segmentation par Concepts Invitables (PCS) prend de telles invites et renvoie des masques de segmentation et des identifiants uniques pour toutes les instances d'objets correspondantes. Pour faire progresser la PCS, nous avons construit un moteur de données évolutif qui produit un jeu de données de haute qualité avec 4 millions d'étiquettes de concepts uniques, incluant des négatifs difficiles, sur des images et des vidéos. Notre modèle se compose d'un détecteur au niveau de l'image et d'un suiveur vidéo à mémoire qui partagent une seule architecture de base. La reconnaissance et la localisation sont découplées grâce à une tête de présence, ce qui améliore la précision de la détection. SAM 3 double la précision des systèmes existants pour la PCS en image et en vidéo, et améliore les capacités précédentes de SAM sur les tâches de segmentation visuelle. Nous rendons SAM 3 open source ainsi que notre nouveau benchmark Segment Anything with Concepts (SA-Co) pour la segmentation par concepts invitables.
Les recherches actuelles sur le raisonnement visuel agentique permettent une compréhension multimodale approfondie, mais se concentrent principalement sur les outils de manipulation d'images, laissant un vide vers des modèles agentiques plus polyvalents. Dans ce travail, nous revisitons la tâche de géolocalisation, qui nécessite non seulement un ancrage visuel nuancé mais aussi une recherche web pour confirmer ou affiner les hypothèses durant le raisonnement. Étant donné que les benchmarks existants en géolocalisation ne répondent pas aux besoins en imagerie haute résolution et au défi de localisation pour un raisonnement agentique approfondi, nous constituons GeoBench, un benchmark incluant des photos et panoramas du monde entier, ainsi qu'un sous-ensemble d'images satellites de différentes villes pour évaluer rigoureusement la capacité de géolocalisation des modèles agentiques. Nous proposons également GeoVista, un modèle agentique qui intègre de manière transparente l'invocation d'outils dans la boucle de raisonnement, incluant un outil de zoom sur image pour agrandir les régions d'intérêt et un outil de recherche web pour récupérer des informations web connexes. Nous développons une pipeline d'entraînement complète pour celui-ci, comprenant une étape de fine-tuning supervisé (SFT) à froid pour apprendre les schémas de raisonnement et les connaissances préalables sur l'utilisation des outils, suivie d'une étape d'apprentissage par renforcement (RL) pour améliorer davantage la capacité de raisonnement. Nous adoptons une récompense hiérarchique pour tirer parti des informations géographiques multi-niveaux et améliorer les performances globales de géolocalisation. Les résultats expérimentaux montrent que GeoVista surpasse largement les autres modèles agentiques open-source sur la tâche de géolocalisation et atteint des performances comparables aux modèles propriétaires tels que Gemini-2.5-flash et GPT-5 sur la plupart des métriques.
La dimension intrinsèque (DI) constitue un outil essentiel dans l'analyse moderne des LLM, éclairant les études sur la dynamique d'entraînement, les lois d'échelle et la structure des jeux de données, mais ses déterminants textuels demeurent sous-explorés. Nous présentons la première étude complète ancrant la DI dans des propriétés textuelles interprétables via une analyse par encodeurs croisés, des caractéristiques linguistiques et des autoencodeurs épars (SAE). Dans ce travail, nous établissons trois résultats clés. Premièrement, la DI est complémentaire aux métriques basées sur l'entropie : après contrôle de la longueur, les deux sont non corrélées, la DI captant une complexité géométrique orthogonale à la qualité prédictive. Deuxièmement, la DI présente une stratification robuste par genre : la prose scientifique montre une DI faible (~8), le contenu encyclopédique une DI moyenne (~9) et l'écriture créative/opinion une DI élevée (~10,5) sur tous les modèles testés. Cela révèle que les LLM contemporains trouvent le texte scientifique "simple sur le plan représentationnel" tandis que la fiction nécessite des degrés de liberté supplémentaires. Troisièmement, en utilisant les SAE, nous identifions des caractéristiques causales : les signaux scientifiques (ton formel, modèles de rapport, statistiques) réduisent la DI ; les signaux d'humanisation (personnalisation, émotion, récit) l'augmentent. Des expériences de pilotage confirment que ces effets sont causaux. Ainsi, pour les modèles contemporains, l'écriture scientifique semble relativement "facile", tandis que la fiction, l'opinion et l'affect ajoutent des degrés de liberté représentationnels. Notre analyse multidimensionnelle fournit des conseils pratiques pour l'utilisation appropriée de la DI et l'interprétation rigoureuse des résultats basés sur la DI.
Les avancées récentes dans les modèles de raisonnement à grande échelle ont suscité un intérêt croissant pour l'extension de ces capacités aux domaines multimodaux. Cependant, malgré des progrès notables dans le raisonnement visuel, le manque de stratégies transparentes et reproductibles pour la curation des données et l'entraînement reste un obstacle majeur à la recherche évolutive. Dans ce travail, nous présentons OpenMMReasoner, une méthode entièrement transparente en deux étapes pour le raisonnement multimodal, couvrant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Dans l'étape SFT, nous construisons un ensemble de données de démarrage à froid de 874 000 échantillons avec une validation rigoureuse étape par étape, fournissant une base solide pour les capacités de raisonnement. L'étape RL suivante exploite un ensemble de données de 74 000 échantillons couvrant divers domaines pour affiner et stabiliser davantage ces capacités, aboutissant à un processus d'apprentissage plus robuste et efficace. Des évaluations approfondies démontrent que notre méthode d'entraînement dépasse non seulement des bases de référence solides, mais met également en lumière le rôle crucial de la qualité des données et de la conception de l'entraînement dans la performance du raisonnement multimodal. Notamment, notre méthode obtient une amélioration de 11,6 % par rapport à la base de référence Qwen2.5-VL-7B-Instruct sur neuf benchmarks de raisonnement multimodal, établissant une base empirique solide pour les futures recherches à grande échelle sur le raisonnement multimodal. Nous avons rendu publics tous nos codes, pipelines et données sur https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Nous présentons RynnVLA-002, un modèle unifié Vision-Langage-Action (VLA) et modèle du monde. Le modèle du monde exploite les entrées d'action et visuelles pour prédire les états image futurs, apprenant la physique sous-jacente de l'environnement afin d'affiner la génération d'actions. Inversement, le modèle VLA produit les actions suivantes à partir des observations images, améliorant la compréhension visuelle et soutenant la génération d'images du modèle du monde. Le cadre unifié de RynnVLA-002 permet un apprentissage conjoint de la dynamique environnementale et de la planification d'actions. Nos expériences montrent que RynnVLA-002 surpasse les modèles VLA et modèles du monde individuels, démontrant leur amélioration mutuelle. Nous évaluons RynnVLA-002 dans des tâches robotiques en simulation et dans le monde réel. RynnVLA-002 atteint un taux de réussite de 97,4 % sur le benchmark de simulation LIBERO sans pré-entraînement, tandis que dans les expériences réelles LeRobot, son modèle du monde intégré augmente le taux de réussite global de 50 %.
Les progrès récents des agents pilotés par des LLM ont démontré un potentiel significatif pour générer des réponses semblables à celles d'un humain ; cependant, ils continuent de rencontrer des difficultés à maintenir des interactions à long terme dans des environnements complexes, principalement en raison de limitations dans la cohérence contextuelle et la personnalisation dynamique. Les systèmes de mémoire existants reposent souvent sur un regroupement sémantique avant la récupération, ce qui peut négliger des informations utilisateur critiques bien que sémantiquement non pertinentes et introduire du bruit lors de la récupération. Dans ce rapport, nous proposons la conception initiale d'O-Mem, un nouveau cadre de mémoire basé sur le profilage actif de l'utilisateur, qui extrait et met à jour dynamiquement les caractéristiques des utilisateurs et les enregistrements d'événements à partir de leurs interactions proactives avec les agents. O-Mem prend en charge une récupération hiérarchique des attributs de persona et du contexte lié aux sujets, permettant des réponses personnalisées plus adaptatives et cohérentes. O-Mem atteint 51,67 % sur le benchmark public LoCoMo, une amélioration de près de 3 % par rapport à LangMem, l'état de l'art précédent, et il atteint 62,99 % sur PERSONAMEM, une amélioration de 3,5 % par rapport à A-Mem, l'état de l'art précédent. O-Mem améliore également l'efficacité du temps de réponse par token et par interaction par rapport aux cadres de mémoire précédents. Notre travail ouvre des perspectives prometteuses pour le développement futur d'assistants IA personnalisés efficaces et humanoïdes.
Comprendre les vidéos riches en texte nécessite de lire de petits indices textuels transitoires qui exigent souvent une inspection répétée. Pourtant, la plupart des modèles de question-réponse (QA) vidéo reposent sur une perception unique sur des images fixes, conduisant à des hallucinations et des échecs sur des preuves fines. Inspiré par la façon dont les humains font pause, zooment et relisent les régions critiques, nous présentons Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination), un LMM de raisonnement vidéo qui effectue une rumination visuelle : il sélectionne itérativement des images, zoome sur les régions informatives, réencode les pixels récupérés et met à jour son état de raisonnement. Nous construisons deux jeux de données avec des trajectoires de rumination exécutables : Video-R4-CoT-17k pour l'apprentissage supervisé et Video-R4-RL-30k pour l'apprentissage par renforcement. Nous proposons un cadre d'apprentissage par rumination multi-étapes qui affine progressivement un LMM de 7B pour apprendre des opérations visuelles atomiques et de mélange via SFT et un RL basé sur GRPO. Video-R4-7B obtient des résultats state-of-the-art sur M4-ViteVQA et se généralise en outre au QA de documents multi-pages, au QA de diapositives et au QA vidéo générique, démontrant que la rumination itérative est un paradigme efficace pour le raisonnement multimodal ancré sur les pixels.
Nous présentons WorldGen, un système permettant la création automatique de mondes 3D interactifs à grande échelle directement à partir d'invites textuelles. Notre approche transforme des descriptions en langage naturel en environnements traversables et entièrement texturés qui peuvent être immédiatement explorés ou modifiés dans des moteurs de jeu standard. En combinant un raisonnement sur la disposition des scènes piloté par LLM, la génération procédurale, la génération 3D basée sur des modèles de diffusion et une décomposition de scène prenant en compte les objets, WorldGen comble le fossé entre l'intention créative et les espaces virtuels fonctionnels, permettant aux créateurs de concevoir des mondes cohérents et navigables sans modélisation manuelle ni expertise 3D spécialisée. Le système est entièrement modulaire et permet un contrôle granulaire sur la disposition, l'échelle et le style, produisant des mondes géométriquement cohérents, visuellement riches et efficaces pour le rendu en temps réel. Ce travail représente une avancée vers une création générative de mondes accessible à grande échelle, repoussant les frontières de l'IA générative 3D pour des applications dans le jeu vidéo, la simulation et les environnements sociaux immersifs.
Cette étude présente PARROT (Persuasion and Agreement Robustness Rating of Output Truth), un cadre axé sur la robustesse conçu pour mesurer la dégradation de la précision qui survient sous l'effet d'une pression sociale exercée sur les utilisateurs via l'autorité et la persuasion dans les grands modèles de langage (LLM), un phénomène connu sous le nom de sycophantie (conformité excessive). PARROT (i) isole les effets de causalité en comparant la version neutre d'une même question avec une version fausse mais présentée avec autorité, en utilisant une évaluation en double aveugle, (ii) quantifie les changements de confiance vers les réponses correctes et les fausses réponses imposées en utilisant un suivi de calibration basé sur la vraisemblance logarithmique, et (iii) classe systématiquement les modes de défaillance (par exemple, correct robuste, accord sycophantique, erreur renforcée, erreur obstinée, autocorrection, etc.) à l'aide d'une taxonomie comportementale à huit états. Nous avons évalué 22 modèles en utilisant 1 302 questions à choix multiples de type MMLU couvrant 13 domaines et des modèles d'autorité spécifiques à chaque domaine. Les résultats montrent une hétérogénéité marquée : les modèles avancés (par exemple, GPT-5, GPT-4.1, Claude Sonnet 4.5) affichent de faibles « taux d'acquiescement » (≤ 11 %, GPT-5 : 4 %) et une perte de précision minime, tandis que les modèles plus anciens ou plus petits montrent un effondrement épistémique sévère (GPT-4 : 80 %, Qwen 2.5-1.5B : 94 %). Le danger ne se limite pas aux changements de réponse ; les modèles faibles réduisent la confiance dans la réponse correcte tout en augmentant la confiance dans la réponse incorrecte imposée. Alors que le droit international et les connaissances globales au niveau du domaine présentent une fragilité élevée, les mathématiques élémentaires sont relativement résilientes. Par conséquent, nous soutenons que l'objectif de « résistance à la pression de conformité excessive » devrait être traité comme un objectif primordial, au même titre que la précision, l'évitement des préjudices et la confidentialité, pour un déploiement sécurisé dans le monde réel.
Les tutoriels de peinture étape par étape sont essentiels pour l'apprentissage des techniques artistiques, mais les ressources vidéo existantes (par exemple, YouTube) manquent d'interactivité et de personnalisation. Bien que les modèles génératifs récents aient fait progresser la synthèse d'images artistiques, ils peinent à généraliser entre les médias et présentent souvent des incohérences temporelles ou structurelles, entravant la reproduction fidèle des processus créatifs humains. Pour y remédier, nous proposons un cadre unifié pour la génération de processus de peinture multi-médias avec un mécanisme de contrôle de style sémantique qui intègre plusieurs médias dans l'espace conditionnel des modèles de diffusion et utilise une augmentation de style inter-médias. Cela permet une évolution cohérente des textures et un transfert de processus entre les styles. Une stratégie d'entraînement par peinture inverse assure en outre une génération fluide et alignée sur l'humain. Nous constituons également un vaste ensemble de données de processus de peinture réels et évaluons la cohérence inter-médias, la cohérence temporelle et la fidélité de l'image finale, obtenant des résultats solides sur les métriques LPIPS, DINO et CLIP. Enfin, notre courbe de Profil de Distance Perceptive (PDP) modélise quantitativement la séquence créative, c'est-à-dire la composition, la mise en couleur et l'affinement des détails, reflétant la progression artistique humaine.
Malgré le succès remarquable des modèles vision-langage (VLM), leurs performances sur une série de tâches visuelles complexes sont souvent limitées par un « goulot d'étranglement du traitement visuel » : une propension à perdre l'ancrage dans les preuves visuelles et à manifester un déficit d'expérience visuelle contextualisée lors de générations prolongées. En s'inspirant de la théorie cognitive de la mémoire humaine, qui distingue la mémoire à court terme à dominance visuelle et la mémoire à long terme à dominance sémantique, nous proposons VisMem, un framework aligné sur la cognition qui équipe les VLM de mémoires visuelles latentes dynamiques, comprenant un module à court terme pour la rétention perceptive fine et un module à long terme pour la consolidation sémantique abstraite. Ces mémoires sont invoquées de manière transparente lors de l'inférence, permettant aux VLM de maintenir à la fois la fidélité perceptive et la cohérence sémantique durant la réflexion et la génération. Des expériences approfondies sur divers benchmarks visuels pour la compréhension, le raisonnement et la génération montrent que VisMem procure une amélioration significative des performances moyenne de 11,8 % par rapport au modèle standard et surpasse toutes les approches concurrentes, établissant un nouveau paradigme pour l'amélioration de la mémoire dans l'espace latent. Le code sera disponible à l'adresse : https://github.com/YU-deep/VisMem.git.
Les récents progrès des modèles Vision-Langage-Action (VLA) démontrent que les signaux visuels peuvent efficacement compléter des supervisions d'actions éparses. Cependant, faire prédire directement à un VLA des états visuels de haute dimension peut disperser la capacité du modèle et entraîner un coût d'entraînement prohibitif, tandis que la compression des états visuels en signaux de supervision plus compacts entraîne inévitablement des goulots d'étranglement informationnels. De plus, les méthodes existantes souffrent souvent de faibles capacités de compréhension et de raisonnement en raison de la négligence de la supervision par le langage. Cet article présente Mantis, un nouveau cadre doté d'une Prévision Visuelle Désentrelacée (Disentangled Visual Foresight - DVF) pour résoudre ces problèmes. Plus précisément, Mantis découple la prédiction de la prévision visuelle du modèle principal en combinant des requêtes méta et une tête de Transformer à diffusion (DiT). En fournissant l'état visuel actuel à la DiT via une connexion résiduelle, un simple objectif de prédiction de l'état suivant permet aux requêtes méta de capturer automatiquement les actions latentes qui délimitent la trajectoire visuelle, et ainsi d'améliorer l'apprentissage des actions explicites. Le désentrelacement réduit la charge du modèle VLA principal, lui permettant de maintenir ses capacités de compréhension et de raisonnement grâce à la supervision linguistique. Empiriquement, après un pré-entraînement sur des vidéos de manipulations humaines, des démonstrations robotiques et des paires image-texte, Mantis atteint un taux de réussite de 96,7 % sur le benchmark LIBERO après un fine-tuning, surpassant des bases de référence puissantes tout en affichant une vitesse de convergence élevée. Les évaluations en conditions réelles montrent que Mantis surpasse π_{0.5}, un modèle VLA open-source de premier plan, particulièrement en termes de capacité à suivre des instructions, de généralisation à des instructions non vues et de capacité de raisonnement. Le code et les poids sont publiés pour soutenir la communauté open-source.
Nous abordons la tâche d'édition d'images multi-vues à partir de vues d'entrée éparses, où les entrées peuvent être considérées comme un mélange d'images capturant la scène sous différents angles de vue. L'objectif est de modifier la scène selon une instruction textuelle tout en préservant la cohérence entre toutes les vues. Les méthodes existantes, basées sur des champs neuronaux par scène ou des mécanismes d'attention temporelle, peinent dans ce contexte, produisant souvent des artefacts et des modifications incohérentes. Nous proposons InstructMix2Mix (I-Mix2Mix), un cadre qui distille les capacités d'édition d'un modèle de diffusion 2D dans un modèle de diffusion multi-vues préentraîné, en exploitant son aperçu 3D basé sur les données pour assurer la cohérence inter-vues. Une contribution clé est le remplacement du consolidateur par champ neuronal conventionnel dans le Score Distillation Sampling (SDS) par un étudiant de diffusion multi-vues, ce qui nécessite des adaptations novatrices : des mises à jour incrémentielles de l'étudiant sur les pas de temps, un planificateur de bruit spécialisé pour l'enseignant afin d'éviter la dégénérescence, et une modification de l'attention qui améliore la cohérence inter-vues sans coût supplémentaire. Les expériences démontrent qu'I-Mix2Mix améliore significativement la cohérence multi-vues tout en maintenant une qualité d'édition par image élevée.
Le passage à l'échelle des modèles multimodaux a permis des progrès remarquables dans la compréhension et le raisonnement visuels, mais les exigences pratiques nécessitent des systèmes plus petits et efficaces. Dans ce travail, nous menons une analyse méthodique de la réduction d'échelle de l'intelligence dans les modèles multimodaux, en examinant comment une capacité réduite du grand modèle de langage (LLM) affecte les capacités multimodales. Nos premières observations révèlent une tendance intéressante : la réduction d'échelle du LLM affecte de manière disproportionnée les capacités visuelles, plutôt que les capacités héritées du LLM. Nous examinons ensuite si cette baisse reflète principalement le déclin attendu du raisonnement visuel ou une perte plus fondamentale des capacités perceptives. En isolant l'effet de la réduction d'échelle du LLM sur la perception, nous constatons que les performances chutent toujours brutalement, égalant ou dépassant souvent l'impact sur le raisonnement. Pour résoudre ce goulot d'étranglement, nous introduisons le réglage par extraction visuelle, qui forme explicitement le modèle à extraire les détails visuels pertinents pour l'instruction de manière cohérente entre les tâches. Avec ces détails visuels extraits, nous appliquons ensuite un raisonnement étape par étape pour générer les réponses. Ensemble, ces composants forment notre approche Extraire+Raisonner, établissant une nouvelle référence en matière d'efficacité et de performances dans ce domaine.
La modélisation des séquences génomiques se heurte à deux défis non résolus : la densité informationnelle varie considérablement selon les régions, tandis qu'aucune unité de vocabulaire minimale n'est clairement définie. En s'appuyant soit sur les quatre bases primitives, soit sur des tokeniseurs d'ADN conçus indépendamment, les approches existantes utilisant un pré-entraînement naïf par modélisation de langage masqué échouent souvent à s'adapter aux complexités variables des séquences génomiques. Tirant parti des techniques de fusion de tokens, cet article présente une architecture hiérarchique qui optimise conjointement un tokeniseur génomique dynamique et des Transformers latents grâce à des tâches de pré-entraînement sensibles au contexte. Concernant les structures réseau, le module de tokenisation segmente automatiquement les bases adjacentes en mots par empilement de multiples couches de blocs de fusion de tokens différentiables avec contraintes de fenêtre locale, puis un Encodeur Latent capture le contexte global de ces mots fusionnés via des blocs à attention complète. En employant symétriquement un Décodeur Latent et un Décodeur Local, MergeDNA s'entraîne avec deux tâches de pré-entraînement : la Reconstruction de Tokens Fusionnés forme simultanément le module de tokenisation dynamique et filtre adaptativement les tokens importants, tandis que la Modélisation Adaptative de Tokens Masqués apprend à prédire ces tokens filtrés pour capturer les contenus informatifs. Des expériences approfondies montrent que MergeDNA obtient des performances supérieures sur trois benchmarks d'ADN populaires et plusieurs tâches multi-omiques avec évaluation fine-tuning ou zero-shot, surpassant les méthodes de tokenisation typiques et les modèles fondationnels d'ADN à grande échelle.
Les modèles vision-langage-action (VLA) montrent un potentiel pour les tâches robotiques générales, mais restent difficiles à maîtriser pour la manipulation spatio-temporellement cohérente, qui nécessite des représentations à granularité fine. Typiquement, les méthodes existantes intègrent des positions 3D dans les représentations visuelles pour améliorer la précision spatiale des actions. Cependant, ces méthodes peinent à obtenir un contrôle temporellement cohérent de l'exécution des actions. Dans ce travail, nous proposons VLA-4D, un modèle VLA général doté d'une conscience 4D pour la manipulation robotique spatio-temporellement cohérente. Notre modèle est guidé par deux conceptions clés : 1) Une représentation visuelle consciente de la 4D. Nous extrayons les caractéristiques visuelles, intégrons le temps 1D dans les positions 3D pour obtenir des plongements 4D, et les fusionnons en une représentation visuelle unifiée via un mécanisme d'attention croisée. 2) Une représentation d'action spatio-temporelle. Nous étendons les représentations d'action spatiales conventionnelles avec des informations temporelles pour permettre la planification spatio-temporelle, et alignons les représentations multimodales dans le LLM pour la prédiction d'actions spatio-temporelles. Au sein de ce cadre unifié, les représentations visuelles et d'action conçues permettent conjointement une manipulation robotique spatialement fluide et temporellement cohérente. De plus, nous étendons l'ensemble de données VLA avec des annotations d'action temporelles pour le réglage fin de notre modèle. Des expériences approfondies ont été menées pour vérifier la supériorité de notre méthode dans différentes tâches de manipulation robotique.
L'évaluation par les pairs est une pierre angulaire de la publication scientifique, y compris dans les grandes conférences en apprentissage automatique telles que l'ICLR. Alors que le volume des soumissions augmente, comprendre la nature et la dynamique du processus d'évaluation est crucial pour en améliorer l'efficacité, l'efficience et la qualité des articles publiés. Nous présentons une analyse à grande échelle des processus d'évaluation par les pairs des ICLR 2024 et 2025, en nous concentrant sur les scores avant et après la rébutation ainsi que sur les interactions auteur-évaluateur. Nous examinons les scores des évaluations, l'engagement auteur-évaluateur, les tendances temporelles dans la soumission des évaluations et les effets d'influence entre co-évaluateurs. En combinant des analyses quantitatives avec une catégorisation par LLM des textes d'évaluation et des discussions de rébutation, nous identifions les forces et faiblesses communes pour chaque groupe de score, ainsi que les tendances dans les stratégies de rébutation les plus fortement associées aux changements de score. Nos résultats montrent que les scores initiaux et les notations des co-évaluateurs sont les prédicteurs les plus forts des changements de score pendant la rébutation, indiquant un certain degré d'influence entre évaluateurs. Les rébutations jouent un rôle précieux pour améliorer les résultats des articles borderline, où des réponses d'auteur réfléchies peuvent modifier sensiblement les perspectives des évaluateurs. Plus largement, notre étude offre des insights fondés sur des données pour améliorer le processus d'évaluation par les pairs, en guidant les auteurs sur les stratégies de rébutation efficaces et en aidant la communauté à concevoir des processus d'évaluation plus équitables et efficaces. Notre code et les données sur les changements de score sont disponibles à l'adresse https://github.com/papercopilot/iclr-insights.
Avec le développement rapide des modèles de langage de grande taille (LLM), les agents IA ont démontré une compétence croissante dans les tâches scientifiques, allant de la génération d'hypothèses et la conception expérimentale à la rédaction de manuscrits. Ces systèmes d'agents sont communément appelés « Scientifiques IA ». Cependant, les Scientifiques IA existants formulent principalement la découverte scientifique comme un problème de recherche ou d'optimisation autonome, négligeant le fait que la recherche scientifique est intrinsèquement une entreprise sociale et collaborative. La science du monde réel repose sur une infrastructure scientifique complexe composée de mécanismes collaboratifs, d'attribution des contributions, d'évaluation par les pairs et de réseaux structurés de connaissances scientifiques. En raison de l'absence de modélisation de ces dimensions critiques, les systèmes actuels peinent à établir un écosystème de recherche authentique ou à interagir profondément avec la communauté scientifique humaine. Pour combler cette lacune, nous présentons OmniScientist, un cadre qui encode explicitement les mécanismes sous-jacents de la recherche humaine dans le flux de travail scientifique de l'IA. OmniScientist réalise non seulement une automatisation de bout en bout couvrant la fondation des données, la revue de la littérature, l'idéation de la recherche, l'automatisation des expériences, la rédaction scientifique et l'évaluation par les pairs, mais fournit également un support infrastructurel complet en simulant le système scientifique humain, comprenant : (1) un système de connaissances structuré construit sur des réseaux de citations et des corrélations conceptuelles ; (2) un protocole de recherche collaborative (OSP), qui permet une collaboration multi-agents transparente et la participation de chercheurs humains ; et (3) une plateforme d'évaluation ouverte (ScienceArena) basée sur un vote utilisateur par paires en aveugle et des classements Elo. Cette infrastructure permet aux agents non seulement de comprendre et d'exploiter les systèmes de connaissances humains, mais aussi de collaborer et de co-évoluer, favorisant ainsi un écosystème d'innovation durable et évolutif.
Les modèles autoregressifs visuels (VAR) ont récemment suscité une attention considérable pour leur paradigme innovant de prédiction à l'échelle suivante, offrant des avantages notables en efficacité d'inférence et en qualité d'image par rapport aux modèles autoregressifs multi-étapes (AR) et aux modèles de diffusion traditionnels. Cependant, malgré leur efficacité, les modèles VAR souffrent souvent d'un effondrement de la diversité, c'est-à-dire une réduction de la variabilité des sorties, analogue à celle observée dans les modèles de diffusion distilés en peu d'étapes. Dans cet article, nous présentons DiverseVAR, une approche simple mais efficace qui restaure la diversité générative des modèles VAR sans nécessiter d'entraînement supplémentaire. Notre analyse révèle que la composante pivotale de la carte de caractéristiques est un facteur clé gouvernant la formation de la diversité aux échelles précoces. En supprimant la composante pivotale dans l'entrée du modèle et en l'amplifiant dans sa sortie, DiverseVAR déverrouille efficacement le potentiel génératif inhérent des modèles VAR tout en préservant une synthèse de haute fidélité. Les résultats empiriques démontrent que notre approche améliore substantiellement la diversité générative avec des influences négligeables sur les performances. Notre code sera publiquement disponible sur https://github.com/wangtong627/DiverseVAR.
La détection d'objets interdits nécessite l'entraînement de modèles sur un grand nombre d'images de sécurité par rayons X, mais la collecte et l'annotation de ces images s'avèrent longues et fastidieuses. Pour pallier l'insuffisance des données, les méthodes de synthèse d'images de sécurité par rayons X combinent des images afin d'augmenter la taille des jeux de données. Cependant, les approches antérieures suivent principalement un pipeline en deux étapes : elles mettent en œuvre une extraction fastidieuse des objets au premier plan dans la première étape, puis composent les images dans la seconde. Un tel pipeline introduit un coût de main-d'œuvre supplémentaire inévitable et manque d'efficacité. Dans cet article, nous proposons un pipeline de synthèse d'images de sécurité par rayons X en une seule étape (Xsyn) basé sur la génération d'images à partir de texte, qui intègre deux stratégies efficaces pour améliorer la convivialité des images synthétiques. La stratégie de Raffinement par Attention Croisée (CAR) exploite la carte d'attention croisée du modèle de diffusion pour affiner l'annotation des boîtes englobantes. La stratégie de Modélisation de l'Occlusion de l'Arrière-plan (BOM) modélise explicitement l'occlusion de l'arrière-plan dans l'espace latent pour accroître la complexité de l'imagerie. À notre connaissance, comparée aux méthodes précédentes, Xsyn est la première à réaliser une synthèse d'images de sécurité par rayons X de haute qualité sans coût de main-d'œuvre supplémentaire. Les expériences démontrent que notre méthode surpasse toutes les approches antérieures avec une amélioration de 1,2% de l'mAP, et que les images synthétiques générées par notre méthode contribuent à améliorer les performances de détection d'objets interdits sur divers jeux de données et détecteurs de sécurité par rayons X. Le code est disponible à l'adresse https://github.com/pILLOW-1/Xsyn/.
Les approches récentes de génération vidéo reposent de plus en plus sur la planification de signaux de contrôle intermédiaires, tels que les trajectoires d'objets, pour améliorer la cohérence temporelle et la fidélité du mouvement. Cependant, ces méthodes utilisent principalement des plans uniques généralement limités à des mouvements simples, ou un raffinement itératif qui nécessite de multiples appels au générateur vidéo, entraînant un coût computationnel élevé. Pour surmonter ces limitations, nous proposons SketchVerify, un cadre de planification basé sur la vérification d'esquisses, sans apprentissage, qui améliore la qualité de la planification du mouvement avec des trajectoires plus dynamiquement cohérentes (c'est-à-dire des mouvements physiquement plausibles et conformes à l'instruction) avant la génération complète de la vidéo, en introduisant une boucle d'échantillonnage et de vérification au moment du test. Étant donné une instruction et une image de référence, notre méthode prédit plusieurs plans de mouvement candidats et les classe à l'aide d'un vérificateur visio-linguistique qui évalue conjointement l'alignement sémantique avec l'instruction et la plausibilité physique. Pour évaluer efficacement les plans de mouvement candidats, nous rendons chaque trajectoire sous forme d'esquisse vidéo légère en compositant des objets sur un arrière-plan statique, ce qui évite le besoin d'une synthèse basée sur la diffusion, coûteuse et répétée, tout en obtenant des performances comparables. Nous affinons itérativement le plan de mouvement jusqu'à ce qu'un plan satisfaisant soit identifié, lequel est ensuite transmis au générateur conditionné par la trajectoire pour la synthèse finale. Les expériences sur WorldModelBench et PhyWorldBench démontrent que notre méthode améliore significativement la qualité du mouvement, le réalisme physique et la cohérence à long terme par rapport aux bases de référence compétitives, tout en étant substantiellement plus efficace. Notre étude d'ablation montre en outre qu'augmenter le nombre de trajectoires candidates améliore constamment les performances globales.
L'utilisation abusive croissante des modèles vision-langage (VLM) a conduit les fournisseurs à déployer diverses mesures de protection, incluant l'alignement par fine-tuning, les prompts système et la modération de contenu. Cependant, la robustesse réelle de ces défenses face aux attaques adverses reste peu explorée. Nous présentons Multi-Faceted Attack (MFA), un cadre qui expose systématiquement les vulnérabilités générales de sécurité dans les VLM de pointe équipés de défenses, tels que GPT-4o, Gemini-Pro et Llama-4. Le composant central de MFA est l'Attaque par Transfert d'Attention (ATA), qui dissimule des instructions nuisibles dans une méta-tâche avec des objectifs concurrents. Nous fournissons une perspective théorique basée sur le détournement de récompense pour expliquer pourquoi cette attaque réussit. Pour améliorer la transférabilité inter-modèles, nous introduisons en outre un algorithme léger d'amélioration du transfert combiné à une simple stratégie de répération qui contourne conjointement les filtres au niveau de l'entrée et de la sortie sans fine-tuning spécifique au modèle. Empiriquement, nous montrons que les images adverses optimisées pour un encodeur visuel se transfèrent largement à des VLM non vus, indiquant que les représentations visuelles partagées créent une vulnérabilité de sécurité transmodèle. Globalement, MFA atteint un taux de réussite de 58,5 % et surpasse constamment les méthodes existantes. Sur les modèles commerciaux les plus avancés, MFA atteint un taux de réussite de 52,8 %, dépassant la deuxième meilleure attaque de 34 %. Ces résultats remettent en cause la robustesse perçue des mécanismes de défense actuels et mettent en lumière des faiblesses de sécurité persistantes dans les VLM modernes. Code : https://github.com/cure-lab/MultiFacetedAttack
Nous présentons la première étude de pré-entraînement à grande échelle de modèles Mixture-of-Experts (MoE) sur du matériel AMD pur, en utilisant des GPU MI300X avec l'interconnexion Pollara. Nous en tirons des recommandations pratiques pour la conception des systèmes et des modèles. Sur le plan des systèmes, nous fournissons une caractérisation complète du cluster et du réseau : des micro-benchmarks pour tous les collectifs de base (all-reduce, reduce-scatter, all-gather, broadcast) pour différentes tailles de messages et nombres de GPU sur Pollara. À notre connaissance, c'est une première à cette échelle. Nous fournissons également des micro-benchmarks MI300X sur le dimensionnement des kernels et la bande passante mémoire pour éclairer la conception des modèles. Sur le plan de la modélisation, nous introduisons et appliquons des règles de dimensionnement de transformers adaptées au MI300X pour les blocs d'attention et MLP, et justifions des largeurs de MoE qui optimisent conjointement le débit d'entraînement et la latence d'inférence. Nous décrivons en détail notre stack d'entraînement, incluant des utilitaires souvent négligés comme la tolérance aux pannes et le remodelage des points de contrôle, ainsi que des informations détaillées sur notre recette d'entraînement. Nous fournissons également un aperçu de notre architecture de modèle et du modèle de base - ZAYA1 (760M paramètres actifs, 8,3B paramètres totaux en MoE) - qui sera amélioré dans de prochains articles. ZAYA1-base atteint des performances comparables aux principaux modèles de base tels que Qwen3-4B et Gemma3-12B à son échelle et au-delà, et surpasse des modèles incluant Llama-3-8B et OLMoE sur des benchmarks de raisonnement, de mathématiques et de codage. Ensemble, ces résultats démontrent que le matériel AMD, le réseau et la pile logicielle sont suffisamment matures et optimisés pour un pré-entraînement à grande échelle compétitif.
Les cartes de saillance sont largement utilisées pour les explications visuelles en apprentissage profond, mais un manque fondamental de consensus persiste concernant leur objectif et leur adéquation aux diverses requêtes des utilisateurs. Cette ambiguïté entrave l'évaluation efficace et l'utilité pratique des méthodes d'explication. Nous comblons cette lacune en introduisant la taxonomie RFxG (Reference-Frame times Granularity), un cadre conceptuel fondé qui organise les explications par saillance selon deux axes essentiels : - **Cadre de référence** : Distingue les explications ponctuelles ("Pourquoi cette prédiction ?") des explications contrastives ("Pourquoi ceci et non une alternative ?"). - **Granularité** : S'étend des interprétations fines au niveau de la classe (ex. "Pourquoi Husky ?") aux interprétations grossières au niveau du groupe (ex. "Pourquoi Chien ?"). En utilisant le prisme RFxG, nous mettons en évidence des limitations critiques des métriques d'évaluation existantes, qui privilégient massivement la fidélité ponctuelle tout en négligeant le raisonnement contrastif et la granularité sémantique. Pour évaluer systématiquement la qualité des explications selon les deux dimensions RFxG, nous proposons quatre nouvelles métriques de fidélité. Notre cadre d'évaluation complet applique ces métriques à dix méthodes de saillance de pointe, quatre architectures de modèle et trois jeux de données. En préconisant une transition vers une évaluation axée sur l'intention de l'utilisateur, notre travail fournit à la fois les fondements conceptuels et les outils pratiques nécessaires pour développer des explications visuelles qui sont non seulement fidèles au comportement du modèle sous-jacent, mais aussi alignées de manière significative sur la complexité de la compréhension et de l'interrogation humaines.