Articles de recherche IA sélectionnés quotidiennement avec traductions
L'attention sparse-linéaire (SLA) combine les mécanismes d'attention sparse et linéaire pour accélérer les modèles de diffusion et a démontré des performances solides en génération vidéo. Cependant, (i) SLA repose sur une division heuristique qui affecte les calculs à la branche sparse ou linéaire en fonction de l'amplitude des poids d'attention, ce qui peut être sous-optimal. De plus, (ii) après une analyse formelle de l'erreur d'attention dans SLA, nous identifions une inadéquation entre SLA et une décomposition directe en attention sparse et linéaire. Nous proposons SLA², qui introduit (I) un routeur apprenable qui sélectionne dynamiquement si chaque calcul d'attention doit utiliser l'attention sparse ou linéaire, (II) une formulation sparse-linéaire plus fidèle et directe utilisant un ratio apprenable pour combiner les branches d'attention sparse et linéaire, et (III) une conception d'attention sparse + basse précision, où l'attention basse précision est introduite via un fine-tuning sensible à la quantification pour réduire l'erreur de quantification. Les expériences montrent que sur les modèles de diffusion vidéo, SLA² peut atteindre 97 % de sparsité d'attention et offrir une accélération de l'attention de 18,6× tout en préservant la qualité de génération.
Les performances des agents autonomes d'interface graphique web dépendent fortement de la qualité et de la quantité de leurs données d'entraînement. Cependant, une limitation fondamentale persiste : la collecte de trajectoires d'interaction à partir de sites web réels est coûteuse et difficile à vérifier. Les transitions d'état sous-jacentes étant cachées, cela conduit à une dépendance envers des vérificateurs externes, inconstants et coûteux, pour évaluer la justesse au niveau de chaque étape. Pour résoudre ce problème, nous proposons AutoWebWorld, un nouveau cadre de synthèse d'environnements web contrôlables et vérifiables en les modélisant comme des Machines à États Finis (MEF) et en utilisant des agents de codage pour traduire les MEF en sites web interactifs. Contrairement aux sites web réels où les transitions d'état sont implicites, AutoWebWorld définit explicitement tous les états, actions et règles de transition. Cela permet une vérification programmatique : la justesse d'une action est vérifiée par rapport à des règles prédéfinies, et la réussite d'une tâche est confirmée par l'atteinte d'un état but dans le graphe de la MEF. AutoWebWorld permet un pipeline entièrement automatisé de recherche et de vérification, générant plus de 11 663 trajectoires vérifiées à partir de 29 environnements web diversifiés pour un coût de seulement 0,04 $ par trajectoire. L'entraînement sur ces données synthétiques améliore significativement les performances dans le monde réel. Notre agent Web GUI de 7B surpasse toutes les bases de référence en moins de 15 étapes sur WebVoyager. De plus, nous observons une loi d'échelle claire : à mesure que le volume de données synthétiques augmente, les performances sur WebVoyager et Online-Mind2Web s'améliorent constamment.
Malgré les progrès rapides des modèles de fondation multimodaux, la communauté de l'intelligence incarnée manque encore d'un modèle de fondation unifié et physiquement ancré qui intègre la perception, le raisonnement et la planification dans la dynamique spatio-temporelle du monde réel. Nous présentons RynnBrain, un modèle de fondation spatio-temporel open-source pour l'intelligence incarnée. RynnBrain renforce quatre capacités fondamentales dans un cadre unifié : une compréhension égocentrique complète, une localisation spatio-temporelle diversifiée, un raisonnement physiquement ancré et une planification consciente de la physique. La famille RynnBrain comprend trois échelles de modèles de fondation (2B, 8B et 30B-A3B MoE) et quatre variantes post-entraînées adaptées aux tâches incarnées en aval (c'est-à-dire RynnBrain-Nav, RynnBrain-Plan et RynnBrain-VLA) ou aux tâches de raisonnement spatial complexe (c'est-à-dire RynnBrain-CoP). En termes d'évaluations approfondies sur 20 benchmarks d'intelligence incarnée et 8 benchmarks généraux de compréhension visuelle, nos modèles de fondation RynnBrain surpassent largement les modèles de fondation incarnés existants avec une marge significative. La suite de modèles post-entraînés confirme en outre deux potentiels clés du modèle de fondation RynnBrain : (i) permettre un raisonnement et une planification physiquement ancrés, et (ii) servir de backbone pré-entraîné solide pouvant être adapté efficacement à diverses tâches incarnées.
La Conception Assistée par Ordinateur (CAO) permet une modélisation rapide et modifiable pour l'ingénierie et la fabrication. Les récents progrès en IA rendent désormais possible l'automatisation complète de diverses tâches de CAO. Cependant, cette progression est freinée par les données : les corpus publics contiennent principalement des séquences d'esquisse-extrusion, manquent d'opérations complexes, de composition multi-opérations et d'intention de conception, ce qui entrave un réglage fin efficace. Les tentatives de contournement utilisant des modèles de vision et langage (VLM) figés produisent souvent des programmes simples ou non valides en raison de la compréhension limitée des modèles de fondation actuels pour la 3D. Nous présentons CADEvolve, un pipeline et un jeu de données basés sur l'évolution qui, partant de primitives simples et via des modifications et validations guidées par VLM, fait croître progressivement les programmes de CAO vers une complexité de niveau industriel. Le résultat est 8 000 pièces complexes exprimées sous forme de générateurs paramétriques exécutables CadQuery. Après un post-traitement et une augmentation en plusieurs étapes, nous obtenons un jeu de données unifié de 1,3 million de scripts associés à une géométrie rendue et utilisant l'ensemble complet des opérations CadQuery. Un VLM affiné sur CADEvolve obtient des résultats de pointe sur la tâche Image2CAD à travers les benchmarks DeepCAD, Fusion 360 et MCB.
La loco-manipulation visuelle d'objets arbitraires en environnement non contrôlé avec des robots humanoïdes nécessite un contrôle précis de l'effecteur terminal (ET) et une compréhension généralisable de la scène via des entrées visuelles (par exemple, des images RV-D). Les approches existantes, basées sur l'apprentissage par imitation dans le monde réel, présentent une généralisation limitée en raison de la difficulté à collecter des jeux de données d'entraînement à grande échelle. Cet article présente un nouveau paradigme, HERO, pour la loco-manipulation d'objets avec des robots humanoïdes, qui combine la forte généralisation et la compréhension open-vocabulary des grands modèles visuels avec les performances de contrôle robustes issues de l'entraînement en simulation. Nous y parvenons en concevant une politique de suivi de l'ET précise et sensible aux résidus. Cette politique de suivi combine la robotique classique et l'apprentissage automatique. Elle utilise a) la cinématique inverse pour convertir les cibles résiduelles de l'effecteur terminal en trajectoires de référence, b) un modèle direct neuronal appris pour une cinématique directe précise, c) un ajustement du but, et d) une replanification. Ensemble, ces innovations nous aident à réduire l'erreur de suivi de l'effecteur terminal par un facteur de 3,2. Nous utilisons ce suivi précis de l'effecteur terminal pour construire un système modulaire de loco-manipulation, où nous exploitons les grands modèles visuels open-vocabulary pour une forte généralisation visuelle. Notre système est capable de fonctionner dans divers environnements réels, des bureaux aux cafés, où le robot peut manipuler de manière fiable divers objets du quotidien (par exemple, des tasses, des pommes, des jouets) sur des surfaces dont la hauteur varie de 43 cm à 92 cm. Des tests systématiques modulaires et de bout en bout, en simulation et dans le monde réel, démontrent l'efficacité de notre conception proposée. Nous pensons que les avancées présentées dans cet article peuvent ouvrir de nouvelles voies pour entraîner les robots humanoïdes à interagir avec des objets quotidiens.
La réalisation d'une coopération entre des agents égoïstes demeure un défi fondamental en apprentissage par renforcement multi-agent. Des travaux récents ont montré qu'une coopération mutuelle peut être induite entre des agents « conscients de l'apprentissage » qui prennent en compte et façonnent la dynamique d'apprentissage de leurs co-joueurs. Cependant, les approches existantes reposent généralement sur des hypothèses prédéfinies, souvent inconsistantes, concernant les règles d'apprentissage des co-joueurs, ou imposent une séparation stricte entre les « apprenants naïfs » qui se mettent à jour sur des échelles de temps rapides et les « méta-apprenants » qui observent ces mises à jour. Nous démontrons ici que les capacités d'apprentissage en contexte des modèles séquentiels permettent une prise de conscience de l'apprentissage du co-joueur sans nécessiter d'hypothèses prédéfinies ou de séparation explicite des échelles de temps. Nous montrons qu'entraîner des modèles séquentiels contre une distribution diverse de co-joueurs induit naturellement des stratégies de meilleure réponse en contexte, fonctionnant efficacement comme des algorithmes d'apprentissage sur l'échelle de temps rapide intra-épisode. Nous constatons que le mécanisme coopératif identifié dans les travaux antérieurs – où la vulnérabilité à l'extorsion conduit à un façonnage mutuel – émerge naturellement dans ce cadre : l'adaptation en contexte rend les agents vulnérables à l'extorsion, et la pression mutuelle qui en résulte pour façonner la dynamique d'apprentissage en contexte du adversaire se résout en l'apprentissage d'un comportement coopératif. Nos résultats suggèrent que l'apprentissage par renforcement décentralisé standard sur des modèles séquentiels, combiné à une diversité de co-joueurs, offre une voie évolutive pour l'apprentissage de comportements coopératifs.
Nous présentons le Massive Audio Embedding Benchmark (MAEB), un benchmark à grande échelle couvrant 30 tâches dans les domaines de la parole, de la musique, des sons environnementaux et du raisonnement audio-texte multimodal, dans plus de 100 langues. Nous évaluons plus de 50 modèles et constatons qu'aucun modèle unique ne domine l'ensemble des tâches : les modèles contrastifs audio-texte excellent en classification des sons environnementaux (par exemple, ESC50) mais obtiennent des scores proches du hasard sur les tâches de parole multilingue (par exemple, SIB-FLEURS), tandis que les modèles pré-entraînés sur la parole montrent le schéma inverse. Le clustering reste difficile pour tous les modèles, le meilleur modèle n'atteignant que des résultats modestes. Nous observons que les modèles performants en compréhension acoustique obtiennent souvent de mauvais résultats sur les tâches linguistiques, et vice versa. Nous montrons également que les performances des encodeurs audio sur MAEB sont fortement corrélées avec leurs performances lorsqu'ils sont utilisés dans les grands modèles linguistiques audio. MAEB est dérivé de MAEB+, une collection de 98 tâches. MAEB est conçu pour maintenir la diversité des tâches tout en réduisant les coûts d'évaluation, et il s'intègre à l'écosystème MTEB pour une évaluation unifiée des modalités texte, image et audio. Nous publions MAEB et l'ensemble des 98 tâches, ainsi que le code et un classement, à l'adresse https://github.com/embeddings-benchmark/mteb.
Les évaluations standards de la factualité des LLM traitent toutes les erreurs de manière identique, occultant la question de savoir si les échecs proviennent d'un manque de connaissances (étagères vides) ou d'un accès limité aux faits encodés (clés perdues). Nous proposons un cadre comportemental qui profile les connaissances factuelles au niveau des faits plutôt que des questions, caractérisant chaque fait selon qu'il est encodé ou non, puis selon son accessibilité : impossible à rappeler, pouvant être rappelé directement, ou ne pouvant être rappelé qu'avec un calcul à l'inférence (réflexion). Pour soutenir un tel profilage, nous introduisons WikiProfile, un nouveau benchmark construit via un pipeline automatisé utilisant un LLM sollicité et fondé sur une recherche web. Sur 4 millions de réponses provenant de 13 LLM, nous constatons que l'encodage est quasi saturé dans les modèles de pointe sur notre benchmark, GPT-5 et Gemini-3 encodant 95 à 98 % des faits. Cependant, le rappel reste un goulot d'étranglement majeur : de nombreuses erreurs précédemment attribuées à un manque de connaissances résultent en réalité d'échecs d'accès à ces dernières. Ces échecs sont systématiques et affectent de manière disproportionnée les faits de la longue traîne et les questions inversées. Enfin, nous montrons que la réflexion améliore le rappel et peut récupérer une fraction substantielle des échecs, indiquant que les gains futurs pourraient moins dépendre de la mise à l'échelle et davantage de méthodes améliorant la façon dont les modèles utilisent ce qu'ils encodent déjà.
Les agents d'IA sont de plus en plus déployés pour exécuter des tâches importantes. Bien que l'amélioration des scores de précision sur les benchmarks standards suggère des progrès rapides, de nombreux agents continuent d’échouer en pratique. Cette divergence met en lumière une limitation fondamentale des évaluations actuelles : compresser le comportement des agents en une métrique de réussite unique masque des défauts opérationnels critiques. Notamment, cela ignore si les agents se comportent de manière cohérente entre les exécutions, résistent aux perturbations, échouent de façon prévisible ou présentent une gravité d'erreur limitée. Fondés sur l'ingénierie des systèmes critiques, nous établissons un profil de performance holistique en proposant douze métriques concrètes qui décomposent la fiabilité des agents selon quatre dimensions clés : la cohérence, la robustesse, la prévisibilité et la sécurité. En évaluant 14 modèles agentiels sur deux benchmarks complémentaires, nous constatons que les gains récents en capacités n'ont apporté que de faibles améliorations en fiabilité. En exposant ces limitations persistantes, nos métriques complètent les évaluations traditionnelles tout en offrant des outils pour raisonner sur la manière dont les agents fonctionnent, se dégradent et échouent.
Les modèles Vision-Langage-Action (VLA) de pointe excellent dans la généralisation sémantique mais peinent à généraliser les mouvements physiques inédits dans des environnements nouveaux. Nous présentons DreamZero, un Modèle d'Action Mondial (WAM) construit sur un modèle de diffusion vidéo préentraîné. Contrairement aux VLA, les WAM apprennent la dynamique physique en prédisant les états futurs du monde et les actions, utilisant la vidéo comme une représentation dense de l'évolution du monde. En modélisant conjointement la vidéo et l'action, DreamZero apprend efficacement des compétences diverses à partir de données robotiques hétérogènes sans dépendre de démonstrations répétitives. Cela se traduit par une amélioration de plus de 2 fois de la généralisation à de nouvelles tâches et environnements par rapport aux VLA de pointe dans des expériences sur robot réel. Fait crucial, grâce à des optimisations du modèle et du système, nous permettons à un modèle de diffusion vidéo autorégressif de 14B d'effectuer un contrôle en boucle fermée en temps réel à 7Hz. Enfin, nous démontrons deux formes de transfert inter-embodiment : des démonstrations uniquement vidéo provenant d'autres robots ou d'humains produisent une amélioration relative de plus de 42% sur les performances de tâches inédites avec seulement 10 à 20 minutes de données. Plus surprenant encore, DreamZero permet une adaptation par few-shot d'embodiment, transférant vers un nouvel embodiment avec seulement 30 minutes de données de jeu tout en conservant la généralisation zero-shot.
Les architectures à poids rapides offrent une alternative prometteuse aux transformeurs basés sur l'attention pour la modélisation de contextes longs, en maintenant une surcharge mémoire constante quelle que soit la longueur du contexte. Cependant, leur potentiel est limité par le paradigme d'entraînement par prédiction du token suivant (NTP). Le NTP optimise les prédictions token par token et ignore la cohérence sémantique sur plusieurs tokens suivant un préfixe. Par conséquent, les modèles à poids rapides, qui mettent à jour dynamiquement leurs paramètres pour stocker l'information contextuelle, apprennent des représentations sous-optimales qui échouent à capturer les dépendances à longue portée. Nous présentons REFINE (Reinforced Fast weIghts with Next sEquence prediction), un cadre d'apprentissage par renforcement qui entraîne les modèles à poids rapides avec l'objectif de prédiction de séquence suivante (NSP). REFINE sélectionne des positions de tokens informatifs basées sur l'entropie de prédiction, génère des déploiements multi-tokens, attribue des récompenses auto-supervisées au niveau de la séquence, et optimise le modèle avec l'optimisation de politique relative par groupe (GRPO). REFINE est applicable tout au long du cycle de vie d'entraînement des modèles de langage pré-entraînés : en cours d'entraînement, après l'entraînement, et pendant l'entraînement au moment du test. Nos expériences sur LaCT-760M et DeltaNet-1.3B démontrent que REFINE surpasse constamment le fine-tuning supervisé avec NTP sur des tâches de recherche d'aiguille dans une botte de foin, de question-réponse en contexte long, et diverses tâches de LongBench. REFINE fournit un cadre efficace et polyvalent pour améliorer la modélisation de contextes longs dans les architectures à poids rapides.
Nous présentons SAM 3D Body (3DB), un modèle guidable pour la reconstruction 3D complète du corps humain à partir d'une seule image (HMR), qui démontre des performances de pointe, avec une forte généralisation et une précision constante dans diverses conditions en conditions réelles. 3DB estime la posture humaine du corps, des pieds et des mains. C'est le premier modèle à utiliser une nouvelle représentation paramétrique de maillage, Momentum Human Rig (MHR), qui découple la structure squelettique et la forme de surface. 3DB utilise une architecture encodeur-décodeur et prend en charge des instructions auxiliaires, incluant des points-clés 2D et des masques, permettant une inférence guidée par l'utilisateur similaire à la famille de modèles SAM. Nous obtenons des annotations de haute qualité grâce à un pipeline d'annotation multi-étapes utilisant diverses combinaisons d'annotation manuelle de points-clés, d'optimisation différentiable, de géométrie multi-vues et de détection dense de points-clés. Notre moteur de données sélectionne et traite efficacement les données pour garantir leur diversité, collectant des poses inhabituelles et des conditions d'acquisition rares. Nous présentons un nouveau jeu de données d'évaluation organisé par catégories de pose et d'apparence, permettant une analyse nuancée du comportement du modèle. Nos expériences démontrent une généralisation supérieure et des améliorations substantielles par rapport aux méthodes antérieures, à la fois dans des études qualitatives de préférence utilisateur et dans l'analyse quantitative traditionnelle. 3DB et MHR sont tous deux open-source.
La Distillation par Appariement de Distribution (DMD) est un paradigme d'accélération puissant, mais sa stabilité est souvent compromise dans les Zones Interdites, régions où l'enseignant réel fournit des indications peu fiables tandis que l'enseignant artificiel exerce une force répulsive insuffisante. Dans ce travail, nous proposons un cadre d'optimisation unifié qui réinterprète les méthodes existantes comme des stratégies implicites pour éviter ces régions corrompues. Sur la base de cette analyse, nous introduisons la Distillation par Appariement Adaptatif (AMD), un mécanisme d'auto-correction qui utilise des indicateurs de récompense pour détecter et échapper explicitement aux Zones Interdites. AMD hiérarchise dynamiquement les gradients correctifs via une décomposition structurelle du signal et introduit un Affûtage du Paysage Répulsif pour imposer des barrières énergétiques abruptes contre l'effondrement des modes défaillants. Des expériences approfondies sur des tâches de génération d'images et de vidéos (par exemple, SDXL, Wan2.1) et des benchmarks rigoureux (par exemple, VBench, GenEval) démontrent qu'AMD améliore significativement la fidélité des échantillons et la robustesse de l'entraînement. Par exemple, AMD améliore le score HPSv2 sur SDXL de 30,64 à 31,25, surpassant les méthodes de référence de l'état de l'art. Ces résultats valident le fait que rectifier explicitement les trajectoires d'optimisation dans les Zones Interdites est essentiel pour repousser les limites de performance des modèles génératifs à faible nombre d'étapes.
Les agents d'IA modernes sont puissants mais échouent souvent à s'aligner sur les préférences idiosyncrasiques et évolutives des utilisateurs individuels. Les approches antérieures reposent généralement sur des jeux de données statiques, soit en entraînant des modèles de préférences implicites sur l'historique des interactions, soit en encodant des profils utilisateurs dans une mémoire externe. Cependant, ces approches peinent avec les nouveaux utilisateurs et avec les préférences qui changent dans le temps. Nous présentons les **Agents Personnalisés par Retour Humain (APRH)** , un cadre pour la personnalisation continue dans lequel les agents apprennent en ligne à partir d'interactions en direct en utilisant une mémoire explicite par utilisateur. APRH opérationnalise une boucle en trois étapes : (1) la recherche de clarification pré-action pour résoudre l'ambiguïté, (2) l'ancrage des actions dans les préférences récupérées depuis la mémoire, et (3) l'intégration des retours post-action pour mettre à jour la mémoire lors de dérives des préférences. Pour évaluer cette capacité, nous développons un protocole en quatre phases et deux benchmarks en manipulation incarnée et en shopping en ligne. Ces benchmarks quantifient la capacité d'un agent à apprendre des préférences initiales à partir de rien et à s'adapter ensuite à des changements de persona. Notre analyse théorique et nos résultats empiriques montrent que l'intégration d'une mémoire explicite avec des canaux de retour doubles est cruciale : APRH apprend substantiellement plus vite et surpasse systématiquement les lignes de base sans mémoire et à canal unique, réduisant l'erreur de personnalisation initiale et permettant une adaptation rapide aux changements de préférences.
Les agents multimodaux à long horizon dépendent de la mémoire externe ; cependant, la récupération par similarité remonte souvent des éléments obsolètes, peu crédibles ou conflictuels, ce qui peut déclencher des erreurs de surconfiance. Nous proposons l'Agent à Mémoire Multimodale (MMA), qui attribue à chaque élément de mémoire récupéré un score de fiabilité dynamique en combinant la crédibilité de la source, la décroissance temporelle et un consensus de réseau tenant compte des conflits, et utilise ce signal pour repondérer les preuves et s'abstenir lorsque le soutien est insuffisant. Nous présentons également MMA-Bench, un benchmark généré programmatiquement pour la dynamique des croyances avec une fiabilité contrôlée des locuteurs et des contradictions structurées texte-vision. En utilisant ce cadre, nous mettons en évidence l'« Effet Placebo Visuel », révélant comment les agents basés sur RAG héritent des biais visuels latents des modèles de fondation. Sur FEVER, MMA atteint la précision de base tout en réduisant la variance de 35,2 % et en améliorant l'utilité sélective ; sur LoCoMo, une configuration axée sur la sécurité améliore la précision actionnable et réduit les mauvaises réponses ; sur MMA-Bench, MMA atteint 41,18 % de précision de Type-B en mode Vision, tandis que la base de référence s'effondre à 0,0 % sous le même protocole. Code : https://github.com/AIGeeksGroup/MMA.
Nous présentons les Nexus Adapters, des adaptateurs efficaces guidés par texte, novateurs, pour le cadre basé sur la diffusion dédié à la Génération Conditionnelle Préservant la Structure (SPCG). Récemment, les méthodes de préservation de la structure ont obtenu des résultats prometteurs en génération d'images conditionnelle en utilisant un modèle de base pour le conditionnement par prompt et un adaptateur pour l'entrée structurelle, telle que des esquisses ou des cartes de profondeur. Ces approches sont très inefficaces et nécessitent parfois autant de paramètres dans l'adaptateur que l'architecture de base. Il n'est pas toujours possible d'entraîner le modèle, le modèle de diffusion étant déjà coûteux lui-même, et doubler le nombre de paramètres est très inefficace. Dans ces approches, l'adaptateur n'a pas connaissance du prompt d'entrée ; il est donc optimal uniquement pour l'entrée structurelle mais pas pour le prompt d'entrée. Pour surmonter ces défis, nous avons proposé deux adaptateurs efficaces, Nexus Prime et Slim, qui sont guidés à la fois par les prompts et les entrées structurelles. Chaque Bloc Nexus intègre des mécanismes d'attention croisée pour permettre un conditionnement multimodal riche. Ainsi, l'adaptateur proposé comprend mieux le prompt d'entrée tout en préservant la structure. Nous avons mené des expériences approfondies sur les modèles proposés et démontré que l'adaptateur Nexus Prime améliore significativement les performances, ne nécessitant que 8 millions de paramètres supplémentaires par rapport à la baseline, T2I-Adapter. De plus, nous avons également introduit un adaptateur léger, Nexus Slim, avec 18 millions de paramètres de moins que le T2I-Adapter, qui obtient tout de même des résultats à l'état de l'art. Code : https://github.com/arya-domain/Nexus-Adapters
Un aspect fondamental de la perception humaine est la conscience située, c'est-à-dire la capacité à nous situer par rapport à notre environnement physique et à raisonner sur les actions possibles dans un contexte donné. Cependant, la plupart des benchmarks existants pour les modèles fondationnels multimodaux (MFM) privilégient les relations spatiales centrées sur l'environnement (relations entre les objets d'une scène), tout en négligeant largement les relations centrées sur l'observateur, qui nécessitent un raisonnement relatif au point de vue, à la posture et au mouvement de l'agent. Pour combler cette lacune, nous présentons SAW-Bench (Situated Awareness in the Real World), un nouveau benchmark destiné à évaluer la conscience située égocentrique à l'aide de vidéos du monde réel. SAW-Bench comprend 786 vidéos auto-enregistrées, capturées avec des lunettes intelligentes Ray-Ban Meta (Gen 2) dans divers environnements intérieurs et extérieurs, et plus de 2 071 paires question-réponse annotées manuellement. Il sonde la compréhension centrée sur l'observateur d'un modèle à travers six tâches de conscience distinctes. Notre évaluation exhaustive révèle un écart de performance homme-modèle de 37,66 %, même avec le MFM le plus performant, Gemini 3 Flash. Au-delà de cet écart, notre analyse approfondie met en lumière plusieurs résultats notables ; par exemple, si les modèles peuvent exploiter des indices géométriques partiels dans les vidéos égocentriques, ils échouent souvent à inférer une géométrie cohérente de la caméra, ce qui conduit à des erreurs systématiques de raisonnement spatial. Nous positionnons SAW-Bench comme un benchmark pour l'intelligence spatiale située, dépassant l'observation passive pour comprendre la dynamique physiquement ancrée et centrée sur l'observateur.
Nous présentons un nouveau cadre de segmentation multimodale sensible à l'incertitude qui exploite à la fois les images radiologiques et les textes cliniques associés pour un diagnostic médical précis. Nous proposons un bloc d'attention de décodage modal (MoDAB) avec un mélangeur d'état léger (SSMix) pour permettre une fusion intermodale efficace et une modélisation des dépendances à longue portée. Pour guider l'apprentissage en cas d'ambiguïté, nous proposons la fonction de perte d'incertitude spectral-entropique (SEU) qui capture conjointement le chevauchement spatial, la cohérence spectrale et l'incertitude prédictive dans un objectif unifié. Dans des contextes cliniques complexes avec une mauvaise qualité d'image, cette formulation améliore la fiabilité du modèle. Des expériences approfondies sur divers ensembles de données médicales publiquement disponibles, QATA-COVID19, MosMed++ et Kvasir-SEG, démontrent que notre méthode atteint des performances de segmentation supérieures tout en étant nettement plus efficace sur le plan computationnel que les approches état de l'art (SoTA) existantes. Nos résultats soulignent l'importance d'intégrer la modélisation de l'incertitude et l'alignement modal structuré dans les tâches de segmentation médicale vision-langage. Code : https://github.com/arya-domain/UA-VLS
Les modèles de langage multimodaux de grande taille (MLLM) ont considérablement fait progresser l'IA incarnée, et leur utilisation pour évaluer l'intelligence robotique est devenue une tendance pivot. Cependant, les cadres existants restent principalement confinés à la manipulation à bras unique, ne parvenant pas à saisir la coordination spatio-temporelle requise pour les tâches bimanuelles comme soulever une lourde casserole. Pour y remédier, nous présentons BiManiBench, un benchmark hiérarchique évaluant les MLLM sur trois niveaux : le raisonnement spatial fondamental, la planification d'actions de haut niveau et le contrôle de bas niveau des effecteurs terminaux. Notre cadre isole les défis bimanuels uniques, tels que l'accessibilité des bras et les contraintes cinématiques, distinguant ainsi les hallucinations perceptives des échecs de planification. L'analyse de plus de 30 modèles de pointe révèle que, malgré une compétence en raisonnement de haut niveau, les MLLM peinent avec l'ancrage spatial et le contrôle à double bras, entraînant fréquemment des interférences mutuelles et des erreurs de séquencement. Ces résultats suggèrent que le paradigme actuel manque d'une compréhension approfondie des contraintes cinématiques mutuelles, soulignant la nécessité pour les recherches futures de se concentrer sur l'évitement de collisions entre les bras et le séquencement temporel fin.
Les modèles génératifs de grande taille vision-langue (LVLM) ont récemment réalisé des progrès impressionnants et leur base d'utilisateurs croît rapidement. Cependant, la sécurité des LVLM, particulièrement dans un contexte multi-tours à long terme, reste largement inexplorée. Dans cet article, nous examinons le scénario réaliste où un attaquant téléverse une image manipulée sur le web ou les réseaux sociaux. Un utilisateur bienveillant télécharge cette image et l'utilise comme entrée du LVLM. Notre nouvelle attaque furtive par injection de mémoire visuelle (VMI) est conçue pour que le LVLM présente un comportement nominal sur des invites normales, mais dès que l'utilisateur donne une invite déclenchante, le LVLM produit un message cible spécifique prescrit pour manipuler l'utilisateur, par exemple à des fins de marketing antagoniste ou de persuasion politique. Contrairement aux travaux antérieurs axés sur les attaques en un seul tour, VMI reste efficace même après une longue conversation multi-tours avec l'utilisateur. Nous démontrons notre attaque sur plusieurs LVLM récents à poids ouverts. Cet article montre ainsi que la manipulation à grande échelle des utilisateurs est réalisable avec des images perturbées dans des contextes de conversation multi-tours, appelant à une meilleure robustesse des LVLM contre ces attaques. Nous publions le code source à l'adresse https://github.com/chs20/visual-memory-injection.
L'épidémie d'opioïdes continue de ravager les communautés du monde entier, mettant à rude épreuve les systèmes de santé, bouleversant les familles et exigeant des solutions informatiques urgentes. Pour lutter contre cette crise mortelle liée aux opioïdes, les méthodes d'apprentissage sur graphes sont apparues comme un paradigme prometteur pour modéliser les phénomènes complexes liés aux drogues. Cependant, une lacune importante persiste : il n'existe pas de benchmark complet permettant d'évaluer systématiquement ces méthodes dans des scénarios réalistes de crise des opioïdes. Pour combler cette lacune, nous présentons OPBench, le premier benchmark complet sur les opioïdes, comprenant cinq jeux de données couvrant trois domaines d'application critiques : la détection des surdoses d'opioïdes à partir des données de remboursement de soins de santé, la détection du trafic de drogues illicites sur les plateformes numériques et la prédiction de l'usage détourné de drogues à partir des habitudes alimentaires. Spécifiquement, OPBench intègre des structures de graphes variées, incluant des graphes hétérogènes et des hypergraphes, afin de préserver les informations relationnelles riches et complexes contenues dans les données liées aux drogues. Pour pallier la rareté des données, nous collaborons avec des experts du domaine et des institutions autorisées pour constituer et annoter les jeux de données tout en respectant les règles de confidentialité et d'éthique. De plus, nous établissons un cadre d'évaluation unifié avec des protocoles standardisés, des partitions de données prédéfinies et des lignes de base reproductibles pour faciliter une comparaison équitable et systématique entre les méthodes d'apprentissage sur graphes. Par le biais d'expériences approfondies, nous analysons les forces et les limites des méthodes existantes d'apprentissage sur graphes, fournissant ainsi des perspectives exploitables pour les recherches futures visant à combattre la crise des opioïdes. Notre code source et nos jeux de données sont disponibles à l'adresse https://github.com/Tianyi-Billy-Ma/OPBench.