papers.description
La perception égocentrique permet aux humains d'expérimenter et de comprendre le monde directement depuis leur propre point de vue. La transformation de vidéos exocentriques (troisième personne) en vidéos égocentriques (première personne) ouvre de nouvelles possibilités pour une compréhension immersive, mais reste extrêmement difficile en raison des variations extrêmes de pose de caméra et du chevauchement minimal des vues. Cette tâche nécessite de préserver fidèlement le contenu visible tout en synthétisant les régions non vues de manière géométriquement cohérente. Pour y parvenir, nous présentons EgoX, un nouveau cadre pour générer des vidéos égocentriques à partir d'une seule entrée exocentrique. EgoX exploite les connaissances spatio-temporelles pré-entraînées des modèles de diffusion vidéo à grande échelle grâce à une adaptation légère LoRA et introduit une stratégie de conditionnement unifiée qui combine les connaissances a priori exocentriques et égocentriques via une concaténation en largeur et par canal. De plus, un mécanisme d'auto-attention guidé par la géométrie sélectionne de manière sélective les régions spatialement pertinentes, garantissant une cohérence géométrique et une haute fidélité visuelle. Notre approche permet une génération de vidéos égocentriques cohérentes et réalistes tout en démontrant une forte évolutivité et robustesse sur des vidéos non vues et en conditions réelles.
L'interprétation fiable des données multimodales en dentisterie est essentielle pour les soins bucco-dentaires automatisés. Cependant, les modèles de langage multimodaux (MLLM) actuels peinent à capturer les détails visuels dentaires fins et manquent de capacités de raisonnement suffisantes pour un diagnostic précis. Pour remédier à ces limitations, nous présentons DentalGPT, un MLLM dentaire spécialisé développé grâce à l'injection de connaissances métier de haute qualité et à l'apprentissage par renforcement. Concrètement, le plus grand ensemble de données multimodales annotées pour la dentisterie à ce jour a été construit en agrégeant plus de 120 000 images dentaires associées à des descriptions détaillées mettant en évidence les caractéristiques visuelles pertinentes pour le diagnostic, ce qui en fait l'ensemble de données multimodales regroupant la plus vaste collection d'images dentaires à ce jour. L'entraînement sur cet ensemble de données améliore significativement la compréhension visuelle des conditions dentaires par le MLLM, tandis que l'étape ultérieure d'apprentissage par renforcement renforce davantage sa capacité de raisonnement complexe multimodal. Des évaluations complètes sur des benchmarks intra-oraux et panoramiques, ainsi que sur des sous-ensembles dentaires de benchmarks médicaux de question-réponse visuelle (VQA), montrent que DentalGPT obtient des performances supérieures dans les tâches de classification des maladies et de VQA dentaire, surpassant de nombreux MLLM de pointe malgré ses seulement 7 milliards de paramètres. Ces résultats démontrent que des données dentaires de haute qualité combinées à une adaptation par étapes offrent une voie efficace pour construire des MLLM dentaires performants et spécialisés dans le domaine.
La génération visuelle ancrée dans les représentations des modèles de fondation visuelle (VFM) offre une voie unifiée très prometteuse pour intégrer la compréhension, la perception et la génération visuelles. Malgré ce potentiel, l'entraînement de modèles de diffusion à grande échelle de texte-à-image entièrement dans l'espace de représentation des VFM reste largement inexploré. Pour combler cette lacune, nous mettons à l'échelle le cadre SVG (Représentations auto-supervisées pour la Génération Visuelle), en proposant SVG-T2I pour supporter la synthèse texte-à-image de haute qualité directement dans le domaine des caractéristiques VFM. En tirant parti d'un pipeline de diffusion texte-à-image standard, SVG-T2I atteint des performances compétitives, obtenant un score de 0.75 sur GenEval et 85.78 sur DPG-Bench. Cette performance valide la puissance représentationnelle intrinsèque des VFM pour les tâches génératives. Nous ouvrons entièrement le projet en open-source, incluant l'autoencodeur et le modèle de génération, ainsi que leurs pipelines d'entraînement, d'inférence, d'évaluation et les poids pré-entraînés, pour faciliter les recherches futures sur la génération visuelle pilotée par les représentations.
Les modèles de génération vidéo à grande échelle ont démontré un potentiel remarquable pour modéliser l'apparence photoréaliste et les interactions lumineuses dans des scènes du monde réel. Cependant, un cadre en boucle fermée qui comprend conjointement les propriétés intrinsèques des scènes (par exemple, l'albédo, la normale, le matériau et l'irradiance), les exploite pour la synthèse vidéo et prend en charge des représentations intrinsèques modifiables reste inexploré. Nous présentons V-RGBX, le premier cadre de travail de bout en bout pour l'édition vidéo avec prise en compte des propriétés intrinsèques. V-RGBX unifie trois capacités clés : (1) l'inversion de rendu vidéo en canaux intrinsèques, (2) la synthèse vidéo photoréaliste à partir de ces représentations intrinsèques, et (3) l'édition vidéo basée sur des images clés conditionnée par les canaux intrinsèques. Au cœur de V-RGBX se trouve un mécanisme de conditionnement entrelacé qui permet une édition vidéo intuitive et physiquement fondée grâce à des images clés sélectionnées par l'utilisateur, prenant en charge la manipulation flexible de toute modalité intrinsèque. Des résultats qualitatifs et quantitatifs approfondis montrent que V-RGBX produit des vidéos photoréalistes et temporellement cohérentes tout en propageant les modifications des images clés à travers les séquences de manière physiquement plausible. Nous démontrons son efficacité dans diverses applications, notamment l'édition de l'apparence des objets et le re-éclairage au niveau de la scène, surpassant les performances des méthodes antérieures.
Les modèles actuels d'animation de portrait basés sur la diffusion se concentrent principalement sur l'amélioration de la qualité visuelle et du réalisme des expressions, tout en négligeant la latence de génération et les performances en temps réel, ce qui limite leur champ d'application dans le scénario du streaming en direct. Nous proposons PersonaLive, une nouvelle architecture basée sur la diffusion visant l'animation de portrait en streaming temps réel avec des stratégies d'entraînement multi-étapes. Plus précisément, nous adoptons d'abord des signaux implicites hybrides, à savoir des représentations faciales implicites et des points-clés 3D implicites, pour réaliser un contrôle expressif du mouvement au niveau de l'image. Ensuite, une stratégie de distillation d'apparence à moins d'étapes est proposée pour éliminer la redondance d'apparence dans le processus de débruitage, améliorant considérablement l'efficacité de l'inférence. Enfin, nous introduisons un paradigme de génération en streaming par micro-segments autorégressif, équipé d'une stratégie d'entraînement glissant et d'un mécanisme de trames-clés historiques, pour permettre une génération vidéo à faible latence et stable sur le long terme. Des expériences approfondies démontrent que PersonaLive atteint des performances de pointe avec une accélération allant jusqu'à 7-22x par rapport aux modèles précédents d'animation de portrait basés sur la diffusion.
Le mécanisme d'auto-attention dans les modèles de langage de grande taille (LLM) basés sur Transformer présente une complexité quadratique par rapport à la longueur de l'entrée, rendant l'inférence en contexte long coûteuse. L'attention par fenêtre glissante (SWA) réduit ce coût à une complexité linéaire, mais son activation naïve et complète lors de l'inférence pour des modèles pré-entraînés avec l'attention complète (FA) entraîne une dégradation sévère des performances en contexte long, en raison d'un décalage entraînement-inférence. Cela nous amène à nous demander : Les LLM pré-entraînés avec FA peuvent-ils être bien adaptés à la SWA sans nouveau pré-entraînement ? Nous étudions cette question en proposant l'Adaptation par Attention à Fenêtre Glissante (SWAA), un ensemble de méthodes pratiques combinant cinq approches pour une meilleure adaptation : (1) appliquer la SWA uniquement pendant le pré-remplissage ; (2) préserver les jetons "puits" ; (3) entrelacer les couches FA/SWA ; (4) la réflexion en chaîne (CoT) ; et (5) le réglage fin. Nos expériences montrent que l'adaptation à la SWA est réalisable mais non triviale : aucune méthode unique ne suffit, mais des combinaisons synergiques spécifiques restaurent efficacement les performances originales en contexte long. Nous analysons en outre les compromis performance-efficacité des différentes configurations SWAA et fournissons des combinaisons recommandées pour divers scénarios. Notre code est disponible à l'adresse https://github.com/yuyijiong/sliding-window-attention-adaptation.
L'apprentissage multimodal a rapidement fait progresser la compréhension visuelle, principalement grâce aux grands modèles de langage multimodal (MLLMs) qui utilisent des LLMs puissants comme cœurs cognitifs. Dans la génération visuelle, cependant, ces modèles centraux puissants sont généralement réduits à des encodeurs de texte globaux pour les modèles de diffusion, laissant la majeure partie de leur capacité de raisonnement et de planification inutilisée. Cela crée un écart : les MLLMs actuels peuvent analyser des mises en page complexes, des attributs et des scènes riches en connaissances, mais peinent à générer des images ou des vidéos avec un contrôle aussi précis et structuré. Nous proposons MetaCanvas, un cadre léger qui permet aux MLLMs de raisonner et de planifier directement dans les espaces latents spatiaux et spatio-temporels et d'interagir étroitement avec les générateurs de diffusion. Nous implémentons empiriquement MetaCanvas sur trois architectures de diffusion différentes et l'évaluons sur six tâches, incluant la génération d'images à partir de texte, la génération de vidéos à partir de texte/d'image, l'édition d'images/vidéos et la génération de vidéos contextuelles, chacune exigeant un contrôle précis des mises en page, une liaison robuste des attributs et un raisonnement poussé. MetaCanvas surpasse systématiquement les modèles de référence à conditionnement global, suggérant que traiter les MLLMs comme des planificateurs dans l'espace latent est une direction prometteuse pour combler l'écart entre la compréhension et la génération multimodales.
Les méthodes de splatting basées sur des primitives, comme le 3D Gaussian Splatting, ont révolutionné la synthèse de nouvelles vues grâce à un rendu en temps réel. Cependant, leurs représentations par points restent incompatibles avec les pipelines basés sur des maillages qui alimentent les moteurs de RA/RV et de jeux. Nous présentons MeshSplatting, une approche de reconstruction basée sur des maillages qui optimise conjointement la géométrie et l'apparence via un rendu différenciable. En imposant la connectivité via une triangulation de Delaunay restreinte et en affinant la cohérence de surface, MeshSplatting crée des maillages fluides de bout en bout et de haute qualité visuelle, qui s'intègrent efficacement dans les moteurs 3D temps réel. Sur Mip-NeRF360, la méthode améliore le PSNR de +0,69 dB par rapport à l'état de l'art actuel MiLo pour la synthèse de nouvelles vues basée sur des maillages, tout en s'entraînant 2 fois plus vite et en utilisant 2 fois moins de mémoire, établissant un pont entre le rendu neuronal et les graphiques 3D interactifs pour une interaction scénique en temps réel transparente. La page du projet est disponible à l'adresse https://meshsplatting.github.io/.
La réalité est une danse entre contraintes rigides et structures déformables. Pour les modèles vidéo, cela signifie générer un mouvement qui préserve à la fois la fidélité et la structure. Malgré les progrès des modèles de diffusion, produire un mouvement réaliste préservant la structure reste un défi, particulièrement pour les objets articulés et déformables comme les humains et les animaux. Jusqu'à présent, l'augmentation seule des données d'entraînement n'a pas résolu les transitions physiquement improbables. Les approches existantes reposent sur un conditionnement par des représentations de mouvement bruitées, comme le flux optique ou les squelettes extraits à l'aide d'un modèle externe imparfait. Pour relever ces défis, nous présentons un algorithme permettant de distiller des préconnaissances de mouvement préservant la structure à partir d'un modèle de suivi vidéo autorégressif (SAM2) vers un modèle de diffusion vidéo bidirectionnel (CogVideoX). Avec notre méthode, nous entraînons SAM2VideoX, qui contient deux innovations : (1) un module de fusion de caractéristiques bidirectionnel qui extrait des préconnaissances de mouvement global préservant la structure d'un modèle récurrent comme SAM2 ; (2) une perte Local Gram Flow qui aligne la manière dont les caractéristiques locales se déplacent ensemble. Les expériences sur VBench et les études humaines montrent que SAM2VideoX apporte des gains constants (+2,60 % sur VBench, FVD inférieur de 21-22 % et une préférence humaine de 71,4 %) par rapport aux lignes de base antérieures. Concrètement, sur VBench, nous atteignons 95,51 %, surpassant REPA (92,91 %) de 2,60 %, et réduisons le FVD à 360,57, soit une amélioration de 21,20 % et 22,46 % par rapport au réglage fin REPA et LoRA, respectivement. Le site web du projet est disponible à l'adresse https://sam2videox.github.io/.
Nous proposons LEO-RobotAgent, un cadre d'agent intelligent polyvalent piloté par le langage pour les robots. Dans ce cadre, les grands modèles de langage (LLM) peuvent opérer différents types de robots pour accomplir des tâches complexes imprévisibles dans divers scénarios. Ce cadre se caractérise par une forte généralisation, une robustesse et une efficacité. Le système applicatif construit autour peut améliorer pleinement la compréhension bidirectionnelle des intentions humain-robot et abaisser le seuil d'interaction humain-robot. Concernant la planification des tâches robotiques, la grande majorité des études existantes se concentrent sur l'application des grands modèles dans des scénarios à tâche unique et pour des types de robots uniques. Ces algorithmes ont souvent des structures complexes et manquent de généralisabilité. Ainsi, le cadre LEO-RobotAgent proposé est conçu avec une structure rationalisée autant que possible, permettant aux grands modèles de penser, planifier et agir de manière indépendante dans ce cadre clair. Nous fournissons une boîte à outils modulaire et facilement enregistrable, permettant aux grands modèles d'appeler flexibly divers outils pour répondre à différentes exigences. Parallèlement, le cadre intègre un mécanisme d'interaction humain-robot, permettant à l'algorithme de collaborer avec les humains comme un partenaire. Les expériences ont vérifié que ce cadre peut être facilement adapté aux plates-formes robotiques grand public, y compris les véhicules aériens sans pilote (UAV), les bras robotiques et les robots à roues, et exécuter efficacement une variété de tâches soigneusement conçues avec différents niveaux de complexité. Notre code est disponible à l'adresse https://github.com/LegendLeoChen/LEO-RobotAgent.
Le pré-entraînement des grands modèles de langage modernes consomme des quantités considérables de ressources de calcul et de données d'entraînement, faisant du comportement de mise à l'échelle, ou des lois d'échelle, un facteur distinctif clé entre les différents modèles. Les modèles de langage à diffusion discrète ont été proposés comme une alternative aux modèles de langage autorégressifs. Cependant, leur comportement de mise à l'échelle n'a pas encore été entièrement exploré, les travaux antérieurs suggérant qu'ils nécessitent plus de données et de calcul pour atteindre les performances des modèles autorégressifs. Nous étudions le comportement de mise à l'échelle des modèles à diffusion discrète pour différents types de bruit en interpolant de manière fluide entre la diffusion masquée et la diffusion uniforme, tout en accordant une attention particulière à des hyperparamètres cruciaux tels que la taille du lot et le taux d'apprentissage. Nos expériences révèlent que le comportement de mise à l'échelle des modèles à diffusion discrète dépend fortement du type de bruit et diffère considérablement de celui des modèles autorégressifs. Si tous les types de bruit convergent vers des valeurs de perte similaires dans un contexte limité par le calcul, nous constatons que la diffusion uniforme nécessite plus de paramètres et moins de données pour un entraînement efficace en calcul par rapport à la diffusion masquée, ce qui en fait un candidat prometteur dans des scénarios limités par les données. Nous avons mis à l'échelle notre modèle à diffusion uniforme jusqu'à 10 milliards de paramètres, entraîné sur 10^{22} opérations en virgule flottante, confirmant le comportement de mise à l'échelle prédit et en faisant le plus grand modèle à diffusion uniforme publiquement connu à ce jour.
Nous présentons SHARP, une approche de synthèse de vues photoréalistes à partir d'une seule image. À partir d'une photographie unique, SHARP régresse les paramètres d'une représentation 3D par Gaussiennes de la scène représentée. Ceci est réalisé en moins d'une seconde sur un GPU standard via une seule passe forward dans un réseau de neurones. La représentation par Gaussiennes 3D produite par SHARP peut ensuite être rendue en temps réel, générant des images photoréalistes haute résolution pour des vues voisines. La représentation est métrique, avec une échelle absolue, supportant des mouvements de caméra métriques. Les résultats expérimentaux démontrent que SHARP offre une généralisation zero-shot robuste sur différents jeux de données. Il établit un nouvel état de l'art sur plusieurs bases de données, réduisant le LPIPS de 25 à 34 % et le DISTS de 21 à 43 % par rapport au meilleur modèle précédent, tout en réduisant le temps de synthèse de trois ordres de grandeur. Le code et les poids sont disponibles à l'adresse https://github.com/apple/ml-sharp.
Les grands modèles de langage (LLM) ont révolutionné l'intelligence artificielle, mais leurs exigences massives en mémoire et en calcul nécessitent une quantification agressive, poussant de plus en plus les représentations vers la limite théorique d'un seul bit. Bien que les LLM à valeurs complexes, tels qu'iFairy, offrent une opportunité supérieure de représentation en faible précision par rapport à leurs homologues à valeurs réelles, ils nécessitent un entraînement à partir de zéro, empêchant l'utilisation du vaste écosystème de modèles de base pré-entraînés à valeurs réelles. Nous présentons ici Fairy2i, un cadre universel qui transforme les couches pré-entraînées à valeurs réelles en une forme complexe à large linéarité équivalente, permettant une quantification en très faible précision tout en réutilisant les points de contrôle existants. En prouvant une équivalence mathématique sans perte entre les applications réelles et largement linéaires, nous convertissons les Transformers standard dans le domaine complexe et utilisons un schéma de quantification sensible à la phase avec un codebook hautement efficace des racines quatrièmes de l'unité. De plus, nous introduisons un mécanisme de quantification résiduelle récursive qui minimise itérativement l'erreur de quantification, permettant à l'inférence de procéder via une accumulation efficace sans multiplication. Nous démontrons que Fairy2i restaure les performances de LLaMA-2 7B à une précision effective de 2 bits à des niveaux presque comparables aux lignes de base en pleine précision, surpassant significativement les méthodes de quantification binaire et ternaire à valeurs réelles de pointe. Ce travail comble le fossé entre l'efficacité représentationnelle de l'arithmétique complexe et l'utilité pratique des modèles pré-entraînés, ouvrant une nouvelle voie pour l'inférence efficace sur du matériel grand public.
L'évaluation par LLM en tant que juge est devenue la norme de facto pour l'évolutivité de l'évaluation des modèles, mais cette pratique est statistiquement infondée : les scores non calibrés peuvent inverser les préférences, les intervalles de confiance naïfs sur des scores non calibrés atteignent une couverture proche de 0 %, et les estimateurs par pondération d'importance s'effondrent sous un recouvrement limité malgré une taille d'échantillon efficace (TEE) élevée. Nous présentons l'Évaluation Juge Causal (EJC), un cadre qui corrige ces trois échecs. Sur n=4 961 invites de Chatbot Arena (après filtrage sur 5k), l'EJC atteint une précision d'appariement par paires de 99 % à taille d'échantillon complète (94 % en moyenne sur toutes les configurations), égalant la qualité d'un oracle, pour un coût 14 fois inférieur (pour classer 5 politiques) en calibrant un juge 16 fois moins cher sur seulement 5 % d'étiquettes oracle (~250 étiquettes). L'EJC combine trois composants : (i) AutoCal-R, calibration de la récompense par régression isotonique préservant la moyenne ; (ii) SIMCal-W, stabilisation des poids par empilement de candidats S-monotones ; et (iii) une inférence Sensibilisée à l'Incertitude de l'Oracle (SIO) qui propage l'incertitude de calibration dans les intervalles de confiance. Nous formalisons le diagnostic d'Efficacité Limitée par la Couverture (ELC), qui explique pourquoi les estimateurs de type IPS échouent même lorsque la TEE dépasse 90 % : le logger visite rarement les régions où les politiques cibles se concentrent. Principaux résultats : SNIPS inverse les classements même avec calibration de la récompense (38 % d'appariement par paires, tau de Kendall négatif) en raison de l'instabilité des poids ; l'IPS calibré reste quasi aléatoire (47 %) malgré la stabilisation des poids, ce qui est cohérent avec l'ELC ; la SIO améliore la couverture de près de 0 % à ~86 % (Direct) et ~96 % (stacked-DR), là où les intervalles naïfs sous-couvrent sévèrement.
Nous présentons Particulate, une approche feed-forward qui, à partir d'un simple maillage 3D statique d'un objet du quotidien, infère directement tous les attributs de la structure articulée sous-jacente, y compris ses pièces 3D, sa structure cinématique et ses contraintes de mouvement. Son cœur est un réseau de transformeurs, le Part Articulation Transformer, qui traite un nuage de points du maillage d'entrée en utilisant une architecture flexible et évolutive pour prédire tous les attributs mentionnés ci-dessus avec une prise en charge native des articulations multiples. Nous entraînons le réseau de bout en bout sur une collection diversifiée d'actifs 3D articulés provenant de jeux de données publics. Lors de l'inférence, Particulate transfère la prédiction feed-forward du réseau au maillage d'entrée, produisant un modèle 3D entièrement articulé en quelques secondes, soit beaucoup plus rapidement que les approches antérieures qui nécessitent une optimisation par objet. Particulate peut également inférer avec précision la structure articulée d'actifs 3D générés par IA, permettant l'extraction complète d'objets 3D articulés à partir d'une seule image (réelle ou synthétique) lorsqu'il est combiné à un générateur image-vers-3D standard. Nous introduisons en outre un nouveau benchmark exigeant pour l'estimation de l'articulation 3D, constitué à partir d'actifs 3D publics de haute qualité, et repensons le protocole d'évaluation pour qu'il soit plus cohérent avec les préférences humaines. Les résultats quantitatifs et qualitatifs montrent que Particulate surpasse significativement les approches de l'état de l'art.
Les modèles de fondation stéréo atteignent une forte généralisation zero-shot mais restent prohibitifs en calcul pour les applications en temps réel. Les architectures stéréo efficaces, quant à elles, sacrifient la robustesse pour la vitesse et nécessitent un réglage fin coûteux par domaine. Pour combler cet écart, nous présentons Fast-FoundationStereo, une famille d'architectures qui atteint, pour la première fois, une forte généralisation zero-shot à une fréquence d'images temps réel. Nous employons une stratégie d'accélération diviser-pour-régner avec trois composantes : (1) la distillation de connaissances pour compresser le backbone hybride en un seul étudiant efficace ; (2) une recherche de architecture neuronale par blocs pour découvrir automatiquement des conceptions optimales de filtrage des coûts sous contrainte de latence, réduisant exponentiellement la complexité de la recherche ; et (3) un élagage structuré pour éliminer la redondance dans le module de raffinement itératif. De plus, nous introduisons un pipeline automatique de pseudo-étiquetage utilisé pour constituer 1,4 million de paires stéréo en conditions réelles afin de compléter les données d'entraînement synthétiques et de faciliter la distillation des connaissances. Le modèle résultant peut fonctionner plus de 10 fois plus vite que FoundationStereo tout en approchant de près sa précision zero-shot, établissant ainsi un nouvel état de l'art parmi les méthodes temps réel. Page du projet : https://nvlabs.github.io/Fast-FoundationStereo/
Nous présentons une politique vision-action qui a remporté la première place au BEHAVIOR Challenge 2025 - un benchmark à grande échelle comprenant 50 tâches domestiques variées et à long horizon en simulation photoréaliste, nécessitant une manipulation bimanuelle, une navigation et une prise de décision contextuelle. En nous appuyant sur l'architecture Pi0.5, nous introduisons plusieurs innovations. Notre contribution principale est l'utilisation de bruit corrélé pour l'appariement de flux, ce qui améliore l'efficacité de l'entraînement et permet un inpainting sensible aux corrélations pour des séquences d'actions fluides. Nous appliquons également une attention mixte à couches apprenables et un suivi de phase par le Système 2 pour la résolution d'ambiguïtés. L'entraînement emploie un appariement de flux multi-échantillons pour réduire la variance, tandis que l'inférence utilise une compression d'actions et des règles de correction spécifiques au challenge. Notre approche atteint un score-q de 26% sur l'ensemble des 50 tâches, tant sur les classements publics que privés.
L'intégration des modèles de langage (LM) dans les systèmes de santé présente un potentiel considérable pour améliorer les flux de travail médicaux et la prise de décision. Cependant, un obstacle majeur à leur adoption réelle est l'absence d'évaluation fiable de leur fiabilité, particulièrement dans les contextes de soins multilingues. Les modèles de langage existants étant principalement entraînés sur des langues riches en ressources, ils sont mal adaptés pour gérer la complexité et la diversité des requêtes en santé dans les langues à ressources moyennes et faibles, ce qui pose des défis significatifs pour leur déploiement dans des contextes sanitaires mondiaux où la diversité linguistique est primordiale. Dans ce travail, nous présentons CLINIC, un benchmark multilingue complet pour évaluer la fiabilité des modèles de langage en santé. CLINIC évalue systématiquement les LM selon cinq dimensions clés de la fiabilité : la véracité, l'équité, la sécurité, la robustesse et la confidentialité, opérationnalisées à travers 18 tâches variées, couvrant 15 langues (représentant tous les continents majeurs) et englobant un large éventail de sujets critiques en santé tels que les pathologies, les actions préventives, les tests diagnostiques, les traitements, les chirurgies et les médicaments. Notre évaluation approfondie révèle que les LM peinent avec l'exactitude factuelle, présentent des biais à travers les groupes démographiques et linguistiques, et sont vulnérables aux violations de la vie privée et aux attaques adverses. En mettant en lumière ces lacunes, CLINIC jette les bases pour améliorer la portée mondiale et la sécurité des LM en santé à travers la diversité des langues.
Les humains peuvent paralléliser intuitivement des activités complexes, mais un modèle peut-il apprendre cela en observant une seule personne ? Étant donné une vidéo égocentrique, nous introduisons le Problème des N Corps : comment N individus pourraient hypothétiquement réaliser le même ensemble de tâches observé dans cette vidéo. L'objectif est de maximiser l'accélération, mais l'affectation naïve de segments vidéo à des individus viole souvent les contraintes du monde réel, conduisant à des scénarios physiquement impossibles comme deux personnes utilisant le même objet ou occupant le même espace. Pour résoudre ceci, nous formalisons le Problème des N Corps et proposons un ensemble de métriques pour évaluer à la fois la performance (accélération, couverture des tâches) et la faisabilité (collisions spatiales, conflits d'objets et contraintes causales). Nous introduisons ensuite une stratégie d'incitation structurée qui guide un Modèle Vision-Langage (VLM) à raisonner sur l'environnement 3D, l'utilisation des objets et les dépendances temporelles pour produire une exécution parallèle viable. Sur 100 vidéos issues d'EPIC-Kitchens et de HD-EPIC, notre méthode pour N = 2 augmente la couverture des actions de 45 % par rapport à une incitation de base pour Gemini 2.5 Pro, tout en réduisant simultanément les taux de collision, les conflits d'objets et les conflits causaux de 55 %, 45 % et 55 % respectivement.
L'estimation de l'incertitude est essentielle pour le déploiement clinique sécurisé des systèmes de segmentation d'images médicales, permettant d'identifier les prédictions non fiables et de soutenir la supervision humaine. Si les travaux antérieurs se sont largement concentrés sur l'incertitude au niveau pixel, la segmentation par repères anatomiques offre des garanties topologiques intrinsèques mais reste sous-explorée sous l'angle de l'incertitude. Dans ce travail, nous étudions l'estimation de l'incertitude pour la segmentation basée sur des repères anatomiques dans les radiographies pulmonaires. En nous inspirant des architectures de réseaux neuronaux hybrides qui combinent des encodeurs convolutionnels d'image standard avec des décodeurs génératifs basés sur des graphes, et en exploitant leur espace latent variationnel, nous dérivons deux mesures complémentaires : (i) l'incertitude latente, capturée directement à partir des paramètres de distribution appris, et (ii) l'incertitude prédictive, obtenue en générant plusieurs prédictions de sortie stochastiques à partir d'échantillons latents. Grâce à des expériences de corruption contrôlée, nous montrons que les deux mesures d'incertitude augmentent avec la sévérité de la perturbation, reflétant à la fois une dégradation globale et locale. Nous démontrons que ces signaux d'incertitude peuvent identifier les prédictions non fiables par comparaison avec une vérité terrain manuelle, et soutenir la détection de données hors distribution sur le jeu de données CheXmask. Plus important encore, nous publions CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U), un jeu de données à grande échelle de 657 566 segmentations de repères sur des radiographies pulmonaires avec des estimations d'incertitude par nœud, permettant aux chercheurs de tenir compte des variations spatiales de la qualité de segmentation lors de l'utilisation de ces masques anatomiques. Nos résultats établissent l'estimation de l'incertitude comme une direction prometteuse pour améliorer la robustesse et le déploiement sécurisé des méthodes de segmentation anatomique basées sur des repères dans les radiographies pulmonaires. Une démonstration interactive complète de la méthode est disponible sur huggingface.co/spaces/matiasky/CheXmask-U et le code source sur github.com/mcosarinsky/CheXmask-U.
L'analyse de grands corpus textuels est un défi central en apprentissage automatique, cruciale pour des tâches telles que l'identification de comportements indésirables des modèles ou de biais dans les données d'entraînement. Les méthodes actuelles reposent souvent sur des techniques coûteuses basées sur les LLM (par exemple, l'annotation des différences entre jeux de données) ou sur des modèles à embeddings denses (par exemple, pour le clustering), qui n'offrent aucun contrôle sur les propriétés d'intérêt. Nous proposons d'utiliser des autoencodeurs épars (SAE) pour créer des embeddings SAE : des représentations dont les dimensions correspondent à des concepts interprétables. À travers quatre tâches d'analyse de données, nous montrons que les embeddings SAE sont plus rentables et fiables que les LLM et plus contrôlables que les embeddings denses. En utilisant le large espace d'hypothèses des SAE, nous pouvons découvrir des insights tels que (1) des différences sémantiques entre jeux de données et (2) des corrélations inattendues entre concepts dans les documents. Par exemple, en comparant les réponses des modèles, nous constatons que Grok-4 clarifie les ambiguïtés plus souvent que neuf autres modèles de pointe. Par rapport aux LLM, les embeddings SAE révèlent des différences plus importantes à un coût 2 à 8 fois inférieur et identifient les biais de manière plus fiable. De plus, les embeddings SAE sont contrôlables : en filtrant les concepts, nous pouvons (3) regrouper les documents selon des axes d'intérêt et (4) surpasser les embeddings denses pour la recherche basée sur des propriétés. En utilisant les embeddings SAE, nous étudions le comportement des modèles avec deux études de cas : l'examen de l'évolution du comportement des modèles d'OpenAI au fil du temps et la découverte de phrases "déclencheurs" apprises par Tulu-3 (Lambert et al., 2024) à partir de ses données d'entraînement. Ces résultats positionnent les SAE comme un outil polyvalent pour l'analyse de données non structurées et soulignent l'importance négligée de l'interprétation des modèles par le biais de leurs données.