Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles de langage multimodaux à grande échelle (MLLMs) ont réalisé des progrès remarquables dans les tâches de compréhension visuelle. Cependant, la plupart des MLLMs existants reposent sur une génération autorégressive, ce qui limite leur efficacité pour les tâches de perception nécessitant le légendage de plusieurs régions. Dans ce travail, nous proposons PerceptionDLM, un modèle de langage multimodal par diffusion optimisé pour une perception parallèle efficace des régions. Construit sur PerceptionDLM-Base, une référence fondationnelle solide qui atteint des performances de pointe parmi les MLLMs par diffusion open-source, notre architecture exploite pleinement la nature de décodage parallèle des DLMs. Plus précisément, nous introduisons un prompting efficace et un masquage d'attention structuré pour permettre la perception simultanée de plusieurs régions masquées, permettant au modèle de générer des descriptions de régions en parallèle, à la fois aux niveaux de la séquence et des jetons. Cette conception améliore considérablement l'efficacité d'inférence par rapport aux approches existantes qui traitent les régions séquentiellement. Pour évaluer systématiquement la propriété de parallélisme de la capacité de perception visuelle des DLMs, nous construisons un nouveau benchmark de légendage localisé détaillé parallèle (ParaDLC-Bench) en étendant le DLC-Bench pour inclure plusieurs masques de région par image, permettant une évaluation conjointe de la qualité du légendage et de l'efficacité d'inférence. Les expériences montrent que PerceptionDLM maintient des performances compétitives en matière de légendage de régions tout en obtenant des améliorations substantielles de vitesse pour les tâches de perception multi-régions. Nos résultats soulignent le potentiel des modèles de langage multimodaux par diffusion pour une perception visuelle parallèle et efficace. À notre connaissance, nous sommes les premiers à réaliser le légendage et la perception parallèles de régions en exploitant les avantages des modèles de langage par diffusion. Le code, les modèles et les ensembles de données sont publiés.
La génération personnalisée de présentations nécessite plus qu'un simple conditionnement basé sur une invite ou un modèle : les agents doivent préserver des préférences utilisateur stables à travers les tâches, retenir les préférences et contraintes nouvellement introduites lors des révisions en plusieurs tours, et effectuer des modifications locales de manière fiable. Nous proposons MemSlides, un cadre mémoire hiérarchique pour les agents de présentation personnalisée qui sépare la mémoire à long terme de la mémoire de travail et subdivise en outre la mémoire à long terme en mémoire de profil utilisateur et mémoire d'outils. La mémoire de profil utilisateur stocke des profils conditionnés par l'intention pour une personnalisation au tour zéro, la mémoire de travail conserve les préférences actives et les contraintes de session à travers les tours de révision, et la mémoire d'outils stocke une expérience d'exécution réutilisable pour des modifications localisées fiables. MemSlides associe cette conception mémoire à une révision locale limitée aux diapositives, de sorte que les mises à jour ciblées agissent sur la plus petite région affectée plutôt que de régénérer répétitivement l'ensemble du jeu. Dans des expériences contrôlées, la mémoire de profil utilisateur améliore les jugements d'alignement de persona sur une banque de profils multi-persona et multi-intention, l'injection de mémoire d'outils améliore le comportement de modification en boucle fermée dans des contextes diagnostiques appariés, et des cas qualitatifs illustrent la capacité de la mémoire de travail à transférer les préférences. Pris ensemble, ces résultats suggèrent qu'une personnalisation efficace dans la création de présentations dépend de la séparation des profils utilisateur persistants, de la mémoire de travail au niveau de la session et de l'expérience d'exécution réutilisable à travers la génération et la révision localisée.
Les benchmarks de mémoire pour les agents LLM reposent en grande partie sur des hypothèses de mono-utilisateur, laissant sous-étudiés les assistants partagés dans les hôpitaux, les lieux de travail, les campus et les foyers. Dans ces déploiements, plusieurs mandants écrivent dans un pool de mémoire commun et l’interrogent sous différents rôles, périmètres et relations, de sorte que la qualité de la mémoire exige à la fois une gouvernance et un rappel. Nous présentons GateMem, un benchmark pour les agents à mémoire partagée multi-principaux. GateMem évalue conjointement l’utilité pour les requêtes légitimes à long horizon avec mises à jour d’état, le contrôle d’accès à travers les limites d’autorisation contextuelles, et l’oubli actif orienté agent après des demandes explicites de suppression. Il couvre les domaines médical, professionnel, éducatif et domestique, avec des épisodes multipartites longs, une injection progressive de mémoire, des points de contrôle cachés, une évaluation structurée et des annotations de cibles de fuite. Parmi diverses bases de référence et modèles de base, aucune méthode n’atteint simultanément une utilité élevée, un contrôle d’accès robuste et un oubli fiable. Les invites à long contexte fournissent souvent le meilleur score de gouvernance à un coût en tokens élevé, tandis que les méthodes basées sur le rappel et la mémoire externe réduisent le coût mais divulguent encore des informations non autorisées ou supprimées. Ces résultats montrent que les agents à mémoire actuels restent loin d’un déploiement institutionnel partagé fiable.
Alors que le raisonnement sur les modèles autorégressifs (AR) s'effectue souvent par un raisonnement en chaîne de pensée et une réflexion, leur raffinement des sorties précédentes repose encore sur une génération entièrement séquentielle, même lorsque seules des modifications locales sont nécessaires. En revanche, le mécanisme de masquage dans les modèles de diffusion à masque (MDM) supporte naturellement des modifications locales explicites sur les sorties antérieures, permettant un raffinement sélectif sans avoir à écarter les réponses précédentes et à en générer une nouvelle à partir de zéro. Bien que cette propriété s'aligne plus étroitement sur la manière dont les humains corrigent leurs erreurs par un raffinement local itératif, les MDM existants ne prennent pas en charge le masquage et le débruitage multi-tours. Nous proposons le Masquage Réflexif (RM), qui suscite une telle capacité de raisonnement intrinsèque dans les MDM via un post-entraînement léger. Le RM offre une mise à l'échelle native au moment du test, où un MDM revisite et révise itérativement ses sorties antérieures en fonction du contexte évolutif. Pour exploiter les enseignements des tours précédents, à l'instar du raisonnement AR, nous introduisons la Référence d'Historique, un mécanisme sans paramètre qui tire parti des états de débruitage intermédiaires lors de la révision. Notre approche ne nécessite aucune modification architecturale et s'applique facilement aux MDM existants. Sur diverses tâches et modalités, notamment la génération de texte, le Sudoku et l'édition d'images, le Masquage Réflexif surpasse systématiquement les méthodes de base standard basées sur le masquage et démontre une grande généralité, positionnant le RM comme un élément fondamental pour le raisonnement sur les MDM.
Les systèmes de génération augmentée par récupération (RAG) dépendent de manière cruciale de la manière dont les documents sont fragmentés et recherchés. Des fragments fins peuvent améliorer la précision de la récupération, mais élargissent l'espace de recherche, augmentant ainsi la latence et le coût ; des fragments plus volumineux réduisent le nombre de candidats mais rendent la similarité dense moins fiable, car la représentation de chaque fragment mélange plusieurs sujets et introduit davantage de bruit sémantique. Ce compromis devient particulièrement limitant dans les tâches de recherche approfondie, où la récupération doit être à la fois rapide et précise sur de larges corpus hétérogènes. Nous présentons MCompassRAG, un cadre de récupération guidé par métadonnées qui utilise des signaux au niveau des sujets comme une boussole sémantique pour sélectionner les preuves pertinentes. Au lieu de se fier uniquement à la similarité cosinus entre les requêtes et les représentations de fragments bruitées, MCompassRAG enrichit les représentations des fragments avec des métadonnées de sujet dans le même espace de représentation et entraîne un récupérateur léger via une distillation enseignant-LLM. Au moment de l'inférence, MCompassRAG effectue une récupération consciente des sujets sans appels supplémentaires au LLM, améliorant à la fois l'efficacité et la qualité des preuves. Sur six bancs d'essai de récupération complexes, MCompassRAG améliore l'efficacité informationnelle (IE) de 8,24 % en moyenne, avec une latence plus de 5 fois inférieure à celle des bases de référence RAG efficaces les plus performantes. Le code est disponible sur https://github.com/AmirAbaskohi/MCompassRAG.
Les systèmes de génération augmentée par récupération (RAG) doivent concilier granularité de la récupération et cohérence contextuelle, un défi que les méthodes existantes abordent par le découpage guidé par LLM, l'expansion contextuelle à un seul niveau ou le résumé hiérarchique. Ces approches dépendent diversement d'appels coûteux au LLM lors de l'indexation ou de la récupération, limitent l'agrégation contextuelle à un seul niveau de granularité, ou introduisent une perte d'information via le résumé. Nous présentons SproutRAG, un cadre hiérarchique RAG guidé par l'attention qui traite ce compromis en organisant les blocs au niveau des phrases en unités progressivement plus grandes mais sémantiquement cohérentes, en utilisant l'attention inter-phrases apprise pour construire un arbre de découpage binaire. Contrairement aux approches antérieures qui reposent sur des LLM externes, une expansion contextuelle fixe ou un résumé avec perte, SproutRAG apprend quelles têtes d'attention et quelles couches capturent le mieux la structure documentaire sémantique, permettant une récupération multi-granularité sans appels supplémentaires au LLM ni résumés compressés. Lors de la récupération, SproutRAG utilise une recherche par faisceau hiérarchique pour récupérer des candidats à plusieurs granularités, capturant la pertinence multi-phrases au-delà de la récupération plate. Le cadre est entraîné de bout en bout avec un objectif conjoint qui améliore à la fois les plongements et la structure de l'arbre. Des expériences sur quatre benchmarks couvrant des domaines scientifiques, juridiques et ouverts montrent que SproutRAG améliore l'efficacité informationnelle (EI) de 6,1 % en moyenne par rapport à la baseline la plus forte. Le code est disponible sur https://github.com/AmirAbaskohi/SproutRAG.
L'imagerie par résonance magnétique (IRM) cérébrale tridimensionnelle (3D) est essentielle en neurologie clinique et en neuro-oncologie, où les modèles génératifs pourraient enrichir les cohortes sous-représentées, simuler des trajectoires de maladies et favoriser le partage de données respectueux de la vie privée. La diffusion latente constitue la solution de référence pour la modélisation des données d'imagerie, mais elle impose deux exigences concurrentes au tokeniseur : les plongements de l'encodeur doivent préserver les informations cliniques sur lesquelles reposent les tâches en aval, et le décodeur doit reconstruire des volumes anatomiquement fidèles. Les tokeniseurs actuels basés sur la reconstruction privilégient la seconde exigence au détriment de la première. Pour y remédier, nous introduisons un tokeniseur entièrement volumétrique fondé sur un auto-encodeur masqué (MAE) pour la diffusion latente d'IRM cérébrale 3D, en dissociant l'encodeur du décodeur : un encodeur MAE 3D figé produit des plongements cliniquement informatifs, tandis qu'un décodeur CNN dédié reconstruit les voxels à partir d'une projection linéaire de ces plongements. Nous pré-entraînons l'encodeur sur 35 309 volumes provenant de 18 cohortes publiques couvrant quatre modalités, dix catégories de maladies et plus de 200 sites d'acquisition, et démontrons sa double utilité dans deux contextes. Premièrement, sur un banc d'essai de sondage linéaire comprenant 23 tâches, l'encodeur surpasse ou égale les modèles de pointe (BrainIAC, BrainSegFounder et MedicalNet) pour 21 des 23 tâches. Deuxièmement, un transformateur de diffusion conditionnel (DiT) entraîné sur ces plongements cliniquement informatifs permet à la fois la génération conditionnelle pour six variables et la prévision longitudinale spécifique au patient. Ensemble, ces résultats établissent un espace de plongement unique pour l'IRM cérébrale 3D, capable à la fois de tâches cliniques en aval et de génération contrôlable.
Les systèmes généralistes vision-langage-action nécessitent des preuves 3D centrées sur l'objet et une expérience de manipulation réutilisable pour planifier des trajectoires robotiques fiables. GeneralVLA fournit une interface hiérarchique pour convertir le langage et les observations RGB-D en chemins 3D de l'effecteur terminal, mais deux goulets d'étranglement persistent. Premièrement, la reconstruction d'objets de type SAM3D monoculaire peut halluciner la pose et la géométrie non observée, tandis que la manipulation bénéficie d'une forme d'objet stable lorsque des observations multi-vues calibrées sont disponibles. Deuxièmement, la KnowledgeBank originale récupère principalement des extraits sémantiquement similaires et ajoute de nouvelles connaissances, ce qui rend difficile le contrôle de la qualité de la mémoire, des conflits, de la confiance et de la pertinence géométrique. Pour relever le premier défi, nous introduisons GeoFuse-MV3D, une branche de reconstruction MV-SAM3D guidée par un a priori géométrique, qui vérifie les indices géométriques externes avec les masques de la vue d'entrée, applique un support de coque visuelle souple, effectue un raffinement par axe, et ne fusionne que la géométrie tout en préservant l'apparence. Pour relever le second défi, nous faisons évoluer KnowledgeBank vers un système de mémoire à long terme gouverné, avec des métadonnées explicites de qualité, de confiance, de cycle de vie, de vérificateur et de conflit, ainsi qu'une récupération orientée précision. Enfin, nous évaluons la branche de reconstruction sur GSO-30 et le module mémoire sur Terminal-Bench 2.0 et SWE-Bench Verified ; GeoFuse-MV3D améliore la baseline MV-SAM3D en réduisant CD et LPIPS de 2,20 % et 2,02 %, tout en augmentant PSNR et SSIM de 2,36 % et 1,03 %, et KnowledgeBank améliore ReasoningBank de 4,53 % sur le taux de succès de Terminal-Bench et de 3,73 % sur le taux de résolution de SWE-Bench, tout en réduisant AS de 4,95 % et 5,65 %, respectivement. Code : https://github.com/AIGeeksGroup/GeneralVLA-2. Site web : https://aigeeksgroup.github.io/GeneralVLA-2.
Pour assister les humains sur de longues périodes dans des foyers réels, les agents incarnés doivent se souvenir des routines des utilisateurs, des états du monde et des interactions passées. Les références existantes en matière de mémoire à long terme évaluent principalement la récupération et le question-réponse centrés sur le langage, tandis que les références incarnées se concentrent souvent sur l'exécution de tâches à court terme sans tester l'utilisation de la mémoire à long terme dans des environnements dynamiques. Nous présentons WorldLines, une référence axée sur les projets pour l'assistance domestique incarnée à long terme. Il construit des traces domestiques temporellement étendues avec des dialogues, des actions, des retours d'exécution, des changements d'état d'objets et d'appareils, et les convertit en échantillons liés à des preuves pour le Memory QA et la planification de tâches incarnée. Nous proposons également ObsMem, un cadre de mémoire basé sur l'observateur qui maintient des mémoires conscientes de la visibilité et des traces d'état natives des actions pour des décisions tenant compte de l'état. Les expériences révèlent des défis persistants dans l'observabilité partielle, les états du monde écrasés et la traduction de la mémoire à long terme en plans incarnés, tandis qu'ObsMem offre une architecture de référence plus solide pour ce contexte.
Des avatars de tête 4D de haute qualité à partir d’un ou de quelques portraits sources sont essentiels pour la téléprésence, la RA/RV et l’interaction humain-numérique. Le 3D Gaussian Splatting (3DGS) est devenu la représentation dominante, avec deux régimes complémentaires (prédicteurs feed-forward généralisables et affineurs par sujet) qui mûrissent en parallèle. Cependant, les prédicteurs feed-forward existants sont entraînés sur une seule famille de jeux de données avec un nombre de sources codé en dur, héritant ainsi du biais de domaine correspondant. Les affineurs par sujet nécessitent entre 300 000 et 600 000 itérations et reposent sur une densification adaptative qui détruit les dispositions gaussiennes initiales, empêchant les deux régimes de partager une représentation de bout en bout. Pour rapprocher ces deux régimes, nous proposons SpatialAvatar-0 reposant sur une représentation gaussienne partagée liée au maillage FLAME : un générateur feed-forward avec une moyenne pondérée K sources sans paramètre et un plan en deux phases passant du temporel monoculaire au spatial multivue qui ancre le prior d’identité pour éviter son effondrement sur l’ensemble multivue plus petit. Nous introduisons également une boucle d’affinage par sujet préservant la disposition en 10 000 itérations, qui gèle la liaison FLAME et le nombre de gaussiennes, et remplace la densification par une régularisation anti-pic à trois composantes. Sur le benchmark zero-shot cross-domaine VFHQ/HDTF, nous surpassons le leader intra-domaine GAGAvatar de +1,5 dB PSNR bien que n’ayant jamais été entraînés sur l’un ou l’autre domaine de test, et sur le benchmark monoculaire SplattingAvatar, nous menons toutes les métriques rapportées, surpassant GeoAvatar (300 000 itérations) de +1,3 dB PSNR avec un planning par sujet jusqu’à 60 fois plus court que les meilleures bases de référence actuelles. Site web : https://spatialwalk.github.io/SpatialAvatar-0.
La composition narrative des corpus de pré-entraînement à grande échelle pour les LLM reste largement inexplorée, bien que la narration soit un mode fondamental de communication humaine. Nous présentons la première étude fine des caractéristiques narratives dans Dolma, un corpus de pré-entraînement ouvert de 3 000 milliards de tokens. En nous appuyant sur la théorie narrative, nous concevons un cadre couvrant trois éléments narratifs centraux (agentivité, cadre et événements) opérationnalisés en 11 dimensions interprétables. Après avoir échantillonné et annoté un ensemble diversifié de 400 passages, nous affinons et validons NarraBERT, un modèle basé sur RoBERTa pour la prédiction narrative fine. Nous appliquons NarraBERT à 3 millions de passages, ce qui donne un nouveau jeu de données, NarraDolma. Nous constatons (i) que la structure narrative est mesurable à grande échelle dans des données extrêmement hétérogènes, (ii) que nous découvrons une structure narrative continue et multidimensionnelle sous-jacente au texte web, et (iii) que les qualités narratives sont inégalement réparties entre les sources et les sujets de pré-entraînement, d'une manière que les pratiques actuelles de curation ne mesurent ni ne prennent en compte. Notre cadre, notre jeu de données et nos analyses fournissent une base pour comprendre comment les qualités narratives sont distribuées dans les données de pré-entraînement des LLM et pour étudier comment la composition des données affecte les tâches de raisonnement narratif. Nous rendons publics NarraDolma et NarraBERT.
Les modèles de langage multimodaux de grande taille (MLLMs) sont de plus en plus déployés dans des contextes ayant des conséquences importantes pour les individus et la société, mais les indices visuels qui influencent la manière dont ces modèles jugent les personnes restent mal compris. Les travaux antérieurs comparent souvent différents (groupes d')individus, ce qui rend difficile la distinction entre les effets liés à l'apparence et ceux liés à l'identité. Nous présentons StylisticBias, un banc d'essai contrôlé pour évaluer les biais sociaux au niveau des attributs dans les MLLMs. Nous générons 500 visages de base photoréalistes et créons environ 50 variations mono-attribut par visage, produisant ainsi environ 25 000 images. Cette conception maintient l'identité fixe et modifie un attribut visuel à la fois, ce qui permet de mesurer comment des indices spécifiques modifient les jugements du modèle. Nous évaluons six MLLMs sur 25 scénarios binaires de jugement social. Nous constatons que l'âge et le type de corps dominent les effets au niveau de l'identité, tandis que le style vestimentaire et d'autres indices visuels produisent les plus grands changements au niveau des attributs. Nous observons également qu'environ 15 attributs expliquent près de 80 % de la variation totale, montrant que le biais est concentré dans un petit ensemble d'indices visuels. La sensibilité est la plus forte pour les jugements sémantiquement alignés sur l'apparence, en particulier les jugements socio-économiques et liés au style. Nous publions StylisticBias comme un banc d'essai pour l'évaluation fine des biais dans les modèles multimodaux. Code et ensemble de données : https://github.com/timo-cavelius/StylisticBias et https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.
L'apprentissage en contexte (AEC) constitue la méthode standard pour la classification en contexte de faibles ressources, mais son efficacité dans des domaines spécialisés reste en grande partie inexplorée. Nous abordons le défi de la classification de conversations B2B multipartites et sémantiquement complexes, où l'AEC traditionnel rencontre des limitations importantes, en particulier lorsque la longueur du contexte augmente en raison de la concaténation de multiples exemples few-shot. Nous présentons le jeu de données Call Playbook, comprenant cinq tâches de classification issues de conversations B2B réelles ciblant des concepts commerciaux fondamentaux. Pour combler le fossé entre performance et utilité pratique, nous proposons de nouvelles méthodes d'extraction de connaissances qui distillent des exemples verbeux en représentations compactes et interprétables de critères de classification structurés et de descriptions précises de tâches. Notre approche atteint une réduction de 99 % de l'utilisation des tokens et améliore l'AUC moyenne macro jusqu'à 7 % par rapport à l'AEC traditionnel. Notamment, elle reste robuste à mesure que le contexte s'allonge, contrairement aux méthodes de référence avancées de compression de tokens dont la performance se dégrade de plus de 9 points F1. Enfin, notre cadre permet un affinement direct de la logique de classification, répondant aux besoins critiques de transparence, d'efficacité et d'interaction utilisateur dans les applications réelles de traitement du langage naturel.
Les données tabulaires médicales sont omniprésentes dans la recherche clinique, mais l'apprentissage profond pour les tableaux reste sous-exploité car les étiquettes fiables nécessitent souvent une expertise coûteuse, même si des variables cliniques structurées sont systématiquement disponibles sous forme tabulaire. L'apprentissage auto-supervisé peut tirer parti de ces tableaux non étiquetés, et les récents prétextes basés sur la discrétisation offrent un biais inductif prometteur, mais les objectifs existants fixent une seule discrétisation globale par quantiles et appliquent une supervision non spécifique aux caractéristiques. Nous proposons le binning adaptatif (Adaptive Binning), un prétexte de discrétisation adaptatif à l'entraînement pour l'apprentissage auto-supervisé tabulaire, qui couple la discrétisation à l'apprentissage via un curriculum allant du grossier au fin par caractéristique. Motivée par le biais spectral des réseaux de neurones et les principes de l'apprentissage curriculaire, notre méthode affine progressivement la discrétisation par caractéristique lors de la détection d'un plateau et sélectionne des partitions conscientes de la représentation pour améliorer conjointement la concentration dans l'espace des valeurs et la cohérence dans l'espace des représentations. Un objectif sensible à l'hétérogénéité unifie la reconstruction catégorielle avec une supervision ordinale pour les caractéristiques numériques, et des expériences sur des ensembles de données tabulaires médicales publiques, sous des protocoles d'évaluation unifiés, montrent des gains constants pour l'évaluation linéaire et le réglage fin, sans réglage spécifique de la discrétisation par ensemble de données. Nous introduisons également un référentiel SSL pour données tabulaires médicales, doté de protocoles standardisés, afin de soutenir des progrès reproductibles dans ce domaine sous-exploré. Notre code est disponible à l'adresse https://github.com/labhai/Adaptive-Binning.