Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous introduisons des méthodes pour quantifier comment les grands modèles de langage (LLM) encodent et stockent les informations contextuelles, révélant que les tokens souvent considérés comme mineurs (par exemple, les déterminants, la ponctuation) portent un contexte étonnamment élevé. De manière notable, la suppression de ces tokens — en particulier les mots vides, les articles et les virgules — dégrade systématiquement les performances sur MMLU et BABILong-4k, même si seuls les tokens jugés non pertinents sont supprimés. Notre analyse montre également une forte corrélation entre la contextualisation et la linéarité, où la linéarité mesure à quel point la transformation des embeddings d'une couche à la suivante peut être approximée par une seule application linéaire. Ces résultats soulignent l'importance cachée des tokens de remplissage dans le maintien du contexte. Pour approfondir cette exploration, nous présentons LLM-Microscope, une boîte à outils open-source qui évalue la non-linéarité au niveau des tokens, mesure la mémoire contextuelle, visualise les contributions des couches intermédiaires (via une version adaptée du Logit Lens) et quantifie la dimension intrinsèque des représentations. Cet outil met en lumière comment des tokens apparemment triviaux peuvent être essentiels pour la compréhension à long terme.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités de compréhension exceptionnelles et une vaste base de connaissances, suggérant qu'ils peuvent servir d'outils efficaces pour la génération automatisée d'enquêtes. Cependant, les recherches récentes sur la génération automatisée d'enquêtes restent limitées par certaines contraintes critiques, telles qu'une fenêtre de contexte finie, un manque de discussion approfondie sur le contenu et l'absence de cadres d'évaluation systématiques. Inspirés par les processus d'écriture humaine, nous proposons SurveyX, un système efficace et organisé pour la génération automatisée d'enquêtes qui décompose le processus de composition en deux phases : la phase de préparation et la phase de génération. En introduisant de manière innovante la récupération de références en ligne, une méthode de prétraitement appelée AttributeTree, et un processus de repolissage, SurveyX améliore significativement l'efficacité de la composition d'enquêtes. Les résultats de l'évaluation expérimentale montrent que SurveyX surpasse les systèmes existants de génération automatisée d'enquêtes en termes de qualité de contenu (amélioration de 0,259) et de qualité des citations (amélioration de 1,76), approchant les performances d'experts humains sur plusieurs dimensions d'évaluation. Des exemples d'enquêtes générées par SurveyX sont disponibles sur www.surveyx.cn.
Comprendre les molécules est essentiel pour comprendre les organismes et stimuler les avancées dans la découverte de médicaments, ce qui nécessite des connaissances interdisciplinaires en chimie et en biologie. Bien que les grands modèles de langage moléculaire aient obtenu des succès notables dans l'interprétation des structures moléculaires, leurs jeux de données d'instruction se limitent aux connaissances spécifiques issues de jeux de données orientés tâches et ne couvrent pas pleinement les caractéristiques fondamentales des molécules, entravant ainsi leurs capacités en tant qu'assistants moléculaires polyvalents. Pour résoudre ce problème, nous proposons Mol-LLaMA, un grand modèle de langage moléculaire qui saisit les connaissances générales centrées sur les molécules via un réglage d'instruction multimodal. À cette fin, nous concevons des types de données clés qui englobent les caractéristiques fondamentales des molécules, en intégrant des connaissances essentielles issues des structures moléculaires. De plus, pour améliorer la compréhension des caractéristiques moléculaires, nous introduisons un module qui intègre des informations complémentaires provenant de différents encodeurs moléculaires, en tirant parti des avantages distincts des différentes représentations moléculaires. Nos résultats expérimentaux démontrent que Mol-LLaMA est capable de comprendre les caractéristiques générales des molécules et de générer des réponses pertinentes aux requêtes des utilisateurs avec des explications détaillées, suggérant son potentiel en tant qu'assistant polyvalent pour l'analyse moléculaire.
Nous présentons PhotoDoodle, un nouveau cadre d'édition d'images conçu pour faciliter le dessin sur photo en permettant aux artistes de superposer des éléments décoratifs sur des photographies. Le dessin sur photo est un défi, car les éléments insérés doivent apparaître parfaitement intégrés à l'arrière-plan, nécessitant un mélange réaliste, un alignement de perspective et une cohérence contextuelle. De plus, l'arrière-plan doit être préservé sans distorsion, et le style unique de l'artiste doit être capturé efficacement à partir de données d'entraînement limitées. Ces exigences ne sont pas prises en compte par les méthodes précédentes qui se concentrent principalement sur le transfert de style global ou la restauration régionale. La méthode proposée, PhotoDoodle, utilise une stratégie d'entraînement en deux étapes. Initialement, nous entraînons un modèle d'édition d'image à usage général, OmniEditor, en utilisant des données à grande échelle. Ensuite, nous affinons ce modèle avec EditLoRA en utilisant un petit ensemble de données d'images avant-après, soigneusement sélectionnées par l'artiste, pour capturer des styles et techniques d'édition distincts. Pour améliorer la cohérence des résultats générés, nous introduisons un mécanisme de réutilisation d'encodage positionnel. De plus, nous publions un ensemble de données PhotoDoodle présentant six styles de haute qualité. Des expériences approfondies démontrent les performances avancées et la robustesse de notre méthode dans l'édition d'images personnalisée, ouvrant de nouvelles possibilités pour la création artistique.
Les modèles du monde capables de prédire les changements environnementaux à partir des actions sont essentiels pour les modèles de conduite autonome dotés d'une forte généralisation. Les modèles du monde de conduite prédominants s'appuient principalement sur des modèles de prédiction vidéo. Bien que ces modèles puissent produire des séquences vidéo de haute fidélité grâce à des générateurs avancés basés sur la diffusion, ils sont limités par leur durée de prédiction et leurs capacités de généralisation globales. Dans cet article, nous explorons la résolution de ce problème en combinant une perte de génération avec un apprentissage contextuel au niveau des caractéristiques de style MAE. Plus précisément, nous concrétisons cet objectif avec trois conceptions clés : (1) Une structure de Diffusion Transformer (DiT) plus évolutive entraînée avec une tâche supplémentaire de construction de masque. (2) Nous concevons des tokens de masque liés à la diffusion pour gérer les relations floues entre la reconstruction de masque et le processus de diffusion générative. (3) Nous étendons la tâche de construction de masque au domaine spatio-temporel en utilisant un masque par ligne pour l'auto-attention décalée plutôt que l'auto-attention masquée dans MAE. Ensuite, nous adoptons un module de vue croisée par ligne pour s'aligner sur cette conception de masque. Sur la base de ces améliorations, nous proposons MaskGWM : un modèle du monde de conduite généralisable intégrant une reconstruction vidéo par masque. Notre modèle comprend deux variantes : MaskGWM-long, axé sur la prédiction à long terme, et MaskGWM-mview, dédié à la génération multi-vues. Des expériences approfondies sur des benchmarks standards valident l'efficacité de la méthode proposée, comprenant une validation normale sur le dataset Nuscene, un déploiement à long terme sur le dataset OpenDV-2K et une validation en zero-shot sur le dataset Waymo. Les métriques quantitatives sur ces datasets montrent que notre méthode améliore notablement l'état de l'art des modèles du monde de conduite.
Ce document identifie la mauvaise interprétation du contexte comme un problème majeur lors du processus de raisonnement des grands modèles de langage, allant des modèles plus petits comme Llama3.2-3B-Instruct aux modèles de pointe comme DeepSeek-R1. Par exemple, dans l'expression "10 dollars par kilo", les LLM pourraient ne pas reconnaître que "par" signifie "pour chaque", entraînant des erreurs de calcul. Nous introduisons une nouvelle approche post-entraînement appelée **Stick to the Facts (SIFT)** pour résoudre ce problème. SIFT exploite une puissance de calcul accrue au moment de l'inférence pour ancrer le raisonnement des LLM dans les contextes. Au cœur de SIFT se trouve le *Sticker*, généré par le modèle lui-même pour mettre explicitement en avant les informations clés du contexte. À partir du Sticker soigneusement élaboré, SIFT génère deux prédictions — une à partir de la requête originale et une autre à partir de la requête enrichie avec le Sticker. Si elles diffèrent, le Sticker est affiné séquentiellement via une optimisation *forward* (pour mieux aligner les faits extraits avec la requête) et une génération *inverse* (pour se conformer aux tendances inhérentes du modèle) afin d'obtenir des résultats de raisonnement plus fidèles. Des études menées sur divers modèles (de 3B à 100B+) et benchmarks (par exemple, GSM8K, MATH-500) révèlent des améliorations de performance constantes. Notamment, SIFT améliore la précision pass@1 de DeepSeek-R1 sur AIME2024 de 78,33 % à **85,67** %, établissant un nouvel état de l'art dans la communauté open source. Le code est disponible à l'adresse https://github.com/zhijie-group/SIFT.
Lier visuellement des indices correspondants est une compétence cruciale dans la vie quotidienne, comme identifier la même personne sur plusieurs photos en se basant sur ses indices, même sans savoir qui elle est. Malgré les vastes connaissances dont disposent les modèles vision-langage (VLMs), il reste largement inexploré s'ils sont capables d'accomplir cette tâche fondamentale. Pour aborder cette question, nous introduisons VLM^2-Bench, un benchmark conçu pour évaluer si les VLMs peuvent lier visuellement des indices correspondants, avec 9 sous-tâches et plus de 3 000 cas de test. Une évaluation approfondie de huit VLMs open-source et de GPT-4o, ainsi qu'une analyse approfondie de diverses méthodes d'invocation côté langage et côté vision, conduisent à un total de huit conclusions clés. Nous identifions des défis critiques dans la capacité des modèles à relier des indices visuels, mettant en évidence un écart de performance significatif où même GPT-4o est en retard de 34,80 % par rapport aux humains. Sur la base de ces insights, nous préconisons (i) d'améliorer les capacités visuelles de base pour accroître l'adaptabilité et réduire la dépendance aux connaissances préalables, (ii) d'établir des principes plus clairs pour intégrer le raisonnement basé sur le langage dans les tâches centrées sur la vision afin d'éviter des biais inutiles, et (iii) de faire évoluer les paradigmes d'entraînement vision-texte vers le développement de la capacité des modèles à structurer et inférer de manière indépendante les relations entre les indices visuels.
Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans les tâches de raisonnement complexe, mais leur efficacité est entravée par les coûts substantiels en mémoire et en calcul associés à la génération de tokens longs. Dans cet article, nous proposons LightThinker, une méthode novatrice qui permet aux LLMs de compresser dynamiquement les pensées intermédiaires lors du raisonnement. Inspiré par les processus cognitifs humains, LightThinker compresse les étapes de pensée verbeuses en représentations compactes et élimine les chaînes de raisonnement originales, réduisant ainsi significativement le nombre de tokens stockés dans la fenêtre contextuelle. Cela est réalisé en entraînant le modèle sur quand et comment effectuer la compression grâce à la construction de données, en mappant les états cachés à des tokens résumés, et en créant des masques d'attention spécialisés. De plus, nous introduisons la métrique de Dépendance (Dep) pour quantifier le degré de compression en mesurant la dépendance aux tokens historiques lors de la génération. Des expériences approfondies sur quatre jeux de données et deux modèles montrent que LightThinker réduit l'utilisation de mémoire maximale et le temps d'inférence, tout en maintenant une précision compétitive. Notre travail ouvre une nouvelle voie pour améliorer l'efficacité des LLMs dans les tâches de raisonnement complexe sans sacrifier les performances. Le code sera disponible à l'adresse https://github.com/zjunlp/LightThinker.
L'augmentation de la longueur effective de contexte est essentielle pour faire progresser les grands modèles de langage (LLMs) vers l'intelligence artificielle générale (AGI). Cependant, l'augmentation quadratique de la complexité computationnelle inhérente aux mécanismes d'attention traditionnels représente un surcoût prohibitif. Les approches existantes imposent soit des structures fortement biaisées, comme l'attention par puits ou par fenêtre, qui sont spécifiques à des tâches, soit modifient radicalement le mécanisme d'attention en des approximations linéaires, dont les performances dans des tâches de raisonnement complexe restent insuffisamment explorées. Dans ce travail, nous proposons une solution qui adhère au principe de « moins de structure », permettant au modèle de déterminer de manière autonome où porter son attention, plutôt que d'introduire des biais prédéfinis. Nous introduisons le Mixture of Block Attention (MoBA), une approche innovante qui applique les principes du Mixture of Experts (MoE) au mécanisme d'attention. Cette nouvelle architecture démontre des performances supérieures sur des tâches à contexte long tout en offrant un avantage clé : la capacité de passer de manière fluide entre une attention complète et une attention parcimonieuse, améliorant ainsi l'efficacité sans risquer de compromettre les performances. MoBA a déjà été déployé pour prendre en charge les requêtes à contexte long de Kimi et montre des avancées significatives dans le calcul efficace de l'attention pour les LLMs. Notre code est disponible à l'adresse https://github.com/MoonshotAI/MoBA.
Alors que l'utilisation d'agents basés sur des modèles de langage de grande taille (LLM) continue de croître, leurs vulnérabilités en matière de sécurité deviennent de plus en plus évidentes. Des benchmarks étendus évaluent divers aspects de la sécurité des LLM en définissant celle-ci principalement selon des normes générales, négligeant les normes spécifiques aux utilisateurs. Cependant, les normes de sécurité pour les LLM peuvent varier en fonction de profils spécifiques aux utilisateurs plutôt que d'être universellement cohérentes pour tous les utilisateurs. Cela soulève une question de recherche cruciale : les agents LLM agissent-ils de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs ? Malgré son importance pour une utilisation sûre des LLM, aucun ensemble de données de benchmark n'existe actuellement pour évaluer la sécurité spécifique aux utilisateurs des LLM. Pour combler cette lacune, nous introduisons U-SAFEBENCH, le premier benchmark conçu pour évaluer l'aspect spécifique aux utilisateurs de la sécurité des LLM. Notre évaluation de 18 LLM largement utilisés révèle que les LLM actuels ne parviennent pas à agir de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs, marquant une nouvelle découverte dans ce domaine. Pour remédier à cette vulnérabilité, nous proposons une solution simple basée sur la chaîne de pensée, démontrant son efficacité pour améliorer la sécurité spécifique aux utilisateurs. Notre benchmark et notre code sont disponibles à l'adresse https://github.com/yeonjun-in/U-SafeBench.
La capacité à suivre des instructions sur plusieurs tours de dialogue constitue une compétence essentielle des grands modèles de langage (LLMs) dans les applications réelles. Les benchmarks d'évaluation existants se concentrent principalement sur la satisfaction de contraintes fines et l'évaluation des capacités spécifiques à un domaine, mais négligent la dépendance structurelle cruciale entre les tours de dialogue qui distingue les interactions multi-tours des interactions à tour unique. Cette dépendance structurelle reflète non seulement l'intention de l'utilisateur, mais établit également une deuxième dimension pour l'évaluation du suivi des instructions au-delà de la satisfaction des contraintes. Pour combler cette lacune, nous proposons StructFlowBench, un benchmark de suivi d'instructions multi-tours avec modélisation du flux structurel. Le benchmark définit de manière innovante un cadre de flux structurel comprenant six relations fondamentales entre les tours, qui introduit non seulement de nouvelles contraintes structurelles pour l'évaluation des modèles, mais sert également de paramètres de génération pour créer des flux de dialogue personnalisés adaptés à des scénarios spécifiques. En adoptant des méthodologies d'évaluation automatique basées sur les LLMs, nous menons des évaluations systématiques de 13 LLMs open-source et propriétaires leaders. Les résultats expérimentaux révèlent des lacunes significatives dans la compréhension des structures de dialogue multi-tours par les modèles actuels. Le code est disponible à l'adresse https://github.com/MLGroupJLU/StructFlowBench.
La synthèse de matériaux est essentielle pour les innovations dans des domaines tels que le stockage d'énergie, la catalyse, l'électronique et les dispositifs biomédicaux. Cependant, ce processus repose largement sur des méthodes empiriques d'essai et d'erreur guidées par l'intuition experte. Notre travail vise à soutenir la communauté des sciences des matériaux en fournissant une ressource pratique et basée sur les données. Nous avons constitué un ensemble de données complet de 17 000 recettes de synthèse vérifiées par des experts à partir de la littérature en libre accès, qui sert de base à notre nouveau benchmark, AlchemyBench. AlchemyBench propose un cadre de bout en bout qui soutient la recherche sur les modèles de langage appliqués à la prédiction de synthèse. Il englobe des tâches clés, notamment la prédiction des matières premières et des équipements, la génération de procédures de synthèse et la prévision des résultats de caractérisation. Nous proposons un cadre LLM-as-a-Judge qui exploite les modèles de langage pour l'évaluation automatisée, démontrant un fort accord statistique avec les évaluations expertes. Globalement, nos contributions offrent une base solide pour explorer les capacités des modèles de langage dans la prédiction et le guidage de la synthèse de matériaux, ouvrant ainsi la voie à une conception expérimentale plus efficace et à une innovation accélérée dans les sciences des matériaux.
Cet article présente le Korean National Educational Test Benchmark (KoNET), un nouveau benchmark conçu pour évaluer les systèmes d'IA générative multimodale à l'aide des tests éducatifs nationaux coréens. KoNET comprend quatre examens : le Korean Elementary General Educational Development Test (KoEGED), le Middle (KoMGED), le High (KoHGED) et le College Scholastic Ability Test (KoCSAT). Ces examens sont réputés pour leurs normes rigoureuses et leurs questions diversifiées, permettant une analyse approfondie des performances de l'IA à différents niveaux éducatifs. En se concentrant sur le coréen, KoNET offre des insights sur les performances des modèles dans des langues moins explorées. Nous évaluons une gamme de modèles - open-source, en accès libre et APIs fermées - en examinant les difficultés, la diversité des sujets et les taux d'erreur humaine. Le code et le constructeur de jeux de données seront entièrement open-sourcés à l'adresse https://github.com/naver-ai/KoNET.
Les grands modèles de langage ont démontré des progrès remarquables en raisonnement mathématique, en exploitant les chaînes de pensée et la mise à l'échelle des calculs au moment du test. Cependant, de nombreuses questions restent ouvertes concernant l'interaction entre l'utilisation des tokens de raisonnement et les gains de précision. En particulier, lors de la comparaison de modèles entre différentes générations, il n'est pas clair si l'amélioration des performances résulte de chaînes de raisonnement plus longues ou d'un raisonnement plus efficace. Nous analysons systématiquement la longueur des chaînes de pensée à travers les variantes o1-mini et o3-mini sur le benchmark Omni-MATH, constatant que o3-mini (m) atteint une précision supérieure sans nécessiter de chaînes de raisonnement plus longues que o1-mini. De plus, nous montrons que la précision diminue généralement à mesure que les chaînes de raisonnement s'allongent pour tous les modèles et configurations de calcul, même en contrôlant la difficulté des questions. Cette baisse de précision est significativement plus faible dans les modèles plus performants, suggérant que les nouvelles générations de modèles de raisonnement utilisent les calculs au moment du test de manière plus efficace. Enfin, nous soulignons que bien que o3-mini (h) obtienne un gain de précision marginal par rapport à o3-mini (m), il le fait en allouant considérablement plus de tokens de raisonnement pour tous les problèmes, même ceux que o3-mini (m) peut déjà résoudre. Ces résultats apportent de nouvelles perspectives sur la relation entre la capacité du modèle et la longueur du raisonnement, avec des implications pour l'efficacité, la mise à l'échelle et les méthodologies d'évaluation.
La génération de la structure principale des protéines joue un rôle central dans la conception de novo des protéines et revêt une importance majeure pour de nombreuses applications biologiques et médicales. Bien que les modèles génératifs basés sur la diffusion et les flux offrent des solutions potentielles à cette tâche complexe, ils génèrent souvent des protéines avec une désirabilité insuffisante et souffrent d'une inefficacité computationnelle. Dans cette étude, nous proposons une nouvelle méthode de correspondance de flux de quaternions rectifiés (ReQFlow) pour une génération rapide et de haute qualité de la structure principale des protéines. Plus précisément, notre méthode génère une translation locale et une rotation 3D à partir d'un bruit aléatoire pour chaque résidu d'une chaîne protéique, représentant chaque rotation 3D sous forme d'un quaternion unitaire et construisant son flux par interpolation linéaire sphérique (SLERP) dans un format exponentiel. Nous entraînons le modèle par correspondance de flux de quaternions (QFlow) avec une stabilité numérique garantie et rectifions le modèle QFlow pour accélérer son inférence et améliorer la désirabilité des structures principales de protéines générées, aboutissant au modèle ReQFlow proposé. Les expériences montrent que ReQFlow atteint des performances de pointe dans la génération de la structure principale des protéines tout en nécessitant beaucoup moins d'étapes d'échantillonnage et un temps d'inférence significativement réduit (par exemple, étant 37 fois plus rapide que RFDiffusion et 62 fois plus rapide que Genie2 lors de la génération d'une structure principale de longueur 300), démontrant ainsi son efficacité et son efficience. Le code est disponible à l'adresse suivante : https://github.com/AngxiaoYue/ReQFlow.
Les avancées des modèles de langage de grande taille (LLMs) et leur utilisation croissante dans le domaine des questions-réponses médicales nécessitent une évaluation rigoureuse de leur fiabilité. Un défi majeur réside dans le phénomène d'hallucination, où les modèles génèrent des réponses plausibles mais factuellement incorrectes. Dans le domaine médical, cela pose des risques sérieux pour la sécurité des patients et la prise de décision clinique. Pour y remédier, nous introduisons MedHallu, le premier benchmark spécifiquement conçu pour la détection des hallucinations médicales. MedHallu comprend 10 000 paires questions-réponses de haute qualité issues de PubMedQA, avec des réponses hallucinées systématiquement générées via un pipeline contrôlé. Nos expériences montrent que les LLMs de pointe, y compris GPT-4o, Llama-3.1 et le modèle médicalement affiné UltraMedical, peinent à accomplir cette tâche binaire de détection d'hallucinations, le meilleur modèle atteignant un score F1 aussi bas que 0,625 pour détecter les hallucinations de catégorie "difficile". En utilisant un clustering d'implication bidirectionnelle, nous montrons que les hallucinations plus difficiles à détecter sont sémantiquement plus proches de la vérité de référence. À travers des expériences, nous montrons également que l'intégration de connaissances spécifiques au domaine et l'introduction d'une catégorie "je ne suis pas sûr" parmi les réponses améliorent la précision et les scores F1 jusqu'à 38 % par rapport aux bases de référence.
Les approches sans réglage adaptant les modèles de diffusion vidéo pré-entraînés à grande échelle pour la génération de vidéos à partir de texte tout en préservant l'identité (IPT2V) ont gagné en popularité récemment en raison de leur efficacité et de leur évolutivité. Cependant, des défis importants subsistent pour obtenir des dynamiques faciales satisfaisantes tout en maintenant l'identité inchangée. Dans ce travail, nous présentons un nouveau cadre IPT2V sans réglage en améliorant la connaissance des visages du modèle vidéo pré-entraîné basé sur des transformateurs de diffusion (DiT), baptisé FantasyID. Essentiellement, une information géométrique faciale 3D est intégrée pour garantir des structures faciales plausibles lors de la synthèse vidéo. Pour empêcher le modèle d'apprendre des raccourcis de copier-coller qui reproduisent simplement le visage de référence à travers les images, une stratégie d'augmentation faciale multi-vues est conçue pour capturer diverses caractéristiques d'apparence faciale 2D, augmentant ainsi la dynamique des expressions faciales et des poses de tête. De plus, après avoir fusionné les caractéristiques 2D et 3D comme guide, au lieu d'utiliser naïvement l'attention croisée pour injecter les indices de guidage dans les couches DiT, un mécanisme adaptatif apprenable sensible aux couches est employé pour injecter sélectivement les caractéristiques fusionnées dans chaque couche DiT individuelle, facilitant une modélisation équilibrée de la préservation de l'identité et des dynamiques de mouvement. Les résultats expérimentaux valident la supériorité de notre modèle par rapport aux méthodes IPT2V sans réglage actuelles.
Dans cet article, nous abordons le défi de l'application stricte de schémas dans la génération de modèles de langage à grande échelle (LLM) en exploitant leurs capacités de raisonnement. En nous appuyant sur le cadre d'apprentissage par renforcement DeepSeek R1, notre approche entraîne les compétences de raisonnement structuré d'un modèle de 1,5 milliard de paramètres à travers un pipeline innovant qui combine la construction d'un ensemble de données de raisonnement synthétique avec des fonctions de récompense personnalisées sous l'optimisation de politique relative par groupe (GRPO). Plus précisément, nous effectuons d'abord un apprentissage par renforcement R1 sur un ensemble de données de 20 000 échantillons passant de non structuré à structuré, reflétant les méthodes originales de DeepSeek R1, pour établir les capacités de raisonnement de base. Ensuite, nous avons réalisé un affinage supervisé sur un ensemble de données distinct de 10 000 échantillons de raisonnement, en nous concentrant sur l'amélioration de l'adhérence au schéma pour les tâches en aval. Malgré une portée de formation relativement modeste, nécessitant environ 20 heures sur un cluster GPU 8xH100 pour l'entraînement GRPO et 3 heures sur 1xA100 pour l'affinage supervisé (SFT), notre modèle démontre une performance robuste dans l'application de la cohérence des schémas. Nous comparons notre approche ThinkJSON à l'original DeepSeek R1 (671B), aux versions distillées de DeepSeek R1 (Qwen-1.5B et Qwen-7B), et à Gemini 2.0 Flash (70B), mettant en évidence son efficacité dans des applications réelles. Nos résultats soulignent l'utilité pratique d'un cadre efficace en termes de ressources pour la génération de texte contraint par des schémas.
L'échantillonnage à partir de modèles de diffusion implique un processus itératif lent qui entrave leur déploiement pratique, en particulier pour les applications interactives. Pour accélérer la vitesse de génération, les approches récentes distillent un modèle de diffusion à plusieurs étapes en un générateur étudiant à une seule étape via une distillation variationnelle des scores, qui aligne la distribution des échantillons générés par l'étudiant sur celle de l'enseignant. Cependant, ces approches utilisent la divergence de Kullback-Leibler (KL) inverse pour l'alignement des distributions, qui est connue pour être orientée vers la recherche de modes. Dans cet article, nous généralisons l'approche d'alignement des distributions en utilisant un nouveau cadre de minimisation de f-divergence, appelé f-distill, qui couvre différentes divergences avec des compromis variés en termes de couverture des modes et de variance d'entraînement. Nous dérivons le gradient de la f-divergence entre les distributions de l'enseignant et de l'étudiant et montrons qu'il s'exprime comme le produit de leurs différences de scores et d'une fonction de pondération déterminée par leur rapport de densité. Cette fonction de pondération met naturellement l'accent sur les échantillons ayant une densité plus élevée dans la distribution de l'enseignant, lors de l'utilisation d'une divergence moins orientée vers la recherche de modes. Nous observons que l'approche populaire de distillation variationnelle des scores utilisant la divergence KL inverse est un cas particulier dans notre cadre. Empiriquement, nous démontrons que des f-divergences alternatives, telles que la divergence KL directe et la divergence de Jensen-Shannon, surpassent les meilleures méthodes actuelles de distillation variationnelle des scores dans diverses tâches de génération d'images. En particulier, lors de l'utilisation de la divergence de Jensen-Shannon, f-distill atteint les performances actuelles de pointe en génération en une étape sur ImageNet64 et en génération texte-image zero-shot sur MS-COCO. Page du projet : https://research.nvidia.com/labs/genair/f-distill
Avec l'adoption croissante de la Génération Augmentée par Récupération (RAG) dans le traitement de documents, la reconnaissance robuste de texte est devenue de plus en plus cruciale pour l'extraction de connaissances. Alors que la Reconnaissance Optique de Caractères (OCR) pour l'anglais et d'autres langues bénéficie de vastes ensembles de données et de benchmarks bien établis, l'OCR arabe fait face à des défis uniques en raison de son écriture cursive, de son flux de texte de droite à gauche, et de ses caractéristiques typographiques et calligraphiques complexes. Nous présentons KITAB-Bench, un benchmark complet d'OCR arabe qui comble les lacunes des systèmes d'évaluation actuels. Notre benchmark comprend 8 809 échantillons répartis dans 9 domaines principaux et 36 sous-domaines, couvrant divers types de documents incluant du texte manuscrit, des tableaux structurés, et une couverture spécialisée de 21 types de graphiques pour l'intelligence d'affaires. Nos résultats montrent que les modèles modernes de vision et langage (tels que GPT-4, Gemini et Qwen) surpassent les approches OCR traditionnelles (comme EasyOCR, PaddleOCR et Surya) de 60 % en moyenne en termes de Taux d'Erreur de Caractère (CER). De plus, nous mettons en lumière les limites significatives des modèles actuels d'OCR arabe, notamment dans la conversion de PDF en Markdown, où le meilleur modèle, Gemini-2.0-Flash, n'atteint que 65 % de précision. Cela souligne les défis liés à la reconnaissance précise du texte arabe, incluant les problèmes de polices complexes, d'erreurs de reconnaissance des chiffres, d'étirement des mots et de détection de la structure des tableaux. Ce travail établit un cadre d'évaluation rigoureux qui peut stimuler les améliorations des méthodes d'analyse de documents arabes et combler l'écart de performance avec les technologies OCR anglaises.
Les benchmarks existants ne testent pas les modèles multimodaux de grande taille (LMMs) sur leur intelligence interactive avec les utilisateurs humains, pourtant essentielle pour le développement d'assistants IA à usage général. Nous concevons InterFeedback, un cadre interactif qui peut être appliqué à n'importe quel LMM et ensemble de données pour évaluer cette capacité de manière autonome. En complément, nous introduisons InterFeedback-Bench, qui évalue l'intelligence interactive en utilisant deux ensembles de données représentatifs, MMMU-Pro et MathVerse, pour tester 10 LMMs open-source différents. De plus, nous présentons InterFeedback-Human, un nouvel ensemble de données de 120 cas conçu pour tester manuellement la performance interactive des modèles leaders tels qu'OpenAI-o1 et Claude-3.5-Sonnet. Nos résultats d'évaluation montrent que même les LMMs de pointe (comme OpenAI-o1) peuvent corriger leurs résultats grâce au feedback humain dans moins de 50% des cas. Nos conclusions soulignent la nécessité de méthodes capables d'améliorer la capacité des LMMs à interpréter et à tirer profit du feedback.
Avec la croissance exponentielle de la recherche facilitée par les technologies modernes et l'amélioration de l'accessibilité, les découvertes scientifiques sont devenues de plus en plus fragmentées, tant au sein des disciplines qu'entre elles. Cela rend difficile l'évaluation de la signification, de la nouveauté, des résultats incrémentaux et des idées équivalentes entre des travaux connexes, en particulier ceux provenant de différentes communautés de recherche. Les grands modèles de langage (LLMs) ont récemment démontré des capacités solides en matière de raisonnement quantitatif et qualitatif, et les débats multi-agents basés sur ces modèles ont montré leur potentiel pour gérer des tâches de raisonnement complexes en explorant des perspectives et des chemins de raisonnement diversifiés. Inspirés par cela, nous introduisons le cadre Tree-of-Debate (ToD), qui transforme les articles scientifiques en personnages LLM débattant de leurs nouveautés respectives. Pour mettre l'accent sur un raisonnement critique structuré plutôt que sur les seuls résultats, ToD construit dynamiquement un arbre de débat, permettant une analyse fine des arguments indépendants de nouveauté dans les articles scientifiques. À travers des expériences sur des littératures scientifiques dans divers domaines, évaluées par des chercheurs experts, nous démontrons que ToD génère des arguments informatifs, met efficacement en contraste les articles et soutient les chercheurs dans leur revue de littérature.
Prédire le moment opportun pour initier la parole dans des environnements réels demeure un défi fondamental pour les agents conversationnels. Nous présentons EgoSpeak, un nouveau cadre pour la prédiction en temps réel de l'initiation de la parole dans des vidéos en flux continu à la première personne. En modélisant la conversation du point de vue du locuteur, EgoSpeak est conçu pour des interactions humaines dans lesquelles un agent conversationnel doit observer continuellement son environnement et décider dynamiquement quand parler. Notre approche comble l'écart entre les configurations expérimentales simplifiées et les conversations naturelles complexes en intégrant quatre capacités clés : (1) la perspective à la première personne, (2) le traitement RGB, (3) le traitement en ligne, et (4) le traitement de vidéos non découpées. Nous présentons également YT-Conversation, une collection diversifiée de vidéos conversationnelles en situation réelle provenant de YouTube, comme ressource pour le pré-entraînement à grande échelle. Les expériences sur EasyCom et Ego4D montrent qu'EgoSpeak surpasse les bases de référence aléatoires et basées sur le silence en temps réel. Nos résultats soulignent également l'importance de l'entrée multimodale et de la longueur du contexte pour décider efficacement quand parler.
Les principales entreprises d'IA se concentrent de plus en plus sur le développement d'agents IA généralistes - des systèmes capables de planifier, d'agir et de poursuivre des objectifs de manière autonome dans presque toutes les tâches que les humains peuvent accomplir. Bien que ces systèmes puissent être utiles, une agence IA non contrôlée présente des risques significatifs pour la sécurité publique et la sûreté, allant de l'utilisation malveillante par des acteurs malintentionnés à une perte potentiellement irréversible de contrôle humain. Nous examinons comment ces risques découlent des méthodes actuelles de formation de l'IA. En effet, divers scénarios et expériences ont démontré la possibilité que des agents IA se livrent à des tromperies ou poursuivent des objectifs non spécifiés par les opérateurs humains et qui entrent en conflit avec les intérêts humains, comme l'auto-préservation. Suivant le principe de précaution, nous voyons un besoin urgent d'alternatives plus sûres, tout en restant utiles, à la trajectoire actuelle axée sur l'agence. En conséquence, nous proposons comme élément fondamental pour les avancées futures le développement d'un système IA non agentique, fiable et sûr par conception, que nous appelons Scientist AI. Ce système est conçu pour expliquer le monde à partir d'observations, plutôt que d'agir pour imiter ou plaire aux humains. Il comprend un modèle du monde qui génère des théories pour expliquer les données et une machine d'inférence pour répondre aux questions. Les deux composants fonctionnent avec une notion explicite d'incertitude pour atténuer les risques de prédictions trop confiantes. À la lumière de ces considérations, un Scientist AI pourrait être utilisé pour aider les chercheurs humains à accélérer les progrès scientifiques, y compris dans la sécurité de l'IA. En particulier, notre système peut servir de garde-fou contre les agents IA qui pourraient être créés malgré les risques encourus. En fin de compte, se concentrer sur l'IA non agentique pourrait permettre de bénéficier des avantages de l'innovation en IA tout en évitant les risques associés à la trajectoire actuelle. Nous espérons que ces arguments motiveront les chercheurs, les développeurs et les décideurs politiques à privilégier cette voie plus sûre.
Les embeddings stylistiques sont utiles pour l'analyse stylistique et le transfert de style ; cependant, seuls les embeddings stylistiques en anglais ont été rendus disponibles. Nous présentons Multilingual StyleDistance (mStyleDistance), un modèle d'embedding stylistique multilingue entraîné à l'aide de données synthétiques et d'apprentissage contrastif. Nous entraînons le modèle sur des données provenant de neuf langues et créons un benchmark multilingue STEL-or-Content (Wegmann et al., 2022) qui sert à évaluer la qualité des embeddings. Nous utilisons également nos embeddings dans une tâche de vérification d'auteur impliquant différentes langues. Nos résultats montrent que les embeddings de mStyleDistance surpassent les modèles existants sur ces benchmarks stylistiques multilingues et généralisent bien à des caractéristiques et des langues non vues. Nous rendons notre modèle public à l'adresse suivante : https://huggingface.co/StyleDistance/mstyledistance.
Nous démontrons que le modèle de langage de grande taille issu des représentations de décodeur à loi de puissance (PLDR-LLM) est un modèle fondamental dont les sorties déductives sont des tenseurs invariants à une petite perturbation près. PLDR-LLM apprend une condition de singularité pour les sorties déductives qui permet au tenseur énergie-courbure G_{LM}, une fois inféré, de remplacer le réseau de neurones profond d'attention de graphe à loi de puissance (PLGA) générant les sorties déductives lors de l'inférence. Nous montrons qu'un cache pour G_{LM} (G-cache) et un KV-cache peuvent être implémentés de manière simple pour améliorer le temps d'inférence. La nature invariante et généralisable des sorties déductives est d'une très haute fidélité, où les sorties déductives ont les mêmes valeurs d'erreur quadratique moyenne (RMSE) et de déterminant jusqu'à 15 décimales après la mise en cache, et les scores de référence en zero-shot restent inchangés. Les études d'ablation montrent que les sorties déductives apprises présentent des caractéristiques de perte et de précision distinctes des modèles pré-entraînés avec des tenseurs transférés, initialisés aléatoirement ou identitaires comme opérateur tensoriels constants, et qu'un LLM avec attention par produit scalaire mis à l'échelle (SDPA) est un cas particulier de PLDR-LLM où G_{LM} est prédéfini comme identité. La caractéristique d'invariance observée introduit une nouvelle asymétrie entre les phases d'entraînement et d'inférence avec mise en cache. Nous décrivons les caractéristiques communes observées des sorties déductives pour la condition de singularité apprise. Nous fournissons une implémentation d'un cadre d'entraînement et d'inférence pour PLDR-LLM avec KV-cache et G-cache.
Estimer les trajectoires humaines et de la caméra avec une échelle précise dans le système de coordonnées mondial à partir d'une vidéo monoculaire est un problème hautement souhaitable, mais complexe et mal posé. Dans cette étude, nous visons à reconstruire conjointement des modèles humains paramétriques expressifs (c'est-à-dire SMPL-X) et les poses correspondantes de la caméra, en exploitant la synergie entre trois acteurs critiques : le monde, l'humain et la caméra. Notre approche repose sur deux observations clés. Premièrement, les méthodes d'estimation SMPL-X dans le référentiel de la caméra permettent de récupérer facilement la profondeur absolue de l'humain. Deuxièmement, les mouvements humains fournissent intrinsèquement des indices spatiaux absolus. En intégrant ces insights, nous introduisons un nouveau cadre, appelé WHAC, pour faciliter l'estimation expressive de la pose et de la forme humaine (EHPS) ancrée dans le monde, ainsi que l'estimation de la pose de la caméra, sans recourir à des techniques d'optimisation traditionnelles. De plus, nous présentons un nouveau jeu de données synthétique, WHAC-A-Mole, qui inclut des annotations précises d'humains et de caméras, et propose des mouvements humains interactifs variés ainsi que des trajectoires de caméra réalistes. Des expériences approfondies sur des benchmarks standards et nouvellement établis mettent en évidence la supériorité et l'efficacité de notre cadre. Nous rendrons le code et le jeu de données publics.
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans le diagnostic des maladies. Cependant, leur efficacité à identifier des maladies plus rares, qui sont intrinsèquement plus difficiles à diagnostiquer, reste une question ouverte. La performance dans le domaine des maladies rares est cruciale avec l'utilisation croissante des LLMs dans les contextes de soins de santé. Cela est particulièrement vrai si un médecin généraliste doit établir un pronostic plus rare à partir d'une simple conversation avec un patient afin de prendre la prochaine étape appropriée. À cette fin, plusieurs systèmes d'aide à la décision clinique sont conçus pour soutenir les professionnels dans l'identification des maladies rares. Pourtant, leur utilité est limitée en raison de leur manque de connaissances sur les troubles courants et de leur difficulté d'utilisation. Dans cet article, nous proposons RareScale pour combiner les connaissances des LLMs avec des systèmes experts. Nous utilisons conjointement un système expert et un LLM pour simuler des conversations sur les maladies rares. Ces données sont utilisées pour entraîner un modèle de prédiction de candidats pour les maladies rares. Les candidats issus de ce modèle plus petit sont ensuite utilisés comme entrées supplémentaires à un LLM en boîte noire pour établir le diagnostic différentiel final. Ainsi, RareScale permet un équilibre entre les diagnostics rares et courants. Nous présentons des résultats sur plus de 575 maladies rares, commençant par l'Actinomycose abdominale et se terminant par la maladie de Wilson. Notre approche améliore significativement la performance de base des LLMs en boîte noire de plus de 17 % en précision Top-5. Nous constatons également que notre performance en génération de candidats est élevée (par exemple, 88,8 % sur les chats générés par gpt-4o).
La compréhension multi-modale des objets 3D a suscité un intérêt considérable, mais les approches actuelles supposent souvent une disponibilité complète des données et un alignement rigide entre toutes les modalités. Nous présentons CrossOver, un cadre novateur pour la compréhension inter-modale des scènes 3D via un alignement flexible des modalités au niveau de la scène. Contrairement aux méthodes traditionnelles qui nécessitent des données de modalités alignées pour chaque instance d'objet, CrossOver apprend un espace d'embedding unifié et agnostique aux modalités pour les scènes en alignant les modalités - images RGB, nuages de points, modèles CAO, plans d'étage et descriptions textuelles - avec des contraintes assouplies et sans sémantique explicite des objets. En tirant parti d'encodeurs spécifiques à la dimensionnalité, d'un pipeline d'entraînement multi-étapes et de comportements inter-modaux émergents, CrossOver prend en charge la recherche robuste de scènes et la localisation d'objets, même avec des modalités manquantes. Les évaluations sur les ensembles de données ScanNet et 3RScan montrent ses performances supérieures sur diverses métriques, mettant en évidence son adaptabilité pour des applications réelles dans la compréhension des scènes 3D.
Les modèles de langage de grande envergure (LLMs) ont réalisé des avancées significatives dans le traitement du langage naturel, mais leur potentiel pour la prise de décision politique à enjeux élevés reste largement inexploré. Cet article aborde cette lacune en se concentrant sur l'application des LLMs au processus décisionnel des Nations Unies (ONU), où les enjeux sont particulièrement importants et où les décisions politiques peuvent avoir des conséquences de grande portée. Nous introduisons un nouvel ensemble de données comprenant des archives publiques du Conseil de sécurité des Nations Unies (CSNU) de 1994 à 2024, incluant des projets de résolution, des registres de vote et des discours diplomatiques. En utilisant cet ensemble de données, nous proposons le Benchmark des Nations Unies (UNBench), le premier benchmark complet conçu pour évaluer les LLMs à travers quatre tâches interconnectées en sciences politiques : jugement des co-rédacteurs, simulation de vote des représentants, prédiction d'adoption de projets et génération de déclarations représentatives. Ces tâches couvrent les trois étapes du processus décisionnel de l'ONU—rédaction, vote et discussion—et visent à évaluer la capacité des LLMs à comprendre et à simuler les dynamiques politiques. Notre analyse expérimentale démontre le potentiel et les défis de l'application des LLMs dans ce domaine, offrant des perspectives sur leurs forces et leurs limites en sciences politiques. Ce travail contribue à l'intersection croissante de l'intelligence artificielle et des sciences politiques, ouvrant de nouvelles voies pour la recherche et les applications pratiques dans la gouvernance mondiale. Le dépôt UNBench est accessible à l'adresse suivante : https://github.com/yueqingliang1/UNBench.
Nous examinons le problème de la prédiction de l’expression des gènes à partir de séquences d’ADN. Un défi majeur de cette tâche consiste à identifier les éléments régulateurs qui contrôlent l’expression des gènes. Nous présentons ici Seq2Exp, un réseau de séquence à expression conçu explicitement pour découvrir et extraire les éléments régulateurs qui pilotent l’expression des gènes cibles, améliorant ainsi la précision de la prédiction de l’expression génique. Notre approche capture la relation causale entre les signaux épigénomiques, les séquences d’ADN et leurs éléments régulateurs associés. Plus précisément, nous proposons de décomposer les signaux épigénomiques et la séquence d’ADN en fonction des éléments régulateurs actifs causaux, et d’appliquer un goulot d’étranglement d’information avec la distribution bêta pour combiner leurs effets tout en filtrant les composantes non causales. Nos expériences démontrent que Seq2Exp surpasse les méthodes de référence existantes dans les tâches de prédiction de l’expression génique et identifie des régions influentes par rapport aux méthodes statistiques couramment utilisées pour la détection de pics, telles que MACS3. Le code source est publié dans le cadre de la bibliothèque AIRS (https://github.com/divelab/AIRS/).
Les spécifications utilisateur ou les cadres juridiques exigent souvent que des informations soient supprimées des modèles préentraînés, y compris les grands modèles de langage (LLM). Cela nécessite de supprimer ou d'"oublier" un ensemble de points de données d'un modèle déjà entraîné, ce qui dégrade généralement ses performances sur les autres points de données. Ainsi, un équilibre doit être trouvé entre la suppression d'informations et le maintien des autres capacités du modèle, un déséquilibre dans ce compromis conduisant à une suppression inefficace ou à un modèle inutilisable. À cette fin, nous proposons UPCORE (Utility-Preserving Coreset Selection), un cadre de sélection de données indépendant de la méthode pour atténuer les dommages collatéraux lors du désapprentissage. Constatant que les dommages au modèle sont corrélés à la variance des représentations du modèle sur l'ensemble à oublier, nous élaguons sélectivement cet ensemble pour supprimer les valeurs aberrantes, minimisant ainsi la dégradation du modèle après le désapprentissage. Nous évaluons UPCORE sur trois méthodes standard de désapprentissage, obtenant systématiquement un équilibre supérieur entre les objectifs concurrents d'efficacité de suppression et de préservation du modèle. Pour mieux évaluer ce compromis, nous introduisons une nouvelle métrique, mesurant l'aire sous la courbe (AUC) sur des métriques standard. Nous constatons qu'UPCORE améliore à la fois les métriques standard et l'AUC, bénéficiant d'un transfert positif entre le coreset et les points élagués tout en réduisant le transfert négatif de l'ensemble à oublier vers les points extérieurs.
L'apprentissage profond a obtenu des succès significatifs dans le domaine de la détection de changements (CD) dans les images de télédétection. Cependant, deux défis majeurs persistent : la rareté des jeux de données CD open-source complets et de résolution inférieure au mètre, ainsi que la difficulté d'obtenir des résultats de détection cohérents et satisfaisants sur des images présentant des zones de changement variables. Pour résoudre ces problèmes, nous introduisons le jeu de données JL1-CD, qui contient 5 000 paires d'images de 512 x 512 pixels avec une résolution de 0,5 à 0,75 mètres. De plus, nous proposons un cadre de distillation de connaissances multi-enseignants (MTKD) pour la CD. Les résultats expérimentaux sur les jeux de données JL1-CD et SYSU-CD montrent que le cadre MTKD améliore significativement les performances des modèles de CD avec diverses architectures de réseaux et tailles de paramètres, établissant de nouveaux records de pointe. Le code est disponible à l'adresse https://github.com/circleLZY/MTKD-CD.
Nous présentons un benchmark open-source et un cadre d'évaluation pour mesurer la gestion des limites émotionnelles dans les grands modèles de langage (LLM). En utilisant un ensemble de 1156 prompts couvrant six langues, nous avons évalué trois LLM leaders (GPT-4o, Claude-3.5 Sonnet et Mistral-large) sur leur capacité à maintenir des limites émotionnelles appropriées grâce à une analyse des réponses basée sur des motifs prédéfinis. Notre cadre quantifie les réponses selon sept motifs clés : refus direct, excuses, explication, déviation, reconnaissance, établissement de limites et conscience émotionnelle. Les résultats montrent des variations significatives dans les approches de gestion des limites, avec Claude-3.5 obtenant le score global le plus élevé (8,69/10) et produisant des réponses plus longues et nuancées (86,51 mots en moyenne). Nous avons identifié un écart de performance substantiel entre les interactions en anglais (score moyen de 25,62) et celles dans d'autres langues (< 0,22), les réponses en anglais affichant des taux de refus nettement plus élevés (43,20 % contre < 1 % pour les autres langues). L'analyse des motifs a révélé des stratégies spécifiques aux modèles, comme la préférence de Mistral pour la déviation (4,2 %) et des scores d'empathie constamment faibles pour tous les modèles (< 0,06). Les limites incluent une possible simplification excessive liée à l'analyse par motifs, un manque de compréhension contextuelle dans l'évaluation des réponses et une classification binaire de réponses émotionnelles complexes. Les travaux futurs devraient explorer des méthodes de notation plus nuancées, élargir la couverture linguistique et étudier les variations culturelles dans les attentes concernant les limites émotionnelles. Notre benchmark et notre méthodologie offrent une base pour l'évaluation systématique de l'intelligence émotionnelle et des capacités d'établissement de limites des LLM.