papers.description
Nous présentons DuPO, un cadre d'optimisation des préférences basé sur l'apprentissage dual qui génère des retours d'annotation via une dualité généralisée. DuPO aborde deux limitations clés : la dépendance de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) à des étiquettes coûteuses et son applicabilité restreinte aux tâches vérifiables, ainsi que la restriction de l'apprentissage dual traditionnel à des paires de tâches strictement duales (par exemple, traduction et rétro-traduction). Plus précisément, DuPO décompose l'entrée d'une tâche primaire en composantes connues et inconnues, puis construit sa tâche duale pour reconstruire la partie inconnue en utilisant la sortie primaire et les informations connues (par exemple, inverser des solutions mathématiques pour retrouver des variables cachées), élargissant ainsi l'applicabilité à des tâches non inversibles. La qualité de cette reconstruction sert de récompense auto-supervisée pour optimiser la tâche primaire, en synergie avec la capacité des modèles de langage (LLM) à instancier les deux tâches via un seul modèle. Empiriquement, DuPO réalise des gains substantiels sur diverses tâches : il améliore la qualité moyenne de traduction de 2,13 COMET sur 756 directions, augmente la précision du raisonnement mathématique de 6,4 points en moyenne sur trois benchmarks de défis, et améliore les performances de 9,3 points en tant que reclassificateur en temps d'inférence (échangeant du calcul contre de la précision). Ces résultats positionnent DuPO comme un paradigme évolutif, général et sans annotation pour l'optimisation des LLM.
La prédiction future est une tâche complexe pour les agents LLM, nécessitant un haut niveau de pensée analytique, de collecte d'informations, de compréhension contextuelle et de prise de décision dans l'incertitude. Les agents doivent non seulement rassembler et interpréter de vastes quantités d'informations dynamiques, mais aussi intégrer des sources de données diverses, évaluer les incertitudes et adapter leurs prédictions en fonction des tendances émergentes, tout comme le font les experts humains dans des domaines tels que la politique, l'économie et la finance. Malgré son importance, il n'existe pas de benchmark à grande échelle pour évaluer les agents sur la prédiction future, principalement en raison des défis liés à la gestion des mises à jour en temps réel et à l'obtention de réponses précises et opportunes. Pour remédier à cela, nous introduisons FutureX, un benchmark d'évaluation dynamique et en temps réel spécialement conçu pour les agents LLM effectuant des tâches de prédiction future. FutureX est le benchmark en temps réel le plus vaste et le plus diversifié pour la prédiction future, prenant en charge des mises à jour quotidiennes en temps réel et éliminant la contamination des données grâce à un pipeline automatisé de collecte de questions et de réponses. Nous évaluons 25 modèles LLM/agents, y compris ceux dotés de capacités de raisonnement, de recherche et d'intégration d'outils externes tels que l'agent de recherche approfondie open-source et les modèles de recherche approfondie fermés. Cette évaluation complète examine le raisonnement adaptatif des agents et leur performance dans des environnements dynamiques. De plus, nous fournissons des analyses approfondies des modes d'échec et des pièges de performance des agents dans des tâches orientées vers l'avenir, y compris la vulnérabilité aux pages web falsifiées et la validité temporelle. Notre objectif est d'établir une norme d'évaluation dynamique et exempte de contamination qui favorise le développement d'agents LLM capables de performer au niveau des analystes humains professionnels dans le raisonnement complexe et la pensée prédictive.
Les modèles de langage de grande taille (LLMs) ont montré des perspectives prometteuses pour les applications financières, mais leur adéquation à ce domaine à haut risque reste largement non prouvée en raison des insuffisances des benchmarks existants. Les benchmarks actuels reposent uniquement sur une évaluation au niveau des scores, résumant la performance par un score unique qui masque une compréhension nuancée de ce que les modèles savent réellement et de leurs limites précises. Ils s'appuient également sur des ensembles de données qui ne couvrent qu'un sous-ensemble étroit de concepts financiers, tout en négligeant d'autres éléments essentiels pour les applications réelles. Pour combler ces lacunes, nous introduisons FinCDM, le premier cadre d'évaluation de diagnostic cognitif conçu pour les LLMs financiers, permettant d'évaluer les LLMs au niveau des connaissances et des compétences, en identifiant les compétences et connaissances financières qu'ils possèdent ou non sur la base de leurs schémas de réponse à des tâches étiquetées par compétences, plutôt que sur un seul nombre agrégé. Nous construisons CPA-QKA, le premier ensemble de données d'évaluation financière informé par la cognition, dérivé de l'examen du Certified Public Accountant (CPA), avec une couverture complète des compétences comptables et financières du monde réel. Il est rigoureusement annoté par des experts du domaine, qui rédigent, valident et annotent les questions avec un accord inter-annotateurs élevé et des étiquettes de connaissances fines. Nos expériences approfondies sur 30 LLMs propriétaires, open-source et spécifiques au domaine montrent que FinCDM révèle des lacunes de connaissances cachées, identifie des domaines sous-testés tels que le raisonnement fiscal et réglementaire négligés par les benchmarks traditionnels, et découvre des clusters comportementaux parmi les modèles. FinCDM introduit un nouveau paradigme pour l'évaluation des LLMs financiers en permettant un diagnostic interprétable et conscient des compétences qui soutient un développement de modèles plus fiable et ciblé, et tous les ensembles de données et scripts d'évaluation seront publiés pour soutenir des recherches ultérieures.
La reconstruction d'objets 3D en programmes modifiables est essentielle pour des applications telles que la rétro-ingénierie et l'édition de formes. Cependant, les méthodes existantes reposent souvent sur des langages spécifiques à un domaine (DSL) limités et des jeux de données de petite taille, ce qui restreint leur capacité à modéliser des géométries et des structures complexes. Pour relever ces défis, nous présentons MeshCoder, un nouveau cadre de travail qui reconstruit des objets 3D complexes à partir de nuages de points en scripts Python modifiables pour Blender. Nous développons un ensemble complet d'API Python expressives pour Blender, capables de synthétiser des géométries complexes. En exploitant ces API, nous construisons un jeu de données apparié à grande échelle, où le code de chaque objet est décomposé en parties sémantiques distinctes. Par la suite, nous entraînons un modèle de langage multimodal (LLM) qui traduit un nuage de points 3D en scripts Python exécutables pour Blender. Notre approche non seulement atteint des performances supérieures dans les tâches de reconstruction de forme en code, mais facilite également l'édition intuitive de la géométrie et de la topologie grâce à des modifications de code pratiques. De plus, notre représentation basée sur le code améliore les capacités de raisonnement des LLM dans les tâches de compréhension des formes 3D. Ensemble, ces contributions établissent MeshCoder comme une solution puissante et flexible pour la reconstruction et la compréhension programmatique des formes 3D.
Nous présentons Tinker, un cadre polyvalent pour l'édition 3D haute fidélité qui fonctionne à la fois en régime one-shot et few-shot sans nécessiter de réglage fin par scène. Contrairement aux techniques antérieures qui exigent une optimisation extensive par scène pour garantir la cohérence multi-vues ou pour produire des dizaines de vues d'entrée cohérentes, Tinker offre des modifications robustes et cohérentes en multi-vues à partir d'une ou deux images seulement. Cette capacité découle de la réutilisation de modèles de diffusion pré-entraînés, qui débloquent leur conscience latente en 3D. Pour stimuler la recherche dans ce domaine, nous avons constitué le premier ensemble de données et pipeline de données à grande échelle pour l'édition multi-vues, couvrant des scènes et des styles variés. En nous appuyant sur cet ensemble de données, nous avons développé notre cadre capable de générer des vues éditées cohérentes en multi-vues sans entraînement par scène, qui se compose de deux composants novateurs : (1) Éditeur multi-vues référencé : Permet des modifications précises et pilotées par référence qui restent cohérentes sous tous les angles de vue. (2) Synthétiseur any-view-to-video : Exploite les a priori spatio-temporels de la diffusion vidéo pour réaliser une complétion de scène de haute qualité et une génération de nouvelles vues même à partir d'entrées éparses. À travers des expériences approfondies, Tinker réduit considérablement les obstacles à la création de contenu 3D généralisable, atteignant des performances de pointe dans les tâches d'édition, de synthèse de nouvelles vues et d'amélioration du rendu. Nous croyons que Tinker représente une étape clé vers une édition 3D véritablement scalable et zero-shot. Page web du projet : https://aim-uofa.github.io/Tinker
Le Protocole de Contexte Modèle (MCP) est apparu comme une norme transformative pour connecter les grands modèles de langage à des sources de données externes et à des outils, gagnant rapidement en adoption auprès des principaux fournisseurs d’IA et plateformes de développement. Cependant, les benchmarks existants sont trop simplistes et ne parviennent pas à capturer les défis réels des applications, tels que le raisonnement à long terme et les espaces d’outils vastes et inconnus. Pour combler cette lacune critique, nous introduisons MCP-Universe, le premier benchmark complet spécialement conçu pour évaluer les LLM dans des tâches réalistes et complexes via l’interaction avec des serveurs MCP du monde réel. Notre benchmark couvre 6 domaines principaux répartis sur 11 serveurs MCP différents : Navigation Géographique, Gestion de Référentiels, Analyse Financière, Conception 3D, Automatisation de Navigateurs et Recherche Web. Pour garantir une évaluation rigoureuse, nous mettons en œuvre des évaluateurs basés sur l’exécution, incluant des évaluateurs de format pour la conformité des agents, des évaluateurs statiques pour la correspondance de contenu invariant dans le temps, et des évaluateurs dynamiques qui récupèrent automatiquement la vérité terrain en temps réel pour les tâches sensibles au temps. À travers une évaluation approfondie des LLM leaders, nous constatons que même les modèles de pointe tels que GPT-5 (43,72 %), Grok-4 (33,33 %) et Claude-4.0-Sonnet (29,44 %) présentent des limitations de performance significatives. De plus, notre benchmark pose un défi de contexte long pour les agents LLM, car le nombre de tokens d’entrée augmente rapidement avec le nombre d’étapes d’interaction. Par ailleurs, il introduit un défi d’outils inconnus, car les agents LLM manquent souvent de familiarité avec l’utilisation précise des serveurs MCP. Notamment, les agents de niveau entreprise comme Cursor ne parviennent pas à obtenir de meilleures performances que les frameworks ReAct standards. Au-delà de l’évaluation, nous ouvrons en open-source notre cadre d’évaluation extensible avec support d’interface utilisateur, permettant aux chercheurs et praticiens d’intégrer de nouveaux agents et serveurs MCP de manière transparente tout en favorisant l’innovation dans l’écosystème MCP en évolution rapide.
Nous présentons Nemotron-Nano-9B-v2, un modèle de langage hybride Mamba-Transformer conçu pour augmenter le débit des charges de travail de raisonnement tout en atteignant une précision de pointe par rapport aux modèles de taille similaire. Nemotron-Nano-9B-v2 s'appuie sur l'architecture Nemotron-H, dans laquelle la majorité des couches d'auto-attention de l'architecture Transformer classique sont remplacées par des couches Mamba-2, afin d'améliorer la vitesse d'inférence lors de la génération des longues traces de pensée nécessaires au raisonnement. Nous avons créé Nemotron-Nano-9B-v2 en pré-entraînant d'abord un modèle de 12 milliards de paramètres (Nemotron-Nano-12B-v2-Base) sur 20 000 milliards de tokens en utilisant une recette d'entraînement FP8. Après avoir aligné Nemotron-Nano-12B-v2-Base, nous avons employé la stratégie Minitron pour compresser et distiller le modèle dans le but de permettre l'inférence sur jusqu'à 128k tokens sur un seul GPU NVIDIA A10G (22GiB de mémoire, précision bfloat16). Par rapport aux modèles existants de taille similaire (par exemple, Qwen3-8B), nous montrons que Nemotron-Nano-9B-v2 atteint une précision équivalente ou supérieure sur les benchmarks de raisonnement tout en obtenant jusqu'à 6 fois plus de débit d'inférence dans des scénarios de raisonnement comme 8k tokens en entrée et 16k tokens en sortie. Nous publions Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base et les points de contrôle Nemotron-Nano-9B-v2-Base, ainsi que la majorité de nos ensembles de données de pré- et post-entraînement sur Hugging Face.
L'intelligence artificielle (IA) est en train de transformer la découverte scientifique, évoluant d'outils informatiques spécialisés vers des partenaires de recherche autonomes. Nous positionnons la Science Agentique comme une étape clé au sein du paradigme plus large de l'IA pour la Science, où les systèmes d'IA passent d'une assistance partielle à une pleine autonomie scientifique. Grâce aux modèles de langage à grande échelle (LLMs), aux systèmes multimodaux et aux plateformes de recherche intégrées, l'IA agentique démontre des capacités dans la génération d'hypothèses, la conception d'expériences, leur exécution, leur analyse et leur raffinement itératif -- des comportements autrefois considérés comme exclusivement humains. Cette étude propose une revue orientée par domaine de la découverte scientifique autonome à travers les sciences de la vie, la chimie, la science des matériaux et la physique. Nous unifions trois perspectives auparavant fragmentées -- orientées processus, autonomie et mécanismes -- à travers un cadre complet qui relie les capacités fondamentales, les processus clés et les réalisations spécifiques à chaque domaine. En nous appuyant sur ce cadre, nous (i) retraçons l'évolution de l'IA pour la Science, (ii) identifions cinq capacités essentielles sous-tendant l'autonomie scientifique, (iii) modélisons la découverte comme un flux de travail dynamique en quatre étapes, (iv) passons en revue les applications dans les domaines mentionnés, et (v) synthétisons les défis majeurs et les opportunités futures. Ce travail établit une synthèse orientée par domaine de la découverte scientifique autonome et positionne la Science Agentique comme un paradigme structuré pour faire progresser la recherche pilotée par l'IA.
Les récents progrès dans les modèles de langage à grande échelle basés sur la diffusion (dLLMs) ont introduit une alternative prometteuse aux modèles de langage autoregressifs (AR) pour les tâches de génération de langage naturel, en exploitant des stratégies d'attention complète et de décodage basé sur le débruitage. Cependant, le déploiement de ces modèles sur des appareils périphériques reste difficile en raison de leur échelle massive de paramètres et de leurs exigences élevées en ressources. Bien que la quantification post-entraînement (PTQ) soit devenue une technique largement adoptée pour compresser les modèles de langage AR, son applicabilité aux dLLMs reste largement inexplorée. Dans ce travail, nous présentons la première étude systématique sur la quantification des modèles de langage basés sur la diffusion. Nous commençons par identifier la présence de valeurs d'activation aberrantes, caractérisées par des valeurs d'activation anormalement élevées qui dominent la plage dynamique. Ces valeurs aberrantes constituent un défi majeur pour la quantification à faible bit, car elles rendent difficile la préservation de la précision pour la majorité des valeurs. Plus important encore, nous mettons en œuvre des méthodes de PTQ de pointe et menons une évaluation exhaustive sur plusieurs types de tâches et variantes de modèles. Notre analyse est structurée selon quatre dimensions clés : la largeur de bit, la méthode de quantification, la catégorie de tâche et le type de modèle. À travers cette évaluation multi-perspective, nous offrons des insights pratiques sur le comportement de quantification des dLLMs sous différentes configurations. Nous espérons que nos résultats fourniront une base pour les recherches futures sur le déploiement efficace des dLLMs. Tous les codes et configurations expérimentales seront publiés pour soutenir la communauté.
Nous présentons RynnEC, un modèle de langage multimodal vidéo conçu pour la cognition incarnée. Construit sur un modèle de base vision-langage à usage général, RynnEC intègre un encodeur de région et un décodeur de masque, permettant une interaction flexible au niveau régional des vidéos. Malgré son architecture compacte, RynnEC atteint des performances de pointe dans la compréhension des propriétés des objets, la segmentation des objets et le raisonnement spatial. Conceptuellement, il propose un paradigme vidéo centré sur les régions pour le cerveau des agents incarnés, offrant une perception fine du monde physique et permettant des interactions plus précises. Pour pallier la rareté des ensembles de données 3D annotés, nous proposons un pipeline basé sur des vidéos égocentriques pour générer des données de cognition incarnée. De plus, nous introduisons RynnEC-Bench, un benchmark centré sur les régions pour évaluer les capacités cognitives incarnées. Nous anticipons que RynnEC fera progresser le développement de cœurs cognitifs à usage général pour les agents incarnés et facilitera la généralisation à travers diverses tâches incarnées. Le code, les points de contrôle du modèle et le benchmark sont disponibles à l'adresse suivante : https://github.com/alibaba-damo-academy/RynnEC
Les systèmes d'intelligence artificielle transforment la découverte scientifique en accélérant des tâches de recherche spécifiques, allant de la prédiction de structures protéiques à la conception de matériaux, tout en restant confinés à des domaines étroits nécessitant une supervision humaine importante. La croissance exponentielle de la littérature scientifique et la spécialisation croissante des domaines limitent la capacité des chercheurs à synthétiser les connaissances à travers les disciplines et à développer des théories unificatrices, ce qui motive l'exploration de systèmes d'IA plus polyvalents pour la science. Nous montrons ici qu'un système d'IA agentique et indépendant du domaine peut naviguer de manière autonome dans le processus scientifique - de la génération d'hypothèses à la collecte de données jusqu'à la préparation de manuscrits. Le système a conçu et exécuté de manière autonome trois études psychologiques sur la mémoire de travail visuelle, la rotation mentale et la vivacité de l'imagerie, a mené une nouvelle collecte de données en ligne avec 288 participants, a développé des pipelines d'analyse lors de sessions de codage continues de plus de 8 heures, et a produit des manuscrits complets. Les résultats démontrent la capacité des pipelines de découverte scientifique par IA à mener des recherches non triviales avec un raisonnement théorique et une rigueur méthodologique comparables à ceux de chercheurs expérimentés, bien qu'avec des limites en termes de nuances conceptuelles et d'interprétation théorique. Cela représente une étape vers une IA incarnée capable de tester des hypothèses à travers des expériences réelles, accélérant la découverte en explorant de manière autonome des régions de l'espace scientifique que les contraintes cognitives et de ressources humaines pourraient autrement laisser inexplorées. Cela soulève des questions importantes sur la nature de la compréhension scientifique et l'attribution du crédit scientifique.
La complexité quadratique de l'auto-attention limite son applicabilité et son extensibilité sur de grands maillages non structurés. Nous introduisons Fast Low-rank Attention Routing Engine (FLARE), un mécanisme d'auto-attention à complexité linéaire qui dirige l'attention à travers des séquences latentes de longueur fixe. Chaque tête d'attention effectue une communication globale parmi N tokens en projetant la séquence d'entrée sur une séquence latente de longueur fixe de M ≪ N tokens à l'aide de tokens de requête apprenables. En dirigeant l'attention à travers une séquence goulot, FLARE apprend une forme d'attention de faible rang qui peut être appliquée à un coût de O(NM). FLARE non seulement s'adapte à des tailles de problèmes sans précédent, mais offre également une précision supérieure par rapport aux substituts de PDE neuronaux de pointe sur divers benchmarks. Nous publions également un nouveau jeu de données sur la fabrication additive pour stimuler des recherches ultérieures. Notre code est disponible à l'adresse https://github.com/vpuri3/FLARE.py.
Le Fine-Tuning Supervisé (SFT) et l'Apprentissage par Renforcement (RL) sont deux paradigmes post-entraînement majeurs pour affiner les capacités et aligner le comportement des Modèles de Langage à Grande Échelle (LLMs). Les approches existantes qui intègrent SFT et RL sont souvent confrontées au risque de perturber les modèles établis et de provoquer un surajustement aux données expertes. Pour résoudre ce problème, nous présentons une nouvelle investigation de la vision unifiée de SFT et RL à travers une perspective off-policy versus on-policy. Nous proposons CHORD, un cadre pour l'Harmonisation Contrôlée de l'Apprentissage par Renforcement On- et Off-Policy via une Pondération Dynamique, qui redéfinit le SFT non pas comme une étape séparée, mais comme un objectif auxiliaire dynamiquement pondéré au sein du processus RL on-policy. Sur la base d'une analyse de l'influence des données expertes off-policy à la fois aux niveaux holistique et granulaire, nous intégrons un mécanisme de double contrôle dans CHORD. Plus précisément, le cadre utilise d'abord un coefficient global pour guider de manière holistique la transition de l'imitation off-policy à l'exploration on-policy, puis applique une fonction de pondération token par token qui permet un apprentissage granulaire à partir des tokens experts, tout en préservant l'exploration on-policy et en atténuant les perturbations des données off-policy. Nous menons des expériences approfondies sur des benchmarks largement utilisés, fournissant des preuves empiriques que CHORD permet un processus d'apprentissage stable et efficace. En harmonisant efficacement les données expertes off-policy avec l'exploration on-policy, CHORD démontre des améliorations significatives par rapport aux méthodes de référence. Nous mettons à disposition l'implémentation à l'adresse https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord pour inspirer des recherches ultérieures.
Les modèles de langage visuel (VLMs) démontrent des capacités remarquables sur les tâches multimodales en anglais, mais leurs performances sur les langues à faibles ressources avec un contenu éducatif véritablement multimodal restent largement inexplorées. Dans ce travail, nous testons comment les VLMs se comportent sur des évaluations éducatives vietnamiennes, en examinant si les VLMs principalement entraînés sur des données en anglais peuvent gérer un raisonnement multimodal multilingue dans des contextes réels. Notre étude présente la première évaluation complète des capacités des VLMs sur des examens multimodaux vietnamiens en proposant ViExam, un benchmark contenant 2 548 questions multimodales. Nous constatons que les VLMs de pointe atteignent seulement 57,74 % de précision moyenne, tandis que les modèles open-source atteignent 27,70 % sur 7 domaines académiques, incluant les Mathématiques, la Physique, la Chimie, la Biologie, la Géographie, le Test de Conduite et le Test de QI. La plupart des VLMs sous-performent par rapport aux candidats humains moyens (66,54 %), avec seulement le VLM pensant o3 (74,07 %) dépassant la performance humaine moyenne, tout en restant nettement en deçà de la meilleure performance humaine (99,60 %). L'incitation multilingue avec des instructions en anglais tout en conservant le contenu en vietnamien n'améliore pas les performances, réduisant même la précision de 1 point de pourcentage pour les VLMs de pointe. La collaboration humaine en boucle peut partiellement améliorer les performances des VLMs de 5 points de pourcentage. Le code et les données sont disponibles à l'adresse : https://vi-exam.github.io.
Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans les tâches de raisonnement grâce à des méthodes comme le raisonnement en chaîne de pensées (CoT). Cependant, ils peinent souvent dans les tâches nécessitant des calculs précis. Le raisonnement intégrant des outils (TIR) est apparu comme une solution en incorporant des outils externes dans le processus de raisonnement. Néanmoins, la généralisation du TIR pour améliorer les capacités de raisonnement des LLM reste incertaine. De plus, il reste à étudier si le TIR a amélioré le comportement de raisonnement du modèle et l'a aidé à penser. Nous présentons ReasonZoo, un benchmark complet englobant neuf catégories de raisonnement diverses, pour évaluer l'efficacité du TIR dans différents domaines. Nous proposons également deux nouvelles métriques, le coût conscient de la performance (PAC) et l'aire sous la courbe performance-coût (AUC-PCC), pour évaluer l'efficacité du raisonnement. Notre évaluation empirique démontre que les modèles activés par le TIR surpassent systématiquement leurs homologues non-TIR dans les tâches mathématiques et non mathématiques. De plus, le TIR améliore l'efficacité du raisonnement, comme en témoignent les améliorations du PAC et de l'AUC-PCC, indiquant une réduction de la surréflexion et un raisonnement plus fluide. Ces résultats soulignent les avantages généraux du TIR et son potentiel pour faire progresser les capacités des LLM dans les tâches de raisonnement complexes.
La variation d'échelle constitue un défi fondamental en vision par ordinateur. Les objets d'une même classe peuvent présenter des tailles différentes, et leur taille perçue est en outre influencée par leur distance par rapport à la caméra. Ces variations sont locales aux objets, c'est-à-dire que les différentes tailles d'objets peuvent évoluer de manière distincte au sein d'une même image. Pour gérer efficacement ces variations d'échelle, nous proposons un équilibreur canonique profond (DEC) afin d'améliorer l'équivariance locale d'échelle d'un modèle. DEC peut être facilement intégré dans les architectures de réseaux existantes et adapté à un modèle pré-entraîné. De manière notable, nous démontrons que sur le benchmark compétitif d'ImageNet, DEC améliore à la fois les performances du modèle et la cohérence locale d'échelle pour quatre réseaux profonds pré-entraînés populaires, tels que ViT, DeiT, Swin et BEiT. Notre code est disponible à l'adresse suivante : https://github.com/ashiq24/local-scale-equivariance.
Cet article présente une nouvelle approche pour le calcul de la distance de Levenshtein (ou distance d'édition) dans le cadre du chiffrement entièrement homomorphe (FHE), en ciblant spécifiquement les schémas de troisième génération tels que TFHE. Les calculs de distance d'édition sont essentiels dans des applications variées, notamment en finance et en génomique, comme l'alignement de séquences d'ADN. Nous introduisons un algorithme optimisé, appelé Leuvenshtein, qui réduit significativement le coût des calculs de distance d'édition. Cet algorithme diminue particulièrement le nombre de bootstraps programmables (PBS) nécessaires par cellule de calcul, le faisant passer d'environ 94 opérations — requises par l'algorithme conventionnel de Wagner-Fisher — à seulement 1. De plus, nous proposons une méthode efficace pour effectuer des vérifications d'égalité sur les caractères, réduisant les comparaisons de caractères ASCII à seulement 2 opérations PBS. Enfin, nous explorons le potentiel d'améliorations supplémentaires des performances en utilisant un prétraitement lorsque l'une des chaînes d'entrée est non chiffrée. Notre algorithme Leuvenshtein atteint des performances jusqu'à 278 fois plus rapides que la meilleure implémentation TFHE disponible et jusqu'à 39 fois plus rapides qu'une implémentation optimisée de l'algorithme de Wagner-Fisher. Par ailleurs, lorsqu'un prétraitement hors ligne est possible grâce à la présence d'une entrée non chiffrée côté serveur, une accélération supplémentaire de 3 fois peut être obtenue.
Les avancées récentes dans les modèles de langage de grande taille (LLMs) renforcés par le raisonnement ont démontré des capacités remarquables dans des tâches de raisonnement complexe. Cependant, le mécanisme sous-jacent à leur utilisation de différentes compétences de raisonnement humain reste peu exploré, en particulier pour le raisonnement de bon sens multilingue qui implique des connaissances quotidiennes à travers différentes langues et cultures. Pour combler cette lacune, nous proposons un benchmark multilingue et évolutif pour l'évaluation des compétences de raisonnement de bon sens (mSCoRe). Notre benchmark intègre trois composants clés conçus pour évaluer systématiquement les capacités de raisonnement des LLMs, incluant : (1) une taxonomie novatrice des compétences de raisonnement permettant une analyse fine des processus de raisonnement des modèles, (2) un pipeline robuste de synthèse de données spécifiquement adapté à l'évaluation du raisonnement de bon sens, et (3) un cadre de complexité évolutive permettant à la difficulté des tâches de s'adapter dynamiquement aux futures améliorations des capacités des LLMs. Des expériences approfondies sur huit LLMs de pointe de tailles et d'approches d'entraînement variées montrent que mSCoRe reste un défi significatif pour les modèles actuels, en particulier aux niveaux de complexité élevés. Nos résultats révèlent les limites de ces modèles renforcés par le raisonnement lorsqu'ils sont confrontés à des nuances de bon sens général et culturel multilingue. Nous fournissons également une analyse détaillée des processus de raisonnement des modèles, suggérant des orientations futures pour améliorer les capacités de raisonnement de bon sens multilingue.
Le système de recommandation multimodal se concentre sur l'utilisation d'informations riches provenant de différentes modalités (c'est-à-dire les images et les descriptions textuelles) des éléments pour améliorer les performances de recommandation. Les méthodes actuelles ont obtenu un succès remarquable grâce à la puissante capacité de modélisation structurelle des réseaux de neurones graphiques. Cependant, ces méthodes sont souvent entravées par la rareté des données dans les scénarios réels. Bien que l'apprentissage contrastif et l'homographie (c'est-à-dire les graphes homogènes) soient utilisés pour relever le défi de la rareté des données, les méthodes existantes souffrent encore de deux limitations principales : 1) Les contrastes simples des caractéristiques multimodales ne parviennent pas à produire des représentations efficaces, entraînant des caractéristiques partagées entre modalités bruyantes et la perte d'informations précieuses dans les caractéristiques uniques à chaque modalité ; 2) Le manque d'exploration des relations homographiques entre les intérêts des utilisateurs et la co-occurrence des éléments entraîne une exploitation incomplète de l'interaction utilisateur-élément. Pour remédier à ces limitations, nous proposons un nouveau cadre pour l'affinage de l'apprentissage contrastif multimodal et des relations d'homographie (REARM). Plus précisément, nous complétons l'apprentissage contrastif multimodal en employant des stratégies de méta-réseau et de contrainte orthogonale, qui filtrent le bruit dans les caractéristiques partagées entre modalités et conservent les informations pertinentes pour la recommandation dans les caractéristiques uniques à chaque modalité. Pour exploiter efficacement les relations homogènes, nous intégrons un graphe d'intérêts des utilisateurs nouvellement construit et un graphe de co-occurrence des éléments avec les graphes existants de co-occurrence des utilisateurs et de sémantique des éléments pour l'apprentissage sur graphes. Les expériences approfondies sur trois ensembles de données réels démontrent la supériorité de REARM par rapport à diverses méthodes de référence de pointe. Notre visualisation montre en outre une amélioration apportée par REARM dans la distinction entre les caractéristiques partagées et uniques entre modalités. Le code est disponible {ici} : https://github.com/MrShouxingMa/REARM.