Articles de recherche en IA sélectionnés quotidiennement avec traductions
La navigation web est un domaine unique qui peut automatiser de nombreuses tâches répétitives de la vie réelle et qui est complexe car elle nécessite une prise de décision séquentielle à long terme, allant au-delà des tâches typiques des modèles de langage multimodaux de grande envergure (MLLM). Jusqu'à présent, des modèles de récompense spécialisés pour la navigation web, utilisables à la fois pendant l'entraînement et lors des tests, faisaient défaut. Malgré l'importance de la rapidité et de la rentabilité, les travaux antérieurs ont utilisé des MLLM comme modèles de récompense, ce qui impose des contraintes significatives pour un déploiement en conditions réelles. Pour remédier à cela, nous proposons dans ce travail le premier modèle de récompense basé sur le processus (PRM), appelé Web-Shepherd, capable d'évaluer les trajectoires de navigation web au niveau des étapes. Pour y parvenir, nous avons d'abord construit la WebPRM Collection, un ensemble de données à grande échelle comprenant 40 000 paires de préférences au niveau des étapes et des listes de contrôle annotées couvrant divers domaines et niveaux de difficulté. Ensuite, nous introduisons également WebRewardBench, le premier benchmark de méta-évaluation pour évaluer les PRM. Dans nos expériences, nous observons que notre Web-Shepherd atteint une précision environ 30 points supérieure à celle de GPT-4o sur WebRewardBench. De plus, lors des tests sur WebArena-lite en utilisant GPT-4o-mini comme politique et Web-Shepherd comme vérificateur, nous obtenons une performance 10,9 points supérieure, pour un coût 10 fois moindre par rapport à l'utilisation de GPT-4o-mini comme vérificateur. Notre modèle, ensemble de données et code sont disponibles publiquement à l'adresse LINK.
Nous présentons MMaDA, une nouvelle classe de modèles de fondation par diffusion multimodale conçus pour atteindre des performances supérieures dans divers domaines tels que le raisonnement textuel, la compréhension multimodale et la génération d'images à partir de texte. Cette approche se distingue par trois innovations clés : (i) MMaDA adopte une architecture de diffusion unifiée avec une formulation probabiliste partagée et une conception agnostique aux modalités, éliminant ainsi le besoin de composants spécifiques à chaque modalité. Cette architecture assure une intégration et un traitement fluides des différents types de données. (ii) Nous mettons en œuvre une stratégie de fine-tuning mixte à long enchaînement de pensées (CoT) qui établit un format CoT unifié à travers les modalités. En alignant les processus de raisonnement entre les domaines textuels et visuels, cette stratégie facilite l'entraînement à froid pour l'étape finale de renforcement par apprentissage (RL), améliorant ainsi la capacité du modèle à gérer des tâches complexes dès le départ. (iii) Nous proposons UniGRPO, un algorithme RL basé sur les gradients de politique spécialement adapté aux modèles de fondation par diffusion. En utilisant une modélisation diversifiée des récompenses, UniGRPO unifie le post-entraînement pour les tâches de raisonnement et de génération, garantissant des améliorations de performances cohérentes. Les résultats expérimentaux montrent que MMaDA-8B présente de solides capacités de généralisation en tant que modèle de fondation multimodale unifié. Il surpasse des modèles puissants comme LLaMA-3-7B et Qwen2-7B en raisonnement textuel, dépasse Show-o et SEED-X en compréhension multimodale, et excelle par rapport à SDXL et Janus en génération d'images à partir de texte. Ces réalisations mettent en évidence l'efficacité de MMaDA à combler le fossé entre le pré-entraînement et le post-entraînement au sein d'architectures de diffusion unifiées, offrant un cadre complet pour la recherche et le développement futurs. Nous rendons notre code et nos modèles entraînés disponibles en open-source à l'adresse suivante : https://github.com/Gen-Verse/MMaDA
Les grands modèles de langage (LLMs) nécessitent des ressources computationnelles et mémoire substantielles, posant des défis de déploiement. L'apprentissage avec prise en compte de la quantification (QAT) aborde ces défis en réduisant la précision du modèle tout en maintenant ses performances. Cependant, le comportement de mise à l'échelle du QAT, en particulier à une précision de 4 bits (W4A4), n'est pas bien compris. Les lois de mise à l'échelle existantes du QAT ignorent souvent des facteurs clés tels que le nombre de tokens d'entraînement et la granularité de la quantification, ce qui limite leur applicabilité. Cet article propose une loi de mise à l'échelle unifiée pour le QAT qui modélise l'erreur de quantification en fonction de la taille du modèle, du volume de données d'entraînement et de la taille des groupes de quantification. À travers 268 expériences de QAT, nous montrons que l'erreur de quantification diminue avec l'augmentation de la taille du modèle, mais augmente avec plus de tokens d'entraînement et une granularité de quantification plus grossière. Pour identifier les sources de l'erreur de quantification W4A4, nous la décomposons en composantes de poids et d'activation. Les deux composantes suivent la tendance globale de l'erreur de quantification W4A4, mais avec des sensibilités différentes. Plus précisément, l'erreur de quantification des poids augmente plus rapidement avec plus de tokens d'entraînement. Une analyse plus approfondie montre que l'erreur de quantification des activations dans la couche FC2, causée par des valeurs aberrantes, est le principal goulot d'étranglement de l'erreur de quantification W4A4 du QAT. En appliquant une quantification à précision mixte pour résoudre ce goulot d'étranglement, nous démontrons que les erreurs de quantification des poids et des activations peuvent converger vers des niveaux similaires. De plus, avec plus de données d'entraînement, l'erreur de quantification des poids finit par dépasser celle des activations, suggérant que la réduction de l'erreur de quantification des poids est également importante dans de tels scénarios. Ces résultats offrent des insights clés pour améliorer la recherche et le développement du QAT.
Les modèles d'incorporation basés sur les grands modèles de langage (LLM), bénéficiant d'un pré-entraînement et d'un post-entraînement à grande échelle, commencent à surpasser les modèles basés sur BERT et T5 dans des tâches générales d'incorporation de texte telles que la recherche de documents. Cependant, une limitation fondamentale des incorporations LLM réside dans l'attention unidirectionnelle utilisée lors du pré-entraînement autorégressif, qui ne correspond pas à la nature bidirectionnelle des tâches d'incorporation de texte. Pour remédier à cela, nous proposons d'adopter des modèles de langage par diffusion pour les incorporations de texte, motivés par leur architecture bidirectionnelle inhérente et leurs récents succès à égaler ou surpasser les LLM, en particulier dans les tâches de raisonnement. Nous présentons la première étude systématique du modèle d'incorporation de langage par diffusion, qui surpasse le modèle d'incorporation basé sur LLM de 20 % dans la recherche de documents longs, de 8 % dans la recherche intensive en raisonnement, de 2 % dans la recherche suivant des instructions, et obtient des performances compétitives sur les benchmarks traditionnels d'incorporation de texte. Notre analyse confirme que l'attention bidirectionnelle est cruciale pour encoder le contexte global dans des textes longs et complexes.
Les méthodes traditionnelles de localisation visuelle se concentrent principalement sur des scénarios à image unique avec des références textuelles simples. Cependant, l'extension de ces méthodes à des scénarios réels impliquant des instructions implicites et complexes, en particulier en conjonction avec plusieurs images, pose des défis importants, principalement en raison du manque de capacité de raisonnement avancé dans des contextes multi-modaux divers. Dans ce travail, nous visons à aborder la tâche plus pratique de localisation universelle, et proposons UniVG-R1, un modèle de langage multimodal (MLLM) guidé par le raisonnement pour la localisation visuelle universelle, qui améliore les capacités de raisonnement grâce à l'apprentissage par renforcement (RL) combiné à des données de démarrage à froid. Plus précisément, nous construisons d'abord un ensemble de données de localisation de type Chain-of-Thought (CoT) de haute qualité, annoté avec des chaînes de raisonnement détaillées, pour guider le modèle vers des chemins de raisonnement corrects via un ajustement fin supervisé. Ensuite, nous effectuons un apprentissage par renforcement basé sur des règles pour encourager le modèle à identifier les chaînes de raisonnement correctes, stimulant ainsi ses capacités de raisonnement. De plus, nous identifions un biais de difficulté résultant de la prévalence d'échantillons faciles au fur et à mesure que l'entraînement RL progresse, et nous proposons une stratégie d'ajustement de poids sensible à la difficulté pour renforcer davantage les performances. Les résultats expérimentaux démontrent l'efficacité d'UniVG-R1, qui atteint des performances de pointe sur MIG-Bench avec une amélioration de 9,1 % par rapport à la méthode précédente. En outre, notre modèle présente une forte généralisabilité, obtenant une amélioration moyenne de 23,4 % dans les performances en zero-shot sur quatre benchmarks de localisation de raisonnement sur images et vidéos. La page du projet est accessible à l'adresse https://amap-ml.github.io/UniVG-R1-page/.
L'augmentation de données de trajectoires de haute qualité a longtemps constitué un goulot d'étranglement critique pour le développement d'agents informatiques à l'usage humain. Nous présentons PC Agent-E, un cadre d'entraînement d'agents efficace qui réduit considérablement la dépendance aux démonstrations humaines à grande échelle. En partant de seulement 312 trajectoires d'utilisation informatique annotées par des humains, nous avons encore amélioré la qualité des données en synthétisant des décisions d'actions diversifiées avec Claude 3.7 Sonnet. Entraîné sur ces trajectoires enrichies, notre modèle PC Agent-E a obtenu une amélioration relative remarquable de 141%, surpassant le puissant Claude 3.7 Sonnet avec une réflexion étendue sur WindowsAgentArena-V2, un benchmark amélioré que nous avons également publié. De plus, PC Agent-E démontre une forte généralisabilité à différents systèmes d'exploitation sur OSWorld. Nos résultats suggèrent que des capacités d'utilisation informatique robustes peuvent être stimulées à partir d'une petite quantité de données de trajectoires de haute qualité.
Nous présentons Toto, un modèle de base pour la prévision de séries temporelles comptant 151 millions de paramètres. Toto utilise une architecture moderne de type décodeur uniquement, enrichie d'innovations architecturales conçues pour répondre aux défis spécifiques rencontrés dans les données de séries temporelles multivariées d'observabilité. Le corpus de pré-entraînement de Toto est un mélange de données d'observabilité, de jeux de données ouverts et de données synthétiques, et est 4 à 10 fois plus volumineux que ceux des principaux modèles de base pour les séries temporelles. Par ailleurs, nous introduisons BOOM, un benchmark à grande échelle comprenant 350 millions d'observations réparties sur 2 807 séries temporelles issues du monde réel. Pour Toto et BOOM, les données d'observabilité proviennent exclusivement de la télémétrie et des métriques internes d'observabilité de Datadog. Des évaluations approfondies démontrent que Toto atteint des performances de pointe à la fois sur BOOM et sur les benchmarks établis de prévision de séries temporelles à usage général. Les poids du modèle Toto, son code d'inférence, ses scripts d'évaluation, ainsi que les données et le code d'évaluation de BOOM, sont tous disponibles en open source sous la licence Apache 2.0 aux adresses suivantes : https://huggingface.co/Datadog/Toto-Open-Base-1.0 et https://github.com/DataDog/toto.
Les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités remarquables à résoudre des problèmes complexes grâce à l'apprentissage par renforcement (RL), en particulier en générant des traces de raisonnement longues. Cependant, ces sorties étendues présentent souvent une redondance substantielle, ce qui limite l'efficacité des LRMs. Dans cet article, nous explorons des approches basées sur le RL pour promouvoir l'efficacité du raisonnement. Plus précisément, nous présentons d'abord un cadre unifié qui formule diverses méthodes de raisonnement efficace à travers le prisme de la récompense basée sur la longueur. Sur la base de cette perspective, nous proposons une nouvelle méthode de récompense en escalier basée sur la longueur (LASER), qui utilise une fonction en escalier comme récompense, contrôlée par une longueur cible. LASER surpasse les méthodes précédentes, atteignant un équilibre Pareto-optimal supérieur entre performance et efficacité. Ensuite, nous étendons davantage LASER en nous appuyant sur deux intuitions clés : (1) Le comportement de raisonnement du modèle évolue pendant l'entraînement, nécessitant des spécifications de récompense adaptatives et dynamiques ; (2) Plutôt que d'encourager uniformément des chaînes de pensée (CoT) plus courtes ou plus longues, nous postulons que la récompense basée sur la longueur devrait être consciente de la difficulté, c'est-à-dire qu'elle devrait pénaliser davantage les CoT longues pour les requêtes faciles. Cette approche devrait faciliter une combinaison de pensée rapide et lente, conduisant à un meilleur compromis global. La méthode résultante est appelée LASER-D (Dynamique et Consciente de la Difficulté). Les expériences sur DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B et DeepSeek-R1-Distill-Qwen-32B montrent que notre approche améliore significativement à la fois la performance de raisonnement et l'efficacité de la longueur des réponses. Par exemple, LASER-D et sa variante obtiennent une amélioration de +6.1 sur AIME2024 tout en réduisant l'utilisation de tokens de 63%. Une analyse plus approfondie révèle que notre compression basée sur le RL produit des modèles de raisonnement plus concis avec moins de redondance de "réflexions personnelles". Les ressources sont disponibles à l'adresse https://github.com/hkust-nlp/Laser.
Les modèles du monde, qui prédisent les transitions en se basant sur l'observation de l'historique et les séquences d'actions, ont montré un grand potentiel pour améliorer l'efficacité des données dans la prise de décision séquentielle. Cependant, les modèles du monde existants nécessitent souvent un entraînement approfondi spécifique au domaine et produisent encore des prédictions de faible fidélité et grossières, limitant ainsi leur applicabilité dans des environnements complexes. En revanche, les modèles de diffusion vidéo entraînés sur de vastes ensembles de données à l'échelle d'Internet ont démontré des capacités impressionnantes à générer des vidéos de haute qualité qui capturent des dynamiques variées du monde réel. Dans ce travail, nous présentons Vid2World, une approche générale pour exploiter et transférer des modèles de diffusion vidéo pré-entraînés en modèles du monde interactifs. Pour combler cet écart, Vid2World effectue une causalisation d'un modèle de diffusion vidéo pré-entraîné en adaptant son architecture et son objectif d'entraînement pour permettre une génération autorégressive. De plus, il introduit un mécanisme de guidage d'action causal pour améliorer la contrôlabilité des actions dans le modèle du monde interactif résultant. Des expériences approfondies dans les domaines de la manipulation robotique et de la simulation de jeux montrent que notre méthode offre une approche scalable et efficace pour réutiliser des modèles de diffusion vidéo hautement performants en modèles du monde interactifs.
L'acquisition de scènes 3D détaillées nécessite généralement un équipement coûteux, des données multi-vues ou une modélisation laborieuse. Par conséquent, une alternative légère, générant des scènes 3D complexes à partir d'une seule image en vue de dessus, joue un rôle essentiel dans les applications réelles. Bien que les modèles génératifs 3D récents aient obtenu des résultats remarquables au niveau des objets, leur extension à la génération de scènes complètes entraîne souvent une géométrie incohérente, des hallucinations de disposition et des maillages de faible qualité. Dans ce travail, nous présentons 3DTown, un framework sans entraînement conçu pour synthétiser des scènes 3D réalistes et cohérentes à partir d'une seule vue de dessus. Notre méthode repose sur deux principes : la génération basée sur les régions pour améliorer l'alignement et la résolution image-à-3D, et l'inpainting 3D spatialement conscient pour assurer la cohérence globale de la scène et la génération de géométrie de haute qualité. Plus précisément, nous décomposons l'image d'entrée en régions qui se chevauchent et générons chacune d'elles à l'aide d'un générateur d'objets 3D pré-entraîné, suivi d'un processus d'inpainting par flux rectifié masqué qui comble la géométrie manquante tout en maintenant la continuité structurelle. Cette conception modulaire nous permet de surmonter les goulots d'étranglement de résolution et de préserver la structure spatiale sans nécessiter de supervision 3D ou de fine-tuning. Des expériences approfondies sur diverses scènes montrent que 3DTown surpasse les baselines de pointe, y compris Trellis, Hunyuan3D-2 et TripoSG, en termes de qualité de géométrie, de cohérence spatiale et de fidélité des textures. Nos résultats démontrent que la génération de villes 3D de haute qualité est réalisable à partir d'une seule image en utilisant une approche sans entraînement et fondée sur des principes.
Les grands modèles de raisonnement (LRMs) atteignent des performances remarquables grâce à des chaînes de raisonnement longues, mais engendrent souvent une surcharge computationnelle excessive en raison de raisonnements redondants, en particulier sur des tâches simples. Dans ce travail, nous quantifions systématiquement les limites supérieures des LRMs dans les modes Long-Thinking et No-Thinking, et mettons en lumière le phénomène de "Mécanisme d'Auto-Récupération Interne" où les modèles complètent implicitement leur raisonnement lors de la génération de réponses. En nous appuyant sur cette observation, nous proposons le Raisonnement d'Auto-Récupération Adaptatif (ASRR), un cadre qui supprime les raisonnements inutiles et permet une récupération implicite. En introduisant une régulation de récompense basée sur la longueur et la précision, ASRR alloue de manière adaptative l'effort de raisonnement en fonction de la difficulté du problème, atteignant ainsi une haute efficacité avec une perte de performance négligeable. Les expériences menées sur plusieurs benchmarks et modèles montrent que, comparé à GRPO, ASRR réduit le budget de raisonnement jusqu'à 32,5 % (1,5B) et 25,7 % (7B) avec une perte de précision minimale (1,2 % et 0,6 % pass@1), et améliore significativement les taux d'innocuité sur les benchmarks de sécurité (jusqu'à +21,7 %). Nos résultats soulignent le potentiel d'ASRR pour permettre un raisonnement efficace, adaptatif et plus sûr dans les LRMs.
Jouer à des jeux vidéo nécessite perception, mémoire et planification, exactement les facultés que les agents modernes de grands modèles de langage (LLM) sont censés maîtriser. Nous étudions les principaux défis liés à l'utilisation de jeux vidéo populaires pour évaluer les LLM modernes et constatons que l'intégration directe des LLM dans les jeux ne permet pas une évaluation efficace, pour trois raisons : une perception visuelle fragile, une sensibilité aux prompts et une potentielle contamination des données. Nous introduisons lmgame-Bench pour transformer les jeux en évaluations fiables. lmgame-Bench propose une suite de jeux de plateforme, de réflexion et narratifs, livrés via une API unifiée de style Gym et accompagnés de structures légères de perception et de mémoire, conçues pour stabiliser la variance des prompts et éliminer la contamination. Sur 13 modèles leaders, nous montrons que lmgame-Bench est exigeant tout en distinguant bien les modèles. Une analyse de corrélation révèle que chaque jeu explore une combinaison unique de capacités souvent testées isolément ailleurs. Plus intéressant encore, l'apprentissage par renforcement sur un seul jeu de lmgame-Bench se transfère à la fois à des jeux inédits et à des tâches de planification externes. Notre code d'évaluation est disponible à l'adresse https://github.com/lmgame-org/GamingAgent/lmgame-bench.
Les êtres humains utilisent naturellement plusieurs modalités de raisonnement pour apprendre et résoudre des problèmes logiques, c'est-à-dire différents formats de représentation tels que le langage naturel, le code et la logique symbolique. En revanche, la plupart des approches existantes basées sur les modèles de langage (LLM) opèrent avec une seule modalité de raisonnement pendant l'entraînement, généralement le langage naturel. Bien que certaines méthodes aient exploré la sélection ou l'augmentation de modalités au moment de l'inférence, le processus d'entraînement reste aveugle aux modalités, limitant ainsi la synergie entre elles. Pour combler cette lacune, nous proposons Mixture-of-Thought (MoT), un cadre qui permet aux LLM de raisonner à travers trois modalités complémentaires : le langage naturel, le code et une nouvelle modalité symbolique introduite, la table de vérité, qui énumère systématiquement les cas logiques et atténue partiellement les principaux modes d'échec dans le raisonnement en langage naturel. MoT adopte une conception en deux phases : (1) l'entraînement auto-évolutif de MoT, qui apprend conjointement à partir de justifications auto-générées et filtrées à travers les modalités ; et (2) l'inférence MoT, qui tire pleinement parti de la synergie des trois modalités pour produire de meilleures prédictions. Les expériences sur des benchmarks de raisonnement logique, notamment FOLIO et ProofWriter, démontrent que notre cadre MoT surpasse de manière constante et significative les LLM de référence utilisant des approches de chaîne de pensée à modalité unique, avec un gain moyen de précision allant jusqu'à +11,7 points de pourcentage. Des analyses approfondies montrent que notre cadre MoT profite à la fois aux étapes d'entraînement et d'inférence ; qu'il est particulièrement efficace sur les problèmes de raisonnement logique plus difficiles ; et que les différentes modalités apportent des forces complémentaires, le raisonnement par table de vérité aidant à surmonter les principaux goulets d'étranglement dans l'inférence en langage naturel.
Les grands modèles de raisonnement tels qu'OpenAI o1 et DeepSeek-R1 ont atteint des performances remarquables dans le domaine du raisonnement. Un élément clé de leur entraînement est l'intégration de récompenses vérifiables dans l'apprentissage par renforcement (RL). Cependant, les benchmarks de récompense existants n'évaluent pas les systèmes de récompense basés sur des références, laissant les chercheurs avec une compréhension limitée de la précision des vérificateurs utilisés en RL. Dans cet article, nous introduisons deux benchmarks, VerifyBench et VerifyBench-Hard, conçus pour évaluer la performance des systèmes de récompense basés sur des références. Ces benchmarks sont construits grâce à une collecte et une curation méticuleuses des données, suivies d'une annotation humaine soignée pour garantir une haute qualité. Les modèles actuels montrent encore une marge d'amélioration considérable sur VerifyBench et VerifyBench-Hard, en particulier les modèles à plus petite échelle. De plus, nous menons une analyse approfondie et complète des résultats d'évaluation, offrant des insights pour comprendre et développer des systèmes de récompense basés sur des références. Nos benchmarks proposés servent d'outils efficaces pour guider le développement de la précision des vérificateurs et des capacités de raisonnement des modèles entraînés via RL dans les tâches de raisonnement.
La cognition humaine implique généralement de penser à travers des concepts abstraits et fluides plutôt que d'utiliser strictement des tokens linguistiques discrets. Cependant, les modèles de raisonnement actuels sont limités à raisonner dans les frontières du langage humain, traitant des embeddings de tokens discrets qui représentent des points fixes dans l'espace sémantique. Cette contrainte discrète limite la puissance expressive et le potentiel maximal de ces modèles de raisonnement, entraînant souvent une exploration incomplète des chemins de raisonnement, car les méthodes standard de Chaîne de Pensée (CoT) reposent sur l'échantillonnage d'un token par étape. Dans ce travail, nous introduisons Soft Thinking, une méthode sans entraînement qui imite le raisonnement "doux" de type humain en générant des tokens de concepts abstraits dans un espace conceptuel continu. Ces tokens de concepts sont créés par le mélange pondéré par probabilité des embeddings de tokens, qui forment l'espace conceptuel continu, permettant des transitions fluides et des représentations plus riches qui transcendent les limites discrètes traditionnelles. En essence, chaque token de concept généré encapsule plusieurs significations provenant de tokens discrets apparentés, explorant implicitement divers chemins de raisonnement pour converger efficacement vers la réponse correcte. Les évaluations empiriques sur divers benchmarks mathématiques et de codage démontrent de manière cohérente l'efficacité et l'efficience de Soft Thinking, améliorant la précision pass@1 jusqu'à 2,48 points tout en réduisant l'utilisation de tokens jusqu'à 22,4 % par rapport à la CoT standard. L'analyse qualitative révèle en outre que les sorties de Soft Thinking restent hautement interprétables et lisibles, mettant en lumière le potentiel de Soft Thinking à briser le goulot d'étranglement inhérent au raisonnement basé sur le langage discret. Le code est disponible à l'adresse https://github.com/eric-ai-lab/Soft-Thinking.
Les modèles de langage par diffusion (Diffusion Language Models, DLMs) sont apparus comme des concurrents prometteurs face aux modèles de langage autorégressifs. Cependant, les DLMs ont longtemps été limités par une inférence lente. Un défi majeur réside dans le fait que leur architecture non autorégressive et leur attention bidirectionnelle empêchent l'utilisation du cache clé-valeur (KV-Cache) qui accélère le décodage. Nous abordons ce goulot d'étranglement en proposant un mécanisme similaire au KV-Cache, appelé KV-Cache différé (delayed KV-Cache), pour le processus de débruitage des DLMs. Notre approche est motivée par l'observation que les différents tokens présentent des dynamiques de représentation distinctes tout au long du processus de diffusion. En conséquence, nous proposons une stratégie de mise en cache différée et conditionnée pour les états clé et valeur. Nous concevons deux variantes complémentaires pour mettre en cache les clés et valeurs étape par étape : (1) dKV-Cache-Decode, qui offre une accélération quasi sans perte et améliore même les performances sur les séquences longues, suggérant que les DLMs existants pourraient sous-utiliser l'information contextuelle lors de l'inférence. (2) dKV-Cache-Greedy, qui adopte une mise en cache agressive avec une durée de vie réduite, obtenant des gains de vitesse plus importants avec une complexité temporelle quadratique au prix d'une certaine dégradation des performances. En fin de compte, dKV-Cache permet une accélération de l'inférence de 2 à 10 fois, réduisant considérablement l'écart entre les modèles autorégressifs (ARs) et les DLMs. Nous évaluons notre dKV-Cache sur plusieurs benchmarks, démontrant une accélération dans des tâches de compréhension générale du langage, de raisonnement mathématique et de génération de code. Les expériences montrent que le cache peut également être utilisé dans les DLMs, même de manière sans entraînement à partir des DLMs actuels.
Les modèles actuels de génération texte-image (T2I) obtiennent des résultats prometteurs, mais ils échouent dans les scénarios où les connaissances implicites dans l'invite textuelle sont incertaines. Par exemple, un modèle T2I publié en février aurait du mal à générer une affiche appropriée pour un film sortant en avril, car les designs et styles des personnages sont incertains pour le modèle. Pour résoudre ce problème, nous proposons un cadre de génération texte-image augmenté par Internet (IA-T2I) afin de permettre aux modèles T2I de clarifier ces connaissances incertaines en leur fournissant des images de référence. Plus précisément, un module de récupération active est conçu pour déterminer si une image de référence est nécessaire en fonction de l'invite textuelle donnée ; un module de sélection d'images hiérarchique est introduit pour trouver l'image la plus adaptée retournée par un moteur de recherche d'images afin d'améliorer le modèle T2I ; un mécanisme d'auto-réflexion est présenté pour évaluer et affiner continuellement l'image générée afin de garantir un alignement fidèle avec l'invite textuelle. Pour évaluer les performances du cadre proposé, nous collectons un ensemble de données nommé Img-Ref-T2I, où les invites textuelles incluent trois types de connaissances incertaines : (1) connues mais rares, (2) inconnues, (3) ambiguës. De plus, nous élaborons soigneusement une invite complexe pour guider GPT-4o dans l'évaluation des préférences, qui s'est avérée avoir une précision d'évaluation similaire à celle de l'évaluation des préférences humaines. Les résultats expérimentaux démontrent l'efficacité de notre cadre, surpassant GPT-4o d'environ 30 % dans l'évaluation humaine.
La génération augmentée par récupération basée sur les graphes de connaissances vise à atténuer les hallucinations dans les grands modèles de langage (LLMs) causées par des connaissances insuffisantes ou obsolètes. Cependant, les méthodes existantes échouent souvent à exploiter pleinement les connaissances préalables intégrées dans les graphes de connaissances (KGs), en particulier leurs informations structurelles et leurs contraintes explicites ou implicites. Les premières peuvent améliorer la fidélité du raisonnement des LLMs, tandis que les secondes peuvent accroître la fiabilité de la génération des réponses. Motivés par ces observations, nous proposons un cadre de raisonnement fiable, appelé Deliberation over Priors (DP), qui utilise de manière optimale les connaissances préalables contenues dans les KGs. Plus précisément, DP adopte une stratégie de distillation progressive des connaissances qui intègre les informations structurelles dans les LLMs grâce à une combinaison de fine-tuning supervisé et d'optimisation de type Kahneman-Tversky, améliorant ainsi la fidélité de la génération des chemins relationnels. En outre, notre cadre utilise une stratégie de raisonnement-introspection, qui guide les LLMs à effectuer une vérification raffinée du raisonnement basée sur les contraintes extraites, garantissant la fiabilité de la génération des réponses. Des expériences approfondies sur trois ensembles de données de référence montrent que DP atteint de nouvelles performances de pointe, notamment une amélioration de 13% en Hit@1 sur le dataset ComplexWebQuestions, et génère des réponses hautement fiables. Nous menons également diverses analyses pour vérifier sa flexibilité et sa praticabilité. Le code est disponible à l'adresse https://github.com/reml-group/Deliberation-on-Priors.
Le fine-tuning des modèles de langage de grande taille (LLM) open source avec des données propriétaires est désormais une pratique courante pour les développeurs en aval afin d'obtenir des LLM spécifiques à une tâche. Étonnamment, nous révélons un nouveau risque préoccupant associé à cette pratique : le créateur des LLM open source peut ultérieurement extraire les données privées de fine-tuning en aval grâce à un simple entraînement par porte dérobée, ne nécessitant qu'un accès en boîte noire au modèle fine-tuné en aval. Nos expériences approfondies, menées sur 4 modèles open source populaires comportant de 3 à 32 milliards de paramètres et 2 jeux de données en aval, montrent que les performances d'extraction peuvent être remarquablement élevées : dans des scénarios pratiques, jusqu'à 76,3 % des données de fine-tuning en aval (requêtes) sur un total de 5 000 échantillons peuvent être parfaitement extraites, et le taux de réussite peut atteindre 94,9 % dans des conditions plus idéales. Nous explorons également une stratégie de défense basée sur la détection, mais constatons qu'elle peut être contournée par une attaque améliorée. Globalement, nous soulignons l'urgence de ce risque nouvellement identifié de violation de données lors du fine-tuning, et nous espérons que des recherches ultérieures pourront faire progresser la résolution de ce problème préoccupant. Le code et les données utilisés dans nos expériences sont disponibles à l'adresse suivante : https://github.com/thu-coai/Backdoor-Data-Extraction.
Les modèles du monde prédisent les transitions d'état en réponse à des actions et sont de plus en plus développés à travers diverses modalités. Cependant, les objectifs d'entraînement standards tels que l'estimation du maximum de vraisemblance (MLE) sont souvent mal alignés avec les objectifs spécifiques aux tâches des modèles du monde, c'est-à-dire des métriques de prédiction de transition comme la précision ou la qualité perceptuelle. Dans cet article, nous présentons RLVR-World, un cadre unifié qui exploite l'apprentissage par renforcement avec des récompenses vérifiables (RLVR) pour optimiser directement les modèles du monde pour de telles métriques. Bien que la modélisation du monde soit formulée comme une prédiction autorégressive de séquences tokenisées, RLVR-World évalue les métriques des prédictions décodées comme des récompenses vérifiables. Nous démontrons des gains de performance substantiels sur des modèles du monde basés sur le langage et la vidéo dans divers domaines, y compris les jeux textuels, la navigation web et la manipulation robotique. Notre travail indique que, au-delà des avancées récentes dans les modèles de langage de raisonnement, RLVR offre un paradigme prometteur de post-entraînement pour améliorer l'utilité des modèles génératifs de manière plus large.
Les modèles de raisonnement à grande échelle (LRMs) ont obtenu un succès remarquable dans des tâches intensives en raisonnement telles que les mathématiques et la programmation. Cependant, leurs capacités de raisonnement accrues ne se traduisent pas nécessairement par une amélioration des performances en matière de sécurité - et dans certains cas, peuvent même les dégrader. Cela soulève une question de recherche importante : comment pouvons-nous améliorer la sécurité des LRMs ? Dans cet article, nous présentons une étude empirique complète sur la manière d'améliorer la sécurité des LRMs grâce au réglage fin supervisé (SFT). Notre investigation commence par une observation inattendue : la distillation directe de réponses sûres à partir de DeepSeek-R1 ne parvient pas à améliorer significativement la sécurité. Nous analysons ce phénomène et identifions trois schémas d'échec clés qui y contribuent. Nous démontrons ensuite que le traitement explicite de ces problèmes pendant le processus de distillation des données peut conduire à des améliorations substantielles de la sécurité. Ensuite, nous explorons si un processus de raisonnement long et complexe est nécessaire pour atteindre la sécurité. Fait intéressant, nous constatons que l'utilisation d'un processus de raisonnement court ou basé sur des modèles peut atteindre des performances de sécurité comparables - et sont significativement plus faciles à apprendre pour les modèles que des chaînes de raisonnement plus complexes. Ces résultats suscitent une réflexion plus approfondie sur le rôle du raisonnement dans la garantie de la sécurité. Enfin, nous constatons que le mélange de données de raisonnement mathématique pendant le réglage fin de la sécurité est utile pour équilibrer la sécurité et le sur-refus. Dans l'ensemble, nous espérons que notre étude empirique pourra fournir une vision plus holistique sur l'amélioration de la sécurité des LRMs. Le code et les données utilisés dans nos expériences sont disponibles sur https://github.com/thu-coai/LRM-Safety-Study.
Le Diffusion Transformer (DiT), un modèle de diffusion prometteur pour la génération visuelle, démontre des performances impressionnantes mais engendre un coût computationnel significatif. De manière intrigante, l'analyse des modèles DiT pré-entraînés révèle que l'auto-attention globale est souvent redondante, capturant principalement des motifs locaux, ce qui met en lumière le potentiel d'alternatives plus efficaces. Dans cet article, nous revisitons la convolution comme un bloc de construction alternatif pour créer des modèles de diffusion à la fois efficaces et expressifs. Cependant, remplacer naïvement l'auto-attention par la convolution entraîne généralement une dégradation des performances. Nos investigations attribuent cet écart de performance à la redondance accrue des canaux dans les ConvNets par rapport aux Transformers. Pour résoudre ce problème, nous introduisons un mécanisme d'attention compact sur les canaux qui favorise l'activation de canaux plus diversifiés, améliorant ainsi la diversité des caractéristiques. Cela donne naissance à Diffusion ConvNet (DiCo), une famille de modèles de diffusion entièrement construits à partir de modules ConvNet standards, offrant de solides performances génératives avec des gains d'efficacité significatifs. Sur les benchmarks conditionnels par classe d'ImageNet, DiCo surpasse les modèles de diffusion précédents à la fois en qualité d'image et en vitesse de génération. Notamment, DiCo-XL atteint un FID de 2,05 à une résolution de 256x256 et de 2,53 à 512x512, avec une accélération de 2,7x et 3,1x par rapport à DiT-XL/2, respectivement. De plus, notre plus grand modèle, DiCo-H, avec 1 milliard de paramètres, atteint un FID de 1,90 sur ImageNet 256x256, sans aucune supervision supplémentaire pendant l'entraînement. Code : https://github.com/shallowdream204/DiCo.
Les récents progrès des modèles de raisonnement à grande échelle (LRMs) ont montré des capacités impressionnantes en matière de raisonnement mathématique et logique. Cependant, les LRMs actuels admettent rarement leur ignorance ou répondent par "Je ne sais pas". Au lieu de cela, ils produisent souvent des réponses incorrectes tout en affichant une confiance excessive, ce qui soulève des inquiétudes quant à leur fiabilité factuelle. Dans ce travail, nous identifions deux schémas de raisonnement pathologiques caractérisés par une réflexion excessive qui contribuent à ces réponses trop confiantes et incorrectes : les conjectures de dernière minute et les spirales de secondes pensées. Pour résoudre ces problèmes, nous proposons BARREL, un cadre novateur qui favorise un raisonnement factuel concis et conscient des limites. Nos expériences montrent que l'entraînement avec BARREL augmente la fiabilité de DeepSeek-R1-Distill-Llama-8B de 39,33 % à 61,48 %, tout en atteignant une précision comparable à celle des modèles affinés sur des données de raisonnement générées par R1. Ces résultats démontrent que notre étude pilote est prometteuse pour construire des LRMs de type Système 2 plus fiables et factuels.
Les systèmes de recherche conversationnelle nécessitent une gestion efficace des requêtes dépendantes du contexte, qui contiennent souvent des ambiguïtés, des omissions et des coréférences. La Reformulation de Requêtes Conversationnelles (CQR) aborde ce défi en transformant ces requêtes en formes autonomes adaptées aux systèmes de récupération standards. Cependant, les approches existantes de CQR souffrent de deux contraintes majeures : une forte dépendance à une supervision externe coûteuse provenant d'annotations humaines ou de grands modèles de langage, et un alignement insuffisant entre le modèle de reformulation et les systèmes de récupération en aval. Nous présentons ConvSearch-R1, le premier cadre autonome qui élimine complètement la dépendance à une supervision externe de reformulation en exploitant l'apprentissage par renforcement pour optimiser la reformulation directement à travers les signaux de récupération. Notre approche innovante en deux étapes combine un Échauffement de Politique Autonome pour résoudre le problème de démarrage à froid grâce à une auto-distillation guidée par la récupération, suivi d'un Apprentissage par Renforcement Guidé par la Récupération avec un mécanisme de récompense spécialement conçu pour inciter au classement, qui résout le problème de parcimonie des métriques de récupération conventionnelles. Des expériences approfondies sur les ensembles de données TopiOCQA et QReCC montrent que ConvSearch-R1 surpasse significativement les méthodes précédentes de pointe, avec une amélioration de plus de 10 % sur le jeu de données complexe TopiOCQA, tout en utilisant des modèles plus petits de 3 milliards de paramètres sans aucune supervision externe.
Dans la génération autorégressive standard, un LLM prédit la distribution du prochain token, échantillonne un token discret, puis rejette cette distribution, ne transmettant que le token échantillonné comme nouvelle entrée. Pour préserver les informations riches de cette distribution, nous proposons Mixture of Inputs (MoI), une méthode sans entraînement pour la génération autorégressive. Après avoir généré un token suivant le paradigme standard, nous construisons une nouvelle entrée qui combine le token généré discret avec la distribution de tokens précédemment rejetée. Plus précisément, nous utilisons une méthode d'estimation bayésienne qui traite la distribution de tokens comme un a priori, le token échantillonné comme une observation, et remplace le vecteur one-hot conventionnel par l'espérance continue a posteriori comme nouvelle entrée du modèle. MoI permet au modèle de maintenir une représentation interne plus riche tout au long du processus de génération, ce qui améliore la qualité du texte et les capacités de raisonnement. Sur des tâches de raisonnement mathématique, de génération de code et de questions-réponses de niveau doctorat, MoI améliore systématiquement les performances sur plusieurs modèles, notamment QwQ-32B, Nemotron-Super-49B, Gemma-3-27B et DAPO-Qwen-32B, sans entraînement supplémentaire et avec une surcharge computationnelle négligeable.
Les biais dans les grands modèles de langage (LLM) compromettent de manière significative leur fiabilité et leur équité. Nous nous concentrons sur une forme courante de biais : lorsque deux concepts de référence dans l'espace conceptuel du modèle, tels que les polarités de sentiment (par exemple, "positif" et "négatif"), sont asymétriquement corrélés avec un troisième concept cible, tel qu'un aspect d'évaluation, le modèle présente un biais non intentionnel. Par exemple, la compréhension de "nourriture" ne devrait pas pencher vers un sentiment particulier. Les méthodes existantes d'évaluation des biais mesurent les différences comportementales des LLM en construisant des données étiquetées pour différents groupes sociaux et en mesurant les réponses du modèle à travers eux, un processus qui nécessite un effort humain considérable et ne capture qu'un ensemble limité de concepts sociaux. Pour surmonter ces limites, nous proposons BiasLens, un cadre d'analyse des biais sans ensemble de test basé sur la structure de l'espace vectoriel du modèle. BiasLens combine les vecteurs d'activation de concept (CAV) avec les autoencodeurs épars (SAE) pour extraire des représentations de concepts interprétables, et quantifie les biais en mesurant la variation de la similarité de représentation entre le concept cible et chacun des concepts de référence. Même sans données étiquetées, BiasLens montre un fort accord avec les métriques traditionnelles d'évaluation des biais (corrélation de Spearman r > 0,85). De plus, BiasLens révèle des formes de biais difficiles à détecter avec les méthodes existantes. Par exemple, dans des scénarios cliniques simulés, le statut d'assurance d'un patient peut amener le LLM à produire des évaluations diagnostiques biaisées. Globalement, BiasLens offre un paradigme évolutif, interprétable et efficace pour la découverte des biais, ouvrant la voie à l'amélioration de l'équité et de la transparence dans les LLM.
Les potentiels interatomiques et champs de force basés sur l'apprentissage automatique dépendent de manière cruciale de structures atomiques précises, mais ces données sont rares en raison de la disponibilité limitée de cristaux résolus expérimentalement. Bien que la microscopie électronique à résolution atomique offre une source potentielle de données structurales, la conversion de ces images en formats prêts pour la simulation reste laborieuse et sujette à erreurs, créant un goulot d'étranglement pour l'entraînement et la validation des modèles. Nous présentons AutoMat, un pipeline de bout en bout assisté par agent qui transforme automatiquement les images de microscopie électronique en transmission à balayage (STEM) en structures cristallines atomiques et prédit leurs propriétés physiques. AutoMat combine un débruitage adaptatif aux motifs, une récupération de modèles guidée par la physique, une reconstruction atomique prenant en compte la symétrie, une relaxation rapide et une prédiction de propriétés via MatterSim, ainsi qu'une orchestration coordonnée de toutes les étapes. Nous proposons le premier benchmark dédié STEM2Mat-Bench pour cette tâche et évaluons les performances en utilisant l'erreur quadratique moyenne (RMSD) du réseau, l'erreur absolue moyenne (MAE) de l'énergie de formation et le taux de réussite de la correspondance des structures. En orchestrant des appels à des outils externes, AutoMat permet à un modèle de langage (LLM) textuel de surpasser les modèles vision-langage dans ce domaine, en réalisant un raisonnement en boucle fermée tout au long du pipeline. Dans des expériences à grande échelle sur 450 échantillons de structures, AutoMat surpasse largement les modèles de langage multimodaux et outils existants. Ces résultats valident à la fois AutoMat et STEM2Mat-Bench, marquant une étape clé vers le rapprochement de la microscopie et de la simulation atomique en science des matériaux. Le code et le jeu de données sont disponibles publiquement à l'adresse https://github.com/yyt-2378/AutoMat et https://huggingface.co/datasets/yaotianvector/STEM2Mat.
La minimisation de l'entropie (EM) entraîne le modèle à concentrer davantage la masse de probabilité sur ses sorties les plus confiantes. Nous démontrons que cet objectif simple, sans aucune donnée étiquetée, peut considérablement améliorer les performances des grands modèles de langage (LLMs) sur des tâches complexes en mathématiques, physique et programmation. Nous explorons trois approches : (1) EM-FT minimise l'entropie au niveau des tokens de manière similaire à l'affinage par instruction, mais sur des sorties non étiquetées générées par le modèle ; (2) EM-RL : apprentissage par renforcement avec l'entropie négative comme seule récompense à maximiser ; (3) EM-INF : ajustement des logits au moment de l'inférence pour réduire l'entropie sans aucune donnée d'entraînement ni mise à jour des paramètres. Sur Qwen-7B, EM-RL, sans aucune donnée étiquetée, atteint des performances comparables ou supérieures à celles des méthodes de renforcement robustes comme GRPO et RLOO, qui sont entraînées sur 60 000 exemples étiquetés. De plus, EM-INF permet à Qwen-32B de rivaliser ou de surpasser les performances de modèles propriétaires comme GPT-4o, Claude 3 Opus et Gemini 1.5 Pro sur le benchmark exigeant SciCode, tout en étant 3 fois plus efficace que l'auto-cohérence et le raffinement séquentiel. Nos résultats révèlent que de nombreux LLMs pré-entraînés possèdent des capacités de raisonnement sous-estimées qui peuvent être efficacement exploitées par la seule minimisation de l'entropie, sans aucune donnée étiquetée ni même de mise à jour des paramètres.
Les modèles de diffusion se sont imposés comme des outils génératifs puissants dans divers domaines, mais l'adaptation de modèles pré-entraînés pour qu'ils présentent des propriétés spécifiques souhaitables reste un défi. Bien que l'apprentissage par renforcement (RL) offre une solution prometteuse, les méthodes actuelles peinent à concilier un réglage fin stable et efficace avec la prise en charge de récompenses non différentiables. De plus, leur dépendance à des récompenses éparses fournit une supervision inadéquate lors des étapes intermédiaires, ce qui se traduit souvent par une qualité de génération sous-optimale. Pour surmonter ces limitations, des signaux denses et différentiables sont nécessaires tout au long du processus de diffusion. Nous proposons donc VAlue-based Reinforced Diffusion (VARD) : une approche novatrice qui apprend d'abord une fonction de valeur prédisant l'espérance des récompenses à partir d'états intermédiaires, puis utilise cette fonction de valeur avec une régularisation KL pour fournir une supervision dense tout au long du processus de génération. Notre méthode maintient une proximité avec le modèle pré-entraîné tout en permettant un entraînement efficace et stable via la rétropropagation. Les résultats expérimentaux montrent que notre approche facilite un meilleur guidage des trajectoires, améliore l'efficacité de l'entraînement et étend l'applicabilité du RL aux modèles de diffusion optimisés pour des fonctions de récompense complexes et non différentiables.
L'essor des modèles de langage audio de grande envergure (LAMs) apporte à la fois des opportunités et des risques, car leurs sorties audio peuvent contenir des contenus nuisibles ou contraires à l'éthique. Cependant, les recherches actuelles manquent d'une évaluation systématique et quantitative de la sécurité des LAMs, en particulier face aux attaques de contournement (jailbreak), qui sont complexes en raison de la nature temporelle et sémantique de la parole. Pour combler cette lacune, nous introduisons AJailBench, le premier benchmark spécifiquement conçu pour évaluer les vulnérabilités de contournement dans les LAMs. Nous commençons par construire AJailBench-Base, un ensemble de données comprenant 1 495 invites audio adverses couvrant 10 catégories de violations de politiques, converties à partir d'attaques de contournement textuelles en utilisant une synthèse vocale réaliste. En utilisant cet ensemble de données, nous évaluons plusieurs LAMs de pointe et révélons qu'aucun ne présente une robustesse constante face aux attaques. Pour renforcer davantage les tests de contournement et simuler des conditions d'attaque plus réalistes, nous proposons une méthode pour générer des variantes adverses dynamiques. Notre Audio Perturbation Toolkit (APT) applique des distorsions ciblées dans les domaines temporel, fréquentiel et d'amplitude. Pour préserver l'intention de contournement originale, nous imposons une contrainte de cohérence sémantique et utilisons l'optimisation bayésienne pour rechercher efficacement des perturbations à la fois subtiles et très efficaces. Cela aboutit à AJailBench-APT, un ensemble de données étendu d'échantillons audio adverses optimisés. Nos résultats démontrent que même de petites perturbations, préservant la sémantique, peuvent réduire significativement la performance de sécurité des LAMs leaders, soulignant la nécessité de mécanismes de défense plus robustes et conscients de la sémantique.
Cet article explore l'ingénierie des prompts préalables (pPE) dans le contexte du réglage fin par renforcement (RFT), où les modèles de langage (LMs) sont incités à adopter des comportements maximisant les performances grâce à des signaux de récompense. Alors que les recherches existantes sur le RFT se sont principalement concentrées sur les algorithmes, le façonnage des récompenses et la curation des données, la conception du prompt préalable—les instructions ajoutées aux requêtes pendant l'entraînement pour susciter des comportements tels que le raisonnement étape par étape—reste peu explorée. Nous examinons si différentes approches de pPE peuvent guider les LMs à internaliser des comportements distincts après le RFT. Inspirés par l'ingénierie des prompts au moment de l'inférence (iPE), nous traduisons cinq stratégies représentatives d'iPE—raisonnement, planification, raisonnement basé sur le code, rappel de connaissances et utilisation d'exemples nuls—en approches de pPE correspondantes. Nous expérimentons avec Qwen2.5-7B en utilisant chacune des approches de pPE, puis évaluons les performances sur des benchmarks intra-domaines et extra-domaines (par exemple, AIME2024, HumanEval+ et GPQA-Diamond). Nos résultats montrent que tous les modèles entraînés avec pPE surpassent leurs homologues utilisant iPE, avec l'approche pPE basée sur les exemples nuls obtenant le gain de performance moyen le plus important et la plus forte amélioration sur AIME2024 et GPQA-Diamond, surpassant l'approche de raisonnement couramment utilisée. De plus, en adaptant un cadre de classification des comportements, nous démontrons que différentes stratégies de pPE instillent des styles comportementaux distincts dans les modèles résultants. Ces résultats positionnent la pPE comme un axe puissant mais sous-étudié pour le RFT.
Les grands modèles multimodaux (LMM) excellent désormais sur de nombreux benchmarks en vision et langage, mais ils peinent encore à répondre à des critères centrés sur l'humain tels que l'équité, l'éthique, l'empathie et l'inclusivité, éléments clés pour s'aligner sur les valeurs humaines. Nous présentons HumaniBench, un benchmark holistique composé de 32 000 paires d'images-questions issues du monde réel, annotées via un pipeline assisté par GPT4o et rigoureusement vérifiées par des experts du domaine. HumaniBench évalue sept principes d'IA centrée sur l'humain (HCAI) : l'équité, l'éthique, la compréhension, le raisonnement, l'inclusivité linguistique, l'empathie et la robustesse, à travers sept tâches variées, incluant des questions-réponses visuelles ouvertes et fermées (VQA), des questions-réponses multilingues, l'ancrage visuel, la génération de légendes empathiques et des tests de robustesse. L'évaluation de 15 LMM de pointe (open source et propriétaires) révèle que les modèles propriétaires dominent généralement, bien que la robustesse et l'ancrage visuel restent des points faibles. Certains modèles open source peinent également à concilier précision et respect des principes alignés sur l'humain. HumaniBench est le premier benchmark conçu spécifiquement autour des principes HCAI. Il offre un cadre rigoureux pour diagnostiquer les écarts d'alignement et guider les LMM vers un comportement à la fois précis et socialement responsable. Le jeu de données, les prompts d'annotation et le code d'évaluation sont disponibles à l'adresse : https://vectorinstitute.github.io/HumaniBench
Les modèles de récompense sont essentiels pour aligner les LLM avec les préférences humaines, mais leur entraînement est coûteux, nécessitant des données de préférence annotées à grande échelle et des modèles de langage pré-entraînés puissants. Parallèlement, la disponibilité croissante de jeux de données synthétiques de haute qualité pour le suivi d'instructions soulève la question : des métriques de référence plus simples peuvent-elles servir d'alternatives viables aux modèles de récompense lors de l'alignement basé sur l'apprentissage par renforcement (RL) ? Dans cet article, nous montrons d'abord que BLEU, une métrique de base de correspondance de chaînes, correspond de manière surprenante aux modèles de récompense forts en termes d'accord avec les préférences humaines sur des jeux de données généraux de suivi d'instructions. Sur la base de cette observation, nous développons BLEUBERI, une méthode qui identifie d'abord les instructions difficiles, puis applique l'Optimisation Relative de Politique par Groupe (GRPO) en utilisant directement BLEU comme fonction de récompense. Nous démontrons que les modèles entraînés avec BLEUBERI sont compétitifs avec les modèles entraînés via un RL guidé par un modèle de récompense sur quatre benchmarks difficiles de suivi d'instructions et trois modèles de langage de base différents. Une évaluation humaine confirme en outre que la qualité des sorties des modèles BLEUBERI est comparable à celle des modèles alignés par un modèle de récompense. De plus, les modèles BLEUBERI génèrent des sorties plus ancrées dans les faits que les méthodes concurrentes. Globalement, nous montrons que, avec un accès à des sorties de référence de haute qualité (facilement obtenues via des jeux de données existants de suivi d'instructions ou la génération de données synthétiques), les métriques basées sur la correspondance de chaînes sont des substituts peu coûteux mais efficaces aux modèles de récompense lors de l'alignement. Nous publions notre code et nos données sur https://github.com/lilakk/BLEUBERI.
Le décodage spéculatif est apparu comme une méthode populaire pour accélérer l'inférence des modèles de langage de grande taille (LLMs) tout en conservant leurs performances supérieures en génération de texte. Les méthodes précédentes adoptent soit une configuration fixe de décodage spéculatif indépendamment des tokens de préfixe, soit entraînent des modèles de brouillon de manière hors ligne ou en ligne pour les aligner avec le contexte. Cet article propose un cadre d'apprentissage en ligne sans entraînement pour choisir de manière adaptative la configuration des hyperparamètres du décodage spéculatif pendant la génération du texte. Nous formulons d'abord ce problème de sélection d'hyperparamètres comme un problème de bandit multi-bras et fournissons un cadre général de décodage spéculatif, BanditSpec. De plus, deux algorithmes de sélection d'hyperparamètres basés sur le bandit, UCBSpec et EXP3Spec, sont conçus et analysés en termes d'une nouvelle quantité, le regret du temps d'arrêt. Nous bornons supérieurement ce regret dans des contextes de récompense stochastique et adversarial. En dérivant un résultat d'impossibilité information-théorique, il est montré que la performance en regret de UCBSpec est optimale à des constantes universelles près. Enfin, des expériences empiriques approfondies avec LLaMA3 et Qwen2 démontrent que nos algorithmes sont efficaces par rapport aux méthodes existantes, et que le débit est proche du meilleur hyperparamètre oracle dans des scénarios simulés de service LLM avec des invites d'entrée variées.
Les systèmes multi-agents (MAS) basés sur des modèles de langage de grande taille (LLM) démontrent un potentiel remarquable pour la découverte scientifique. Cependant, les approches existantes automatisent souvent la découverte scientifique en utilisant des workflows prédéfinis qui manquent de contraintes de rationalité. Cela conduit fréquemment à des hypothèses sans but et à un échec à relier systématiquement les hypothèses avec des preuves, entravant ainsi la réduction systématique de l'incertitude. Surmonter ces limitations nécessite fondamentalement une réduction systématique de l'incertitude. Nous présentons PiFlow, un cadre informationnel, traitant la découverte scientifique automatisée comme un problème structuré de réduction de l'incertitude guidé par des principes (par exemple, les lois scientifiques). Dans les évaluations menées dans trois domaines scientifiques distincts — la découverte de structures de nanomatériaux, de biomolécules et de candidats supraconducteurs avec des propriétés ciblées — notre méthode améliore significativement l'efficacité de la découverte, reflétée par une augmentation de 73,55 % de l'aire sous la courbe (AUC) des valeurs de propriétés par rapport aux étapes d'exploration, et améliore la qualité des solutions de 94,06 % par rapport à un système d'agents classique. Globalement, PiFlow sert de méthode Plug-and-Play, établissant un nouveau changement de paradigme dans la découverte scientifique automatisée hautement efficace, ouvrant la voie à une recherche accélérée et plus robuste pilotée par l'IA. Le code est disponible publiquement sur notre {GitHub} https://github.com/amair-lab/PiFlow.
L'apprentissage par renforcement (RL) a récemment émergé comme une approche convaincante pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), où un générateur LLM agit comme une politique guidée par un vérificateur (modèle de récompense). Cependant, les méthodes actuelles de post-formation par RL pour les LLM utilisent généralement des vérificateurs fixes (basés sur des règles ou pré-entraînés et gelés) ou entraînés de manière discriminative via un ajustement fin supervisé (SFT). Ces conceptions sont susceptibles au piratage des récompenses et généralisent mal au-delà de leurs distributions d'entraînement. Pour surmonter ces limitations, nous proposons Tango, un cadre novateur qui utilise le RL pour entraîner simultanément un générateur LLM et un vérificateur de manière entrelacée. Une innovation centrale de Tango est son vérificateur LLM génératif au niveau du processus, qui est entraîné via le RL et co-évolue avec le générateur. Il est important de noter que le vérificateur est entraîné uniquement sur la base de récompenses de correction au niveau des résultats, sans nécessiter d'annotations explicites au niveau du processus. Ce vérificateur génératif entraîné par RL montre une robustesse améliorée et une généralisation supérieure par rapport aux vérificateurs déterministes ou entraînés par SFT, favorisant un renforcement mutuel efficace avec le générateur. Des expériences approfondies démontrent que les deux composants de Tango atteignent des résultats de pointe parmi les modèles de taille 7B/8B : le générateur obtient des performances de premier ordre sur cinq benchmarks de mathématiques de niveau compétition et quatre tâches de raisonnement difficiles hors domaine, tandis que le vérificateur se distingue sur le jeu de données ProcessBench. Remarquablement, les deux composants montrent des améliorations particulièrement substantielles sur les problèmes de raisonnement mathématique les plus difficiles. Le code est disponible à l'adresse : https://github.com/kaiwenzha/rl-tango.
L'évaluation robuste des capacités de narration longue des modèles de langage à grande échelle (LLMs) reste un défi majeur, car les benchmarks existants manquent souvent d'échelle, de diversité ou de mesures objectives nécessaires. Pour y remédier, nous introduisons WebNovelBench, un nouveau benchmark spécifiquement conçu pour évaluer la génération de romans longs. WebNovelBench s'appuie sur un ensemble de données à grande échelle de plus de 4 000 romans web chinois, en cadrant l'évaluation comme une tâche de génération de synopsis à histoire. Nous proposons un cadre multidimensionnel englobant huit dimensions de qualité narrative, évaluées automatiquement via une approche LLM-as-Judge. Les scores sont agrégés à l'aide d'une analyse en composantes principales et mappés à un rang centile par rapport aux œuvres écrites par des humains. Nos expériences démontrent que WebNovelBench différencie efficacement les chefs-d'œuvre écrits par des humains, les romans web populaires et les contenus générés par des LLMs. Nous fournissons une analyse approfondie de 24 LLMs de pointe, classant leurs capacités narratives et offrant des perspectives pour leur développement futur. Ce benchmark propose une méthodologie évolutive, reproductible et basée sur les données pour évaluer et faire progresser la génération narrative pilotée par les LLMs.
Les grands modèles multimodaux excellent dans les tâches multimodales mais rencontrent d'importants défis computationnels en raison d'un traitement excessif des tokens visuels. Contrairement aux méthodes de réduction de tokens qui se concentrent sur la redondance au niveau des tokens, nous identifions et étudions la redondance computationnelle sur les tokens visuels afin de garantir qu'aucune information ne soit perdue. Notre idée clé est que les tokens visuels issus de l'encodeur visuel pré-entraîné ne nécessitent pas nécessairement toutes les opérations lourdes (par exemple, l'auto-attention, les FFNs) dans les modèles LMM à décodeur uniquement, et pourraient être traités de manière plus légère avec des conceptions appropriées. Nous avons conçu une série d'expériences pour découvrir et réduire progressivement la redondance computationnelle liée à la vision. Sur la base de nos découvertes, nous proposons ProxyV, une approche novatrice qui utilise des tokens visuels proxy pour alléger la charge computationnelle sur les tokens visuels originaux. ProxyV améliore l'efficacité sans compromettre les performances et peut même entraîner des gains de performance notables dans des scénarios où les améliorations d'efficacité sont plus modérées. De plus, la flexibilité de ProxyV est démontrée par sa combinaison avec des méthodes de réduction de tokens pour accroître encore l'efficacité. Le code sera rendu public à l'URL suivante : https://github.com/penghao-wu/ProxyV.
La reconnaissance audio-visuelle de la parole (AVSR) améliore la robustesse dans les environnements bruyants en intégrant des indices visuels. Bien que les avancées récentes intègrent des modèles de langage de grande taille (LLMs) dans l'AVSR, leur coût computationnel élevé entrave leur déploiement dans des environnements à ressources limitées. Pour résoudre ce problème, nous proposons Llama-SMoP, un LLM multimodal efficace qui utilise un module de Projecteurs à Mélange Sparse (SMoP) pour augmenter la capacité du modèle sans accroître les coûts d'inférence. En incorporant des projecteurs à mélange d'experts (MoE) à portes sparses, Llama-SMoP permet l'utilisation de LLMs plus petits tout en maintenant des performances solides. Nous explorons trois configurations SMoP et montrons que Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), qui utilise des routeurs et des experts spécifiques à chaque modalité, obtient des performances supérieures sur les tâches de reconnaissance automatique de la parole (ASR), de reconnaissance visuelle de la parole (VSR) et d'AVSR. Les études d'ablation confirment son efficacité en matière d'activation des experts, de scalabilité et de robustesse au bruit.
Les auditeurs humains s'adaptent facilement à des locuteurs et des variétés linguistiques inconnus grâce à l'exposition, mais ces bénéfices d'adaptation s'étendent-ils aux modèles de langage parlés les plus avancés ? Nous introduisons un cadre évolutif permettant l'apprentissage en contexte (ICL) dans Phi-4 Multimodal en utilisant des invites de tâches entrelacées et des paires audio-texte, et constatons qu'aussi peu que 12 énoncés exemples (~50 secondes) au moment de l'inférence réduisent les taux d'erreur sur les mots de 19,7 % (1,2 point de pourcentage) en moyenne sur divers corpus anglais. Ces améliorations sont plus marquées pour les variétés à faibles ressources, lorsque le contexte et le locuteur cible correspondent, et lorsque davantage d'exemples sont fournis—bien que la mise à l'échelle de notre procédure entraîne des rendements marginaux décroissants par rapport à la longueur du contexte. Globalement, nous constatons que notre nouveau schéma d'adaptation ICL (1) révèle un profil de performance similaire à celui des auditeurs humains, et (2) démontre des améliorations constantes de la robustesse de la reconnaissance automatique de la parole (ASR) pour divers locuteurs et origines linguistiques. Bien que l'adaptation réussisse globalement, des écarts significatifs persistent pour certaines variétés, révélant où les modèles actuels ne parviennent pas encore à égaler la flexibilité humaine. Nous publions nos invites et notre code sur GitHub.
Les modèles de langage de grande taille (LLMs) présentent des limitations inhérentes en termes de fidélité et de factualité, communément appelées hallucinations. Plusieurs benchmarks ont été développés pour évaluer la factualité dans le contexte de jeux de données centrés sur l'anglais, en s'appuyant sur des contextes informatifs supplémentaires tels que des liens web ou des passages de texte, mais en ignorant les ressources factuelles structurées disponibles. À cet égard, les graphes de connaissances (KGs) ont été identifiés comme une aide utile pour atténuer les hallucinations, car ils offrent une manière structurée de représenter les faits concernant les entités et leurs relations avec un minimum de surcharge linguistique. Nous comblons le manque de chemins de KGs et de multilinguisme pour la modélisation linguistique factuelle dans les benchmarks existants d'évaluation des hallucinations et proposons un benchmark multilingue et multi-sauts basé sur les KGs, appelé MultiHal, conçu pour l'évaluation de texte génératif. Dans le cadre de notre pipeline de collecte de données, nous avons extrait 140 000 chemins de KGs à partir de KGs de domaine ouvert, parmi lesquels nous avons éliminé les chemins bruyants, en conservant un sous-ensemble de haute qualité de 25 900. Notre évaluation de base montre une augmentation absolue de l'échelle d'environ 0,12 à 0,36 points pour le score de similarité sémantique dans KG-RAG par rapport au QA standard à travers plusieurs langues et plusieurs modèles, démontrant le potentiel de l'intégration des KGs. Nous anticipons que MultiHal stimulera les recherches futures vers plusieurs tâches d'atténuation des hallucinations et de vérification des faits basées sur les graphes.
L'alternance codique est un phénomène courant consistant à alterner entre différentes langues dans un même énoncé, pensée ou conversation. Nous postulons que les humains pratiquent l'alternance codique parce qu'ils se sentent plus à l'aise pour aborder certains sujets et domaines dans une langue plutôt qu'une autre. Avec l'essor des modèles de langage à forte intensité de connaissances, nous nous posons la question naturelle suivante : Les modèles pourraient-ils détenir davantage de connaissances sur certains sujets dans une langue X ? Plus important encore, pourrions-nous améliorer le raisonnement en changeant la langue dans laquelle il est effectué ? Nous introduisons le terme Connaissances Spécifiques à la Langue (CSL) pour représenter ce phénomène. Comme les cultures ethniques ont tendance à se développer parallèlement à différentes langues, nous utilisons des ensembles de données spécifiques à la culture (qui contiennent des connaissances sur les normes comportementales culturelles et sociales). Nous constatons que les modèles de langage peuvent mieux performer en utilisant le raisonnement en chaîne de pensée dans certaines langues autres que l'anglais, parfois même mieux dans des langues à ressources limitées. Associé à des travaux antérieurs montrant que la similarité sémantique n'équivaut pas à la similarité représentationnelle, nous émettons l'hypothèse que les textes spécifiques à la culture apparaissent plus abondamment dans les langues correspondantes, permettant à des connaissances spécifiques de n'exister que dans certaines langues "experts". Motivés par nos résultats initiaux, nous concevons une méthodologie simple appelée LSKExtractor pour évaluer les connaissances spécifiques à la langue présentes dans un modèle de langage, puis les exploiter lors de l'inférence. Nous présentons nos résultats sur divers modèles et ensembles de données, montrant une amélioration relative moyenne de 10 % en termes de précision. Notre recherche contribue au développement open-source de modèles de langage inclusifs et plus alignés avec les contextes culturels et linguistiques dans lesquels ils sont déployés.