papers.description
Le post-entraînement des modèles de langage (LMs) avec l'apprentissage par renforcement (RL) peut améliorer leurs capacités de raisonnement complexe sans nécessiter de fine-tuning supervisé, comme l'a démontré DeepSeek-R1-Zero. Cependant, l'utilisation efficace du RL pour les LMs nécessite une parallélisation importante pour augmenter l'inférence, ce qui introduit des défis techniques non négligeables (par exemple, la latence, la mémoire et la fiabilité) ainsi que des coûts financiers en constante augmentation. Nous présentons Swarm sAmpling Policy Optimization (SAPO), un algorithme de post-entraînement RL entièrement décentralisé et asynchrone. SAPO est conçu pour des réseaux décentralisés de nœuds de calcul hétérogènes, où chaque nœud gère ses propres modèles de politique tout en "partageant" les rollouts avec d'autres dans le réseau ; aucune hypothèse explicite sur la latence, l'homogénéité des modèles ou le matériel n'est requise, et les nœuds peuvent fonctionner de manière isolée si souhaité. En conséquence, l'algorithme évite les goulots d'étranglement courants dans la mise à l'échelle du post-entraînement RL tout en permettant (et même en encourageant) de nouvelles possibilités. En échantillonnant les rollouts "partagés" à travers le réseau, il permet aux "moments de révélation" de se propager, amorçant ainsi le processus d'apprentissage. Dans cet article, nous montrons que SAPO a permis des gains de récompense cumulative allant jusqu'à 94 % dans des expériences contrôlées. Nous partageons également des insights provenant de tests sur un réseau de milliers de nœuds contribués par les membres de la communauté Gensyn, exécutant l'algorithme sur du matériel et des modèles variés lors d'une démonstration open-source.
La pensée parallèle a émergé comme une approche novatrice pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs) en explorant simultanément plusieurs chemins de raisonnement. Cependant, activer de telles capacités par le biais de l'entraînement reste un défi, car les méthodes existantes reposent principalement sur un fine-tuning supervisé (SFT) sur des données synthétiques, ce qui encourage une imitation forcée par l'enseignant plutôt que l'exploration et la généralisation. Contrairement à ces approches, nous proposons Parallel-R1, le premier cadre d'apprentissage par renforcement (RL) qui permet des comportements de pensée parallèle pour des tâches de raisonnement complexes dans le monde réel. Notre cadre utilise un curriculum progressif qui aborde explicitement le problème de démarrage à froid dans l'entraînement de la pensée parallèle avec RL. Nous utilisons d'abord le SFT sur des trajectoires générées par des prompts à partir de tâches plus simples pour inculquer la capacité de pensée parallèle, puis nous passons au RL pour explorer et généraliser cette compétence sur des problèmes plus difficiles. Les expériences sur divers benchmarks mathématiques, notamment MATH, AMC23 et AIME, montrent que Parallel-R1 instille avec succès la pensée parallèle, conduisant à une amélioration de 8,4 % en précision par rapport au modèle de pensée séquentielle entraîné directement sur des tâches difficiles avec RL. Une analyse plus approfondie révèle un changement clair dans le comportement de pensée du modèle : à un stade précoce, il utilise la pensée parallèle comme stratégie d'exploration, tandis qu'à un stade ultérieur, il utilise la même capacité pour une vérification multi-perspective. Plus significativement, nous validons la pensée parallèle comme un échafaudage d'exploration en milieu d'entraînement, où cette phase d'exploration temporaire débloque un plafond de performance plus élevé après le RL, produisant une amélioration de 42,9 % par rapport à la base de référence sur AIME25. Notre modèle, données et code seront open-source à l'adresse https://github.com/zhengkid/Parallel-R1.
Les modèles de langage multimodaux de grande taille (MLLMs) entraînés par réglage d'instructions visuelles ont obtenu des performances solides sur diverses tâches, mais ils restent limités dans les tâches centrées sur la vision, telles que le comptage d'objets ou le raisonnement spatial. Nous attribuons cet écart au paradigme de supervision textuelle dominant, qui ne fournit qu'une guidance indirecte pour le chemin visuel et conduit souvent les MLLMs à ignorer les détails visuels fins pendant l'entraînement. Dans cet article, nous présentons VIsual Representation ALignment (VIRAL), une stratégie de régularisation simple mais efficace qui aligne les représentations visuelles internes des MLLMs avec celles des modèles de fondation visuelle pré-entraînés (VFMs). En imposant explicitement cet alignement, VIRAL permet au modèle non seulement de conserver les détails visuels critiques provenant de l'encodeur visuel d'entrée, mais aussi de compléter ces informations avec des connaissances visuelles supplémentaires des VFMs, améliorant ainsi sa capacité à raisonner sur des entrées visuelles complexes. Nos expériences montrent des améliorations constantes sur toutes les tâches des benchmarks multimodaux largement adoptés. De plus, nous menons des études d'ablation approfondies pour valider les choix de conception clés de notre cadre. Nous pensons que cette découverte simple ouvre une voie importante pour l'intégration efficace de l'information visuelle dans l'entraînement des MLLMs.
Les récents progrès des grands modèles multimodaux ont exploité des outils basés sur l'image avec l'apprentissage par renforcement pour résoudre des problèmes visuels. Cependant, les approches open-source existantes présentent souvent des schémas de raisonnement monotones et n'autorisent qu'un nombre limité de tours d'interaction, les rendant inadaptées pour des tâches complexes nécessitant une exploration par essais et erreurs. Dans ce travail, nous surmontons cette limitation en augmentant l'échelle des interactions basées sur des outils et introduisons Mini-o3, un système qui exécute un raisonnement profond et multi-tours — s'étendant sur des dizaines d'étapes — et atteint des performances de pointe sur des tâches de recherche visuelle difficiles. Notre recette pour reproduire les comportements de type OpenAI o3 comprend trois composants clés. Premièrement, nous construisons le Visual Probe Dataset, une collection de milliers de problèmes de recherche visuelle complexes conçus pour un raisonnement exploratoire. Deuxièmement, nous développons un pipeline itératif de collecte de données pour obtenir des trajectoires de démarrage à froid qui présentent des schémas de raisonnement variés, incluant la recherche en profondeur, les essais et erreurs, et le maintien d'objectifs. Troisièmement, nous proposons une stratégie de masquage des tours excédentaires qui évite de pénaliser les réponses dépassant le nombre maximum de tours lors de l'apprentissage par renforcement, équilibrant ainsi l'efficacité à l'entraînement avec la scalabilité au test. Bien qu'entraîné avec une limite supérieure de seulement six tours d'interaction, notre modèle génère des trajectoires qui s'étendent naturellement à des dizaines de tours lors de l'inférence, avec une précision qui s'améliore à mesure que le nombre de tours augmente. Des expériences approfondies démontrent que Mini-o3 produit des schémas de raisonnement riches et des chemins de pensée profonds, résolvant efficacement des problèmes de recherche visuelle complexes.
Les modèles multimodaux unifiés (UMM) intègrent la compréhension et la génération visuelles au sein d'une seule architecture. Cependant, l'entraînement conventionnel repose sur des paires (ou séquences) image-texte dont les légendes sont généralement succinctes et manquent de détails visuels fins—même lorsqu'elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons l'Alignement par Reconstruction (RecA), une méthode post-entraînement économe en ressources qui exploite les embeddings d'un encodeur de compréhension visuelle comme "prompts textuels" denses, fournissant une supervision riche sans légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l'optimise pour reconstruire l'image d'entrée avec une perte de reconstruction auto-supervisée, réalignant ainsi la compréhension et la génération. Malgré sa simplicité, RecA est largement applicable : pour les UMM basés sur l'autorégression, l'autorégression masquée et la diffusion, il améliore systématiquement la fidélité de la génération et de l'édition. Avec seulement 27 heures GPU, le post-entraînement avec RecA améliore significativement les performances de génération d'images sur GenEval (0.73→0.90) et DPGBench (80.93→88.15), tout en boostant les benchmarks d'édition (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notamment, RecA surpasse des modèles open-source bien plus volumineux et s'applique largement à diverses architectures UMM, s'établissant comme une stratégie d'alignement post-entraînement efficace et générale pour les UMM.
Les récents progrès en matière de personnalisation d'images révèlent un large éventail de perspectives d'application grâce à des capacités de personnalisation renforcées. Cependant, étant donné que les humains sont plus sensibles aux visages, un défi majeur persiste à préserver une identité cohérente tout en évitant la confusion d'identité avec des images multi-références, limitant ainsi l'évolutivité identitaire des modèles de personnalisation. Pour résoudre ce problème, nous présentons UMO, un cadre d'Optimisation Multi-identité Unifié, conçu pour maintenir une préservation d'identité haute fidélité et atténuer la confusion d'identité avec évolutivité. Grâce au paradigme de "correspondance multi-à-multi", UMO reformule la génération multi-identité comme un problème d'optimisation d'affectation globale et libère la cohérence multi-identité pour les méthodes de personnalisation d'images existantes, généralement via l'apprentissage par renforcement sur les modèles de diffusion. Pour faciliter l'entraînement d'UMO, nous développons un ensemble de données de personnalisation évolutif avec des images multi-références, composé à la fois de parties synthétisées et réelles. De plus, nous proposons une nouvelle métrique pour mesurer la confusion d'identité. Des expériences approfondies démontrent qu'UMO améliore non seulement de manière significative la cohérence identitaire, mais réduit également la confusion d'identité sur plusieurs méthodes de personnalisation d'images, établissant ainsi un nouvel état de l'art parmi les méthodes open-source en termes de préservation d'identité. Code et modèle : https://github.com/bytedance/UMO
L'exécution de tâches conditionnées par le langage dans des environnements visuels dynamiques reste un défi central dans l'IA incarnée. Les modèles Vision-Langage-Action (VLA) existants adoptent principalement des mappages réactifs d'état à action, conduisant souvent à des comportements à courte vue et à une faible robustesse dans des scènes dynamiques. Dans cet article, nous présentons F1, un cadre VLA pré-entraîné qui intègre la génération de prévisions visuelles dans le pipeline de prise de décision. F1 adopte une architecture Mixture-of-Transformer avec des modules dédiés à la perception, à la génération de prévisions et au contrôle, reliant ainsi la compréhension, la génération et les actions. Au cœur de F1 se trouve un mécanisme de prédiction à l'échelle suivante qui synthétise des prévisions visuelles conditionnées par un objectif comme cibles de planification explicites. En prévoyant des états visuels futurs plausibles, F1 reformule la génération d'actions comme un problème de dynamique inverse guidé par les prévisions, permettant des actions qui atteignent implicitement des objectifs visuels. Pour doter F1 de capacités robustes et généralisables, nous proposons une recette d'entraînement en trois étapes sur un vaste ensemble de données comprenant plus de 330 000 trajectoires à travers 136 tâches diverses. Ce schéma d'entraînement améliore le raisonnement modulaire et équipe le modèle de prévisions visuelles transférables, essentielles pour des environnements complexes et dynamiques. Des évaluations approfondies sur des tâches du monde réel et des benchmarks de simulation démontrent que F1 surpasse systématiquement les approches existantes, obtenant des gains substantiels à la fois en taux de réussite des tâches et en capacité de généralisation.
L'apprentissage par renforcement (Reinforcement Learning, RL) s'est avéré extrêmement efficace pour améliorer les capacités de raisonnement complexe des grands modèles de langage (Large Language Models, LLMs). Cependant, les mécanismes sous-jacents à ce succès restent largement opaques. Notre analyse révèle que des phénomènes intrigants tels que les « moments eurêka », le « scaling de longueur » et la dynamique de l'entropie ne sont pas des occurrences disparates, mais plutôt des caractéristiques d'une hiérarchie de raisonnement émergente, semblable à la séparation entre la planification stratégique de haut niveau et l'exécution procédurale de bas niveau dans la cognition humaine. Nous découvrons une dynamique en deux phases : initialement, un modèle est contraint par la justesse procédurale et doit améliorer ses compétences de bas niveau. Le goulot d'étranglement de l'apprentissage se déplace ensuite de manière décisive, les gains de performance étant alors pilotés par l'exploration et la maîtrise de la planification stratégique de haut niveau. Cette observation met en lumière une inefficacité fondamentale des algorithmes RL dominants comme GRPO, qui appliquent une pression d'optimisation de manière agnostique et diluent le signal d'apprentissage sur tous les tokens. Pour y remédier, nous proposons HIerarchy-Aware Credit Assignment (HICRA), un algorithme qui concentre les efforts d'optimisation sur les tokens de planification à fort impact. HICRA surpasse significativement les modèles de référence, démontrant que se concentrer sur ce goulot d'étranglement stratégique est essentiel pour débloquer un raisonnement avancé. Par ailleurs, nous validons l'entropie sémantique comme un indicateur supérieur pour mesurer l'exploration stratégique, par rapport à des métriques trompeuses telles que l'entropie au niveau des tokens.
Les grands modèles de langage (LLMs) ont progressé rapidement ces dernières années, grâce à l'augmentation de leur échelle, à l'abondance de données d'entraînement de haute qualité et à l'apprentissage par renforcement. Cependant, cette avancée se heurte à un goulot d'étranglement fondamental : le besoin croissant de données supplémentaires pour que les modèles puissent continuer à apprendre. Dans ce travail, nous proposons une approche d'apprentissage par renforcement qui élimine cette dépendance en permettant aux modèles de s'améliorer sans données supplémentaires. Notre méthode s'appuie sur un cadre théorique de jeu basé sur l'auto-confrontation, où les capacités d'un modèle sont évaluées en fonction de ses performances dans un jeu compétitif, et où des stratégies plus robustes émergent en faisant jouer le modèle contre lui-même - un processus que nous appelons Auto-Jeu Linguistique (LSP). Les expériences menées avec Llama-3.2-3B-Instruct sur des benchmarks de suivi d'instructions montrent que les modèles pré-entraînés peuvent non seulement améliorer leurs performances sur des tâches complexes grâce à l'auto-jeu seul, mais qu'ils peuvent le faire plus efficacement que les approches basées sur des données supplémentaires.
L'interprétation radiologique assistée par l'IA repose principalement sur des modèles étroits et spécialisés dans une seule tâche. Cette approche s'avère peu pratique pour couvrir le vaste spectre des modalités d'imagerie, des maladies et des observations radiologiques. Les modèles de fondation (FMs) offrent la promesse d'une généralisation étendue à travers les modalités et dans des contextes de données limitées. Cependant, ce potentiel est resté largement inexploité en radiologie. Nous présentons Curia, un modèle de fondation entraîné sur l'ensemble des examens d'imagerie transversale d'un grand hôpital sur plusieurs années, constituant à notre connaissance le plus grand corpus de données réelles de ce type, englobant 150 000 examens (130 To). Sur un nouveau benchmark de validation externe comprenant 19 tâches, Curia identifie avec précision les organes, détecte des conditions telles que les hémorragies cérébrales et les infarctus du myocarde, et prédit les résultats dans la stadification des tumeurs. Curia égale ou dépasse les performances des radiologues et des récents modèles de fondation, et présente des propriétés émergentes cliniquement significatives dans des régimes de données croisées et limitées. Pour accélérer les progrès, nous publions les poids de notre modèle de base sur https://huggingface.co/raidium/curia.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a obtenu un succès remarquable dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes RLVR existantes souffrent souvent d'une inefficacité d'exploration due à des inadéquations entre la difficulté des données d'entraînement et les capacités du modèle. Les LLM échouent à découvrir des chemins de raisonnement viables lorsque les problèmes sont trop difficiles, tout en apprenant peu de nouvelles capacités lorsque les problèmes sont trop simples. Dans ce travail, nous formalisons l'impact de la difficulté des problèmes en quantifiant la relation entre la vitesse de descente de la perte et la précision des déploiements. Sur la base de cette analyse, nous proposons SEELE, un nouveau cadre RLVR assisté par supervision qui ajuste dynamiquement la difficulté des problèmes pour rester dans la région de haute efficacité. SEELE enrichit chaque échantillon d'entraînement en ajoutant un indice (une partie d'une solution complète) après le problème original. Contrairement aux approches précédentes basées sur des indices, SEELE ajuste délibérément et de manière adaptative la longueur de l'indice pour chaque problème afin d'atteindre une difficulté optimale. Pour déterminer la longueur optimale de l'indice, SEELE utilise une stratégie d'échantillonnage de déploiement en plusieurs tours. À chaque tour, il ajuste un modèle de théorie de réponse à l'item aux paires précision-indice collectées dans les tours précédents pour prédire la longueur d'indice requise pour le tour suivant. Cet ajustement de la difficulté au niveau de l'instance et en temps réel aligne la difficulté des problèmes avec les capacités évolutives du modèle, améliorant ainsi l'efficacité de l'exploration. Les résultats expérimentaux montrent que SEELE surpasse l'optimisation de politique relative par groupe (GRPO) et le réglage fin supervisé (SFT) de +11,8 et +10,5 points respectivement, et dépasse la meilleure approche précédente assistée par supervision de +3,6 points en moyenne sur six benchmarks de raisonnement mathématique.
Dans l'attention causale standard, les requêtes, clés et valeurs (QKV) de chaque token sont statiques et n'encodent que le contexte précédent. Nous introduisons l'attention CAuSal avec clés prospectives (CASTLE), un mécanisme d'attention qui met continuellement à jour les clés de chaque token à mesure que le contexte se déroule. Nous appelons ces clés mises à jour des clés prospectives car elles appartiennent à des positions antérieures tout en intégrant des informations provenant de tokens qui apparaissent plus tard par rapport à ces positions, tout en préservant strictement la propriété autorégressive. Bien que le mécanisme semble séquentiel, nous dérivons une équivalence mathématique qui évite de matérialiser explicitement les clés prospectives à chaque position et permet un entraînement parallèle efficace. Sur les benchmarks de modélisation du langage, CASTLE surpasse systématiquement l'attention causale standard à différentes échelles de modèles, réduisant la perplexité de validation et améliorant les performances sur une gamme de tâches en aval.
Des études récentes ont démontré l'efficacité de l'alignement direct des modèles de diffusion avec les préférences humaines en utilisant une récompense différentiable. Cependant, elles révèlent deux défis majeurs : (1) elles s'appuient sur un débruitage multi-étapes avec calcul de gradient pour l'évaluation des récompenses, ce qui est coûteux en termes de calcul, limitant ainsi l'optimisation à seulement quelques étapes de diffusion ; (2) elles nécessitent souvent une adaptation continue hors ligne des modèles de récompense pour atteindre une qualité esthétique souhaitée, comme le photoréalisme ou des effets d'éclairage précis. Pour pallier la limitation du débruitage multi-étapes, nous proposons Direct-Align, une méthode qui prédéfinit un bruit pour récupérer efficacement les images originales à partir de n'importe quelle étape via interpolation, en exploitant l'équation selon laquelle les états de diffusion sont des interpolations entre le bruit et les images cibles, évitant ainsi une sur-optimisation dans les étapes tardives. Par ailleurs, nous introduisons l'Optimisation des Préférences Relatives Sémantiques (SRPO), dans laquelle les récompenses sont formulées comme des signaux conditionnés par le texte. Cette approche permet un ajustement en ligne des récompenses en réponse à une augmentation positive ou négative des prompts, réduisant ainsi la dépendance à un réglage hors ligne des récompenses. En affinant le modèle FLUX.1.dev avec un débruitage optimisé et un ajustement en ligne des récompenses, nous améliorons son réalisme et sa qualité esthétique évalués par des humains de plus de 3 fois.
Nous présentons SimpleQA Verified, un benchmark de 1 000 prompts pour évaluer la factualité à court terme des modèles de langage de grande taille (LLM) basé sur SimpleQA d'OpenAI. Il résout des limitations critiques du benchmark d'OpenAI, notamment des étiquettes bruyantes et incorrectes, des biais thématiques et une redondance des questions. SimpleQA Verified a été créé grâce à un processus de filtrage rigoureux en plusieurs étapes, incluant la déduplication, l'équilibrage des sujets et la réconciliation des sources, pour produire un ensemble d'évaluation plus fiable et plus exigeant, ainsi que des améliorations dans le prompt de l'auto-évaluateur. Sur ce nouveau benchmark, Gemini 2.5 Pro atteint un score F1 de pointe de 55,6, surpassant d'autres modèles de pointe, y compris GPT-5. Ce travail fournit à la communauté de recherche un outil de plus haute fidélité pour suivre les progrès réels en matière de factualité des modèles paramétriques et pour atténuer les hallucinations. Le jeu de données du benchmark, le code d'évaluation et le classement sont disponibles à l'adresse suivante : https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Les modèles de diffusion texte-image sont intensifs en calcul, nécessitant souvent des dizaines de passes avant à travers de larges architectures de type transformer. Par exemple, Stable Diffusion XL génère des images de haute qualité avec 50 évaluations d'un modèle de 2,6 milliards de paramètres, un processus coûteux même pour un seul lot. Les modèles de diffusion à quelques étapes réduisent ce coût à 2-8 étapes de débruitage, mais dépendent toujours de larges architectures U-Net ou de transformers de diffusion non compressées, souvent trop coûteuses pour une inférence en pleine précision sans GPU de datacenter. Ces exigences limitent également les méthodes existantes de quantification post-entraînement qui reposent sur un étalonnage en pleine précision. Nous introduisons Q-Sched, un nouveau paradigme pour la quantification post-entraînement qui modifie le planificateur du modèle de diffusion plutôt que les poids du modèle. En ajustant la trajectoire d'échantillonnage à quelques étapes, Q-Sched atteint une précision équivalente à la pleine précision avec une réduction de 4x de la taille du modèle. Pour apprendre les coefficients de pré-conditionnement conscients de la quantification, nous proposons la perte JAQ, qui combine la compatibilité texte-image avec une métrique de qualité d'image pour une optimisation fine. JAQ est sans référence et ne nécessite qu'une poignée d'invites d'étalonnage, évitant l'inférence en pleine précision pendant l'étalonnage. Q-Sched offre des gains substantiels : une amélioration de 15,5% du FID par rapport au modèle de cohérence latente à 4 étapes en FP16 et une amélioration de 16,6% par rapport au modèle de cohérence phasée à 8 étapes en FP16, montrant que la quantification et la distillation à quelques étapes sont complémentaires pour une génération haute fidélité. Une étude utilisateur à grande échelle avec plus de 80 000 annotations confirme en outre l'efficacité de Q-Sched sur FLUX.1[schnell] et SDXL-Turbo.
Nous proposons la Normalisation Delta L, une méthode simple mais efficace d'agrégation des pertes adaptée aux caractéristiques des longueurs de génération dynamiques dans l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR). Récemment, le RLVR a démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), mais un défi majeur réside dans la grande variabilité des longueurs de réponses pendant l'entraînement, ce qui entraîne une variance élevée des gradients et une optimisation instable. Bien que des méthodes précédentes telles que GRPO, DAPO et Dr. GRPO introduisent différents termes de normalisation des pertes pour résoudre ce problème, elles produisent soit des estimations biaisées, soit souffrent encore d'une variance élevée des gradients. En analysant l'effet des longueurs variables sur la perte de politique à la fois théoriquement et empiriquement, nous reformulons le problème comme la recherche d'un estimateur non biaisé à variance minimale. Notre Normalisation Delta L proposée fournit non seulement une estimation non biaisée de la véritable perte de politique, mais minimise également la variance des gradients en théorie. Des expériences approfondies montrent qu'elle obtient systématiquement des résultats supérieurs pour différentes tailles de modèles, longueurs maximales et tâches. Notre code sera rendu public à l'adresse https://github.com/zerolllin/Delta-L-Normalization.
Les grands modèles de langage (LLM) sont des outils incroyablement polyvalents pour les tâches basées sur le texte, ayant permis d'innombrables applications auparavant inimaginables. En revanche, les modèles de recherche d'information n'ont pas encore vu émerger de modèles généralistes aussi performants. Pour atteindre cet objectif, les modèles de recherche doivent être capables de traiter des tâches de recherche complexes, où les requêtes contiennent plusieurs parties, contraintes ou exigences exprimées en langage naturel. Ces tâches représentent une progression naturelle par rapport aux requêtes simples et unidimensionnelles utilisées dans la grande majorité des ensembles d'évaluation existants et couramment utilisés. Les requêtes complexes apparaissent naturellement à mesure que les utilisateurs attendent des systèmes de recherche qu'ils gèrent des demandes d'information plus spécifiques et souvent ambitieuses, comme en témoigne l'utilisation des systèmes d'information basés sur les LLM. Malgré le désir croissant de voir les modèles de recherche étendre leurs capacités aux tâches de recherche complexes, il existe peu de ressources pour évaluer les performances des modèles de recherche sur un ensemble complet de tâches complexes et variées. Les quelques ressources disponibles présentent un champ d'application limité et manquent souvent de réalisme, rendant difficile l'évaluation des véritables capacités des modèles de recherche sur des tâches de recherche complexes dans le monde réel. Pour combler cette lacune et stimuler l'innovation dans les modèles de recherche de nouvelle génération, nous avons construit un ensemble diversifié et réaliste de tâches de recherche complexes et évalué un ensemble représentatif de modèles de recherche à la pointe de la technologie. De plus, nous explorons l'impact de l'expansion et de la réécriture des requêtes basées sur les LLM sur la qualité de la recherche. Nos résultats montrent que même les meilleurs modèles peinent à produire des résultats de recherche de haute qualité, avec un nDCG@10 moyen maximal de seulement 0,346 et un R@100 de seulement 0,587 sur l'ensemble des tâches. Bien que l'augmentation par LLM puisse aider les modèles plus faibles, le modèle le plus performant voit ses résultats diminuer sur tous les indicateurs avec toutes les techniques de réécriture.
Alors que les systèmes d'IA générative deviennent compétents et se démocratisent dans les domaines scientifiques, commerciaux et gouvernementaux, une compréhension approfondie de leurs modes de défaillance représente désormais un besoin urgent. L'instabilité occasionnelle de leur comportement, comme la propension des modèles de transformateurs à halluciner, entrave la confiance et l'adoption des solutions d'IA émergentes dans des domaines à enjeux élevés. Dans ce travail, nous établissons comment et quand les hallucinations surviennent dans les modèles de transformeurs pré-entraînés à travers les représentations de concepts capturées par des autoencodeurs parcimonieux, dans des scénarios où l'incertitude dans l'espace d'entrée est contrôlée expérimentalement. Nos expériences systématiques révèlent que le nombre de concepts sémantiques utilisés par le modèle de transformateur augmente à mesure que l'information d'entrée devient de plus en plus non structurée. Face à une incertitude croissante dans l'espace d'entrée, le modèle de transformateur devient enclin à activer des caractéristiques sémantiques cohérentes mais insensibles à l'entrée, conduisant à une sortie hallucinée. Dans les cas extrêmes, pour des entrées de pur bruit, nous identifions une grande variété de concepts robustement déclenchés et significatifs dans les activations intermédiaires des modèles de transformateurs pré-entraînés, dont nous confirmons l'intégrité fonctionnelle par un guidage ciblé. Nous montrons également que les hallucinations dans la sortie d'un modèle de transformateur peuvent être prédites de manière fiable à partir des motifs de concepts intégrés dans les activations des couches du transformateur. Cet ensemble d'observations sur les mécanismes internes de traitement des transformateurs a des implications immédiates pour l'alignement des modèles d'IA avec les valeurs humaines, la sécurité de l'IA, l'ouverture de la surface d'attaque pour des attaques adversarielles potentielles, et la fourniture d'une base pour la quantification automatique du risque d'hallucination d'un modèle.