Articles de recherche en IA sélectionnés quotidiennement avec traductions
La Génération Augmentée par Récupération (RAG) est devenue un paradigme puissant pour améliorer les grands modèles de langage (LLM) grâce à la récupération de connaissances externes. Malgré l'attention généralisée qu'elle suscite, la recherche académique existante se concentre principalement sur le RAG à un seul tour, laissant une lacune significative dans le traitement des complexités des conversations multi-tours que l'on trouve dans les applications du monde réel. Pour combler cette lacune, nous présentons CORAL, un banc d'essai à grande échelle conçu pour évaluer les systèmes RAG dans des contextes conversationnels multi-tours réalistes. CORAL comprend des conversations diverses à la recherche d'informations dérivées automatiquement de Wikipedia et aborde des défis clés tels que la couverture en domaine ouvert, l'intensité des connaissances, les réponses libres et les changements de sujet. Il prend en charge trois tâches principales du RAG conversationnel : la récupération de passages, la génération de réponses et l'étiquetage de citations. Nous proposons un cadre unifié pour normaliser diverses méthodes de RAG conversationnel et menons une évaluation complète de ces méthodes sur CORAL, démontrant des opportunités substantielles pour améliorer les approches existantes.
Les Transformers sont devenus l'architecture prédominante dans les modèles de base en raison de leurs excellentes performances dans divers domaines. Cependant, le coût substantiel de mise à l'échelle de ces modèles reste une préoccupation majeure. Ce problème découle principalement de leur dépendance à un nombre fixe de paramètres dans les projections linéaires. Lorsque des modifications architecturales (par exemple, les dimensions des canaux) sont introduites, l'ensemble du modèle nécessite généralement une nouvelle formation à partir de zéro. À mesure que les tailles des modèles continuent de croître, cette stratégie entraîne des coûts de calcul de plus en plus élevés et devient insoutenable. Pour surmonter ce problème, nous introduisons TokenFormer, une architecture nativement évolutive qui exploite le mécanisme d'attention non seulement pour les calculs entre les jetons d'entrée, mais aussi pour les interactions entre les jetons et les paramètres du modèle, améliorant ainsi la flexibilité architecturale. En traitant les paramètres du modèle comme des jetons, nous remplaçons toutes les projections linéaires dans les Transformers par notre couche d'attention jeton-paramètre, où les jetons d'entrée agissent en tant que requêtes et les paramètres du modèle en tant que clés et valeurs. Cette reformulation permet une mise à l'échelle progressive et efficace sans nécessiter une nouvelle formation à partir de zéro. Notre modèle passe de 124M à 1,4 milliard de paramètres en ajoutant progressivement de nouveaux paires de paramètres clé-valeur, atteignant des performances comparables à celles des Transformers formés à partir de zéro tout en réduisant considérablement les coûts de formation. Le code et les modèles sont disponibles sur https://github.com/Haiyang-W/TokenFormer.
Ces dernières années, on observe une tendance dans le domaine de l'Apprentissage par Renforcement (RL) vers de grands modèles d'actions entraînés hors ligne sur des ensembles de données à grande échelle via la modélisation de séquences. Les modèles existants sont principalement basés sur l'architecture Transformer, ce qui donne des agents puissants. Cependant, en raison de temps d'inférence lents, les approches basées sur les Transformers sont impraticables pour des applications en temps réel, telles que la robotique. Récemment, des architectures récurrentes modernes, telles que xLSTM et Mamba, ont été proposées, présentant des avantages de parallélisation pendant l'entraînement similaires à l'architecture Transformer tout en offrant une inférence rapide. Dans ce travail, nous étudions l'aptitude de ces architectures récurrentes modernes pour de grands modèles d'actions. Par conséquent, nous proposons un Grand Modèle d'Action Récurrent (LRAM) avec un xLSTM à son cœur qui présente une complexité d'inférence en temps linéaire et des capacités d'extrapolation de longueur de séquence naturelle. Des expériences sur 432 tâches provenant de 6 domaines montrent que le LRAM se compare favorablement aux Transformers en termes de performances et de vitesse.
Nous présentons REM, un cadre pour segmenter une large gamme de concepts dans des vidéos pouvant être décrits en langage naturel. Notre méthode tire parti des représentations visuelles-langage apprises par les modèles de diffusion vidéo sur des ensembles de données à l'échelle d'Internet. Un point clé de notre approche est de préserver autant que possible la représentation originale du modèle génératif, tout en l'affinant sur des ensembles de données de segmentation d'objets de référence à domaine restreint. En conséquence, notre cadre peut segmenter et suivre avec précision des objets rares et invisibles, bien qu'il soit entraîné sur des masques d'objets d'un ensemble limité de catégories. De plus, il peut se généraliser à des concepts dynamiques non liés aux objets, tels que des vagues se brisant dans l'océan, comme démontré dans notre nouveau banc d'essai introduit pour la segmentation de processus vidéo de référence (Ref-VPS). Nos expériences montrent que REM se comporte au niveau des approches de pointe sur des ensembles de données internes, comme Ref-DAVIS, tout en les surpassant jusqu'à douze points en termes de similarité de région sur des données hors domaine, exploitant la puissance de la pré-formation à l'échelle d'Internet.
Les grands modèles de langage (LLMs) obtiennent de bonnes performances sur des benchmarks de raisonnement complexes, mais peuvent également commettre des erreurs de raisonnement basiques. Ce comportement contrasté est déconcertant lorsqu'il s'agit de comprendre les mécanismes sous-jacents aux capacités de raisonnement des LLMs. Une hypothèse est que les performances de plus en plus élevées et presque saturées sur les benchmarks de raisonnement courants pourraient être dues à la mémorisation de problèmes similaires. Dans cet article, nous examinons systématiquement cette hypothèse avec une mesure quantitative de la mémorisation dans les tâches de raisonnement, en utilisant un benchmark de raisonnement logique généré dynamiquement basé sur les énigmes des Chevaliers et des Valets (K&K). Nous avons constaté que les LLMs pouvaient interpoler les énigmes d'entraînement (atteignant une précision presque parfaite) après un affinage, mais échouaient lorsque ces énigmes étaient légèrement perturbées, suggérant que les modèles s'appuient fortement sur la mémorisation pour résoudre ces énigmes d'entraînement. D'autre part, nous montrons que si l'affinage entraîne une forte mémorisation, il améliore également de manière constante les performances de généralisation. Des analyses approfondies avec des tests de perturbation, le transfert entre niveaux de difficulté, l'exploration des internes du modèle et l'affinage avec des réponses incorrectes suggèrent que les LLMs apprennent à raisonner sur les énigmes K&K malgré la mémorisation des données d'entraînement. Ce phénomène indique que les LLMs présentent une interaction complexe entre la mémorisation et les véritables capacités de raisonnement. Enfin, notre analyse avec le score de mémorisation par échantillon éclaire la manière dont les LLMs passent du raisonnement à la mémorisation pour résoudre des énigmes logiques. Notre code et nos données sont disponibles sur https://memkklogic.github.io.
Les lecteurs peuvent avoir différents objectifs par rapport au texte qu'ils lisent. Ces objectifs peuvent-ils être décodés à partir du schéma de leurs mouvements oculaires sur le texte ? Dans ce travail, nous examinons pour la première fois s'il est possible de décoder deux types d'objectifs de lecture courants dans la vie quotidienne : la recherche d'information et la lecture ordinaire. En utilisant des données de suivi oculaire à grande échelle, nous appliquons à cette tâche une large gamme de modèles de pointe pour les mouvements oculaires et le texte qui couvrent différentes stratégies architecturales et de représentation des données, et introduisons en outre un nouvel ensemble de modèles. Nous évaluons systématiquement ces modèles à trois niveaux de généralisation : nouvel élément textuel, nouveau participant, et la combinaison des deux. Nous constatons que les mouvements oculaires contiennent des signaux très précieux pour cette tâche. Nous effectuons en outre une analyse d'erreur qui s'appuie sur des résultats empiriques antérieurs sur les différences entre la lecture ordinaire et la recherche d'information et tire parti de riches annotations textuelles. Cette analyse révèle des propriétés clés des éléments textuels et des mouvements oculaires des participants qui contribuent à la difficulté de la tâche.
Les modèles de Mélange d'Experts (MoE) améliorent l'efficacité et la scalabilité des modèles de langage denses en routant chaque jeton vers un petit nombre d'experts dans chaque couche. Dans cet article, nous montrons comment un adversaire qui peut organiser ses requêtes pour apparaître dans le même lot d'exemples que les requêtes d'une victime peut exploiter le Routage de Choix d'Experts pour révéler entièrement la requête de la victime. Nous démontrons avec succès l'efficacité de cette attaque sur un modèle Mixtral à deux couches, exploitant le comportement de gestion des liens de l'implémentation CUDA torch.topk. Nos résultats montrent que nous pouvons extraire l'intégralité de la requête en utilisant O({VM}^2) requêtes (avec une taille de vocabulaire V et une longueur de requête M) ou 100 requêtes en moyenne par jeton dans le cadre que nous considérons. Il s'agit de la première attaque exploitant les failles architecturales dans le but d'extraire des requêtes d'utilisateurs, introduisant une nouvelle classe de vulnérabilités des LLM.
Les modèles de langage de grande taille en open source deviennent de plus en plus disponibles et populaires parmi les chercheurs et les praticiens. Alors que des progrès significatifs ont été réalisés sur les modèles de poids ouverts, l'utilisation de données d'entraînement ouvertes est une pratique qui reste à adopter par les principaux créateurs de modèles de poids ouverts. En même temps, les chercheurs travaillent à rendre les modèles de langage plus sûrs. Nous proposons un pipeline de curation des données pour réduire les sorties nuisibles des modèles entraînés sur des données de domaine public. Il existe des défis uniques à travailler avec des données de domaine public, car ces sources diffèrent des textes web à la fois en forme et en contenu. De nombreuses sources sont des documents historiques et résultent de la Reconnaissance Optique de Caractères (OCR). Par conséquent, les approches de pointe en matière de filtrage de toxicité sont souvent irréalisables ou inappropriées pour les modèles de données ouvertes. Dans cet article, nous présentons un nouveau pipeline entièrement open source pour le filtrage de la toxicité des données ouvertes. Nos contributions sont triples. Nous créons un ensemble de données d'entraînement personnalisé, ToxicCommons, composé de textes classifiés selon cinq dimensions différentes (discrimination basée sur l'origine raciale, le genre/sexe, la religion, les capacités et la violence). Nous utilisons cet ensemble de données pour entraîner un classifieur personnalisé, Celadon, qui peut être utilisé pour détecter plus efficacement les contenus toxiques dans les données ouvertes à plus grande échelle. Enfin, nous décrivons l'approche équilibrée de la filtration du contenu qui optimise le filtrage de sécurité par rapport aux données filtrées disponibles pour l'entraînement.
Les êtres humains sont dotés d'un système d'apprentissage complémentaire, qui comble le fossé entre l'apprentissage lent des dynamiques mondiales générales et le stockage rapide de la mémoire épisodique issue d'une nouvelle expérience. Cependant, les modèles précédents de génération de vidéos se concentrent principalement sur l'apprentissage lent en se pré-entraînant sur de vastes quantités de données, négligeant la phase d'apprentissage rapide cruciale pour le stockage de la mémoire épisodique. Cette lacune entraîne des incohérences entre les trames temporellement éloignées lors de la génération de vidéos plus longues, car ces trames se situent au-delà de la fenêtre de contexte du modèle. À cette fin, nous présentons SlowFast-VGen, un nouveau système d'apprentissage à double vitesse pour la génération de vidéos longues axées sur l'action. Notre approche intègre un modèle de diffusion vidéo conditionnelle masquée pour l'apprentissage lent des dynamiques mondiales, ainsi qu'une stratégie d'apprentissage rapide basée sur un module temporel LoRA au moment de l'inférence. Plus précisément, le processus d'apprentissage rapide met à jour ses paramètres temporels LoRA en fonction des entrées et sorties locales, stockant ainsi efficacement la mémoire épisodique dans ses paramètres. Nous proposons en outre un algorithme de boucle d'apprentissage lent-rapide qui intègre de manière transparente la boucle d'apprentissage rapide interne dans la boucle d'apprentissage lent externe, permettant le rappel des expériences multi-épisodes antérieures pour un apprentissage de compétences conscient du contexte. Pour faciliter l'apprentissage lent d'un modèle mondial approximatif, nous collectons un ensemble de données à grande échelle de 200 000 vidéos avec des annotations d'actions en langage, couvrant un large éventail de scénarios. Des expériences approfondies montrent que SlowFast-VGen surpasse les références sur diverses mesures pour la génération de vidéos axée sur l'action, atteignant un score FVD de 514 par rapport à 782, et maintenant une cohérence dans les vidéos plus longues, avec en moyenne 0,37 coupures de scène contre 0,89. L'algorithme de boucle d'apprentissage lent-rapide améliore significativement les performances sur les tâches de planification à long terme également. Site Web du Projet : https://slowfast-vgen.github.io
Nous présentons un banc d'essai pour les grands modèles de langage conçus pour s'attaquer à l'une des tâches les plus intensives en connaissances en science des données : l'écriture de code d'ingénierie des fonctionnalités, qui nécessite une connaissance du domaine en plus d'une compréhension approfondie du problème sous-jacent et de la structure des données. Le modèle reçoit une description de l'ensemble de données dans une invite et est invité à générer du code le transformant. Le score d'évaluation est dérivé de l'amélioration obtenue par un modèle XGBoost ajusté sur l'ensemble de données modifié par rapport aux données originales. Par une évaluation approfondie des modèles de pointe et une comparaison avec des bancs d'essai bien établis, nous démontrons que le FeatEng de notre proposition peut évaluer de manière économique et efficace les capacités étendues des LLM, contrairement aux méthodes existantes.
La recherche d'informations médicales (MIR) est essentielle pour extraire des connaissances médicales pertinentes à partir de sources diverses, y compris les dossiers de santé électroniques, la littérature scientifique et les bases de données médicales. Cependant, réaliser une récupération dense efficace sans entraînement dans le domaine médical pose des défis substantiels en raison du manque de données annotées en termes de pertinence. Dans cet article, nous présentons une approche novatrice appelée Incrustations de Documents Hypothétiques en Auto-Apprentissage (SL-HyDE) pour relever ce défi. SL-HyDE exploite de grands modèles de langage (LLMs) en tant que générateurs pour produire des documents hypothétiques basés sur une requête donnée. Ces documents générés encapsulent un contexte médical clé, guidant un récupérateur dense dans l'identification des documents les plus pertinents. Le cadre d'auto-apprentissage affine progressivement à la fois la génération de pseudo-documents et la récupération, en utilisant des corpus médicaux non étiquetés sans nécessiter de données annotées en termes de pertinence. De plus, nous présentons le Banc d'Évaluation de la Récupération d'Informations Médicales Chinoises (CMIRB), un cadre d'évaluation complet ancré dans des scénarios médicaux réels, englobant cinq tâches et dix ensembles de données. En évaluant dix modèles sur CMIRB, nous établissons une norme rigoureuse pour l'évaluation des systèmes de récupération d'informations médicales. Les résultats expérimentaux démontrent que SL-HyDE surpasse significativement les méthodes existantes en termes de précision de récupération tout en présentant une forte généralisation et une extensibilité à travers diverses configurations de LLM et de récupérateur. Les données CMIRB et le code d'évaluation sont disponibles publiquement sur : https://github.com/CMIRB-benchmark/CMIRB.