Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les méthodes précédentes de pré-entraînement des modèles de langage appliquaient uniformément une perte de prédiction du token suivant à tous les tokens d'entraînement. En remettant en question cette norme, nous postulons que "Tous les tokens d'un corpus ne sont pas également importants pour l'entraînement des modèles de langage". Notre analyse initiale explore la dynamique d'entraînement au niveau des tokens des modèles de langage, révélant des motifs de perte distincts pour différents tokens. En tirant parti de ces insights, nous introduisons un nouveau modèle de langage appelé Rho-1. Contrairement aux modèles de langage traditionnels qui apprennent à prédire chaque token suivant dans un corpus, Rho-1 utilise le Modélisation Sélective du Langage (Selective Language Modeling, SLM), qui entraîne sélectivement les tokens utiles alignés avec la distribution souhaitée. Cette approche consiste à évaluer les tokens de pré-entraînement à l'aide d'un modèle de référence, puis à entraîner le modèle de langage avec une perte focalisée sur les tokens présentant une perte excédentaire plus élevée. Lors d'un pré-entraînement continu sur le corpus OpenWebMath de 15 milliards de tokens, Rho-1 obtient une amélioration absolue de la précision en few-shot allant jusqu'à 30% sur 9 tâches mathématiques. Après un fine-tuning, Rho-1-1B et 7B atteignent des résultats de pointe de 40,6% et 51,8% sur le jeu de données MATH, respectivement - égalant DeepSeekMath avec seulement 3% des tokens de pré-entraînement. De plus, lors d'un pré-entraînement sur 80 milliards de tokens généraux, Rho-1 réalise une amélioration moyenne de 6,8% sur 15 tâches diverses, augmentant à la fois l'efficacité et la performance du pré-entraînement des modèles de langage.
Les agents autonomes capables d'accomplir des tâches informatiques complexes avec un minimum d'interventions humaines ont le potentiel de transformer l'interaction homme-machine, en améliorant considérablement l'accessibilité et la productivité. Cependant, les benchmarks existants manquent soit d'un environnement interactif, soit sont limités à des environnements spécifiques à certaines applications ou domaines, ne reflétant pas la nature diverse et complexe de l'utilisation réelle des ordinateurs, ce qui limite la portée des tâches et l'évolutivité des agents. Pour résoudre ce problème, nous introduisons OSWorld, le premier environnement informatique réel et évolutif pour les agents multimodaux, prenant en charge la configuration des tâches, l'évaluation basée sur l'exécution et l'apprentissage interactif sur divers systèmes d'exploitation tels qu'Ubuntu, Windows et macOS. OSWorld peut servir d'environnement informatique unifié et intégré pour évaluer des tâches informatiques ouvertes impliquant des applications arbitraires. En nous appuyant sur OSWorld, nous créons un benchmark de 369 tâches informatiques impliquant des applications web et de bureau réelles dans des domaines ouverts, des opérations de fichiers sur le système d'exploitation, et des workflows couvrant plusieurs applications. Chaque exemple de tâche est dérivé de cas d'utilisation réels d'ordinateurs et inclut une configuration détaillée de l'état initial ainsi qu'un script d'évaluation basé sur l'exécution pour une évaluation fiable et reproductible. Une évaluation approfondie des agents basés sur les modèles de langage (LLM) et de vision (VLM) de pointe sur OSWorld révèle des lacunes significatives dans leur capacité à servir d'assistants informatiques. Alors que les humains peuvent accomplir plus de 72,36 % des tâches, le meilleur modèle n'atteint qu'un taux de réussite de 12,24 %, principalement en raison de difficultés avec la compréhension des interfaces graphiques (GUI) et les connaissances opérationnelles. Une analyse approfondie utilisant OSWorld fournit des insights précieux pour le développement d'agents généralistes multimodaux qui n'étaient pas possibles avec les benchmarks précédents. Notre code, environnement, modèles de base et données sont disponibles publiquement à l'adresse https://os-world.github.io.
Pour améliorer la contrôlabilité des modèles de diffusion texte-image, les approches existantes comme ControlNet ont intégré des contrôles conditionnels basés sur l'image. Dans cet article, nous révélons que les méthodes actuelles rencontrent encore des difficultés significatives pour générer des images alignées avec les contrôles conditionnels. Pour y remédier, nous proposons ControlNet++, une nouvelle approche qui améliore la génération contrôlée en optimisant explicitement la cohérence cyclique au niveau des pixels entre les images générées et les contrôles conditionnels. Plus précisément, pour un contrôle conditionnel en entrée, nous utilisons un modèle de récompense discriminatif pré-entraîné pour extraire la condition correspondante des images générées, puis nous optimisons la perte de cohérence entre le contrôle conditionnel d'entrée et la condition extraite. Une implémentation directe consisterait à générer des images à partir de bruits aléatoires puis à calculer la perte de cohérence, mais cette approche nécessite de stocker les gradients pour plusieurs étapes d'échantillonnage, entraînant des coûts importants en temps et en mémoire. Pour résoudre ce problème, nous introduisons une stratégie de récompense efficace qui perturbe délibérément les images d'entrée en ajoutant du bruit, puis utilise les images débruitées en une seule étape pour l'affinage par récompense. Cela évite les coûts importants associés à l'échantillonnage d'images, permettant un affinage par récompense plus efficace. Des expériences approfondies montrent que ControlNet++ améliore significativement la contrôlabilité sous divers contrôles conditionnels. Par exemple, il obtient des améliorations par rapport à ControlNet de 7,9 % en mIoU, 13,4 % en SSIM et 7,6 % en RMSE, respectivement pour les conditions de masque de segmentation, de contour en ligne claire et de profondeur.
Nous présentons RecurrentGemma, un modèle de langage ouvert qui utilise la nouvelle architecture Griffin de Google. Griffin combine des récurrences linéaires avec une attention locale pour obtenir d'excellentes performances en traitement du langage. Il possède un état de taille fixe, ce qui réduit l'utilisation de la mémoire et permet une inférence efficace sur de longues séquences. Nous fournissons un modèle pré-entraîné avec 2 milliards de paramètres hors plongement lexical, ainsi qu'une variante ajustée par instruction. Les deux modèles atteignent des performances comparables à Gemma-2B malgré un entraînement sur moins de tokens.
Bien que Ferret intègre de manière transparente la compréhension régionale dans le modèle de langage à grande échelle (LLM) pour faciliter ses capacités de référencement et d'ancrage, il présente certaines limitations : contraint par l'encodeur visuel fixe pré-entraîné et incapable de bien performer sur des tâches plus larges. Dans ce travail, nous dévoilons Ferret-v2, une mise à niveau significative de Ferret, avec trois conceptions clés. (1) Ancrage et référencement à toute résolution : une approche flexible qui gère sans effort des résolutions d'image plus élevées, améliorant la capacité du modèle à traiter et à comprendre les images avec plus de détails. (2) Encodage visuel multi-granularité : en intégrant l'encodeur DINOv2 supplémentaire, le modèle apprend mieux et diversifie les contextes sous-jacents pour les informations visuelles globales et fines. (3) Un paradigme d'entraînement en trois étapes : en plus de l'alignement image-légende, une étape supplémentaire est proposée pour l'alignement dense à haute résolution avant le réglage final des instructions. Les expériences montrent que Ferret-v2 apporte des améliorations substantielles par rapport à Ferret et d'autres méthodes de pointe, grâce à sa mise à l'échelle à haute résolution et à son traitement visuel fin.
Le succès des modèles d'IA repose sur la disponibilité de jeux de données vastes, diversifiés et de haute qualité, qui peuvent être difficiles à obtenir en raison de la rareté des données, des préoccupations liées à la confidentialité et des coûts élevés. Les données synthétiques sont apparues comme une solution prometteuse en générant des données artificielles qui imitent les modèles du monde réel. Cet article propose un aperçu de la recherche sur les données synthétiques, en discutant de leurs applications, des défis qu'elles posent et des orientations futures. Nous présentons des preuves empiriques issues des travaux antérieurs pour démontrer leur efficacité et soulignons l'importance de garantir leur factualité, leur fidélité et leur impartialité. Nous insistons sur la nécessité d'une utilisation responsable des données synthétiques pour construire des modèles de langage plus puissants, inclusifs et dignes de confiance.
Le traitement de contextes longs reste un défi pour les grands modèles de langage (LLMs) en raison de la surcharge quadratique en calcul et en mémoire du mécanisme d'auto-attention, ainsi que des tailles substantielles du cache KV pendant la génération. Nous proposons une nouvelle approche pour résoudre ce problème en apprenant les contextes hors ligne grâce à la compression de contexte et à un ajustement fin efficace en paramètres dans un domaine spécifique. Notre méthode permet à un LLM de créer une représentation concise du contexte original et de récupérer efficacement les informations pertinentes pour répondre avec précision aux questions. Nous introduisons LLoCO, une technique qui combine la compression de contexte, la récupération d'informations et l'ajustement fin efficace en paramètres en utilisant LoRA. Notre approche étend la fenêtre de contexte effective d'un modèle LLaMA2-7B de 4k tokens pour gérer jusqu'à 128k tokens. Nous évaluons notre approche sur plusieurs ensembles de données de question-réponse à contexte long, démontrant que LLoCO surpasse significativement l'apprentissage en contexte tout en utilisant 30 fois moins de tokens pendant l'inférence. LLoCO atteint une accélération jusqu'à 7,62 fois et réduit considérablement le coût de la réponse à des questions sur des documents longs, en faisant une solution prometteuse pour le traitement efficace de contextes longs. Notre code est disponible publiquement à l'adresse https://github.com/jeffreysijuntan/lloco.
Dans le domaine de la recherche sur les agents web, atteindre à la fois la généralisation et la précision reste un problème complexe. En raison de la grande variabilité des structures de sites web, les approches existantes échouent souvent. De plus, les techniques actuelles de fine-tuning et d'apprentissage en contexte ne parviennent pas à généraliser efficacement sur plusieurs sites web. Nous présentons Wilbur, une approche qui utilise un modèle de classement différentiable et une nouvelle technique de synthèse d'instructions pour peupler de manière optimale l'invite d'un modèle de langage de grande envergure (LLM) avec des démonstrations de tâches issues d'exécutions précédentes. Pour maximiser les taux de réussite de bout en bout, nous proposons également un mécanisme intelligent de retour en arrière qui apprend et se corrige de ses erreurs. Enfin, nous montrons que notre modèle de classement peut être entraîné sur des données issues d'un auto-curriculum génératif qui échantillonne des objectifs représentatifs à partir d'un LLM, exécute l'agent et l'évalue automatiquement, sans annotation manuelle. Wilbur obtient des résultats de pointe sur le benchmark WebVoyager, surpassant les modèles textuels de 8 % en moyenne, et jusqu'à 36 % sur certains sites web. Sur le même benchmark, Wilbur se situe à moins de 5 % d'un modèle multimodal performant bien qu'il ne reçoive que des entrées textuelles, et une analyse approfondie révèle qu'un nombre important d'échecs est dû aux défis techniques liés à l'exploitation du web.
Le RNN linéaire à portes hiérarchiques (HGRN, Qin et al. 2023) a démontré une vitesse d'entraînement et des performances compétitives en modélisation du langage, tout en offrant une inférence efficace. Cependant, la taille de l'état récurrent du HGRN reste relativement petite, ce qui limite son expressivité. Pour résoudre ce problème, inspirés par l'attention linéaire, nous introduisons un mécanisme simple d'expansion de l'état basé sur un produit extérieur, permettant ainsi d'augmenter significativement la taille de l'état récurrent sans introduire de paramètres supplémentaires. La forme de l'attention linéaire permet également un entraînement optimisé pour le matériel. Nos expériences approfondies confirment l'avantage du HGRN2 par rapport au HGRN1 en modélisation du langage, classification d'images et sur le Long Range Arena. Notre plus grand modèle HGRN2 de 3 milliards de paramètres surpasse légèrement Mamba et l'architecture Transformer LLaMa en modélisation du langage dans un cadre expérimental contrôlé ; et se montre compétitif avec de nombreux modèles open-source de 3 milliards de paramètres en évaluation en aval, tout en utilisant beaucoup moins de tokens d'entraînement au total.
Le guidage est une technique cruciale pour optimiser les performances des modèles de génération d'images par diffusion. Traditionnellement, un poids de guidage constant est appliqué tout au long de la chaîne d'échantillonnage d'une image. Nous démontrons que le guidage est clairement néfaste au début de la chaîne (niveaux de bruit élevés), largement inutile à la fin (niveaux de bruit faibles), et bénéfique uniquement au milieu. Nous le restreignons donc à une plage spécifique de niveaux de bruit, améliorant à la fois la vitesse d'inférence et la qualité des résultats. Cet intervalle de guidage limité améliore significativement le FID record sur ImageNet-512, passant de 1,81 à 1,40. Nous montrons qu'il est bénéfique quantitativement et qualitativement pour différents paramètres d'échantillonnage, architectures de réseaux et ensembles de données, y compris dans le cadre à grande échelle de Stable Diffusion XL. Nous suggérons donc d'exposer l'intervalle de guidage comme hyperparamètre dans tous les modèles de diffusion utilisant le guidage.
La détection de voies est une tâche fondamentale dans la conduite autonome et a réalisé des progrès significatifs avec l'émergence de l'apprentissage profond. Les méthodes précédentes basées sur des ancres conçoivent souvent des ancres denses, qui dépendent fortement du jeu de données d'entraînement et restent fixes pendant l'inférence. Nous analysons que les ancres denses ne sont pas nécessaires pour la détection de voies et proposons un cadre de détection de voies basé sur un transformateur utilisant un mécanisme d'ancres éparses. À cette fin, nous générons des ancres éparses avec des requêtes de voies sensibles à la position et des requêtes d'angle, plutôt que des ancres explicites traditionnelles. Nous adoptons l'Attention Perceptive Horizontale (HPA) pour agréger les caractéristiques des voies le long de la direction horizontale, et utilisons l'Attention Croisée Voie-Angle (LACA) pour effectuer des interactions entre les requêtes de voies et les requêtes d'angle. Nous proposons également l'Attention Perceptive de Voie (LPA) basée sur l'attention croisée déformable pour affiner davantage les prédictions de voies. Notre méthode, nommée Sparse Laneformer, est facile à implémenter et entraînable de bout en bout. Des expériences approfondies démontrent que Sparse Laneformer surpasse les méthodes de pointe, par exemple en dépassant Laneformer de 3,0 % en score F1 et O2SFormer de 0,7 % en score F1 avec moins d'opérations MAC sur CULane avec le même réseau de base ResNet-34.