Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de raisonnement (LRM) tels que OpenAI-o1 ont démontré des capacités impressionnantes de raisonnement étape par étape à long terme grâce à l'apprentissage par renforcement à grande échelle. Cependant, leurs processus de raisonnement étendus souffrent souvent d'une insuffisance de connaissances, entraînant des incertitudes fréquentes et des erreurs potentielles. Pour remédier à cette limitation, nous introduisons Search-o1, un cadre qui améliore les LRM avec un mécanisme de génération augmentée par récupération agentic (RAG) et un module Raison-dans-les-Documents pour affiner les documents récupérés. Search-o1 intègre un flux de travail de recherche agentic dans le processus de raisonnement, permettant la récupération dynamique de connaissances externes lorsque les LRM rencontrent des points de connaissance incertains. De plus, en raison de la nature verbeuse des documents récupérés, nous concevons un module séparé Raison-dans-les-Documents pour analyser profondément les informations récupérées avant de les injecter dans la chaîne de raisonnement, minimisant le bruit et préservant un flux de raisonnement cohérent. Des expériences approfondies sur des tâches de raisonnement complexes en science, mathématiques et codage, ainsi que sur six bancs d'essai de questions-réponses en domaine ouvert, démontrent les performances solides de Search-o1. Cette approche améliore la fiabilité et l'applicabilité des LRM dans des tâches de raisonnement complexes, ouvrant la voie à des systèmes intelligents plus fiables et polyvalents. Le code est disponible sur https://github.com/sunnynexus/Search-o1.
Il est largement affirmé que les GAN sont difficiles à entraîner, et les architectures de GAN dans la littérature regorgent de stratagèmes empiriques. Nous apportons des preuves contre cette affirmation et construisons une référence moderne de GAN de manière plus fondée. Tout d'abord, nous dérivons une perte de GAN relativiste régularisée bien comportée qui aborde les problèmes de suppression de mode et de non-convergence qui étaient précédemment traités via une série de stratagèmes ad hoc. Nous analysons mathématiquement notre perte et prouvons qu'elle admet des garanties de convergence locale, contrairement à la plupart des pertes relativistes existantes. Deuxièmement, notre nouvelle perte nous permet de nous débarrasser de tous les stratagèmes ad hoc et de remplacer les architectures obsolètes utilisées dans les GAN courants par des architectures modernes. En utilisant StyleGAN2 comme exemple, nous présentons une feuille de route de simplification et de modernisation qui aboutit à une nouvelle référence minimaliste - R3GAN. Malgré sa simplicité, notre approche surpasse StyleGAN2 sur les ensembles de données FFHQ, ImageNet, CIFAR et Stacked MNIST, et se compare favorablement aux GAN de pointe et aux modèles de diffusion.
Cet article explore les progrès réalisés dans la création de grands modèles de langage (GML) plus semblables aux humains. Nous nous concentrons sur les techniques qui améliorent la compréhension du langage naturel, la cohérence conversationnelle et l'intelligence émotionnelle dans les systèmes d'IA. L'étude évalue diverses approches, notamment le fine-tuning avec des ensembles de données diversifiés, l'incorporation de principes psychologiques et la conception de modèles qui imitent mieux les schémas de raisonnement humain. Nos résultats démontrent que ces améliorations améliorent non seulement les interactions avec les utilisateurs, mais ouvrent également de nouvelles possibilités pour les applications d'IA dans différents domaines. Les travaux futurs aborderont les implications éthiques et les biais potentiels introduits par ces attributs semblables à ceux des humains.
Nous étudions empiriquement la pré-formation autorégressive à partir de vidéos. Pour mener notre étude, nous construisons une série de modèles vidéo autorégressifs, appelés Toto. Nous considérons les vidéos comme des séquences de jetons visuels et entraînons des modèles de transformateur à prédire de manière autorégressive les jetons futurs. Nos modèles sont pré-entraînés sur un ensemble de données diversifié de vidéos et d'images comprenant plus de 1 billion de jetons visuels. Nous explorons différentes options de conception architecturale, d'entraînement et d'inférence. Nous évaluons les représentations visuelles apprises sur une gamme de tâches secondaires, y compris la reconnaissance d'images, la classification vidéo, le suivi d'objets et la robotique. Nos résultats démontrent que, malgré des biais inductifs minimes, la pré-formation autorégressive conduit à des performances compétitives sur tous les benchmarks. Enfin, nous constatons que l'augmentation de l'échelle de nos modèles vidéo entraîne des courbes d'augmentation similaires à celles observées dans les modèles de langage, bien que à un rythme différent. Plus de détails sur https://brjathu.github.io/toto/
Les récentes avancées dans les Modèles Vision-Langage (VLM) ont suscité un intérêt pour leur utilisation dans la conduite autonome, notamment pour générer des décisions de conduite interprétables à travers un langage naturel. Cependant, l'hypothèse selon laquelle les VLM fournissent intrinsèquement des explications visuellement ancrées, fiables et interprétables pour la conduite reste largement inexplorée. Pour combler cette lacune, nous introduisons DriveBench, un ensemble de données de référence conçu pour évaluer la fiabilité des VLM à travers 17 configurations (entrées propres, corrompues et texte seul), englobant 19 200 images, 20 498 paires question-réponse, trois types de questions, quatre tâches de conduite principales, et un total de 12 VLM populaires. Nos résultats révèlent que les VLM génèrent souvent des réponses plausibles issues de connaissances générales ou de repères textuels plutôt que d'un ancrage visuel réel, surtout en présence d'entrées visuelles dégradées ou manquantes. Ce comportement, dissimulé par des déséquilibres dans les ensembles de données et des métriques d'évaluation insuffisantes, présente des risques significatifs dans des scénarios critiques en termes de sécurité tels que la conduite autonome. Nous observons en outre que les VLM rencontrent des difficultés avec le raisonnement multi-modal et montrent une sensibilité accrue aux corruptions des entrées, entraînant des incohérences de performance. Pour relever ces défis, nous proposons des métriques d'évaluation affinées qui privilégient un ancrage visuel robuste et une compréhension multi-modale. De plus, nous soulignons le potentiel d'exploiter la conscience des corruptions des VLM pour améliorer leur fiabilité, offrant ainsi une feuille de route pour le développement de systèmes de prise de décision plus fiables et interprétables dans des contextes de conduite autonome du monde réel. L'ensemble d'outils de référence est accessible au public.
La plupart des Grands Modèles Vision-Texte (LVLM) actuels sont principalement entraînés sur des données en anglais, ce qui les rend difficiles à comprendre les entrées dans d'autres langues et à générer des résultats dans la langue cible souhaitée. Les efforts existants pour atténuer ces problèmes consistent à ajouter des données d'entraînement multilingues, mais le font de manière largement ad hoc, sans avoir une vision claire de comment différents mélanges d'entraînement influencent les performances pour différents groupes de langues. Dans ce travail, nous présentons une enquête approfondie sur les stratégies d'entraînement pour les LVLM massivement multilingues. Tout d'abord, nous menons une série d'expériences à plusieurs étapes couvrant 13 tâches vision-texte et 43 langues, examinant systématiquement : (1) le nombre de langues d'entraînement pouvant être inclus sans dégrader les performances en anglais, (2) les distributions optimales de langues pour la pré-entraînement ainsi que (3) les données de réglage des instructions. De plus, nous (4) étudions comment améliorer la compréhension multilingue de texte dans des images, et introduisons un nouvel référentiel pour cette tâche. À notre grande surprise, notre analyse révèle que l'on peut (i) inclure jusqu'à 100 langues d'entraînement simultanément (ii) avec aussi peu que 25 à 50\% de données non anglaises, pour améliorer considérablement les performances multilingues tout en conservant de solides performances en anglais. Nous constatons également que (iii) l'inclusion de données OCR non anglaises dans la pré-entraînement et le réglage des instructions est primordiale pour améliorer la compréhension multilingue de texte dans des images. Enfin, nous combinons toutes nos découvertes et entraînons Centurio, un LVLM à 100 langues, offrant des performances de pointe dans une évaluation couvrant 14 tâches et 56 langues.
Les grands modèles de langage (LLM) ont démontré une remarquable compétence dans une variété de tâches complexes. Une application significative des LLM est de relever les défis de l'ingénierie logicielle, en particulier en résolvant des tâches du monde réel sur GitHub en corrigeant du code basé sur les problèmes signalés par les utilisateurs. Cependant, de nombreuses approches actuelles reposent sur des LLM propriétaires, ce qui limite la reproductibilité, l'accessibilité et la transparence. Les composants critiques des LLM pour traiter les problèmes d'ingénierie logicielle et comment leurs capacités peuvent être efficacement améliorées restent flous. Pour relever ces défis, nous présentons SWE-Fixer, un nouveau LLM open-source conçu pour résoudre efficacement et efficacement les problèmes de GitHub. SWE-Fixer comprend deux modules essentiels : un module de récupération de fichiers de code et un module d'édition de code. Le module de récupération utilise BM25 ainsi qu'un modèle LLM léger pour réaliser une récupération de fichiers de manière grossière à fine. Ensuite, le module d'édition de code utilise l'autre modèle LLM pour générer des correctifs pour les fichiers identifiés. Ensuite, pour pallier le manque d'ensembles de données publiquement disponibles, nous compilons un ensemble de données étendu comprenant 110 000 problèmes GitHub ainsi que leurs correctifs correspondants, et formons les deux modules de SWE-Fixer séparément. Nous évaluons notre approche sur les benchmarks SWE-Bench Lite et Verified, atteignant des performances de pointe parmi les modèles open-source avec des scores de 23,3 % et 30,2 % respectivement. Ces résultats soulignent l'efficacité de notre approche. Nous rendrons notre modèle, notre ensemble de données et notre code publiquement disponibles sur https://github.com/InternLM/SWE-Fixer.
Récemment, les modèles visuels autorégressifs (VAR) ont introduit une avancée révolutionnaire dans le domaine de la génération d'images, offrant une approche évolutive à travers un paradigme de prédiction "prochaine échelle" grossière à fine. Cependant, l'algorithme de pointe des modèles VAR dans [Tian, Jiang, Yuan, Peng et Wang, NeurIPS 2024] prend un temps en O(n^4), ce qui est inefficace du point de vue computationnel. Dans ce travail, nous analysons les limites computationnelles et les critères d'efficacité des modèles VAR à travers une lentille de complexité fine. Notre contribution principale est d'identifier les conditions dans lesquelles les calculs VAR peuvent atteindre une complexité temporelle sous-quadratique. Plus précisément, nous établissons un seuil critique pour la norme des matrices d'entrée utilisées dans les mécanismes d'attention VAR. Au-dessus de ce seuil, en supposant l'Hypothèse du Temps Exponentiel Fort (SETH) de la théorie de la complexité fine, un algorithme temporel sous-quartique pour les modèles VAR est impossible. Pour étayer nos résultats théoriques, nous présentons des constructions efficaces exploitant des approximations de bas rang qui correspondent aux critères dérivés. Ce travail initie l'étude de l'efficacité computationnelle du modèle VAR d'un point de vue théorique. Notre technique éclairera les progrès de la génération d'images évolutive et efficace dans les cadres VAR.
La prévalence des modèles de langage propriétaires a soulevé des préoccupations critiques en matière de confidentialité, nécessitant des avancées en matière d'inférence privée (PI), où les calculs sont effectués directement sur des données chiffrées sans révéler les informations sensibles des utilisateurs. Bien que la PI offre une solution prometteuse, son déploiement pratique est entravé par des surdébits de communication et de latence substantiels, principalement dus aux opérations non linéaires. Pour y remédier, nous introduisons un cadre informationnel pour caractériser le rôle des non-linéarités dans les modèles de langage à décodeur uniquement, posant ainsi des bases fondées pour l'optimisation des architectures de transformateur adaptées aux exigences de la PI. En exploitant l'entropie de Shannon comme mesure quantitative, nous révélons la double importance des non-linéarités jusqu'alors inexplorée : au-delà d'assurer la stabilité de l'apprentissage, elles sont cruciales pour maintenir la diversité des têtes d'attention. Plus précisément, nous constatons que leur suppression déclenche deux modes d'échec critiques : l'« effondrement entropique » dans les couches plus profondes qui déstabilise l'apprentissage, et la « surcharge entropique » dans les couches plus précoces qui conduit à une sous-utilisation de la capacité de représentation de l'Attention Multi-Têtes (MHA). Nous proposons un mécanisme d'attention guidé par l'entropie associé à une nouvelle technique de régularisation de l'entropie pour atténuer la surcharge entropique. De plus, nous explorons des alternatives favorables à la PI à la normalisation des couches pour prévenir l'effondrement entropique et stabiliser l'apprentissage des LLM avec des non-linéarités réduites. Notre étude comble le fossé entre la théorie de l'information et la conception architecturale, établissant la dynamique de l'entropie comme guide fondé pour le développement d'architectures PI efficaces. Le code et l'implémentation sont disponibles sur https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Cet article présente des ressources et des modèles fondamentaux pour le traitement automatique du langage naturel (TALN) du turc historique, un domaine qui est resté sous-exploré en linguistique informatique. Nous présentons le premier ensemble de données de reconnaissance d'entités nommées (NER) pour le turc historique, HisTR, ainsi que le premier corpus arboré de dépendances universelles, OTA-BOUN, pour une forme historique de la langue turque, accompagnés de modèles basés sur des transformers entraînés à l'aide de ces ensembles de données pour la reconnaissance d'entités nommées, l'analyse syntaxique de dépendances et l'étiquetage morpho-syntaxique. De plus, nous introduisons le Corpus de Textes Ottomans (OTC), un corpus propre de textes turcs historiques translittérés couvrant une large gamme de périodes historiques. Nos résultats expérimentaux montrent des améliorations significatives dans l'analyse informatique du turc historique, atteignant des résultats prometteurs dans des tâches nécessitant la compréhension des structures linguistiques historiques. Ils soulignent également les défis existants, tels que l'adaptation au domaine et les variations linguistiques à travers les périodes. Toutes les ressources et les modèles présentés sont disponibles sur https://huggingface.co/bucolin pour servir de référence pour les progrès futurs dans le TALN du turc historique.