Articles de recherche en IA sélectionnés quotidiennement avec traductions
La récente version de DeepSeek-R1 a démontré l'immense potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement général des grands modèles de langage (LLM). Bien que DeepSeek-R1 et d'autres travaux ultérieurs se concentrent principalement sur l'application du RL aux problèmes de programmation compétitive et de mathématiques, cet article introduit SWE-RL, la première approche visant à étendre le raisonnement des LLM basé sur le RL pour l'ingénierie logicielle réelle. En s'appuyant sur une récompense légère basée sur des règles (par exemple, le score de similarité entre les solutions de référence et celles générées par le LLM), SWE-RL permet aux LLM de retrouver de manière autonome les processus de raisonnement et les solutions d'un développeur en apprenant à partir de vastes données d'évolution de logiciels open source — l'enregistrement de l'ensemble du cycle de vie d'un logiciel, y compris ses instantanés de code, ses modifications de code et des événements tels que les problèmes et les demandes de fusion. Entraîné sur Llama 3, notre modèle de raisonnement résultant, Llama3-SWE-RL-70B, atteint un taux de résolution de 41,0 % sur SWE-bench Verified — une collection vérifiée par des humains de problèmes réels issus de GitHub. À notre connaissance, il s'agit de la meilleure performance rapportée à ce jour pour les LLM de taille moyenne (<100B), comparable même aux LLM propriétaires de pointe comme GPT-4o. Étonnamment, bien que le RL ait été effectué uniquement sur des données d'évolution logicielle, Llama3-SWE-RL a également développé des compétences de raisonnement généralisées. Par exemple, il montre des résultats améliorés sur cinq tâches hors domaine, à savoir la programmation de fonctions, l'utilisation de bibliothèques, le raisonnement sur le code, les mathématiques et la compréhension générale du langage, alors qu'une base de référence ajustée par apprentissage supervisé entraîne même une dégradation des performances en moyenne. Globalement, SWE-RL ouvre une nouvelle voie pour améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement sur des données massives d'ingénierie logicielle.
Les récents progrès dans les modèles de langage multi-modaux open-source (MLLMs) se sont principalement concentrés sur l'amélioration des capacités fondamentales, laissant un écart important en matière d'alignement avec les préférences humaines. Cet article présente OmniAlign-V, un ensemble de données complet de 200 000 échantillons d'entraînement de haute qualité, comprenant des images variées, des questions complexes et des formats de réponse diversifiés, visant à améliorer l'alignement des MLLMs avec les préférences humaines. Nous introduisons également MM-AlignBench, un benchmark annoté par des humains spécialement conçu pour évaluer l'alignement des MLLMs avec les valeurs humaines. Les résultats expérimentaux montrent que le fine-tuning des MLLMs avec OmniAlign-V, en utilisant le Supervised Fine-Tuning (SFT) ou l'Optimisation Directe des Préférences (DPO), améliore significativement l'alignement avec les préférences humaines tout en maintenant ou en améliorant les performances sur les benchmarks standards de réponse à des questions visuelles (VQA), préservant ainsi leurs capacités fondamentales. Nos ensembles de données, benchmark, code et points de contrôle ont été publiés à l'adresse https://github.com/PhoenixZ810/OmniAlign-V.
Une implémentation efficace de l'attention est essentielle pour les grands modèles en raison de sa complexité temporelle quadratique. Heureusement, l'attention présente souvent de la sparsité, c'est-à-dire que de nombreuses valeurs dans la carte d'attention sont proches de zéro, permettant ainsi d'omettre les calculs correspondants. De nombreuses études ont exploité ce motif sparse pour accélérer l'attention. Cependant, la plupart des travaux existants se concentrent sur l'optimisation de l'attention au sein de modèles spécifiques en exploitant certains motifs sparses de la carte d'attention. Une attention sparse universelle garantissant à la fois l'accélération et les performances end-to-end de divers modèles reste insaisissable. Dans cet article, nous proposons SpargeAttn, une attention sparse et quantifiée universelle pour tout modèle. Notre méthode utilise un filtre en ligne en deux étapes : dans la première étape, nous prédisons rapidement et précisément la carte d'attention, permettant de sauter certaines multiplications matricielles dans l'attention. Dans la deuxième étape, nous concevons un filtre en ligne sensible au softmax qui n'entraîne aucun surcoût supplémentaire et permet de sauter davantage de multiplications matricielles. Les expériences montrent que notre méthode accélère considérablement divers modèles, y compris la génération de langage, d'images et de vidéos, sans sacrifier les métriques end-to-end. Les codes sont disponibles à l'adresse https://github.com/thu-ml/SpargeAttn.
La cohérence de l'arrière-plan reste un défi majeur dans les tâches d'édition d'images. Malgré des avancées significatives, les travaux existants continuent de faire face à un compromis entre le maintien de la similitude avec l'image originale et la génération de contenu aligné avec la cible. Nous proposons ici KV-Edit, une approche sans entraînement qui utilise le cache KV dans les DiTs pour préserver la cohérence de l'arrière-plan, où les tokens de l'arrière-plan sont conservés plutôt que régénérés, éliminant ainsi le besoin de mécanismes complexes ou d'un entraînement coûteux, et permettant finalement de générer un nouveau contenu qui s'intègre parfaitement à l'arrière-plan dans les régions spécifiées par l'utilisateur. Nous explorons également la consommation de mémoire du cache KV pendant l'édition et optimisons la complexité spatiale à O(1) grâce à une méthode sans inversion. Notre approche est compatible avec tout modèle génératif basé sur DiT sans nécessiter d'entraînement supplémentaire. Les expériences montrent que KV-Edit surpasse significativement les approches existantes en termes de qualité de l'arrière-plan et de l'image, dépassant même les méthodes basées sur l'entraînement. La page web du projet est disponible à l'adresse suivante : https://xilluill.github.io/projectpages/KV-Edit.
La génération d'images multicouches est une tâche fondamentale qui permet aux utilisateurs d'isoler, de sélectionner et de modifier des couches spécifiques d'une image, révolutionnant ainsi les interactions avec les modèles génératifs. Dans cet article, nous présentons le Anonymous Region Transformer (ART), qui facilite la génération directe d'images transparentes multicouches variables basées sur un prompt textuel global et une disposition de régions anonymes. Inspiré par la théorie des schémas, qui suggère que la connaissance est organisée en cadres (schémas) permettant aux individus d'interpréter et d'apprendre de nouvelles informations en les reliant à des connaissances préalables, cette disposition de régions anonymes permet au modèle génératif de déterminer de manière autonome quel ensemble de tokens visuels doit correspondre à quels tokens textuels, ce qui contraste avec la disposition sémantique précédemment dominante pour la tâche de génération d'images. De plus, le mécanisme de découpage régional par couche, qui ne sélectionne que les tokens visuels appartenant à chaque région anonyme, réduit considérablement les coûts de calcul d'attention et permet la génération efficace d'images avec de nombreuses couches distinctes (par exemple, 50+). Par rapport à l'approche d'attention complète, notre méthode est plus de 12 fois plus rapide et présente moins de conflits entre les couches. En outre, nous proposons un autoencodeur d'images transparentes multicouches de haute qualité qui supporte l'encodage et le décodage directs de la transparence des images multicouches variables de manière conjointe. En permettant un contrôle précis et une génération de couches scalable, ART établit un nouveau paradigme pour la création de contenu interactif.
Les avancées rapides en informatique augmentent considérablement l'échelle et le coût de l'entraînement des modèles de langage de grande taille (LLMs). Prédire avec précision les performances sur les tâches en aval avant l'entraînement du modèle est crucial pour une allocation efficace des ressources, mais reste difficile en raison de deux contraintes principales : (1) le "phénomène d'émergence", où les métriques de performance en aval ne deviennent significatives qu'après un entraînement approfondi, ce qui limite la capacité à utiliser des modèles plus petits pour la prédiction ; (2) des distributions de difficulté des tâches inégales et l'absence de lois d'échelle cohérentes, entraînant une variabilité métrique substantielle. Les méthodes existantes de prédiction de performance souffrent d'une précision et d'une fiabilité limitées, entravant ainsi l'évaluation des capacités potentielles des LLMs. Pour relever ces défis, nous proposons un cadre de prédiction de performance en aval basé sur le Clustering-On-Difficulty (COD). COD construit d'abord un sous-ensemble de support prédictible en regroupant les tâches selon leurs caractéristiques de difficulté, excluant stratégiquement les clusters non émergents et non scalables. Les scores sur le sous-ensemble sélectionné servent de prédicteurs intermédiaires efficaces pour les performances en aval sur l'ensemble complet d'évaluation. Avec un support théorique, nous dérivons une fonction de mappage qui transforme les métriques de performance du sous-ensemble prédictible vers l'ensemble complet d'évaluation, assurant ainsi une extrapolation précise des performances en aval des LLMs. La méthode proposée a été appliquée pour prédire l'échelle de performance d'un LLM de 70 milliards de paramètres, fournissant des insights actionnables pour l'allocation des ressources d'entraînement et aidant à surveiller le processus d'entraînement. Notamment, COD atteint une précision prédictive remarquable sur le LLM de 70 milliards de paramètres en exploitant un ensemble de petits modèles, démontrant une déviation moyenne absolue de 1,36 % sur huit benchmarks importants d'évaluation des LLMs.
L'expérimentation scientifique, pierre angulaire du progrès humain, exige de la rigueur en termes de fiabilité, de contrôle méthodique et d'interprétabilité pour produire des résultats significatifs. Malgré les capacités croissantes des grands modèles de langage (GML) à automatiser différents aspects du processus scientifique, automatiser une expérimentation rigoureuse reste un défi majeur. Pour combler cette lacune, nous proposons Curie, un cadre d'agent IA conçu pour intégrer la rigueur dans le processus d'expérimentation à travers trois composants clés : un module de rigueur intra-agent pour améliorer la fiabilité, un module de rigueur inter-agent pour maintenir le contrôle méthodique, et un module de connaissance expérimentale pour améliorer l'interprétabilité. Pour évaluer Curie, nous concevons un nouvel ensemble de tests expérimentaux composé de 46 questions dans quatre domaines de l'informatique, issues de travaux de recherche influents et de projets open source largement adoptés. Comparé au meilleur résultat de base testé, nous obtenons une amélioration de 3,4 fois dans la réponse correcte aux questions expérimentales. Curie est disponible en open source sur https://github.com/Just-Curieous/Curie.
Des études récentes ont exploré la combinaison de différents LoRAs pour générer conjointement le style et le contenu appris. Cependant, les méthodes existantes échouent soit à préserver efficacement à la fois le sujet original et le style simultanément, soit nécessitent un entraînement supplémentaire. Dans cet article, nous soutenons que les propriétés intrinsèques des LoRAs peuvent guider efficacement les modèles de diffusion dans la fusion du sujet et du style appris. Sur la base de cette intuition, nous proposons K-LoRA, une approche simple mais efficace de fusion de LoRAs sans entraînement. Dans chaque couche d'attention, K-LoRA compare les Top-K éléments de chaque LoRA à fusionner, déterminant quel LoRA sélectionner pour une fusion optimale. Ce mécanisme de sélection garantit que les caractéristiques les plus représentatives du sujet et du style sont conservées pendant le processus de fusion, équilibrant efficacement leurs contributions. Les résultats expérimentaux démontrent que la méthode proposée intègre efficacement les informations de sujet et de style apprises par les LoRAs originaux, surpassant les approches basées sur l'entraînement les plus avancées en termes de résultats qualitatifs et quantitatifs.
Pour exploiter les informations visuelles, les Modèles de Langage Multimodaux de Grande Taille (MLLM) s'appuient sur le processus de perception de leur encodeur visuel. L'exhaustivité et la précision de la perception visuelle influencent significativement la justesse du raisonnement spatial, de la compréhension fine et d'autres tâches. Cependant, les MLLM manquent encore de la capacité autonome à contrôler leurs propres processus de perception visuelle, par exemple, en examinant sélectivement des régions spécifiques d'une image ou en se concentrant sur des informations liées à des catégories d'objets spécifiques. Dans ce travail, nous proposons le concept de Token de Perception Visuelle, visant à doter les MLLM d'un mécanisme pour contrôler leurs processus de perception visuelle. Nous concevons deux types de Tokens de Perception Visuelle, appelés Token de Sélection de Région et Token de Ré-Encodage Visuel. Les MLLM génèrent ces tokens de manière autonome, tout comme ils génèrent du texte, et les utilisent pour déclencher des actions supplémentaires de perception visuelle. Le Token de Sélection de Région identifie explicitement des régions spécifiques d'une image nécessitant une perception approfondie, tandis que le Token de Ré-Encodage Visuel utilise ses états cachés comme signaux de contrôle pour guider des processus supplémentaires de perception visuelle. Des expériences approfondies démontrent les avantages de ces tokens dans la gestion du raisonnement spatial, l'amélioration de la compréhension fine et d'autres tâches. En moyenne, l'introduction des Tokens de Perception Visuelle améliore les performances d'un modèle de 2B de 23,6\%, augmentant son score de 0,572 à 0,708, et surpasse même un modèle de 7B paramètres de 13,4\% (à partir de 0,624). Consultez notre dépôt https://github.com/yu-rp/VisualPerceptionToken.
La stabilité de l'entraînement constitue un défi persistant dans le pré-entraînement des grands modèles de langage (LLM), en particulier pour les architectures telles que les Transformers Post-Norm, qui sont sujettes à l'explosion et à la dissipation des gradients. Dans cet article, nous proposons le découplage échelle-distribution (Scale-Distribution Decoupling, SDD), une approche novatrice qui stabilise l'entraînement en découplant explicitement l'échelle et la distribution de la matrice de poids dans les couches entièrement connectées. SDD applique un mécanisme de normalisation pour réguler les activations et un vecteur d'échelle apprenable pour maintenir des gradients bien conditionnés, empêchant ainsi efficacement l'explosion et la dissipation des gradients. Cette séparation améliore l'efficacité de l'optimisation, en particulier dans les réseaux profonds, en assurant une propagation stable des gradients. Les résultats expérimentaux montrent que notre méthode stabilise l'entraînement pour diverses architectures de LLM et surpasse les techniques existantes dans différentes configurations de normalisation. De plus, la méthode proposée est légère et compatible avec les frameworks existants, ce qui en fait une solution pratique pour stabiliser l'entraînement des LLM. Le code est disponible à l'adresse suivante : https://github.com/kaihemo/SDD.
Nous présentons WebGames, une suite de benchmarks complète conçue pour évaluer les agents d'intelligence artificielle généralistes de navigation web à travers une collection de plus de 50 défis interactifs. Ces défis sont spécifiquement élaborés pour être simples pour les humains tout en testant systématiquement les limites des systèmes d'IA actuels dans les interactions fondamentales avec le navigateur, le traitement avancé des entrées, les tâches cognitives, l'automatisation des workflows et le divertissement interactif. Notre framework élimine les dépendances externes grâce à un environnement de test hermétique, garantissant une évaluation reproductible avec des solutions de référence vérifiables. Nous évaluons les principaux modèles vision-langage, notamment GPT-4o, Claude Computer-Use, Gemini-1.5-Pro et Qwen2-VL, en les comparant aux performances humaines. Les résultats révèlent un écart de capacités significatif, avec le meilleur système d'IA atteignant seulement un taux de réussite de 43,1 % contre 95,7 % pour les humains, mettant en lumière les limitations fondamentales des systèmes d'IA actuels à gérer les schémas d'interaction web courants que les humains trouvent intuitifs. Le benchmark est disponible publiquement à l'adresse webgames.convergence.ai, offrant une implémentation légère côté client qui facilite des cycles d'évaluation rapides. Grâce à son architecture modulaire et à ses spécifications de défis standardisées, WebGames fournit une base robuste pour mesurer les progrès dans le développement d'agents de navigation web plus performants.
Motivés par la réduction des coûts de calcul et de stockage des LLMs, la compression de modèles et la compression du cache KV ont attiré une attention considérable de la part des chercheurs. Cependant, les méthodes actuelles mettent principalement l'accent sur le maintien des performances des LLMs compressés, mesurées par la perplexité ou la précision simple sur des tâches de questions-réponses de connaissances générales et de raisonnement arithmétique de base. Dans ce blog, nous présentons une brève revue des avancées récentes concernant les LLMs en lien avec la génération augmentée par recherche d'information, le raisonnement multi-étapes, l'utilisation d'outils externes et l'expressivité computationnelle, qui améliorent considérablement les performances des LLMs. Ensuite, nous proposons une hypothèse de "lottery LLM" suggérant que pour un LLM et une tâche donnés, il existe un lottery LLM plus petit capable de produire les mêmes performances que le LLM original avec l'aide d'un raisonnement multi-étapes et d'outils externes. Sur la base de cette revue des progrès actuels dans les LLMs, nous discutons et résumons les capacités essentielles que le lottery LLM et la compression du cache KV doivent posséder, qui sont actuellement négligées dans les méthodes existantes.
Les Modèles de Langage Multimodaux de Grande Taille (MLLM) ont connu des progrès rapides dans les tâches de reconnaissance visuelle ces dernières années. Étant donné leur potentiel d'intégration dans de nombreuses applications critiques, il est important de comprendre les limitations de leur perception visuelle. Dans ce travail, nous étudions si les MLLM peuvent percevoir aussi efficacement de petits détails visuels que de grands lorsqu'ils répondent à des questions sur des images. Nous observons que leur performance est très sensible à la taille du sujet visuel de la question, et montrons en outre que cet effet est en fait causal en menant une étude d'intervention. Ensuite, nous étudions les schémas d'attention des MLLM lorsqu'ils répondent à des questions visuelles, et trouvons de manière intrigante qu'ils savent toujours où regarder, même lorsqu'ils fournissent la mauvaise réponse. Sur la base de ces résultats, nous proposons ensuite des méthodes d'intervention visuelle sans entraînement qui exploitent la connaissance interne de n'importe quel MLLM lui-même, sous forme de cartes d'attention et de gradients, pour améliorer sa perception des petits détails visuels. Nous évaluons nos méthodes proposées sur deux MLLM largement utilisés et sept bancs d'essai de questions visuelles et montrons qu'elles peuvent améliorer significativement l'exactitude des MLLM sans nécessiter d'entraînement. Nos résultats mettent en lumière le risque d'appliquer des MLLM à des tâches de reconnaissance visuelle concernant de petits détails et indiquent que l'intervention visuelle en utilisant l'état interne du modèle est une direction prometteuse pour atténuer ce risque.
Les évaluations des grands modèles de langage (LLM) reposent généralement sur des métriques agrégées comme la précision ou les préférences humaines, en faisant la moyenne sur les utilisateurs et les prompts. Cette moyenne masque les variations spécifiques aux utilisateurs et aux prompts dans la performance du modèle. Pour résoudre ce problème, nous proposons Prompt-to-Leaderboard (P2L), une méthode qui génère des classements spécifiques à un prompt. L'idée centrale est d'entraîner un LLM prenant des prompts en langage naturel en entrée pour produire un vecteur de coefficients de Bradley-Terry, qui sont ensuite utilisés pour prédire le vote de préférence humaine. Les classements dépendants des prompts qui en résultent permettent une évaluation non supervisée spécifique à la tâche, un routage optimal des requêtes vers les modèles, une personnalisation et une évaluation automatisée des forces et faiblesses des modèles. Les données de Chatbot Arena suggèrent que P2L capture mieux les nuances du paysage de performance des modèles de langage que le classement moyen. De plus, nos résultats indiquent que la capacité de P2L à produire des évaluations spécifiques aux prompts suit une loi de puissance similaire à celle observée dans les LLM eux-mêmes. En janvier 2025, le routeur que nous avons entraîné sur la base de cette méthodologie a atteint la première place du classement de Chatbot Arena. Notre code est disponible à ce lien GitHub : https://github/lmarena/p2l.
La génération itérative de données et le réentraînement des modèles sont largement utilisés pour aligner les grands modèles de langage (LLM). Ce processus implique généralement un modèle de politique pour générer des réponses alignées et un modèle de récompense pour guider la sélection des données d'entraînement. L'Optimisation Directe des Préférences (DPO) améliore encore ce processus en construisant des paires de préférences entre des réponses choisies et rejetées. Dans ce travail, nous visons à augmenter le nombre d'échantillons alignés via un échantillonnage aléatoire répété pour améliorer les performances d'alignement. La pratique conventionnelle consiste à sélectionner l'échantillon avec la récompense la plus élevée comme choisi et celui avec la récompense la plus basse comme rejeté pour la DPO. Cependant, nos expériences révèlent que cette stratégie entraîne une baisse de performance à mesure que la taille de l'échantillon augmente. Pour remédier à cela, nous étudions la construction des données de préférence à travers la lentille de la distribution normale sous-jacente des récompenses des échantillons. Nous catégorisons l'espace des récompenses en sept points représentatifs et explorons systématiquement les 21 combinaisons par paires (C_7^2). Grâce à des évaluations sur quatre modèles utilisant AlpacaEval 2, nous constatons que sélectionner la réponse rejetée à la position de récompense mu - 2sigma plutôt qu'à la récompense minimale est crucial pour des performances optimales. Nous introduisons finalement une stratégie de construction de données de préférence scalable qui améliore constamment les performances du modèle à mesure que l'échelle des échantillons augmente.
Dans cet article, nous présentons LDGen, une méthode novatrice pour intégrer de grands modèles de langage (LLM) dans des modèles de diffusion texte-image existants tout en minimisant les exigences computationnelles. Les encodeurs de texte traditionnels, tels que CLIP et T5, présentent des limitations dans le traitement multilingue, entravant la génération d'images dans diverses langues. Nous relevons ces défis en exploitant les capacités avancées des LLM. Notre approche utilise une stratégie de représentation linguistique qui applique une optimisation de légendes hiérarchiques et des techniques d'instruction humaine pour dériver des informations sémantiques précises. Ensuite, nous incorporons un adaptateur léger et un raffineur multimodal pour faciliter l'alignement efficace des caractéristiques et l'interaction entre les LLM et les caractéristiques des images. LDGen réduit le temps d'entraînement et permet la génération d'images multilingues sans étiquette. Les résultats expérimentaux indiquent que notre méthode dépasse les modèles de référence à la fois en termes de conformité à la consigne et de qualité esthétique des images, tout en prenant en charge de manière transparente plusieurs langues. Page du projet : https://zrealli.github.io/LDGen.
Les modèles de base auditifs, y compris les grands modèles de langage auditifs (LLM), traitent toutes les entrées sonores de manière égale, indépendamment de la perception de l'auditeur. Cependant, la perception auditive humaine est intrinsèquement sélective : les auditeurs se concentrent sur des locuteurs spécifiques tout en ignorant les autres dans des scènes auditives complexes. Les modèles existants n'intègrent pas cette sélectivité, ce qui limite leur capacité à générer des réponses alignées sur la perception. Pour remédier à cela, nous introduisons la compréhension de scène auditive informée par l'intention (II-ASU) et présentons Auditory Attention-Driven LLM (AAD-LLM), un prototype de système qui intègre des signaux cérébraux pour inférer l'attention de l'auditeur. AAD-LLM étend un LLM auditif en incorporant des enregistrements d'électroencéphalographie intracrânienne (iEEG) pour décoder à quel locateur l'auditeur prête attention et affiner les réponses en conséquence. Le modèle prédit d'abord le locuteur suivi à partir de l'activité neurale, puis conditionne la génération de réponses sur cet état attentionnel inféré. Nous évaluons AAD-LLM sur la description de locuteurs, la transcription et l'extraction de la parole, ainsi que la réponse à des questions dans des scénarios à plusieurs locuteurs, avec des évaluations objectives et subjectives montrant une meilleure alignement avec l'intention de l'auditeur. En faisant un premier pas vers une IA auditive consciente de l'intention, ce travail explore un nouveau paradigme où la perception de l'auditeur informe l'écoute machine, ouvrant la voie à de futurs systèmes auditifs centrés sur l'auditeur. Démo et code disponibles : https://aad-llm.github.io.
Les grands modèles de langage (LLMs) ont émergé comme des outils transformateurs en intelligence artificielle (IA), présentant des capacités remarquables dans diverses tâches telles que la génération de texte, le raisonnement et la prise de décision. Alors que leur succès a principalement été stimulé par les progrès en puissance de calcul et en architectures d'apprentissage profond, des problèmes émergents - dans des domaines tels que la quantification de l'incertitude, la prise de décision, l'inférence causale et le décalage de distribution - nécessitent une implication plus profonde dans le domaine de la statistique. Ce document explore les domaines potentiels où les statisticiens peuvent apporter des contributions importantes au développement des LLMs, en particulier ceux visant à promouvoir la fiabilité et la transparence pour les utilisateurs humains. Ainsi, nous nous concentrons sur des questions telles que la quantification de l'incertitude, l'interprétabilité, l'équité, la confidentialité, le tatouage numérique et l'adaptation du modèle. Nous examinons également les rôles possibles des LLMs dans l'analyse statistique. En établissant un pont entre l'IA et la statistique, nous visons à favoriser une collaboration plus étroite qui fait progresser à la fois les fondements théoriques et les applications pratiques des LLMs, façonnant en fin de compte leur rôle dans la résolution de défis sociétaux complexes.
Les modèles d'espace d'états (SSMs), tels que Mamba, sont apparus comme une alternative efficace aux transformers pour la modélisation de séquences à contexte long. Cependant, malgré leur adoption croissante, les SSMs manquent d'outils d'interprétabilité qui ont été cruciaux pour comprendre et améliorer les architectures basées sur l'attention. Bien que des efforts récents aient fourni des insights sur les mécanismes internes de Mamba, ils ne décomposent pas explicitement les contributions au niveau des tokens, laissant des lacunes dans la compréhension de la manière dont Mamba traite sélectivement les séquences à travers les couches. Dans ce travail, nous introduisons LaTIM, une nouvelle méthode de décomposition au niveau des tokens pour Mamba-1 et Mamba-2 qui permet une interprétabilité fine. Nous évaluons largement notre méthode sur diverses tâches, incluant la traduction automatique, la copie et la génération basée sur la récupération, démontrant son efficacité à révéler les schémas d'interaction token-à-token de Mamba.
Nous présentons Shakti VLM, une famille de modèles vision-langage dotés de 1 et 4 milliards de paramètres, conçus pour relever les défis d'efficacité des données dans l'apprentissage multimodal. Alors que les modèles VLM récents atteignent des performances élevées grâce à des volumes massifs de données d'entraînement, les modèles Shakti exploitent des innovations architecturales pour obtenir des résultats compétitifs avec moins de tokens. Les avancées clés incluent la QK-Normalisation pour la stabilité de l'attention, des techniques de normalisation hybrides et un encodage positionnel amélioré. Une stratégie d'entraînement en trois étapes optimise davantage l'efficacité de l'apprentissage. Les évaluations montrent que Shakti-VLM-1B et Shakti-VLM-4B excellent dans la compréhension de documents, le raisonnement visuel, l'extraction OCR et le raisonnement multimodal général. Nos résultats soulignent que des performances élevées peuvent être atteintes grâce à la conception du modèle et à la stratégie d'entraînement plutôt qu'au simple volume de données, faisant de Shakti une solution efficace pour les tâches multimodales à l'échelle des entreprises.
Nous présentons WiCkeD, une méthode simple pour augmenter la complexité des benchmarks existants à choix multiples en remplaçant aléatoirement une option par "Aucune des réponses ci-dessus", une technique couramment utilisée dans les tests éducatifs. Nous démontrons que WiCkeD peut être appliqué automatiquement à n'importe quel benchmark existant, le rendant ainsi plus difficile. Nous appliquons WiCkeD à 6 benchmarks populaires et l'utilisons pour évaluer 18 LLM open-weight. La performance des modèles chute en moyenne de 12,1 points par rapport aux versions originales des jeux de données. Lorsque nous utilisons le raisonnement en chaîne sur 3 jeux de données MMLU, la baisse de performance pour la variante WiCkeD est similaire à celle observée lors de l'utilisation directe des LLM, montrant que WiCkeD est également difficile pour les modèles dotés de capacités de raisonnement améliorées. WiCkeD révèle également que certains modèles sont plus sensibles au raisonnement supplémentaire requis, fournissant des informations complémentaires par rapport aux benchmarks originaux. Nous mettons à disposition notre code et nos données à l'adresse https://github.com/ahmedselhady/wicked-benchmarks.
Les modèles de langage modernes reposent sur des vocabulaires statiques, fixés avant l'entraînement, contrairement à l'acquisition de vocabulaire adaptative observée dans l'apprentissage du langage humain. Pour combler ce fossé, nous introduisons l'apprentissage de curriculum de vocabulaire, une approche qui améliore l'efficacité de l'entraînement préalable avec des gains d'échelle logarithmique par rapport à la taille du vocabulaire. Notre méthode alterne entre l'expansion du vocabulaire guidée par l'entropie et l'optimisation du modèle, permettant aux modèles d'apprendre des représentations transférables à travers diverses granularités de tokenisation. Cette approche donne naturellement lieu à un schéma optimal d'allocation de calcul : les tokens plus longs capturent un contenu prévisible, tandis que les tokens plus courts se concentrent sur des contextes plus complexes et plus difficiles à prédire. Des expériences sur des modèles GPT à petite échelle démontrent une efficacité d'échelle améliorée, renforçant l'efficacité de la tokenisation dynamique. Nous mettons notre code à disposition pour soutenir de futures recherches et prévoyons d'étendre nos expériences à des modèles plus grands et à des domaines diversifiés.