Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage (LMs) sont devenus omniprésents, tant dans la recherche en traitement du langage naturel (NLP) que dans les offres de produits commerciaux. Alors que leur importance commerciale a considérablement augmenté, les modèles les plus puissants sont devenus fermés, protégés derrière des interfaces propriétaires, avec des détails cruciaux sur leurs données d'entraînement, leurs architectures et leur développement non divulgués. Étant donné l'importance de ces détails pour l'étude scientifique de ces modèles, y compris leurs biais et risques potentiels, nous pensons qu'il est essentiel que la communauté de recherche ait accès à des LMs puissants et véritablement ouverts. Dans cette optique, ce rapport technique détaille la première version d'OLMo, un modèle de langage de pointe et véritablement ouvert, ainsi que son cadre pour construire et étudier la science de la modélisation du langage. Contrairement à la plupart des efforts antérieurs qui n'ont publié que les poids des modèles et le code d'inférence, nous publions OLMo ainsi que l'ensemble du cadre, y compris les données d'entraînement et les codes d'entraînement et d'évaluation. Nous espérons que cette publication renforcera et dynamisera la communauté de recherche ouverte et inspirera une nouvelle vague d'innovation.
Les modèles de langage sont devenus une technologie essentielle pour aborder un large éventail de tâches de traitement du langage naturel, mais de nombreux détails sur la manière dont les modèles de langage les plus performants ont été développés ne sont pas divulgués. En particulier, les informations concernant leurs corpus de pré-entraînement sont rarement discutées : les modèles de langage commerciaux fournissent rarement des informations sur leurs données ; même les modèles ouverts publient peu les jeux de données sur lesquels ils sont entraînés, ou une recette exacte pour les reproduire. Par conséquent, il est difficile de mener certaines recherches sur la modélisation du langage, comme comprendre comment les données d'entraînement influencent les capacités des modèles et façonnent leurs limites. Pour faciliter la recherche ouverte sur le pré-entraînement des modèles de langage, nous publions Dolma, un corpus anglais de trois mille milliards de tokens, construit à partir d'un mélange diversifié de contenus web, d'articles scientifiques, de code, de livres du domaine public, de médias sociaux et de matériaux encyclopédiques. De plus, nous rendons open source notre boîte à outils de curation de données pour permettre des expérimentations supplémentaires et la reproduction de notre travail. Dans ce rapport, nous documentons Dolma, y compris ses principes de conception, les détails de sa construction et un résumé de son contenu. Nous intercalons ce rapport avec des analyses et des résultats expérimentaux issus de l'entraînement de modèles de langage sur des états intermédiaires de Dolma, afin de partager ce que nous avons appris sur les pratiques importantes de curation de données, y compris le rôle des filtres de contenu ou de qualité, la déduplication et le mélange de sources multiples. Dolma a été utilisé pour entraîner OLMo, un modèle de langage open source de pointe et un cadre conçu pour construire et étudier la science de la modélisation du langage.
Nous présentons CroissantLLM, un modèle de langage de 1,3 milliard de paramètres pré-entraîné sur un ensemble de 3 000 milliards de tokens en anglais et en français, visant à offrir à la communauté de recherche et industrielle un modèle bilingue performant, entièrement open-source et capable de fonctionner rapidement sur du matériel local grand public. Pour ce faire, nous innovons en proposant une approche consistant à entraîner un modèle intrinsèquement bilingue avec un ratio de données de pré-entraînement de 1:1 entre l'anglais et le français, un tokenizer personnalisé et des ensembles de données de fine-tuning bilingues. Nous publions l'ensemble de données d'entraînement, comprenant notamment une partie française constituée de sources de données manuellement sélectionnées, de haute qualité et variées. Pour évaluer les performances hors de l'anglais, nous avons conçu un nouveau benchmark, FrenchBench, composé d'une série de tâches de classification et de génération, couvrant divers aspects orthogonaux des performances du modèle en langue française. En outre, dans un esprit de transparence et pour favoriser la recherche sur les grands modèles de langage, nous publions les bases de code, des dizaines de points de contrôle pour différentes tailles de modèles, distributions de données d'entraînement et étapes d'entraînement, ainsi que des modèles Chat fine-tunés et des modèles de traduction performants. Nous évaluons notre modèle à travers le cadre FMTI et validons 81 % des critères de transparence, dépassant largement les scores de la plupart des initiatives ouvertes. Ce travail enrichit le paysage de la NLP, s'éloignant des travaux précédents centrés sur l'anglais afin de renforcer notre compréhension du multilinguisme dans les modèles de langage.
Comprendre le contexte est essentiel pour appréhender le langage humain, une capacité que les modèles de langage de grande taille (LLMs) ont démontré de manière de plus en plus impressionnante. Cependant, bien que l'évaluation des LLMs couvre divers domaines du traitement du langage naturel, peu d'attention a été accordée à l'exploration de leur capacité linguistique à comprendre les caractéristiques contextuelles. Cet article introduit un benchmark de compréhension contextuelle en adaptant des jeux de données existants pour évaluer les modèles génératifs. Ce benchmark comprend quatre tâches distinctes et neuf jeux de données, tous incluant des prompts conçus pour évaluer la capacité des modèles à comprendre le contexte. Premièrement, nous évaluons la performance des LLMs dans le scénario de pré-entraînement par apprentissage en contexte. Les résultats expérimentaux indiquent que les modèles denses pré-entraînés peinent à comprendre les caractéristiques contextuelles plus subtiles par rapport aux modèles affinés de pointe. Deuxièmement, étant donné l'importance croissante de la compression des LLMs dans la recherche et les applications pratiques, nous évaluons la compréhension contextuelle des modèles quantifiés dans des configurations d'apprentissage en contexte. Nous constatons que la quantification post-entraînement sur 3 bits entraîne des réductions de performance variables sur notre benchmark. Nous menons une analyse approfondie de ces scénarios pour étayer nos résultats expérimentaux.
Nous présentons des preuves d'un bénéfice substantiel de l'exploration efficace dans la collecte de retours humains pour améliorer les grands modèles de langage. Dans nos expériences, un agent génère séquentiellement des requêtes tout en ajustant un modèle de récompense aux retours reçus. Notre agent le plus performant génère des requêtes en utilisant un échantillonnage double de Thompson, avec l'incertitude représentée par un réseau neuronal épistémique. Nos résultats démontrent que l'exploration efficace permet d'atteindre des niveaux de performance élevés avec beaucoup moins de requêtes. De plus, l'estimation de l'incertitude et le choix du schéma d'exploration jouent des rôles critiques.
Nous présentons SymbolicAI, un cadre modulaire et polyvalent qui adopte une approche logique pour l'apprentissage de concepts et la gestion des flux dans les processus génératifs. SymbolicAI permet l'intégration transparente de modèles génératifs avec une diversité de solveurs en traitant les grands modèles de langage (LLMs) comme des analyseurs sémantiques exécutant des tâches basées sur des instructions en langage naturel et formel, comblant ainsi l'écart entre le raisonnement symbolique et l'IA générative. Nous exploitons les principes de la programmation probabiliste pour aborder des tâches complexes, et utilisons les paradigmes de programmation différentiable et classique en tirant parti de leurs forces respectives. Le cadre introduit un ensemble d'opérations polymorphes, compositionnelles et auto-référentielles pour la manipulation des flux de données, alignant les sorties des LLMs sur les objectifs de l'utilisateur. En conséquence, nous pouvons alterner entre les capacités de divers modèles de base dotés d'apprentissage zero-shot et few-shot, et des modèles ou solveurs spécialisés et affinés, compétents pour résoudre des problèmes spécifiques. Ainsi, le cadre facilite la création et l'évaluation de graphes de calcul explicables. Nous concluons en introduisant une mesure de qualité et son score empirique pour évaluer ces graphes de calcul, et proposons un benchmark comparant divers LLMs de pointe à travers un ensemble de workflows complexes. Nous désignons ce score empirique sous le nom de "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", ou score VERTEX en abrégé. Le code source du cadre et le benchmark sont disponibles ci-dessous.
L'oubli machine (machine unlearning) est apparu comme un nouveau paradigme permettant d'effacer délibérément des échantillons de données d'un modèle donné afin de se conformer à des réglementations strictes. Cependant, les méthodes existantes d'oubli machine se sont principalement concentrées sur les modèles de classification, laissant le domaine de l'oubli pour les modèles génératifs relativement inexploré. Cet article sert de pont en comblant cette lacune en proposant un cadre unificateur pour l'oubli machine appliqué aux modèles génératifs image-à-image. Dans ce cadre, nous proposons un algorithme efficace sur le plan computationnel, soutenu par une analyse théorique rigoureuse, qui démontre une dégradation négligeable des performances sur les échantillons conservés, tout en supprimant efficacement les informations des échantillons à oublier. Des études empiriques sur deux ensembles de données à grande échelle, ImageNet-1K et Places-365, montrent en outre que notre algorithme ne dépend pas de la disponibilité des échantillons conservés, ce qui respecte davantage les politiques de conservation des données. À notre connaissance, ce travail est le premier à représenter des explorations systémiques, théoriques et empiriques de l'oubli machine spécifiquement adapté aux modèles génératifs image-à-image. Notre code est disponible à l'adresse suivante : https://github.com/jpmorganchase/l2l-generator-unlearning.
Une approche courante pour aligner les modèles de langage sur les préférences humaines consiste à apprendre d'abord un modèle de récompense à partir de données de préférences, puis à utiliser ce modèle de récompense pour mettre à jour le modèle de langage. Nous étudions deux problèmes étroitement liés qui surviennent dans cette approche. Premièrement, toute transformation monotone du modèle de récompense préserve le classement des préférences ; existe-t-il un choix qui soit « meilleur » que les autres ? Deuxièmement, nous souhaitons souvent aligner les modèles de langage sur plusieurs propriétés : comment devrions-nous combiner plusieurs modèles de récompense ? En utilisant une interprétation probabiliste de la procédure d'alignement, nous identifions un choix naturel de transformation pour (le cas courant des) récompenses apprises à partir de modèles de préférences de Bradley-Terry. Cette transformation dérivée possède deux propriétés importantes. Premièrement, elle met l'accent sur l'amélioration des sorties peu performantes, plutôt que sur celles qui obtiennent déjà de bons scores. Cela atténue à la fois le sous-apprentissage (où certaines requêtes ne sont pas améliorées) et le détournement de récompense (où le modèle apprend à exploiter une mauvaise spécification du modèle de récompense). Deuxièmement, elle permet une agrégation raisonnée des récompenses en reliant la sommation à la conjonction logique : la somme des récompenses transformées correspond à la probabilité que la sortie soit « bonne » pour toutes les propriétés mesurées, dans un sens que nous précisons. Les expériences d'alignement des modèles de langage pour qu'ils soient à la fois utiles et inoffensifs en utilisant l'apprentissage par renforcement à partir de feedback humain (RLHF) montrent des améliorations substantielles par rapport à l'approche de base (non transformée).
Nous présentons Amortized Text-to-Mesh (AToM), un cadre de génération de maillages à partir de texte en flux direct, optimisé simultanément pour plusieurs prompts textuels. Contrairement aux méthodes existantes de génération de texte-à-3D qui nécessitent souvent une optimisation longue et spécifique à chaque prompt et produisent généralement des représentations autres que des maillages polygonaux, AToM génère directement des maillages texturés de haute qualité en moins d'une seconde, avec une réduction d'environ 10 fois du coût d'entraînement, et généralise à des prompts non vus. Notre idée clé repose sur une architecture novatrice de génération de maillages à partir de texte basée sur des triplans, associée à une stratégie d'optimisation amortie en deux étapes qui assure un entraînement stable et permet une mise à l'échelle. À travers des expériences approfondies sur divers benchmarks de prompts, AToM surpasse significativement les approches amorties de pointe avec une précision plus de 4 fois supérieure (sur le jeu de données DF415) et produit des sorties 3D plus distinctes et de meilleure qualité. AToM démontre une forte généralisation, offrant des actifs 3D détaillés pour des prompts interpolés non vus sans nécessiter d'optimisation supplémentaire lors de l'inférence, contrairement aux solutions spécifiques à chaque prompt.
Ce travail présente EE-Tuning, une solution légère et économique pour l'entraînement/le réglage de grands modèles de langage (LLM) à sortie précoce. Contrairement à l'approche courante de pré-entraînement sur l'ensemble des paramètres, EE-Tuning enrichit tout LLM standard pré-entraîné (et éventuellement affiné) avec des couches supplémentaires de sortie précoce, réglées de manière efficace en termes de paramètres, ce qui nécessite nettement moins de ressources computationnelles et de données d'entraînement. Notre implémentation de EE-Tuning atteint une efficacité d'entraînement exceptionnelle grâce à des optimisations de performance approfondies, ainsi qu'une scalabilité due à sa compatibilité totale avec le parallélisme 3D. Les résultats d'expériences systématiques valident l'efficacité de EE-Tuning, confirmant qu'une inférence efficace de LLM à sortie précoce peut être réalisée avec un budget d'entraînement limité. Dans l'espoir de rendre les LLM à sortie précoce accessibles à la communauté, nous publions le code source de notre implémentation de EE-Tuning à l'adresse https://github.com/pan-x-c/EE-LLM.