papers.description
Alors que les grands modèles de langage ont facilité des percées dans de nombreuses applications de l'intelligence artificielle, leur grande taille intrinsèque les rend coûteux en termes de calcul et difficiles à déployer dans des environnements aux ressources limitées. Dans cet article, nous documentons le développement de SmolLM2, un modèle de langage (LM) "petit" de pointe (1,7 milliard de paramètres). Pour obtenir de bonnes performances, nous sur-entraînons SmolLM2 sur environ 11 billions de jetons de données en utilisant un processus d'entraînement multi-étapes qui mélange du texte web avec des données mathématiques, de code et de suivi d'instructions spécialisées. Nous introduisons également de nouveaux ensembles de données spécialisés (FineMath, Stack-Edu et SmolTalk) à des étapes où nous avons constaté que les ensembles de données existants étaient problématiquement petits ou de faible qualité. Pour étayer nos décisions de conception, nous réalisons à la fois des ablations à petite échelle ainsi qu'un processus de raffinement manuel qui met à jour les taux de mélange des ensembles de données à chaque étape en fonction des performances de l'étape précédente. En fin de compte, nous démontrons que SmolLM2 surpasse d'autres récents petits LMs, y compris Qwen2.5-1.5B et Llama3.2-1B. Pour faciliter les futures recherches sur le développement de LM ainsi que les applications de petits LMs, nous publions à la fois SmolLM2 ainsi que tous les ensembles de données que nous avons préparés au cours de ce projet.
Nous présentons une découverte fondamentale qui remet en question notre compréhension de l'émergence du raisonnement complexe dans les grands modèles de langage. Alors que la sagesse conventionnelle suggère que les tâches de raisonnement sophistiquées exigent des données d'entraînement étendues (>100 000 exemples), nous démontrons que les capacités de raisonnement mathématique complexe peuvent être efficacement sollicitées avec étonnamment peu d'exemples. À travers des expériences approfondies, notre modèle proposé LIMO démontre des performances sans précédent en matière de raisonnement mathématique. Avec seulement 817 échantillons d'entraînement sélectionnés, LIMO atteint une précision de 57,1 % sur AIME et de 94,8 % sur MATH, améliorant les performances des modèles précédents basés sur SFT qui étaient respectivement de 6,5 % et 59,2 %, tout en n'utilisant que 1 % des données d'entraînement requises par les approches précédentes. LIMO démontre une généralisation exceptionnelle hors distribution, réalisant une amélioration absolue de 40,5 % sur 10 benchmarks divers, surpassant les modèles entraînés sur 100 fois plus de données, remettant en question l'idée que SFT conduit à la mémorisation plutôt qu'à la généralisation. Sur la base de ces résultats, nous proposons l'Hypothèse du Raisonnement Moins C'est Plus (Hypothèse LIMO) : Dans les modèles de base où la connaissance du domaine a été encodée de manière exhaustive lors de la pré-formation, les capacités de raisonnement sophistiquées peuvent émerger à travers des démonstrations minimales mais précisément orchestrées des processus cognitifs. Cette hypothèse postule que le seuil de sollicitation pour le raisonnement complexe est déterminé par deux facteurs clés : (1) l'exhaustivité de la fondation de connaissances encodée du modèle lors de la pré-formation, et (2) l'efficacité des exemples post-formation en tant que "modèles cognitifs" montrant au modèle comment utiliser sa base de connaissances pour résoudre des tâches de raisonnement complexes. Pour faciliter la reproductibilité et les futures recherches en matière de raisonnement économe en données, nous publions LIMO en tant que suite complète open-source sur https://github.com/GAIR-NLP/LIMO.
Le dimensionnement du calcul d'inférence améliore le raisonnement dans les grands modèles de langage (LLM), avec de longues chaînes de pensées (CoTs) permettant des stratégies telles que le retour en arrière et la correction d'erreurs. L'apprentissage par renforcement (RL) est apparu comme une méthode cruciale pour développer ces capacités, cependant les conditions dans lesquelles de longues CoTs émergent restent floues, et l'entraînement RL nécessite des choix de conception soigneux. Dans cette étude, nous examinons systématiquement les mécanismes du raisonnement à longue CoT, identifiant les facteurs clés qui permettent aux modèles de générer de longues trajectoires de CoT. À travers des expériences approfondies de fine-tuning supervisé (SFT) et de RL, nous présentons quatre principales découvertes : (1) Bien que le SFT ne soit pas strictement nécessaire, il simplifie l'entraînement et améliore l'efficacité ; (2) Les capacités de raisonnement ont tendance à émerger avec une augmentation du calcul d'entraînement, mais leur développement n'est pas garanti, rendant la mise en forme de la récompense cruciale pour stabiliser la croissance de la longueur de CoT ; (3) Le dimensionnement des signaux de récompense vérifiables est essentiel pour le RL. Nous constatons que l'exploitation de solutions bruitées extraites du web avec des mécanismes de filtrage montre un fort potentiel, en particulier pour des tâches hors distribution telles que le raisonnement STEM ; et (4) Les capacités de base telles que la correction d'erreurs sont intrinsèquement présentes dans les modèles de base, mais inciter efficacement ces compétences pour des tâches complexes via le RL exige un calcul significatif, et mesurer leur émergence nécessite une approche nuancée. Ces informations fournissent des orientations pratiques pour optimiser les stratégies d'entraînement afin d'améliorer le raisonnement à longue CoT dans les LLM. Notre code est disponible sur : https://github.com/eddycmu/demystify-long-cot.
L'étude de l'émergence sociale a longtemps été au centre de l'attention en sciences sociales. Les approches de modélisation traditionnelles, telles que les Modèles Basés sur les Agents (ABM) basés sur des règles, ont du mal à capturer la diversité et la complexité du comportement humain, en particulier les facteurs irrationnels mis en avant en économie comportementale. Récemment, les agents de grands modèles de langage (LLM) ont gagné en popularité en tant qu'outils de simulation pour modéliser le comportement humain en sciences sociales et dans des applications de jeu de rôle. Des études suggèrent que les LLM peuvent prendre en compte les biais cognitifs, les fluctuations émotionnelles et d'autres influences non rationnelles, permettant des simulations plus réalistes des dynamiques socio-économiques. Dans ce travail, nous présentons TwinMarket, un nouveau cadre multi-agent qui exploite les LLM pour simuler des systèmes socio-économiques. Plus précisément, nous examinons comment les comportements individuels, à travers les interactions et les mécanismes de rétroaction, donnent lieu à des dynamiques collectives et à des phénomènes émergents. À travers des expériences dans un environnement de marché boursier simulé, nous démontrons comment les actions individuelles peuvent déclencher des comportements de groupe, conduisant à des résultats émergents tels que des bulles financières et des récessions. Notre approche fournit des perspectives précieuses sur l'interaction complexe entre la prise de décision individuelle et les schémas socio-économiques collectifs.
Les grands modèles de langage multimodaux (MLLM) présentent des capacités impressionnantes mais rencontrent encore des défis en matière de raisonnement visuel complexe. Alors que des efforts récents tentent d'améliorer le raisonnement des MLLM en incorporant une pensée structurée similaire à OpenAI o1 à travers des structures de recherche explicites ou une distillation guidée par un enseignant, ils ont souvent du mal à équilibrer les performances et l'efficacité. Une limitation critique est leur forte dépendance à des données et des espaces de recherche étendus, entraînant une extraction d'informations implicites et une utilisation de données peu efficaces. Pour remédier à cela, nous proposons AStar, un paradigme de pensée structurée automatisée pour le raisonnement multimodal via la recherche arborescente Monte Carlo (MCTS). AStar dérive automatiquement des schémas de raisonnement cognitif de haut niveau à partir de données limitées en utilisant des structures hiérarchiques alimentées par MCTS. En nous appuyant sur ces schémas explicites, nous concevons un cadre de raisonnement unifié qui intègre de manière transparente les capacités de raisonnement interne des modèles et les directives de raisonnement externes, permettant une inférence efficace avec un nombre minimal d'itérations dans l'arbre. Ce nouveau paradigme trouve un équilibre convaincant entre les performances et l'efficacité. Des expériences approfondies démontrent l'efficacité d'AStar, atteignant une précision supérieure (54,0 %) sur le benchmark MathVerse avec une base de 7B, dépassant GPT-4o (50,2 %) tout en maintenant une efficacité de données et de calcul substantielle.
La génération de SVG en couches alignées sur la cognition reste un défi en raison des tendances des méthodes existantes à produire soit des sorties simplifiées en une seule couche, soit des redondances de formes induites par l'optimisation. Nous proposons LayerTracer, un cadre basé sur un transformateur de diffusion qui comble cette lacune en apprenant les processus de création de SVG en couches des concepteurs à partir d'un nouvel ensemble de données d'opérations de conception séquentielles. Notre approche fonctionne en deux phases : Tout d'abord, un DiT conditionné par du texte génère des plans de construction multi-phasés rasterisés qui simulent les flux de travail de conception humaine. Ensuite, la vectorisation par couche avec déduplication de chemins produit des SVG propres et modifiables. Pour la vectorisation d'image, nous introduisons un mécanisme de diffusion conditionnelle qui encode les images de référence en jetons latents, guidant la reconstruction hiérarchique tout en préservant l'intégrité structurelle. Des expériences approfondies démontrent les performances supérieures de LayerTracer par rapport aux références basées sur l'optimisation et les réseaux neuronaux, tant en termes de qualité de génération que de modifiabilité, alignant efficacement les vecteurs générés par l'IA avec la cognition professionnelle en conception.
Les grands modèles de langage (LLMs) excellent dans le raisonnement et la planification lorsqu'ils sont entraînés sur des données de chaîne de pensée (CoT), où le processus de pensée étape par étape est explicitement décrit par des jetons de texte. Cependant, cela entraîne des entrées longues où de nombreux mots soutiennent la cohérence textuelle plutôt que les informations de raisonnement de base, et le traitement de ces entrées consomme des ressources de calcul substantielles. Dans ce travail, nous proposons une représentation hybride du processus de raisonnement, où nous abstrayons partiellement les étapes de raisonnement initiales en utilisant des jetons discrets latents générés par VQ-VAE, réduisant significativement la longueur des traces de raisonnement. Nous explorons l'utilisation d'abstractions de traces latentes dans deux scénarios : 1) entraîner le modèle à partir de zéro pour le problème du labyrinthe de recherche de clés, 2) affiner les LLMs sur ces données hybrides avec un vocabulaire étendu comprenant des jetons latents invisibles, pour des problèmes de raisonnement logique et mathématique. Pour faciliter l'apprentissage efficace, nous introduisons une procédure d'entraînement simple qui mélange de manière aléatoire des jetons latents et textuels, ce qui permet une adaptation rapide à de nouveaux jetons latents. Notre approche surpasse de manière constante les méthodes de base dans divers benchmarks.
Le post-entraînement des modèles de langage (LMs) repose de plus en plus sur les deux étapes suivantes : (i) la distillation des connaissances, où le LM est entraîné pour imiter un plus grand LM enseignant, et (ii) l'apprentissage par renforcement à partir des retours humains (RLHF), où le LM est aligné en optimisant un modèle de récompense. Dans la deuxième étape RLHF, un défi bien connu est le piratage de récompense, où le LM sur-optimise le modèle de récompense. Ce phénomène est en accord avec la loi de Goodhart et peut entraîner une performance dégradée sur l'objectif réel. Dans cet article, nous examinons si un phénomène similaire, que nous appelons piratage de l'enseignant, peut se produire lors de la distillation des connaissances. Cela pourrait survenir car le LM enseignant est lui-même une approximation imparfaite de la vraie distribution. Pour étudier cela, nous proposons une configuration expérimentale contrôlée comprenant : (i) un LM oracle représentant la distribution de référence, (ii) un LM enseignant distillé à partir de l'oracle, et (iii) un LM étudiant distillé à partir de l'enseignant. Nos expériences révèlent les observations suivantes. Lors de l'utilisation d'un ensemble de données hors ligne fixe pour la distillation, le piratage de l'enseignant se produit ; de plus, nous pouvons le détecter en observant lorsque le processus d'optimisation s'écarte des lois de convergence polynomiales. En revanche, l'utilisation de techniques de génération de données en ligne atténue efficacement le piratage de l'enseignant. Plus précisément, nous identifions la diversité des données comme le facteur clé pour prévenir le piratage. Dans l'ensemble, nos résultats fournissent une compréhension plus approfondie des avantages et des limites de la distillation pour la construction de LM robustes et efficaces.
La génération automatisée de code gagne en importance dans la programmation informatique intelligente et le déploiement de systèmes. Cependant, les approches actuelles sont souvent confrontées à des défis en termes d'efficacité computationnelle et manquent de mécanismes robustes pour l'analyse de code et la correction d'erreurs. Dans ce travail, nous proposons un nouveau cadre, PyCapsule, avec un pipeline à deux agents simple mais efficace et des modules d'auto-débogage efficaces pour la génération de code Python. PyCapsule présente une inférence de suggestion sophistiquée, une gestion itérative des erreurs et des tests de cas, garantissant une stabilité, une sécurité et une correction élevées lors de la génération. Empiriquement, PyCapsule atteint jusqu'à 5,7 % d'amélioration du taux de réussite sur HumanEval, 10,3 % sur HumanEval-ET, et 24,4 % sur BigCodeBench par rapport aux méthodes de pointe. Nous observons également une diminution du taux de réussite normalisé avec plus de tentatives d'auto-débogage, potentiellement affectée par des retours d'erreurs limités et bruyants. PyCapsule démontre des impacts plus larges sur l'avancement de la génération de code légère et efficace pour les systèmes d'intelligence artificielle.
Les grands modèles de langage (LLMs) ont obtenu des gains de performance significatifs en augmentant la taille des modèles et/ou des données. Cependant, des preuves récentes suggèrent des rendements décroissants de telles approches, ce qui motive à augmenter la puissance de calcul allouée au moment de l'inférence. Les méthodes existantes d'ajustement au moment de l'inférence, généralement basées sur des modèles de récompense, considèrent la tâche comme un problème de recherche, ce qui les rend vulnérables aux manipulations de récompense dues aux erreurs d'approximation des modèles de récompense. Dans cet article, nous considérons plutôt l'ajustement au moment de l'inférence comme une tâche d'inférence probabiliste et utilisons des techniques basées sur l'échantillonnage pour explorer l'ensemble typique de la distribution d'états d'un modèle d'espace d'états avec une vraisemblance approximative, plutôt que d'optimiser directement pour son mode. Nous proposons une nouvelle approche d'ajustement au moment de l'inférence en adaptant des méthodes de Monte Carlo basées sur les particules à cette tâche. Notre évaluation empirique démontre que nos méthodes ont un taux d'ajustement 4 à 16 fois supérieur à celui de nos homologues de recherche déterministes sur diverses tâches complexes de raisonnement mathématique. En utilisant notre approche, nous montrons que Qwen2.5-Math-1.5B-Instruct peut dépasser la précision de GPT-4o en seulement 4 itérations, tandis que Qwen2.5-Math-7B-Instruct atteint une précision de niveau o1 en seulement 32 itérations. Notre travail présente non seulement une méthode efficace d'ajustement au moment de l'inférence, mais relie également la riche littérature en inférence probabiliste à l'ajustement au moment de l'inférence des LLMs pour développer des algorithmes plus robustes dans les travaux futurs. Le code et des informations supplémentaires sont disponibles sur https://probabilistic-inference-scaling.github.io.
Les grands modèles de langage (LLM) ont connu un développement rapide ces dernières années, révolutionnant diverses applications et améliorant considérablement la commodité et la productivité. Cependant, aux côtés de leurs capacités impressionnantes, des préoccupations éthiques et de nouveaux types d'attaques, tels que le jailbreaking, ont émergé. Alors que la plupart des techniques de déclenchement se concentrent sur l'optimisation des entrées adverses pour des cas individuels, ce qui entraîne des coûts de calcul plus élevés lors du traitement de grands ensembles de données. Moins de recherches se sont penchées sur le cadre plus général de l'entraînement d'un attaquant universel capable de se transférer à des tâches inconnues. Dans cet article, nous présentons JUMP, une méthode basée sur des invites conçue pour jailbreaker les LLM en utilisant des multi-prompts universels. Nous adaptons également notre approche pour la défense, que nous appelons DUMP. Les résultats expérimentaux démontrent que notre méthode d'optimisation des multi-prompts universels surpasse les techniques existantes.
La fusion de modèles, une méthode qui combine les paramètres et les embeddings de plusieurs grands modèles de langage fine-tunés (LLM), offre une approche prometteuse pour améliorer les performances du modèle sur diverses tâches tout en maintenant l'efficacité computationnelle. Cet article présente la Fusion Informée par l'Activation (AIM), une technique qui intègre les informations de l'espace d'activation des LLM dans le processus de fusion pour améliorer les performances et la robustesse. AIM est conçu comme une solution flexible et complémentaire applicable à toute méthode de fusion existante. Il vise à préserver les poids critiques du modèle de base, s'inspirant des principes de l'apprentissage continu (CL) et de la compression de modèle. En utilisant un ensemble de calibration agnostique à la tâche, AIM priorise sélectivement les poids essentiels lors de la fusion. Nous démontrons empiriquement qu'AIM améliore significativement les performances des modèles fusionnés sur plusieurs benchmarks. Nos résultats suggèrent que la prise en compte des informations de l'espace d'activation peut apporter des avancées substantielles dans les stratégies de fusion de modèles pour les LLM, avec une augmentation des performances des benchmarks allant jusqu'à 40\%.
La Génération Augmentée par Récupération (RAG) permet aux Grands Modèles de Langage (LLMs) de produire des réponses ancrées en exploitant des bases de connaissances externes sans modifier les paramètres du modèle. Bien que l'absence d'ajustement des poids empêche les fuites via les paramètres du modèle, cela introduit le risque que des adversaires d'inférence exploitent les documents récupérés dans le contexte du modèle. Les méthodes existantes d'inférence d'appartenance et d'extraction de données reposent souvent sur le jailbreaking ou des requêtes artificielles soigneusement élaborées, qui peuvent être facilement détectées ou contrecarrées avec des techniques de réécriture de requêtes courantes dans les systèmes RAG. Dans ce travail, nous présentons l'Attaque par Interrogation (IA), une technique d'inférence d'appartenance ciblant les documents dans le référentiel de données RAG. En élaborant des requêtes de texte naturel qui ne peuvent être répondues qu'en présence du document cible, notre approche démontre une inférence réussie avec seulement 30 requêtes tout en restant furtive ; les détecteurs directs identifient les sollicitations adverses des méthodes existantes jusqu'à ~76 fois plus fréquemment que celles générées par notre attaque. Nous observons une amélioration de 2 fois du TPR@1%FPR par rapport aux attaques d'inférence antérieures à travers diverses configurations RAG, le tout pour un coût inférieur à 0,02 $ par inférence de document.
L'évaluation de l'applicabilité réelle des grands modèles de langage (GML) fournit des informations précieuses pour leur développement et leur utilisation dans les tâches de développement logiciel. Les benchmarks existants se concentrent souvent sur des problèmes de codage autonomes ou des bibliothèques spécifiques, en négligeant les scénarios basés sur des projets multi-fichiers et en manquant d'une évaluation rigoureuse de la cohérence. Le benchmark HackerRank-ASTRA introduit des problèmes de codage basés sur des projets qui reflètent des scénarios du monde réel. Il évalue la cohérence du modèle à travers 32 exécutions (k = 32) et l'écart type médian tout en incorporant une analyse au niveau de la taxonomie pour évaluer les capacités de sous-compétences. Les évaluations initiales sur 65 problèmes montrent que les trois meilleurs modèles - o1, o1-preview et Claude-3.5-Sonnet-1022 - ont obtenu des scores moyens comparables de 75 %, sans différences statistiquement significatives en termes de performances. Notamment, Claude-3.5-Sonnet-1022 a démontré la plus grande cohérence à travers les problèmes, avec une faible variabilité (SD = 0.0497), ce qui était statistiquement significatif par rapport aux autres modèles, soulignant sa fiabilité pour les tâches de développement logiciel du monde réel.