papers.description
Bien que le RLVR soit devenu un composant essentiel pour développer des compétences de raisonnement avancées dans les LLM, les études contemporaines ont documenté des plateaux d’apprentissage qui apparaissent après des milliers d’étapes d’optimisation, montrant des diminutions notables des gains de performance malgré un investissement computationnel accru. Cette limitation découle des schémas d’exploration parcimonieux inhérents aux pratiques actuelles du RLVR, où les modèles s’appuient sur des déploiements limités qui manquent souvent des chemins de raisonnement critiques et ne parviennent pas à couvrir systématiquement l’espace des solutions. Nous présentons DeepSearch, un cadre qui intègre directement la recherche arborescente de Monte Carlo dans l’entraînement du RLVR. Contrairement aux méthodes existantes qui utilisent la recherche arborescente uniquement lors de l’inférence, DeepSearch intègre une recherche structurée dans la boucle d’entraînement, permettant une exploration systématique et une attribution fine des crédits à travers les étapes de raisonnement. Grâce à l’exploration pendant l’entraînement, DeepSearch résout le goulot d’étranglement fondamental de l’exploration insuffisante, qui entraîne une diminution des améliorations de performance au fil des étapes d’entraînement prolongées. Nos contributions incluent : (1) une stratégie de sélection de frontière globale qui priorise les nœuds prometteurs dans l’arbre de recherche, (2) une sélection guidée par l’entropie qui identifie les chemins confiants pour la supervision, et (3) un entraînement adaptatif avec tampon de relecture et mise en cache des solutions pour l’efficacité. Les expériences sur des benchmarks de raisonnement mathématique montrent que DeepSearch atteint une précision moyenne de 62,95 % et établit un nouvel état de l’art pour les modèles de raisonnement de 1,5 milliard de paramètres, en utilisant 5,7 fois moins d’heures GPU que les approches d’entraînement prolongé. Ces résultats soulignent l’importance d’une exploration stratégique par rapport à un passage à l’échelle brutale et démontrent le potentiel de l’innovation algorithmique pour faire progresser les méthodologies du RLVR. DeepSearch ouvre une nouvelle direction pour l’extension des capacités de raisonnement grâce à une recherche systématique plutôt qu’à un calcul prolongé.
Le paradigme d'entraînement des grands modèles de langage (LLMs) évolue des ensembles de données statiques vers un apprentissage basé sur l'expérience, où les agents acquièrent des compétences via des interactions avec des environnements complexes. Pour faciliter cette transition, nous introduisons GEM (General Experience Maker), un simulateur d'environnement open-source conçu pour l'ère des LLMs. Similaire à OpenAI-Gym pour l'apprentissage par renforcement traditionnel (RL), GEM fournit un cadre standardisé pour l'interface environnement-agent, incluant une exécution vectorisée asynchrone pour un débit élevé, et des wrappers flexibles pour une extensibilité aisée. GEM propose également une suite variée d'environnements, des outils intégrés robustes, et des scripts d'exemple en fichier unique démontrant l'utilisation de GEM avec cinq frameworks populaires d'entraînement RL. Parallèlement, nous fournissons un ensemble de références sur 24 environnements utilisant REINFORCE avec Normalisation par Lots de Retours (ReBN), qui — contrairement à GRPO — est compatible avec le cadre complet du RL de récompenses denses par tour et offre une meilleure attribution de crédit. Nous menons en outre un benchmarking comparatif de PPO, GRPO et REINFORCE dans des configurations à un tour et à plusieurs tours en utilisant GEM pour éclairer les conceptions algorithmiques. Enfin, GEM fonctionne également comme un kit d'évaluation pratique en plus d'un environnement d'entraînement. Nous espérons que ce cadre pourra accélérer les futures recherches sur les LLMs agentiques.
La quantification post-entraînement est devenue la stratégie la plus largement utilisée pour déployer des modèles de langage de grande taille en faible précision. Cependant, les méthodes actuelles montrent une dégradation de la perplexité pour des largeurs de bits inférieures ou égales à 4, en partie parce que la représentation des valeurs aberrantes entraîne des problèmes de précision dans les paramètres qui partagent les mêmes échelles que ces valeurs aberrantes. Ce problème est particulièrement prononcé pour les méthodes de quantification uniforme sans calibration. Nous introduisons SINQ pour améliorer les quantificateurs post-entraînement existants avec un facteur d'échelle supplémentaire sur le second axe et un algorithme rapide de type Sinkhorn-Knopp qui trouve des échelles pour normaliser les variances par ligne et par colonne, minimisant ainsi une nouvelle cible proxy par matrice pour la quantification : le déséquilibre matriciel. Notre méthode n'a pas d'interactions entre les couches et peut être trivialement appliquée à de nouvelles architectures pour quantifier n'importe quelle couche linéaire. Nous évaluons notre méthode sur la famille de modèles Qwen3 et DeepSeek-V2.5. SINQ améliore significativement la perplexité de WikiText2 et C4 par rapport aux bases de quantification uniforme non calibrées et peut être encore améliorée en la combinant avec la calibration et des niveaux de quantification non uniformes. Le code pour reproduire les résultats de ce travail et pour quantifier facilement des modèles en utilisant SINQ est disponible à l'adresse https://github.com/huawei-csl/SINQ.
Les modèles Vision-Langage-Action (VLA) permettent une prise de décision incarnée, mais reposent fortement sur l'apprentissage par imitation, ce qui entraîne des erreurs cumulatives et une faible robustesse face aux changements de distribution. L'apprentissage par renforcement (RL) peut atténuer ces problèmes, mais nécessite généralement des interactions coûteuses dans le monde réel ou souffre des écarts entre simulation et réalité. Nous présentons VLA-RFT, un cadre de réglage fin par renforcement qui exploite un modèle du monde basé sur les données comme simulateur contrôlable. Entraîné à partir de données d'interaction réelles, le simulateur prédit les observations visuelles futures en fonction des actions, permettant des déploiements de politiques avec des récompenses denses, au niveau de la trajectoire, dérivées de références d'atteinte d'objectifs. Cette conception fournit un signal d'apprentissage efficace et aligné sur les actions, réduisant considérablement les besoins en échantillons. Avec moins de 400 étapes de réglage fin, VLA-RFT surpasse les bases de référence supervisées et atteint une efficacité supérieure à celle du RL basé sur simulateur. De plus, il démontre une forte robustesse dans des conditions perturbées, maintenant une exécution stable des tâches. Nos résultats établissent le réglage fin par renforcement basé sur un modèle du monde comme un paradigme pratique de post-formation pour améliorer la généralisation et la robustesse des modèles VLA. Pour plus de détails, veuillez consulter https://vla-rft.github.io/.
Les grands modèles de langage (LLMs) peuvent s'auto-améliorer grâce à l'apprentissage par renforcement, où ils génèrent des trajectoires pour explorer et découvrir de meilleures solutions. Cependant, ce processus d'exploration est coûteux en calcul, contraignant souvent les méthodes actuelles à allouer des budgets d'exploration limités à chaque tâche. Cette allocation uniforme crée des cas problématiques : les tâches faciles réussissent systématiquement tandis que les tâches difficiles échouent tout aussi systématiquement, produisant tous deux des gradients nuls lors des mises à jour de l'entraînement pour l'Optimisation de Politique Relative par Groupe (GRPO) largement utilisée. Nous abordons ce problème sous l'angle de l'allocation du budget d'exploration. En considérant l'exploration de chaque tâche comme un "objet" ayant une "valeur" et un "coût" distincts, nous établissons un lien avec le problème classique du sac à dos. Cette formulation nous permet de dériver une règle d'affectation optimale qui répartit les ressources de manière adaptative en fonction de l'état actuel d'apprentissage du modèle. Appliquée à la GRPO, notre méthode augmente le ratio effectif de gradients de politique non nuls de 20 à 40 % pendant l'entraînement. Agissant comme un "repas gratuit" computationnel, notre approche permet de réallouer les budgets d'exploration des tâches où l'apprentissage est saturé vers celles où il est le plus impactant. Cela permet d'attribuer des budgets significativement plus importants (par exemple, 93 déploiements) à des problèmes particulièrement complexes, ce qui serait prohibitif en termes de calcul avec une allocation uniforme. Ces améliorations se traduisent par des gains significatifs sur des benchmarks de raisonnement mathématique, avec des améliorations moyennes de 2 à 4 points et des gains maximaux de 9 points sur des tâches spécifiques. Il est à noter qu'atteindre des performances comparables avec une allocation homogène traditionnelle nécessiterait environ deux fois plus de ressources computationnelles.
Alors que les modèles génératifs récents progressent dans la synthèse de vidéos en espace pixel, ils restent limités dans la production de vidéos éducatives professionnelles, qui exigent des connaissances disciplinaires, des structures visuelles précises et des transitions cohérentes, limitant ainsi leur applicabilité dans des scénarios éducatifs. Intuitivement, de telles exigences sont mieux abordées par la manipulation d'un environnement rendu, qui peut être explicitement contrôlé via des commandes logiques (par exemple, du code). Dans ce travail, nous proposons Code2Video, un framework centré sur le code pour générer des vidéos éducatives via du code Python exécutable. Le framework comprend trois agents collaboratifs : (i) le Planificateur, qui structure le contenu du cours en flux temporellement cohérents et prépare les ressources visuelles correspondantes ; (ii) le Codeur, qui convertit les instructions structurées en codes Python exécutables tout en intégrant une correction automatique guidée par la portée pour améliorer l'efficacité ; et (iii) le Critique, qui exploite des modèles vision-langage (VLM) avec des invites d'ancrage visuel pour affiner la disposition spatiale et assurer la clarté. Pour soutenir une évaluation systématique, nous construisons MMMC, un benchmark de vidéos éducatives spécifiques à une discipline, produites professionnellement. Nous évaluons MMMC selon diverses dimensions, y compris les scores esthétiques VLM-comme-Juge, l'efficacité du code, et en particulier TeachQuiz, une nouvelle métrique de bout en bout qui quantifie dans quelle mesure un VLM, après désapprentissage, peut récupérer des connaissances en regardant les vidéos générées. Nos résultats démontrent le potentiel de Code2Video comme une approche scalable, interprétable et contrôlable, obtenant une amélioration de 40 % par rapport à la génération directe de code et produisant des vidéos comparables à des tutoriels conçus par des humains. Le code et les jeux de données sont disponibles à l'adresse https://github.com/showlab/Code2Video.
La configuration de l'environnement – le processus de paramétrage du système pour qu'il fonctionne avec un projet logiciel spécifique – représente un défi persistant en génie logiciel (SE). Les méthodes automatisées de configuration de l'environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires sans effort manuel. Cela aide également les chercheurs en SE à mettre à l'échelle des benchmarks basés sur l'exécution. Cependant, des études récentes révèlent que même les modèles de langage de pointe (LLMs) obtiennent un succès limité dans l'automatisation de cette tâche. Pour surmonter cette limitation, nous ajustons un modèle spécialisé pour la configuration de l'environnement. Nous combinons un fine-tuning supervisé pour générer des scripts Bash corrects et un apprentissage par renforcement avec récompenses vérifiables (RLVR) pour l'adapter à la tâche de configuration de l'environnement. Sur EnvBench-Python, notre méthode permet à Qwen3-8B (un modèle exécutable sur du matériel grand public) de performer au même niveau que des modèles plus volumineux – Qwen3-32B et GPT-4o. Le code d'entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.
Les grands modèles de langage (LLMs) sont de plus en plus déployés en tant qu'agents dans des environnements dynamiques et réels, où la réussite nécessite à la fois un raisonnement et une utilisation efficace d'outils. Un défi central pour les tâches agentiques est l'augmentation de la longueur du contexte, car les agents doivent accumuler de longues histoires d'actions et d'observations. Cette expansion augmente les coûts et réduit l'efficacité dans les tâches à long horizon, mais les travaux antérieurs sur la compression du contexte se sont principalement concentrés sur des tâches à une seule étape ou des applications étroites. Nous introduisons l'Optimisation du Contexte Agentique (ACON), un cadre unifié qui compresse de manière optimale à la fois les observations de l'environnement et les historiques d'interactions en condensations concises mais informatives. ACON exploite l'optimisation des directives de compression dans l'espace du langage naturel : étant donné des trajectoires appariées où le contexte complet réussit mais le contexte compressé échoue, des LLMs compétents analysent les causes de l'échec, et la directive de compression est mise à jour en conséquence. De plus, nous proposons de distiller le compresseur LLM optimisé en modèles plus petits pour réduire la surcharge du module supplémentaire. Les expériences sur AppWorld, OfficeBench et Multi-objective QA montrent qu'ACON réduit l'utilisation de la mémoire de 26 à 54 % (tokens de pointe) tout en préservant largement la performance des tâches, conserve plus de 95 % de précision lorsqu'il est distillé en compresseurs plus petits, et améliore les LLMs plus petits en tant qu'agents à long horizon avec une amélioration des performances allant jusqu'à 46 %.
L'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) est un algorithme d'apprentissage par renforcement de premier plan pour le post-entraînement des modèles de langage de grande taille (Large Language Models, LLMs). Il est communément admis que GRPO nécessite une taille de groupe importante pour garantir un entraînement stable via une estimation statistique précise, ce qui entraîne un coût computationnel substantiel. Dans ce travail, nous remettons en question cette hypothèse en reformulant GRPO comme une forme d'apprentissage contrastif, ce qui révèle un lien fondamental avec l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO). Motivés par le succès empirique de DPO, nous étudions le cas minimal à deux déploiements (2-GRPO), une configuration précédemment jugée irréalisable. Nous fournissons une analyse théorique rigoureuse pour valider 2-GRPO et démontrons empiriquement qu'il atteint des performances comparables à celles de 16-GRPO, tout en utilisant seulement 1/8 des déploiements et en réduisant le temps d'entraînement de plus de 70 %.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un élément clé pour débloquer des capacités de raisonnement complexe dans les grands modèles de langage. Les travaux récents sur ProRL ont montré des résultats prometteurs en augmentant le nombre d'étapes d'entraînement pour intensifier l'apprentissage par renforcement. Cependant, les performances plafonnent après des milliers d'étapes, avec des rendements décroissants évidents lorsqu'on alloue davantage de calculs à l'entraînement supplémentaire. Dans ce travail, nous explorons un paradigme complémentaire pour intensifier l'apprentissage par renforcement, BroRL, qui consiste à augmenter le nombre de déploiements par exemple à des centaines pour élargir exhaustivement l'exploration, ce qui permet d'obtenir des gains de performance continus au-delà du point de saturation observé dans ProRL lors de l'augmentation du nombre d'étapes d'entraînement. Notre approche est motivée par une analyse basée sur une équation de bilan de masse, nous permettant de caractériser le taux de changement de la masse de probabilité pour les tokens corrects et incorrects pendant le processus de renforcement. Nous montrons que, sous l'hypothèse d'un apprentissage par renforcement en une étape, les tokens échantillonnés lors des déploiements contribuent toujours à l'expansion de la masse correcte, tandis que les tokens non échantillonnés en dehors des déploiements peuvent entraîner des gains ou des pertes selon leur distribution et le bilan net des récompenses. De manière cruciale, à mesure que le nombre de déploiements par exemple \( N \) augmente, l'effet des termes non échantillonnés diminue, assurant une expansion globale de la masse correcte. Pour valider notre analyse théorique, nous menons des simulations dans des conditions plus souples et constatons qu'une taille de déploiement \( N \) suffisamment grande—correspondant à une exploration ample—garantit une augmentation de la masse de probabilité de tous les tokens corrects. Empiriquement, BroRL relance des modèles saturés après 3 000 étapes d'entraînement ProRL et démontre une amélioration continue et robuste, atteignant des résultats de pointe pour le modèle de 1,5 milliard de paramètres sur divers benchmarks.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans les tâches de raisonnement complexe lorsqu'ils sont équipés d'outils externes. Cependant, les cadres actuels reposent principalement sur un traitement séquentiel, ce qui entraîne une exécution inefficace, en particulier pour les tâches nécessitant une interaction intensive avec des outils. Cet article présente Flash-Searcher, un nouveau cadre de raisonnement d'agents parallèles qui réinvente fondamentalement le paradigme d'exécution, passant de chaînes séquentielles à des graphes acycliques dirigés (DAGs). Flash-Searcher décompose les tâches complexes en sous-tâches avec des dépendances explicites, permettant l'exécution concurrente de chemins de raisonnement indépendants tout en respectant les contraintes logiques. Grâce à l'optimisation dynamique des workflows, notre cadre affine continuellement le graphe d'exécution en fonction des résultats intermédiaires, intégrant efficacement un module de synthèse. Des évaluations approfondies sur plusieurs benchmarks montrent que Flash-Searcher surpasse systématiquement les approches existantes. Plus précisément, il atteint une précision de 67,7 % sur BrowseComp et de 83 % sur xbench-DeepSearch, tout en réduisant les étapes d'exécution des agents jusqu'à 35 % par rapport aux cadres actuels. De plus, lorsque ce pipeline de raisonnement parallèle est distillé en modèles uniques, nous observons des gains de performance substantiels sur diverses architectures de base, soulignant la généralisabilité de notre méthodologie. Notre travail représente ainsi une avancée significative dans la conception d'architectures d'agents, offrant un paradigme plus évolutif et efficace pour les tâches de raisonnement complexe.
Les études existantes sur les méthodes d'atténuation des biais pour les grands modèles de langage (LLMs) utilisent des bases de référence et des métriques variées pour évaluer les performances de débiaisage, ce qui entraîne des comparaisons incohérentes entre elles. De plus, leurs évaluations reposent principalement sur la comparaison des probabilités des LLMs dans des contextes biaisés et non biaisés, ce qui ignore l'écart entre ces évaluations et les cas d'utilisation réels où les utilisateurs interagissent avec les LLMs en lisant les réponses du modèle et s'attendent à des sorties équitables et sûres plutôt qu'aux probabilités des LLMs. Pour permettre une évaluation cohérente entre les méthodes de débiaisage et combler cet écart, nous introduisons BiasFreeBench, un benchmark empirique qui compare de manière exhaustive huit techniques principales d'atténuation des biais (couvrant quatre méthodes basées sur l'invite et quatre méthodes basées sur l'entraînement) dans deux scénarios de test (QCM et Q&A ouvert à tours multiples) en réorganisant les ensembles de données existants dans un cadre unifié de requête-réponse. Nous introduisons également une métrique au niveau de la réponse, le Score Sans Biais, pour mesurer dans quelle mesure les réponses des LLMs sont équitables, sûres et anti-stéréotypées. Les performances de débiaisage sont systématiquement comparées et analysées selon plusieurs dimensions clés : le paradigme d'invite vs. entraînement, la taille du modèle, et la généralisation de différentes stratégies d'entraînement à des types de biais non vus. Nous rendrons notre benchmark public, dans le but d'établir un banc d'essai unifié pour la recherche sur l'atténuation des biais.
Les modèles de langage deviennent de plus en plus performants, mais échouent encore à une tâche apparemment simple : la multiplication de nombres à plusieurs chiffres. Dans ce travail, nous étudions pourquoi, en rétro-ingéniérant un modèle qui apprend avec succès la multiplication via une chaîne de pensée implicite, et rapportons trois découvertes : (1) Preuve de structure à long terme : les attributions de logits et les sondes linéaires indiquent que le modèle encode les dépendances à long terme nécessaires pour la multiplication multi-chiffres. (2) Mécanisme : le modèle encode les dépendances à long terme en utilisant l'attention pour construire un graphe acyclique dirigé afin de « mettre en cache » et de « récupérer » les produits partiels par paires. (3) Géométrie : le modèle implémente les produits partiels dans les têtes d'attention en formant des sommes de Minkowski entre des paires de chiffres, et les chiffres sont représentés à l'aide d'une base de Fourier, deux représentations intuitives et efficaces que le modèle standard de fine-tuning ne possède pas. Avec ces insights, nous revisitons la dynamique d'apprentissage du fine-tuning standard et constatons que le modèle converge vers un optimum local qui manque des dépendances à long terme requises. Nous validons davantage cette compréhension en introduisant une perte auxiliaire qui prédit la « somme courante » via une sonde de régression linéaire, fournissant un biais inductif qui permet au modèle d'apprendre avec succès la multiplication multi-chiffres. En résumé, en rétro-ingéniérant les mécanismes d'un modèle à chaîne de pensée implicite, nous mettons en lumière un écueil pour l'apprentissage des dépendances à long terme dans les Transformers et fournissons un exemple de la manière dont le bon biais inductif peut résoudre ce problème.
Récemment, nous avons assisté à des progrès significatifs dans l'édition d'images guidée par des instructions en langage naturel. Plusieurs modèles propriétaires tels que GPT-Image-1, Seedream et Google-Nano-Banana ont montré des avancées très prometteuses. Cependant, les modèles open source restent à la traîne. Le principal goulot d'étranglement réside dans l'absence d'un modèle de récompense fiable pour augmenter la quantité de données d'entraînement synthétiques de haute qualité. Pour résoudre ce problème critique, nous avons développé \mname, entraîné avec notre nouveau jeu de données à grande échelle de préférences humaines, méticuleusement annoté par des experts formés suivant un protocole rigoureux contenant plus de 200 000 paires de préférences. \mname démontre une supériorité dans l'alignement avec les préférences humaines pour les tâches d'édition d'images guidées par des instructions. Les expériences montrent que \mname atteint une corrélation humaine de pointe sur des benchmarks établis tels que GenAI-Bench, AURORA-Bench, ImagenHub et notre nouveau \benchname, surpassant une large gamme de modèles VLM-as-judge. De plus, nous utilisons \mname pour sélectionner un sous-ensemble de haute qualité à partir du jeu de données bruyant existant ShareGPT-4o-Image. Nous entraînons Step1X-Edit sur ce sous-ensemble sélectionné, ce qui montre une amélioration significative par rapport à l'entraînement sur l'ensemble complet. Cela démontre la capacité de \mname à servir de modèle de récompense pour augmenter la quantité de données d'entraînement de haute qualité pour l'édition d'images. Par ailleurs, son fort alignement suggère un potentiel pour des applications avancées telles que l'optimisation post-entraînement basée sur l'apprentissage par renforcement et la mise à l'échelle au moment du test des modèles d'édition d'images. \mname, ainsi que son jeu de données d'entraînement, seront publiés pour aider la communauté à construire davantage de jeux de données d'entraînement de haute qualité pour l'édition d'images.
La conception et l'optimisation de circuits quantiques spécifiques à une tâche sont essentielles pour exploiter les avantages de l'informatique quantique. La génération récente de circuits quantiques basée sur des modèles de langage de grande taille (LLM) est apparue comme une solution automatique prometteuse. Cependant, les défis fondamentaux restent non résolus : (i) les portes quantiques paramétrées nécessitent des valeurs numériques précises pour une performance optimale, qui dépendent également de multiples aspects, notamment le nombre de portes quantiques, leurs paramètres et la structure/profondeur des circuits. (ii) Les LLM génèrent souvent des circuits quantiques de faible qualité ou incorrects en raison du manque de connaissances spécifiques au domaine quantique. Nous proposons QUASAR, un cadre d'apprentissage par renforcement (RL) agentique pour la génération et l'optimisation de circuits quantiques basé sur des LLM augmentés d'outils. Pour aligner le LLM avec des connaissances spécifiques au quantique et améliorer les circuits quantiques générés, QUASAR conçoit (i) une approche de vérification de circuits quantiques avec des simulateurs quantiques externes et (ii) un mécanisme de récompense hiérarchique sophistiqué dans l'entraînement RL. Une évaluation approfondie montre des améliorations à la fois dans la performance syntaxique et sémantique des circuits quantiques générés. En augmentant un LLM de 4B, QUASAR a atteint une validité de 99,31 % dans Pass@1 et de 100 % dans Pass@10, surpassant les LLM industriels GPT-4o, GPT-5 et DeepSeek-V3 ainsi que plusieurs bases de référence utilisant uniquement un ajustement fin supervisé (SFT) ou uniquement du RL.
L'obtention de générations de haute qualité dans les LLM modernes a été largement abordée comme un problème de sélection : identifier une seule génération gagnante parmi un pool diversifié de N échantillons, le Best-of-N (BoN). Cependant, cette approche est intrinsèquement à somme nulle, écartant des informations diverses et potentiellement utiles du pool. Nous explorons plutôt une configuration collaborative, où tous les candidats peuvent potentiellement contribuer à la génération finale gagnante. À cette fin, nous proposons Fusion-of-N (FusioN) : une méthode qui utilise un juge LLM général pour synthétiser les éléments les plus informatifs de chaque échantillon en une seule réponse finale. Nous comparons FusioN à BoN dans deux contextes, (i) le scaling au moment du test, où nous échantillonnons et agrégeons à partir d'un seul modèle au moment du test, et (ii) la génération de données synthétiques, où nous fusionnons des échantillons provenant d'un pool d'enseignants diversifiés pour améliorer un modèle étudiant. Nous évaluons de manière approfondie ces deux configurations sur 11 langues, 3 tâches variées et différentes échelles de modèles. À travers les benchmarks, FusioN surpasse systématiquement BoN, démontrant sa polyvalence et sa robustesse à la fois dans le scaling au moment du test et dans les gains en aval issus de la génération de données synthétiques. Nous effectuons également une analyse approfondie de FusioN, qui révèle des forces et une robustesse surprenantes dans des contextes difficiles. Ces résultats montrent que nous devons repenser notre manière d'évaluer et d'utiliser les générations de LLM, en passant d'une mesure monolithique de la qualité à une approche qui embrasse leur nature polylithique. Ce changement nous permet d'intégrer des forces diverses, de libérer un potentiel latent et d'atteindre des améliorations qui étaient auparavant inaccessibles par la seule sélection.
Les récents progrès dans les capacités de raisonnement des grands modèles de langage (LLMs) sont largement motivés par l'apprentissage par renforcement (RL), mais la dynamique sous-jacente des paramètres pendant l'entraînement RL reste mal comprise. Ce travail identifie deux propriétés fondamentales des mises à jour de paramètres induites par le RL dans les LLMs : (1) la Dominance de Rang-1, où le sous-espace singulier supérieur de la matrice de mise à jour des paramètres détermine presque entièrement les améliorations du raisonnement, récupérant plus de 99 % des gains de performance ; et (2) la Dynamique Linéaire de Rang-1, où ce sous-espace dominant évolue linéairement tout au long de l'entraînement, permettant une prédiction précise à partir des premiers points de contrôle. Des expériences approfondies sur 8 LLMs et 7 algorithmes valident la généralisabilité de ces propriétés. Plus important encore, sur la base de ces découvertes, nous proposons AlphaRL, un cadre d'accélération plug-in qui extrapole la mise à jour finale des paramètres en utilisant une courte fenêtre d'entraînement précoce, atteignant jusqu'à 2,5 fois d'accélération tout en conservant plus de 96 % de la performance de raisonnement sans modules supplémentaires ou réglage d'hyperparamètres. Cela positionne notre découverte comme un outil polyvalent et pratique pour le RL à grande échelle, ouvrant une voie vers un paradigme d'entraînement des LLMs fondé sur des principes, interprétable et efficace.
Le fine-tuning supervisé (SFT) est l'approche standard pour l'ajustement post-entraînement des grands modèles de langage (LLMs), mais il montre souvent une généralisation limitée. Nous attribuons cette limitation à son objectif d'entraînement par défaut : la log-vraisemblance négative (NLL). Bien que la NLL soit classiquement optimale lors d'un entraînement à partir de zéro, l'ajustement post-entraînement opère dans un paradigme différent et pourrait violer ses hypothèses d'optimalité, où les modèles encodent déjà des a priori pertinents pour la tâche et la supervision peut être longue et bruyante. À cette fin, nous étudions une famille générale d'objectifs basés sur les probabilités et caractérisons leur efficacité dans différentes conditions. À travers des expériences complètes et des études d'ablation approfondies sur 7 architectures de modèles, 14 benchmarks et 3 domaines, nous mettons en évidence une dimension critique qui régit le comportement des objectifs : le continuum de capacité du modèle. Près de l'extrémité où le modèle est fort, les objectifs favorisant les a priori qui pondèrent faiblement les tokens de faible probabilité (par exemple, -p, -p^{10}, variantes seuillées) surpassent systématiquement la NLL ; vers l'extrémité où le modèle est faible, la NLL domine ; entre les deux, aucun objectif unique ne prévaut. Notre analyse théorique éclaire davantage comment les objectifs échangent leurs positions le long du continuum, fournissant une base principielle pour adapter les objectifs à la capacité du modèle. Notre code est disponible à l'adresse https://github.com/GaotangLi/Beyond-Log-Likelihood.
Les agents d'interface utilisateur graphique (GUI) basés sur des modèles vision-langage ont émergé comme une approche prometteuse pour automatiser les workflows homme-machine. Cependant, ils sont également confrontés au défi de l'inefficacité, car ils traitent de longues séquences de captures d'écran haute résolution et résolvent des tâches à long terme, rendant l'inférence lente, coûteuse et limitée par la mémoire. Bien que la mise en cache clé-valeur (KV) puisse atténuer ce problème, le stockage du cache complet est prohibitif dans des contextes riches en images. Les méthodes existantes de compression de cache sont sous-optimales car elles ne tiennent pas compte de la redondance spatiale et temporelle des GUIs. Dans ce travail, nous analysons d'abord les modèles d'attention dans les charges de travail des agents GUI et constatons que, contrairement aux images naturelles, la parcimonie d'attention est uniformément élevée dans toutes les couches du transformateur. Cette observation motive une stratégie simple d'allocation de budget uniforme, qui surpasse empiriquement des schémas plus complexes variant selon les couches. Sur cette base, nous introduisons GUI-KV, une méthode de compression de cache KV plug-and-play pour les agents GUI qui ne nécessite aucun réentraînement. GUI-KV combine deux techniques novatrices : (i) le guidage par saillance spatiale, qui augmente les scores d'attention avec la norme L2 des états cachés pour mieux préserver les tokens visuels sémantiquement importants, et (ii) le scoring de redondance temporelle, qui projette les clés des images précédentes sur le sous-espace des clés de l'image actuelle pour élaguer de manière préférentielle l'historique redondant. Sur les benchmarks standard d'agents GUI et les modèles, GUI-KV surpasse les baselines concurrentes de compression KV, correspondant étroitement à la précision du cache complet avec des budgets modestes. Notamment, dans un cadre de 5 captures d'écran sur le benchmark AgentNetBench, GUI-KV réduit les FLOPs de décodage de 38,9 % tout en augmentant la précision des étapes de 4,1 % par rapport à la baseline du cache complet. Ces résultats démontrent que l'exploitation des redondances spécifiques aux GUIs permet une performance d'agent efficace et fiable.
Nous présentons MixtureVitae, un corpus de pré-entraînement en libre accès conçu pour minimiser les risques juridiques tout en offrant de solides performances de modèles. MixtureVitae suit une stratégie d’approvisionnement atténuée en risques, combinant des textes du domaine public et sous licence permissive (par exemple, CC-BY/Apache) avec des ajouts à faible risque soigneusement justifiés (par exemple, des travaux gouvernementaux et des sources éligibles au TDM de l’UE), ainsi que des instructions ciblées, des raisonnements et des données synthétiques avec une provenance documentée. Nous détaillons un pipeline transparent et multi-étapes pour le filtrage basé sur les licences, le contrôle de la sécurité et de la qualité, et le mélange adapté aux domaines, et nous publions le jeu de données ainsi que les recettes de curation pour soutenir la recherche reproductible. Dans des expériences contrôlées utilisant le protocole d’entraînement open-sci-ref (architectures fixes à 130M/400M/1,3B/1,7B de paramètres ; budgets d’entraînement de 50B et 300B de tokens), les modèles entraînés sur MixtureVitae surpassent systématiquement d’autres jeux de données permissifs sur une série de benchmarks standards, et dans le cadre 1,7B/300B, ils dépassent FineWeb-Edu et approchent DCLM dans les phases avancées de l’entraînement. Les performances sont particulièrement solides en mathématiques/code et compétitives sur les tâches de questions-réponses. Ces résultats démontrent que des données principalement permissives et atténuées en risques offrent une base pratique et juridiquement sécurisée pour entraîner des LLM performants, réduisant la dépendance au scraping web indiscriminé sans sacrifier la compétitivité. Code : https://github.com/ontocord/mixturevitae
Les LLM (modèles de langage à grande échelle) ne peuvent pas reconnaître de manière fiable les limites de leurs connaissances paramétriques et hallucinent souvent des réponses à des questions hors de ces limites. En revanche, les humains reconnaissent leurs limites et peuvent soit chercher de l'aide externe pour de telles questions, soit s'abstenir de répondre. Dans cet article, nous présentons MASH (Modeling Abstention via Selective Help-seeking), un cadre d'entraînement qui permet d'extraire facilement des abstentions des LLM. Notre idée clé est que toute recherche d'aide externe par un LLM, c'est-à-dire l'utilisation d'outils de recherche, peut servir de proxy pour l'abstention si l'aide externe (la recherche) est pénalisée de manière appropriée tout en récompensant simultanément la précision des réponses. MASH opérationnalise cette idée en utilisant l'apprentissage par renforcement avec une rémunération au coup par recherche. Nous menons des expériences sur trois ensembles de données de questions-réponses à forte intensité de connaissances. Nos résultats montrent que MASH améliore considérablement les performances de recherche sélective d'aide par rapport aux approches de recherche efficaces précédentes ; sur les ensembles de données multi-sauts, MASH améliore la précision des réponses de 7,6 %. De plus, MASH démontre une forte capacité d'abstention prête à l'emploi — il peut distinguer entre les questions sans réponse et les questions auxquelles on peut répondre, et générer sélectivement des réponses pour les questions auxquelles on peut répondre — montrant un comportement analogue aux approches spécialisées d'abstention. Nous soulignons que, contrairement aux méthodes d'abstention précédentes, MASH ne nécessite pas de prédéterminer les limites de connaissances pour construire des données d'entraînement. Au lieu de cela, les abstentions de MASH sont un sous-produit de l'entraînement pour la tâche auxiliaire de recherche sélective d'aide. Globalement, nous montrons que l'entraînement MASH aligne efficacement l'utilisation des outils de recherche avec les connaissances paramétriques, ce qui peut être exploité avec succès pour prendre des décisions d'abstention.
Les modèles de récompense de processus (PRMs) fournissent une supervision au niveau des étapes qui améliore la fiabilité du raisonnement dans les grands modèles de langage. Bien que les PRMs aient été largement étudiés dans les domaines basés sur le texte, leur extension aux modèles vision-langage (VLMs) reste limitée. Les PRMs vision-langage existants (VL-PRMs) s'appuient sur la recherche arborescente Monte Carlo (MCTS) pour la construction des données, ce qui peut souvent produire des signaux de supervision bruyants et limiter la généralisation entre les tâches. Dans ce travail, nous cherchons à éclairer l'espace de conception des VL-PRMs en explorant diverses stratégies pour la construction des ensembles de données, l'entraînement et la mise à l'échelle au moment du test. Premièrement, nous introduisons un cadre de synthèse de données hybride qui combine la MCTS avec les jugements d'un VLM puissant, produisant des étiquettes au niveau des étapes plus précises. Deuxièmement, nous proposons une supervision axée sur la perception, permettant à notre PRM de détecter explicitement les erreurs au stade de l'ancrage visuel du raisonnement. Troisièmement, nous évaluons systématiquement plusieurs stratégies de mise à l'échelle au moment du test, montrant que nos PRMs peuvent guider de manière fiable les VLMs vers des solutions plus précises. Nos expériences couvrant cinq benchmarks multimodaux divers (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista et MathVision) révèlent plusieurs insights clés : (i) les VL-PRMs utilisés comme modèles de récompense de résultat (ORMs) pendant la mise à l'échelle au moment du test (TTS) peuvent surpasser la sélection d'étapes de processus guidée par VL-PRM, (ii) des VL-PRMs plus petits peuvent égaler ou même surpasser des modèles plus grands dans la détection des erreurs de processus, (iii) les VL-PRMs révèlent des capacités de raisonnement latentes dans les architectures de VLM plus puissantes, (iv) la supervision au niveau de la perception conduit à des gains significatifs dans la mise à l'échelle au moment du test, et (v) la performance TTS de différentes politiques s'améliore sur des ensembles de données de raisonnement mathématique avancé malgré l'absence d'entraînement des VL-PRMs sur de tels ensembles de données. Nous espérons que notre travail motivera des recherches supplémentaires et soutiendra l'avancement des VLMs.
La théorie de l'esprit (ToM) – la compréhension des états mentaux d'autrui – est un aspect clé de l'intelligence sociale humaine. Pourtant, les chatbots et les agents sociaux basés sur des modèles de langage (LLM) ne l'intègrent généralement pas. Dans ce travail, nous démontrons que les LLM qui utilisent explicitement la ToM améliorent leurs performances en dialogue, atteignant leurs objectifs plus efficacement. Après avoir montré que le simple fait d'inciter les modèles à générer des états mentaux entre les tours de dialogue apporte déjà un bénéfice significatif, nous introduisons ToMAgent (ToMA), un agent de dialogue centré sur la ToM. ToMA est entraîné en associant la ToM à une anticipation du dialogue pour produire des états mentaux maximisant l'utilité pour atteindre les objectifs du dialogue. Les expériences menées sur le benchmark d'évaluation sociale interactive Sotopia démontrent l'efficacité de notre méthode par rapport à une gamme de références. Une analyse approfondie montre que ToMA adopte des comportements de raisonnement plus stratégiques et orientés vers les objectifs, permettant une adaptation à long terme tout en maintenant de meilleures relations avec ses partenaires. Nos résultats suggèrent une avancée dans l'intégration de la ToM pour la construction d'agents LLM socialement intelligents.
Nous étudions l'extraction de secrets : la découverte de connaissances qu'un système d'intelligence artificielle (IA) possède mais n'exprime pas explicitement. Comme cadre d'expérimentation, nous entraînons trois familles de grands modèles de langage (LLMs) à posséder des connaissances spécifiques qu'ils appliquent en aval mais qu'ils nient connaître lorsqu'ils sont interrogés directement. Par exemple, dans un scénario, nous entraînons un LLM à générer des réponses cohérentes avec la connaissance que l'utilisateur est une femme, tout en niant cette connaissance lorsqu'il est interrogé directement. Nous concevons ensuite diverses techniques d'extraction de secrets en boîte noire et en boîte blanche, et les évaluons en fonction de leur capacité à aider un auditeur de LLM à deviner avec succès les connaissances secrètes. Plusieurs de nos techniques surpassent les approches de base simples. Nos techniques les plus efficaces (performantes dans 2/3 des scénarios) reposent sur des attaques par préremplissage, une technique en boîte noire où le LLM révèle des connaissances secrètes lors de la génération d'une complétion à partir d'un préfixe prédéfini. Dans notre dernier scénario, les techniques en boîte blanche basées sur le logit lens et les autoencodeurs parcimonieux (SAEs) sont les plus efficaces. Nous publions nos modèles et notre code, établissant ainsi un benchmark public pour l'évaluation des méthodes d'extraction de secrets.
Les modèles de langage de grande taille sont de plus en plus déployés comme agents autonomes pour des tâches complexes du monde réel, mais les systèmes existants se concentrent souvent sur des améliorations isolées sans conception unificatrice pour la robustesse et l'adaptabilité. Nous proposons une architecture d'agent généraliste qui intègre trois composants clés : un cadre multi-agent collectif combinant des agents de planification et d'exécution avec un vote de modèles critiques, un système de mémoire hiérarchique couvrant les couches de travail, sémantique et procédurale, et une suite d'outils affinée pour la recherche, l'exécution de code et l'analyse multimodale. Évalué sur un benchmark complet, notre cadre surpasse systématiquement les bases de référence open-source et approche les performances des systèmes propriétaires. Ces résultats démontrent l'importance de l'intégration au niveau du système et mettent en lumière une voie vers des assistants IA évolutifs, résilients et adaptatifs, capables d'opérer dans divers domaines et tâches.
Le Transformer de Diffusion a démontré des capacités remarquables dans la génération de vidéos haute fidélité, produisant des images visuellement cohérentes et riches en détails sur de longues durées. Cependant, les modèles existants de génération vidéo peinent encore à assurer une cohérence des sujets, en raison d'une difficulté inhérente à interpréter les prompts spécifiant des relations spatiales complexes, une logique temporelle et des interactions entre plusieurs sujets. Pour résoudre ce problème, nous proposons BindWeave, un cadre unifié qui traite un large éventail de scénarios allant de cas à sujet unique à des scènes complexes impliquant plusieurs sujets et entités hétérogènes. Pour lier la sémantique complexe des prompts à des sujets visuels concrets, nous introduisons un cadre MLLM-DiT dans lequel un modèle de langage multimodal pré-entraîné effectue un raisonnement intermodal approfondi pour ancrer les entités et démêler les rôles, attributs et interactions, produisant ainsi des états cachés conscients des sujets qui conditionnent le transformer de diffusion pour une génération vidéo haute fidélité et cohérente en termes de sujets. Les expériences sur le benchmark OpenS2V montrent que notre méthode obtient des performances supérieures en matière de cohérence des sujets, de naturel et de pertinence textuelle dans les vidéos générées, surpassant les modèles open-source et commerciaux existants.
L'essor des modèles de langage de grande taille (LLMs) est en train de redéfinir les modèles multimodaux, avec la synthèse vocale comme application majeure. Cependant, les approches existantes sous-exploitent souvent l'intelligence linguistique de ces modèles, ne tirant généralement pas parti de leurs puissantes capacités à suivre des instructions. Cette limitation entrave la capacité du modèle à suivre des instructions textuelles pour une synthèse vocale contrôlable (Text-to-Speech, TTS). Pour remédier à cela, nous proposons un nouveau paradigme inspiré de l'« opérationnalisme », qui découple la compréhension des instructions de la génération de la parole. Nous introduisons BatonVoice, un cadre dans lequel un LLM agit comme un « chef d'orchestre », comprenant les instructions de l'utilisateur et générant un « plan » textuel — des caractéristiques vocales explicites (par exemple, la hauteur, l'énergie). Un modèle TTS distinct, l'« orchestre », génère ensuite la parole à partir de ces caractéristiques. Pour réaliser ce composant, nous développons BatonTTS, un modèle TTS spécifiquement entraîné pour cette tâche. Nos expériences montrent que BatonVoice obtient des performances solides en synthèse vocale contrôlable et émotionnelle, surpassant des références open-source et propriétaires robustes. Notamment, notre approche permet une généralisation cross-lingue remarquable en zero-shot, appliquant avec précision les capacités de contrôle des caractéristiques à des langues non vues lors de l'entraînement postérieur. Cela démontre que l'objectivation de la parole en caractéristiques vocales textuelles peut débloquer plus efficacement l'intelligence linguistique des LLMs.
Les modèles vision-langage (VLMs) excellent dans la compréhension globale des scènes mais peinent à accomplir des tâches de perception fine nécessitant une localisation précise. Cet échec découle d'une inadéquation fondamentale, car la génération de coordonnées numériques exactes constitue une tâche complexe pour les architectures centrées sur le langage. Dans cet article, nous présentons VLM-FO1, un cadre novateur qui surmonte cette limitation en reformulant la perception centrée sur les objets, passant d'un problème fragile de génération de coordonnées à une tâche robuste de récupération de caractéristiques. Notre méthode fonctionne comme un module plug-and-play qui s'intègre à tout VLM pré-entraîné. Elle exploite un Encodeur de Région Fine Hybride (HFRE), doté d'un double encodeur visuel, pour générer des tokens de région puissants, riches en détails sémantiques et spatiaux. Un système de référencement basé sur les tokens permet ensuite au LLM de raisonner de manière fluide et d'ancrer le langage dans ces régions visuelles spécifiques. Les expériences montrent que VLM-FO1 atteint des performances de pointe sur une série diversifiée de benchmarks, démontrant des capacités exceptionnelles en matière d'ancrage d'objets, de compréhension générationnelle des régions et de raisonnement sur les régions visuelles. De manière cruciale, notre stratégie d'entraînement en deux étapes garantit que ces gains de perception sont obtenus sans compromettre les capacités de compréhension visuelle générale du modèle de base. VLM-FO1 établit un paradigme efficace et flexible pour la construction de VLMs conscients de la perception, comblant ainsi l'écart entre le raisonnement de haut niveau et l'ancrage visuel fin.
Nous proposons ImitSAT, une politique de branchement pour les solveurs CDCL (Conflict-Driven Clause Learning) basée sur l'apprentissage par imitation pour le problème de satisfiabilité booléenne (SAT). Contrairement aux méthodes précédentes qui prédisent des signaux au niveau de l'instance pour améliorer indirectement le branchement CDCL, ou qui s'appuient sur l'apprentissage par renforcement et des informations CDCL insuffisantes pour optimiser le branchement, ImitSAT apprend à partir de KeyTrace, une trace experte qui résume une exécution complète en une séquence de décisions survivantes. La relecture d'une KeyTrace sur la même instance est quasiment exempte de conflits, fournissant une supervision dense au niveau des décisions et réduisant directement les propagations -- le principal contributeur au temps d'exécution. Cette supervision conditionnée par le préfixe permet à ImitSAT de reproduire des branches de haute qualité sans exploration, conduisant à une convergence plus rapide, un entraînement stable et une intégration transparente dans CDCL. Des expériences approfondies démontrent qu'ImitSAT réduit le nombre de propagations et le temps d'exécution, surpassant les approches apprises de pointe. Nous avons publié le code source et le modèle entraîné à l'adresse suivante : https://github.com/zewei-Zhang/ImitSAT.
Les agents d'IA basés sur des modèles de fondation (Foundation Models, FM) connaissent une adoption rapide dans divers domaines, mais leur non-déterminisme et leur non-reproductibilité intrinsèques posent des défis en matière de tests et d'assurance qualité. Bien que des benchmarks récents fournissent des évaluations au niveau des tâches, la compréhension de la manière dont les développeurs vérifient la justesse interne de ces agents pendant le développement reste limitée. Pour combler cette lacune, nous menons la première étude empirique à grande échelle sur les pratiques de test dans l'écosystème des agents d'IA, en analysant 39 frameworks d'agents open source et 439 applications agentiques. Nous identifions dix modèles de test distincts et constatons que des méthodes spécifiques aux agents, comme DeepEval, sont rarement utilisées (environ 1 %), tandis que des modèles traditionnels comme les tests négatifs et d'appartenance sont largement adaptés pour gérer l'incertitude des FM. En cartographiant ces modèles sur les composants architecturaux canoniques des frameworks d'agents et des applications agentiques, nous révélons une inversion fondamentale de l'effort de test : les composants déterministes comme les artefacts de ressources (outils) et les artefacts de coordination (workflows) consomment plus de 70 % de l'effort de test, tandis que le corps de plan basé sur les FM reçoit moins de 5 %. De manière cruciale, cela met en lumière un angle mort critique, car le composant de déclenchement (prompts) reste négligé, apparaissant dans environ 1 % de tous les tests. Nos résultats offrent le premier référentiel empirique de test dans les frameworks d'agents et les applications agentiques basés sur les FM, révélant une adaptation rationnelle mais incomplète au non-déterminisme. Pour y remédier, les développeurs de frameworks devraient améliorer le support des méthodes de test innovantes, les développeurs d'applications doivent adopter des tests de régression des prompts, et les chercheurs devraient explorer les freins à l'adoption. Renforcer ces pratiques est essentiel pour construire des agents d'IA plus robustes et fiables.
L'appariement des distributions est central dans de nombreuses tâches de vision et de graphisme, où la distance de Wasserstein, largement utilisée, est trop coûteuse à calculer pour des distributions de haute dimension. La distance de Wasserstein par tranches (SWD) offre une alternative évolutive, mais son estimateur de Monte Carlo souffre d'une variance élevée, entraînant des gradients bruyants et une convergence lente. Nous introduisons la SWD par réservoir (ReSWD), qui intègre l'échantillonnage pondéré par réservoir dans la SWD pour conserver de manière adaptative des directions de projection informatives lors des étapes d'optimisation, ce qui permet d'obtenir des gradients stables tout en restant non biaisé. Les expériences sur des benchmarks synthétiques et des tâches réelles telles que la correction des couleurs et le guidage par diffusion montrent que ReSWD surpasse systématiquement la SWD standard et d'autres méthodes de réduction de variance. Page du projet : https://reservoirswd.github.io/
L'apprentissage curriculaire joue un rôle crucial dans l'amélioration de l'efficacité de l'entraînement des grands modèles de langage (LLMs) pour les tâches de raisonnement. Cependant, les méthodes existantes échouent souvent à prendre en compte de manière adéquate les variations de difficulté des prompts ou s'appuient sur des mécanismes de filtrage simplistes pour sélectionner des ensembles de données de prompts dans une plage de critères étroite, entraînant un gaspillage computationnel significatif. Dans ce travail, nous abordons le problème sous l'angle de l'optimisation des gradients en apprentissage par renforcement, offrant une investigation systématique et théorique sur la manière d'améliorer l'efficacité de l'entraînement des LLMs. Nous identifions deux facteurs clés influençant l'efficacité de l'entraînement : la sélection des prompts d'entraînement et l'allocation des quantités de déploiement entre différents prompts. Notre analyse théorique révèle que la distribution d'échantillonnage des prompts dicte le taux de convergence de la descente de gradient, tandis que l'allocation de la quantité de déploiement influence la cohérence et la stabilité des mises à jour globales du gradient. Sur la base de ces insights, nous proposons CurES, une méthode d'entraînement efficace qui accélère la convergence et utilise l'estimation bayésienne a posteriori pour minimiser la surcharge computationnelle. Les expériences démontrent que notre CurES surpasse l'Optimisation Relative de Politique de Groupe (GRPO) de +3,30 points et +4,82 points avec des modèles de 1,5B et 7B, respectivement. De plus, CurES présente une convergence plus rapide par rapport aux méthodes de référence, y compris GRPO.
Les grands modèles de langage (LLMs) sont de plus en plus étudiés dans le contexte du raisonnement multi-tours, où les modèles affinent itérativement leurs sorties en fonction des retours fournis par l'utilisateur. De tels cadres sont essentiels pour les tâches nécessitant un raisonnement complexe, mais les paradigmes de feedback existants reposent souvent sur l'émission de nouveaux messages. Les LLMs peinent à intégrer ces retours de manière fiable, ce qui entraîne des améliorations incohérentes. Dans ce travail, nous introduisons le feedback en place, un nouveau paradigme d'interaction dans lequel les utilisateurs modifient directement la réponse précédente d'un LLM, et le modèle s'appuie sur cette réponse modifiée pour générer sa révision. Des évaluations empiriques sur divers benchmarks exigeants en raisonnement révèlent que le feedback en place obtient de meilleures performances que le feedback multi-tours conventionnel tout en utilisant 79,1 % de tokens en moins. Des analyses complémentaires dans des environnements contrôlés démontrent en outre que le feedback en place résout une limitation fondamentale du feedback multi-tours : les modèles échouent souvent à appliquer le feedback de manière précise aux parties erronées de la réponse, laissant des erreurs non corrigées et introduisant parfois de nouvelles erreurs dans des contenus précédemment corrects. Ces résultats suggèrent que le feedback en place offre un mécanisme plus naturel et efficace pour guider les LLMs dans des tâches exigeantes en raisonnement.
L'apprentissage de politiques de contrôle pour des tâches complexes et à long horizon constitue un défi central en robotique et dans les systèmes autonomes. La logique temporelle des signaux (Signal Temporal Logic, STL) offre un langage puissant et expressif pour spécifier de telles tâches, mais sa nature non markovienne et ses récompenses intrinsèquement éparses rendent difficile sa résolution via les algorithmes standards d'apprentissage par renforcement (Reinforcement Learning, RL). Les approches RL antérieures se concentrent uniquement sur des fragments limités de STL ou utilisent les scores de robustesse de STL comme récompenses terminales éparses. Dans cet article, nous proposons TGPO, Temporal Grounded Policy Optimization, pour résoudre des tâches STL générales. TGPO décompose STL en sous-objectifs temporels et en contraintes invariantes, et fournit un cadre hiérarchique pour aborder le problème. Le composant de haut niveau de TGPO propose des allocations temporelles concrètes pour ces sous-objectifs, tandis que la politique conditionnée au temps de bas niveau apprend à atteindre les sous-objectifs séquencés en utilisant un signal de récompense dense et par étapes. Pendant l'inférence, nous échantillonnons diverses allocations temporelles et sélectionnons l'affectation la plus prometteuse pour que le réseau de politiques déploie la trajectoire de solution. Pour favoriser un apprentissage efficace des politiques pour des STL complexes avec plusieurs sous-objectifs, nous exploitons le critique appris pour guider la recherche temporelle de haut niveau via un échantillonnage de Metropolis-Hastings, en concentrant l'exploration sur des solutions temporellement réalisables. Nous menons des expériences sur cinq environnements, allant de la navigation en basse dimension à la manipulation, au drone et à la locomotion quadrupède. Pour une large gamme de tâches STL, TGPO surpasse significativement les meilleures méthodes de référence (en particulier pour les cas de haute dimension et à long horizon), avec une amélioration moyenne de 31,6 % du taux de réussite des tâches par rapport à la meilleure méthode de référence. Le code sera disponible à l'adresse suivante : https://github.com/mengyuest/TGPO.
Dans ce travail, nous proposons d'aligner des encodeurs visuels pré-entraînés pour servir de tokenizers dans les modèles de diffusion latente pour la génération d'images. Contrairement à l'entraînement d'un autoencodeur variationnel (VAE) à partir de zéro, qui met principalement l'accent sur les détails de bas niveau, notre approche exploite la riche structure sémantique des encodeurs de base. Nous introduisons une stratégie d'alignement en trois étapes : (1) geler l'encodeur et entraîner un adaptateur ainsi qu'un décodeur pour établir un espace latent sémantique ; (2) optimiser conjointement tous les composants avec une perte supplémentaire de préservation sémantique, permettant à l'encodeur de capturer des détails perceptuels tout en conservant la sémantique de haut niveau ; et (3) affiner le décodeur pour améliorer la qualité de reconstruction. Cet alignement produit des tokenizers d'images riches en sémantique qui profitent aux modèles de diffusion. Sur ImageNet 256x256, notre tokenizer accélère la convergence des modèles de diffusion, atteignant un gFID de 1,90 en seulement 64 époques, et améliore la génération avec et sans guidage sans classifieur. En passant à l'échelle de LAION, un modèle texte-à-image de 2 milliards de paramètres entraîné avec notre tokenizer surpasse systématiquement FLUX VAE pour le même nombre d'étapes d'entraînement. Globalement, notre méthode est simple, scalable et établit un paradigme sémantiquement fondé pour la conception de tokenizers continus.
Malgré leurs capacités, les modèles de langage à grande échelle (LLM) restent opaques avec une compréhension limitée de leurs représentations internes. Les méthodes actuelles d'interprétabilité, telles que l'attribution directe des logits (DLA) et les autoencodeurs parcimonieux (SAEs), offrent un aperçu restreint en raison de limitations telles que le vocabulaire de sortie du modèle ou les noms de caractéristiques peu clairs. Ce travail introduit Hyperdimensional Probe, un nouveau paradigme pour décoder l'information à partir de l'espace vectoriel des LLM. Il combine des idées issues des représentations symboliques et des sondages neuronaux pour projeter le flux résiduel du modèle en concepts interprétables via les architectures vectorielles symboliques (VSAs). Cette sonde combine les forces des SAEs et des sondages conventionnels tout en surmontant leurs principales limitations. Nous validons notre paradigme de décodage avec des tâches contrôlées de complétion d'entrée, en sondant l'état final du modèle avant la prédiction du prochain jeton sur des entrées couvrant la reconnaissance de motifs syntaxiques, les associations clé-valeur et l'inférence abstraite. Nous l'évaluons également dans un cadre de question-réponse, en examinant l'état du modèle avant et après la génération de texte. Nos expériences montrent que notre sonde extrait de manière fiable des concepts significatifs à travers divers LLM, tailles d'embedding et domaines d'entrée, aidant également à identifier les échecs des LLM. Notre travail fait progresser le décodage de l'information dans l'espace vectoriel des LLM, permettant d'extraire des caractéristiques plus informatives, interprétables et structurées à partir des représentations neuronales.