papers.description
Les vidéos de présentation académique sont devenues un média essentiel pour la communication de la recherche, mais leur production reste très laborieuse, nécessitant souvent des heures de conception de diapositives, d'enregistrement et de montage pour une vidéo courte de 2 à 10 minutes. Contrairement aux vidéos naturelles, la génération de vidéos de présentation implique des défis distincts : des entrées issues d'articles de recherche, des informations multimodales denses (texte, figures, tableaux), et la nécessité de coordonner plusieurs canaux alignés tels que les diapositives, les sous-titres, la parole et l'intervenant humain. Pour relever ces défis, nous introduisons PaperTalker, le premier benchmark de 101 articles de recherche associés à des vidéos de présentation créées par les auteurs, des diapositives et des métadonnées du présentateur. Nous concevons en outre quatre métriques d'évaluation adaptées—Meta Similarity, PresentArena, PresentQuiz et IP Memory—pour mesurer comment les vidéos transmettent l'information de l'article au public. Sur cette base, nous proposons PaperTalker, le premier cadre multi-agent pour la génération de vidéos de présentation académique. Il intègre la génération de diapositives avec un raffinement efficace de la mise en page par un choix visuel innovant de recherche arborescente, l'ancrage du curseur, le sous-titrage, la synthèse vocale et le rendu de tête parlante, tout en parallélisant la génération diapositive par diapositive pour plus d'efficacité. Les expériences sur Paper2Video démontrent que les vidéos de présentation produites par notre approche sont plus fidèles et informatives que les bases de référence existantes, établissant une étape pratique vers la génération automatisée et prête à l'emploi de vidéos académiques. Notre ensemble de données, agent et code sont disponibles à l'adresse https://github.com/showlab/Paper2Video.
Les applications de grands modèles de langage (LLM), telles que les agents et le raisonnement spécifique à un domaine, reposent de plus en plus sur l'adaptation contextuelle — la modification des entrées avec des instructions, des stratégies ou des preuves, plutôt que des mises à jour de poids. Les approches précédentes améliorent l'utilisabilité mais souffrent souvent d'un biais de concision, qui sacrifie les insights spécifiques au domaine au profit de résumés succincts, et d'un effondrement contextuel, où les réécritures itératives érodent les détails au fil du temps. En s'appuyant sur la mémoire adaptative introduite par Dynamic Cheatsheet, nous présentons ACE (Agentic Context Engineering), un cadre qui traite les contextes comme des playbooks évolutifs qui accumulent, affinent et organisent les stratégies à travers un processus modulaire de génération, de réflexion et de curation. ACE prévient l'effondrement avec des mises à jour structurées et incrémentielles qui préservent les connaissances détaillées et s'adaptent aux modèles à contexte long. Sur des benchmarks d'agents et spécifiques à un domaine, ACE optimise les contextes à la fois hors ligne (par exemple, les prompts système) et en ligne (par exemple, la mémoire des agents), surpassant systématiquement les bases de référence solides : +10,6 % sur les agents et +8,6 % sur la finance, tout en réduisant significativement la latence d'adaptation et le coût de déploiement. Notamment, ACE a pu s'adapter efficacement sans supervision étiquetée, en exploitant plutôt les retours d'exécution naturels. Sur le classement AppWorld, ACE correspond à l'agent de niveau production le mieux classé sur la moyenne globale et le dépasse sur la division test-challenge plus difficile, malgré l'utilisation d'un modèle open-source plus petit. Ces résultats montrent que des contextes complets et évolutifs permettent des systèmes LLM évolutifs, efficaces et auto-améliorants avec un faible surcoût.
La compréhension vidéo représente la frontière la plus exigeante en vision par ordinateur, nécessitant des modèles capables de raisonner sur des relations spatiotemporelles complexes, des dépendances à long terme et des preuves multimodales. L'émergence récente des modèles multimodaux de grande taille pour la vidéo (Video-LMMs), qui intègrent des encodeurs visuels avec des modèles de langage basés sur des décodeurs puissants, a démontré des capacités remarquables dans les tâches de compréhension vidéo. Cependant, la phase critique qui transforme ces modèles de systèmes de perception basiques en moteurs de raisonnement sophistiqués, à savoir l'après-entraînement, reste fragmentée dans la littérature. Cette étude propose le premier examen complet des méthodologies d'après-entraînement pour les Video-LMMs, englobant trois piliers fondamentaux : le réglage fin supervisé (SFT) avec chaîne de pensée, l'apprentissage par renforcement (RL) à partir d'objectifs vérifiables, et la mise à l'échelle au moment du test (TTS) via un calcul d'inférence amélioré. Nous présentons une taxonomie structurée qui clarifie les rôles, les interconnexions et les adaptations spécifiques à la vidéo de ces techniques, en abordant des défis uniques tels que la localisation temporelle, l'ancrage spatiotemporel, l'efficacité pour les vidéos longues et l'intégration de preuves multimodales. À travers une analyse systématique des méthodes représentatives, nous synthétisons les principes de conception clés, les insights et les protocoles d'évaluation tout en identifiant les défis ouverts critiques dans la conception des récompenses, la scalabilité et l'optimisation coût-performance. Nous avons également sélectionné des benchmarks, des jeux de données et des métriques essentiels pour faciliter une évaluation rigoureuse de l'efficacité de l'après-entraînement. Cette étude vise à fournir aux chercheurs et aux praticiens un cadre unifié pour faire progresser les capacités des Video-LMMs. Des ressources supplémentaires et des mises à jour sont maintenues à l'adresse suivante : https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
La recherche arborescente est devenue un cadre représentatif pour le raisonnement en temps de test avec les grands modèles de langage (LLMs), illustré par des méthodes telles que l’arbre de pensée et la recherche arborescente de Monte Carlo, qui explorent plusieurs chemins de raisonnement. Cependant, il reste difficile de fournir des évaluations quantitatives instantanées et fiables de la qualité des étapes intermédiaires de raisonnement, et l’exploration extensive des chemins est coûteuse en termes de calcul. Pour résoudre ce problème, nous proposons la recherche arborescente par information mutuelle (MITS), un cadre novateur qui guide le raisonnement à l’aide de principes issus de la théorie de l’information. MITS introduit une fonction de scoring efficace basée sur l’information mutuelle ponctuelle (PMI), permettant une évaluation étape par étape des chemins de raisonnement et une expansion de l’arbre de recherche via une recherche en faisceau, sans recourir à des simulations coûteuses de prévision, tout en maintenant une efficacité computationnelle. Ce cadre est complété par une stratégie d’échantillonnage dynamique basée sur l’entropie, qui alloue de manière adaptative les ressources computationnelles aux étapes de raisonnement incertaines où l’exploration est la plus bénéfique. Pour la prédiction finale, MITS utilise un schéma de vote pondéré qui combine les scores PMI avec le consensus des prédictions. À travers des expériences approfondies sur divers benchmarks de raisonnement, MITS surpasse systématiquement les méthodes de référence, établissant ainsi un cadre efficace et fondé sur des principes pour le raisonnement avec les LLMs.
Les modèles récents de génération vidéo peuvent produire des clips fluides et visuellement attrayants, mais ils ont souvent du mal à synthétiser des dynamiques complexes avec une chaîne cohérente de conséquences. La modélisation précise des résultats visuels et des transitions d'état au fil du temps reste un défi central. En revanche, les grands modèles de langage et multimodaux (par exemple, GPT-4o) montrent de solides capacités de raisonnement sur les états visuels et de prédiction future. Pour combler ces forces, nous introduisons VChain, un nouveau cadre de chaîne de pensée visuelle au moment de l'inférence qui injecte des signaux de raisonnement visuel issus de modèles multimodaux dans la génération vidéo. Plus précisément, VChain contient un pipeline dédié qui exploite les grands modèles multimodaux pour générer un ensemble clairsemé de keyframes critiques sous forme d'instantanés, qui sont ensuite utilisés pour guider le réglage clairsemé au moment de l'inférence d'un générateur vidéo pré-entraîné uniquement à ces moments clés. Notre approche est efficace en termes de réglage, introduit une surcharge minimale et évite une supervision dense. Des expériences approfondies sur des scénarios complexes à plusieurs étapes montrent que VChain améliore significativement la qualité des vidéos générées.
Les attaques de jailbreaking sur la modalité visuelle reposent généralement sur des perturbations adverses imperceptibles, tandis que les attaques sur la modalité textuelle sont généralement supposées nécessiter des modifications visibles (par exemple, des suffixes non sémantiques). Dans cet article, nous introduisons des jailbreaks imperceptibles qui exploitent une classe de caractères Unicode appelés sélecteurs de variation. En ajoutant des sélecteurs de variation invisibles à des questions malveillantes, les invites de jailbreak apparaissent visuellement identiques aux questions malveillantes originales à l'écran, bien que leur tokenisation soit "secrètement" altérée. Nous proposons un pipeline de recherche en chaîne pour générer de tels suffixes adverses afin d'induire des réponses nuisibles. Nos expériences montrent que nos jailbreaks imperceptibles atteignent des taux de réussite d'attaque élevés contre quatre LLM alignés et se généralisent aux attaques par injection d'invites, le tout sans produire de modifications visibles dans l'invite écrite. Notre code est disponible à l'adresse https://github.com/sail-sg/imperceptible-jailbreaks.
Les progrès récents dans les modèles de langage de grande taille démontrent que les architectures hybrides—combinant des mécanismes d'auto-attention avec des modèles d'espace d'état structurés comme Mamba—peuvent atteindre un équilibre convaincant entre la qualité de modélisation et l'efficacité computationnelle, en particulier pour les tâches à contexte long. Bien que ces modèles hybrides montrent des performances prometteuses, des comparaisons systématiques des stratégies d'hybridation et des analyses sur les facteurs clés de leur efficacité n'ont pas été clairement partagées avec la communauté. Dans ce travail, nous présentons une évaluation holistique des architectures hybrides basées sur une fusion inter-couche (séquentielle) ou intra-couche (parallèle). Nous évaluons ces conceptions sous divers angles : performance en modélisation du langage, capacités à contexte long, analyse de mise à l'échelle, et efficacité en entraînement et inférence. En examinant les caractéristiques fondamentales de leur primitive computationnelle, nous identifions les éléments les plus critiques pour chaque stratégie d'hybridation et proposons en outre des recettes de conception optimales pour les deux types de modèles hybrides. Notre analyse approfondie fournit des conseils pratiques et des insights précieux pour le développement de modèles de langage hybrides, facilitant l'optimisation des configurations architecturales.
Malgré les progrès récents dans le transfert optimal des hyperparamètres lors de la mise à l'échelle des modèles et des jeux de données, aucun principe explicatif unificateur n'a été établi. En utilisant l'optimiseur Scion, nous découvrons que la mise à l'échelle optimale conjointe des tailles de modèle et de jeu de données est régie par un seul invariant : la norme d'opérateur de la couche de sortie. Pour des modèles allant jusqu'à 1,3 milliard de paramètres entraînés sur jusqu'à 138 milliards de tokens, le couple optimal taux d'apprentissage/taille de lot (eta^{ast}, B^{ast}) présente systématiquement la même valeur de norme d'opérateur - un phénomène que nous appelons transfert de norme. Cette condition de norme constante est nécessaire mais non suffisante : bien que pour chaque taille de jeu de données, plusieurs couples (eta, B) atteignent la norme optimale, seul un unique (eta^{ast}, B^{ast}) permet d'obtenir la meilleure perte. Comme condition suffisante, nous fournissons la première mesure de la mise à l'échelle de (eta^{ast}, B^{ast}) avec la taille du jeu de données pour Scion, et constatons que les règles de mise à l'échelle sont cohérentes avec celles de l'optimiseur Adam. L'ajustement des taux d'apprentissage par groupe de couches améliore également les performances du modèle, la couche de sortie étant la plus sensible et les couches cachées bénéficiant de taux d'apprentissage plus faibles. Nous fournissons des insights pratiques sur la mise à l'échelle optimale guidée par la norme et publions notre implémentation de Scion Distribué (Disco) avec les logs de plus de deux mille exécutions pour soutenir la recherche sur la dynamique d'entraînement des LLM à grande échelle.
L'architecture Transformer est devenue le standard de facto pour les modèles de langage à grande échelle (LLMs), démontrant des capacités remarquables en compréhension et génération de langage. Cependant, son application dans l'intelligence conversationnelle est fondamentalement limitée par sa nature sans état et sa complexité computationnelle quadratique (O(L^2)) par rapport à la longueur de séquence L. Les modèles actuels simulent la mémoire en retraitant une histoire de conversation en expansion constante à chaque tour, entraînant des coûts et une latence prohibitifs dans les dialogues longs. Cet article présente le Transformer Réactif (RxT), une architecture novatrice conçue pour surmonter ces limitations en passant d'un paradigme piloté par les données à un paradigme piloté par les événements. RxT traite chaque tour de conversation comme un événement discret en temps réel, maintenant le contexte dans un système de mémoire à court terme (STM) intégré et de taille fixe. L'architecture se distingue par un cycle opérationnel où un générateur-décodeur produit une réponse basée sur la requête actuelle et l'état de mémoire précédent, après quoi un encodeur de mémoire et un réseau d'attention dédié à la mémoire mettent à jour de manière asynchrone la STM avec une représentation de l'interaction complète. Cette conception modifie fondamentalement la dynamique de mise à l'échelle, réduisant le coût total pour l'utilisateur d'une conversation de quadratique (O(N^2 cdot T)) à linéaire (O(N cdot T)) par rapport au nombre d'interactions N. En découplant la génération de réponse des mises à jour de mémoire, RxT atteint une faible latence, permettant des conversations longues en temps réel, avec état et économiquement viables. Nous avons validé notre architecture par une série d'expériences de preuve de concept sur des données synthétiques, démontrant une performance supérieure et une latence d'inférence en temps constant par rapport à un modèle de base sans état de taille comparable.
Le paradigme dominant pour améliorer les capacités de raisonnement des LLM (modèles de langage de grande taille) repose sur un post-entraînement avec des données de haute qualité et intensives en raisonnement. Bien que la littérature émergente suggère que les données de raisonnement soient de plus en plus intégrées également pendant l'étape intermédiaire de l'entraînement—une pratique relativement plus propriétaire et moins ouvertement caractérisée—le rôle de ces données dans le pré-entraînement reste incertain. En particulier, en raison de l'opacité des corpus de pré-entraînement dans la plupart des modèles de pointe, l'effet des données de raisonnement introduites à différentes phases du pré- et/ou post-entraînement est relativement moins documenté dans la littérature scientifique. Cela soulève plusieurs questions importantes : l'ajout de données de raisonnement plus tôt pendant le pré-entraînement est-il préférable à leur introduction pendant le post-entraînement ? Une inclusion précoce pourrait-elle risquer le surapprentissage et nuire à la généralisation, ou au contraire établir des fondations durables que l'affinage ultérieur ne pourrait pas récupérer ? Nous menons la première étude systématique sur la manière dont les données de raisonnement—variant en échelle, diversité et qualité—affectent les performances des LLM lorsqu'elles sont introduites à différentes étapes de l'entraînement. Nous constatons que l'intégration précoce des données de raisonnement dans le pré-entraînement est cruciale (gain moyen de 19 %), établissant des capacités fondamentales qui ne peuvent être pleinement reproduites par l'affinage supervisé (SFT) ultérieur, même avec davantage de données. Nous découvrons un principe asymétrique pour l'allocation optimale des données : le pré-entraînement bénéficie le plus d'une grande diversité dans les schémas de raisonnement (gain moyen de 11 %), tandis que le SFT est plus sensible à la qualité des données (gain moyen de 15 %). Nous montrons que les données de pré-entraînement de haute qualité ont des effets latents, activés uniquement après le SFT, et qu'une augmentation naïve des données de SFT peut être préjudiciable, effaçant les avantages de l'injection précoce de raisonnement. Nos résultats remettent en question la séparation conventionnelle entre la modélisation du langage et le raisonnement, fournissant un guide méthodique pour allouer stratégiquement les données tout au long du pipeline d'entraînement afin de construire des modèles plus performants.
Alors que les modèles modernes de génération visuelle excellent dans la création d'images naturelles esthétiquement plaisantes, ils peinent à produire ou à éditer des visuels structurés tels que des graphiques, des diagrammes et des figures mathématiques, qui nécessitent une planification de la composition, un rendu de texte et un raisonnement multimodal pour garantir la fidélité factuelle. Pour répondre à ce défi, nous présentons la première investigation complète et systématique de ce domaine, englobant la construction de données, l'entraînement de modèles et un benchmark d'évaluation. Tout d'abord, nous construisons un jeu de données à grande échelle de 1,3 million de paires d'images structurées de haute qualité, dérivées de programmes de dessin exécutables et enrichies d'annotations de raisonnement en chaîne de pensée. Sur cette base, nous entraînons un modèle unifié qui intègre un VLM avec FLUX.1 Kontext via un connecteur léger pour une compréhension multimodale améliorée. Un curriculum d'entraînement en trois étapes permet un alignement progressif des caractéristiques, une infusion de connaissances et une génération renforcée par le raisonnement, encore boostée par un raisonneur externe au moment de l'inférence. Enfin, nous introduisons StructBench, un nouveau benchmark pour la génération et l'édition avec plus de 1 700 instances complexes, ainsi qu'une métrique d'évaluation associée, StructScore, qui utilise un protocole de questions-réponses en plusieurs tours pour évaluer la précision factuelle fine. Les évaluations de 15 modèles révèlent que même les systèmes propriétaires leaders restent loin d'être satisfaisants. Notre modèle atteint de solides performances en édition, et le raisonnement au moment de l'inférence apporte des gains constants à travers diverses architectures. En publiant le jeu de données, le modèle et le benchmark, nous visons à faire progresser les fondations multimodales unifiées pour les visuels structurés.
L'ajustement par instruction joue un rôle crucial dans l'amélioration des capacités de résolution de tâches des grands modèles de langage (LLMs), renforçant leur utilité pour générer des réponses pertinentes sur diverses tâches. Cependant, des travaux antérieurs ont montré qu'ils sont sensibles à des variations mineures dans la formulation des instructions. Dans cet article, nous explorons si l'introduction de perturbations dans les données d'ajustement par instruction peut accroître la résistance des LLMs face à des instructions bruitées. Nous nous concentrons sur la manière dont l'ajustement par instruction avec des perturbations, telles que la suppression de mots d'arrêt ou le mélange de mots, affecte les performances des LLMs sur les versions originales et perturbées de benchmarks largement utilisés (MMLU, BBH, GSM8K). Nous évaluons également les dynamiques d'apprentissage et les éventuels changements dans le comportement du modèle. Étonnamment, nos résultats suggèrent que l'ajustement par instruction sur des instructions perturbées peut, dans certains cas, améliorer les performances en aval. Ces résultats soulignent l'importance d'inclure des instructions perturbées dans l'ajustement par instruction, ce qui peut rendre les LLMs plus résilients face aux entrées bruitées des utilisateurs.
Les systèmes de dialogue parlés reposent souvent sur des pipelines en cascade qui transcrivent, traitent et resynthétisent la parole. Bien qu'efficace, cette conception élimine les indices paralinguistiques et limite l'expressivité. Les méthodes récentes de bout en bout réduisent la latence et préservent mieux ces indices, mais elles s'appuient toujours sur des intermédiaires textuels, créant ainsi un goulot d'étranglement fondamental. Nous présentons MOSS-Speech, un véritable modèle de langage massif (LLM) parole-à-parole qui comprend et génère directement la parole sans s'appuyer sur des guidages textuels. Notre approche combine une architecture de division de couches basée sur la modalité avec une stratégie de pré-entraînement figée, préservant ainsi le raisonnement et les connaissances des LLM textuels pré-entraînés tout en ajoutant des capacités natives de traitement de la parole. Les expériences montrent que notre modèle atteint des résultats de pointe en réponse à des questions parlées et offre des performances comparables en parole-à-parole par rapport aux systèmes existants guidés par le texte, tout en maintenant des performances compétitives en traitement textuel. En réduisant l'écart entre la génération de parole guidée par le texte et la génération directe de parole, notre travail établit un nouveau paradigme pour une interaction vocale expressive et efficace de bout en bout.
L'apprentissage par renforcement appliqué aux grands modèles de langage (LLMs) pour les tâches de raisonnement est souvent limité par des estimations de gradient instables dues à un échantillonnage fixe et uniforme des réponses à travers les prompts. Des travaux antérieurs, tels que GVM-RAFT, abordent ce problème en allouant dynamiquement un budget d'inférence par prompt pour minimiser la variance stochastique du gradient sous une contrainte budgétaire. Inspirés par cette idée, nous proposons Reinforce-Ada, un cadre d'échantillonnage adaptatif pour l'entraînement en ligne par renforcement des LLMs, qui réalloue continuellement l'effort d'échantillonnage aux prompts présentant la plus grande incertitude ou le plus grand potentiel d'apprentissage. Contrairement aux méthodes conventionnelles d'allocation en deux étapes, Reinforce-Ada entrelace l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, et arrête automatiquement l'échantillonnage pour un prompt une fois qu'un signal suffisant est collecté. Pour stabiliser les mises à jour, nous formons des groupes de taille fixe avec une diversité de récompenses imposée et calculons des bases d'avantage en utilisant des statistiques globales agrégées sur la phase d'échantillonnage adaptatif. Les résultats empiriques sur plusieurs architectures de modèles et benchmarks de raisonnement montrent que Reinforce-Ada accélère la convergence et améliore les performances finales par rapport à GRPO, en particulier lors de l'utilisation de la variante d'échantillonnage équilibré. Notre travail met en lumière le rôle central de la curation de données adaptative et consciente de la variance dans l'activation d'un apprentissage par renforcement efficace et fiable pour les LLMs capables de raisonnement. Le code est disponible à l'adresse suivante : https://github.com/RLHFlow/Reinforce-Ada.
L'alignement des grands modèles de langage (LLMs) avec les valeurs humaines repose de plus en plus sur l'utilisation d'autres LLMs comme juges automatisés, ou « autoraters ». Cependant, leur fiabilité est limitée par un problème fondamental : ils sont entraînés sur des étiquettes de préférences discrètes, imposant une seule vérité de référence à des tâches souvent subjectives, ambiguës ou nuancées. Nous soutenons qu'un autorater fiable doit apprendre à modéliser la distribution complète des préférences définie par une population cible. Dans cet article, nous proposons un cadre général pour calibrer des autoraters probabilistes à toute distribution de préférences donnée. Nous formalisons le problème et présentons deux méthodes d'apprentissage adaptées à différentes conditions de données : 1) un réglage fin supervisé direct pour des étiquettes denses et probabilistes, et 2) une approche d'apprentissage par renforcement pour des étiquettes binaires et éparses. Nos résultats empiriques montrent que le réglage fin des autoraters avec un objectif d'alignement de distribution conduit à des prédictions de probabilités verbalisées mieux alignées avec la distribution de préférences cible, avec une calibration améliorée et un biais positionnel significativement réduit, tout en préservant les performances sur les tâches objectives.
L'apprentissage par renforcement a joué un rôle central dans les récents progrès en matière de raisonnement des grands modèles de langage, mais la plupart des algorithmes reposent sur un entraînement sur-politique qui nécessite de nouvelles simulations à chaque mise à jour, limitant ainsi l'efficacité et l'évolutivité. Les systèmes d'apprentissage par renforcement asynchrones atténuent ce problème en découplant la génération des simulations de l'entraînement, mais leur efficacité dépend de la tolérance à une grande obsolescence des données de simulation, un contexte dans lequel les méthodes existantes voient soit une dégradation de leurs performances, soit un effondrement. Nous revisitons ce défi et mettons en évidence un phénomène de prospérité avant effondrement : les données obsolètes peuvent être aussi informatives que les données sur-politiques si elles sont exploitées correctement. Sur la base de cette observation, nous introduisons M2PO (Second-Moment Trust Policy Optimization), qui contraint le second moment des poids d'importance pour supprimer uniquement les valeurs aberrantes extrêmes tout en préservant les mises à jour informatives. Notamment, M2PO réduit considérablement la fraction de tokens coupés sous une forte obsolescence (de 1,22 % à 0,06 % pendant l'entraînement), masquant précisément les tokens à forte variance tout en maintenant une optimisation stable. Une évaluation approfondie sur six modèles (de 1,7 milliard à 32 milliards de paramètres) et huit benchmarks montre que M2PO permet un entraînement hors-politique stable même avec des données obsolètes d'au moins 256 mises à jour du modèle et atteint des performances comparables à celles d'un entraînement sur-politique.
Des travaux récents montrent qu'au-delà du raisonnement discret à travers des étapes explicites de chaîne de pensée, qui sont limitées par les frontières des langues naturelles, les grands modèles de langage (LLMs) peuvent également raisonner de manière continue dans l'espace latent, permettant une information plus riche par étape et améliorant ainsi l'efficacité des tokens. Malgré cette promesse, le raisonnement latent reste confronté à deux défis, en particulier dans des contextes sans entraînement : 1) le raisonnement purement latent élargit la distribution de recherche en maintenant plusieurs chemins implicites, ce qui diffuse la masse de probabilité, introduit du bruit et entrave la convergence vers une solution unique de haute confiance, nuisant ainsi à la précision ; et 2) la surréflexion persiste même sans texte explicite, gaspillant des tokens et dégradant l'efficacité. Pour résoudre ces problèmes, nous introduisons SwiReasoning, un cadre sans entraînement pour le raisonnement des LLMs, qui présente deux innovations clés : 1) SwiReasoning bascule dynamiquement entre un raisonnement explicite et latent, guidé par la confiance par bloc estimée à partir des tendances d'entropie dans les distributions de tokens suivants, pour équilibrer exploration et exploitation et favoriser une convergence rapide. 2) En limitant le nombre maximal de basculements entre blocs de réflexion, SwiReasoning freine la surréflexion et améliore l'efficacité des tokens pour des difficultés de problèmes variées. Sur des benchmarks largement utilisés en mathématiques et en STEM, SwiReasoning améliore systématiquement la précision moyenne de 1,5 % à 2,8 % pour des LLMs de raisonnement issus de différentes familles de modèles et échelles. De plus, sous des budgets contraints, SwiReasoning améliore l'efficacité moyenne des tokens de 56 % à 79 %, avec des gains plus importants à mesure que les budgets se resserrent.
Les récentes avancées dans les grands modèles génératifs ont considérablement amélioré l'édition d'images et la génération d'images en contexte. Cependant, un défi majeur persiste dans la garantie de la cohérence physique, où les objets modifiés doivent rester cohérents. Cette capacité est particulièrement cruciale pour les tâches liées à la simulation du monde. Dans cet article, nous présentons ChronoEdit, un cadre qui reformule l'édition d'images comme un problème de génération de vidéo. Premièrement, ChronoEdit traite les images d'entrée et modifiées comme les première et dernière images d'une vidéo, lui permettant ainsi d'exploiter de grands modèles génératifs vidéo pré-entraînés qui capturent non seulement l'apparence des objets, mais aussi la physique implicite du mouvement et de l'interaction grâce à une cohérence temporelle apprise. Deuxièmement, ChronoEdit introduit une étape de raisonnement temporel qui effectue explicitement l'édition au moment de l'inférence. Dans ce cadre, l'image cible est conjointement débruîtée avec des tokens de raisonnement pour imaginer une trajectoire d'édition plausible qui contraint l'espace des solutions à des transformations physiquement viables. Les tokens de raisonnement sont ensuite abandonnés après quelques étapes pour éviter le coût computationnel élevé du rendu d'une vidéo complète. Pour valider ChronoEdit, nous introduisons PBench-Edit, un nouveau benchmark de paires image-prompt pour des contextes nécessitant une cohérence physique, et démontrons que ChronoEdit surpasse les meilleures méthodes de référence en termes de fidélité visuelle et de plausibilité physique. Le code et les modèles pour les variantes 14B et 2B de ChronoEdit seront publiés sur la page du projet : https://research.nvidia.com/labs/toronto-ai/chronoedit.
Les grands modèles de langage (LLMs) résolvent de plus en plus des tâches de raisonnement complexes via de longues chaînes de pensée, mais leur processus de génération autoregressif uniquement orienté vers l'avant est fragile ; les erreurs précoces de tokens peuvent s'accumuler, ce qui crée un besoin évident de mécanismes d'auto-réflexion. Cependant, les méthodes existantes d'auto-réflexion effectuent soit des révisions sur des versions complètes, soit apprennent l'auto-correction via un entraînement coûteux, toutes deux fondamentalement réactives et inefficaces. Pour remédier à cela, nous proposons la Génération Auto-Réflexive au Moment du Test (SRGen), un cadre léger qui réfléchit avant de générer aux points incertains. Pendant la génération de tokens, SRGen utilise un seuillage dynamique de l'entropie pour identifier les tokens à forte incertitude. Pour chaque token identifié, il entraîne un vecteur correctif spécifique, qui exploite pleinement le contexte déjà généré pour une génération auto-réflexive afin de corriger la distribution de probabilité des tokens. En analysant rétrospectivement la sortie partielle, cette auto-réflexion permet des décisions plus fiables, réduisant ainsi significativement la probabilité d'erreurs aux points très incertains. Évalué sur des benchmarks de raisonnement mathématique difficiles et un ensemble diversifié de LLMs, SRGen peut renforcer de manière constante le raisonnement des modèles : les améliorations de la qualité en une seule passe se traduisent également par un vote d'auto-cohérence plus robuste. En particulier, sur AIME2024 avec DeepSeek-R1-Distill-Qwen-7B, SRGen apporte des améliorations absolues de +12,0 % sur Pass@1 et +13,3 % sur Cons@5. De plus, nos résultats positionnent SRGen comme une méthode plug-and-play qui intègre la réflexion dans le processus de génération pour un raisonnement fiable des LLMs, obtenant des gains constants avec une surcharge limitée et une large compatibilité avec d'autres techniques d'entraînement (par exemple, RLHF) et de test (par exemple, SLOT).
Les agents d'utilisation informatique (CUAs) doivent planifier des flux de travail basés sur des applications et des environnements divers et en constante évolution, mais l'apprentissage est entravé par la rareté de données d'entraînement à grande échelle et de haute qualité dans l'application cible. Les ensembles de données existants sont spécifiques à un domaine, statiques et coûteux à annoter, tandis que les méthodes actuelles de génération de données synthétiques produisent souvent des démonstrations de tâches simplistes ou mal alignées. Pour surmonter ces limitations, nous introduisons Watch & Learn (W&L), un cadre qui transforme des vidéos de démonstrations humaines facilement disponibles sur Internet en trajectoires d'interface utilisateur (UI) exécutables à grande échelle. Au lieu de générer directement des trajectoires ou de s'appuyer sur des heuristiques de raisonnement ad hoc, nous formulons le problème comme un objectif de dynamique inverse : prédire l'action de l'utilisateur à partir d'états d'écran consécutifs. Cette formulation réduit l'ingénierie manuelle, est plus facile à apprendre et généralise de manière plus robuste à travers les applications. Concrètement, nous développons un pipeline d'étiquetage de dynamique inverse avec une récupération de vidéos consciente des tâches, générons plus de 53 000 trajectoires de haute qualité à partir de vidéos web brutes, et démontrons que ces trajectoires améliorent les CUAs à la fois comme démonstrations en contexte et comme données d'entraînement supervisées. Sur le benchmark exigeant d'OSWorld, les trajectoires d'UI extraites avec W&L améliorent systématiquement les cadres généraux et de pointe en contexte, et offrent des gains plus importants pour les modèles open source sous entraînement supervisé. Ces résultats mettent en évidence les vidéos de démonstrations humaines à l'échelle du web comme une base pratique et évolutive pour faire progresser les CUAs vers un déploiement dans le monde réel.
L'adoption d'outils de complétion de code alimentés par l'IA dans le développement logiciel a considérablement augmenté, mais les données d'interaction utilisateur générées par ces systèmes restent propriétaires au sein des grandes entreprises. Cela crée un obstacle pour la communauté académique, car les chercheurs doivent souvent développer des plateformes dédiées pour mener des études sur l'interaction humain--IA, rendant la recherche reproductible et l'analyse de données à grande échelle peu pratiques. Dans ce travail, nous présentons Code4MeV2, un plugin de complétion de code open-source et orienté recherche pour les IDE JetBrains, comme solution à cette limitation. Code4MeV2 est conçu selon une architecture client--serveur et propose une complétion de code en ligne ainsi qu'un assistant de chat contextuel. Sa contribution principale est un cadre de collecte de données modulaire et transparent, offrant aux chercheurs un contrôle précis sur la télémétrie et la collecte de contexte. Code4MeV2 atteint des performances comparables à celles de l'industrie en termes de complétion de code, avec une latence moyenne de 200~ms. Nous évaluons notre outil à travers une combinaison d'une évaluation d'experts et d'une étude utilisateur avec huit participants. Les retours des chercheurs et des utilisateurs quotidiens mettent en avant son caractère informatif et utile. Nous invitons la communauté à adopter et à contribuer à cet outil. Plus d'informations sur l'outil sont disponibles à l'adresse https://app.code4me.me.
Imaginez M. Bean entrant dans l'univers de Tom et Jerry—pouvons-nous générer des vidéos où des personnages interagissent naturellement à travers différents mondes ? Nous étudions l'interaction interpersonnage dans la génération de vidéos à partir de texte, où le défi principal est de préserver l'identité et les comportements de chaque personnage tout en permettant une interaction cohérente entre des contextes différents. Cela est difficile car les personnages n'ont peut-être jamais coexisté et parce que le mélange de styles provoque souvent une illusion de style, où des personnages réalistes apparaissent caricaturaux ou vice versa. Nous introduisons un cadre qui aborde ces problèmes avec l'Embedding Interpersonnage (Cross-Character Embedding, CCE), qui apprend l'identité et la logique comportementale à partir de sources multimodales, et l'Augmentation Interpersonnage (Cross-Character Augmentation, CCA), qui enrichit l'entraînement avec des données synthétiques de coexistence et de styles mixtes. Ensemble, ces techniques permettent des interactions naturelles entre des personnages qui n'ont jamais coexisté, sans perdre la fidélité stylistique. Les expériences sur un benchmark soigneusement sélectionné de dessins animés et de séries en prise de vue réelle avec 10 personnages montrent des améliorations nettes en matière de préservation de l'identité, de qualité d'interaction et de robustesse face à l'illusion de style, ouvrant la voie à de nouvelles formes de narration générative. Des résultats supplémentaires et des vidéos sont disponibles sur notre page de projet : https://tingtingliao.github.io/mimix/.
L'impact social du traitement automatique du langage naturel (TALN) devient de plus en plus important, avec une attention croissante de la communauté sur les initiatives liées au TALN pour le bien social (NLP4SG). En effet, ces dernières années, près de 20 % des articles de l'ACL Anthology abordent des sujets liés au bien social, tels que définis par les Objectifs de développement durable des Nations Unies (Adauto et al., 2023). Dans cette étude, nous adoptons une perspective au niveau des auteurs et des lieux de publication pour cartographier le paysage du NLP4SG, en quantifiant la proportion de travaux traitant des préoccupations liées au bien social, à la fois au sein et en dehors de la communauté ACL, par des contributeurs principaux de l'ACL et par des auteurs externes. Grâce à cette approche, nous découvrons deux faits surprenants concernant le paysage du NLP4SG. Premièrement, les auteurs de l'ACL sont nettement plus susceptibles de réaliser des travaux portant sur des préoccupations de bien social lorsqu'ils publient dans des lieux extérieurs à l'ACL. Deuxièmement, la grande majorité des publications utilisant des techniques de TALN pour aborder des questions de bien social sont réalisées par des auteurs externes à l'ACL et publiées en dehors des lieux de l'ACL. Nous discutons des implications de ces résultats sur les considérations relatives à la définition de l'agenda pour la communauté de l'ACL concernant le NLP4SG.
Les modèles de langage de grande taille (LLMs) pour la démonstration formelle de théorèmes ont montré un potentiel significatif, mais ils manquent souvent de généralisabilité et sont fragiles face à des transformations même mineures des énoncés de problèmes. Pour remédier à cette limitation, nous introduisons un nouveau pipeline d'augmentation de données conçu pour améliorer la robustesse du modèle sous deux angles : la symétrie et la difficulté. Du point de vue de la symétrie, nous proposons deux méthodes complémentaires : EvolAST, une approche basée sur les arbres de syntaxe abstraite (AST) qui cible la symétrie syntaxique pour générer des variantes de problèmes sémantiquement équivalentes, et EvolDomain, qui exploite les LLMs pour aborder la symétrie sémantique en traduisant des théorèmes entre différents domaines mathématiques. Du point de vue de la difficulté, nous proposons EvolDifficulty, qui utilise des instructions évolutives soigneusement conçues pour guider les LLMs dans la génération de nouveaux théorèmes avec une gamme de difficulté plus large. Nous utilisons ensuite les données évoluées pour entraîner EvolProver, un démonstrateur de théorèmes sans raisonnement de 7 milliards de paramètres. EvolProver établit un nouvel état de l'art (SOTA) sur FormalMATH-Lite avec un taux de réussite de 53,8 % pass@32, surpassant tous les modèles de taille comparable, y compris les modèles basés sur le raisonnement. Il établit également de nouveaux records SOTA pour les modèles sans raisonnement sur MiniF2F-Test (69,8 % pass@32), Ineq-Comp-Seed (52,2 % pass@32) et Ineq-Comp-Transformed (34,0 % pass@32). Les études d'ablation confirment en outre l'efficacité de notre pipeline d'augmentation de données sur plusieurs benchmarks.
Le 4D Gaussian Splatting s’est imposé comme un nouveau paradigme pour la représentation de scènes dynamiques, permettant le rendu en temps réel de scènes avec des mouvements complexes. Cependant, il se heurte à un défi majeur lié à la surcharge de stockage, car des millions de Gaussiennes sont nécessaires pour une reconstruction haute fidélité. Bien que plusieurs études aient tenté d’alléger cette charge mémoire, elles restent limitées en termes de taux de compression ou de qualité visuelle. Dans ce travail, nous présentons OMG4 (Optimized Minimal 4D Gaussian Splatting), un cadre qui construit un ensemble compact de Gaussiennes saillantes capables de représenter fidèlement des modèles 4D Gaussians. Notre méthode élimine progressivement les Gaussiennes en trois étapes : (1) l’échantillonnage de Gaussiennes pour identifier les primitives critiques à la fidélité de reconstruction, (2) l’élagage de Gaussiennes pour supprimer les redondances, et (3) la fusion de Gaussiennes pour combiner des primitives aux caractéristiques similaires. De plus, nous intégrons une compression implicite de l’apparence et généralisons la Quantification Sous-Vectorielle (SVQ) aux représentations 4D, réduisant davantage le stockage tout en préservant la qualité. Des expériences approfondies sur des ensembles de données de référence standard démontrent qu’OMG4 surpasse significativement les méthodes récentes de pointe, réduisant la taille des modèles de plus de 60 % tout en maintenant la qualité de reconstruction. Ces résultats positionnent OMG4 comme une avancée majeure dans la représentation compacte de scènes 4D, ouvrant de nouvelles possibilités pour une large gamme d’applications. Notre code source est disponible à l’adresse https://minshirley.github.io/OMG4/.
Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte sont devenus la pierre angulaire de l'édition d'images moderne. Cependant, les invites textuelles seules n'offrent pas un contrôle adéquat sur le processus d'édition. Deux propriétés sont particulièrement souhaitables : la désentrelacement, où la modification d'un attribut n'altère pas involontairement les autres, et le contrôle continu, où l'intensité d'une modification peut être ajustée de manière fluide. Nous introduisons une méthode pour l'édition désentrelacée et continue via la manipulation au niveau des tokens des embeddings textuels. Les modifications sont appliquées en manipulant les embeddings le long de directions soigneusement choisies, qui contrôlent l'intensité de l'attribut cible. Pour identifier ces directions, nous utilisons un Autoencodeur Sparse (SAE), dont l'espace latent sparse expose des dimensions sémantiquement isolées. Notre méthode opère directement sur les embeddings textuels sans modifier le processus de diffusion, la rendant agnostique au modèle et largement applicable à diverses architectures de synthèse d'images. Les expériences montrent qu'elle permet des manipulations intuitives et efficaces avec un contrôle continu sur divers attributs et domaines.
Les grands modèles de langage (LLMs) ont récemment démontré un fort potentiel dans la reconnaissance audio-visuelle de la parole (AVSR), mais leurs exigences computationnelles élevées et leur sensibilité à la granularité des tokens limitent leur praticabilité dans des environnements à ressources contraintes. Les méthodes de compression de tokens peuvent réduire les coûts d'inférence, mais elles nécessitent de fixer un taux de compression à l'avance et produisent une sortie de longueur fixe, offrant peu de flexibilité pour équilibrer la densité d'information et l'efficacité au moment de l'inférence. L'apprentissage de représentations Matryoshka (MRL) aborde ce problème en permettant à un seul modèle de fonctionner à plusieurs granularités de tokens, autorisant ainsi l'ajustement dynamique des taux de compression. Cependant, les méthodes actuelles basées sur MRL traitent chaque échelle de manière indépendante pendant l'entraînement, limitant la généralisation inter-échelles, la robustesse à haute compression et l'interprétabilité. Pour surmonter ces limitations, nous proposons MoME (Mixture of Matryoshka Experts), un cadre novateur qui intègre un mélange épars d'experts (MoE) dans les LLMs basés sur MRL pour l'AVSR. MoME enrichit un LLM figé avec des experts routés et partagés top-k, permettant une allocation dynamique de la capacité à travers les échelles et les modalités. Un routeur partagé favorise une activation cohérente des experts à travers les granularités, permettant aux séquences compressées de bénéficier des représentations apprises à des compressions plus faibles. Les expériences sur LRS2 et LRS3 démontrent que MoME atteint des performances de pointe dans les tâches d'AVSR, ASR et VSR, tout en nécessitant significativement moins de paramètres et en maintenant une robustesse face au bruit. MoME unifie l'adaptabilité du MRL avec l'efficacité du MoE, offrant une solution scalable et interprétable pour la reconnaissance de la parole adaptée aux ressources.
L'apprentissage par renforcement (RL) est devenu central pour améliorer le raisonnement dans les grands modèles de langage (LLMs). Cependant, les algorithmes on-policy tels que l'Optimisation de Politique Relative par Groupe (GRPO) souffrent souvent en début d'entraînement : des gradients bruités provenant de trajectoires de faible qualité entraînent des mises à jour instables et une exploration inefficace. Nous introduisons l'Optimisation de Politique Lente-Rapide (SFPO), un cadre simple mais efficace pour résoudre ces limitations en décomposant chaque étape en trois phases : une courte trajectoire rapide de pas internes sur le même lot, un mécanisme de repositionnement pour contrôler la dérive off-policy, et une correction lente finale. Cette conception de repositionnement avant mise à jour préserve l'objectif et le processus de trajectoire inchangés, rendant SFPO compatible avec les pipelines existants de gradient de politique. Des expériences approfondies démontrent que SFPO améliore systématiquement la stabilité, réduit les trajectoires et accélère la convergence de l'entraînement RL pour le raisonnement. Plus précisément, il surpasse GRPO jusqu'à 2,80 points en moyenne sur des benchmarks de raisonnement mathématique. Il réalise également jusqu'à 4,93 trajectoires en moins et une réduction de 4,19 du temps d'exécution pour atteindre la meilleure précision de GRPO.
Une interaction fluide de voix à voix nécessite une détection fiable et à faible latence du moment où un utilisateur a terminé de parler. Les détecteurs de fin de parole traditionnels basés sur le silence audio ajoutent des centaines de millisecondes de délai et échouent face aux hésitations ou aux phénomènes spécifiques à la langue. Nous présentons, à notre connaissance, la première étude systématique de la détection de fin de tour (EOT) en thaï basée uniquement sur le texte pour des agents en temps réel. Nous comparons l'approche zero-shot et few-shot avec des modèles de langage compacts (LLMs) au fine-tuning supervisé de transformateurs légers. En utilisant des sous-titres transcrits du corpus YODAS et des indices linguistiques spécifiques au thaï (par exemple, les particules de fin de phrase), nous formulons l'EOT comme une décision binaire sur les limites des tokens. Nous rapportons un compromis clair entre précision et latence et fournissons un plan d'implémentation prêt pour le public. Ce travail établit une référence pour le thaï et démontre que des petits modèles finement ajustés peuvent fournir des décisions EOT quasi instantanées, adaptées aux agents embarqués.
Malgré les avancées dans la reconnaissance automatique de la parole multilingue (ASR), l'alternance codique (CS), c'est-à-dire le mélange de langues au sein d'un énoncé courant dans le discours quotidien, reste un défi largement sous-exploré. Dans cet article, nous présentons HiKE : le benchmark hiérarchique d'alternance codique coréen-anglais, le premier cadre d'évaluation accessible mondialement pour l'alternance codique coréen-anglais, visant à fournir un moyen d'évaluation précise des modèles ASR multilingues et à stimuler la recherche dans ce domaine. Le cadre proposé comprend non seulement des données de CS naturelles et de haute qualité couvrant divers sujets, mais fournit également des étiquettes méticuleuses pour les emprunts lexicaux et un schéma d'étiquetage hiérarchique des niveaux de CS (mot, phrase et phrase), permettant ainsi une évaluation systématique de la capacité d'un modèle à gérer chaque niveau distinct d'alternance codique. À travers l'évaluation de divers modèles ASR multilingues et des expériences de fine-tuning, cet article démontre que bien que la plupart des modèles ASR multilingues rencontrent initialement des difficultés avec le CS-ASR, cette capacité peut être activée par un fine-tuning avec des données de CS. HiKE sera disponible à l'adresse https://github.com/ThetaOne-AI/HiKE.
La conversion de questions en langage naturel en requêtes SQL (Text-to-SQL) permet aux utilisateurs non experts d'interagir avec des bases de données relationnelles et constitue depuis longtemps une tâche centrale pour les interfaces en langage naturel dédiées aux données. Bien que le jeu de données WikiSQL ait joué un rôle clé dans les premières recherches sur le NL2SQL, son utilisation a diminué en raison de problèmes structurels et d'annotation, notamment des incohérences de sensibilité à la casse, des incompatibilités de types de données, des erreurs de syntaxe et des questions sans réponse. Nous présentons LLMSQL, une révision et une transformation systématique de WikiSQL conçue pour l'ère des LLM. Nous classifions ces erreurs et mettons en œuvre des méthodes automatisées de nettoyage et de ré-annotation. Pour évaluer l'impact de ces améliorations, nous avons testé plusieurs grands modèles de langage (LLM), notamment Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 et d'autres. Plutôt que de servir de mise à jour, LLMSQL est introduit comme un benchmark prêt pour les LLM : contrairement au WikiSQL original, conçu pour des modèles à réseau de pointeurs sélectionnant des tokens en entrée, LLMSQL fournit des questions en langage naturel propres et des requêtes SQL complètes sous forme de texte brut, permettant une génération et une évaluation directes pour les modèles modernes de conversion du langage naturel en SQL.
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) sont entraînés de manière flexible pour modéliser des dépendances extrêmes dans la distribution des données ; cependant, la meilleure façon d'utiliser cette information au moment de l'inférence reste un problème ouvert. Dans ce travail, nous découvrons une propriété intéressante de ces modèles : les dLLMs entraînés sur des données textuelles apprennent implicitement un mélange d'experts semi-autorégressifs, où différents ordres de génération révèlent des comportements spécialisés distincts. Nous montrons que s'en tenir à un seul et unique ordre d'inférence fixe, une pratique courante, dégrade les performances en ne tirant pas parti de cet ensemble latent. Pour résoudre ce problème, nous introduisons HEX (Hidden semiautoregressive EXperts for test-time scaling), une méthode d'inférence sans entraînement supplémentaire qui combine des ordres de blocs hétérogènes. En effectuant un vote majoritaire sur des chemins de génération de tailles de blocs variées, HEX évite robustement les modes d'échec associés à tout ordre fixe unique. Sur des benchmarks de raisonnement tels que GSM8K, il améliore la précision jusqu'à 3,56 fois (de 24,72 % à 88,10 %), surpassant l'inférence par marge top-K et des méthodes spécialisées comme GRPO, sans entraînement supplémentaire. HEX produit même des gains significatifs sur le benchmark MATH, passant de 16,40 % à 40,00 %, sur le raisonnement scientifique ARC-C de 54,18 % à 87,80 %, et sur TruthfulQA de 28,36 % à 57,46 %. Nos résultats établissent un nouveau paradigme pour la mise à l'échelle au moment de l'inférence dans les dLLMs basés sur la diffusion, révélant que la séquence dans laquelle le masquage est effectué joue un rôle critique dans la détermination des performances lors de l'inférence.
Alors que les agents de grands modèles de langage (LLM) acquièrent de plus en plus de capacités d'auto-évolution pour s'adapter et affiner leurs stratégies grâce à l'interaction avec le monde réel, leur fiabilité à long terme devient une préoccupation majeure. Nous identifions le Processus de Basculement de l'Alignement (ATP), un risque critique post-déploiement propre aux agents LLM auto-évolutifs. Contrairement aux échecs lors de l'entraînement, l'ATP survient lorsque des interactions continues poussent les agents à abandonner les contraintes d'alignement établies pendant l'entraînement au profit de stratégies renforcées et égoïstes. Nous formalisons et analysons l'ATP à travers deux paradigmes complémentaires : l'Exploration Égoïste, où des déviations répétées à haut rendement induisent une dérive comportementale individuelle, et la Diffusion Stratégique Imitative, où les comportements déviants se propagent dans les systèmes multi-agents. Sur la base de ces paradigmes, nous construisons des environnements de test contrôlés et évaluons Qwen3-8B et Llama-3.1-8B-Instruct. Nos expériences montrent que les bénéfices de l'alignement s'érodent rapidement sous l'auto-évolution, avec des modèles initialement alignés convergeant vers des états non alignés. Dans les contextes multi-agents, les violations réussies se diffusent rapidement, conduisant à un désalignement collectif. De plus, les méthodes actuelles d'alignement basées sur l'apprentissage par renforcement offrent des défenses fragiles contre le basculement de l'alignement. Ensemble, ces résultats démontrent que l'alignement des agents LLM n'est pas une propriété statique mais une propriété fragile et dynamique, vulnérable à une dégradation pilotée par les retours d'expérience pendant le déploiement. Nos données et notre code sont disponibles à l'adresse https://github.com/aiming-lab/ATP.
Les architectures Mixture-of-Experts (MoE) sont devenues essentielles pour la mise à l'échelle des grands modèles de langage (LLM) modernes, mais on comprend encore peu comment leur dynamique de routage parcimonieux réagit aux données multilingues. Dans ce travail, nous analysons les schémas de routage des experts à l'aide de jeux de données multilingues parallèles et présentons des phénomènes hautement interprétables, couche par couche. Nous constatons que les modèles MoE routent les tokens de manière spécifique à la langue dans les premières et dernières couches du décodeur, mais montrent un alignement significatif du routage interlingue dans les couches intermédiaires, reflétant les tendances de partage de paramètres observées dans les LLM denses. En particulier, nous révélons une corrélation claire et forte entre la performance d'un modèle dans une langue donnée et la similarité avec laquelle ses tokens sont routés vers l'anglais dans ces couches. Au-delà de la corrélation, nous explorons des interventions au moment de l'inférence qui induisent un alignement accru du routage interlingue. Nous introduisons une méthode qui oriente le routeur en favorisant les experts de tâches des couches intermédiaires fréquemment activés en anglais, et elle augmente avec succès les performances multilingues. Ces gains de 1 à 2 % sont remarquablement cohérents à travers deux tâches d'évaluation, trois modèles et plus de 15 langues, surtout étant donné que ces interventions simples surchargent les routeurs de LLM de pointe, longuement entraînés. En comparaison, les interventions en dehors des couches intermédiaires ou ciblant des experts spécialisés multilingues ne produisent qu'une dégradation des performances. Au total, nous présentons de nombreuses découvertes qui expliquent comment les MoE traitent le texte non-anglais et démontrons que la généralisation est limitée par la capacité du modèle à exploiter des experts universels à toutes les langues.
Les humains sont doués pour apprendre sur le tas : nous apprenons à résoudre les tâches auxquelles nous sommes confrontés au fur et à mesure. Un modèle peut-il en faire de même ? Nous proposons un agent qui assemble un curriculum spécifique à la tâche, appelé curriculum en temps de test (TTC-RL), et applique l'apprentissage par renforcement pour continuer à entraîner le modèle sur sa tâche cible. Le curriculum en temps de test évite la curation fastidieuse des ensembles de données par des humains en sélectionnant automatiquement les données les plus pertinentes pour la tâche à partir d'un vaste pool de données d'entraînement disponibles. Nos expériences démontrent que l'apprentissage par renforcement sur un curriculum en temps de test améliore systématiquement les performances du modèle sur ses tâches cibles, à travers une variété d'évaluations et de modèles. Notamment, sur des benchmarks exigeants en mathématiques et en codage, TTC-RL améliore le pass@1 de Qwen3-8B d'environ 1,8x sur AIME25 et de 2,1x sur CodeElo. De plus, nous constatons que TTC-RL élève significativement le plafond de performance par rapport au modèle initial, augmentant le pass@8 sur AIME25 de 40 % à 62 % et sur CodeElo de 28 % à 43 %. Nos résultats montrent le potentiel des curriculums en temps de test pour étendre le paradigme de mise à l'échelle en temps de test à un entraînement continu sur des milliers d'expériences pertinentes pour la tâche pendant le temps de test.
À mesure que les systèmes tendent vers la superintelligence, une prémisse de modélisation naturelle est que les agents peuvent s’auto-améliorer sur tous les aspects de leur propre conception. Nous formalisons cela avec une décomposition en cinq axes et une couche de décision, séparant les incitations du comportement d’apprentissage et analysant les axes de manière isolée. Notre résultat principal identifie et introduit une tension nette entre utilité et apprentissage, le conflit structurel dans les systèmes auto-modifiables où les changements motivés par l’utilité qui améliorent les performances immédiates ou attendues peuvent également éroder les préconditions statistiques pour un apprentissage et une généralisation fiables. Nos résultats montrent que les garanties indépendantes de la distribution sont préservées si et seulement si la famille de modèles accessible par la politique est uniformément bornée en capacité ; lorsque la capacité peut croître sans limite, les auto-modifications rationnelles en termes d’utilité peuvent rendre des tâches apprenables inapprenables. Sous des hypothèses standard couramment utilisées en pratique, ces axes se réduisent au même critère de capacité, produisant une frontière unique pour une auto-modification sûre. Des expériences numériques sur plusieurs axes valident la théorie en comparant des politiques d’utilité destructrices à nos politiques à deux portes proposées, qui préservent l’apprenabilité.
Les grands modèles de langage (LLMs) ont tendance à générer des textes lexiquement, sémantiquement et stylistiquement homogènes. Cela pose un risque d'effondrement des connaissances, où des LLMs homogènes entraînent une réduction de la gamme d'informations accessibles au fil du temps. Les travaux existants sur l'homogénéisation sont limités par une focalisation sur des configurations à choix multiples fermées ou sur des caractéristiques sémantiques floues, et n'examinent pas les tendances à travers le temps et les contextes culturels. Pour surmonter cela, nous présentons une nouvelle méthodologie pour mesurer la diversité épistémique, c'est-à-dire la variation des affirmations sur le monde réel dans les sorties des LLMs, que nous utilisons pour mener une vaste étude empirique sur l'effondrement des connaissances dans les LLMs. Nous testons 27 LLMs, 155 sujets couvrant 12 pays, et 200 variations de prompts issues de discussions réelles d'utilisateurs. Pour les sujets de notre étude, nous montrons que si les modèles plus récents tendent à générer des affirmations plus diversifiées, presque tous les modèles sont moins diversifiés sur le plan épistémique qu'une recherche web basique. Nous constatons que la taille du modèle a un impact négatif sur la diversité épistémique, tandis que la génération augmentée par récupération (RAG) a un impact positif, bien que l'amélioration apportée par la RAG varie selon le contexte culturel. Enfin, par rapport à une source de connaissances traditionnelle (Wikipedia), nous constatons que les affirmations spécifiques à un pays reflètent davantage la langue anglaise que la langue locale, mettant en évidence un écart dans la représentation épistémique.
Nous présentons Paris, le premier modèle de diffusion pré-entraîné entièrement par calcul décentralisé et rendu public. Paris démontre qu’une génération d’images à partir de texte de haute qualité peut être réalisée sans infrastructure centralisée. Paris est ouvert à la recherche et à l’utilisation commerciale. Le développement de Paris a nécessité la mise en œuvre de notre cadre de formation décentralisée Distributed Diffusion Training à partir de zéro. Le modèle est composé de 8 modèles experts de diffusion (129M à 605M de paramètres chacun), entraînés en isolation complète sans synchronisation des gradients, des paramètres ou des activations intermédiaires. Plutôt que de nécessiter des mises à jour synchronisées des gradients sur des milliers de GPU, nous partitionnons les données en clusters sémantiquement cohérents, où chaque expert optimise indépendamment son sous-ensemble tout en approximant collectivement la distribution complète. Un routeur transformateur léger sélectionne dynamiquement les experts appropriés lors de l’inférence, atteignant une qualité de génération comparable aux modèles centralisés. L’élimination de la synchronisation permet un entraînement sur du matériel hétérogène sans interconnexions spécialisées. La validation empirique confirme que l’entraînement décentralisé de Paris maintient la qualité de génération tout en supprimant la nécessité d’un cluster de GPU dédié pour les modèles de diffusion à grande échelle. Paris y parvient en utilisant 14 fois moins de données d’entraînement et 16 fois moins de calcul que le précédent modèle décentralisé de référence.
Le discours sur les risques liés à la vie privée dans les modèles de langage de grande taille (LLMs) s'est concentré de manière disproportionnée sur la mémorisation textuelle des données d'entraînement, tandis qu'une constellation de menaces plus immédiates et évolutives pour la vie privée reste sous-explorée. Ce document de position soutient que le paysage de la vie privée dans les systèmes LLM s'étend bien au-delà de l'extraction des données d'entraînement, englobant des risques liés aux pratiques de collecte de données, aux fuites de contexte lors de l'inférence, aux capacités des agents autonomes, et à la démocratisation de la surveillance via des attaques d'inférence profonde. Nous présentons une taxonomie complète des risques pour la vie privée tout au long du cycle de vie des LLM — de la collecte des données jusqu'au déploiement — et démontrons, à travers des études de cas, comment les cadres actuels de protection de la vie privée échouent à répondre à ces menaces multifacettes. Grâce à une analyse longitudinale de 1 322 articles sur la vie privée en IA/ML publiés dans des conférences majeures au cours de la dernière décennie (2016–2025), nous révélons que si la mémorisation reçoit une attention excessive dans la recherche technique, les préjudices les plus pressants pour la vie privée se situent ailleurs, où les approches techniques actuelles offrent peu de prise et où les voies viables à suivre restent incertaines. Nous appelons à un changement fondamental dans la manière dont la communauté de recherche aborde la vie privée dans les LLM, en dépassant l'étroite focalisation des solutions techniques actuelles et en adoptant des approches interdisciplinaires qui prennent en compte la nature sociotechnique de ces menaces émergentes.
Les systèmes multi-agents basés sur LLM excellent dans la planification, l'utilisation d'outils et la coordination des rôles, mais leur ouverture et leur complexité d'interaction les exposent également aux risques de jailbreak, d'injection de prompts et de collaboration adversaire. Les défenses existantes se divisent en deux approches : (i) l'auto-vérification, qui demande à chaque agent de pré-filtrer les instructions dangereuses avant leur exécution, et (ii) les modules de surveillance externes qui contrôlent les comportements. La première approche sous-performe souvent car un agent isolé manque de capacité pour détecter les chaînes dangereuses inter-agents et les risques induits par la délégation ; la seconde augmente la surcharge du système et crée un point de défaillance unique—une fois compromis, la sécurité globale s'effondre, et l'ajout de plus de gardes aggrave les coûts et la complexité. Pour résoudre ces défis, nous proposons AdvEvo-MARL, un cadre d'apprentissage par renforcement multi-agent co-évolutif qui intègre la sécurité dans les agents de tâche. Plutôt que de s'appuyer sur des gardes externes, AdvEvo-MARL optimise conjointement les attaquants (qui synthétisent des prompts de jailbreak évolutifs) et les défenseurs (agents de tâche entraînés à accomplir leurs missions tout en résistant aux attaques) dans des environnements d'apprentissage adversaires. Pour stabiliser l'apprentissage et favoriser la coopération, nous introduisons une base publique pour l'estimation de l'avantage : les agents d'un même groupe fonctionnel partagent une base de retour moyen au niveau du groupe, permettant des mises à jour à plus faible variance et une meilleure coordination intra-groupe. Dans divers scénarios d'attaque représentatifs, AdvEvo-MARL maintient systématiquement le taux de réussite des attaques (ASR) en dessous de 20 %, tandis que les approches de référence atteignent jusqu'à 38,33 %, tout en préservant—et parfois en améliorant—la précision des tâches (jusqu'à +3,67 % sur les tâches de raisonnement). Ces résultats montrent que la sécurité et l'utilité peuvent être améliorées conjointement sans recourir à des agents de garde supplémentaires ni augmenter la surcharge du système.
Alors que les agents pilotés par des modèles de langage multimodaux (LLM) continuent de progresser en termes d'autonomie et de généralisation, l'évaluation basée sur des ensembles de données statiques ne permet plus d'appréhender adéquatement leurs véritables capacités dans des environnements dynamiques et des tâches variées. Les méthodes existantes de génération de données synthétiques basées sur les LLM sont principalement conçues pour l'entraînement et l'évaluation des LLM, et ne peuvent donc pas être directement appliquées aux tâches d'agents nécessitant l'utilisation d'outils et des capacités interactives. Bien que des études récentes aient exploré la génération automatique de tâches pour les agents à l'aide des LLM, la plupart des efforts se limitent à l'analyse de texte ou d'images, sans modéliser systématiquement les interactions multi-étapes dans des environnements web. Pour relever ces défis, nous proposons Graph2Eval, un cadre basé sur des graphes de connaissances qui génère automatiquement des tâches de compréhension de documents multimodaux et des tâches d'interaction web, permettant une évaluation complète des capacités de raisonnement, de collaboration et d'interaction des agents. Dans notre approche, les graphes de connaissances construits à partir de données externes multi-sources servent d'espace de tâches, où nous traduisons les relations sémantiques en tâches multimodales structurées en utilisant l'échantillonnage de sous-graphes, des modèles de tâches et des méta-chemins. Un pipeline de filtrage multi-étapes basé sur l'accessibilité des nœuds, le scoring par LLM et l'analyse de similarité est appliqué pour garantir la qualité et l'exécutabilité des tâches générées. De plus, Graph2Eval prend en charge l'évaluation de bout en bout de plusieurs types d'agents (Agent Unique, Multi-Agents, Agent Web) et mesure les capacités de raisonnement, de collaboration et d'interaction. Nous instancions ce cadre avec Graph2Eval-Bench, un ensemble de données soigneusement sélectionné comprenant 1 319 tâches couvrant des scénarios de compréhension de documents et d'interaction web. Les expériences montrent que Graph2Eval génère efficacement des tâches qui différencient les performances des agents et des modèles, révélant des lacunes dans le raisonnement, la collaboration et l'interaction web dans différents contextes, et offrant une nouvelle perspective pour l'évaluation des agents.
Les transformations de puissance sont des techniques paramétriques populaires pour rendre les données plus proches d'une distribution gaussienne, et sont largement utilisées comme étapes de prétraitement dans l'analyse statistique et l'apprentissage automatique. Cependant, nous constatons que les implémentations directes des transformations de puissance souffrent de graves instabilités numériques, pouvant conduire à des résultats incorrects voire à des plantages. Dans cet article, nous proposons une analyse approfondie des sources de ces instabilités et suggérons des remèdes efficaces. Nous étendons également les transformations de puissance au cadre de l'apprentissage fédéré, en abordant à la fois les défis numériques et distributionnels qui surviennent dans ce contexte. Des expériences sur des jeux de données réels démontrent que nos méthodes sont à la fois efficaces et robustes, améliorant considérablement la stabilité par rapport aux approches existantes.
Les courbes ROC (Receiver Operating Characteristic) et PR (Precision-Recall) sont des outils fondamentaux pour évaluer les classificateurs en apprentissage automatique, offrant des informations détaillées sur les compromis entre le taux de vrais positifs et le taux de faux positifs (ROC) ou entre la précision et le rappel (PR). Cependant, dans les scénarios d'apprentissage fédéré (Federated Learning, FL), où les données sont distribuées sur plusieurs clients, le calcul de ces courbes est complexe en raison des contraintes de confidentialité et de communication. Plus précisément, le serveur ne peut pas accéder aux scores de prédiction bruts et aux étiquettes de classe, qui sont utilisés pour calculer les courbes ROC et PR dans un cadre centralisé. Dans cet article, nous proposons une nouvelle méthode pour approximer les courbes ROC et PR dans un contexte fédéré en estimant les quantiles de la distribution des scores de prédiction sous le cadre de la confidentialité différentielle distribuée. Nous fournissons des bornes théoriques sur l'erreur d'aire (Area Error, AE) entre les courbes réelles et estimées, mettant en évidence les compromis entre la précision de l'approximation, la confidentialité et le coût de communication. Les résultats empiriques sur des jeux de données réels montrent que notre méthode atteint une grande précision d'approximation avec une communication minimale et des garanties de confidentialité solides, la rendant pratique pour l'évaluation de modèles préservant la confidentialité dans les systèmes fédérés.
Nous publions Code World Model (CWM), un modèle de langage de grande taille (LLM) à 32 milliards de paramètres et à poids ouverts, afin de faire progresser la recherche sur la génération de code avec des modèles du monde. Pour améliorer la compréhension du code au-delà de ce qui peut être appris par l'entraînement sur du code statique seul, nous avons effectué un entraînement intermédiaire de CWM sur un grand nombre de trajectoires d'observation-action provenant d'interpréteurs Python et d'environnements Docker agentiques, et avons réalisé un raisonnement multi-tâches approfondi par apprentissage par renforcement (RL) dans des environnements de codage vérifiable, de mathématiques et d'ingénierie logicielle multi-tours. Avec CWM, nous offrons un banc d'essai solide pour que les chercheurs explorent les opportunités que la modélisation du monde offre pour améliorer la génération de code avec raisonnement et planification dans des environnements computationnels. Nous présentons les premières étapes montrant comment les modèles du monde peuvent bénéficier au codage agentique, permettre une simulation étape par étape de l'exécution de code Python, et montrons des résultats préliminaires sur la manière dont le raisonnement peut tirer parti de cette simulation. CWM est un LLM dense, de type décodeur uniquement, entraîné avec une taille de contexte allant jusqu'à 131 000 tokens. Indépendamment de ses capacités de modélisation du monde, CWM offre des performances solides sur des tâches générales de codage et de mathématiques : il atteint des scores pass@1 de 65,8 % sur SWE-bench Verified (avec mise à l'échelle au moment du test), 68,6 % sur LiveCodeBench, 96,6 % sur Math-500, et 76,0 % sur AIME 2024. Pour soutenir les recherches futures sur la modélisation du monde du code, nous publions les points de contrôle du modèle après l'entraînement intermédiaire, le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL).