papers.description
Les LLM modernes sont entraînés à « penser » principalement via la génération explicite de texte, comme le raisonnement en chaîne (chain-of-thought, CoT), ce qui reporte le raisonnement après l'entraînement et sous-utilise les données de pré-entraînement. Nous présentons et ouvrons les sources d'Ouro, nommé d'après l'Ouroboros récursif, une famille de modèles de langage à boucle pré-entraînés (LoopLM) qui intègrent plutôt le raisonnement dans la phase de pré-entraînement grâce à (i) un calcul itératif dans l'espace latent, (ii) une fonction de coût à régularisation d'entropie pour l'allocation apprise de la profondeur, et (iii) une mise à l'échelle sur 7,7 billions de tokens. Les modèles Ouro 1,4B et 2,6B bénéficient de performances supérieures, égalant les résultats de LLM à l'état de l'art allant jusqu'à 12B sur un large éventail de benchmarks. Par des expériences contrôlées, nous montrons que cet avantage ne provient pas d'une capacité de connaissance accrue, mais de capacités supérieures de manipulation des connaissances. Nous montrons également que LoopLM produit des traces de raisonnement plus alignées avec les sorties finales que le CoT explicite. Nous espérons que nos résultats démontrent le potentiel de LoopLM comme une nouvelle direction de mise à l'échelle dans l'ère du raisonnement. Notre modèle est disponible à l'adresse : http://ouro-llm.github.io.
Le domaine de l'intelligence du code neuronal s'étend rapidement au-delà du code source textuel pour englober les riches sorties visuelles générées par les programmes. Cette dimension visuelle est cruciale pour des applications avancées telles que la génération flexible de contenu et l'édition précise et pilotée par programme de visualisations. Cependant, les progrès sont entravés par la rareté de données de code multimodales de haute qualité, un goulot d'étranglement découlant des difficultés de synthèse et d'évaluation de la qualité. Pour relever ces défis, nous apportons des contributions tant sur le plan des données que de la modélisation. Nous présentons d'abord une boîte à outils de synthèse complète qui exploite les synergies réciproques entre les modalités de données pour produire efficacement un corpus à grande échelle et de haute qualité, allant des graphiques standards aux interfaces web interactives complexes et aux animations pilotées par le code. En tirant parti de cet outil, nous construisons JanusCode-800K, le plus grand corpus de code multimodal à ce jour. Cela alimente l'entraînement de nos modèles, JanusCoder et JanusCoderV, qui établissent une interface visuo-programmatique pour générer du code à partir d'instructions textuelles, d'entrées visuelles ou d'une combinaison des deux. Notre modèle unifié marque une rupture avec les approches existantes qui construisent des modèles spécialisés pour des tâches isolées. Des expérimentations approfondies sur des tâches de codage centrées sur le texte et sur la vision démontrent la performance supérieure de la série JanusCoder, avec nos modèles de 7B à 14B approchant ou dépassant même les performances des modèles commerciaux. De plus, une analyse approfondie fournit des insights clés sur l'harmonisation de la logique programmatique avec son expression visuelle. Notre code et nos points de contrôle sont disponibles à l'adresse https://github.com/InternLM/JanusCoder.
Les récentes avancées en méthodes de raisonnement visuel, particulièrement le paradigme "Penser avec les Images", ont démontré des succès remarquables dans les Modèles de Langue Multimodaux (MLLMs) ; cependant, ce paradigme de raisonnement dynamique n'a pas encore été étendu aux tâches de raisonnement vidéo. Dans cet article, nous proposons Video-Thinker, qui permet aux MLLMs de raisonner avec des vidéos en exploitant de manière autonome leurs capacités intrinsèques d'"ancrage" et de "description" pour générer des indices de raisonnement tout au long du processus d'inférence. Pour stimuler cette capacité, nous construisons Video-Thinker-10K, un jeu de données organisé mettant en œuvre l'utilisation autonome d'outils au sein de séquences de raisonnement en chaîne de pensée. Notre stratégie d'entraînement commence par un Réglage Fin Supervisé (SFT) pour apprendre le format de raisonnement, suivi par une Optimisation de Politique Relative par Groupe (GRPO) pour renforcer cette capacité de raisonnement. Grâce à cette approche, Video-Thinker permet aux MLLMs de naviguer de manière autonome entre les tâches d'ancrage et de description pour le raisonnement vidéo, éliminant le besoin de construire et d'invoquer des outils externes. Des expérimentations approfondies démontrent que Video-Thinker obtient des gains de performance significatifs sur les tâches en domaine contrôlé et sur des benchmarks exigeants de raisonnement vidéo hors domaine, incluant Video-Holmes, CG-Bench-Reasoning et VRBench. Notre modèle Video-Thinker-7B surpasse substantiellement les méthodes de référence existantes comme Video-R1 et établit l'état de l'art parmi les MLLMs de taille 7B.
Cette monographie présente les principes fondamentaux qui ont guidé le développement des modèles de diffusion, en retraçant leurs origines et en montrant comment des formulations diverses émergent d'idées mathématiques partagées. La modélisation par diffusion commence par définir un processus direct qui corrompt progressivement les données en bruit, reliant la distribution des données à un a priori simple à travers un continuum de distributions intermédiaires. L'objectif est d'apprendre un processus inverse qui transforme le bruit en données tout en reconstituant les mêmes intermédiaires. Nous décrivons trois perspectives complémentaires. La perspective variationnelle, inspirée des autoencodeurs variationnels, considère la diffusion comme l'apprentissage de l'élimination progressive du bruit. La perspective basée sur les scores, issue de la modélisation énergétique, apprend le gradient de la distribution évolutive des données, indiquant comment déplacer les échantillons vers des régions plus probables. La perspective basée sur les flots, liée aux flots de normalisation, traite la génération comme le suivi d'un chemin lisse qui déplace les échantillons du bruit vers les données sous un champ de vitesse appris. Ces perspectives partagent une ossature commune : un champ de vitesse dépendant du temps dont le flot transporte un a priori simple vers les données. L'échantillonnage revient alors à résoudre une équation différentielle qui fait évoluer le bruit en données le long d'une trajectoire continue. Sur cette base, la monographie aborde le guidage pour la génération contrôlable, les solveurs numériques efficaces et les modèles de flot motivés par la diffusion qui apprennent des mappings directs entre des temps arbitraires. Elle offre une compréhension conceptuelle et mathématiquement fondée des modèles de diffusion pour les lecteurs possédant des connaissances de base en apprentissage profond.
L'autoformalisation, qui traduit les mathématiques en langage naturel en énoncés formels vérifiables par machine, est essentielle pour utiliser le raisonnement mathématique formel afin de résoudre des problèmes mathématiques énoncés en langage naturel. Bien que les grands modèles de langage puissent générer des énoncés formels syntaxiquement corrects, ils échouent souvent à préserver l'intention sémantique originale du problème. Cette limitation découle du fait que les approches par LLM traitent l'autoformalisation comme une tâche de traduction simpliste, dépourvue des mécanismes d'autoréflexion et de raffinement itératif qu'emploient naturellement les experts humains. Pour résoudre ces problèmes, nous proposons ReForm, une méthode d'Autoformalisation Réflexive qui intègre étroitement l'évaluation de la cohérence sémantique dans le processus d'autoformalisation. Cela permet au modèle de générer itérativement des énoncés formels, d'évaluer leur fidélité sémantique et de s'auto-corriger des erreurs identifiées via un raffinement progressif. Pour entraîner efficacement ce modèle réflexif, nous introduisons l'Optimisation de Séquence à Borne Prospective (PBSO), qui utilise des récompenses différentes à différentes positions de la séquence pour garantir que le modèle développe à la fois une autoformalisation précise et des validations sémantiques correctes, évitant ainsi les critiques superficielles qui compromettraient l'objectif de la réflexion. Des expériences approfondies sur quatre benchmarks d'autoformalisation démontrent que ReForm obtient une amélioration moyenne de 17,2 points de pourcentage par rapport aux lignes de base les plus solides. Pour garantir davantage la fiabilité de l'évaluation, nous introduisons ConsistencyCheck, un benchmark de 859 éléments annotés par des experts qui valide non seulement les LLMs en tant qu'évaluateurs, mais révèle aussi que l'autoformalisation est intrinsèquement difficile : même les experts humains produisent des erreurs sémantiques dans jusqu'à 38,5 % des cas.
Les agents linguistiques destinés à des applications réelles doivent gérer des flux de travail complexes et multi-étapes à travers diverses applications. Par exemple, un agent peut gérer des courriels en se coordonnant avec des calendriers et des systèmes de fichiers, ou surveiller une base de données de production pour détecter des anomalies et générer des rapports conformément à un manuel d'exploitation. Cependant, les benchmarks existants pour les agents linguistiques se concentrent souvent sur des domaines restreints ou des tâches simplifiées, qui manquent de la diversité, du réalisme et de la complexité à long terme nécessaires pour évaluer les performances des agents dans des conditions réelles. Pour combler cette lacune, nous présentons le Tool Decathlon (surnommé Toolathlon), un benchmark pour les agents linguistiques offrant une diversité d'applications et d'outils, une configuration d'environnement réaliste et une évaluation fiable basée sur l'exécution. Toolathlon couvre 32 applications logicielles et 604 outils, allant de plateformes courantes comme Google Calendar et Notion à des outils professionnels tels que WooCommerce, Kubernetes et BigQuery. La plupart des outils sont basés sur un ensemble de haute qualité de serveurs Model Context Protocol (MCP) que nous avons pu réviser ou implémenter nous-mêmes. Contrairement aux travaux antérieurs, qui assurent principalement un réalisme fonctionnel mais offrent une diversité limitée des états de l'environnement, nous fournissons des états initiaux réalistes issus de logiciels réels, tels que des cours Canvas avec des dizaines d'étudiants ou de véritables feuilles de calcul financières. Ce benchmark inclut au total 108 tâches soigneusement sourcées ou conçues, nécessitant une interaction avec plusieurs applications sur environ 20 tours en moyenne pour être accomplies. Chaque tâche est strictement vérifiable via des scripts d'évaluation dédiés. L'évaluation complète des modèles de pointe (SOTA) met en lumière leurs lacunes significatives : le modèle le plus performant, Claude-4.5-Sonnet, n'atteint qu'un taux de réussite de 38,6 % avec en moyenne 20,2 appels d'outils par tâche, tandis que le meilleur modèle open-weights, DeepSeek-V3.2-Exp, atteint 20,1 %. Nous espérons que Toolathlon stimulera le développement d'agents linguistiques plus performants pour l'exécution de tâches réalistes et à long terme.
L'optimisation post-formation basée sur l'apprentissage par renforcement (RL) a été cruciale pour permettre le raisonnement à plusieurs étapes dans les grands modèles de raisonnement (LRM), mais les schémas de récompense actuels sont généralement centrés sur le résultat. Nous proposons PM4GRPO, une optimisation de politique relative par groupe (GRPO) consciente du raisonnement, qui augmente les récompenses standards de réponse/format avec des signaux sur la procédure de raisonnement. À cette fin, des techniques de process mining sont utilisées pour calculer une récompense de conformité scalaire qui mesure à quel point le raisonnement d'un modèle de politique s'aligne sur celui du modèle enseignant pré-entraîné. Les résultats empiriques sur cinq benchmarks démontrent que PM4GRPO surpasse significativement les méthodologies existantes pour l'optimisation post-formation basée sur GRPO. Ces résultats soulignent que l'exploitation du process mining pour une GRPO consciente du raisonnement améliore efficacement les capacités de raisonnement des modèles de politique.
Nous proposons Ming-Flash-Omni, une version améliorée de Ming-Omni, basée sur une variante plus éparse de Mixture-of-Experts (MoE) de Ling-Flash-2.0, totalisant 100 milliards de paramètres, dont seulement 6,1 milliards sont actifs par token. Cette architecture permet une mise à l'échelle hautement efficace (améliorant considérablement l'efficacité computationnelle tout en élargissant significativement la capacité du modèle) et renforce une intelligence multimodale unifiée plus performante couvrant la vision, la parole et le langage, représentant une étape clé vers l'Intelligence Artificielle Générale (IAG). Comparée à son prédécesseur, la version améliorée présente des progrès substantiels dans la compréhension et la génération multimodales. Nous améliorons significativement les capacités de reconnaissance vocale, atteignant des performances de pointe en reconnaissance vocale automatique (ASR) contextuelle et des résultats très compétitifs en ASR tenant compte des dialectes. En génération d'images, Ming-Flash-Omni introduit un rendu de texte haute fidélité et démontre des gains marqués en cohérence scénique et préservation de l'identité lors de l'édition d'images. De plus, Ming-Flash-Omni introduit la segmentation générative, une capacité qui non seulement atteint de solides performances de segmentation autonome, mais améliore également le contrôle spatial dans la génération d'images et renforce la cohérence de l'édition. Notamment, Ming-Flash-Omni obtient des résultats de pointe en génération d'images à partir de texte et en segmentation générative, et établit de nouveaux records sur les 12 benchmarks d'ASR contextuel, le tout au sein d'une architecture unifiée unique.
Les effets visuels (VFX) sont cruciaux pour la puissance expressive des médias numériques, mais leur création reste un défi majeur pour l'IA générative. Les méthodes prédominantes reposent souvent sur le paradigme "un-LoRA-par-effet", qui est gourmand en ressources et fondamentalement incapable de généraliser à des effets non vus, limitant ainsi l'évolutivité et la création. Pour relever ce défi, nous présentons VFXMaster, le premier cadre unifié et basé sur une référence pour la génération de vidéos VFX. Il reformule la génération d'effets comme une tâche d'apprentissage en contexte, lui permettant de reproduire divers effets dynamiques d'une vidéo de référence sur un contenu cible. De plus, il démontre une généralisation remarquable à des catégories d'effets non vues. Spécifiquement, nous concevons une stratégie de conditionnement en contexte qui sollicite le modèle avec un exemple de référence. Un masque d'attention en contexte est conçu pour découpler et injecter précisément les attributs essentiels de l'effet, permettant à un modèle unifié unique de maîtriser l'imitation d'effet sans fuite d'information. Par ailleurs, nous proposons un mécanisme d'adaptation d'effet efficace en un seul exemple pour booster rapidement la capacité de généralisation sur des effets non vus difficiles à partir d'une seule vidéo fournie par l'utilisateur. Des expériences approfondies démontrent que notre méthode imite efficacement diverses catégories d'information d'effet et présente une généralisation exceptionnelle à des effets hors domaine. Pour favoriser les recherches futures, nous mettrons à disposition notre code, nos modèles et un jeu de données complet auprès de la communauté.
Récemment, l'édition d'images basée sur des instructions (IIE) a suscité une attention considérable. En pratique, l'IIE modifie souvent uniquement des régions spécifiques d'une image, tandis que les zones restantes demeurent largement inchangées. Bien que ces deux types de régions diffèrent significativement en termes de difficulté de génération et de redondance computationnelle, les modèles d'IIE existants ne prennent pas en compte cette distinction, appliquant plutôt un processus de génération uniforme sur l'ensemble de l'image. Ce constat nous motive à proposer RegionE, un cadre de génération adaptatif et conscient des régions, qui accélère les tâches d'IIE sans apprentissage supplémentaire. Concrètement, le cadre RegionE se compose de trois éléments principaux : 1) Partition Adaptative des Régions. Nous avons observé que la trajectoire des régions non éditées est rectiligne, permettant de déduire les prédictions débruitées en plusieurs étapes en une seule étape. Ainsi, dans les premières phases de débruitage, nous partitionnons l'image en régions éditées et non éditées sur la base de la différence entre le résultat estimé final et l'image de référence. 2) Génération Consciente des Régions. Après avoir distingué les régions, nous remplaçons le débruitage multi-étapes par une prédiction en une étape pour les zones non éditées. Pour les régions éditées, la trajectoire est courbe, nécessitant un débruitage itératif local. Pour améliorer l'efficacité et la qualité de la génération itérative locale, nous proposons le Cache KV Région-Instruction, qui réduit le coût computationnel tout en intégrant l'information globale. 3) Cache à Décroissance de Vélocité Adaptative. En observant que les pas de temps adjacents dans les régions éditées présentent une forte similarité de vélocité, nous proposons en outre un cache à décroissance de vélocité adaptative pour accélérer le processus de débruitage local. Nous avons appliqué RegionE à des modèles de base d'IIE de pointe, incluant Step1X-Edit, FLUX.1 Kontext et Qwen-Image-Edit. RegionE a atteint des facteurs d'accélération de 2,57, 2,41 et 2,06. Des évaluations par GPT-4o ont confirmé que la fidélité sémantique et perceptuelle était bien préservée.
Les interactions biomoléculaires sont à la base de presque tous les processus biologiques, et leur conception rationnelle est essentielle pour programmer de nouvelles fonctions biologiques. Les modèles d'IA générative sont apparus comme des outils puissants pour la conception moléculaire, mais la plupart restent spécialisés pour des types moléculaires individuels et manquent de contrôle granulaire sur les détails des interactions. Nous présentons ici ODesign, un modèle génératif du monde à l'échelle atomique pour la conception d'interactions biomoléculaires tous-à-tous. ODesign permet aux scientifiques de spécifier des épitopes sur des cibles arbitraires et de générer diverses classes de partenaires de liaison avec un contrôle granulaire. Sur des benchmarks aux niveaux entité, token et atome dans la modalité protéique, ODesign démontre une contrôlabilité et des performances supérieures à celles des modèles de référence spécifiques à une modalité. Au-delà des protéines, il se généralise à la conception d'acides nucléiques et de petites molécules, permettant des types d'interactions tels que les ARN/ADN liant les protéines et les ligands liant les ARN/ADN, qui étaient auparavant inaccessibles. En unifiant les interactions biomoléculaires multimodales dans un cadre génératif unique, ODesign s'oriente vers un modèle général du monde moléculaire capable de conception programmable. ODesign est disponible à l'adresse https://odesign.lglab.ac.cn .
Les systèmes de Génération Augmentée par Récupération (RAG) deviennent de plus en plus cruciaux dans les domaines dynamiques comme le jeu en ligne, mais l'absence de benchmark dédié a entravé l'évaluation standardisée dans ce domaine. La difficulté centrale réside dans la Double Dynamique : l'interaction constante entre les mises à jour du contenu du jeu et l'évolution des centres d'intérêt de la communauté de joueurs. De plus, la nécessité d'automatiser un tel benchmark introduit un impératif critique d'authenticité centrée sur le joueur pour garantir que les questions générées soient réalistes. Pour relever ce défi intégré, nous présentons ChronoPlay, un cadre novateur pour la génération automatisée et continue de benchmarks RAG pour les jeux. ChronoPlay utilise un mécanisme de mise à jour double dynamique pour suivre les deux formes de changement, et un moteur de synthèse à double source qui puise dans les sources officielles et la communauté des joueurs pour garantir à la fois l'exactitude factuelle et l'authenticité des modèles de requêtes. Nous instancions notre cadre sur trois jeux distincts pour créer le premier benchmark RAG dynamique pour le domaine du jeu vidéo, offrant de nouvelles perspectives sur la performance des modèles dans ces conditions complexes et réalistes. Le code est disponible à l'adresse : https://github.com/hly1998/ChronoPlay.
Les humains possèdent des capacités de raisonnement spatial qui leur permettent de comprendre les espaces grâce à des observations multimodales, telles que la vision et l'ouïe. Les grands modèles de raisonnement multimodal étendent ces capacités en apprenant à percevoir et à raisonner, affichant des performances prometteuses dans diverses tâches spatiales. Cependant, les revues systématiques et les benchmarks publics pour ces modèles restent limités. Dans cette étude, nous proposons une revue complète des tâches de raisonnement spatial multimodal avec de grands modèles, en catégorisant les progrès récents des grands modèles linguistiques multimodaux (MLLM) et en introduisant des benchmarks ouverts pour l'évaluation. Nous commençons par décrire le raisonnement spatial général, en nous concentrant sur les techniques de post-entraînement, l'explicabilité et l'architecture. Au-delà des tâches classiques en 2D, nous examinons le raisonnement sur les relations spatiales, la compréhension des scènes et des agencements, ainsi que la réponse à des questions visuelles et l'ancrage dans l'espace 3D. Nous passons également en revue les progrès de l'IA incarnée, incluant la navigation et les modèles d'action vision-langage. De plus, nous considérons les modalités émergentes comme l'audio et la vidéo égocentrique, qui contribuent à une nouvelle compréhension spatiale grâce à de nouveaux capteurs. Nous pensons que cette étude établit une base solide et offre des perspectives sur le domaine croissant du raisonnement spatial multimodal. Les informations mises à jour sur cette étude, les codes et l'implémentation des benchmarks ouverts sont disponibles à l'adresse https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
La progression rapide et le déploiement généralisé des LLM et des agents pilotés par des LLM ont dépassé notre capacité à les évaluer. Les benchmarks statiques conçus manuellement constituent l'outil principal pour évaluer les capacités des modèles, mais ceux-ci deviennent rapidement saturés. En revanche, les benchmarks dynamiques évoluent parallèlement aux modèles qu'ils évaluent, mais sont coûteux à créer et à mettre à jour continuellement. Pour relever ces défis, nous développons BeTaL (Benchmark Tuning with an LLM-in-the-loop), un cadre qui exploite les principes de conception d'environnements pour automatiser le processus de conception de benchmarks dynamiques. BeTaL fonctionne en paramétrant les choix de conception clés dans des modèles de base de benchmarks et utilise des LLM pour raisonner sur l'espace paramétrique résultant afin d'obtenir des propriétés cibles (telles que la difficulté et le réalisme) de manière économique. Nous validons cette approche sur sa capacité à créer des benchmarks avec des niveaux de difficulté souhaités. En utilisant BeTaL, nous créons deux nouveaux benchmarks et étendons un benchmark agentiel populaire, tau-bench. Une évaluation approfondie sur ces trois tâches et plusieurs niveaux de difficulté cibles montre que BeTaL produit des benchmarks bien plus proches de la difficulté souhaitée, avec des écarts moyens allant de 5,3 % à 13,2 % – une amélioration de 2 à 4 fois par rapport aux lignes de base.
Nous présentons Gaperon, une suite entièrement ouverte de modèles de langage français-anglais-informatique conçue pour faire progresser la transparence et la reproductibilité dans l'entraînement de modèles à grande échelle. La famille Gaperon comprend des modèles de 1,5B, 8B et 24B de paramètres entraînés sur 2 à 4 billions de tokens, publiés avec tous les éléments de la chaîne d'entraînement : des jeux de données français et anglais filtrés par un classifieur neuronal de qualité, un cadre efficace de curation des données et d'entraînement, et des centaines de points de contrôle intermédiaires. À travers ce travail, nous étudions comment le filtrage des données et la contamination interagissent pour façonner les performances tant sur les benchmarks que génératives. Nous constatons que le filtrage pour la qualité linguistique améliore la fluidité et la cohérence du texte mais donne des résultats médiocres sur les benchmarks, et qu'une contamination délibérée tardive – poursuivre l'entraînement sur des mélanges de données incluant les ensembles de test – permet de retrouver des scores compétitifs tout en n'altérant la qualité générative que de manière raisonnable. Nous discutons comment le filtrage neuronal habituel peut amplifier involontairement les fuites de benchmarks. Pour soutenir la recherche future, nous introduisons également un empoisonnement de données inoffensif pendant le pré-entraînement, fournissant ainsi un banc d'essai réaliste pour les études de sécurité. En publiant ouvertement tous les modèles, jeux de données, codes et points de contrôle, Gaperon établit une base reproductible pour explorer les compromis entre curation des données, évaluation, sécurité et ouverture dans le développement de modèles de langage multilingues.
Les modèles de langage de grande taille (LLM) sont puissants, mais souvent trop lents et coûteux pour une utilisation en inférence dans des scénarios réels. Les transformeurs à boucle économisent des paramètres en réutilisant les mêmes poids pour plusieurs étapes de calcul, ou "boucles". Cependant, cette approche présente un défaut majeur : les boucles s'exécutent les unes après les autres, ce qui entraîne une augmentation de la latence d'inférence et des besoins en mémoire avec chaque boucle ajoutée. Cela les rend peu pratiques pour les applications rapides. Pour résoudre ce problème, nous présentons le transformeur à boucles parallèles (PLT). PLT est une nouvelle architecture qui offre les avantages en performance d'un modèle profond et bouclé, mais avec la faible latence d'un modèle standard non bouclé. PLT fonctionne grâce à deux techniques clés. Premièrement, le parallélisme inter-boucles (CLP) brise la dépendance séquentielle en calculant différentes boucles pour différents jetons simultanément, le tout en une seule passe. Deuxièmement, pour éviter que les coûts mémoire n'augmentent, nous utilisons une stratégie d'amélioration efficace de la représentation. Cette méthode partage la mémoire (cache KV) de la première boucle avec toutes les autres boucles. Elle utilise ensuite une attention à fenêtre glissante et à porte (G-SWA) pour combiner cette information globale partagée avec des informations locales, maintenant ainsi une haute précision. Nos expériences montrent que PLT atteint la haute précision d'un modèle bouclé traditionnel, mais avec pratiquement aucune latence ou coût mémoire supplémentaire par rapport à un transformeur standard.
Les modèles unifiés vision-langage (UVLM) doivent réaliser à la fois la compréhension et la génération au sein d'une architecture unique, mais ces tâches reposent sur des données et des supervisions hétérogènes, ce qui rend difficile leur équilibrage lors de l'apprentissage par renforcement (RL). Nous proposons PairUni, un cadre unifié qui réorganise les données en paires compréhension-génération (UG) et aligne l'optimisation en conséquence. Nous utilisons d'abord GPT-4 pour augmenter les données de tâche unique, en générant des légendes pour les échantillons de compréhension et des paires question-réponse (QA) pour les échantillons de génération, formant ainsi des paires alignées à partir de la même instance. De plus, pour chaque échantillon de génération, nous récupérons un exemple de compréhension sémantiquement proche pour former une paire récupérée, reliant ainsi des points de données différents mais apparentés. Ces structures appariées exposent des correspondances sémantiques inter-tâches et soutiennent un apprentissage de politique cohérent. Pour tirer parti de cette structure, nous présentons Pair-GPRO, une variante sensible aux paires basée sur l'Optimisation Relative de Politique par Groupe. Elle attribue un score de similarité à chaque paire pour moduler l'avantage, renforçant l'apprentissage à partir d'exemples bien alignés et réduisant les interférences entre tâches. Nous constituons un jeu de données de haute qualité de 16 000 paires UG nommé PairUG pour le réglage fin par RL et évaluons PairUni sur les puissants UVLM Janus-Pro. Notre approche obtient des améliorations équilibrées sur divers UVLM, surpassant les solides bases de référence en RL pour UVLM. Code : https://github.com/Haochen-Wang409/PairUni
Le déploiement pratique des systèmes multi-agents (SMA) nécessite des performances solides lors des tests, ce qui motive le développement de méthodes guidant la recherche lors de l'inférence et dépensant sélectivement les ressources de calcul pour améliorer la qualité. Nous présentons le Modèle de Récompense de Processus pour Systèmes Multi-Agents (MASPRM). Il attribue des valeurs par action et par agent à des transcriptions inter-agents partielles et agit comme un contrôleur lors de l'inférence. MASPRM est entraîné à partir de déploiements par Monte Carlo Tree Search (MCTS) multi-agents sans nécessiter d'annotations humaines au niveau des étapes, en propageant les retours vers des cibles locales. Lors de l'inférence, MASPRM guide la recherche en faisceau (beam search) et le MCTS au niveau des étapes, en concentrant le calcul sur les branches prometteuses et en élaguant précocement. Sur GSM8K et MATH, le décodage guidé par MASPRM avec un modèle de récompense de résultat (ORM) appliqué à la réponse finale améliore la correspondance exacte (EM) par rapport à une seule passe MAS directe de +30,7 et +22,9 points respectivement. Un MASPRM entraîné sur GSM8K se transfère sans adaptation (zero-shot) à MATH sans nouvel entraînement, ajoutant 8,4 points EM pour le même budget. MASPRM est un modèle de valeur plug-in qui estime la progression par agent et complète les décodeurs de type vérificateur, permettant un raisonnement multi-agent plus fiable et conscient des contraintes de calcul. Code : https://github.com/milad1378yz/MASPRM
Dans cet article, nous présentons un cadre pour entraîner de grands modèles de langage (LLM) en tant qu'agents diagnostiques par apprentissage par renforcement, leur permettant de gérer des processus diagnostiques multi-tours, de sélectionner de manière adaptative les examens et d'établir des diagnostics finaux. Contrairement aux modèles ajustés par instruction sur des résumés de cas statiques, notre méthode acquiert des stratégies diagnostiques par une exploration interactive et un retour d'information basé sur les résultats. Nos contributions sont quadruples : (i) Nous présentons DiagGym, un modèle de monde diagnostique entraîné sur des dossiers médicaux électroniques qui émet des résultats d'examen conditionnés par les antécédents du patient et l'examen recommandé, servant d'environnement clinique virtuel pour un entraînement et une évaluation diagnostiques réalistes ; (ii) Nous entraînons DiagAgent via un apprentissage par renforcement multi-tours de bout en bout pour apprendre des politiques diagnostiques qui optimisent à la fois le rendement informationnel et la précision diagnostique ; (iii) Nous introduisons DiagBench, un benchmark diagnostique comprenant 750 cas avec des recommandations d'examen validées par des médecins et 99 cas annotés avec 973 grilles d'évaluation rédigées par des médecins sur le processus diagnostique ; (iv) Nous démontrons une performance supérieure dans divers contextes diagnostiques. DiagAgent surpasse significativement 10 LLM de pointe, dont DeepSeek-v3 et GPT-4o, ainsi que deux agents conçus par ingénierie de prompt. Dans des configurations à tour unique, DiagAgent atteint une précision diagnostique supérieure de 9,34 % et une amélioration de 44,03 % du taux de réussite des recommandations d'examen. Dans des configurations de bout en bout, il offre une augmentation de 15,12 % de la précision diagnostique et une amélioration de 23,09 % du score F1 des recommandations d'examen. Dans l'évaluation par grille, il dépasse le modèle suivant le meilleur, Claude-sonnet-4, de 7,1 % en score de grille pondéré. Ces résultats indiquent que l'apprentissage de politiques dans des environnements cliniques interactifs confère des capacités dynamiques et cliniquement significatives de gestion diagnostique, inaccessibles par un entraînement passif seul.
Les récents progrès dans les modèles de monde de conduite permettent la génération contrôlée de vidéos RVB ou multimodales de haute qualité. Les méthodes existantes se concentrent principalement sur les métriques liées à la qualité de génération et à la contrôlabilité. Cependant, elles négligent souvent l'évaluation des tâches de perception en aval, pourtant cruciales pour les performances de la conduite autonome. Les approches actuelles utilisent généralement une stratégie d'entraînement qui pré-entraîne d'abord sur des données synthétiques avant d'affiner sur des données réelles, ce qui double le nombre d'époques par rapport à la ligne de base (données réelles uniquement). Lorsque nous doublons les époques dans la ligne de base, le bénéfice des données synthétiques devient négligeable. Pour démontrer pleinement l'avantage des données synthétiques, nous présentons Dream4Drive, un nouveau cadre de génération de données synthétiques conçu pour améliorer les tâches de perception en aval. Dream4Drive décompose d'abord la vidéo d'entrée en plusieurs cartes de guidage 3D, puis rend les assets 3D sur ces cartes. Enfin, le modèle de monde de conduite est affiné pour produire des vidéos photoréalistes éditées et multi-vues, utilisables pour entraîner les modèles de perception en aval. Dream4Drive offre une flexibilité inédite pour générer à grande échelle des cas limites multi-vues, améliorant significativement la perception des situations critiques en conduite autonome. Pour favoriser les recherches futures, nous mettons également à disposition un jeu de données d'assets 3D à grande échelle nommé DriveObj3D, couvrant les catégories typiques des scénarios de conduite et permettant divers edits vidéo conscients de la 3D. Nous menons des expérimentations complètes montrant que Dream4Drive peut efficacement booster les performances des modèles de perception en aval sous différents régimes d'époques d'entraînement.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Dans ce contexte, les modèles explorent des trajectoires de raisonnement et exploitent les déroulements avec des réponses correctes comme signaux positifs pour l'optimisation des politiques. Cependant, ces déroulements peuvent contenir des schémas défectueux tels que la devinette de réponses et le raisonnement par sauts. Ces déroulements défectueux-positifs sont récompensés de manière identique aux déroulements entièrement corrects, amenant les modèles de politique à internaliser ces schémas de raisonnement peu fiables. Dans ce travail, nous menons d'abord une étude systématique des déroulements défectueux-positifs en RL et constatons qu'ils permettent des gains de capacités rapides durant la phase initiale d'optimisation, tout en limitant la capacité de raisonnement ultérieurement en renforçant les schémas peu fiables. Sur la base de ces observations, nous proposons l'Optimisation de Politique Sensible aux Défauts (FAPO), qui introduit une pénalité de récompense sans paramètre pour les déroulements défectueux-positifs, permettant à la politique de les utiliser comme raccourcis utiles lors de la phase d'échauffement, assurant des gains initiaux stables, tout en orientant progressivement l'optimisation vers un raisonnement fiable lors de la phase de raffinement ultérieure. Pour détecter précisément et exhaustivement les déroulements défectueux-positifs, nous introduisons un modèle de récompense génératif (GenRM) avec une récompense au niveau processus qui localise avec précision les erreurs de raisonnement. Les expériences montrent que FAPO est efficace dans divers domaines, améliorant l'exactitude des résultats, la fiabilité des processus et la stabilité de l'entraînement sans augmenter le budget de tokens.
Les récentes avancées des grands modèles de langage (LLM) textuels purs, comme DeepSeek-R1, démontrent des capacités de raisonnement remarquables. Cependant, ces modèles restent fragiles ou totalement incapables lorsqu'ils sont étendus à des tâches multimodales. Les approches existantes reposent largement sur des descriptions uniques, qui manquent de diversité et échouent souvent à s'adapter à différents types de benchmarks de Question-Réponse Visuelle (VQA). Par conséquent, elles n'offrent aucun canal principiel ou efficace pour transmettre une information visuelle fine. Nous présentons Seeing Eye, un cadre modulaire qui déverrouille le raisonnement multimodal dans les LLM textuels purs via un petit traducteur VLM basé sur un agent. Ce traducteur agit comme un agent de perception : il peut invoquer des outils spécialisés (ex: OCR et rognage) et distiller itérativement les entrées multimodales en représentations intermédiaires structurées (SIRs) adaptées à la question. Ces SIRs sont ensuite transmises au LLM textuel, qui sert d'agent de raisonnement. Fait crucial, le traducteur et le raisonneur s'engagent dans une rétroaction et une interaction multi-tours, permettant l'extraction de détails visuels ciblés et produisant des réponses plus fiables. Les expériences sur des benchmarks VQA nécessitant des connaissances, incluant MMMU et MIA-Bench, démontrent que Seeing Eye réduit non seulement le coût d'inférence mais surpasse également des VLM monolithiques bien plus grands. Par exemple, une instanciation combinant un traducteur visuel de 3 milliards de paramètres avec un raisonneur linguistique de 8 milliards de paramètres surpasse un VLM monolithique de 32B sur des questions complexes basées sur les connaissances. Nos résultats soulignent que le découplage de la perception et du raisonnement via un flux d'information agentiel offre une voie évolutive et plug-and-play vers le raisonnement multimodal, permettant aux LLM textuels puissants d'exploiter pleinement leurs capacités de raisonnement. Le code est disponible à l'adresse : https://github.com/ulab-uiuc/SeeingEye
Le modèle de langage de grande taille à raisonnement (RLLM) s'est avéré compétitif pour résoudre des tâches de raisonnement complexes telles que les mathématiques et la programmation, comparé aux LLM généraux. Cependant, les performances et le comportement opérationnels des RLLM restent inexplorés, ce qui pourrait compromettre leur déploiement et leur utilisation dans des scénarios réels. Pour combler cette lacune, nous menons dans cet article une étude exhaustive du service RLLM. Nous réalisons d'abord une étude pilote comparant les performances opérationnelles des RLLM et des LLM traditionnels, révélant plusieurs différences distinctes de comportement : (1) une utilisation mémoire importante avec des fluctuations significatives ; (2) des requêts traînardes ; (3) un temps d'exécution adaptatif ; (4) une préférence domainale. Nous étudions ensuite si les techniques d'optimisation d'inférence existantes sont valables pour les RLLM. Nos principales conclusions sont que les méthodes de quantification de modèle et le décodage spéculatif améliorent l'efficacité du système de service avec une faible compromission de la précision des RLLM, tandis que la mise en cache des préfixes et la quantification du cache KV peuvent même dégrader la précision ou les performances des petits RLLM. Enfin, nous évaluons ces techniques sous une charge de travail réelle modélisée par une distribution Gamma pour vérifier nos observations. Les résultats empiriques de l'évaluation en charge réelle sur différents jeux de données corroborent nos principales conclusions concernant le service RLLM. Nous espérons que notre travail fournira à la communauté scientifique et à l'industrie des perspectives pour faire progresser l'inférence des RLLM.
Le développement de l'intelligence artificielle (IA), y compris l'IA en science (IAS), doit suivre les principes de l'IA responsable. Les progrès en matière d'IA responsable sont souvent quantifiés par des métriques d'évaluation, mais peu de travaux ont porté sur l'évaluation de la robustesse et de la fiabilité de ces métriques elles-mêmes. Nous examinons les travaux antérieurs ayant étudié la robustesse des métriques d'équité pour les systèmes de recommandation en tant qu'application de l'IA, et synthétisons leurs principaux enseignements en un ensemble non exhaustif de lignes directrices pour développer des métriques fiables de l'IA responsable. Nos lignes directrices s'appliquent à un large spectre d'applications de l'IA, y compris l'IAS.
L'avancée rapide des grands modèles de langage (LLM) a accru la nécessité d'une évaluation spécifique aux domaines et aux cultures. Les benchmarks existants sont largement anglocentriques et agnostiques au domaine, limitant ainsi leur applicabilité aux contextes centrés sur l'Inde. Pour combler cette lacune, nous présentons BhashaBench V1, le premier benchmark bilingue, multi-tâches et spécifique à un domaine, axé sur les systèmes de connaissances indic critiques. BhashaBench V1 contient 74 166 paires question-réponse soigneusement élaborées, dont 52 494 en anglais et 21 672 en hindi, provenant d'examens gouvernementaux authentiques et spécifiques au domaine. Il couvre quatre domaines majeurs : Agriculture, Droit, Finance et Ayurveda, comprenant plus de 90 sous-domaines et couvrant plus de 500 sujets, permettant une évaluation granulaire. L'évaluation de plus de 29 LLM révèle des écarts de performance significatifs spécifiques au domaine et à la langue, avec des disparités particulièrement importantes dans les domaines pauvres en ressources. Par exemple, GPT-4o atteint une précision globale de 76,49 % en Droit mais seulement 59,74 % en Ayurveda. Les modèles performent systématiquement mieux sur le contenu anglais que sur le contenu hindi dans tous les domaines. L'analyse au niveau des sous-domaines montre que des domaines comme le Cyberdroit et la Finance internationale s'en sortent relativement bien, tandis que le Panchakarma, la Science des semences et les Droits de l'homme restent notablement faibles. BhashaBench V1 fournit un jeu de données complet pour évaluer les grands modèles de langage à travers les divers domaines de connaissance de l'Inde. Il permet d'évaluer la capacité des modèles à intégrer des connaissances spécifiques à un domaine avec une compréhension bilingue. Tous les codes, benchmarks et ressources sont librement accessibles pour soutenir la recherche ouverte.
Alors que l'IA centralisée atteint des limites de calcul et des rendements décroissants avec des entraînements toujours plus grands, répondre à la demande nécessite une couche d'inférence qui s'adapte horizontalement en capacité et en compétence. Nous présentons Fortytwo, un protocole novateur qui exploite les principes de l'intelligence en essaim et un consensus distribué de classement par paires pour obtenir des performances supérieures en inférence IA. Notre approche réinvente la collaboration entre les nœuds d'IA via l'inférence en essaim : un consensus pondéré par la réputation et établi entre pairs à travers des modèles hétérogènes, qui fait émerger les réponses de plus haute qualité. En utilisant le classement par paires avec un modèle d'agrégation personnalisé de type Bradley-Terry, nous démontrons que l'inférence en essaim surpasse substantiellement le vote majoritaire, atteignant 85,90 % sur GPQA Diamond contre 68,69 % pour le vote majoritaire avec le même ensemble de modèles - une amélioration de +17,21 points de pourcentage (environ +25,1 % en relatif). Le protocole intègre une réputation sur chaîne afin que l'influence des nœuds s'ajuste à leur exactitude démontrée au fil du temps, produisant un consensus méritocratique qui filtre les participants de faible qualité ou malveillants. Pour résister aux attaques Sybil, Fortytwo utilise une preuve de capacité dans son consensus : les nœuds doivent accomplir avec succès des requêtes d'étalonnage/de test et engager leur réputation pour participer aux tours de classement, rendant les attaques multi-identités économiquement peu attractives tout en préservant l'ouverture. Sur six benchmarks exigeants, incluant GPQA Diamond, LiveCodeBench et AIME, notre évaluation indique une plus grande exactitude et une forte résilience face aux incitations adverses et bruitées en forme libre (par exemple, une dégradation par injection de prompt de seulement 0,12 % contre 6,20 % pour une base de référence monolithique à modèle unique), tout en conservant une déployabilité pratique. Ensemble, ces résultats établissent une base pour les systèmes d'IA décentralisés - démocratisant l'accès à une inférence de haute qualité via l'intelligence collective sans sacrifier la fiabilité ou la sécurité.
Les modèles de diffusion vidéo autorégressifs sont capables de produire des séquences longues, stables et cohérentes avec l'historique, mais ils ne peuvent pas guider la génération courante à l'aide d'informations conditionnelles provenant du futur. Dans la génération de vidéos guidée par caméra avec une trajectoire prédéfinie, cette limitation entraîne des collisions avec la scène générée, après lesquelles l'autorégression s'effondre rapidement. Pour résoudre ce problème, nous proposons le "Generative View Stitching" (GVS), qui échantillonne l'intégralité de la séquence en parallèle afin que la scène générée soit fidèle à chaque partie de la trajectoire prédéfinie de la caméra. Notre contribution principale est un algorithme d'échantillonnage qui étend les travaux antérieurs sur le "stitching" par diffusion pour la planification robotique à la génération vidéo. Alors que ces méthodes de stitching nécessitent généralement un modèle spécialement entraîné, GVS est compatible avec tout modèle vidéo standard entraîné avec "Diffusion Forcing", un cadre de diffusion séquentielle prévalent dont nous montrons qu'il fournit déjà les capacités nécessaires au stitching. Nous introduisons ensuite "Omni Guidance", une technique qui améliore la cohérence temporelle lors du stitching en conditionnant à la fois sur le passé et le futur, et qui permet notre mécanisme proposé de fermeture de boucle pour assurer une cohérence à long terme. Globalement, GVS permet une génération vidéo guidée par caméra qui est stable, sans collision, cohérente d'image à image, et qui referme les boucles pour une variété de trajectoires de caméra prédéfinies, y compris l'escalier impossible d'Oscar Reutersvärd. Les résultats sont mieux appréciés sous forme de vidéos sur https://andrewsonga.github.io/gvs.
Nous présentons GraphNet, un ensemble de données comprenant 2,7 milliers de graphes de calculs d'apprentissage profond issus de scénarios réels, accompagnés de métadonnées riches et couvrant six grandes catégories de tâches à travers plusieurs frameworks d'apprentissage profond. Pour évaluer les performances des compilateurs de tenseurs sur ces échantillons, nous proposons la métrique de référence Score d'Accélération S(t), qui prend conjointement en compte l'accélération du temps d'exécution et l'exactitude de l'exécution avec des niveaux de tolérance ajustables, offrant ainsi une mesure fiable des capacités générales d'optimisation. De plus, nous étendons S(t) au Score d'Accélération Sensible aux Erreurs ES(t), qui intègre les informations d'erreur et aide les développeurs de compilateurs à identifier les goulots d'étranglement clés en matière de performance. Dans ce rapport, nous évaluons les compilateurs de tenseurs par défaut, CINN pour PaddlePaddle et TorchInductor pour PyTorch, sur des échantillons de vision par ordinateur (CV) et de traitement du langage naturel (NLP) pour démontrer l'utilité pratique de GraphNet. La pipeline complète de construction avec les outils d'extraction de graphes et d'évaluation des compilateurs est disponible à l'adresse https://github.com/PaddlePaddle/GraphNet.
Bien que la modélisation autorégressive (AR) soit récemment apparue comme un nouveau paradigme dans la génération visuelle, son adoption pratique est sévèrement limitée par la lenteur de l'inférence due à la génération token par token, qui nécessite souvent des milliers d'étapes pour produire un seul échantillon. Pour relever ce défi, nous proposons MC-SJD, un cadre de décodage parallèle non supervisé et sans perte, conçu pour accélérer la génération visuelle AR en étendant le Décodage de Jacobi Spéculatif (SJD) récemment introduit. Bien que le SJD montre un fort potentiel d'accélération de la génération AR, nous démontrons que l'instabilité des tokens entre les itérations réduit significativement le taux d'acceptation, une limitation qui découle principalement du processus d'échantillonnage indépendant utilisé lors de la génération des tokens d'ébauche. Pour surmonter cela, nous introduisons MC-SJD, une approche informationnelle basée sur le couplage, qui accélère substantiellement le SJD standard en maximisant la probabilité d'échantillonner des tokens d'ébauche identiques sur des itérations consécutives, tout en préservant sa propriété sans perte. Fait remarquable, cette méthode ne nécessite qu'une modification d'une seule ligne de l'algorithme existant, tout en obtenant des gains de performance substantiels, offrant une accélération allant jusqu'à ~4,2x pour la génération d'images et ~13,3x pour la génération vidéo par rapport au décodage AR standard, sans aucune dégradation de la qualité de sortie.
Les grands modèles de langage (LLM) dans le conseil psychologique ont suscité une attention croissante. Cependant, les approches existantes manquent souvent de compréhension émotionnelle, de stratégies adaptatives et d'utilisation de méthodes thérapeutiques sur plusieurs séances avec mémoire à long terme, les éloignant considérablement de la pratique clinique réelle. Pour combler ces lacunes critiques, nous présentons TheraMind, un agent stratégique et adaptatif pour le conseil psychologique longitudinal. La pierre angulaire de TheraMind est une nouvelle architecture à double boucle qui découple le processus complexe de conseil en une Boucle Intra-Séance pour la gestion tactique du dialogue et une Boucle Inter-Séances pour la planification thérapeutique stratégique. La Boucle Intra-Séance perçoit l'état émotionnel du patient pour sélectionner dynamiquement des stratégies de réponse tout en exploitant la mémoire inter-séances pour assurer la continuité. Crucialement, la Boucle Inter-Séances dote l'agent d'une adaptabilité à long terme en évaluant l'efficacité de la thérapie appliquée après chaque séance et en ajustant la méthode pour les interactions ultérieures. Nous validons notre approche dans un environnement de simulation haute fidélité basé sur des cas cliniques réels. Des évaluations approfondies montrent que TheraMind surpasse les autres méthodes, particulièrement sur les métriques multi-séances comme la Cohérence, la Flexibilité et l'Ajustement Thérapeutique, validant l'efficacité de sa conception à double boucle pour émuler un comportement thérapeutique stratégique, adaptatif et longitudinal. Le code est disponible publiquement à l'adresse https://0mwwm0.github.io/TheraMind/.