papers.description
Nous présentons GLM-4.5, un modèle de langage de grande envergure open-source de type Mixture-of-Experts (MoE) avec un total de 355 milliards de paramètres et 32 milliards de paramètres activés, intégrant une méthode de raisonnement hybride qui prend en charge à la fois les modes de réflexion et de réponse directe. Grâce à un entraînement multi-étapes sur 23 000 milliards de tokens et à un post-entraînement complet incluant l'itération de modèles experts et l'apprentissage par renforcement, GLM-4.5 obtient des performances solides sur les tâches d'agence, de raisonnement et de codage (ARC), avec des scores de 70,1 % sur TAU-Bench, 91,0 % sur AIME 24 et 64,2 % sur SWE-bench Verified. Avec bien moins de paramètres que plusieurs concurrents, GLM-4.5 se classe 3e au global parmi tous les modèles évalués et 2e sur les benchmarks d'agence. Nous publions à la fois GLM-4.5 (355 milliards de paramètres) et une version compacte, GLM-4.5-Air (106 milliards de paramètres), pour faire progresser la recherche dans les systèmes d'IA de raisonnement et d'agence. Le code, les modèles et plus d'informations sont disponibles sur https://github.com/zai-org/GLM-4.5.
L'essayage virtuel vise à synthétiser une image réaliste d'une personne portant un vêtement cible, mais la modélisation précise de la correspondance entre le vêtement et le corps reste un défi persistant, en particulier face aux variations de pose et d'apparence. Dans cet article, nous proposons Voost - un cadre unifié et évolutif qui apprend conjointement l'essayage virtuel et le désessayage avec un seul transformateur de diffusion. En modélisant les deux tâches conjointement, Voost permet à chaque paire vêtement-personne de superviser les deux directions et prend en charge un conditionnement flexible sur la direction de génération et la catégorie de vêtement, améliorant le raisonnement relationnel entre le vêtement et le corps sans réseaux spécifiques à la tâche, pertes auxiliaires ou étiquettes supplémentaires. De plus, nous introduisons deux techniques d'inférence : la mise à l'échelle de la température d'attention pour une robustesse face aux variations de résolution ou de masque, et l'échantillonnage auto-correctif qui exploite la cohérence bidirectionnelle entre les tâches. Des expériences approfondies démontrent que Voost obtient des résultats de pointe sur les benchmarks d'essayage et de désessayage, surpassant systématiquement des bases de référence solides en termes de précision d'alignement, de fidélité visuelle et de généralisation.
Les agents basés sur les grands modèles de langage (LLMs) excellent dans des tâches variées, mais ils souffrent d'une mémoire procédurale fragile, soit conçue manuellement, soit intégrée dans des paramètres statiques. Dans ce travail, nous explorons des stratégies pour doter les agents d'une mémoire procédurale apprenable, actualisable et pérenne. Nous proposons Memp, qui condense les trajectoires passées des agents en instructions détaillées, étape par étape, ainsi qu'en abstractions de plus haut niveau, semblables à des scripts, et nous étudions l'impact de différentes stratégies pour la construction, la récupération et la mise à jour de la mémoire procédurale. Couplé à un régime dynamique qui met continuellement à jour, corrige et déprécie son contenu, ce référentiel évolue en synchronie avec les nouvelles expériences. L'évaluation empirique sur TravelPlanner et ALFWorld montre qu'à mesure que le référentiel de mémoire est affiné, les agents atteignent des taux de réussite progressivement plus élevés et une plus grande efficacité sur des tâches analogues. De plus, la mémoire procédurale construite à partir d'un modèle plus performant conserve sa valeur : migrer cette mémoire vers un modèle plus faible entraîne des gains substantiels en performance.
L'émergence des Modèles de Langage Multimodaux de Grande Taille (MLLMs) a propulsé le développement d'agents autonomes opérant sur des Interfaces Graphiques Utilisateur (GUIs) en utilisant uniquement des entrées visuelles. Un défi fondamental est l'ancrage robuste des instructions en langage naturel. Cela nécessite un alignement spatial précis, qui localise avec exactitude les coordonnées de chaque élément, et, plus crucialement, un alignement sémantique correct, qui associe les instructions à l'élément d'interface utilisateur fonctionnellement approprié. Bien que l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) se soit avéré efficace pour améliorer l'alignement spatial de ces MLLMs, nous constatons qu'une exploration inefficace entrave l'alignement sémantique, empêchant les modèles d'apprendre des associations sémantiques complexes. Pour résoudre ce problème d'exploration, nous présentons l'Optimisation de Politique d'Exploration Adaptative (AEPO), un nouveau cadre d'optimisation de politique. AEPO utilise une stratégie de génération à réponses multiples pour imposer une exploration plus large, guidée par une fonction de Récompense d'Exploration Adaptative (AER) théoriquement fondée, dérivée des principes de base de l'efficacité η=U/C. Nos modèles entraînés avec AEPO, InfiGUI-G1-3B et InfiGUI-G1-7B, établissent de nouveaux records de pointe sur plusieurs benchmarks exigeants d'ancrage GUI, obtenant des améliorations relatives significatives allant jusqu'à 9,0 % par rapport à la base naïve RLVR sur des benchmarks conçus pour tester la généralisation et la compréhension sémantique. Les ressources sont disponibles à l'adresse https://github.com/InfiXAI/InfiGUI-G1.
Récemment, les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités remarquables en matière de raisonnement sur le code grâce à l'augmentation de la longueur des chaînes de pensée (Chain-of-Thought, CoT). Cependant, des traces de raisonnement excessivement longues introduisent des défis substantiels en termes de coût d'entraînement, de latence d'inférence et de faisabilité de déploiement. Bien que diverses approches de compression des CoT aient émergé pour relever ce défi, elles se heurtent à des compromis inhérents : les méthodes au niveau des tokens perturbent souvent la cohérence syntaxique et logique, tandis que les méthodes au niveau des étapes basées sur la perplexité échouent à capturer de manière fiable les étapes de raisonnement logiquement critiques. Dans cet article, nous proposons ASAP (Anchor-guided, Surprisal-based Pruning), un nouveau cadre de compression des CoT allant du grossier au fin. ASAP effectue d'abord un élagage guidé par des ancres pour préserver la structure centrale du raisonnement, réduisant ainsi efficacement l'espace de recherche pour le traitement ultérieur. Il permet ensuite un élagage conscient de la logique en sélectionnant les étapes de raisonnement logiquement essentielles sur la base d'une nouvelle métrique de surprise du premier token. Enfin, ASAP enseigne aux modèles à générer et à exploiter de manière autonome ces CoT concis au moment de l'inférence, permettant un raisonnement efficace dans les tâches de codage. Les expériences montrent qu'ASAP atteint une précision de pointe sur plusieurs benchmarks de génération de code tout en réduisant considérablement les coûts d'entraînement et d'inférence. Sur le benchmark difficile LiveCodeBench v4_v5, notre approche réduit la génération de tokens de 23,5 % et la latence d'inférence de 43,5 % par rapport à la base de référence la plus forte, tout en atteignant une précision compétitive de 36,19 % en Pass@1. Nos résultats mettent en lumière une direction prometteuse pour la construction de LRMs puissants et efficaces.
Les activations massives sont des valeurs scalaires dans les états cachés des transformateurs qui atteignent des valeurs plusieurs ordres de grandeur supérieures aux activations typiques et se sont révélées critiques pour la fonctionnalité du modèle. Alors que les travaux antérieurs ont caractérisé ces phénomènes dans des modèles entièrement entraînés, la dynamique temporelle de leur émergence pendant l'entraînement reste mal comprise. Nous présentons la première analyse complète du développement des activations massives tout au long de l'entraînement des transformateurs, en utilisant la famille de modèles Pythia comme banc d'essai. Grâce à une analyse systématique de différentes tailles de modèles sur plusieurs points de contrôle d'entraînement, nous démontrons que l'émergence des activations massives suit des modèles mathématiques prévisibles qui peuvent être modélisés avec précision à l'aide d'une fonction logarithmique modulée de manière exponentielle avec cinq paramètres clés. Nous développons un cadre d'apprentissage automatique pour prédire ces paramètres mathématiques à partir des spécifications architecturales uniquement, atteignant une grande précision pour le comportement en régime permanent et une précision modérée pour le moment et l'amplitude de l'émergence. Ces résultats permettent aux architectes de prédire et potentiellement de contrôler des aspects clés de l'émergence des activations massives grâce à des choix de conception, avec des implications significatives pour la stabilité du modèle, la durée du cycle d'entraînement, l'interprétabilité et l'optimisation. Nos résultats démontrent que l'émergence des activations massives est gouvernée par la conception du modèle et peut être anticipée, et potentiellement contrôlée, avant le début de l'entraînement.
Les champs de radiance neuronaux (NeRF) et le lissage gaussien (GS) ont récemment révolutionné la représentation et le rendu de scènes 3D. NeRF permet une synthèse de vues nouvelles de haute fidélité en apprenant des représentations volumétriques via des réseaux de neurones, mais son encodage implicite rend l'édition et l'interaction physique difficiles. En revanche, GS représente les scènes comme des collections explicites de primitives gaussiennes, permettant un rendu en temps réel, un apprentissage plus rapide et une manipulation plus intuitive. Cette structure explicite a rendu GS particulièrement adapté à l'édition interactive et à l'intégration avec des simulations physiques. Dans cet article, nous présentons GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), un modèle hybride qui combine la qualité de rendu photoréaliste de NeRF avec la représentation éditable et structurée de GS. Au lieu d'utiliser des harmoniques sphériques pour la modélisation de l'apparence, nous assignons à chaque primitive gaussienne un embedding de caractéristiques entraînable. Ces embeddings sont utilisés pour conditionner un réseau NeRF en fonction des k primitives gaussiennes les plus proches de chaque point de requête. Pour rendre ce conditionnement efficace, nous introduisons la recherche de proximité gaussienne par lancer de rayons (RT-GPS), une recherche rapide des primitives gaussiennes les plus proches basée sur un pipeline de lancer de rayons modifié. Nous intégrons également une grille de hachage multi-résolution pour initialiser et mettre à jour les caractéristiques gaussiennes. Ensemble, ces composants permettent une édition en temps réel et sensible à la localité : lorsque les primitives gaussiennes sont repositionnées ou modifiées, leur influence interpolée est immédiatement reflétée dans le rendu. En combinant les forces des représentations implicites et explicites, GENIE supporte une manipulation intuitive de scènes, une interaction dynamique et une compatibilité avec la simulation physique, comblant ainsi le fossé entre l'édition basée sur la géométrie et le rendu neuronal. Le code est disponible à l'adresse suivante : (https://github.com/MikolajZielinski/genie).
Les modèles vision-langage (VLMs) ont démontré des capacités de généralisation remarquables sur une large gamme de tâches. Cependant, leurs performances restent souvent sous-optimales lorsqu'ils sont appliqués directement à des scénarios spécifiques en aval sans adaptation spécifique à la tâche. Pour améliorer leur utilité tout en préservant l'efficacité des données, les recherches récentes se sont de plus en plus concentrées sur des méthodes d'adaptation non supervisées qui ne reposent pas sur des données étiquetées. Malgré l'intérêt croissant pour ce domaine, il manque encore une étude unifiée et orientée tâche dédiée à l'adaptation non supervisée des VLMs. Pour combler cette lacune, nous présentons un aperçu complet et structuré du domaine. Nous proposons une taxonomie basée sur la disponibilité et la nature des données visuelles non étiquetées, classant les approches existantes en quatre paradigmes clés : Transfert Sans Données (aucune donnée), Transfert de Domaine Non Supervisé (données abondantes), Adaptation Épisodique au Moment du Test (données par lots), et Adaptation Continue au Moment du Test (données en flux). Dans ce cadre, nous analysons les méthodologies principales et les stratégies d'adaptation associées à chaque paradigme, visant à établir une compréhension systématique du domaine. De plus, nous passons en revue des benchmarks représentatifs à travers diverses applications et mettons en lumière les défis ouverts et les directions prometteuses pour les recherches futures. Un dépôt de littérature pertinente activement maintenu est disponible à l'adresse suivante : https://github.com/tim-learn/Awesome-LabelFree-VLMs.
Le rêve de créer des assistants d’intelligence artificielle aussi compétents et polyvalents que le J.A.R.V.I.S. fictif d’Iron Man a longtemps captivé les imaginations. Avec l’évolution des modèles de langage (multi-modaux) de grande envergure ((M)LLMs), ce rêve se rapproche de la réalité, car les agents basés sur (M)LLM, utilisant des dispositifs informatiques (par exemple, ordinateurs et téléphones portables) en opérant dans les environnements et interfaces (par exemple, l’interface graphique utilisateur (GUI)) fournis par les systèmes d’exploitation (OS) pour automatiser des tâches, ont considérablement progressé. Cet article présente une étude approfondie de ces agents avancés, désignés comme agents OS. Nous commençons par élucider les fondamentaux des agents OS, en explorant leurs composants clés, notamment l’environnement, l’espace d’observation et l’espace d’action, et en décrivant les capacités essentielles telles que la compréhension, la planification et l’ancrage. Nous examinons ensuite les méthodologies pour construire des agents OS, en nous concentrant sur les modèles de base spécifiques à un domaine et les cadres d’agents. Une revue détaillée des protocoles d’évaluation et des benchmarks met en lumière la manière dont les agents OS sont évalués dans diverses tâches. Enfin, nous discutons des défis actuels et identifions des directions prometteuses pour la recherche future, notamment la sécurité et la confidentialité, la personnalisation et l’auto-évolution. Cette étude vise à consolider l’état de la recherche sur les agents OS, en fournissant des insights pour guider à la fois l’investigation académique et le développement industriel. Un dépôt GitHub open source est maintenu comme une ressource dynamique pour favoriser l’innovation dans ce domaine. Nous présentons une version de 9 pages de notre travail, acceptée par ACL 2025, pour offrir un aperçu concis du domaine.
Nous présentons MeshLLM, un nouveau cadre qui exploite les grands modèles de langage (LLM) pour comprendre et générer des maillages 3D sérialisés en texte. Notre approche résout les limitations clés des méthodes existantes, notamment l'échelle limitée des jeux de données adaptés à la longueur des tokens des LLM et la perte d'information structurelle 3D lors de la sérialisation des maillages. Nous introduisons une stratégie de décomposition Primitive-Mesh, qui divise les maillages 3D en sous-unités structurellement significatives. Cela permet la création d'un jeu de données à grande échelle avec plus de 1500k échantillons, soit près de 50 fois plus que les méthodes précédentes, ce qui s'aligne mieux sur les principes de la loi d'échelle des LLM. De plus, nous proposons d'inférer la connectivité des faces à partir des sommets et des stratégies d'entraînement pour l'assemblage local des maillages, améliorant ainsi significativement la capacité des LLM à capturer la topologie des maillages et les structures spatiales. Les expériences montrent que MeshLLM surpasse l'état de l'art LLaMA-Mesh à la fois en qualité de génération de maillages et en compréhension des formes, mettant en évidence son grand potentiel dans le traitement des maillages 3D sérialisés en texte.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des performances remarquables dans les langues disposant de ressources abondantes. Cependant, leur efficacité diminue considérablement dans les contextes de langues à ressources limitées. Les méthodes actuelles d'amélioration multilingue se limitent souvent à la modalité textuelle ou reposent uniquement sur la traduction automatique. Bien que ces approches aident les modèles à acquérir des capacités linguistiques de base et à produire des "descriptions superficielles", elles négligent l'importance de l'informativité multimodale et de l'enracinement culturel, deux éléments cruciaux pour servir efficacement les utilisateurs de langues à ressources limitées. Pour combler cette lacune, dans cette étude, nous identifions deux objectifs significatifs pour un MLLM véritablement efficace dans les contextes de langues à ressources limitées, à savoir 1) la capacité linguistique et 2) l'enracinement culturel, en mettant un accent particulier sur la sensibilisation culturelle. Pour atteindre ces deux objectifs, nous proposons une stratégie à double source qui guide la collecte de données adaptées à chaque objectif, en puisant dans les textes alternatifs natifs du web pour la culture et dans les légendes générées par les MLLMs pour la linguistique. En tant qu'implémentation concrète, nous introduisons MELLA, un ensemble de données multimodal et multilingue. Les résultats des expériences montrent qu'après un ajustement fin sur MELLA, il y a une amélioration générale des performances pour les huit langues sur diverses architectures de MLLM, avec des modèles produisant des "descriptions approfondies". Nous vérifions que les gains de performance proviennent à la fois de l'amélioration des connaissances culturelles et de l'amélioration des capacités linguistiques. Notre ensemble de données peut être consulté à l'adresse https://opendatalab.com/applyMultilingualCorpus.
Les modèles de langage visuel (VLMs) ont démontré des capacités remarquables dans l'intégration du raisonnement linguistique et visuel, mais restent fondamentalement limités dans la compréhension des interactions spatiotemporelles dynamiques. Les humains suivent et raisonnent sans effort sur les mouvements, rotations et changements de perspective des objets - des aptitudes essentielles pour une compréhension robuste du monde réel dynamique, mais notablement absentes dans les VLMs actuels. Dans cet article, nous présentons VLM4D, le premier benchmark spécifiquement conçu pour évaluer les capacités de raisonnement spatiotemporel des VLMs. Notre benchmark comprend des vidéos variées, issues du monde réel et synthétiques, accompagnées de paires question-réponse soigneusement élaborées mettant l'accent sur les mouvements de translation et de rotation, la conscience de la perspective et la continuité du mouvement. À travers des évaluations approfondies des VLMs open-source et propriétaires de pointe, nous identifions des écarts de performance significatifs par rapport aux références humaines, mettant en lumière des lacunes fondamentales dans les modèles existants. Une analyse approfondie révèle que les VLMs peinent particulièrement à intégrer plusieurs indices visuels et à maintenir la cohérence temporelle. Nous explorons également des pistes prometteuses, telles que l'exploitation de la reconstruction de champs de caractéristiques 4D et le fine-tuning supervisé spatiotemporel ciblé, démontrant leur efficacité à améliorer la compréhension spatiotemporelle. Notre travail vise à encourager une exploration plus approfondie pour améliorer l'ancrage spatial et temporel des VLMs, ouvrant la voie à une intelligence visuelle plus performante et fiable pour les environnements dynamiques.
L'émergence des modèles de langage multimodaux de grande taille (MLLMs) a entraîné des avancées significatives dans les capacités des agents d'interface graphique (GUI). Néanmoins, les techniques actuelles d'entraînement et d'inférence pour ces agents souffrent encore de dilemmes dans la conception du raisonnement, de récompenses inefficaces et de bruit visuel. Pour résoudre ces problèmes, nous introduisons UI-AGILE, un cadre complet qui améliore les agents GUI à la fois lors de l'entraînement et de l'inférence. Pour l'entraînement, nous proposons une série d'améliorations au processus de réglage fin supervisé (SFT) : 1) une fonction de récompense continue pour encourager un ancrage de haute précision ; 2) une récompense de "pensée simple" pour équilibrer la planification avec la vitesse et la précision de l'ancrage ; et 3) une stratégie de rééchantillonnage basée sur le recadrage pour atténuer le problème des récompenses éparses et améliorer l'apprentissage sur des tâches complexes. Pour l'inférence, nous présentons l'ancrage décomposé avec sélection, une méthode novatrice qui améliore considérablement la précision de l'ancrage sur les écrans haute résolution en divisant l'image en parties plus petites et gérables. Les expériences montrent que UI-AGILE atteint des performances de pointe sur deux benchmarks, ScreenSpot-Pro et ScreenSpot-v2. Par exemple, l'utilisation de nos méthodes d'amélioration proposées pour l'entraînement et l'inférence apporte une amélioration de 23 % en précision d'ancrage par rapport au meilleur modèle de référence sur ScreenSpot-Pro.
Les approches récentes pour le rééclairage 3D ont montré des résultats prometteurs en intégrant des préalables génératifs de rééclairage d'images 2D pour modifier l'apparence d'une représentation 3D tout en préservant la structure sous-jacente. Cependant, les préalables génératifs utilisés pour le rééclairage 2D qui rééclairent directement à partir d'une image d'entrée ne tirent pas parti des propriétés intrinsèques du sujet qui peuvent être inférées ou ne peuvent pas prendre en compte des données multi-vues à grande échelle, ce qui conduit à un rééclairage de qualité inférieure. Dans cet article, nous proposons Lightswitch, un nouveau framework de diffusion finement ajusté pour le rééclairage de matériaux, qui rééclaire efficacement un nombre arbitraire d'images d'entrée vers une condition d'éclairage cible tout en incorporant des indices provenant de propriétés intrinsèques inférées. En utilisant des indices multi-vues et de matériaux ainsi qu'un schéma de débruitage scalable, notre méthode rééclaire de manière cohérente et efficace des données multi-vues denses d'objets avec des compositions de matériaux diverses. Nous montrons que la qualité de notre prédiction de rééclairage 2D dépasse les préalables de rééclairage de pointe précédents qui rééclairent directement à partir d'images. Nous démontrons en outre que LightSwitch égal ou surpasse les méthodes de rendu inverse par diffusion de pointe en rééclairant des objets synthétiques et réels en aussi peu que 2 minutes.