papers.description
L'étiquette « end-to-end » attribuée aux LLM est un abus de langage. En pratique, ceux-ci dépendent d'un processus de décodage non différentiable qui nécessite un réglage manuel fastidieux d'hyperparamètres comme la température et le top-p. Cet article présente AutoDeco, une nouvelle architecture qui permet une génération véritablement « end-to-end » en apprenant à contrôler sa propre stratégie de décodage. Nous enrichissons le transformeur standard avec des têtes légères qui, à chaque étape, prédisent dynamiquement des valeurs de température et de top-p spécifiques au contexte, parallèlement aux logits du token suivant. Cette approche transforme le décodage en un processus paramétrique au niveau du token, permettant au modèle d'autoréguler sa stratégie d'échantillonnage en une seule passe avant. À travers des expériences approfondies sur huit benchmarks, nous démontrons qu'AutoDeco surpasse non seulement significativement les stratégies de décodage par défaut, mais atteint également des performances comparables à une baseline optimisée de manière oracle, dérivée d'un « piratage de l'ensemble de test » – une limite supérieure pratique pour toute méthode statique. Fait crucial, nous mettons en évidence une capacité émergente de contrôle du décodage par instruction : le modèle apprend à interpréter des commandes en langage naturel (par exemple, « génère avec une faible randomisation ») et ajuste sa température et son top-p prédits token par token, ouvrant ainsi une nouvelle paradigme pour un décodage des LLM pilotable et interactif.
Nous présentons Kimi Linear, une architecture hybride à attention linéaire qui, pour la première fois, surpasse l'attention complète dans des comparaisons équitables couvrant divers scénarios — incluant les régimes de mise à l'échelle pour contexte court, contexte long et apprentissage par renforcement (RL). Son cœur repose sur Kimi Delta Attention (KDA), un module d'attention linéaire expressif qui étend Gated DeltaNet avec un mécanisme de gating plus fin, permettant une utilisation plus efficace de la mémoire limitée des RNN à état fini. Notre algorithme personnalisé par blocs atteint une haute efficacité matérielle grâce à une variante spécialisée des matrices de transition Diagonale-Plus-Rang-Faible (DPLR), qui réduit substantiellement le calcul par rapport à la formulation DPLR générale tout en restant plus cohérente avec la règle delta classique. Nous avons pré-entraîné un modèle Kimi Linear avec 3 milliards de paramètres activés et 48 milliards de paramètres au total, basé sur un hybride stratifié de KDA et de Multi-Head Latent Attention (MLA). Nos expériences montrent qu'avec une procédure d'entraînement identique, Kimi Linear surpasse l'MLA complet avec une marge significative sur toutes les tâches évaluées, tout en réduisant l'utilisation du cache KV jusqu'à 75 % et en atteignant un débit de décodage jusqu'à 6 fois supérieur pour un contexte de 1 million de tokens. Ces résultats démontrent que Kimi Linear peut remplacer directement les architectures à attention complète avec des performances et une efficacité supérieures, y compris pour les tâches avec des longueurs d'entrée et de sortie plus importantes. Pour soutenir la recherche future, nous ouvrons les implémentations du noyau KDA et de vLLM, et publions les points de contrôle des modèles pré-entraînés et affinés par instructions.
Nous présentons Emu3.5, un modèle de monde multimodal à grande échelle qui prédit nativement l'état suivant dans les domaines visuel et linguistique. Emu3.5 est pré-entraîné de bout en bout avec un objectif unifié de prédiction du token suivant sur un corpus de données entrelacées vision-langage contenant plus de 10 billions de tokens, principalement dérivées d'images séquentielles et de transcriptions de vidéos internet. Le modèle accepte naturellement des entrées vision-langage entrelacées et génère des sorties vision-langage entrelacées. Emu3.5 est ensuite post-entraîné par apprentissage par renforcement à grande échelle pour améliorer le raisonnement et la génération multimodaux. Pour améliorer l'efficacité de l'inférence, nous proposons l'Adaptation par Diffusion Discrète (DiDA), qui convertit le décodage token-par-token en une prédiction parallèle bidirectionnelle, accélérant l'inférence par image d'environ 20 fois sans sacrifier les performances. Emu3.5 présente de fortes capacités multimodales natives, incluant la génération vision-langage à long horizon, la génération tout-vers-image (X2I), et la génération d'images complexes riches en texte. Il présente également des capacités généralisables de modélisation du monde, permettant l'exploration mondiale cohérente spatio-temporellement et la manipulation incarnée en monde ouvert à travers divers scénarios et tâches. En comparaison, Emu3.5 atteint des performances comparables à Gemini 2.5 Flash Image (Nano Banana) sur les tâches de génération et d'édition d'images et démontre des résultats supérieurs sur un ensemble de tâches de génération entrelacées. Nous rendons Emu3.5 open-source à l'adresse https://github.com/baaivision/Emu3.5 pour soutenir la recherche communautaire.
Le ChatGPT Atlas d'OpenAI introduit de nouvelles capacités d'interaction web, permettant au modèle d'analyser des pages web, de traiter les intentions des utilisateurs et d'exécuter des saisies de curseur et de clavier directement dans le navigateur. Bien que ses capacités pour les tâches de recherche d'information aient été démontrées, ses performances dans des environnements dynamiques et interactifs restent peu explorées. Dans cette étude, nous menons une évaluation précoce des capacités d'interaction web d'Atlas en utilisant des jeux en ligne comme scénarios de test, notamment T-Rex Runner de Google, Sudoku, Flappy Bird et Stein.world. Nous utilisons les scores de performance en jeu comme métriques quantitatives pour évaluer les performances sur différents types de tâches. Nos résultats montrent qu'Atlas obtient de fortes performances dans les tâches de raisonnement logique comme le Sudoku, résolvant les grilles nettement plus rapidement que des références humaines, mais éprouve des difficultés considérables dans les jeux en temps réel exigeant un timing précis et un contrôle moteur, échouant souvent à dépasser les premiers obstacles. Ces résultats suggèrent que si Atlas démontre un traitement analytique compétent, il subsiste des limitations notables dans les environnements web dynamiques nécessitant une interaction en temps réel. Le site web de notre projet est disponible à l'adresse https://atlas-game-eval.github.io.
Les grands modèles de langage (LLM) éprouvent souvent des difficultés avec les problèmes nécessitant un raisonnement à plusieurs étapes. Pour les petits modèles open-source, le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) échoue lorsque les solutions correctes sont rarement échantillonnées même après de nombreuses tentatives, tandis que le Fine-Tuning Supervisé (SFT) tend à surajuster les longues démonstrations par une imitation rigide token par token. Pour combler cette lacune, nous proposons l'Apprentissage par Renforcement Supervisé (SRL), un cadre qui reformule la résolution de problèmes comme la génération d'une séquence d'"actions" logiques. SRL entraîne le modèle à générer un monologue de raisonnement interne avant de s'engager dans chaque action. Il fournit des récompenses plus progressives basées sur la similarité entre les actions du modèle et les actions expertes extraites du jeu de données SFT, étape par étape. Cette supervision offre des signaux d'apprentissage plus riches même lorsque tous les déploiements sont incorrects, tout en encourageant un raisonnement flexible guidé par les démonstrations expertes. En conséquence, SRL permet aux petits modèles d'apprendre des problèmes complexes précédemment inaccessibles au SFT ou au RLVR. De plus, initialiser l'entraînement avec SRL avant de l'affiner avec RLVR produit les performances globales les plus solides. Au-delà des benchmarks de raisonnement, SRL se généralise efficacement aux tâches de génie logiciel agentique, l'établissant comme un cadre d'entraînement robuste et polyvalent pour les LLM orientés raisonnement.
Si les représentations visuelles pré-entraînées ont considérablement fait progresser l'apprentissage par imitation, elles sont souvent agnostiques à la tâche car elles restent figées pendant l'apprentissage de la politique. Dans ce travail, nous explorons l'exploitation de modèles de diffusion texte-image pré-entraînés pour obtenir des représentations visuelles adaptatives pour le contrôle robotique, sans fine-tuning du modèle lui-même. Cependant, nous constatons qu'appliquer naïvement les conditions textuelles – une stratégie pourtant efficace dans d'autres domaines de la vision – apporte des gains minimes, voire négatifs, dans les tâches de contrôle. Nous attribuons cela à l'écart de domaine entre les données d'entraînement du modèle de diffusion et les environnements de contrôle robotique, ce qui nous amène à plaider pour des conditions qui prennent en compte les informations visuelles dynamiques et spécifiques requises pour le contrôle. Pour cela, nous proposons ORCA, qui introduit des prompts de tâche apprenables s'adaptant à l'environnement de contrôle et des prompts visuels capturant des détails fins et spécifiques à chaque image. En facilitant l'obtention de représentations adaptatives via nos nouvelles conditions, notre approche atteint des performances de pointe sur divers benchmarks de contrôle robotique, surpassant significativement les méthodes antérieures.
La création d'agents capables de généraliser leurs compétences aux environnements web, de bureau et mobiles reste un défi ouvert, car les systèmes antérieurs dépendent d'interfaces spécifiques à chaque environnement qui limitent le déploiement multiplateforme. Nous présentons Surfer 2, une architecture unifiée fonctionnant uniquement à partir d'observations visuelles qui obtient des performances de pointe dans les trois environnements. Surfer 2 intègre une gestion hiérarchique du contexte, une planification et une exécution découplées, et une auto-vérification avec récupération adaptative, permettant un fonctionnement fiable sur de longs horizons de tâches. Notre système atteint une précision de 97,1% sur WebVoyager, 69,6% sur WebArena, 60,1% sur OSWorld et 87,1% sur AndroidWorld, surpassant tous les systèmes antérieurs sans ajustement spécifique aux tâches. Avec plusieurs tentatives, Surfer 2 dépasse les performances humaines sur tous les benchmarks. Ces résultats démontrent qu'une orchestration systématique amplifie les capacités des modèles de fondation et permet le contrôle informatique universel par la seule interaction visuelle, tout en appelant à une nouvelle génération de modèles de vision et de langage pour atteindre une optimisation de Pareto en termes de coût-efficacité.
Les modèles récents de génération vidéo sont capables de produire des vidéos haute fidélité et temporellement cohérentes, ce qui suggère qu'ils pourraient encoder des connaissances substantielles sur le monde. Au-delà de la synthèse réaliste, ils présentent également des comportements émergents indicatifs de perception visuelle, de modélisation et de manipulation. Pourtant, une question importante demeure : ces modèles vidéo sont-ils prêts à servir de raisonneurs zero-shot dans des scénarios complexes de raisonnement visuel ? Dans ce travail, nous menons une étude empirique pour investiguer cette question de manière exhaustive, en nous concentrant sur le modèle leader et populaire Veo-3. Nous évaluons son comportement raisonneur selon 12 dimensions, incluant la logique spatiale, géométrique, physique, temporelle et incarnée, en caractérisant systématiquement ses forces et ses modes d'échec. Pour standardiser cette étude, nous organisons les données d'évaluation dans MME-CoF, un benchmark compact permettant une évaluation approfondie et rigoureuse du raisonnement par Chaîne d'Images (Chain-of-Frame, CoF). Nos résultats révèlent que si les modèles vidéo actuels démontrent des schémas de raisonnement prometteurs en matière de cohérence spatiale à court terme, d'ancrage fin et de dynamiques localement cohérentes, ils restent limités dans le raisonnement causal à long terme, les contraintes géométriques strictes et la logique abstraite. Globalement, ils ne sont pas encore fiables en tant que raisonneurs zero-shot autonomes, mais présentent des signes encourageants en tant qu'engins visuels complémentaires aux côtés de modèles de raisonnement dédiés. Page du projet : https://video-cof.github.io
Nous présentons AMO-Bench, un benchmark avancé de raisonnement mathématique de niveau Olympiade ou supérieur, comprenant 50 problèmes conçus manuellement. Les benchmarks existants ont largement exploité les concours de mathématiques du secondaire pour évaluer les capacités de raisonnement mathématique des grands modèles de langage (LLM). Cependant, de nombreux concours mathématiques actuels deviennent moins efficaces pour évaluer les LLM de premier plan en raison de la saturation des performances (par exemple, AIME24/25). Pour y remédier, AMO-Bench introduit des défis plus rigoureux en garantissant que ses 50 problèmes sont (1) validés par des experts pour répondre au moins aux standards de difficulté des Olympiades Internationales de Mathématiques (OIM), et (2) entièrement originaux pour éviter les fuites potentielles de performances dues à la mémorisation des données. De plus, chaque problème d'AMO-Bench ne requiert qu'une réponse finale plutôt qu'une démonstration, permettant une évaluation automatique et robuste. Les résultats expérimentaux sur 26 LLM avec AMO-Bench montrent que même le modèle le plus performant n'atteint que 52,4 % de précision, la majorité des LLM obtenant des scores inférieurs à 40 %. Au-delà de ces faibles performances, notre analyse approfondie révèle une tendance prometteuse de scaling avec l'augmentation des calculs lors des tests sur AMO-Bench. Ces résultats mettent en évidence la marge d'amélioration significative du raisonnement mathématique des LLM actuels. Nous publions AMO-Bench pour faciliter les recherches futures visant à faire progresser les capacités de raisonnement des modèles de langage. https://amo-bench.github.io/
Nous envisageons une nouvelle ère de l'IA, appelée organisation agentique, où des agents résolvent des problèmes complexes en travaillant de manière collaborative et concurrente, permettant d'atteindre des résultats dépassant l'intelligence individuelle. Pour concrétiser cette vision, nous introduisons la pensée asynchrone (AsyncThink) comme nouveau paradigme de raisonnement avec les grands modèles de langage, qui organise le processus de réflexion interne en structures exécutables simultanément. Plus précisément, nous proposons un protocole de pensée où un organisateur assigne dynamiquement des sous-requêtes à des travailleurs, fusionne les connaissances intermédiaires et produit des solutions cohérentes. Plus important encore, la structure de pensée dans ce protocole peut être optimisée par apprentissage par renforcement. Les expériences démontrent qu'AsyncThink réduit la latence d'inférence de 28% par rapport à la pensée parallèle tout en améliorant la précision sur le raisonnement mathématique. De plus, AsyncThink généralise ses capacités apprises de pensée asynchrone, abordant efficacement des tâches non vues sans apprentissage supplémentaire.
Malgré les progrès récents dans la génération de mouvements humains 3D (MoGen) sur les référentiels standards, les modèles existants font toujours face à un goulot d'étranglement fondamental dans leur capacité de généralisation. En revanche, des domaines génératifs adjacents, notamment la génération vidéo (ViGen), ont démontré une généralisation remarquable dans la modélisation des comportements humains, mettant en lumière des enseignements transférables que MoGen peut exploiter. Motivés par cette observation, nous présentons un cadre complet qui transfère systématiquement les connaissances de ViGen vers MoGen selon trois piliers clés : les données, la modélisation et l'évaluation. Premièrement, nous introduisons ViMoGen-228K, un jeu de données à grande échelle comprenant 228 000 échantillons de mouvements de haute qualité qui intègre des données optiques MoCap de haute fidélité avec des mouvements annotés sémantiquement provenant de vidéos web et des échantillons synthétisés générés par des modèles ViGen de pointe. Le jeu de données inclut à la fois des paires texte-mouvement et des triplets texte-vidéo-mouvement, élargissant considérablement la diversité sémantique. Deuxièmement, nous proposons ViMoGen, un transformeur à diffusion basé sur le *flow matching* qui unifie les connaissances a priori des données MoCap et des modèles ViGen via un conditionnement multimodal à porte. Pour améliorer l'efficacité, nous développons en outre ViMoGen-light, une variante distillée qui élimine les dépendances à la génération vidéo tout en préservant une forte généralisation. Enfin, nous présentons MBench, un référentiel hiérarchique conçu pour une évaluation fine du mouvement selon la qualité du mouvement, la fidélité à l'invite et la capacité de généralisation. Des expériences approfondies montrent que notre cadre surpasse significativement les approches existantes dans les évaluations automatiques et humaines. Le code, les données et le référentiel seront rendus publics.
Il existe deux méthodes prédominantes pour construire des scènes 3D : la génération procédurale et le relèvement 2D. Parmi elles, le relèvement 2D basé sur les panoramas s'est imposé comme une technique prometteuse, exploitant de puissants préalables génératifs 2D pour produire des environnements 3D immersifs, réalistes et diversifiés. Dans ce travail, nous faisons progresser cette technique pour générer des scènes 3D prêtes pour le graphisme, adaptées au rendu physiquement réaliste (PBR), au rééclairage et à la simulation. Notre idée clé est de réutiliser des modèles génératifs 2D pour la perception panoramique de la géométrie, des textures et des matériaux PBR. Contrairement aux approches de relèvement 2D existantes qui privilégient la génération d'apparence et ignorent la perception des propriétés intrinsèques, nous présentons OmniX, un cadre unifié et polyvalent. S'appuyant sur une structure d'adaptateur cross-modal léger et efficace, OmniX réutilise des préalables génératifs 2D pour un large éventail de tâches de vision panoramique, incluant la perception, la génération et la complétion de panoramas. De plus, nous avons constitué un vaste jeu de données de panoramas synthétiques contenant des panoramas multimodaux de haute qualité issus de diverses scènes intérieures et extérieures. Des expériences approfondies démontrent l'efficacité de notre modèle en matière de perception visuelle panoramique et de génération de scènes 3D prêtes pour le graphisme, ouvrant de nouvelles possibilités pour la création de mondes virtuels immersifs et physiquement réalistes.
Les modèles génératifs texte-image actuels sont entraînés sur de vastes ensembles de données non-curatés pour permettre des capacités de génération diversifiées. Cependant, cette approche ne correspond pas parfaitement aux préférences des utilisateurs. Récemment, des modèles de récompense ont été spécifiquement conçus pour effectuer une sélection a posteriori des images générées et les aligner sur une récompense, généralement les préférences utilisateur. Ce rejet de données informatives, couplé à l'optimisation pour une récompense unique, tend à nuire à la diversité, à la fidélité sémantique et à l'efficacité. Plutôt que ce post-traitement, nous proposons de conditionner le modèle sur plusieurs modèles de récompense pendant l'entraînement, permettant au modèle d'apprendre directement les préférences utilisateur. Nous montrons que cela améliore non seulement considérablement la qualité visuelle des images générées, mais accélère aussi significativement l'entraînement. Notre méthode proposée, appelée MIRO, obtient des performances à l'état de l'art sur le benchmark compositionnel GenEval et les scores de préférence utilisateur (PickAScore, ImageReward, HPSv2).
Les dispositifs portables tels que les lunettes intelligentes transforment la manière dont les individus interagissent avec leur environnement, permettant aux utilisateurs d'obtenir des informations concernant les entités dans leur champ de vision. La Génération Augmentée par Récupération Multi-Modale (MM-RAG) joue un rôle clé pour répondre à ce type de requêtes, mais il n'existe toujours pas de benchmark complet pour cette tâche, particulièrement dans le contexte des dispositifs portables. Pour combler cette lacune, nous présentons CRAG-MM – un benchmark complet de RAG pour les conversations multi-modales et multi-tours. CRAG-MM contient un ensemble diversifié de 6,5K triplets (image, question, réponse) et de 2K conversations multi-tours basées sur le visuel couvrant 13 domaines, incluant 6,2K images égocentriques conçues pour imiter les captures provenant de dispositifs portables. Nous avons soigneusement élaboré les questions pour refléter des scénarios et défis du monde réel, incluant cinq types de problèmes de qualité d'image, six types de questions, une popularité variable des entités, une dynamique d'information différente et différents nombres de tours de conversation. Nous concevons trois tâches : l'augmentation à source unique, l'augmentation à sources multiples et les conversations multi-tours – chacune étant associée à un corpus de récupération dédié et des API pour la récupération d'images et de graphes de connaissances (KG) ainsi que pour la récupération de pages web. Notre évaluation montre que les approches RAG simples n'atteignent que 32 % et 43 % de véracité respectivement sur les questions-réponses (QA) à tour unique et multi-tours de CRAG-MM, tandis que les solutions industrielles de pointe présentent une qualité similaire (32 %/45 %), soulignant une marge d'amélioration substantielle. Le benchmark a accueilli la KDD Cup 2025, attirant environ 1 000 participants et 5 000 soumissions, les solutions gagnantes améliorant les performances de base de 28 %, ce qui souligne son impact précoce dans l'avancement du domaine.
Les dossiers médicaux électroniques (DME) contiennent des informations riches mais complexes, et leur analyse automatisée est cruciale pour la prise de décision clinique. Malgré les progrès récents des grands modèles de langage (LLM) dans les flux de travail cliniques, leur capacité à analyser les DME reste limitée en raison d'une couverture étroite des tâches et d'un manque de capacités de raisonnement orientées DME. Cet article vise à combler cette lacune. Plus précisément, nous présentons EHR-Ins, un jeu de données d'instructions de raisonnement sur les DME à grande échelle et complet, comprenant 300 000 cas de raisonnement de haute qualité et 4 millions de cas sans raisonnement couvrant 42 tâches distinctes liées aux DME. Son innovation centrale est un cadre piloté par un graphe de réflexion qui permet de générer à grande échelle des données de raisonnement de haute qualité. Sur cette base, nous développons EHR-R1, une série de LLM optimisés pour le raisonnement, comptant jusqu'à 72 milliards de paramètres et conçus pour l'analyse des DME. Grâce à un paradigme de formation multi-étapes, incluant l'adaptation au domaine, l'amélioration du raisonnement et l'apprentissage par renforcement, EHR-R1 acquiert systématiquement des connaissances du domaine et des capacités de raisonnement diversifiées, permettant une analyse précise et robuste des DME. Enfin, nous présentons EHR-Bench, un nouveau benchmark constitué à partir de MIMIC-IV, couvrant 42 tâches, pour évaluer de manière exhaustive le raisonnement et la prédiction dans divers scénarios de DME. Lors des expériences, nous montrons que le modèle résultant, EHR-R1, surpasse constamment les LLM commerciaux et open-source les plus avancés (y compris DeepSeek-V3 et GPT-4o), devançant GPT-4o de plus de 30 points sur MIMIC-Bench et atteignant un AUROC en zero-shot supérieur de 10 % sur EHRSHOT. Collectivement, EHR-Ins, EHR-R1 et EHR-Bench ont significativement fait progresser le développement d'analyses de DME plus fiables et pertinentes sur le plan clinique.
L'IA documentaire a progressé rapidement et suscite une attention croissante. Cependant, alors que la plupart des efforts se sont concentrés sur l'analyse de la mise en page des documents (DLA), sa contrepartie générative, la génération de mise en page de documents, reste peu explorée. Un obstacle majeur réside dans la rareté des mises en page diversifiées : les articles académiques avec des structures de type Manhattan dominent les études existantes, tandis que les genres du monde réel tels que les journaux et magazines restent gravement sous-représentés. Pour combler cette lacune, nous constituons OmniLayout-1M, le premier jeu de données à l'échelle du million de mises en page de documents diversifiées, couvrant six types de documents courants et comprenant des mises en page contemporaines collectées auprès de multiples sources. De plus, puisque les méthodes existantes peinent dans les domaines complexes et échouent souvent à organiser de longues séquences de manière cohérente, nous introduisons OmniLayout-LLM, un modèle de 0,5B avec un paradigme d'apprentissage en deux étapes Grossier-vers-Fin conçu : 1) l'apprentissage des principes de mise en page universels à partir d'OmniLayout-1M avec des définitions de catégories grossières, et 2) le transfert des connaissances vers un domaine spécifique avec des annotations granulaires. Des expériences approfondies démontrent que notre approche obtient des performances solides sur plusieurs domaines du jeu de données M⁶Doc, surpassant substantiellement à la fois les experts existants en génération de mise en page et plusieurs LLM généralistes récents. Notre code, modèles et jeu de données seront rendus publics.
À mesure que les agents de LLM progressent, ils interviennent de plus en plus dans les décisions économiques, allant de la découverte de produits aux transactions, au nom des utilisateurs. Ces applications promettent des avantages mais soulèvent également de nombreuses questions concernant la responsabilité des agents et leur valeur pour les utilisateurs. Répondre à ces questions nécessite de comprendre comment les agents se comportent dans des conditions de marché réalistes. Cependant, les recherches antérieures ont largement évalué les agents dans des cadres contraints, tels que des places de marché à tâche unique (par exemple, la négociation) ou des interactions structurées entre deux agents. Les marchés réels sont fondamentalement différents : ils exigent que les agents gèrent des activités économiques diverses et se coordonnent au sein de vastes écosystèmes dynamiques où de multiples agents aux comportements opaques peuvent engager des dialogues ouverts. Pour combler cette lacune, nous étudions des places de marché agentielles à double sens où les agents Assistants représentent les consommateurs et les agents Services représentent des entreprises concurrentes. Pour étudier ces interactions en toute sécurité, nous développons Magentic-Marketplace – un environnement simulé où les Assistants et les Services peuvent opérer. Cet environnement nous permet d'étudier les dynamiques de marché clés : l'utilité obtenue par les agents, les biais comportementaux, la vulnérabilité à la manipulation, et comment les mécanismes de recherche façonnent les résultats du marché. Nos expériences montrent que les modèles de pointe peuvent approcher une utilité sociale optimale – mais seulement dans des conditions de recherche idéales. Les performances se dégradent fortement avec l'échelle, et tous les modèles présentent un biais sévère en faveur de la première proposition, créant un avantage de 10 à 30 fois pour la vitesse de réponse par rapport à la qualité. Ces résultats révèlent comment les comportements émergent selon les conditions de marché, éclairant la conception de places de marché agentielles équitables et efficaces.
La génération 3D basée sur les parties présente un grand potentiel pour diverses applications. Les générateurs de parties antérieurs, qui représentent les parties à l'aide de tokens vectoriels implicites, souffrent souvent d'un manque de détails géométriques. Une autre approche adopte une représentation voxelique explicite mais partage une grille voxelique globale entre toutes les parties ; cela entraîne souvent une occupation trop faible des voxels par les petites parties, conduisant à une qualité dégradée. Dans cet article, nous proposons FullPart, un nouveau cadre combinant les paradigmes implicite et explicite. Il dérive d'abord la disposition des boîtes englobantes via un processus de diffusion vectoriel implicite, une tâche que la diffusion implicite gère efficacement car les tokens de boîtes contiennent peu de détails géométriques. Ensuite, il génère des parties détaillées, chacune dans sa propre grille voxelique à pleine résolution. Au lieu de partager un espace global à basse résolution, chaque partie dans notre méthode – même les petites – est générée à pleine résolution, permettant la synthèse de détails complexes. Nous introduisons en outre une stratégie d'encodage par point central pour résoudre le problème de désalignement lors de l'échange d'informations entre des parties de tailles réelles différentes, préservant ainsi la cohérence globale. De plus, pour pallier la rareté des données de parties fiables, nous présentons PartVerse-XL, le plus grand jeu de données 3D de parties annotées manuellement à ce jour, avec 40 000 objets et 320 000 parties. Des expériences approfondies démontrent que FullPart obtient des résultats à l'état de l'art en génération de parties 3D. Nous publierons l'intégralité du code, des données et du modèle pour favoriser les recherches futures sur la génération de parties 3D.
Les grands modèles multimodaux (LMM) sont de plus en plus capables de répondre à des questions médicales nécessitant un raisonnement conjoint sur des images et du texte. Cependant, l'entraînement de systèmes généraux de question-réponse visuelle (VQA) médicaux est entravé par le manque de grands corpus ouverts, utilisables et de haute qualité. Nous présentons MedVLSynther, un framework générateur-vérificateur guidé par une rubrique qui synthétise des items VQA à choix multiples de haute qualité directement à partir de la littérature biomédicale ouverte, en se basant sur les figures, les légendes et les références dans le texte. Le générateur produit des énoncés autonomes et des options parallèles et mutuellement exclusives selon un schéma JSON vérifiable automatiquement ; un vérificateur multi-étapes applique des critères essentiels (autonomie, réponse correcte unique, validité clinique, cohérence image-texte), attribue des points positifs granulaires, et pénalise les modes d'échec courants avant acceptation. L'application de ce pipeline à PubMed Central produit MedSynVQA : 13 087 questions auditées couvrant 14 803 images, 13 modalités d'imagerie et 28 régions anatomiques. L'entraînement de LMM à poids ouverts par apprentissage par renforcement avec des récompenses vérifiables améliore la précision sur six benchmarks de VQA médical, atteignant des moyennes de 55,85 (3B) et 58,15 (7B), avec jusqu'à 77,57 sur VQA-RAD et 67,76 sur PathVQA, surpassant des LMM médicaux robustes. Des ablations vérifient que la génération et la vérification sont toutes deux nécessaires et que davantage de données vérifiées aident systématiquement, et une analyse ciblée de contamination ne détecte aucune fuite depuis les suites d'évaluation. En opérant entièrement sur de la littérature ouverte et des modèles à poids ouverts, MedVLSynther offre une voie auditable, reproductible et respectueuse de la vie privée pour des données d'entraînement VQA médicales évolutives.
Les IA ont réalisé des progrès rapides sur les benchmarks de recherche en matière de connaissances et de raisonnement, mais la manière dont ces avancées se traduisent en valeur économique et en automatisation reste incertaine. Pour mesurer cela, nous introduisons l'Indice de Travail à Distance (ITD), un benchmark multisectoriel complet comprenant des projets réels à valeur économique, conçu pour évaluer la performance des agents de bout en bout dans des contextes pratiques. Les agents d'IA obtiennent des résultats proches du plancher sur l'ITD, l'agent le plus performant atteignant un taux d'automatisation de 2,5%. Ces résultats permettent d'ancrer les discussions sur l'automatisation par l'IA dans des preuves empiriques, établissant une base commune pour suivre les impacts de l'IA et permettant aux parties prenantes de naviguer de manière proactive dans l'automatisation du travail pilotée par l'IA.
Ce travail étudie si les petits modèles de langage peuvent bénéficier d'un réglage par instructions. Nous comparons des ensembles de données de réglage pour la conversation et le question-réponse, appliqués selon une approche fusionnée ou un curriculum séquentiel, sur des modèles décodeurs uniquement de 100 et 140 millions de paramètres. L'évaluation couvre à la fois des scénarios de fine-tuning (SuperGLUE) et de zero-shot (BLiMP, EWoK, WUGs, suivi d'entités et corrélation psycholinguistique). Les résultats montrent que le réglage par instructions procure des gains modestes mais constants dans les scénarios de fine-tuning, les curricula séquentiels surpassant les données fusionnées ; cependant, les améliorations ne se transfèrent pas systématiquement aux tâches zero-shot, suggérant un compromis entre l'adaptation centrée sur l'interaction et la généralisation linguistique large. Ces résultats soulignent à la fois le potentiel et les limites de l'adaptation des stratégies d'apprentissage inspirées de l'humain pour les modèles de langage à ressources limitées, et pointent vers des approches hybrides et curriculaires pour améliorer la généralisation sous des contraintes écologiques d'entraînement.
Les grands modèles de langage (LLM) actuels spécialisés dans l'utilisation d'outils sont entraînés sur des jeux de données statiques, ce qui leur permet d'interagir avec des outils externes et d'effectuer un raisonnement multi-étapes intégrant ces outils, produisant ainsi des trajectoires d'appels d'outils. Cependant, ces modèles se contentent d'imiter la résolution générique d'une requête via une routine d'appel d'outils standard, échouant ainsi à explorer des solutions alternatives et démontrant des performances limitées dans un environnement d'appels d'outils dynamique et évolutif. Dans ce travail, nous proposons PORTool, une méthode d'apprentissage par renforcement (RL) qui encourage un LLM utilisateur d'outils à explorer diverses trajectoires menant à la réponse correcte. Concrètement, cette méthode commence par générer plusieurs déroulements (rollouts) pour une requête donnée, certains partageant les premières étapes d'appel d'outils, formant ainsi une structure arborescente. Ensuite, nous attribuons une récompense à chaque étape, basée sur sa capacité à produire une réponse correcte et à effectuer des appels d'outils réussis. Une étape partagée entre différentes trajectoires reçoit la même récompense, tandis que les étapes divergentes sous une même bifurcation reçoivent des récompenses distinctes. Enfin, ces récompenses étape par étape sont utilisées pour calculer des avantages relatifs aux bifurcations, combinés à des avantages relatifs aux trajectoires, afin d'entraîner le LLM à l'utilisation d'outils. Les expériences utilisent 17 outils pour répondre aux requêtes des utilisateurs, couvrant à la fois des sujets sensibles au temps et invariants dans le temps. Nous menons des études d'ablation pour justifier systématiquement la nécessité et la robustesse de conception des récompenses étape par étape. De plus, nous comparons PORTool avec d'autres approches d'entraînement et démontrons des améliorations significatives en précision finale et en nombre d'étapes d'appel d'outils.
Les modèles de langage de grande taille (LLM) offrent des performances de pointe dans les tâches de compréhension et de génération du langage naturel. Cependant, le déploiement de modèles commerciaux leaders pour des tâches spécialisées, telles que le commerce électronique, est souvent entravé par des coûts de calcul élevés, une latence importante et des dépenses opérationnelles conséquentes. Cet article étudie la viabilité de modèles ouverts plus petits et plus légers comme alternative économe en ressources. Nous présentons une méthodologie pour optimiser un modèle Llama 3.2 d'un milliard de paramètres pour la reconnaissance d'intention multilingue dans le commerce électronique. Le modèle a été affiné (fine-tuning) à l'aide de l'Adaptation Quantifiée en Bas Rang (QLoRA) sur un jeu de données généré de manière synthétique, conçu pour imiter les requêtes utilisateur réelles. Par la suite, nous avons appliqué des techniques de quantification après entraînement, créant des versions optimisées pour GPU (GPTQ) et pour CPU (GGUF). Nos résultats démontrent que le modèle spécialisé de 1B atteint une précision de 99 %, égalant ainsi les performances du modèle GPT-4.1, pourtant nettement plus volumineux. Une analyse détaillée des performances a révélé des compromis critiques dépendants du matériel : tandis que la version GPTQ 4 bits réduisait l'utilisation de la VRAM de 41 %, elle a paradoxalement ralenti l'inférence de 82 % sur une architecture GPU plus ancienne (NVIDIA T4) en raison de la surcharge de déquantification. À l'inverse, les formats GGUF sur un CPU ont permis une accélération allant jusqu'à 18x du débit d'inférence et une réduction de plus de 90 % de la consommation de RAM par rapport à la ligne de base FP16. Nous concluons que les petits modèles ouverts et correctement optimisés constituent non seulement une alternative viable, mais plus appropriée pour les applications spécifiques à un domaine, offrant une précision de pointe pour une fraction du coût computationnel.
L'auto-amélioration est devenue un paradigme dominant pour développer les capacités de raisonnement des grands modèles vision-langage (LVLM), où les modèles explorent et apprennent de manière itérative à partir de trajectoires réussies. Cependant, nous identifions un problème critique durant ce processus : le modèle excelle à générer des trajectoires de haute qualité pour les requêtes simples (données de tête) mais peine face aux requêtes plus complexes (données de queue). Cela entraîne une optimisation déséquilibrée qui pousse le modèle à privilégier les compétences de raisonnement simples, tout en entravant sa capacité à traiter des tâches de raisonnement plus complexes. Au fil des itérations, ce déséquilibre devient de plus en plus prononcé – une dynamique que nous nommons « l'effet Matthieu » – qui finit par entraver l'amélioration du modèle et conduit à des goulots d'étranglement de performance. Pour contrer ce défi, nous proposons quatre stratégies efficaces selon deux perspectives : le remodelage de la distribution et le rééchantillonnage des trajectoires, afin de rétablir l'équilibre entre tête et queue durant le processus d'exploration-apprentissage en auto-amélioration. Des expériences approfondies sur les modèles Qwen2-VL-7B-Instruct et InternVL2.5-4B, couvrant diverses tâches de raisonnement visuel, démontrent que nos méthodes améliorent constamment les capacités de raisonnement visuel, surpassant l'auto-amélioration standard de 3,86 points en moyenne.
Les grands modèles de langage ont démontré des capacités de raisonnement remarquables dans diverses tâches de traitement du langage naturel. Cependant, les avancées comparables en découverte scientifique restent plus limitées, car la compréhension des phénomènes physiques complexes nécessite des représentations multidimensionnelles qui vont bien au-delà du seul langage. Un exemple frappant est la conception de matériaux fonctionnels comme les MOF - essentiels pour des applications importantes telles que la capture du carbone et le stockage de l'hydrogène. Parcourir leur vaste espace de conception complexe via des représentations langagières interprétables par les LLM s'avère difficile en raison des nombreuses configurations atomiques tridimensionnelles possibles et des règles réticulaires strictes de géométrie de coordination et de topologie. Malgré des résultats initiaux prometteurs dans la découverte assistée par LLM pour des systèmes matériels plus simples, la conception des MOF reste fortement tributaire de l'expertise humaine tacite rarement codifiée dans la seule information textuelle. Pour surmonter cette limite, nous présentons L2M3OF, le premier LLM multimodal dédié aux MOF. L2M3OF intègre l'apprentissage de représentation cristalline avec la compréhension du langage pour traiter conjointement les modalités structurelles, textuelles et de connaissances. L2M3OF utilise un encodeur de cristal pré-entraîné avec une couche de projection légère pour compresser l'information structurelle dans un espace de tokens, permettant un alignement efficace avec les instructions langagières. Pour faciliter l'entraînement et l'évaluation, nous avons constitué une base de données structure-propriété-connaissances sur les matériaux cristallins et comparé L2M3OF aux LLM propriétaires state-of-the-art tels que GPT-5, Gemini-2.5-Pro et DeepSeek-R1. Les expériences montrent que L2M3OF surpasse les principaux LLM propriétaires basés sur le texte dans les tâches de prédiction de propriétés et de génération de connaissances, malgré l'utilisation de bien moins de paramètres. Ces résultats soulignent l'importance des approches multimodales pour la compréhension des matériaux poreux et établissent L2M3OF comme une base pour les systèmes d'IA de nouvelle génération en découverte de matériaux.
La conception de squelettes enzymatiques dotés d'une fonctionnalité spécifique au substrat constitue un défi majeur en ingénierie des protéines computationnelle. Les modèles génératifs actuels excellent dans la conception de protéines mais présentent des limitations concernant les données de liaison, le contrôle spécifique au substrat et la flexibilité pour la génération de novo de squelettes enzymatiques. Pour résoudre ce problème, nous présentons EnzyBind, un jeu de données contenant 11 100 paires enzyme-substrat validées expérimentalement et spécifiquement constituées à partir de PDBbind. Sur cette base, nous proposons EnzyControl, une méthode permettant un contrôle fonctionnel et spécifique au substrat dans la génération de squelettes enzymatiques. Notre approche génère des squelettes enzymatiques conditionnés par des sites catalytiques annotés par MSA et leurs substrats correspondants, qui sont extraits automatiquement des données curatisées de paires enzyme-substrat. Au cœur d'EnzyControl se trouve EnzyAdapter, un composant modulaire léger intégré à un modèle pré-entraîné de conception motif-châssis, lui permettant de devenir conscient du substrat. Un paradigme d'entraînement en deux étapes affine davantage la capacité du modèle à générer des structures enzymatiques précises et fonctionnelles. Les expériences montrent que notre EnzyControl obtient les meilleures performances sur les métriques structurelles et fonctionnelles des benchmarks EnzyBind et EnzyBench, avec des améliorations particulièrement notables de 13 % en concevabilité et de 13 % en efficacité catalytique par rapport aux modèles de référence. Le code est disponible à l'adresse https://github.com/Vecteur-libre/EnzyControl.
Les récents progrès en traitement de la parole ont conduit à des avancées significatives dans des tâches phonétiques telles que la reconnaissance automatique de la parole (ASR), la reconnaissance de phonèmes (PR), la conversion graphème-phonème (G2P) et la conversion phonème-graphème (P2G). Bien que conceptuellement similaires, ces tâches ont largement été étudiées séparément, chacune reposant sur des architectures et des jeux de données spécifiques. Dans cet article, nous présentons POWSM (Phonetic Open Whisper-style Speech Model), le premier cadre unifié capable d'effectuer conjointement plusieurs tâches liées aux phonèmes. POWSM permet une conversion fluide entre l'audio, le texte (graphèmes) et les phonèmes, ouvrant de nouvelles perspectives pour le traitement universel et adapté aux langues peu dotées. Notre modèle surpasse ou égale les modèles PR spécialisés de taille similaire (Wav2Vec2Phoneme et ZIPA) tout en prenant en charge conjointement G2P, P2G et ASR. Nos données d'entraînement, notre code et nos modèles sont publiés pour favoriser la science ouverte.
L'exploitation de données web publiques à grande échelle, telles que les images de vue à rue et d'imagerie satellitaire, est d'une importance primordiale pour la détection socio-économique urbaine visant à atteindre les objectifs de développement durable mondiaux. Avec l'émergence des Grands Modèles Vision-Langage (LVLM), de nouvelles opportunités se présentent pour résoudre cette tâche en la traitant comme un problème de perception et de compréhension multimodale. Cependant, des études récentes révèlent que les LVLM peinent encore à effectuer des prédictions socio-économiques précises et interprétables à partir de données visuelles. Pour pallier ces limitations et maximiser le potentiel des LVLM, nous présentons **CityRiSE**, un nouveau cadre pour le **R**aisonnement du **S**tatus **E**conomique urbain dans les LVLM via l'apprentissage par renforcement pur. Grâce à des données multimodales soigneusement sélectionnées et à une conception de récompense vérifiable, notre approche guide le LVLM pour qu'il se concentre sur des indices visuels sémantiquement significatifs, permettant un raisonnement structuré et orienté vers un objectif pour la prédiction généraliste du statut socio-économique. Les expériences démontrent que CityRiSE, avec son processus de raisonnement émergent, surpasse significativement les méthodes de référence existantes, améliorant à la fois la précision des prédictions et la généralisation dans divers contextes urbains, particulièrement pour les prédictions sur des villes et des indicateurs non vus lors de l'apprentissage. Ces travaux soulignent le potentiel de la combinaison de l'apprentissage par renforcement et des LVLM pour une détection socio-économique urbaine interprétable et généraliste.
Les graphiques jouent un rôle important dans la visualisation, le raisonnement, l'analyse des données et l'échange d'idées entre humains. Cependant, les modèles vision-langage (VLM) existants manquent encore de précision dans la perception des détails et peinent à extraire les structures fines des graphiques. Ces limitations dans l'ancrage des graphiques entravent également leur capacité à comparer plusieurs graphiques et à raisonner à partir de ceux-ci. Dans cet article, nous présentons une nouvelle "ChartAlign Benchmark (ChartAB)" pour fournir une évaluation complète des VLM dans les tâches d'ancrage des graphiques, c'est-à-dire l'extraction de données tabulaires, la localisation d'éléments visuels et la reconnaissance de divers attributs à partir de graphiques de types et de complexités variés. Nous concevons un modèle JSON pour faciliter le calcul de métriques d'évaluation spécifiquement adaptées à chaque tâche d'ancrage. En intégrant un workflow d'inférence en deux étapes innovant, le benchmark peut en outre évaluer la capacité des VLM à aligner et comparer des éléments/attributs entre deux graphiques. Notre analyse des évaluations de plusieurs VLM récents révèle de nouvelles perspectives sur leurs biais de perception, faiblesses, robustesse et hallucinations dans la compréhension des graphiques. Ces résultats mettent en lumière les écarts granulaires entre les VLM dans les tâches de compréhension des graphiques et indiquent les compétences spécifiques qui doivent être renforcées dans les modèles actuels.