Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles de langage récursifs ou en boucle ont récemment émergé comme un nouvel axe de mise à l'échelle en raffinant itérativement le même calcul de modèle sur des états latents pour approfondir le raisonnement. Nous étendons ce principe de mise à l'échelle d'un modèle unique à des systèmes multi-agents, et posons la question : La collaboration entre agents peut-elle elle-même être mise à l'échelle par récursion ? À cette fin, nous introduisons RecursiveMAS, un framework multi-agent récursif qui considère l'ensemble du système comme un calcul récursif unifié dans un espace latent. RecursiveMAS connecte des agents hétérogènes en une boucle de collaboration via le module léger RecursiveLink, permettant la génération de pensées latentes dans la distribution et le transfert d'états latents inter-agents. Pour optimiser notre framework, nous développons un algorithme d'apprentissage à double boucle (interne-externe) pour une co-optimisation itérative du système entier via une attribution de crédit par gradient partagée entre les rounds de récursion. Des analyses théoriques de la complexité temporelle et de la dynamique d'apprentissage établissent que RecursiveMAS est plus efficace que les systèmes multi-agents standards basés sur le texte et maintient des gradients stables durant l'entraînement récursif. Empiriquement, nous instancions RecursiveMAS selon 4 schémas de collaboration d'agents représentatifs et évaluons sur 9 benchmarks couvrant les mathématiques, les sciences, la médecine, la recherche et la génération de code. Comparé à des systèmes de référence avancés mono/multi-agents et à calcul récursif, RecursiveMAS apporte constamment une amélioration moyenne de précision de 8,3 %, accompagnée d'une accélération de l'inférence de bout en bout de 1,2 à 2,4 fois, et d'une réduction de l'utilisation de tokens de 34,6 % à 75,6 %. Le code et les données sont disponibles sur https://recursivemas.github.io.
Le transfert fiable de connaissances humaines spécialisées depuis des textes vers les grands modèles de langage demeure un défi fondamental en intelligence artificielle. L'affinage sur des corpus spécialisés a permis des gains substantiels de capacités, mais le processus opère sans rétroaction : lorsqu'un modèle échoue sur une tâche du domaine, aucune méthode ne permet de diagnostiquer les déficiences des données d'entraînement, et le seul recours est d'ajouter davantage de données de manière indiscriminée. Nous démontrons ici que lorsqu'une représentation structurée des connaissances extraite du corpus source sert de fondation commune aux données d'entraînement et à l'évaluation, le cycle de vie complet de l'ingénierie des données se mappe sur le cycle de développement logiciel de manière précise et opérationnelle : les données d'entraînement deviennent du code source spécifiant ce que le modèle doit apprendre, l'entraînement du modèle devient une compilation, l'évaluation comparative devient du test unitaire, et la correction des données guidée par les échecs devient du débogage. Selon cette correspondance, les échecs du modèle se décomposent en lacunes conceptuelles et en ruptures de chaînes de raisonnement qui peuvent être retracées jusqu'à des déficiences spécifiques dans les données et corrigées par des correctifs ciblés, chaque cycle de correction produisant des améliorations cohérentes quelle que soit l'échelle ou l'architecture du modèle, sans dégrader les capacités générales. Nous formalisons ce principe sous le nom de Programmation avec les Données et le matérialisons à travers seize disciplines couvrant les sciences naturelles, l'ingénierie, la biomédecine et les sciences sociales, en publiant une base de connaissances structurée, une suite d'évaluation et un corpus d'entraînement comme ressources libres. En démontrant que la relation entre les données d'entraînement et le comportement du modèle est structurellement traçable et systématiquement réparable, ce travail établit un fondement méthodique pour l'ingénierie fiable de l'expertise humaine dans les modèles de langage.
La visualisation de données (VD) en contexte réel nécessite un ancrage environnemental natif, une évolution multiplateforme et un alignement proactif des intentions. Pourtant, les référentiels existants souffrent souvent d'un confinement dans des bac à sable de code, de tâches limitées à la création dans un seul langage, et de l'hypothèse d'une intention parfaite. Pour combler ces lacunes, nous présentons DV-World, un référentiel de 260 tâches conçu pour évaluer les agents de VD à travers les cycles de vie professionnels réels. DV-World couvre trois domaines : DV-Sheet pour la manipulation native de feuilles de calcul incluant la création de graphiques et de tableaux de bord ainsi que la réparation diagnostique ; DV-Evolution pour adapter et restructurer des artefacts visuels de référence afin de les ajuster à de nouvelles données à travers divers paradigmes de programmation ; et DV-Interact pour l'alignement proactif des intentions avec un simulateur d'utilisateur reproduisant les exigences ambiguës du monde réel. Notre cadre d'évaluation hybride intègre l'Alignement sur Valeur de Tableau pour la précision numérique et un MLLM-comme-Juge avec grilles d'évaluation pour l'analyse sémantique-visuelle. Les expériences révèlent que les modèles de pointe atteignent moins de 50% de performance globale, exposant des déficits critiques dans la gestion des défis complexes de la visualisation de données réelles. DV-World fournit un banc d'essai réaliste pour orienter le développement vers l'expertise polyvalente requise dans les flux de travail organisationnels. Nos données et codes sont disponibles à l'adresse https://github.com/DA-Open/DV-World{cette page de projet}.
La recherche scientifique autonome progresse considérablement grâce au développement d'agents d'IA. Une étape clé de ce processus consiste à trouver la littérature scientifique appropriée, que ce soit pour explorer les connaissances existantes sur un problème de recherche ou pour acquérir des preuves permettant de vérifier des hypothèses et d'étayer des affirmations. Pour évaluer la capacité des agents d'IA à piloter ce processus, nous présentons AutoResearchBench, un benchmark dédié à la découverte autonome de littérature scientifique. AutoResearchBench se compose de deux types de tâches complémentaires : (1) la Recherche Approfondie, qui nécessite de retrouver un article cible spécifique via un processus d'exploration progressive en plusieurs étapes, et (2) la Recherche Étendue, qui exige de collecter de manière exhaustive un ensemble d'articles satisfaisant des conditions données. Par rapport aux benchmarks antérieurs sur la navigation web agentique, AutoResearchBench se distingue selon trois dimensions : il est axé sur la recherche, nécessitant une compréhension approfondie des concepts scientifiques ; centré sur la littérature, exigeant une utilisation fine d'informations détaillées ; et ouvert, impliquant un nombre inconnu d'articles qualifiés et nécessitant donc une raisonnement et une recherche délibérés tout au long du processus. Ces propriétés rendent AutoResearchBench particulièrement adapté à l'évaluation des capacités de recherche autonome, et extraordinairement difficile. Même les modèles de langage les plus puissants, bien qu'ayant largement maîtrisé des benchmarks généraux de navigation web agentique comme BrowseComp, n'atteignent que 9,39 % de précision sur la Recherche Approfondie et 9,31 % d'IoU sur la Recherche Étendue, tandis que de nombreuses autres bases de référence solides tombent en dessous de 5 %. Nous publions ouvertement le jeu de données, la pipeline d'évaluation et le code à l'adresse https://github.com/CherYou/AutoResearchBench pour faciliter les recherches futures dans cette direction.
Les modèles unifiés de compréhension/génération multimodaux ont démontré des performances améliorées en édition d'image en intégrant une compréhension fine dans leur processus de Chaîne de Pensée (CoT). Cependant, une question cruciale reste insuffisamment explorée : quelles formes de CoT et quelles stratégies d'entraînement peuvent conjointement améliorer la granularité de compréhension et la généralisation ? Pour y répondre, nous proposons Meta-CoT, un paradigme effectuant une décomposition à deux niveaux de toute opération d'édition sur image unique, possédant deux propriétés clés : (1) Décomposabilité. Nous observons que toute intention d'édition peut être représentée par un triplet - (tâche, cible, capacité de compréhension requise). Inspirés par cela, Meta-CoT décompose à la fois la tâche d'édition et la cible, générant une CoT spécifique à la tâche et parcourant les opérations d'édition sur toutes les cibles. Cette décomposition améliore la granularité de compréhension des opérations d'édition par le modèle et le guide pour apprendre chaque élément du triplet pendant l'entraînement, améliorant substantiellement la capacité d'édition. (2) Généralisabilité. Au second niveau de décomposition, nous décomposons davantage les tâches d'édition en cinq méta-tâches fondamentales. Nous constatons que l'entraînement sur ces cinq méta-tâches, conjointement avec les deux autres éléments du triplet, suffit à obtenir une forte généralisation sur diverses tâches d'édition non vues. Pour mieux aligner le comportement d'édition du modèle avec son raisonnement CoT, nous introduisons la Récompense de Cohérence CoT-Édition, qui encourage une utilisation plus précise et efficace des informations CoT pendant l'édition. Les expériences démontrent que notre méthode obtient une amélioration globale de 15,8 % sur 21 tâches d'édition, et généralise efficacement à des tâches d'édition non vues après un entraînement sur seulement un petit ensemble de méta-tâches. Notre code, benchmark et modèle sont disponibles à l'adresse https://shiyi-zh0408.github.io/projectpages/Meta-CoT/
Les modèles multimodaux unifiés (UMM) intègrent la compréhension et la génération visuelles au sein d'un même cadre. Pour les tâches de texte-à-image (T2I), cette capacité unifiée permet aux UMM d'affiner les sorties après leur génération initiale, repoussant potentiellement la limite supérieure des performances. Les méthodes de raffinement actuelles basées sur les UMM suivent principalement un paradigme de raffinement par édition (RvE), où les UMM produisent des instructions d'édition pour modifier les régions non alignées tout en préservant le contenu aligné. Cependant, les instructions d'édition décrivent souvent le désalignement entre l'invite et l'image de manière trop grossière, conduisant à un raffinement incomplet. De plus, la préservation au niveau pixel, bien que nécessaire pour l'édition, restreint inutilement l'espace de modification efficace pour le raffinement. Pour remédier à ces limitations, nous proposons le Raffinement par Régénération (RvR), un nouveau cadre qui reformule le raffinement comme une régénération d'image conditionnelle plutôt que comme une édition. Au lieu de s'appuyer sur des instructions d'édition et d'imposer une préservation stricte du contenu, le RvR régénère les images conditionnellement à l'invite cible et aux jetons sémantiques de l'image initiale, permettant un alignement sémantique plus complet avec un espace de modification plus large. Des expériences approfondies démontrent l'efficacité du RvR, améliorant Geneval de 0,78 à 0,91, DPGBench de 84,02 à 87,21, et UniGenBench++ de 61,53 à 77,41.
Dans ce travail, nous proposons Mutual Forcing, un cadre pour la génération audio-vidéo autorégressive rapide avec une synchronisation audio-vidéo à long terme. Notre approche aborde deux défis majeurs : la modélisation conjointe audio-vidéo et la génération autorégressive rapide. Pour faciliter l'optimisation conjointe audio-vidéo, nous adoptons une stratégie d'entraînement en deux étapes : nous entraînons d'abord des générateurs unimodaux, puis nous les couplons en un modèle audio-vidéo unifié pour un entraînement conjoint sur des données appariées. Pour la génération en flux, nous nous demandons s'il est possible d'entraîner directement un modèle audio-vidéo causal rapide natif, au lieu de suivre les pipelines de distillation existants qui entraînent généralement d'abord un modèle bidirectionnel avant de le convertir en un générateur causal via plusieurs étapes de distillation. Notre réponse est Mutual Forcing, qui s'appuie directement sur un modèle autorégressif natif et intègre la génération en peu d'étapes et en plusieurs étapes au sein d'un seul modèle à paramètres partagés, permettant une auto-distillation et une meilleure cohérence entre l'entraînement et l'inférence. Le mode multi-étapes améliore le mode peu d'étapes via l'auto-distillation, tandis que le mode peu d'étapes génère le contexte historique durant l'entraînement pour améliorer la cohérence entraînement-inférence ; parce que les deux modes partagent les paramètres, ces deux effets se renforcent mutuellement au sein d'un seul modèle. Comparé aux approches antérieures telles que Self-Forcing, Mutual Forcing supprime le besoin d'un modèle enseignant bidirectionnel supplémentaire, supporte des longueurs de séquence d'entraînement plus flexibles, réduit la surcharge d'entraînement et permet au modèle de s'améliorer directement à partir de données appariées réelles plutôt que d'un enseignant figé. Les expériences montrent que Mutual Forcing égal ou dépasse les performances de bases de référence solides qui nécessitent environ 50 étapes d'échantillonnage, tout en n'utilisant que 4 à 8 étapes, démontrant des avantages substantiels tant en efficacité qu'en qualité. La page du projet est disponible à l'adresse https://mutualforcing.github.io.
Les récentes avancées des grands modèles linguistiques audio ont étendu le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) au domaine auditif, permettant aux modèles de traiter des tâches acoustiques et orales de plus en plus complexes. Pour susciter et maintenir ces chaînes de raisonnement étendues, le paradigme dominant – influencé par le succès des modèles de raisonnement textuel – repose massivement sur l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR). Cependant, alors que les modèles sont strictement optimisés pour distiller des contextes auditifs riches et continus en des étiquettes textuelles isolées et vérifiables, une question fondamentale se pose : favorisons-nous une véritable intelligence audio, ou réduisons-nous simplement un média sensoriel continu à un puzzle discret ? Nous identifions cela comme le « piège de la récompense vérifiable ». Bien que le RLVR produise des scores remarquables sur des benchmarks objectifs standardisés, il dégrade systématiquement la sensation conversationnelle réelle des modèles audio. En privilégiant l'exactitude isolée au détriment de la nuance acoustique, le RLVR réduit les interactions dynamiques à de simples « machines à répondre » mécaniques, compromettant gravement le naturel prosodique, la continuité émotionnelle et l'immersion de l'utilisateur, particulièrement dans les dialogues à longs tours de parole. Pour combler le fossé entre la vérification objective mécanique et l'empathie sensorielle authentique, nous présentons Step-Audio-R1.5, marquant un changement de paradigme vers l'Apprentissage par Renforcement à partir de Retours Humains (RLHF) dans le raisonnement audio. Des évaluations exhaustives démontrent que Step-Audio-R1.5 maintient non seulement un raisonnement analytique robuste, mais transforme profondément l'expérience interactive, redéfinissant les frontières du dialogue parlé profondément immersif à longs tours.
Bien que les modèles de diffusion génèrent des séquences vidéo de haute fidélité, leur transformation en moteurs de narration cohérente reste un défi. Les pipelines agentiques actuels automatisent cette tâche via des modules enchaînés, mais souffrent de dérive sémantique et de défaillances en cascade dues à l'utilisation indépendante d'invites manuelles. Nous présentons Co-Director, un cadre multi-agent hiérarchique qui formalise la narration vidéo comme un problème d'optimisation globale. Pour assurer la cohérence sémantique, nous introduisons une paramétrisation hiérarchique : un bandit manchot multi-bras identifie globalement des directions créatives prometteuses, tandis qu'une boucle locale d'auto-affinage multimodale atténue la dérive identitaire et garantit la cohérence au niveau séquentiel. Cette approche équilibre l'exploration de nouvelles stratégies narratives avec l'exploitation de configurations créatives efficaces. Pour l'évaluation, nous présentons GenAD-Bench, un jeu de données de 400 scénarios de produits fictifs destinés à la publicité personnalisée. Les expériences démontrent que Co-Director surpasse significativement les méthodes de référence, offrant une approche princiée qui se généralise naturellement à des récits cinématographiques plus larges. Page du projet : https://co-director-agent.github.io/
Le déploiement de garde-fous pour des politiques personnalisées reste difficile : les modèles de sécurité génériques ne parviennent pas à saisir les exigences spécifiques à la tâche, tandis que l'incitation des LLM souffre de performances incohérentes dans les cas limites et de coûts d'inférence élevés. L'entraînement de classificateurs personnalisés permet d'atteindre à la fois précision et efficacité, mais exige un volume important de données étiquetées, coûteuses à obtenir. Nous présentons BARRED (Boundary Alignment Refinement through REflection and Debate), un cadre pour générer des données d'entraînement synthétiques fidèles et diversifiées en utilisant uniquement une description de la tâche et un petit ensemble d'exemples non étiquetés. Notre approche décompose l'espace du domaine en dimensions pour assurer une couverture complète, et emploie un débat multi-agent pour vérifier l'exactitude des étiquettes, produisant ainsi un corpus d'entraînement de haute fidélité. Des expériences sur diverses politiques personnalisées démontrent que les petits modèles de langage affinés sur nos données synthétiques surpassent systématiquement les LLM propriétaires de pointe (y compris les modèles de raisonnement) et les modèles de garde-fous dédiés. Des études d'ablation confirment que la décomposition dimensionnelle et la vérification par débat sont toutes deux essentielles pour garantir la diversité et la fidélité des étiquettes nécessaires à un affinage efficace. Le cadre BARRED élimine la dépendance à une annotation humaine extensive, offrant une solution évolutive pour des garde-fous personnalisés précis.
La distillation en ligne (OPD) a démontré un fort potentiel pour transférer les capacités de raisonnement des modèles de pointe ou spécialisés vers des étudiants plus petits. Bien qu’efficace sur des tâches statiques à tour unique, son comportement dans des environnements d’agents multi-tours reste peu exploré. Dans ce travail, nous identifions une limitation clé de l’OPD classique dans de tels contextes, que nous nommons Instabilité KL au Niveau de la Trajectoire. Concrètement, nous observons que la divergence KL augmente parallèlement à une baisse du taux de réussite, et même après convergence, le KL reste élevé, entraînant un apprentissage instable. Cette instabilité provient de la composition d’erreurs inter-tours : à mesure que les erreurs s’accumulent, l’étudiant est conduit au-delà du support effectif de l’enseignant, rendant le signal de supervision peu fiable. Pour y remédier, nous proposons TCOD (Temporal Curriculum On-Policy Distillation), un cadre simple mais efficace qui contrôle la profondeur de trajectoire exposée à l’étudiant et l’étend progressivement du court au long via un programme curriculaire. Les résultats expérimentaux sur quatre paires étudiant-enseignant et trois benchmarks d’agents multi-tours (ALFWorld, WebShop, ScienceWorld) montrent que TCOD atténue l’escalade du KL et améliore sa stabilité tout au long de l’apprentissage, augmentant les performances de l’agent jusqu’à 18 points par rapport à l’OPD classique. Des évaluations supplémentaires indiquent que TCOD peut même surpasser les performances de l’enseignant et généraliser à des tâches sur lesquelles l’enseignant échoue.
Les agents en terminal ont démontré un fort potentiel pour l'exécution autonome en ligne de commande, mais leur entraînement reste limité par la rareté des trajectoires d'exécution de haute qualité et diversifiées. Les approches existantes atténuent ce goulot d'étranglement en synthétisant des instances de tâches terminales à grande échelle pour l'échantillonnage de trajectoires. Cependant, elles se concentrent principalement sur l'augmentation du nombre de tâches tout en offrant un contrôle limité sur la diversité des trajectoires d'exécution que les agents expérimentent réellement pendant l'entraînement. Dans cet article, nous présentons SkillSynth, un cadre automatisé pour la synthèse de tâches terminales construit sur un graphe de compétences médiatisé par scénarios. SkillSynth construit d'abord un graphe de compétences à grande échelle, où les scénarios servent de nœuds de transition intermédiaires connectant diverses compétences en ligne de commande. Il échantillonne ensuite des chemins dans ce graphe comme abstractions de workflows réels, et utilise un système multi-agents pour les instancier en instances de tâches exécutables. En ancrant la synthèse de tâches dans des chemins de workflows échantillonnés par graphe, SkillSynth contrôle explicitement la diversité des trajectoires d'exécution minimales requises pour résoudre les tâches synthétisées. Les expériences sur Terminal-Bench démontrent l'efficacité de SkillSynth. De plus, les instances de tâches synthétisées par SkillSynth ont été adoptées pour entraîner Hy3 Preview, contribuant à l'amélioration de ses capacités agentielles dans des environnements basés sur terminal.
La création de contenu pédagogique interactif pour les STEM nécessite traditionnellement une expertise en HTML/CSS/JavaScript, ce qui constitue un obstacle pour les enseignants. Bien que l'IA générative puisse produire des codes HTML, les outils existants génèrent des présentations statiques plutôt que des simulations interactives, peinent avec les documents longs et manquent de mécanismes d'exactitude pédagogique. De plus, une régénération complète pour des modifications nécessite 200 à 600 secondes, perturbant le flux créatif. Nous présentons MAIC-UI, un système d'édition sans code permettant aux enseignants de créer et modifier rapidement du contenu interactif à partir de manuels, présentations PPT et PDF. MAIC-UI utilise : (1) une analyse structurelle des connaissances avec compréhension multimodale pour garantir la rigueur pédagogique ; (2) un pipeline en deux étapes génération-vérification-optimisation séparant l'alignement du contenu du raffinement visuel ; et (3) une édition par clic pour localiser avec génération incrémentielle basée sur Unified Diff, permettant des cycles d'itération inférieurs à 10 secondes. Une étude contrôlée en laboratoire avec 40 participants montre que MAIC-UI réduit les itérations d'édition (4,9 contre 7,0) et améliore significativement la facilité d'apprentissage et la contrôlabilité comparé à la génération directe Texte-vers-HTML. Un déploiement en classe de trois mois avec 53 lycéens démontre que MAIC-UI favorise l'autonomie d'apprentissage et réduit les disparités de résultats - la classe pilote a obtenu des gains de 9,21 points en STEM contre -2,32 points dans les classes témoins. Notre code est disponible à https://github.com/THU-MAIC/MAIC-UI.
L'alignement des modèles génératifs de débruitage avec les préférences humaines ou des récompenses vérifiables demeure un défi majeur. Bien que l'apprentissage par renforcement (RL) en ligne par gradient de politique offre un cadre théorique solide pour l'ajustement post-formation, son application directe est entravée par l'intractabilité des vraisemblances de ces modèles. Les travaux antérieurs optimisent donc soit un processus de décision markovien (MDP) induit sur les trajectoires d'échantillonnage, une approche stable mais inefficace, soit utilisent des substituts de vraisemblance basés sur l'Evidence Lower Bound (ELBO) de diffusion, qui ont jusqu'à présent sous-performé en génération visuelle. Notre idée clé est que l'approche basée sur l'ELBO peut, en réalité, être rendue à la fois stable et efficace. En réduisant la variance du substitut et en contrôlant les pas de gradient, nous montrons que cette approche peut surpasser les méthodes basées sur les MDP. À cette fin, nous présentons V-GRPO (Variational GRPO), une méthode qui intègre les substituts basés sur l'ELBO à l'algorithme Group Relative Policy Optimization (GRPO), accompagnée d'un ensemble de techniques simples mais essentielles. Notre méthode est facile à implémenter, s'aligne avec les objectifs de pré-formation et évite les limitations des méthodes basées sur les MDP. V-GRPO atteint des performances à l'état de l'art en synthèse texte-image, tout en offrant une accélération par 2 par rapport à MixGRPO et par 3 par rapport à DiffusionNFT.
Bien que les modèles de diffusion vidéo à grande échelle aient démontré des capacités impressionnantes à générer un contenu haute résolution et sémantiquement riche, un écart significatif subsiste entre leurs performances en pré-entraînement et les exigences de déploiement en conditions réelles, en raison de problèmes critiques tels que la sensibilité aux instructions, l'incohérence temporelle et des coûts d'inférence prohibitifs. Pour combler cet écart, nous proposons un cadre complet de post-entraînement qui aligne systématiquement les modèles pré-entraînés avec les intentions des utilisateurs via quatre étapes synergiques : nous employons d'abord un Fine-Tuning Supervisé (SFT) pour transformer le modèle de base en une politique stable de suivi d'instructions, suivie d'une étape d'Apprentissage par Renforcement à partir de Retours Humains (RLHF) qui utilise une nouvelle méthode d'Optimisation de Politique Relative par Groupe (GRPO) conçue pour la diffusion vidéo afin d'améliorer la qualité perceptuelle et la cohérence temporelle ; ensuite, nous intégrons une Amélioration des Instructions via un modèle de langage spécialisé pour affiner les entrées utilisateur, et enfin, nous abordons l'efficacité du système via une Optimisation de l'Inférence. Ensemble, ces composants offrent une approche systématique pour améliorer la qualité visuelle, la cohérence temporelle et le suivi des instructions, tout en préservant la contrôlabilité apprise lors du pré-entraînement. Le résultat est une feuille de route pratique pour construire des pipelines de post-entraînement évolutifs, stables, adaptables et efficaces pour un déploiement réel. Des expériences approfondies démontrent que ce pipeline unifié atténue efficacement les artéfacts courants et améliore significativement la contrôlabilité et l'esthétique visuelle, tout en respectant des contraintes strictes de coût d'échantillonnage.
L'évaluation par paires reposant sur la contribution collective (crowdsourcing) est apparue comme une approche évolutive pour évaluer les modèles de fondation. Cependant, son application à la synthèse vocale (Text to Speech, TTS) introduit une variance élevée en raison de la diversité linguistique et de la nature multidimensionnelle de la perception de la parole. Nous présentons un cadre d'évaluation par paires contrôlé et multidimensionnel pour la TTS multilingue, qui combine un contrôle linguistique avec une annotation fondée sur la perception. En utilisant plus de 5 000 phrases natives et en métissage de codes (code-mixing) couvrant 10 langues indiques, nous évaluons 7 systèmes TTS de pointe et recueillons plus de 120 000 comparaisons par paires auprès de plus de 1900 évaluateurs natifs. En plus de la préférence globale, les évaluateurs fournissent des jugements sur 6 dimensions perceptuelles : l'intelligibilité, l'expressivité, la qualité vocale, la vivacité, le bruit et les hallucinations. En utilisant la modélisation de Bradley-Terry, nous construisons un classement multilingue, interprétons la préférence humaine à l'aide de l'analyse SHAP et analysons la fiabilité du classement ainsi que les forces et les compromis des modèles à travers les dimensions perceptuelles.
Les grands modèles de vision et langage (VLM) sont de plus en plus utilisés pour évaluer les sorties d'autres modèles, tant pour les tâches image-à-texte (I2T) comme la réponse à des questions visuelles que pour les tâches de génération texte-à-image (T2I). Malgré cette dépendance croissante, la fiabilité de ces VLM évaluateurs reste peu explorée. Dans ce travail, nous évaluons systématiquement la fiabilité des VLM évaluateurs à travers les tâches I2T et T2I. Nous introduisons des perturbations ciblées qui dégradent la qualité des sorties selon des dimensions d'erreur clés, incluant les hallucinations d'objets, le raisonnement spatial, l'ancrage factuel et la fidélité visuelle. Ces perturbations testent si les VLM évaluateurs peuvent prendre en compte de manière fiable ces erreurs dégradant la qualité dans leurs évaluations. En utilisant un benchmark complet de plus de 4000 instances perturbées couvrant 40 dimensions de perturbation, nous évaluons 4 VLM prominents selon les paradigmes de notation par réponse unique, de comparaison par paires et d'évaluation guidée par référence. Nos résultats révèlent que les évaluateurs VLM actuels présentent des angles morts substantiels : ils échouent souvent à détecter les sorties perturbées - dépassant parfois 50%, peinent particulièrement avec les erreurs compositionnelles et spatiales fines, et sont souvent insensibles au contenu halluciné qui contredit l'image d'entrée. La comparaison par paires s'avère plus fiable, bien que des taux d'échec persistent. Ces résultats soulignent la nature peu fiable des VLM évaluateurs actuels et appellent à la prudence dans leur déploiement pour les décisions de benchmarking et de développement. Le code et les données ont été rendus publics.
Les progrès récents en génération de mouvements humains pilotée par texte permettent aux modèles de synthétiser des séquences de mouvement réalistes à partir de descriptions en langage naturel. Cependant, la plupart des approches existantes supposent un mouvement neutre en termes d'identité et génèrent des mouvements en utilisant une représentation corporelle canonique, ignorant la forte influence de la morphologie corporelle sur la dynamique du mouvement. En pratique, des attributs tels que les proportions corporelles, la distribution de la masse et l'âge affectent significativement la façon dont les actions sont exécutées, et négliger ce couplage conduit souvent à des mouvements physiquement incohérents. Nous proposons un cadre de génération de mouvement conscient de l'identité qui modélise explicitement la relation entre la morphologie corporelle et la dynamique du mouvement. Au lieu de s'appuyer sur des mesures géométriques explicites, l'identité est représentée à l'aide de signaux multimodaux, incluant des descriptions en langage naturel et des indices visuels. Nous introduisons en outre un paradigme de génération conjointe mouvement-forme qui synthétise simultanément des séquences de mouvement et des paramètres de forme corporelle, permettant aux indices d'identité de moduler directement la dynamique du mouvement. Des expériences approfondies sur des datasets de capture de mouvement et des vidéos à grande échelle en conditions réelles démontrent une amélioration du réalisme des mouvements et de la cohérence mouvement-identité tout en maintenant une haute qualité de mouvement. Page du projet : https://vjwq.github.io/IAM
Les agents d'IA sont de plus en plus déployés sur des flux de travail complexes et spécifiques à un domaine : naviguer dans des applications web d'entreprise nécessitant des dizaines de clics et de remplissages de formulaires, orchestrer des pipelines de recherche multi-étapes couvrant la recherche, l'extraction et la synthèse, automatiser la revue de code dans des dépôts non familiers, et gérer des escalades clients exigeant une connaissance nuancée du domaine. Chaque nouveau domaine de tâche nécessite un ingénierie de harnais fastidieuse et pilotée par des experts : concevoir les prompts, les outils, la logique d'orchestration et les critères d'évaluation qui rendent un modèle fondationnel efficace. Nous présentons un cadre à deux niveaux qui automatise ce processus. Au premier niveau, la Boucle d'Évolution du Harnais optimise le harnais H d'un agent travailleur pour une tâche unique : un Agent Travailleur W_{H} exécute la tâche, un Agent Évaluateur V diagnostique de manière antagoniste les échecs et évalue la performance, et un Agent d'Évolution E modifie le harnais en se basant sur l'historique complet des tentatives précédentes. Au second niveau, la Méta-Boucle d'Évolution optimise le protocole d'évolution Λ = (W_{H}, H^{(0)}, V, E) lui-même sur diverses tâches, apprenant un protocole Λ^{(meilleur)} qui permet une convergence rapide du harnais sur toute nouvelle tâche – de sorte qu'adapter un agent à un nouveau domaine ne nécessite plus aucune ingénierie de harnais humaine. Nous formalisons la correspondance avec le méta-apprentissage et présentons les deux algorithmes. Le cadre transforme l'ingénierie manuelle du harnais en une ingénierie automatisée du harnais, et va même un pas plus loin – en automatisant la conception de l'automatisation elle-même.
Les agents autonomes capables de naviguer dans les interfaces graphiques (GUI) détiennent le potentiel de révolutionner la productivité numérique. Cependant, atteindre une véritable autonomie numérique va au-delà de la simple reconnaissance réactive d'éléments ; elle nécessite un modèle mental prédictif de la dynamique des interfaces et la capacité à anticiper « l'état du monde numérique » résultant des interactions. Malgré les capacités perceptuelles des modèles vision-langage (VLM) modernes, les benchmarks existants restent dichotomiques (se concentrant soit sur l'exécution de tâches en boîte noire, soit sur un ancrage statique et superficiel), échouant ainsi à évaluer si les agents comprennent véritablement la fonctionnalité implicite et la logique transitionnelle des GUI. Pour combler cette lacune, nous présentons AutoGUI-v2, un benchmark complet conçu pour évaluer la compréhension approfondie des fonctionnalités des GUI et la prédiction des résultats d'interaction. Nous avons construit ce benchmark en utilisant un nouveau pipeline collaboratif VLM-humain qui analyse de manière récursive des captures d'écran multi-plateformes en régions fonctionnelles hiérarchiques pour générer des tâches d'évaluation diversifiées. Proposant 2 753 tâches réparties sur six systèmes d'exploitation, AutoGUI-v2 teste rigoureusement les agents sur la sémantique aux niveaux région et élément, l'ancrage et la prédiction d'état dynamique. Notre évaluation révèle une dichotomie frappante parmi les VLMs : tandis que les modèles open source affinés sur des données d'agents (par exemple, Qwen3-VL) excellent dans l'ancrage fonctionnel, les modèles commerciaux (par exemple, Gemini-2.5-Pro-Thinking) dominent dans la description des fonctionnalités. Plus crucial encore, tous les modèles peinent avec la logique d'interaction complexe d'actions peu communes, soulignant que la compréhension fonctionnelle profonde reste un défi majeur. En mesurant systématiquement ces capacités fondamentales, AutoGUI-v2 offre une nouvelle perspective pour faire progresser la prochaine génération d'agents pour interfaces graphiques.
L'ancrage des éléments d'interface graphique (GUI) (localisation précise des éléments sur des captures d'écran à partir d'instructions en langage naturel) est fondamental pour les agents interagissant avec les interfaces graphiques. Déployer cette capacité directement sur des appareils à ressources limitées comme les téléphones mobiles est de plus en plus crucial pour les agents d'interface nécessitant une faible latence. Cependant, cet objectif se heurte à un défi de taille, car les méthodes actuelles d'ancrage visuel utilisent généralement de grands modèles vision-langage (VLM) (plus de 2,5 milliards de paramètres), les rendant impraticables pour une exécution sur appareil en raison des contraintes mémoire et computationnelles. Pour y remédier, cet article présente GoClick, un VLM léger pour l'ancrage d'éléments d'interface, avec seulement 230 millions de paramètres, qui atteint une excellente précision d'ancrage visuel, comparable même à des modèles nettement plus grands. Réduire simplement la taille des VLM à décodeur uniquement est une approche directe pour concevoir un modèle léger, mais nos expériences révèlent que cette méthode donne des résultats sous-optimaux. Nous optons plutôt pour une architecture encodeur-décodeur, qui surpasse les alternatives à décodeur uniquement à petite échelle de paramètres pour les tâches d'ancrage sur interface. De plus, la capacité limitée des petits VLM nous incite à développer un pipeline de Raffinement Progressif des Données qui utilise un filtrage par type de tâche et un ajustement du ratio de données pour extraire un ensemble central de haute qualité de 3,8 millions d'échantillons à partir d'un jeu de données brut de 10,8 millions. L'entraînement de GoClick avec cet ensemble central apporte des gains notables en précision d'ancrage. Nos expériences montrent que GoClick excelle sur plusieurs benchmarks d'ancrage d'éléments d'interface tout en conservant une petite taille et une vitesse d'inférence élevée. GoClick améliore également les performances des agents d'interface lorsqu'il est intégré dans un cadre de collaboration appareil-cloud, où il aide les planificateurs de tâches basés dans le cloud à effectuer une localisation précise des éléments et à atteindre des taux de réussite plus élevés. Nous espérons que notre méthode constituera une exploration significative au sein de la communauté des agents d'interface graphique.
L'évaluation de l'équité des systèmes de recommandation est devenue de plus en plus importante, notamment avec la récente législation qui met l'accent sur le développement d'une intelligence artificielle équitable et responsable. Cela a conduit à l'émergence de diverses mesures d'évaluation de l'équité, qui quantifient l'équité en se basant sur différentes définitions. Cependant, nombre de ces mesures sont simplement proposées et utilisées sans analyse approfondie de leur robustesse. En conséquence, la compréhension et la conscience des limites de ces mesures sont insuffisantes. Parmi d'autres problèmes, on ignore quels types de sorties de modèles produisent le score le plus (in)équitable, comment les scores des mesures sont distribués empiriquement, et s'il existe des cas où les mesures ne peuvent pas être calculées (par exemple, en raison d'une division par zéro). Ces problèmes entraînent des difficultés pour interpréter les scores des mesures et une confusion quant à la ou les mesures à utiliser pour un cas spécifique. Cette thèse présente une série d'articles qui évaluent et surmontent diverses limitations théoriques, empiriques et conceptuelles des mesures d'évaluation de l'équité existantes pour les systèmes de recommandation. Nous étudions un large éventail de mesures d'évaluation hors ligne pour différentes notions d'équité, réparties en fonction des sujets d'évaluation (utilisateurs et articles) et pour différentes granularités d'évaluation (groupes de sujets et sujets individuels). Premièrement, nous effectuons une analyse théorique et empirique des mesures, exposant des défauts qui limitent leur interprétabilité, leur expressivité ou leur applicabilité. Deuxièmement, nous proposons de nouvelles approches d'évaluation et des mesures qui surmontent ces limitations. Enfin, compte tenu des limites des mesures, nous recommandons des lignes directrices pour une utilisation appropriée des mesures, permettant ainsi une sélection plus précise des mesures d'évaluation de l'équité dans des scénarios pratiques. Dans l'ensemble, cette thèse contribue à faire progresser l'état de l'art de l'évaluation hors ligne de l'équité dans les systèmes de recommandation.