papers.description
L'émergence de l'apprentissage par renforcement agentique (Agentic RL) marque un changement de paradigme par rapport à l'apprentissage par renforcement conventionnel appliqué aux grands modèles de langage (LLM RL), redéfinissant ces derniers comme des agents autonomes et décisionnaires intégrés dans des mondes complexes et dynamiques, plutôt que comme de simples générateurs passifs de séquences. Cette étude formalise ce changement conceptuel en opposant les processus de décision markoviens (MDP) dégénérés à une seule étape du LLM-RL aux processus de décision markoviens partiellement observables (POMDP) temporellement étendus qui caractérisent l'Agentic RL. Sur cette base, nous proposons une taxonomie exhaustive en deux volets : l'un organisé autour des capacités agentiques fondamentales, incluant la planification, l'utilisation d'outils, la mémoire, le raisonnement, l'auto-amélioration et la perception, et l'autre autour de leurs applications dans divers domaines de tâches. Au cœur de notre thèse réside l'idée que l'apprentissage par renforcement constitue le mécanisme essentiel pour transformer ces capacités de modules statiques et heuristiques en comportements agentiques adaptatifs et robustes. Pour soutenir et accélérer les recherches futures, nous consolidons l'écosystème des environnements open source, des benchmarks et des cadres d'application en un compendium pratique. En synthétisant plus de cinq cents travaux récents, cette étude trace les contours de ce domaine en évolution rapide et met en lumière les opportunités et les défis qui façonneront le développement d'agents d'intelligence artificielle généralistes et évolutifs.
Le développement d'agents autonomes pour les interfaces graphiques utilisateur (GUI) présente des défis majeurs en intelligence artificielle. Bien que les récents progrès des modèles d'agents natifs aient montré des résultats prometteurs en unifiant la perception, le raisonnement, l'action et la mémoire grâce à un apprentissage de bout en bout, des problèmes ouverts subsistent en matière d'évolutivité des données, d'apprentissage par renforcement multi-tours (RL), des limitations liées à l'opération exclusive sur les GUI et de la stabilité de l'environnement. Dans ce rapport technique, nous présentons UI-TARS-2, un modèle d'agent natif centré sur les GUI qui relève ces défis grâce à une méthodologie d'entraînement systématique : un mécanisme de génération de données évolutif, un cadre de RL multi-tours stabilisé, un environnement hybride de GUI intégrant les systèmes de fichiers et les terminaux, et une plateforme de sandbox unifiée pour des déploiements à grande échelle. L'évaluation empirique démontre que UI-TARS-2 réalise des améliorations significatives par rapport à son prédécesseur UI-TARS-1.5. Sur les benchmarks de GUI, il atteint 88,2 sur Online-Mind2Web, 47,5 sur OSWorld, 50,6 sur WindowsAgentArena et 73,3 sur AndroidWorld, surpassant des bases de référence solides telles que Claude et les agents OpenAI. Dans les environnements de jeu, il obtient un score normalisé moyen de 59,8 sur une suite de 15 jeux, soit environ 60 % des performances humaines, et reste compétitif avec les modèles propriétaires de pointe (par exemple, OpenAI o3) sur LMGame-Bench. De plus, le modèle peut généraliser à des tâches de recherche d'information à long terme et à des benchmarks d'ingénierie logicielle, mettant en évidence sa robustesse dans diverses tâches d'agents. Des analyses détaillées de la dynamique d'entraînement fournissent également des insights sur la réalisation de la stabilité et de l'efficacité dans le RL d'agents à grande échelle. Ces résultats soulignent le potentiel de UI-TARS-2 à faire progresser l'état des agents GUI et à démontrer une forte généralisation dans des scénarios interactifs du monde réel.
Les modèles de langage de grande taille (LLMs) peuvent considérablement améliorer leurs capacités de raisonnement en interagissant avec des outils externes, un paradigme connu sous le nom de Raisonnement Intégré avec Outils (TIR). Cependant, l'extension du TIR à des scénarios multi-tours utilisant l'apprentissage par renforcement (RL) est souvent entravée par une instabilité de l'entraînement et un effondrement des performances. Nous identifions que cette instabilité est principalement causée par un décalage distributionnel dû aux retours des outils externes, conduisant à la génération de tokens de faible probabilité. Ce problème s'aggrave au fil des tours successifs, provoquant des explosions catastrophiques de la norme du gradient qui perturbent le processus d'entraînement. Pour relever ce défi, nous introduisons SimpleTIR, un algorithme plug-and-play qui stabilise l'entraînement multi-tours du TIR. Sa stratégie centrale consiste à identifier et filtrer les trajectoires contenant des tours vides, c'est-à-dire des tours qui ne produisent ni un bloc de code ni une réponse finale. En éliminant ces trajectoires problématiques de la mise à jour de la politique, SimpleTIR bloque efficacement les gradients de grande amplitude nuisibles, stabilisant ainsi la dynamique d'apprentissage. Des expériences approfondies montrent que SimpleTIR atteint des performances de pointe sur des benchmarks de raisonnement mathématique difficiles, élevant notamment le score AIME24 d'une base textuelle de 22,1 à 50,5 en partant du modèle de base Qwen2.5-7B. De plus, en évitant les contraintes du fine-tuning supervisé, SimpleTIR encourage le modèle à découvrir des schémas de raisonnement diversifiés et sophistiqués, tels que l'auto-correction et la validation croisée.
Dans la modélisation vision-langage, les modèles critiques sont généralement entraînés pour évaluer les sorties — en attribuant des scores scalaires ou des préférences par paires — plutôt que pour générer des réponses. Cette séparation avec les modèles de politique, qui produisent les réponses, est si ancrée que les critiques sont rarement envisagés pour un usage direct en politique. Dans ce travail, nous remettons en question cette convention. Nous proposons de réorganiser les ensembles de données critiques étiquetés par préférence en signaux d'entraînement vérifiables et d'effectuer un apprentissage par renforcement directement sur un modèle générateur de base, produisant ainsi LLaVA-Critic-R1, un critique multimodal entraîné pour optimiser les jugements de préférence tout en conservant une pleine capacité de génération. Étonnamment, LLaVA-Critic-R1 émerge non seulement comme un critique de premier plan, mais aussi comme un modèle de politique compétitif — égalant ou surpassant des modèles de raisonnement vision-langage (VLM) spécialisés entraînés avec des données de domaine spécifique sur 26 benchmarks de raisonnement et de compréhension visuelle, avec un gain moyen de +5,7 % par rapport à son modèle de base (Qwen-2.5-VL-7B). L'extension de cette approche à des VLM de raisonnement déjà performants donne naissance à LLaVA-Critic-R1+, qui améliore encore les performances en politique sans sacrifier la qualité du critique, atteignant une performance de pointe de 71,9 sur MMMU à l'échelle 7B. Enfin, nous montrons que la capacité critique améliorée profite à l'inférence : l'application de l'auto-critique au moment du test entraîne une amélioration moyenne de +13,8 % sur cinq tâches de raisonnement représentatives sans entraînement supplémentaire. Nos résultats révèlent que l'entraînement par renforcement sur des données critiques peut produire un modèle unifié excellant à la fois en évaluation et en génération, offrant une voie simple vers des systèmes multimodaux évolutifs et auto-améliorants.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a démontré son efficacité pour améliorer les capacités de raisonnement des modèles de langage (LLM), mais reste limité à des interactions en un seul tour sans intégration d'outils. Bien que des approches récentes d'apprentissage par renforcement agentique avec utilisation d'outils (ARLT) aient émergé pour gérer les interactions multi-tours avec des outils, les travaux existants développent des bases de code spécifiques à des tâches, souffrant de fragmentation, de goulots d'étranglement liés à l'exécution synchrone et d'une extensibilité limitée entre les domaines. Ces inefficacités entravent l'adoption plus large par la communauté et l'innovation algorithmique. Nous présentons VerlTool, un cadre unifié et modulaire qui résout ces limitations grâce à des principes de conception systématiques. VerlTool apporte quatre contributions clés : (1) un alignement en amont avec VeRL assurant compatibilité et maintenance simplifiée, (2) une gestion unifiée des outils via des API standardisées prenant en charge diverses modalités, y compris l'exécution de code, la recherche, les bases de données SQL et le traitement visuel, (3) une exécution asynchrone des déploiements permettant un accélération de près de 2 fois en éliminant les goulots d'étranglement de synchronisation, et (4) une évaluation complète démontrant des performances compétitives dans 6 domaines ARLT. Notre cadre formalise l'ARLT comme des trajectoires multi-tours avec des jetons d'observation multi-modaux (texte/image/vidéo), dépassant les paradigmes RLVR en un seul tour. Nous entraînons et évaluons des modèles sur des tâches de raisonnement mathématique, de questions-réponses sur la connaissance, de génération SQL, de raisonnement visuel, de recherche web et d'ingénierie logicielle, obtenant des résultats comparables à des systèmes spécialisés tout en fournissant une infrastructure d'entraînement unifiée. L'architecture modulaire en plugins permet une intégration rapide des outils nécessitant uniquement des définitions Python légères, réduisant significativement la surcharge de développement et offrant une base évolutive pour la recherche en apprentissage par renforcement augmenté par des outils. Notre code est open-source à l'adresse https://github.com/TIGER-AI-Lab/verl-tool.
Les modèles de langage multimodaux pour la vidéo (Video-MLLMs) ont réalisé des progrès remarquables dans la compréhension vidéo. Cependant, ils restent vulnérables à la génération de contenu hallucinatoire, incohérent ou sans rapport avec les entrées vidéo. Les benchmarks précédents sur les hallucinations vidéo se concentrent principalement sur les vidéos courtes. Ils attribuent les hallucinations à des facteurs tels que les fortes préconceptions linguistiques, les images manquantes ou les biais vision-langage introduits par l'encodeur visuel. Bien que ces causes expliquent en effet la plupart des hallucinations dans les vidéos courtes, elles simplifient encore trop l'origine des hallucinations. Parfois, les modèles génèrent des sorties incorrectes mais avec une sémantique correcte au niveau des images. Nous qualifions ce type d'hallucination d'Hallucination d'Aggrégation Sémantique (SAH), qui survient lors du processus d'agrégation de la sémantique au niveau des images en groupes sémantiques au niveau des événements. Étant donné que la SAH devient particulièrement critique dans les vidéos longues en raison de la complexité sémantique accrue à travers plusieurs événements, il est essentiel de séparer et d'étudier en profondeur les causes de ce type d'hallucination. Pour résoudre ces problèmes, nous introduisons ELV-Halluc, le premier benchmark dédié aux hallucinations dans les vidéos longues, permettant une investigation systématique de la SAH. Nos expériences confirment l'existence de la SAH et montrent qu'elle augmente avec la complexité sémantique. De plus, nous constatons que les modèles sont plus sujets à la SAH sur des sémantiques en évolution rapide. Par ailleurs, nous discutons des approches potentielles pour atténuer la SAH. Nous démontrons que la stratégie d'encodage positionnel contribue à atténuer la SAH, et nous adoptons en outre la stratégie DPO pour améliorer la capacité du modèle à distinguer la sémantique au sein et entre les événements. Pour soutenir cela, nous constituons un ensemble de données de 8 000 paires de données adverses et obtenons des améliorations à la fois sur ELV-Halluc et Video-MME, y compris une réduction substantielle de 27,7 % du taux de SAH.
Des données étiquetées de haute qualité sont essentielles pour entraîner des modèles de conversion de documents précis, en particulier dans des domaines aux formats complexes tels que les tableaux, les formules et les textes à colonnes multiples. Cependant, l'annotation manuelle est à la fois coûteuse et chronophage, tandis que l'étiquetage automatique utilisant des modèles existants manque souvent de précision dans la gestion de tels scénarios complexes. Par conséquent, l'entraînement de modèles étudiants par distillation des sorties de modèles enseignants peut considérablement limiter leurs performances dans des applications réelles. Dans cet article, nous proposons un cadre entièrement automatisé et sans distillation, composé de deux étapes, pour construire des ensembles de données et des modèles d'extraction de documents de haute qualité capables de gérer divers formats et mises en page de documents. Dans la première étape, nous introduisons une méthode pour générer des données synthétiques à grande échelle et diversifiées, permettant à un modèle d'extraire des éléments clés dans un format unifié avec une performance initiale solide. Dans la deuxième étape, nous présentons une approche d'auto-amélioration qui adapte davantage le modèle, initialement entraîné sur des données synthétiques, aux documents réels. Plus précisément, nous utilisons d'abord le modèle affiné pour annoter des documents réels, puis nous appliquons une série de stratégies de filtrage pour vérifier la qualité des annotations, et enfin nous réentraînons le modèle sur l'ensemble de données vérifié. En répétant ce processus de manière itérative, nous améliorons progressivement à la fois les capacités de conversion du modèle et la qualité des données générées. Nous entraînons un modèle public POINTS-1.5 pour obtenir POINTS-Reader, qui surpasse de nombreux modèles publics et propriétaires existants de taille comparable ou plus grande. Notre modèle est disponible à l'adresse https://github.com/Tencent/POINTS-Reader.
Alors que les modèles de langage de grande taille (LLMs) progressent en matière de capacités conversationnelles et de raisonnement, leur application pratique dans le domaine de la santé est devenue un axe de recherche critique. Cependant, un écart notable existe entre la performance des LLMs médicaux sur des benchmarks statiques tels que l'USMLE et leur utilité dans la prise de décision clinique réelle. Cette divergence s'explique par le fait que les examens traditionnels ne parviennent pas à capturer la nature dynamique et interactive des consultations médicales. Pour relever ce défi, nous introduisons un cadre de vérification dynamique novateur qui va au-delà des vérificateurs de réponses statiques, en établissant un système d'apprentissage par renforcement interactif à grande échelle et haute fidélité. Notre cadre comprend deux composants clés : un Simulateur de Patient qui crée des environnements cliniques réalistes à l'aide de dossiers médicaux anonymisés, et un Générateur de Grilles Cliniques qui produit dynamiquement des métriques d'évaluation multidimensionnelles. Sur cette base, nous développons Baichuan-M2, un modèle de raisonnement médical augmenté de 32 milliards de paramètres, entraîné grâce à une stratégie d'apprentissage par renforcement en plusieurs étapes avec un algorithme amélioré d'Optimisation de Politique Relative par Groupe (GRPO). Évalué sur HealthBench, Baichuan-M2 surpasse tous les autres modèles open-source ainsi que la plupart des modèles closed-source avancés, atteignant un score supérieur à 32 sur le benchmark difficile HealthBench Hard, précédemment dépassé uniquement par GPT-5. Notre travail démontre qu'un système de vérification dynamique robuste est essentiel pour aligner les capacités des LLMs avec les applications cliniques pratiques, établissant ainsi un nouveau front de Pareto dans le compromis performance-paramètres pour le déploiement de l'IA médicale.
L'architecture Transformer, reposant sur le mécanisme d'auto-attention, est devenue la norme de facto pour les tâches de modélisation de séquences. Cependant, son opération de base présente une complexité quadratique par rapport à la longueur de la séquence (O(N^2)), ce qui constitue un goulot d'étranglement majeur pour le traitement de contextes longs. Dans cet article, nous proposons le réseau Gated Associative Memory (GAM), une architecture novatrice et entièrement parallèle pour la modélisation de séquences, qui présente une complexité linéaire (O(N)) par rapport à la longueur de la séquence. Le bloc GAM remplace la couche d'auto-attention par deux voies parallèles : une convolution causale pour capturer efficacement le contexte local dépendant de la position, et un mécanisme de récupération de mémoire associative parallèle pour modéliser les motifs globaux basés sur le contenu. Ces voies sont fusionnées dynamiquement à l'aide d'un mécanisme de gating, permettant au modèle de combiner de manière flexible les informations locales et globales pour chaque token. Nous implémentons GAM à partir de zéro et menons une analyse comparative rigoureuse contre un modèle Transformer standard et une référence moderne à temps linéaire (Mamba) sur le benchmark WikiText-2, ainsi que contre le Transformer sur le jeu de données TinyStories. Nos expériences démontrent que GAM est systématiquement plus rapide, surpassant les deux références en termes de vitesse d'entraînement, et obtient une perplexité de validation finale supérieure ou compétitive sur tous les ensembles de données, s'établissant ainsi comme une alternative prometteuse et efficace pour la modélisation de séquences.
Ces dernières années, le développement des modèles de langage de grande taille (LLMs) a considérablement progressé, étendant leurs capacités à des tâches multimodales grâce aux modèles de langage multimodaux de grande taille (MLLMs). Cependant, la compréhension vidéo reste un domaine complexe en raison de la nature dynamique et riche en informations des vidéos. Les modèles existants peinent à concilier la résolution spatiale et la couverture temporelle lors du traitement du contenu vidéo. Nous présentons Keye-VL-1.5, qui relève les défis fondamentaux de la compréhension vidéo grâce à trois innovations clés. Premièrement, nous introduisons une nouvelle stratégie d'encodage vidéo Slow-Fast qui alloue dynamiquement les ressources de calcul en fonction de la similarité inter-images, traitant les images clés avec des changements visuels significatifs à une résolution plus élevée (voie Slow) tout en gérant les images relativement statiques avec une couverture temporelle accrue à une résolution plus faible (voie Fast). Deuxièmement, nous mettons en œuvre une méthodologie de pré-entraînement progressive en quatre étapes qui étend systématiquement la longueur de contexte du modèle de 8K à 128K tokens, permettant ainsi le traitement de vidéos plus longues et de contenus visuels plus complexes. Troisièmement, nous développons un pipeline complet de post-entraînement axé sur l'amélioration du raisonnement et l'alignement sur les préférences humaines, intégrant un processus de construction de données en chaîne de pensée en 5 étapes, un apprentissage par renforcement itératif basé sur GSPO avec des indices progressifs pour les cas difficiles, et un entraînement d'alignement. Grâce à une évaluation approfondie sur des benchmarks publics et une évaluation humaine interne rigoureuse, Keye-VL-1.5 démontre des améliorations significatives par rapport aux modèles existants, excellant particulièrement dans les tâches de compréhension vidéo tout en maintenant des performances compétitives sur les benchmarks multimodaux généraux.
Les grands modèles de langage nécessitent souvent une optimisation coûteuse, telle que l'apprentissage par renforcement, pour maîtriser des tâches de raisonnement complexes. Ce travail démontre que la capacité de raisonnement, une fois acquise, peut être extraite et transférée entre modèles sous la forme d'un vecteur de tâche compact. Nous utilisons deux modèles Qwen2.5, initialisés de manière identique et disponibles publiquement, l'un affiné par apprentissage supervisé (SFT) et l'autre par optimisation de politique relative par groupe (GRPO) sur le même jeu de données. À partir de ceux-ci, nous extrayons un vecteur de raisonnement : v_{raison} = theta_{GRPO} - theta_{SFT}. Nous émettons l'hypothèse que ce vecteur capture la capacité de raisonnement instaurée par l'apprentissage par renforcement tout en éliminant les connaissances partagées issues du processus SFT. Lorsqu'il est ajouté à des modèles compatibles ajustés par instruction via une simple opération arithmétique, ce vecteur améliore systématiquement les performances sur divers benchmarks de raisonnement : GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) et BigBenchHard (+12,3 % pour le modèle de 1,5 milliard). Les améliorations de performances persistent dans des conditions adverses. Inversement, soustraire le vecteur entraîne une dégradation significative des performances (-11,8 % sur GSM8K), démontrant la contribution majeure du vecteur aux capacités de raisonnement du modèle. Ce travail montre comment les capacités de raisonnement, généralement développées par un entraînement coûteux, peuvent être extraites de modèles open-source existants et réutilisées via de simples opérations tensorielles, offrant ainsi une méthode pratique pour améliorer les modèles en recyclant les investissements computationnels antérieurs.
Cet article propose une simplification de l'architecture et de la conception de la fonction de perte d'OpenVision afin d'améliorer son efficacité d'entraînement. S'inspirant des travaux antérieurs de pré-entraînement vision-langage CapPa et AIMv2, ainsi que des conceptions multimodales modernes comme LLaVA, nos modifications sont directes : nous supprimons l'encodeur de texte (et par conséquent la perte contrastive), ne conservant que la perte de génération de légendes comme signal d'entraînement purement génératif. Nous nommons cette nouvelle version OpenVision 2. Les résultats initiaux sont prometteurs : malgré cette simplification, OpenVision 2 rivalise avec les performances du modèle original sur un large ensemble de benchmarks multimodaux tout en réduisant considérablement le temps d'entraînement et la consommation de mémoire. Par exemple, avec ViT-L/14, il réduit le temps d'entraînement d'environ 1,5 fois (de 83h à 57h) et l'utilisation de mémoire d'environ 1,8 fois (de 24,5 Go à 13,8 Go, permettant ainsi d'augmenter la taille maximale des lots de 2k à 8k). Cette efficacité d'entraînement supérieure nous permet également de dépasser largement le plus grand encodeur visuel utilisé dans OpenVision, atteignant plus d'un milliard de paramètres. Nous sommes convaincus que ce paradigme léger et purement génératif est particulièrement prometteur pour le développement futur d'encodeurs visuels dans les modèles de fondation multimodaux.
Le post-entraînement des grands modèles de langage (LM) privilégie souvent la précision et l'utilité au détriment de la diversité. Cela crée une tension : bien que le post-entraînement améliore la qualité des réponses, il aiguise également les distributions de sortie et réduit l'éventail des idées, limitant ainsi l'utilité des LM dans des tâches créatives et exploratoires telles que le brainstorming, la narration ou la résolution de problèmes. Nous abordons ce défi avec le **Reinforcement Learning Conscient de la Diversité (DARLING)**, un cadre qui optimise conjointement la qualité des réponses et la diversité sémantique. Au cœur de DARLING se trouve une fonction de partition apprise pour mesurer la diversité au-delà des variations lexicales superficielles. Ce signal de diversité est ensuite combiné avec une récompense de qualité lors de l'apprentissage par renforcement en ligne, encourageant les modèles à générer des sorties à la fois de haute qualité et distinctes. Les expériences menées sur plusieurs familles et tailles de modèles montrent que DARLING se généralise à deux régimes : les tâches non vérifiables (suivi d'instructions et écriture créative) et les tâches vérifiables (mathématiques de compétition). Sur cinq benchmarks dans le premier cadre, DARLING surpasse systématiquement les bases de référence en apprentissage par renforcement axé uniquement sur la qualité, produisant des sorties à la fois de meilleure qualité et plus novatrices. Dans le second cadre, DARLING atteint des scores plus élevés en pass@1 (qualité de la solution) et pass@k (variété des solutions). Plus frappant encore, l'optimisation explicite de la diversité catalyse l'exploration dans l'apprentissage par renforcement en ligne, ce qui se manifeste par des réponses de meilleure qualité.
Les avancées récentes dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ont permis aux grands modèles de langage (LLMs) de s'attaquer à des tâches de raisonnement complexes telles que les mathématiques et la programmation. Le RLVR exploite des récompenses basées sur des résultats vérifiables pour guider l'optimisation des politiques, permettant ainsi aux LLMs d'améliorer progressivement la qualité de leurs sorties de manière fiable et ancrée. Malgré son potentiel, le paradigme RLVR présente des défis importants, car les méthodes existantes souffrent souvent de signaux de récompense épars et de mises à jour instables des gradients de politique, en particulier dans les approches basées sur l'apprentissage par renforcement. Pour relever ces défis, nous proposons PACS, un nouveau cadre RLVR qui réalise un couplage implicite entre l'acteur et le critique via un cadre d'apprentissage supervisé. En traitant la récompense de résultat comme une étiquette prédictible, nous reformulons le problème RLVR en une tâche d'apprentissage supervisé sur une fonction de score paramétrée par le modèle de politique et optimisée à l'aide de la perte d'entropie croisée. Une analyse détaillée des gradients montre que cette formulation supervisée récupère intrinsèquement la mise à jour classique du gradient de politique tout en couplant implicitement les rôles d'acteur et de critique, ce qui permet un entraînement plus stable et efficace. Lors de tests sur des tâches de raisonnement mathématique complexes, PACS surpasse les bases de référence RLVR, telles que PPO et GRPO, en obtenant des performances de raisonnement supérieures. Par exemple, PACS atteint 59,78 % à pass@256 sur AIME 2025, représentant des améliorations de 13,32 et 14,36 points par rapport à PPO et GRPO. Ce cadre simple mais puissant offre une voie prometteuse pour le post-entraînement des LLMs avec des récompenses vérifiables. Notre code et nos données sont disponibles en open source à l'adresse https://github.com/ritzz-ai/PACS.
Le compositing vidéo combine des séquences en prise de vue réelle pour créer une production vidéo, constituant une technique essentielle dans la création vidéo et la production cinématographique. Les pipelines traditionnels nécessitent des efforts laborieux intensifs et une collaboration experte, entraînant des cycles de production longs et des coûts de main-d'œuvre élevés. Pour résoudre ce problème, nous automatisons ce processus avec des modèles génératifs, appelés compositing vidéo génératif. Cette nouvelle tâche vise à injecter de manière adaptative les informations d'identité et de mouvement d'une vidéo de premier plan dans une vidéo cible de manière interactive, permettant aux utilisateurs de personnaliser la taille, la trajectoire de mouvement et d'autres attributs des éléments dynamiques ajoutés dans la vidéo finale. Plus précisément, nous avons conçu un pipeline novateur basé sur un Transformeur de Diffusion (DiT) en exploitant ses propriétés intrinsèques. Pour maintenir la cohérence de la vidéo cible avant et après l'édition, nous avons révisé une branche légère de préservation de l'arrière-plan basée sur DiT avec injection de tokens masqués. Pour hériter des éléments dynamiques d'autres sources, un bloc de fusion DiT est proposé en utilisant une auto-attention complète, accompagné d'une augmentation simple mais efficace du premier plan pour l'entraînement. De plus, pour fusionner des vidéos d'arrière-plan et de premier plan avec des mises en page différentes basées sur le contrôle de l'utilisateur, nous avons développé un nouveau positionnement d'encodage, appelé Extended Rotary Position Embedding (ERoPE). Enfin, nous avons constitué un ensemble de données comprenant 61 000 ensembles de vidéos pour notre nouvelle tâche, appelée VideoComp. Ces données incluent des éléments dynamiques complets et des vidéos cibles de haute qualité. Les expériences démontrent que notre méthode réalise efficacement le compositing vidéo génératif, surpassant les solutions existantes possibles en termes de fidélité et de cohérence.
Le développement récent des modèles de langage à grande échelle (LLMs) s'est accompagné d'une effervescence d'idées et de méthodes novatrices visant à mieux optimiser la perte des modèles d'apprentissage profond. Les affirmations de ces méthodes sont nombreuses : d'une convergence plus rapide à la suppression de la dépendance à certains hyperparamètres. Cependant, les protocoles expérimentaux variés utilisés pour valider ces affirmations rendent les comparaisons directes entre les méthodes difficiles. Cette étude présente une évaluation complète des techniques d'optimisation récentes dans des scénarios standardisés de pré-entraînement de LLMs, en faisant varier systématiquement la taille du modèle, la taille du lot et la durée de l'entraînement. Grâce à un réglage minutieux de chaque méthode, nous fournissons des conseils aux praticiens sur l'optimiseur le mieux adapté à chaque scénario. Pour les chercheurs, notre travail met en lumière des directions prometteuses pour les futures recherches en optimisation. Enfin, en publiant notre code et en rendant toutes les expériences entièrement reproductibles, nous espérons que nos efforts pourront contribuer au développement et à l'évaluation rigoureuse des méthodes futures.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) s'est imposé comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, les approches existantes telles que GRPO souffrent souvent de gradients nuls. Ce problème découle principalement des bornes de troncature fixes pour les ratios de probabilité au niveau des tokens et de la standardisation des récompenses identiques, ce qui peut entraîner des mises à jour de gradients inefficaces et une sous-utilisation des réponses générées. Dans ce travail, nous proposons l'Optimisation de Politique par Troncature Dynamique (DCPO), qui introduit une stratégie de troncature dynamique ajustant de manière adaptative les bornes de troncature en fonction des probabilités a priori spécifiques aux tokens pour améliorer l'exploration au niveau des tokens, ainsi qu'une technique de standardisation lissée des avantages qui standardise les récompenses sur les étapes cumulatives d'entraînement pour optimiser l'utilisation effective des réponses générées au niveau des réponses. DCPO a atteint des performances de pointe sur quatre benchmarks basés sur quatre modèles différents. En particulier, DCPO a obtenu un Avg@1 de 46,7 avec un décodage glouton et un Avg@32 de 38,8 avec un échantillonnage 32 fois sur le benchmark AIME24, surpassant à la fois DAPO (36,7/31,6) et GRPO (36,7/32,1) sur le modèle Qwen2.5-Math-7B. Sur le benchmark AIME25 basé sur Qwen2.5-14B, DCPO atteint une performance de (23,3/19,0), dépassant GRPO (13,3/10,5) et DAPO (20,0/15,3). De plus, DCPO a obtenu une amélioration moyenne de 28 % de l'avantage non nul par rapport à GRPO sur quatre modèles, doublé l'efficacité de l'entraînement par rapport à DAPO, et réduit significativement le ratio de troncature des tokens d'un ordre de grandeur par rapport à GRPO et DAPO, tout en atteignant des performances supérieures. Ces résultats mettent en évidence l'efficacité de DCPO à exploiter plus efficacement les données générées pour l'apprentissage par renforcement dans les grands modèles de langage.
Les agents d'interface graphique (GUI) alimentés par des modèles de langage de grande taille (LLMs) montrent un potentiel prometteur pour interagir avec des environnements numériques variés. Parmi ceux-ci, les jeux vidéo offrent un terrain d'essai précieux en raison de leurs interfaces diversifiées, les jeux d'aventure présentant des défis supplémentaires grâce à des interactions complexes et narratives. Cependant, les benchmarks de jeux existants manquent de diversité et évaluent rarement les agents sur la complétion d'intégralité des scénarios. Pour remédier à cela, nous introduisons FlashAdventure, un benchmark composé de 34 jeux d'aventure basés sur Flash, conçu pour tester la complétion d'arcs narratifs complets et relever le défi de l'écart observation-comportement : la difficulté de se souvenir et d'agir sur des informations issues de parties précédentes. Nous proposons également CUA-as-a-Judge, un évaluateur automatisé de gameplay, et COAST, un cadre agentique exploitant la mémoire à long terme des indices pour mieux planifier et résoudre des tâches séquentielles. Les expériences montrent que les agents GUI actuels peinent à accomplir des arcs narratifs complets, tandis que COAST améliore l'achèvement des étapes clés en comblant l'écart observation-comportement. Néanmoins, une divergence marquée entre les humains et les agents les plus performants justifie des efforts de recherche continus pour réduire cet écart.
Les modèles gardiens sont utilisés pour superviser et modérer les sorties des chatbots destinés aux utilisateurs, en imposant des garde-fous et en détectant les comportements inappropriés. Les modèles gardiens standards, comme LlamaGuard, détectent des catégories de dommages prédéfinies et statiques. Nous proposons des modèles gardiens dynamiques qui évaluent le texte en fonction de politiques définies par l'utilisateur, les rendant utiles pour différents domaines d'application non couverts par les modèles gardiens standards. Nos modèles gardiens dynamiques peuvent être utilisés pour une détection rapide des violations de politiques ou avec un raisonnement en chaîne de pensée qui articule et justifie les sorties du modèle. Nos modèles gardiens dynamiques égalent les modèles statiques en termes de précision de détection pour les catégories de dommages statiques tout en identifiant les violations de politiques libres avec une précision comparable à celle des modèles de raisonnement de pointe, en une fraction du temps.
Les plongements vectoriels se sont vu confier un ensemble croissant de tâches de recherche au fil des années, avec une émergence récente de leur utilisation pour le raisonnement, le suivi d'instructions, le codage, et bien plus encore. Ces nouveaux benchmarks poussent les plongements à fonctionner pour toute requête et toute notion de pertinence qui pourrait être donnée. Bien que des travaux antérieurs aient souligné les limitations théoriques des plongements vectoriels, il existe une hypothèse commune selon laquelle ces difficultés sont exclusivement dues à des requêtes irréalistes, et que celles qui ne le sont pas peuvent être surmontées avec de meilleures données d'entraînement et des modèles plus volumineux. Dans ce travail, nous démontrons que nous pouvons rencontrer ces limitations théoriques dans des contextes réalistes avec des requêtes extrêmement simples. Nous relions des résultats connus en théorie de l'apprentissage, montrant que le nombre de sous-ensembles de documents top-k pouvant être retournés comme résultat d'une requête est limité par la dimension du plongement. Nous montrons empiriquement que cela reste vrai même si nous nous limitons à k=2, et optimisons directement sur l'ensemble de test avec des plongements paramétrés libres. Nous créons ensuite un ensemble de données réaliste appelé LIMIT qui teste de manière intensive les modèles basés sur ces résultats théoriques, et observons que même les modèles de pointe échouent sur cet ensemble de données malgré la simplicité de la tâche. Notre travail montre les limites des modèles de plongement sous le paradigme actuel du vecteur unique et appelle à des recherches futures pour développer des méthodes capables de résoudre cette limitation fondamentale.
Les grands modèles de langage (LLMs) excellent dans la génération de données synthétiques, mais garantir leur qualité et leur diversité reste un défi. Nous proposons Genetic Prompt, un nouveau cadre qui combine des algorithmes génétiques avec les LLMs pour améliorer la génération de données synthétiques. Notre approche traite les attributs sémantiques du texte comme des séquences génétiques et exploite le LLM pour simuler des opérations de croisement et de mutation. Ce processus génétique améliore la qualité et la diversité des données en créant de nouvelles combinaisons d'attributs, produisant ainsi des distributions synthétiques plus proches des données réelles. Pour optimiser la sélection des parents, nous intégrons également un schéma d'apprentissage actif qui élargit l'espace de recherche des descendants. Nos expériences sur plusieurs tâches de NLP révèlent plusieurs résultats clés : Genetic Prompt non seulement surpasse significativement les meilleures méthodes de référence, mais montre également une performance robuste à travers différentes tailles et échelles de modèles générateurs. De plus, nous démontrons que la fusion de nos données synthétiques avec l'ensemble d'entraînement original améliore considérablement la performance des modèles en aval, en particulier dans des scénarios de déséquilibre de classes. Nos résultats valident que Genetic Prompt est une méthode efficace pour produire des données synthétiques de haute qualité pour une large gamme d'applications NLP.
La recherche d'images médicales est essentielle pour la prise de décision clinique et la recherche translationnelle, reposant sur des représentations visuelles discriminantes. Cependant, les méthodes actuelles restent fragmentées, s'appuyant sur des architectures et des stratégies d'entraînement distinctes pour les données médicales en 2D, 3D et vidéo. Cette conception spécifique à la modalité entrave l'évolutivité et freine le développement de représentations unifiées. Pour permettre un apprentissage unifié, nous avons constitué un ensemble de données hybride à grande échelle comprenant 867 653 échantillons d'imagerie médicale, incluant des radiographies 2D et des échographies, des vidéos d'endoscopie en RGB et des scanners CT en 3D. En exploitant cet ensemble de données, nous avons entraîné M3Ret, un encodeur visuel unifié sans aucune personnalisation spécifique à la modalité. Il apprend avec succès des représentations transférables en utilisant à la fois des paradigmes d'apprentissage auto-supervisé (SSL) génératif (MAE) et contrastif (SimDINO). Notre approche établit un nouvel état de l'art en recherche d'image à image sans apprentissage préalable (zero-shot) pour toutes les modalités individuelles, surpassant des bases de référence solides telles que DINOv3 et le BMC-CLIP supervisé par texte. Plus remarquablement, un fort alignement intermodal émerge sans données appariées, et le modèle se généralise à des tâches IRM non vues, bien qu'il n'ait jamais observé d'IRM lors du pré-entraînement, démontrant ainsi la généralisabilité de l'auto-supervision purement visuelle à des modalités non vues. Des analyses approfondies valident en outre l'évolutivité de notre cadre à travers les tailles de modèles et de données. Ces résultats offrent un signal prometteur à la communauté de l'imagerie médicale, positionnant M3Ret comme une étape vers des modèles fondateurs pour l'auto-supervision visuelle dans la compréhension multimodale des images médicales.
AdamW a longtemps été l'optimiseur dominant dans le pré-entraînement des modèles de langage, malgré de nombreuses affirmations selon lesquelles des optimiseurs alternatifs offrent une accélération de 1,4 à 2 fois. Nous postulons que deux lacunes méthodologiques ont obscurci les comparaisons équitables et entravé l'adoption pratique : (i) un réglage inégal des hyperparamètres et (ii) des configurations d'évaluation limitées ou trompeuses. Pour résoudre ces deux problèmes, nous menons une étude systématique de dix optimiseurs d'apprentissage profond sur quatre échelles de modèles (0,1 à 1,2 milliard de paramètres) et des ratios données-modèles (1 à 8 fois l'optimum de Chinchilla). Nous constatons que des comparaisons équitables et informatives nécessitent un réglage rigoureux des hyperparamètres et des évaluations sur une gamme d'échelles de modèles et de ratios données-modèles, effectués à la fin de l'entraînement. Premièrement, les hyperparamètres optimaux pour un optimiseur peuvent être sous-optimaux pour un autre, rendant le transfert aveugle d'hyperparamètres injuste. Deuxièmement, l'accélération réelle de nombreux optimiseurs proposés par rapport aux bases de référence bien réglées est inférieure à celle annoncée et diminue avec la taille du modèle pour atteindre seulement 1,1 fois pour les modèles de 1,2 milliard de paramètres. Troisièmement, comparer des points de contrôle intermédiaires avant d'atteindre les budgets d'entraînement cibles peut être trompeur, car les classements entre deux optimiseurs peuvent s'inverser pendant l'entraînement en raison de la décroissance du taux d'apprentissage. Grâce à notre enquête approfondie, nous constatons que tous les optimiseurs les plus rapides, tels que Muon et Soap, utilisent des matrices comme préconditionneurs — multipliant les gradients par des matrices plutôt que par des scalaires élément par élément. Cependant, l'accélération des optimiseurs basés sur des matrices est inversement proportionnelle à l'échelle du modèle, diminuant de 1,4 fois par rapport à AdamW pour les modèles de 0,1 milliard de paramètres à seulement 1,1 fois pour les modèles de 1,2 milliard de paramètres.
Les modèles de langage de grande taille (LLMs) atteignent des performances de niveau médaille d'or sur de nombreux benchmarks, mais il reste incertain si ce succès reflète un véritable raisonnement ou une simple correspondance de motifs. D'un point de vue des sciences cognitives, un test informatif consiste à déterminer si ces modèles peuvent maîtriser une langue inconnue grâce à un apprentissage déductif métalinguistique explicite, un paradigme dans lequel les apprenants humains peuvent internaliser de manière fiable des systèmes grammaticaux par le raisonnement métalinguistique. Nous abordons cette question avec Camlang, une nouvelle langue construite qui présente des combinaisons de traits naturalistes mais non attestées. Camlang se compose de deux ressources explicites, un livre de grammaire et un dictionnaire bilingue, qui reflètent l'apprentissage d'une seconde langue par des adultes via des règles grammaticales explicites et la consultation lexicale, et nous permettent de distinguer les erreurs en morphosyntaxe, en sémantique lexicale et en raisonnement au niveau de la phrase. Des expériences humaines montrent que ces ressources sont suffisantes pour que les participants acquièrent Camlang et résolvent avec succès des tâches en Camlang. Pour opérationnaliser l'évaluation, nous adaptons CommonsenseQA en Camlang, créant Camlang-CSQA-v0, la première tâche d'une suite plus large où la résolution de questions nécessite l'application de règles grammaticales et de correspondances lexicales. Les résultats expérimentaux montrent que GPT-5 atteint une précision EM de 98 % en anglais mais seulement 47 % en Camlang, bien en dessous de la performance humaine à 87 %, tandis que d'autres LLMs de pointe en matière de raisonnement obtiennent des résultats encore moins bons. Une vérification humaine révèle en outre que la plupart des succès des modèles découlent d'un alignement lexical superficiel, tandis que GPT-5 montre une émergence limitée de conscience métalinguistique mais pas une maîtrise grammaticale systématique comme chez les humains. Camlang établit un paradigme d'évaluation ancré dans la cognition qui expose des lacunes fondamentales entre les modèles actuels et la compétence métalinguistique humaine.
Les outils de recherche approfondie figurent parmi les systèmes agentiques les plus influents et les plus couramment rencontrés aujourd'hui. Nous observons cependant que chaque agent de recherche approfondie introduit jusqu'à présent est codé en dur pour exécuter une stratégie de recherche particulière en utilisant un choix fixe d'outils. Nous présentons Universal Deep Research (UDR), un système agentique généraliste qui s'intègre à tout modèle de langage et permet à l'utilisateur de créer, modifier et affiner ses propres stratégies de recherche approfondie entièrement personnalisées, sans nécessiter d'entraînement ou de réglage supplémentaire. Pour démontrer la généralité de notre système, nous dotons UDR d'exemples de stratégies de recherche minimales, expansives et intensives, et fournissons une interface utilisateur pour faciliter l'expérimentation avec le système.
Nous présentons ViSTA-SLAM, un système de SLAM visuel monoculaire en temps réel qui fonctionne sans nécessiter les paramètres intrinsèques de la caméra, le rendant largement applicable à diverses configurations de caméras. Au cœur du système, un modèle léger d'association symétrique à deux vues (STA) est utilisé comme frontend, estimant simultanément les poses relatives de la caméra et régressant des cartes de points locales à partir de seulement deux images RGB. Cette conception réduit significativement la complexité du modèle, la taille de notre frontend étant seulement 35 % de celle des méthodes comparables de pointe, tout en améliorant la qualité des contraintes à deux vues utilisées dans le pipeline. Dans le backend, nous construisons un graphe de poses Sim(3) spécialement conçu, intégrant des fermetures de boucle pour corriger la dérive accumulée. Des expériences approfondies démontrent que notre approche atteint des performances supérieures en termes de suivi de caméra et de qualité de reconstruction 3D dense par rapport aux méthodes actuelles. Dépôt GitHub : https://github.com/zhangganlin/vista-slam.
Avec l'avancée rapide des modèles vision-langage (VLMs), les agents mobiles basés sur des interfaces graphiques (GUI) sont devenus une direction clé dans le développement des systèmes mobiles intelligents. Cependant, les modèles d'agents existants continuent de rencontrer des défis majeurs dans l'exécution de tâches en conditions réelles, notamment en termes de précision et d'efficacité. Pour répondre à ces limitations, nous proposons MobiAgent, un système complet d'agents mobiles comprenant trois composants principaux : les modèles d'agents de la série MobiMind, le cadre d'accélération AgentRR et la suite de référence MobiFlow. Par ailleurs, reconnaissant que les capacités des agents mobiles actuels sont encore limitées par la disponibilité de données de haute qualité, nous avons développé un pipeline agile de collecte de données assistée par IA, qui réduit significativement le coût de l'annotation manuelle. Comparé à la fois aux modèles de langage généralistes (LLMs) et aux modèles d'agents spécialisés pour les GUI, MobiAgent atteint des performances de pointe dans des scénarios mobiles réels.
Les modèles autorégressifs visuels (VAR) ont récemment émergé comme une classe prometteuse de modèles génératifs, atteignant des performances comparables à celles des modèles de diffusion dans les tâches de génération d'images à partir de texte. Bien que la génération conditionnelle ait été largement explorée, la capacité à effectuer des modifications d'images guidées par des prompts sans entraînement supplémentaire est tout aussi cruciale, car elle soutient de nombreuses applications pratiques dans le monde réel. Cet article étudie les capacités de modification d'images à partir de texte des VAR en introduisant Visual AutoRegressive Inverse Noise (VARIN), la première technique de modification basée sur l'inversion de bruit conçue explicitement pour les modèles VAR. VARIN exploite une nouvelle fonction pseudo-inverse pour l'échantillonnage argmax, appelée Location-aware Argmax Inversion (LAI), pour générer des bruits de Gumbel inversés. Ces bruits inversés permettent une reconstruction précise de l'image source et facilitent des modifications ciblées et contrôlées alignées sur les prompts textuels. Des expériences approfondies démontrent que VARIN modifie efficacement les images sources selon les prompts spécifiés tout en préservant significativement l'arrière-plan et les détails structurels originaux, validant ainsi son efficacité en tant qu'approche pratique de modification.
La conversion de requêtes en langage naturel en requêtes SQL constitue un défi crucial tant dans l'industrie que dans le milieu académique, visant à accroître l'accès aux bases de données et aux applications à grande échelle. Ce travail explore comment l'apprentissage en contexte et la chaîne de raisonnement peuvent être utilisés pour développer une solution robuste pour les systèmes de conversion de texte en SQL. Nous proposons SQL-of-Thought : un cadre multi-agent qui décompose la tâche Text2SQL en liaison de schéma, identification de sous-problèmes, génération de plan de requête, génération de SQL et une boucle de correction guidée. Contrairement aux systèmes antérieurs qui reposent uniquement sur une correction statique basée sur l'exécution, nous introduisons une modification dynamique des erreurs guidée par une taxonomie, informée par l'apprentissage en contexte. SQL-of-Thought obtient des résultats de pointe sur le jeu de données Spider et ses variantes, en combinant une taxonomie d'erreurs guidée avec une planification de requêtes basée sur le raisonnement.
Ce travail identifie les distributions de paramètres anisotropes comme une barrière fondamentale à l'entraînement de grands modèles de langage (LLMs) avec une quantification en faible précision : quelques valeurs singulières dominantes créent des plages numériques larges qui entrent en conflit avec le biais inhérent de la quantification par blocs. Ce biais préserve de manière disproportionnée les valeurs de grande amplitude tout en éliminant les plus petites, provoquant une instabilité lors de l'entraînement et une faible performance du modèle. Ce travail introduit Metis, un cadre d'entraînement qui combine (i) la décomposition spectrale avec un embedding aléatoire pour séparer efficacement les composantes dominantes des composantes de longue traîne, compressant ainsi les distributions larges en plages étroites compatibles avec la quantification ; (ii) des taux d'apprentissage adaptatifs dans le domaine spectral pour amplifier les directions sous-représentées et mieux capturer les caractéristiques diverses essentielles à la performance ; et (iii) un régulariseur à double plage qui contraint conjointement la précision numérique et la distribution des plages de paramètres, assurant un entraînement en faible précision stable et non biaisé. Avec Metis, l'entraînement en FP8 surpasse les références en FP32, et l'entraînement en FP4 atteint une précision comparable à celle du FP32, ouvrant la voie à un entraînement robuste et évolutif des LLMs sous une quantification avancée en faible précision. L'implémentation du code pour Metis est disponible à l'adresse : https://github.com/typename-yyf/Metis-quantization.
Nous présentons les Flavors of Moonshine, une suite de modèles de reconnaissance automatique de la parole (ASR) de petite taille spécialisés pour une gamme de langues sous-représentées. La sagesse conventionnelle suggère que les modèles ASR multilingues surpassent leurs homologues monolingues en exploitant les similarités phonétiques interlangues. Nous remettons en question cette hypothèse, en démontrant que pour des modèles suffisamment petits (27 millions de paramètres), l’entraînement de systèmes monolingues sur un mélange soigneusement équilibré de données de haute qualité annotées manuellement, pseudo-annotées et synthétiques permet d’obtenir des performances nettement supérieures. En moyenne, nos modèles atteignent des taux d’erreur 48 % inférieurs à ceux du modèle Whisper Tiny de taille comparable, surpassent le modèle Whisper Small, 9 fois plus grand, et dans la plupart des cas égalent ou surpassent le modèle Whisper Medium, 28 fois plus grand. Ces résultats font progresser l’état de l’art pour des modèles de cette taille, permettant une reconnaissance automatique de la parole précise sur appareil pour des langues qui bénéficiaient auparavant d’un support limité. Nous publions les modèles Moonshine pour l’arabe, le chinois, le japonais, le coréen, l’ukrainien et le vietnamien sous une licence open-source permissive.
La segmentation précise des organes et des tumeurs dans les scanners CT et IRM est essentielle pour le diagnostic, la planification des traitements et le suivi des maladies. Bien que l'apprentissage profond ait fait progresser la segmentation automatisée, la plupart des modèles restent spécifiques à une tâche, manquant de généralisation entre les modalités et les institutions. Les modèles de base (FMs) de vision pré-entraînés sur des milliards d'images naturelles offrent des représentations puissantes et transférables. Cependant, leur adaptation à l'imagerie médicale rencontre deux défis majeurs : (1) l'architecture ViT de la plupart des modèles de base reste moins performante que les CNN spécialisés pour la segmentation d'images médicales, et (2) le grand écart de domaine entre les images naturelles et médicales limite la transférabilité. Nous présentons MedDINOv3, un cadre simple et efficace pour adapter DINOv3 à la segmentation médicale. Nous revisitons d'abord les ViT simples et concevons une architecture efficace avec une agrégation de tokens multi-échelle. Ensuite, nous effectuons un pré-entraînement adaptatif au domaine sur CT-3M, une collection organisée de 3,87 millions de coupes axiales CT, en utilisant une recette multi-étapes de DINOv3 pour apprendre des caractéristiques denses robustes. MedDINOv3 atteint ou dépasse les performances de pointe sur quatre benchmarks de segmentation, démontrant le potentiel des modèles de base de vision comme architectures unifiées pour la segmentation d'images médicales. Le code est disponible à l'adresse https://github.com/ricklisz/MedDINOv3.
Les modèles de langage de grande taille (LLMs) peuvent refléter involontairement les biais sociétaux présents dans leurs données d'entraînement, conduisant à des sorties nuisibles ou préjudiciables. Dans le contexte indien, nos évaluations empiriques sur une série de modèles révèlent que les biais liés à la caste et à la religion sont particulièrement marqués. Pourtant, la plupart des stratégies de mitigation existantes sont centrées sur l'Occident et ne parviennent pas à prendre en compte ces nuances locales. Nous proposons AMBEDKAR, un cadre inspiré par la vision égalitaire du Dr B. R. Ambedkar, architecte de la Constitution indienne, pour orienter les sorties des LLMs vers l'équité, la neutralité et l'inclusion conformément aux articles 14 à 17. Notre approche introduit une couche de décodage consciente de la Constitution, guidée par la Constitution de l'IA de l'Inde et appliquée uniquement au moment de l'inférence, sans aucune mise à jour des paramètres du modèle de base. Nous intégrons un algorithme de décodage spéculatif qui réduit de manière proactive les biais liés à la caste et à la communauté lors de la génération. Cette couche de mitigation opère directement dans le processus de décodage, évitant les modifications internes du modèle et réduisant les coûts computationnels et infrastructurels associés au réentraînement. Nous réinterprétons le décodage spéculatif non seulement comme un outil d'efficacité, mais aussi comme un mécanisme d'équité. Dans ce cadre, un modèle de langage de petite taille (SLM) agit comme un générateur potentiellement biaisé, tandis qu'un modèle de langage de grande taille (LLM) guidé par la Constitution sert de vérificateur. Plutôt que d'accélérer la génération, le LLM impose des trajectoires robustes aux biais dans les sorties du SLM. Cette inversion des rôles donne naissance à un paradigme d'équité par spéculation. Notre approche permet une réduction absolue des biais allant jusqu'à 26,41 % par rapport à la ligne de base. Notre code source, nos ensembles de données et nos résultats sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/AMBEDKAR-983B/
La sensibilité aux prompts, qui désigne le phénomène où la paraphrase (c'est-à-dire, répéter quelque chose écrit ou dit en utilisant des mots différents) entraîne des changements significatifs dans les performances des grands modèles de langage (LLM), est largement reconnue comme une limitation fondamentale des LLM. Dans ce travail, nous revisitons cette question et nous demandons : la forte sensibilité aux prompts fréquemment rapportée est-elle véritablement une faiblesse inhérente des LLM, ou est-elle en grande partie un artefact des processus d'évaluation ? Pour répondre à cette question, nous évaluons systématiquement 7 LLM (par exemple, les familles GPT et Gemini) sur 6 benchmarks, incluant à la fois des tâches à choix multiples et des tâches ouvertes, en utilisant 12 modèles de prompts variés. Nous constatons qu'une grande partie de la sensibilité aux prompts découle de méthodes d'évaluation heuristiques, telles que le scoring par log-vraisemblance et la correspondance rigide des réponses, qui négligent souvent les réponses sémantiquement correctes exprimées à travers des formulations alternatives, comme des synonymes ou des paraphrases. Lorsque nous adoptons des évaluations basées sur le principe de "LLM-comme-juge", nous observons une réduction substantielle de la variance des performances et une corrélation plus élevée et plus cohérente dans le classement des modèles à travers les prompts. Nos résultats suggèrent que les LLM modernes sont plus robustes aux modèles de prompts qu'on ne le croyait auparavant, et que la sensibilité aux prompts pourrait être davantage un artefact de l'évaluation qu'un défaut des modèles.
Les méthodes traditionnelles d'alignement pour les modèles de vision et de langage de grande taille (LVLMs) reposent principalement sur des données de préférence curatées par des humains. Les données de préférence générées par l'homme sont coûteuses ; les données de préférence générées par machine sont limitées en qualité ; et les données de préférence auto-supervisées introduisent souvent des hallucinations. Pour surmonter ces limitations, nous proposons un nouveau cadre d'apprentissage inspiré de l'apprentissage collaboratif entre humains, appelé Panel-of-Peers. Cette approche exploite un panel de LVLMs, chacun évaluant et apprenant à partir de leurs sorties collectives à travers un processus itératif d'auto-amélioration. En simulant un système d'évaluation par les pairs, nos modèles génèrent, évaluent et affinent leurs sorties en réponse à un ensemble de prompts curatés, imitant ainsi un environnement d'apprentissage en classe. Nous démontrons que cette méthodologie améliore les performances des modèles sans nécessiter de vastes ensembles de données étiquetées par des humains. Nos expériences montrent une amélioration significative sur plusieurs benchmarks, démontrant le potentiel des évaluations par les pairs comme alternative scalable à l'alignement auto-supervisé. Notamment, nous montrons que Panel-of-Peers augmente le score moyen sur quinze benchmarks de 48 % à 57 %.
L'équité dans les systèmes de recommandation (RS) est généralement classée en équité de groupe et équité individuelle. Cependant, il n'existe pas de compréhension scientifique établie de la relation entre ces deux types d'équité, car les travaux antérieurs sur chacun de ces types ont utilisé des mesures d'évaluation ou des objectifs d'évaluation différents, ne permettant pas une comparaison adéquate des deux. Par conséquent, on ignore actuellement comment l'augmentation d'un type d'équité peut affecter l'autre. Pour combler cette lacune, nous étudions la relation entre l'équité de groupe et l'équité individuelle à travers une comparaison exhaustive des mesures d'évaluation pouvant être utilisées pour les deux types d'équité. Nos expériences, menées sur 8 exécutions réparties sur 3 jeux de données, montrent que les recommandations très équitables pour les groupes peuvent être très inéquitables pour les individus. Cette découverte est nouvelle et utile pour les praticiens des RS cherchant à améliorer l'équité de leurs systèmes. Notre code est disponible à l'adresse suivante : https://github.com/theresiavr/stairway-to-fairness.
Malgré son grand potentiel, la technologie d'essayage virtuel est freinée dans son application pratique par deux défis majeurs : l'incapacité des méthodes actuelles à prendre en charge des compositions de tenues multi-références (incluant vêtements et accessoires), et leur inefficacité significative causée par la recomputation redondante des caractéristiques de référence à chaque étape de débruitage. Pour relever ces défis, nous proposons FastFit, un cadre d'essayage virtuel multi-références à haute vitesse basé sur une architecture de diffusion novatrice avec mise en cache. En employant un mécanisme de Semi-Attention et en substituant les embeddings traditionnels de pas de temps par des embeddings de classe pour les éléments de référence, notre modèle découple entièrement l'encodage des caractéristiques de référence du processus de débruitage avec une surcharge de paramètres négligeable. Cela permet aux caractéristiques de référence d'être calculées une seule fois et réutilisées sans perte à travers toutes les étapes, brisant fondamentalement le goulot d'étranglement de l'efficacité et offrant une accélération moyenne de 3,5x par rapport aux méthodes comparables. De plus, pour faciliter la recherche sur l'essayage virtuel complexe et multi-références, nous introduisons DressCode-MR, un nouveau jeu de données à grande échelle. Il comprend 28 179 ensembles d'images appariées de haute qualité couvrant cinq catégories clés (hauts, bas, robes, chaussures et sacs), construits à travers un pipeline de modèles experts et un raffinement par retour humain. Des expériences approfondies sur les jeux de données VITON-HD, DressCode et notre DressCode-MR montrent que FastFit surpasse les méthodes de pointe sur les principales métriques de fidélité tout en offrant son avantage significatif en termes d'efficacité d'inférence.
L'apprentissage sur nuages de points, en particulier de manière auto-supervisée sans annotations manuelles, a suscité un intérêt croissant dans les communautés de vision et d'apprentissage en raison de son utilité potentielle dans un large éventail d'applications. La plupart des approches génératives existantes pour l'apprentissage auto-supervisé sur nuages de points se concentrent sur la reconstruction de points masqués à partir de points visibles dans une vue unique. Reconnaissant qu'un paradigme de pré-entraînement à deux vues introduit intrinsèquement une plus grande diversité et variance, il pourrait ainsi permettre un pré-entraînement plus stimulant et informatif. Inspirés par cela, nous explorons le potentiel de l'apprentissage à deux vues dans ce domaine. Dans cet article, nous proposons Point-PQAE, un paradigme génératif de reconstruction croisée qui génère d'abord deux nuages de points/vues découplés, puis reconstruit l'un à partir de l'autre. Pour atteindre cet objectif, nous développons un mécanisme de découpe pour la génération de vues de nuages de points pour la première fois et proposons en outre un nouvel encodage positionnel pour représenter la position relative 3D entre les deux vues découplées. La reconstruction croisée augmente significativement la difficulté du pré-entraînement par rapport à l'auto-reconstruction, ce qui permet à notre méthode de surpasser les méthodes précédentes d'auto-reconstruction mono-modale dans l'apprentissage auto-supervisé 3D. Plus précisément, elle surpasse la base de référence d'auto-reconstruction (Point-MAE) de 6,5 %, 7,0 % et 6,7 % dans trois variantes de ScanObjectNN avec le protocole d'évaluation Mlp-Linear. Le code est disponible à l'adresse https://github.com/aHapBean/Point-PQAE.
La détection d'objets à granularité fine dans des domaines visuels complexes, tels que l'évaluation des dommages aux véhicules, représente un défi considérable, même pour les experts humains, qui peinent à la résoudre de manière fiable. Bien que DiffusionDet ait fait progresser l'état de l'art grâce à la diffusion conditionnelle de débruitage, ses performances restent limitées par le conditionnement des caractéristiques locales dans des scénarios dépendants du contexte. Nous abordons cette limitation fondamentale en introduisant la Fusion Contextuelle (Context-Aware Fusion, CAF), qui exploite des mécanismes d'attention croisée pour intégrer directement le contexte global de la scène avec les caractéristiques locales des propositions. Le contexte global est généré à l'aide d'un encodeur dédié distinct qui capture des informations environnementales complètes, permettant à chaque proposition d'objet de s'appuyer sur une compréhension au niveau de la scène. Notre cadre améliore significativement le paradigme de détection générative en permettant à chaque proposition d'objet de prendre en compte des informations environnementales exhaustives. Les résultats expérimentaux démontrent une amélioration par rapport aux modèles de pointe sur le benchmark CarDD, établissant de nouveaux référentiels de performance pour la détection d'objets contextuelle dans des domaines à granularité fine.