papers.description
Nous proposons FlowRL : une méthode d'alignement de la distribution complète des récompenses par équilibrage des flux, plutôt que la maximisation des récompenses dans l'apprentissage par renforcement (RL) des grands modèles de langage (LLM). Les modèles récents de raisonnement avancé adoptent des méthodes de maximisation des récompenses (par exemple, PPO et GRPO), qui ont tendance à sur-optimiser les signaux de récompense dominants tout en négligeant les chemins de raisonnement moins fréquents mais valides, réduisant ainsi la diversité. En revanche, nous transformons les récompenses scalaires en une distribution cible normalisée à l'aide d'une fonction de partition apprenable, puis minimisons la divergence KL inverse entre la politique et la distribution cible. Nous implémentons cette idée sous la forme d'une méthode d'optimisation par équilibrage des flux qui favorise une exploration diversifiée et des trajectoires de raisonnement généralisables. Nous menons des expériences sur des tâches de raisonnement mathématique et de code : FlowRL obtient une amélioration moyenne significative de 10,0 % par rapport à GRPO et de 5,1 % par rapport à PPO sur les benchmarks mathématiques, et performe systématiquement mieux sur les tâches de raisonnement de code. Ces résultats mettent en évidence l'alignement de la distribution des récompenses comme une étape clé vers une exploration efficace et un raisonnement diversifié dans l'apprentissage par renforcement des LLM.
Les modèles vision-langage (VLMs) ont permis le développement d'agents d'utilisation informatique (CUAs) capables d'opérer de manière autonome sur des interfaces graphiques, démontrant un potentiel considérable. Cependant, les progrès sont limités par le manque de données d'utilisation informatique à grande échelle et de modèles de base open-source. Dans ce travail, nous présentons ScaleCUA, une étape vers la mise à l'échelle des CUAs open-source. Il propose un jeu de données à grande échelle couvrant 6 systèmes d'exploitation et 3 domaines de tâches, construit via un pipeline en boucle fermée associant des agents automatisés à des experts humains. Entraîné sur ces données élargies, ScaleCUA peut fonctionner de manière fluide sur différentes plateformes. Plus précisément, il montre des gains significatifs par rapport aux modèles de référence (+26,6 sur WebArena-Lite-v2, +10,7 sur ScreenSpot-Pro) et établit de nouveaux records (94,4 % sur MMBench-GUI L1-Hard, 60,6 % sur OSWorld-G, 47,4 % sur WebArena-Lite-v2). Ces résultats soulignent la puissance de la mise à l'échelle basée sur les données pour les agents d'utilisation informatique à usage général. Nous publierons les données, modèles et codes pour faire avancer la recherche future : https://github.com/OpenGVLab/ScaleCUA.
Les grands modèles de langage (LLM) sont de plus en plus appliqués dans divers scénarios réels, chacun étant régit par des spécifications comportementales et de sécurité (spec) sur mesure, adaptées par les utilisateurs ou les organisations. Ces spécifications, catégorisées en spec de sécurité et spec comportementales, varient selon les scénarios et évoluent avec les préférences et les exigences changeantes. Nous formalisons ce défi comme un alignement des spécifications, en nous concentrant sur la capacité des LLM à suivre des spec dynamiques et spécifiques à un scénario, à la fois du point de vue comportemental et de sécurité. Pour relever ce défi, nous proposons Align3, une méthode légère qui utilise la délibération en temps de test (TTD) avec une réflexion et une révision hiérarchiques pour raisonner sur les limites des spécifications. Nous présentons également SpecBench, un benchmark unifié pour mesurer l'alignement des spécifications, couvrant 5 scénarios, 103 spec et 1 500 prompts. Les expériences sur 15 modèles de raisonnement et 18 modèles d'instruction avec plusieurs méthodes TTD, y compris Self-Refine, TPO et MoreThink, donnent trois résultats clés : (i) la délibération en temps de test améliore l'alignement des spécifications ; (ii) Align3 repousse la frontière du compromis entre sécurité et utilité avec un surcoût minimal ; (iii) SpecBench révèle efficacement les écarts d'alignement. Ces résultats mettent en lumière le potentiel de la délibération en temps de test comme stratégie efficace pour raisonner sur les limites des spécifications dans le monde réel.
Nous présentons AToken, le premier tokeniseur visuel unifié qui atteint à la fois une reconstruction haute fidélité et une compréhension sémantique pour les images, les vidéos et les actifs 3D. Contrairement aux tokeniseurs existants qui se spécialisent soit dans la reconstruction, soit dans la compréhension pour des modalités uniques, AToken encode ces entrées visuelles variées dans un espace latent 4D partagé, unifiant ainsi les deux tâches et les modalités dans un seul cadre. Plus précisément, nous introduisons une architecture de transformeur pur avec des embeddings de position rotatifs 4D pour traiter des entrées visuelles de résolutions et de durées temporelles arbitraires. Pour garantir un entraînement stable, nous proposons un objectif d'entraînement sans adversaire qui combine des pertes perceptuelles et de matrice de Gram, atteignant une qualité de reconstruction de pointe. En utilisant un curriculum d'entraînement progressif, AToken s'étend progressivement des images uniques aux vidéos et aux actifs 3D, et prend en charge à la fois des tokens latents continus et discrets. AToken atteint un rFID de 0,21 avec une précision de 82,2 % sur ImageNet pour les images, un rFVD de 3,01 avec un taux de récupération de 32,6 % sur MSRVTT pour les vidéos, et un PSNR de 28,19 avec une précision de classification de 90,9 % pour les actifs 3D. Dans les applications en aval, AToken permet à la fois des tâches de génération visuelle (par exemple, génération d'images avec des tokens continus et discrets, génération de texte-à-vidéo, synthèse d'image-à-3D) et des tâches de compréhension (par exemple, LLMs multimodaux), obtenant des performances compétitives sur tous les benchmarks. Ces résultats éclairent les systèmes d'IA multimodaux de nouvelle génération construits sur une tokenisation visuelle unifiée.
Les grands modèles de langage (LLMs) sont de plus en plus entraînés avec un apprentissage par renforcement à partir de récompenses vérifiables (RLVR), mais leur déploiement en conditions réelles exige des modèles capables de s'améliorer sans étiquettes ni juges externes. Les méthodes existantes sans étiquettes, telles que la minimisation de la confiance, l'auto-cohérence ou les objectifs de vote majoritaire, stabilisent l'apprentissage mais réduisent progressivement l'exploration, provoquant un effondrement de l'entropie : les générations deviennent plus courtes, moins diversifiées et fragiles. Contrairement aux approches précédentes comme l'apprentissage par renforcement en temps de test (TTRL), qui adaptent principalement les modèles au jeu de données non étiqueté immédiat, notre objectif est plus large : permettre des améliorations générales sans sacrifier la capacité d'exploration inhérente du modèle et sa capacité de généralisation, c'est-à-dire évoluer. Nous formalisons ce problème et proposons EVOL-RL (EVolution-Oriented and Label-free Reinforcement Learning), une règle simple qui associe stabilité et variation dans un cadre sans étiquettes. EVOL-RL maintient la réponse majoritaire comme une ancre stable (sélection) tout en ajoutant une récompense sensible à la nouveauté qui favorise les réponses dont le raisonnement diffère de ce qui a déjà été produit (variation), mesuré dans l'espace sémantique. Implémenté avec GRPO, EVOL-RL utilise également un clipping asymétrique pour préserver les signaux forts et un régularisateur d'entropie pour maintenir la recherche. Cette conception de sélection par majorité + variation par nouveauté prévient l'effondrement, maintient des chaînes de raisonnement plus longues et plus informatives, et améliore à la fois pass@1 et pass@n. EVOL-RL surpasse systématiquement la baseline TTRL basée uniquement sur le vote majoritaire ; par exemple, l'entraînement sur AIME24 sans étiquettes augmente le pass@1 de Qwen3-4B-Base sur AIME25 de 4,6 % avec TTRL à 16,4 % avec EVOL-RL, et le pass@16 de 18,5 % à 37,9 %. EVOL-RL non seulement prévient l'effondrement de la diversité, mais débloque également une meilleure généralisation entre domaines (par exemple, GPQA). De plus, nous démontrons qu'EVOL-RL améliore également les performances dans le cadre RLVR, soulignant son applicabilité étendue.
Les récents modèles de diffusion vidéo démontrent un fort potentiel dans les tâches d'intelligence spatiale grâce à leurs riches a priori latents sur le monde. Cependant, ce potentiel est entravé par leur contrôlabilité limitée et leur incohérence géométrique, créant un écart entre leurs solides a priori et leur utilisation pratique dans les tâches 3D/4D. Par conséquent, les approches actuelles reposent souvent sur un réentraînement ou un ajustement fin, ce qui risque de dégrader les connaissances pré-entraînées et entraîne des coûts de calcul élevés. Pour remédier à cela, nous proposons WorldForge, un cadre d'inférence sans entraînement composé de trois modules étroitement couplés. Le Raffinement Récursif Intra-Étape introduit un mécanisme de raffinement récursif pendant l'inférence, qui optimise de manière répétée les prédictions du réseau à chaque étape de débruitage pour permettre une injection précise de trajectoire. La Fusion Latente Guidée par Flux exploite la similarité du flux optique pour découpler le mouvement de l'apparence dans l'espace latent et injecter sélectivement des guidages de trajectoire dans les canaux liés au mouvement. Le Guidage Auto-Correctif à Double Voie compare les chemins de débruitage guidés et non guidés pour corriger de manière adaptative la dérive de trajectoire causée par des signaux structurels bruyants ou mal alignés. Ensemble, ces composants injectent un guidage fin et aligné sur la trajectoire sans entraînement, permettant à la fois un contrôle précis du mouvement et une génération de contenu photoréaliste. Des expériences approfondies sur divers benchmarks valident la supériorité de notre méthode en termes de réalisme, de cohérence de trajectoire et de fidélité visuelle. Ce travail introduit un nouveau paradigme plug-and-play pour la synthèse vidéo contrôlable, offrant une nouvelle perspective sur l'exploitation des a priori génératifs pour l'intelligence spatiale.
La recherche s'est imposée comme une infrastructure centrale pour les agents basés sur LLM (modèles de langage de grande taille) et est largement considérée comme essentielle sur la voie d'une intelligence plus générale. La finance constitue un terrain d'essai particulièrement exigeant : les analystes effectuent régulièrement des recherches complexes et multi-étapes sur des données sensibles au temps et spécifiques au domaine, ce qui en fait un cadre idéal pour évaluer à la fois la maîtrise de la recherche et le raisonnement ancré dans la connaissance. Pourtant, aucun ensemble de données financières ouvert existant n'évalue la capacité de recherche de données des agents de bout en bout, principalement parce que la construction de tâches réalistes et complexes nécessite une expertise financière approfondie et que les données sensibles au temps sont difficiles à évaluer. Nous présentons FinSearchComp, le premier benchmark open-source complet pour la recherche et le raisonnement financiers réalistes et ouverts. FinSearchComp comprend trois tâches — Récupération de données sensibles au temps, Consultation historique simple et Investigation historique complexe — qui reproduisent fidèlement les workflows des analystes financiers dans le monde réel. Pour garantir la difficulté et la fiabilité, nous avons mobilisé 70 experts financiers professionnels pour l'annotation et mis en place un pipeline rigoureux d'assurance qualité en plusieurs étapes. Le benchmark inclut 635 questions couvrant les marchés mondiaux et ceux de la Grande Chine, et nous évaluons 21 modèles (produits) sur celui-ci. Grok 4 (web) domine le sous-ensemble mondial, approchant une précision de niveau expert. DouBao (web) mène sur le sous-ensemble de la Grande Chine. Les analyses expérimentales montrent que doter les agents de recherche web et de plugins financiers améliore considérablement les résultats sur FinSearchComp, et que l'origine géographique des modèles et outils influence significativement la performance. En s'alignant sur les tâches réalistes des analystes et en fournissant une évaluation de bout en bout, FinSearchComp offre un banc d'essai professionnel et de haute difficulté pour la recherche et le raisonnement financiers complexes.
Des études récentes ont démontré l'importance des représentations visuelles de haute qualité dans la génération d'images et ont mis en lumière les limites des modèles génératifs dans la compréhension d'images. En tant que paradigme génératif initialement conçu pour le langage naturel, les modèles autorégressifs rencontrent des défis similaires. Dans ce travail, nous présentons la première investigation systématique des mécanismes d'application du paradigme de prédiction du prochain jeton au domaine visuel. Nous identifions trois propriétés clés qui entravent l'apprentissage de la sémantique visuelle de haut niveau : la dépendance locale et conditionnelle, l'incohérence sémantique inter-étapes et la déficience d'invariance spatiale. Nous montrons que ces problèmes peuvent être efficacement résolus en introduisant des objectifs auto-supervisés pendant l'entraînement, conduisant à un nouveau cadre d'entraînement, l'Entraînement Auto-guidé pour les Modèles AutoRegressifs (ST-AR). Sans recourir à des modèles de représentation pré-entraînés, ST-AR améliore significativement la capacité de compréhension d'images des modèles autorégressifs et conduit à une qualité de génération améliorée. Plus précisément, ST-AR apporte une amélioration d'environ 42 % du FID pour LlamaGen-L et de 49 % du FID pour LlamaGen-XL, tout en conservant la même stratégie d'échantillonnage.
Cet article présente RynnVLA-001, un modèle vision-langue-action (VLA) construit sur un pré-entraînement génératif à grande échelle à partir de démonstrations humaines. Nous proposons une méthodologie de pré-entraînement en deux étapes novatrice. La première étape, le Pré-entraînement Génératif sur Vidéos Egocentriques, entraîne un modèle Image-à-Vidéo sur 12 millions de vidéos de manipulation egocentriques pour prédire les images futures conditionnées par une image initiale et une instruction langagière. La deuxième étape, la Modélisation Consciente des Trajectoires Centrées sur l'Humain, étend cette approche en prédisant conjointement les trajectoires futures des points clés, établissant ainsi un pont efficace entre la prédiction d'images visuelles et la prédiction d'actions. De plus, pour améliorer la représentation des actions, nous proposons ActionVAE, un autoencodeur variationnel qui compresse des séquences d'actions en des embeddings latents compacts, réduisant ainsi la complexité de l'espace de sortie du modèle VLA. Lorsqu'il est affiné sur les mêmes ensembles de données robotiques en aval, RynnVLA-001 obtient des performances supérieures aux meilleures méthodes de référence, démontrant que la stratégie de pré-entraînement proposée offre une initialisation plus efficace pour les modèles VLA.
Les méthodes actuelles d'édition d'images basées sur des instructions (IBIE) rencontrent des difficultés face à des tâches d'édition complexes, car les types d'édition et le nombre d'échantillons des jeux de données existants sont limités. De plus, la construction traditionnelle des jeux de données inclut souvent des paires image-légende bruitées, ce qui peut introduire des biais et limiter les capacités des modèles dans des scénarios d'édition complexes. Pour surmonter ces limitations, nous présentons MultiEdit, un jeu de données complet comprenant plus de 107 000 échantillons d'édition d'images de haute qualité. Il englobe 6 tâches d'édition difficiles à travers une collection variée de 18 types d'édition non liés au transfert de style et 38 opérations de transfert de style, couvrant un spectre allant du transfert de style sophistiqué à des opérations sémantiques complexes comme l'édition de référence de personnes et l'édition de texte dans l'image. Nous utilisons un pipeline innovant de construction de jeux de données qui exploite deux modèles de langage multimodaux (MLLMs) pour générer des instructions d'édition adaptées visuellement et produire des images éditées de haute fidélité, respectivement. Des expériences approfondies démontrent que l'affinement de modèles open-source de base avec notre ensemble MultiEdit-Train améliore considérablement les performances des modèles sur des tâches d'édition sophistiquées dans notre benchmark MultiEdit-Test proposé, tout en préservant efficacement leurs capacités sur le benchmark d'édition standard. Nous croyons que MultiEdit constitue une ressource précieuse pour faire progresser la recherche vers des capacités IBIE plus diversifiées et plus exigeantes. Notre jeu de données est disponible à l'adresse suivante : https://huggingface.co/datasets/inclusionAI/MultiEdit.
Le repérage spatio-temporel dans les vidéos (STVG) vise à localiser le tube spatio-temporel d'une vidéo, tel que spécifié par la requête textuelle en entrée. Dans cet article, nous utilisons des modèles de langage multimodaux de grande taille (MLLMs) pour explorer une solution zero-shot dans le cadre du STVG. Nous révélons deux insights clés concernant les MLLMs : (1) les MLLMs ont tendance à attribuer dynamiquement des tokens spéciaux, appelés tokens de repérage, pour ancrer la requête textuelle ; et (2) les MLLMs souffrent souvent d'un repérage sous-optimal en raison de leur incapacité à intégrer pleinement les indices de la requête textuelle (par exemple, les attributs, les actions) pour l'inférence. Sur la base de ces insights, nous proposons un framework zero-shot basé sur les MLLMs pour le STVG, qui inclut des stratégies novatrices de mise en évidence spatio-temporelle décomposée (DSTH) et d'assemblage temporel augmenté (TAS) pour libérer la capacité de raisonnement des MLLMs. La stratégie DSTH commence par découpler la requête originale en sous-requêtes d'attribut et d'action pour interroger l'existence de la cible à la fois spatialement et temporellement. Elle utilise ensuite un module de ré-attention guidée par logit (LRA) pour apprendre des variables latentes en tant qu'invites spatiales et temporelles, en régularisant les prédictions de tokens pour chaque sous-requête. Ces invites mettent en évidence les indices d'attribut et d'action, respectivement, dirigeant l'attention du modèle vers les régions visuelles fiables liées à l'espace et au temps. De plus, comme le repérage spatial par la sous-requête d'attribut doit être temporellement cohérent, nous introduisons la stratégie TAS pour assembler les prédictions en utilisant les images originales de la vidéo et les images temporellement augmentées comme entrées pour améliorer la cohérence temporelle. Nous évaluons notre méthode sur divers MLLMs et montrons qu'elle surpasse les méthodes SOTA sur trois benchmarks courants de STVG. Le code sera disponible à l'adresse suivante : https://github.com/zaiquanyang/LLaVA_Next_STVG.
L'imagerie par ultrasons est devenue la modalité d'imagerie privilégiée pour le dépistage précoce du cancer en raison de ses avantages, notamment l'absence de rayonnement ionisant, son faible coût et ses capacités d'imagerie en temps réel. Cependant, le diagnostic conventionnel par ultrasons repose fortement sur l'expertise des médecins, ce qui pose des défis liés à une subjectivité élevée et à une faible efficacité diagnostique. Les modèles vision-langage (VLMs) offrent des solutions prometteuses à ce problème, mais les modèles généralistes existants montrent une connaissance limitée dans les tâches médicales liées aux ultrasons, avec une généralisation médiocre dans la reconnaissance des lésions multi-organes et une faible efficacité dans les diagnostics multi-tâches. Pour répondre à ces limitations, nous proposons EchoVLM, un modèle vision-langage spécifiquement conçu pour l'imagerie médicale par ultrasons. Le modèle utilise une architecture de Mixture of Experts (MoE) entraînée sur des données couvrant sept régions anatomiques. Cette conception permet au modèle d'exécuter plusieurs tâches, notamment la génération de rapports d'ultrasons, le diagnostic et la réponse visuelle à des questions (VQA). Les résultats expérimentaux ont montré qu'EchoVLM a obtenu des améliorations significatives de 10,15 et 4,77 points respectivement dans les scores BLEU-1 et ROUGE-1 par rapport à Qwen2-VL dans la tâche de génération de rapports d'ultrasons. Ces résultats suggèrent qu'EchoVLM possède un potentiel substantiel pour améliorer la précision diagnostique en imagerie par ultrasons, offrant ainsi une solution technique viable pour les futures applications cliniques. Le code source et les poids du modèle sont disponibles à l'adresse https://github.com/Asunatan/EchoVLM.
La détection de changements à partir d'images de télédétection à haute résolution constitue une pierre angulaire des applications d'observation de la Terre, mais son efficacité est souvent compromise par deux défis majeurs. Premièrement, les fausses alertes sont fréquentes, car les modèles interprètent à tort les variations radiométriques dues à des décalages temporels (par exemple, l'éclairage, la saison) comme des changements réels. Deuxièmement, un écart sémantique non négligeable entre les caractéristiques profondes et abstraites et les caractéristiques superficielles riches en détails tend à entraver leur fusion efficace, aboutissant à des limites mal définies. Pour aller plus loin dans la résolution de ces problèmes, nous proposons le Frequency-Spatial Synergistic Gated Network (FSG-Net), un nouveau paradigme visant à dissocier systématiquement les changements sémantiques des variations parasites. Plus précisément, FSG-Net opère d'abord dans le domaine fréquentiel, où un Discrepancy-Aware Wavelet Interaction Module (DAWIM) atténue de manière adaptative les pseudo-changements en traitant de manière discriminante les différentes composantes fréquentielles. Ensuite, les caractéristiques raffinées sont améliorées dans le domaine spatial par un Synergistic Temporal-Spatial Attention Module (STSAM), qui amplifie la saillance des régions de changement réel. Pour enfin combler l'écart sémantique, une Lightweight Gated Fusion Unit (LGFU) exploite la sémantique de haut niveau pour sélectionner et intégrer de manière sélective les détails cruciaux des couches superficielles. Des expériences approfondies sur les benchmarks CDD, GZ-CD et LEVIR-CD valident la supériorité de FSG-Net, établissant un nouvel état de l'art avec des scores F1 de 94,16 %, 89,51 % et 91,27 %, respectivement. Le code sera disponible à l'adresse https://github.com/zxXie-Air/FSG-Net après une éventuelle publication.