papers.description
Nous proposons QeRL, un cadre d'apprentissage par renforcement (Reinforcement Learning, RL) optimisé par quantification pour les grands modèles de langage (Large Language Models, LLMs). Bien que le RL soit essentiel pour les capacités de raisonnement des LLMs, il est gourmand en ressources, nécessitant une mémoire GPU importante et des durées de déploiement longues. QeRL résout ces problèmes en combinant la quantification NVFP4 avec l'adaptation de bas rang (Low-Rank Adaptation, LoRA), accélérant ainsi la phase de déploiement du RL tout en réduisant la surcharge mémoire. Au-delà de l'efficacité, nos résultats montrent que le bruit de quantification augmente l'entropie de la politique, améliorant l'exploration et permettant la découverte de meilleures stratégies pendant le RL. Pour optimiser davantage l'exploration, QeRL introduit un mécanisme de bruit de quantification adaptatif (Adaptive Quantization Noise, AQN), qui ajuste dynamiquement le bruit pendant l'entraînement. Les expériences démontrent que QeRL offre une accélération de plus de 1,5 fois lors de la phase de déploiement. De plus, il s'agit du premier cadre à permettre l'entraînement par RL d'un LLM de 32B sur un seul GPU H100 80GB, tout en offrant des accélérations globales pour l'entraînement RL. Il atteint également une croissance plus rapide des récompenses et une précision finale plus élevée que LoRA 16 bits et QLoRA, tout en égalant les performances du réglage fin avec tous les paramètres sur des benchmarks mathématiques tels que GSM8K (90,8 %) et MATH 500 (77,4 %) pour le modèle 7B. Ces résultats établissent QeRL comme un cadre efficace et efficient pour l'entraînement par RL dans les LLMs.
La modélisation générative latente, où un autoencodeur pré-entraîné transforme les pixels en un espace latent pour le processus de diffusion, est devenue la stratégie standard pour les Transformers de Diffusion (DiT) ; cependant, le composant autoencodeur a peu évolué. La plupart des DiT continuent de s'appuyer sur l'encodeur VAE original, ce qui introduit plusieurs limitations : des architectures obsolètes qui compromettent la simplicité structurelle, des espaces latents de faible dimension qui restreignent la capacité d'information, et des représentations faibles résultant d'un entraînement basé uniquement sur la reconstruction, limitant finalement la qualité générative. Dans ce travail, nous explorons le remplacement du VAE par des encodeurs de représentation pré-entraînés (par exemple, DINO, SigLIP, MAE) associés à des décodeurs entraînés, formant ce que nous appelons des Autoencodeurs de Représentation (RAE). Ces modèles offrent à la fois des reconstructions de haute qualité et des espaces latents sémantiquement riches, tout en permettant une architecture basée sur des transformers évolutive. Comme ces espaces latents sont généralement de haute dimension, un défi clé est de permettre aux transformers de diffusion d'y opérer efficacement. Nous analysons les sources de cette difficulté, proposons des solutions théoriquement motivées et les validons empiriquement. Notre approche permet une convergence plus rapide sans pertes d'alignement de représentation auxiliaires. En utilisant une variante de DiT équipée d'une tête DDT légère et large, nous obtenons des résultats solides en génération d'images sur ImageNet : 1,51 FID à 256x256 (sans guidage) et 1,13 à la fois à 256x256 et 512x512 (avec guidage). RAE offre des avantages clairs et devrait devenir le nouveau standard pour l'entraînement des transformers de diffusion.
Les modèles autorégressifs (AR) restent la norme pour la génération de langage naturel, mais ils souffrent toujours d'une latence élevée en raison d'un décodage strictement séquentiel. Les approches récentes inspirées de la diffusion, telles que LlaDA et Dream, atténuent ce problème en générant en parallèle, mais elles présentent deux limitations principales : la perte d'information, car les distributions prédictives pour les tokens non finalisés sont abandonnées à chaque étape, et l'engagement prématuré, où des décisions locales sont prises sans coordination globale suffisante. Nous introduisons le **Latent Refinement Decoding (LRD)**, un cadre en deux étapes comprenant un **Latent Refinement** et une **Boucle de Rétroaction Prédictive**. La première étape maintient les positions masquées comme des mélanges distributionnels de tokens prédits et de l'embedding de masque, permettant au modèle d'établir des croyances plus cohérentes à l'échelle globale. La seconde étape finalise progressivement les tokens confiants tout en conservant les incertains pour une rétroaction itérative. La dynamique de la divergence de KL fournit un critère fiable et fondé pour la convergence et l'arrêt précoce. Les expériences menées sur des tâches de codage (HumanEval +6,3, MBPP +2,6) et de raisonnement (GSM8K +2,9, MATH500 +3,8) montrent que LRD améliore la précision tout en offrant des accélérations allant jusqu'à 10,6x, en faisant une alternative robuste et polyvalente pour la génération parallèle de séquences.
Les récents progrès dans les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré un potentiel considérable dans la compréhension vidéo. Cependant, les benchmarks existants ne parviennent pas à évaluer de manière exhaustive les capacités de raisonnement synergétique entre les modalités audio et visuelles, négligeant souvent l'une des modalités ou les intégrant de manière logiquement incohérente. Pour combler cette lacune, nous introduisons OmniVideoBench, un benchmark à grande échelle et rigoureusement conçu, dédié à l'évaluation de la compréhension audio-visuelle synergétique, avec un accent fort sur la complémentarité des modalités et la cohérence logique. Plus précisément, OmniVideoBench comprend 1000 paires question-réponse (QA) de haute qualité, chacune annotée avec des traces de raisonnement étape par étape, dérivées de 628 vidéos diverses allant de quelques secondes à 30 minutes, et vérifiées manuellement pour garantir une exactitude et une unicité complètes. De plus, OmniVideoBench englobe 13 types de questions soigneusement conçus, couvrant le raisonnement temporel, la localisation spatiale, le comptage, l'inférence causale, la synthèse, et au-delà, capturant ainsi les défis essentiels de la compréhension vidéo. L'évaluation de plusieurs MLLMs sur OmniVideoBench révèle un écart marqué entre les performances des modèles et le raisonnement humain, les modèles open-source étant nettement en retard par rapport à leurs homologues closed-source, soulignant la difficulté inhérente d'un véritable raisonnement audio-visuel. Nous publierons OmniVideoBench pour favoriser le développement de MLLMs dotés de capacités de raisonnement plus fortes et plus généralisables.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les politiques optimisées avec une vérification binaire ont tendance à négliger une exploration potentiellement précieuse dans la trajectoire de raisonnement. Compte tenu du coût élevé d'annotation des modèles de récompense de processus de référence (PRM), les travaux récents tentent d'utiliser des signaux auxiliaires pour façonner les récompenses des jetons de processus, impliquant l'entropie et la vraisemblance collectées à partir de l'espace des logits. Dans ce travail, nous proposons une nouvelle perspective sur le façonnage du RLVR avec des récompenses de flux dérivées de l'espace latent, et introduisons RLFR, où les champs de flux des latents du modèle sont construits à partir de données de haute qualité hors politique et de données d'échantillonnage par rejet en politique, et où les écarts de vitesse des latents de politique au sein de ces champs sont quantifiés pour servir de signal de récompense. RLFR démontre d'abord qu'un champ de flux bien établi peut constituer un environnement solide pour la collecte de signaux de récompense, mettant en évidence que l'espace latent expressif est largement sous-exploité. De plus, RLFR est capable de compresser toute donnée experte hors politique comme référence pour constituer des signaux de récompense, et nous montrons que la dépendance contextuelle efficace compressée dans les états cachés est utilisée, plutôt que la dénotation au niveau des jetons individuels pour la compréhension du contexte. Les expériences sur des benchmarks de raisonnement linguistique et multimodal démontrent la fiabilité des récompenses de flux, et suggèrent un paradigme prometteur pour le façonnage des récompenses avec des signaux auxiliaires.
Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait fait progresser les capacités de raisonnement des grands modèles vision-langage (LVLMs), la plupart des méthodes existantes en raisonnement multimodal négligent le rôle crucial de la perception visuelle dans le processus d'optimisation du RLVR. Dans cet article, nous entreprenons une exploration pionnière du RLVR multimodal à travers la perspective novatrice de la perception des tokens, qui mesure la dépendance visuelle de chaque token généré. Grâce à une analyse granulaire des processus de chaîne de pensée (CoT), nous dévoilons deux insights clés : premièrement, la perception des tokens dans une trajectoire de déploiement est distribuée de manière éparse, où seule une petite fraction des tokens présente une forte dépendance visuelle pour un raisonnement ancré visuellement ; deuxièmement, différentes trajectoires montrent une divergence significative dans leur dépendance visuelle globale. Sur la base de ces observations, nous proposons l'Optimisation de Politique à Perception Visuelle (VPPO), un nouvel algorithme de gradient de politique qui exploite explicitement la perception des tokens pour affiner le signal d'apprentissage. Plus précisément, VPPO y parvient grâce à un double mécanisme : il repondère l'avantage d'une trajectoire en fonction de sa dépendance visuelle globale et concentre les mises à jour de politique exclusivement sur les tokens perceptuellement pivots. Sur une suite complète de huit benchmarks de perception et de raisonnement, VPPO démontre des gains substantiels par rapport aux principaux modèles open-source optimisés par RL, avec une efficacité validée de manière cohérente sur des échelles de modèles de 7B et 32B. Nos résultats établissent non seulement une nouvelle perspective perceptuelle au niveau des tokens pour analyser le RLVR multimodal, mais présentent également une stratégie d'optimisation novatrice et efficace pour améliorer significativement les capacités de raisonnement multimodal des LVLMs.
La modélisation générale des SVG reste un défi en raison de la fragmentation des jeux de données, de la transférabilité limitée des méthodes entre les tâches et de la difficulté à gérer la complexité structurelle. Pour y répondre, nous exploitons les fortes capacités de transfert et de généralisation des modèles de langage multimodaux de grande taille (MLLMs) afin de réaliser une modélisation unifiée pour la compréhension, l'édition et la génération de SVG. Nous présentons la famille InternSVG, une suite intégrée de données, de références et de modèles. Au cœur de cette suite se trouve SAgoge, le jeu de données multimodal le plus vaste et le plus complet pour les tâches liées aux SVG, englobant à la fois des graphiques statiques et des animations dynamiques. Il couvre des icônes, des illustrations à longues séquences, des diagrammes scientifiques et des animations dynamiques, supportant des tâches de niveaux de difficulté variés et offrant des hiérarchies plus profondes avec des attributs plus riches par rapport aux jeux de données précédents. Sur la base de cette ressource, nous introduisons SArena, un benchmark complémentaire avec des définitions de tâches exhaustives et une évaluation standardisée qui s'aligne sur les domaines et le spectre de difficulté couverts par SAgoge. En nous appuyant sur ces fondations, nous proposons InternSVG, un MLLM unifié pour la compréhension, l'édition et la génération de SVG, doté de tokens spéciaux spécifiques aux SVG, d'une initialisation d'embedding basée sur des sous-mots et d'une stratégie d'entraînement en deux étapes qui progresse des SVG statiques courts aux illustrations à longues séquences et aux animations complexes. Cette formulation unifiée induit un transfert positif et améliore les performances globales. Les expériences sur SArena et les benchmarks antérieurs confirment qu'InternSVG obtient des gains substantiels et surpasse systématiquement les meilleures solutions ouvertes et propriétaires existantes.
Récemment, l'émergence de l'apprentissage par renforcement (RL) agentique a démontré que le RL pouvait également améliorer efficacement la capacité de raisonnement agentique des grands modèles de langage (LLMs), bien que les principes clés de conception et les meilleures pratiques restent flous. Dans ce travail, nous menons une investigation complète et systématique pour démystifier l'apprentissage par renforcement dans le raisonnement agentique à travers trois perspectives clés : les données, l'algorithme et le mode de raisonnement. Nous mettons en avant nos principales observations : (i) Remplacer les trajectoires synthétiques assemblées par des trajectoires réelles d'utilisation d'outils de bout en bout fournit une initialisation SFT bien plus robuste ; des ensembles de données diversifiés et conscients du modèle soutiennent l'exploration et améliorent significativement les performances du RL. (ii) Les techniques favorisant l'exploration sont cruciales pour le RL agentique, comme le clipping supérieur, le façonnage de récompenses sur de longues périodes, et le maintien d'une entropie de politique adéquate, ce qui peut améliorer l'efficacité de l'entraînement. (iii) Une stratégie délibérative avec moins d'appels d'outils surpasse les appels fréquents d'outils ou les raisonnements auto-référentiels verbeux, améliorant l'efficacité des outils et la précision finale. Ensemble, ces pratiques simples améliorent de manière constante le raisonnement agentique et l'efficacité de l'entraînement, obtenant des résultats solides sur des benchmarks difficiles avec des modèles plus petits, et établissant une base pratique pour les futures recherches en RL agentique. Au-delà de ces observations empiriques, nous contribuons également un ensemble de données SFT agentique de bout en bout de haute qualité ainsi qu'un ensemble de données RL de haute qualité, et démontrons l'efficacité de nos observations pour renforcer la capacité de raisonnement agentique des LLMs sur quatre benchmarks difficiles, incluant AIME2024/AIME2025, GPQA-Diamond, et LiveCodeBench-v6. Avec nos recettes, des modèles de 4B peuvent également atteindre des performances de raisonnement agentique supérieures par rapport à des modèles de 32B. Code et modèles : https://github.com/Gen-Verse/Open-AgentRL
Dans ce travail, nous proposons DiT360, un framework basé sur DiT qui effectue un entraînement hybride sur des données en perspective et panoramiques pour la génération d'images panoramiques. Concernant les problèmes de maintien de la fidélité géométrique et du photoréalisme dans la qualité de génération, nous attribuons la raison principale au manque de données panoramiques à grande échelle et de haute qualité provenant du monde réel. Cette perspective centrée sur les données diffère des méthodes antérieures qui se concentrent sur la conception des modèles. Fondamentalement, DiT360 comprend plusieurs modules clés pour la transformation inter-domaines et l'augmentation intra-domaine, appliqués à la fois au niveau de l'image pré-VAE et au niveau des tokens post-VAE. Au niveau de l'image, nous intégrons des connaissances inter-domaines grâce à un guidage par images en perspective et un raffinement panoramique, ce qui améliore la qualité perceptuelle tout en régularisant la diversité et le photoréalisme. Au niveau des tokens, une supervision hybride est appliquée à travers plusieurs modules, incluant un remplissage circulaire pour la continuité des bords, une perte de lacet pour la robustesse rotationnelle, et une perte cubique pour la prise en compte des distorsions. Des expériences approfondies sur les tâches de texte-à-panorama, d'inpainting et d'outpainting démontrent que notre méthode atteint une meilleure cohérence des bords et une fidélité d'image à travers onze métriques quantitatives. Notre code est disponible à l'adresse https://github.com/Insta360-Research-Team/DiT360.
Le sous-titrage audiovisuel vise à générer des descriptions sémantiquement riches avec un alignement temporel entre les événements visuels et auditifs, bénéficiant ainsi à la fois à la compréhension et à la génération vidéo. Dans cet article, nous présentons AVoCaDO, un puissant générateur de sous-titres audiovisuels piloté par l'orchestration temporelle entre les modalités audio et visuelles. Nous proposons un pipeline de post-formation en deux étapes : (1) AVoCaDO SFT, qui affine le modèle sur un nouvel ensemble de données de 107K sous-titres audiovisuels de haute qualité et temporellement alignés ; et (2) AVoCaDO GRPO, qui exploite des fonctions de récompense sur mesure pour améliorer davantage la cohérence temporelle et la précision des dialogues tout en régularisant la longueur des sous-titres et en réduisant l'effondrement. Les résultats expérimentaux montrent qu'AVoCaDO surpasse significativement les modèles open-source existants sur quatre benchmarks de sous-titrage audiovisuel, et obtient également des performances compétitives sur les benchmarks VDC et DREAM-1K dans des configurations visuelles uniquement.
Résoudre efficacement des problèmes du monde réel avec des LLM repose de plus en plus sur leur capacité à interagir avec des environnements web dynamiques et à acquérir de manière autonome des informations externes. Bien que des recherches récentes comme Search-R1 et WebDancer démontrent des performances solides dans la résolution de tâches web, elles s'appuient fortement sur des outils supplémentaires pour convertir l'environnement web interactif en contenu textuel statique. Cela contraste avec les comportements de navigation humaine, qui impliquent des interactions variées avec le navigateur, telles que le défilement, les clics et la saisie. Dans cet article, nous proposons BrowserAgent, un agent plus interactif qui résout des tâches complexes grâce à des actions de navigation inspirées de l'humain. BrowserAgent opère directement sur des pages web brutes via Playwright à travers un ensemble d'actions de navigateur prédéfinies. Nous adoptons un entraînement en deux étapes (Supervised Fine-Tuning (SFT) et Rejection Fine-Tuning (RFT)) pour améliorer les capacités de généralisation du modèle. Malgré l'utilisation de données d'entraînement nettement moins nombreuses que Search-R1, BrowserAgent obtient des résultats plus compétitifs sur différentes tâches Open-QA. De plus, nous introduisons un mécanisme de mémoire explicite pour stocker les conclusions clés à travers les étapes, renforçant ainsi les capacités de raisonnement du modèle pour les tâches à long terme. Notamment, BrowserAgent-7B peut réaliser une amélioration d'environ 20 % par rapport à Search-R1 sur des tâches de QA multi-sauts comme HotpotQA, 2Wiki et Bamboogle. Ces résultats indiquent que BrowserAgent peut servir de cadre plus avancé pour des agents web plus interactifs et évolutifs.
Les agents de modèles de langage de grande taille (LLM) montrent un grand potentiel pour des tâches complexes et multi-tours nécessitant l'utilisation d'outils, mais leur développement est souvent entravé par l'extrême rareté de données d'entraînement de haute qualité. L'affinage supervisé (SFT) sur des données synthétiques conduit à un surapprentissage, tandis que l'apprentissage par renforcement (RL) standard peine à surmonter un problème critique de démarrage à froid et d'instabilité lors de l'entraînement. Pour relever ces défis, nous introduisons l'**Environment Tuning**, un nouveau paradigme d'entraînement qui permet aux agents d'apprendre des comportements complexes directement à partir d'instances de problèmes sans dépendre de trajectoires expertes pré-collectées. L'Environment Tuning orchestre ce processus d'apprentissage à travers un curriculum structuré, une augmentation actionnable de l'environnement fournissant un retour correctif, et des récompenses de progression fines pour assurer une exploration stable et efficace. En utilisant seulement 400 instances de problèmes du benchmark Berkeley Function-Calling Leaderboard (BFCL), notre méthode atteint non seulement des performances compétitives en distribution par rapport à des bases de référence solides, mais démontre également une généralisation supérieure hors distribution, surmontant l'effondrement de performance courant aux approches basées sur le SFT. Notre travail représente un changement de paradigme, passant de l'affinage supervisé sur des trajectoires statiques à une exploration dynamique basée sur l'environnement, ouvrant la voie à l'entraînement d'agents plus robustes et efficaces en termes de données.
Les récentes avancées dans les workflows agentiques ont permis l'automatisation de tâches telles que la génération de documents professionnels. Cependant, elles se concentrent principalement sur la qualité textuelle, négligeant la structure visuelle et le style, qui sont cruciaux pour la lisibilité et l'engagement. Cet écart découle principalement de l'absence de modèles de récompense adaptés pour guider les workflows agentiques vers la production de documents dotés d'une meilleure qualité structurelle et stylistique. Pour remédier à cela, nous proposons DocReward, un modèle de récompense pour documents qui évalue les documents en fonction de leur structure et de leur style. Nous construisons un ensemble de données multi-domaines DocPair comprenant 117 000 paires de documents, couvrant 32 domaines et 267 types de documents, chacun incluant un document de haute et de faible professionnalisme avec un contenu identique mais une structure et un style différents. Cela permet au modèle d'évaluer le professionnalisme de manière exhaustive et indépendamment de la qualité textuelle. DocReward est entraîné en utilisant la perte de Bradley-Terry pour noter les documents, en pénalisant les prédictions qui contredisent le classement annoté. Pour évaluer la performance des modèles de récompense, nous créons un ensemble de données de test contenant des lots de documents classés par des évaluateurs humains bien éduqués. Notamment, DocReward surpasse GPT-4o et GPT-5 en précision de 30,6 et 19,4 points de pourcentage respectivement, démontrant sa supériorité par rapport aux modèles de référence. Dans une évaluation extrinsèque de la génération de documents, DocReward atteint un taux de réussite significativement plus élevé de 60,8 %, contre 37,7 % pour GPT-5, démontrant son utilité pour guider les agents de génération vers la production de documents préférés par les humains.
Bien que les agents LLM puissent planifier des tâches à plusieurs étapes, intervenir au stade de la planification - avant qu'aucune action ne soit exécutée - est souvent la manière la plus sûre de prévenir les dommages, car certains risques peuvent entraîner des conséquences graves une fois mis en œuvre. Cependant, les garde-fous existants opèrent principalement après l'exécution, ce qui est difficile à mettre à l'échelle et laisse peu de place à une supervision contrôlée au niveau du plan. Pour relever ce défi, nous mettons en lumière trois lacunes critiques dans la recherche actuelle : le déficit de données, le déficit de modèles et le déficit d'évaluation. Pour combler le déficit de données, nous introduisons AuraGen, un moteur contrôlable qui (i) synthétise des trajectoires bénignes, (ii) injecte des risques étiquetés par catégorie avec une difficulté calibrée, et (iii) filtre les sorties via un modèle de récompense automatisé, produisant ainsi des corpus vastes et fiables pour la sécurité pré-exécution. Pour combler le déficit de modèles de garde-fou, nous proposons un garde-fou fondamental, Safiron, combinant un adaptateur inter-planificateur avec un modèle de garde-fou compact. L'adaptateur unifie les différents formats d'entrée, tandis que Safiron signale les cas risqués, attribue les types de risques et génère des justifications ; entraîné en deux étapes avec une recette de données largement explorée, Safiron réalise un transfert robuste entre différents contextes. Pour combler le déficit d'évaluation, nous publions Pre-Exec Bench, un benchmark réaliste couvrant divers outils et trajectoires ramifiées, qui mesure la détection, la catégorisation fine, l'explication et la généralisation inter-planificateur dans des scénarios vérifiés par des humains. Des expériences approfondies démontrent des gains constants du garde-fou proposé par rapport à des bases de référence solides sur Pre-Exec Bench, et des ablations distillent davantage des pratiques actionnables, fournissant un modèle pratique pour des systèmes agentiques plus sûrs.
Ces dernières années, l’attention de la recherche sur les grands modèles de langage (LLMs) et les agents s’est progressivement déplacée de la démonstration de nouvelles capacités vers le raisonnement complexe et la résolution de tâches difficiles. Cependant, les évaluations existantes se concentrent principalement sur des concours de mathématiques ou de programmation, ou sur des tâches générales, tandis que les benchmarks académiques multi-domaines actuels manquent de profondeur en termes de raisonnement, laissant le domaine sans un benchmark rigoureux pour le raisonnement de haut niveau. Pour combler cette lacune, nous introduisons le benchmark Acadreason, conçu pour évaluer la capacité des LLMs et des agents à acquérir et à raisonner sur des connaissances académiques. Il se compose de 50 problèmes académiques annotés par des experts, répartis dans cinq domaines exigeant un raisonnement approfondi, notamment l’informatique, l’économie, le droit, les mathématiques et la philosophie. Toutes les questions sont issues de publications de premier plan ces dernières années et ont subi un processus rigoureux d’annotation et de contrôle qualité pour garantir qu’elles sont à la fois stimulantes et résolubles. Nous avons mené des évaluations systématiques de plus de 10 LLMs et agents grand public. Les résultats montrent que la plupart des LLMs ont obtenu moins de 20 points, avec même le GPT-5 de pointe atteignant seulement 16 points. Bien que les agents aient obtenu des scores plus élevés, aucun n’a dépassé 40 points. Cela met en évidence l’écart actuel de capacités entre les LLMs et les agents dans les tâches de recherche académique super-intelligentes et souligne les défis posés par Acadreason.
La résolution de problèmes mathématiques grâce à des langages vérifiables tels que Lean a eu un impact significatif sur les communautés des mathématiques et de l'informatique. Les modèles actuels de pointe sont souvent entraînés à l'aide d'un apprentissage par renforcement (RL) en ligne coûteux ou d'une itération experte. Cependant, ces approches reposent sur des ensembles de problèmes fixes, ce qui entraîne un entraînement inefficace et limite la capacité du modèle à aborder des problèmes complexes. Pour surmonter ces limitations, nous proposons GAR : Generative Adversarial Reinforcement learning, un cadre d'entraînement RL complet qui forme conjointement le compositeur de problèmes et le solveur dans une boucle antagoniste. GAR introduit un mécanisme implicite d'apprentissage curriculaire, qui aligne la difficulté des tâches avec l'évolution des capacités du prouveur. Cela améliore ainsi l'efficacité de l'entraînement et permet une meilleure performance dans la démonstration de théorèmes avancés. Les expériences montrent qu'avec l'entraînement GAR, Goedel-Prover-V2-8B et DeepSeek-Prover-V2-7B obtiennent une amélioration relative moyenne de 4,20 % en pass@32 sur le benchmark MiniF2F-Test, tandis que le pass@32 de DeepSeek-Prover-V2 sur ProofNet-Test passe de 22,58 % à 25,81 %. Au-delà de la démonstration formelle, GAR établit un paradigme RL général pour la co-évolution de la génération et de la résolution de problèmes dans des environnements vérifiables.
Le raisonnement mathématique constitue un indicateur primordial de l'intelligence des grands modèles de langage (LLM). Cependant, les LLM existants présentent des lacunes en matière de robustesse et de généralisation. Cet article attribue ces insuffisances au raisonnement fallacieux, c'est-à-dire à la production de réponses basées sur des caractéristiques superficielles. Pour relever ce défi, nous proposons le cadre AdaR afin de permettre un raisonnement adaptatif, dans lequel les modèles s'appuient sur une logique de résolution de problèmes pour produire des réponses. AdaR synthétise des requêtes logiquement équivalentes en faisant varier les valeurs des variables, et entraîne les modèles avec RLVR sur ces données pour pénaliser la logique fallacieuse tout en encourageant la logique adaptative. Pour améliorer la qualité des données, nous extrayons la logique de résolution de problèmes de la requête originale et générons la réponse correspondante par exécution de code, puis appliquons une vérification de cohérence. Les résultats expérimentaux démontrent qu'AdaR améliore la robustesse et la généralisation, obtenant une amélioration substantielle dans le raisonnement mathématique tout en maintenant une haute efficacité des données. L'analyse indique que la synthèse de données et RLVR fonctionnent de manière coordonnée pour permettre un raisonnement adaptatif dans les LLM. Les analyses ultérieures dégagent des insights clés sur l'effet des facteurs critiques et l'applicabilité pour instruire les LLM. Notre projet est disponible à l'adresse https://github.com/LaiZhejian/AdaR.
La complexité des Principes Comptables Généralement Reconnus (GAAP) et la structure hiérarchique des déclarations en langage eXtensible Business Reporting Language (XBRL) rendent l'audit financier de plus en plus difficile à automatiser et à vérifier. Bien que les grands modèles de langage (LLMs) aient démontré de solides capacités dans la compréhension de textes non structurés, leur aptitude à raisonner sur des documents financiers structurés, interdépendants et basés sur une taxonomie reste largement inexplorée. Pour combler cette lacune, nous introduisons FinAuditing, le premier benchmark aligné sur une taxonomie, conscient de la structure et multi-document, conçu pour évaluer les LLMs sur des tâches d'audit financier. Construit à partir de déclarations XBRL réelles conformes aux US-GAAP, FinAuditing définit trois sous-tâches complémentaires : FinSM pour la cohérence sémantique, FinRE pour la cohérence relationnelle, et FinMR pour la cohérence numérique, chacune ciblant un aspect distinct du raisonnement structuré en audit. Nous proposons en outre un cadre d'évaluation unifié intégrant des métriques de recherche, de classification et de raisonnement pour ces sous-tâches. Des expériences en zero-shot menées sur 13 LLMs de pointe révèlent que les modèles actuels présentent des performances incohérentes sur les dimensions sémantiques, relationnelles et mathématiques, avec des baisses de précision allant jusqu'à 60-90% lors du raisonnement sur des structures multi-document hiérarchiques. Nos résultats mettent en lumière les limitations systématiques des LLMs modernes dans le raisonnement financier ancré dans une taxonomie et établissent FinAuditing comme une base pour développer des systèmes d'intelligence financière fiables, conscients de la structure et alignés sur les régulations. Le jeu de données du benchmark est disponible sur Hugging Face.
Alors qu'une recherche significative s'est concentrée sur le développement de capacités de raisonnement incarné en utilisant des modèles vision-langage (VLMs) ou sur l'intégration de VLMs avancés dans des modèles vision-langage-action (VLA) pour le contrôle robotique de bout en bout, peu d'études abordent directement le fossé critique entre le raisonnement basé sur les VLMs en amont et l'apprentissage des politiques VLA en aval. Dans ce travail, nous faisons un premier pas vers le rapprochement du raisonnement incarné avec l'apprentissage des politiques VLA en introduisant Vlaser - un modèle vision-langage-action doté d'une capacité de raisonnement incarné synergique, qui est un modèle fondamental vision-langage conçu pour intégrer un raisonnement de haut niveau avec un contrôle de bas niveau pour les agents incarnés. Construit sur le jeu de données de haute qualité Vlaser-6M, Vlaser atteint des performances de pointe sur une gamme de benchmarks de raisonnement incarné - incluant le raisonnement spatial, l'ancrage incarné, les questions-réponses incarnées et la planification de tâches. De plus, nous examinons systématiquement comment différentes initialisations de VLMs affectent le fine-tuning supervisé des VLA, offrant de nouvelles perspectives pour atténuer le décalage de domaine entre les données de pré-entraînement à l'échelle d'Internet et les données spécifiques à l'apprentissage de politiques incarnées. Sur la base de ces insights, notre approche obtient des résultats de pointe sur le benchmark WidowX et des performances compétitives sur le benchmark Google Robot.
Les modèles multimodaux unifiés intègrent la capacité de raisonnement des grands modèles de langage avec la compréhension et la génération d'images, montrant un grand potentiel pour une intelligence multimodale avancée. Cependant, la communauté manque encore d'un benchmark rigoureux centré sur le raisonnement pour évaluer systématiquement l'alignement entre la compréhension et la génération, ainsi que leur potentiel de généralisation dans des tâches visuelles complexes. À cette fin, nous introduisons GIR-Bench, un benchmark complet qui évalue les modèles unifiés selon trois perspectives complémentaires. Premièrement, nous étudions la cohérence entre compréhension et génération (GIR-Bench-UGC), en examinant si les modèles peuvent exploiter de manière cohérente les mêmes connaissances dans les tâches de compréhension et de génération. Deuxièmement, nous investiguons si les modèles peuvent effectuer une génération d'images à partir de texte centrée sur le raisonnement, nécessitant l'application de contraintes logiques et de connaissances implicites pour produire un contenu visuel fidèle (GIR-Bench-T2I). Troisièmement, nous évaluons si les modèles peuvent gérer un raisonnement en plusieurs étapes dans l'édition d'images (GIR-Bench-Edit). Pour chaque sous-ensemble, nous concevons soigneusement des pipelines d'évaluation spécifiques adaptés à chaque tâche. Cela permet une évaluation fine et interprétable tout en atténuant les biais du paradigme MLLM-as-a-Judge prédominant. Des ablations approfondies sur divers modèles unifiés et systèmes de génération uniquement ont montré que : bien que les modèles unifiés soient plus aptes à réaliser des tâches visuelles pilotées par le raisonnement, ils présentent toujours un écart persistant entre compréhension et génération. Les données et le code pour GIR-Bench sont disponibles à l'adresse https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
Les modèles récents de génération de vidéo à partir de texte (Text-to-Video, T2V) ont démontré une capacité impressionnante à simuler visuellement la géométrie et les lois physiques du monde réel, suggérant leur potentiel en tant que modèles implicites du monde. Inspirés par cela, nous explorons la faisabilité d'exploiter l'a priori de génération de vidéo pour la planification de points de vue à partir de scènes 4D données, puisque les vidéos intègrent naturellement des scènes dynamiques avec des perspectives cohérentes. À cette fin, nous proposons un paradigme en deux étapes pour adapter les modèles T2V pré-entraînés à la prédiction de points de vue, de manière compatible. Premièrement, nous injectons la représentation de la scène 4D dans le modèle T2V pré-entraîné via une branche d'apprentissage adaptative, où la scène 4D est indépendante du point de vue et la vidéo générée conditionnellement intègre visuellement les perspectives. Ensuite, nous formulons l'extraction du point de vue comme un processus de débruitage des paramètres extrinsèques de la caméra guidé par des conditions hybrides. Plus précisément, une branche de diffusion des paramètres extrinsèques de la caméra est ajoutée au modèle T2V pré-entraîné, en prenant comme entrée la vidéo générée et la scène 4D. Les résultats expérimentaux montrent la supériorité de notre méthode par rapport aux approches existantes, et les études d'ablation valident l'efficacité de nos choix techniques clés. Dans une certaine mesure, ce travail prouve le potentiel des modèles de génération de vidéo pour l'interaction 4D dans le monde réel.
Les modèles de langage à grande échelle par diffusion (dLLM) émergent comme une alternative efficace aux modèles autorégressifs grâce à leur capacité à décoder plusieurs tokens en parallèle. Cependant, aligner les dLLM avec les préférences humaines ou les récompenses spécifiques à une tâche via l'apprentissage par renforcement (RL) est difficile car leur log-vraisemblance intraçable empêche l'application directe des méthodes classiques de gradient de politique. Bien que les travaux antérieurs utilisent des substituts comme la borne inférieure de l'évidence (ELBO), ces approximations unilatérales peuvent introduire un biais significatif dans le gradient de politique. Pour résoudre ce problème, nous proposons le Gradient de Politique Sandwich (SPG) qui exploite à la fois une borne supérieure et une borne inférieure de la vraie log-vraisemblance. Les expériences montrent que le SPG surpasse significativement les méthodes de référence basées sur l'ELBO ou l'estimation en une étape. Plus précisément, le SPG améliore la précision par rapport aux méthodes RL de pointe pour les dLLM de 3,6 % dans GSM8K, 2,6 % dans MATH500, 18,4 % dans Countdown et 27,0 % dans Sudoku.
Les grands modèles vision-langage (LVLMs), qui intègrent un encodeur visuel (VE) avec un grand modèle de langage, ont obtenu un succès remarquable dans diverses tâches. Cependant, des défis cruciaux subsistent dans les LVLMs, tels que l'hallucination d'objets, c'est-à-dire la génération de descriptions d'objets qui ne sont pas présents dans l'image d'entrée. Nous soutenons ici que les tokens visuels incertains au sein du VE constituent un facteur clé contribuant à l'hallucination d'objets. Notre analyse statistique a révélé qu'il existe des corrélations positives entre les tokens visuels présentant une incertitude épistémique élevée et l'occurrence d'hallucinations. De plus, nous démontrons théoriquement et empiriquement que les tokens visuels dans les premières couches du VE qui présentent de grandes déviations de représentation sous de petites perturbations adverses indiquent une incertitude épistémique élevée. Sur la base de ces observations, nous proposons une stratégie simple mais efficace pour atténuer l'hallucination d'objets en modifiant uniquement le VE. Notre méthode comprend une méthode proxy avec des perturbations adverses pour identifier efficacement les tokens visuels incertains et une méthode pour masquer ces tokens visuels incertains pendant le processus d'auto-attention dans les couches intermédiaires du VE, supprimant ainsi leur influence sur l'encodage visuel et atténuant les hallucinations. Des expériences approfondies montrent que notre méthode réduit significativement les hallucinations d'objets dans les LVLMs et peut fonctionner de manière synergique avec d'autres techniques existantes.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) et les modèles de vision et langage (VLMs) ont montré des progrès significatifs en matière de raisonnement mathématique. Cependant, ils rencontrent toujours un goulot d'étranglement critique face à des problèmes nécessitant une assistance visuelle, comme le tracé de lignes auxiliaires ou la représentation graphique de fonctions pour résoudre les problèmes. La plupart des LLMs et VLMs sont limités à des chaînes de raisonnement textuelles, tandis que les modèles unifiés multimodaux capables de générer des séquences entrelacées de texte et d'images manquent de la précision et de la contrôlabilité nécessaires pour de telles tâches. Pour remédier à cela, nous proposons CodePlot-CoT, un paradigme de chaîne de pensée piloté par le code pour "penser avec des images" en mathématiques. Notre approche exploite le VLM pour générer un raisonnement textuel ainsi que du code exécutable de tracé graphique, qui est ensuite rendu en images comme "pensée visuelle", afin de résoudre des problèmes mathématiques. Pour y parvenir, nous construisons d'abord Math-VR, le premier ensemble de données et benchmark bilingue à grande échelle pour les problèmes de mathématiques avec raisonnement visuel, comprenant 178 000 échantillons. Ensuite, pour créer des données d'entraînement de haute qualité, nous développons un convertisseur image-à-code de pointe spécialisé dans l'analyse de figures mathématiques complexes en codes. Enfin, en utilisant ces données d'entraînement, nous entraînons le modèle CodePlot-CoT pour résoudre des problèmes mathématiques. Les résultats expérimentaux montrent que notre modèle atteint une augmentation allant jusqu'à 21 % par rapport au modèle de base sur notre nouveau benchmark, validant pleinement l'efficacité de notre paradigme de raisonnement piloté par le code. Notre travail ouvre une nouvelle direction pour le raisonnement mathématique multimodal et fournit à la communauté le premier ensemble de données à grande échelle, un benchmark complet et une approche robuste pour de tels problèmes. Pour faciliter les recherches futures, nous mettons à disposition nos ensembles de données, codes et modèles pré-entraînés à l'adresse suivante : https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
Les agents de grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables. Cependant, les cadres multi-agents existants reposent souvent sur des rôles fixes ou un contrôle centralisé, limitant ainsi l'évolutivité et l'adaptabilité dans les tâches de raisonnement à long terme. Nous présentons SwarmSys, un cadre en boucle fermée pour le raisonnement multi-agent distribué, inspiré par l'intelligence en essaim. La coordination dans SwarmSys émerge à travers des interactions itératives entre trois rôles spécialisés : les Explorateurs, les Travailleurs et les Validateurs, qui parcourent continuellement les phases d'exploration, d'exploitation et de validation. Pour permettre une collaboration évolutive et adaptative, nous intégrons des profils d'agents et d'événements adaptatifs, un appariement probabiliste basé sur des embeddings, et un mécanisme de renforcement inspiré des phéromones, favorisant ainsi une allocation dynamique des tâches et une convergence auto-organisée sans supervision globale. Sur des tâches de raisonnement symbolique, de synthèse de recherche et de programmation scientifique, SwarmSys surpasse systématiquement les méthodes de référence, améliorant à la fois la précision et la stabilité du raisonnement. Ces résultats mettent en lumière la coordination inspirée par l'essaim comme un paradigme prometteur pour un raisonnement multi-agent évolutif, robuste et adaptatif, suggérant que la mise à l'échelle de la coordination pourrait rivaliser avec la mise à l'échelle des modèles pour faire progresser l'intelligence des LLM.
Nous proposons Stable Video Infinity (SVI), capable de générer des vidéos de longueur infinie avec une cohérence temporelle élevée, des transitions de scène plausibles et des histoires en streaming contrôlables. Alors que les méthodes existantes pour les longues vidéos tentent de réduire les erreurs accumulées via des techniques anti-dérive artisanales (par exemple, un planificateur de bruit modifié, l'ancrage de trames), elles restent limitées à une extrapolation basée sur une seule instruction, produisant des scènes homogènes avec des mouvements répétitifs. Nous identifions que le défi fondamental va au-delà de l'accumulation d'erreurs pour inclure une divergence critique entre l'hypothèse d'entraînement (l'accès à des données propres) et la réalité autoregressive au moment du test (le conditionnement sur des sorties auto-générées et sujettes à erreurs). Pour combler cet écart hypothétique, SVI intègre le Fine-Tuning par Recyclage d'Erreurs, un nouveau type d'entraînement efficace qui recycle les erreurs auto-générées du Transformer de Diffusion (DiT) en instructions de supervision, encourageant ainsi DiT à identifier et corriger activement ses propres erreurs. Cela est réalisé en injectant, collectant et stockant les erreurs via un recyclage en boucle fermée, apprenant autoregressivement à partir de retours d'erreurs injectées. Plus précisément, nous (i) injectons les erreurs historiques de DiT pour intervenir sur des entrées propres, simulant des trajectoires d'erreurs accumulées dans l'appariement de flux ; (ii) approximons efficacement les prédictions avec une intégration bidirectionnelle en une étape et calculons les erreurs avec des résidus ; (iii) stockons dynamiquement les erreurs dans une mémoire de rejeu à travers des pas de temps discrétisés, qui sont rééchantillonnés pour de nouvelles entrées. SVI est capable de prolonger des vidéos de quelques secondes à des durées infinies sans coût d'inférence supplémentaire, tout en restant compatible avec diverses conditions (par exemple, des flux audio, de squelette et de texte). Nous évaluons SVI sur trois benchmarks, incluant des configurations cohérentes, créatives et conditionnelles, vérifiant ainsi minutieusement sa polyvalence et son rôle de pointe.
L'évolutivité de l'apprentissage robotique est fondamentalement limitée par le coût et la main-d'œuvre importants associés à la collecte de données dans le monde réel. Bien que les données simulées offrent une alternative évolutive, elles échouent souvent à généraliser au monde réel en raison d'écarts significatifs dans l'apparence visuelle, les propriétés physiques et les interactions entre objets. Pour résoudre ce problème, nous proposons RoboSimGS, un nouveau cadre Real2Sim2Real qui transforme des images multi-vues du monde réel en environnements de simulation évolutifs, à haute fidélité et physiquement interactifs pour la manipulation robotique. Notre approche reconstruit les scènes en utilisant une représentation hybride : le 3D Gaussian Splatting (3DGS) capture l'apparence photoréaliste de l'environnement, tandis que les primitives de maillage pour les objets interactifs garantissent une simulation physique précise. De manière cruciale, nous innovons en utilisant un modèle de langage multi-modal de grande taille (MLLM) pour automatiser la création d'actifs articulés physiquement plausibles. Le MLLM analyse les données visuelles pour inférer non seulement les propriétés physiques (par exemple, densité, rigidité) mais aussi les structures cinématiques complexes (par exemple, charnières, rails coulissants) des objets. Nous démontrons que les politiques entraînées entièrement sur des données générées par RoboSimGS réussissent un transfert zéro-shot sim-to-real à travers un ensemble diversifié de tâches de manipulation dans le monde réel. De plus, les données de RoboSimGS améliorent significativement les performances et les capacités de généralisation des méthodes SOTA. Nos résultats valident RoboSimGS comme une solution puissante et évolutive pour combler l'écart sim-to-real.
Les modèles récents basés sur des transformateurs pour la reconstruction de maillage humain 3D (HMR) ont obtenu des performances solides, mais souffrent souvent d'un coût de calcul élevé et d'une complexité accrue en raison d'architectures profondes de transformateurs et de tokens redondants. Dans cet article, nous introduisons deux stratégies de fusion spécifiques à l'HMR : la fusion de couches sous contrainte d'erreur (Error-Constrained Layer Merging, ECLM) et la fusion de tokens guidée par masque (Mask-guided Token Merging, Mask-ToMe). L'ECLM fusionne sélectivement les couches de transformateurs qui ont un impact minimal sur l'erreur moyenne de position par articulation (Mean Per Joint Position Error, MPJPE), tandis que Mask-ToMe se concentre sur la fusion des tokens de fond qui contribuent peu à la prédiction finale. Pour atténuer la baisse potentielle de performance causée par la fusion, nous proposons un décodeur basé sur la diffusion qui intègre un contexte temporel et exploite des a priori de pose appris à partir de vastes ensembles de données de capture de mouvement. Les expériences menées sur plusieurs benchmarks montrent que notre méthode atteint une accélération allant jusqu'à 2,3x tout en améliorant légèrement les performances par rapport à la référence.
Si les grands modèles de langage (LLM) excellent dans la génération de code algorithmique, ils peinent dans le développement front-end, où la justesse est jugée sur les pixels rendus et les interactions. Nous présentons ReLook, un cadre d'apprentissage par renforcement agentique et ancré dans la vision, qui permet à un agent de boucler une robuste génération--diagnostic--affinement en invoquant un LLM multimodal (MLLM) comme outil. Pendant l'entraînement, l'agent utilise le MLLM en boucle à la fois comme critique visuel—évaluant le code avec des captures d'écran—et comme source de retours exploitables et ancrés dans la vision ; une règle stricte de zéro récompense pour les rendus invalides ancre la rendabilité et empêche le détournement de récompense. Pour éviter l'effondrement comportemental, nous introduisons l'Optimisation Forcée, une règle d'acceptation stricte qui n'admet que les révisions améliorantes, produisant des trajectoires monotones meilleures. À l'inférence, nous découplons le critique et exécutons un cycle d'auto-édition léger et sans critique, maintenant une latence comparable au décodage de base tout en conservant la plupart des gains. Sur trois benchmarks largement utilisés, ReLook surpasse systématiquement des bases de référence solides dans la génération de code front-end ancré dans la vision, mettant en évidence les bénéfices de la perception agentique, des récompenses visuelles et du découplage entraînement-inférence.
Un paradigme de fine-tuning des modèles de langage (LM) repose sur la création de grands ensembles de données d'entraînement, en supposant que la quantité et la diversité élevées permettront aux modèles de généraliser à de nouvelles tâches après l'entraînement. En pratique, la collecte de grands ensembles de données est inefficace, et leur entraînement est prohibitivement coûteux ; pire encore, il n'y a aucune garantie que le modèle résultant gérera des scénarios complexes ou généralisera mieux. De plus, les techniques existantes évaluent rarement si un échantillon d'entraînement fournit des informations nouvelles ou est redondant avec les connaissances déjà acquises par le modèle, entraînant des coûts inutiles. Dans ce travail, nous explorons une nouvelle méthode d'auto-amélioration au moment du test pour créer des LM agentiques plus efficaces et généralisables à la volée. L'algorithme proposé peut être résumé en trois étapes : (i) il identifie d'abord les échantillons avec lesquels le modèle a des difficultés (auto-conscience), (ii) génère ensuite des exemples similaires à partir des échantillons incertains détectés (auto-augmentation des données), et (iii) utilise ces nouveaux échantillons pour le fine-tuning au moment du test (auto-amélioration). Nous étudions deux variantes de cette approche : l'Auto-Amélioration au Moment du Test (TT-SI), où le même modèle génère des exemples d'entraînement supplémentaires à partir de ses propres cas incertains et apprend ensuite à partir d'eux, et contrastons cette approche avec la Distillation au Moment du Test (TT-D), où un modèle plus fort génère des exemples similaires pour les cas incertains, permettant à l'élève de s'adapter en utilisant une supervision distillée. Les évaluations empiriques sur différents benchmarks d'agents démontrent que TT-SI améliore les performances avec un gain de précision absolue de +5,48 % en moyenne sur tous les benchmarks et surpasse d'autres méthodes d'apprentissage standard, tout en utilisant 68 fois moins d'échantillons d'entraînement. Nos résultats mettent en lumière la promesse de TT-SI, démontrant le potentiel des algorithmes d'auto-amélioration au moment du test comme un nouveau paradigme pour construire des agents plus capables vers l'auto-évolution.
Les modèles de langage montrent souvent peu ou pas d'amélioration (c'est-à-dire une "saturation") lorsqu'ils sont entraînés via un réglage fin supervisé classique (SFT) sur des données similaires à celles de leur ensemble d'entraînement (par exemple, MATH). Nous introduisons une nouvelle stratégie de réglage fin, STAT, pour entraîner un tel modèle étudiant en utilisant la capacité de métacognition d'un modèle de langage plus puissant (LLM) comme enseignant. L'enseignant utilise l'ensemble de données de la tâche pour créer une liste de compétences nécessaires à la tâche, puis étiquette chaque point de données avec les compétences requises (Didolkar et al., 2024). En surveillant les réponses de l'étudiant, l'enseignant crée un profil des compétences manquantes pour l'étudiant, en suivant la fréquence à laquelle il n'a pas appliqué chaque compétence dans ses réponses. Nous utilisons cette idée pour construire un ensemble d'entraînement modifié de l'une des deux manières suivantes. Dans STAT-Sel, l'enseignant utilise un ensemble existant d'exemples d'entraînement mais les repondère de manière adaptative en fonction du profil des compétences manquantes. Dans STAT-Syn, l'enseignant synthétise des exemples supplémentaires impliquant les compétences manquantes. À travers des expériences approfondies sur les modèles Llama et Qwen, nos méthodes permettent des améliorations allant jusqu'à 7,5 % sur MATH, alors que le SFT ne fournit que des gains limités. De plus, STAT améliore les performances sur des benchmarks hors distribution (par exemple, AIME24/25, AMC23, etc.) en moyenne de 4,6 %. Fait crucial, nous constatons que STAT est complémentaire à l'apprentissage par renforcement via GRPO (Shao et al., 2024) : après que le modèle a été amélioré en utilisant STAT pour combler les lacunes en compétences, GRPO continue d'apporter des gains supplémentaires. Nous concluons qu'un entraînement adaptatif ciblé sur les compétences devrait améliorer de manière générale les pipelines d'entraînement actuels. Notre code est disponible à l'adresse suivante : https://github.com/princeton-pli/STAT.
Comment devrions-nous évaluer la robustesse des défenses des modèles de langage ? Les défenses actuelles contre les jailbreaks et les injections de prompts (qui visent respectivement à empêcher un attaquant d'extraire des connaissances nuisibles ou de déclencher à distance des actions malveillantes) sont généralement évaluées soit contre un ensemble statique de chaînes d'attaque nuisibles, soit contre des méthodes d'optimisation peu performantes qui n'ont pas été conçues en tenant compte de la défense. Nous soutenons que ce processus d'évaluation est défectueux. À la place, nous devrions évaluer les défenses contre des attaquants adaptatifs qui modifient explicitement leur stratégie d'attaque pour contrer la conception de la défense tout en consacrant des ressources considérables à optimiser leur objectif. En ajustant et en mettant à l'échelle de manière systématique des techniques d'optimisation générales — descente de gradient, apprentissage par renforcement, recherche aléatoire et exploration guidée par l'humain — nous contournons 12 défenses récentes (basées sur un ensemble diversifié de techniques) avec un taux de réussite des attaques supérieur à 90 % pour la plupart ; de manière significative, la majorité de ces défenses avaient initialement rapporté des taux de réussite d'attaque proches de zéro. Nous pensons que les travaux futurs sur les défenses doivent prendre en compte des attaques plus puissantes, comme celles que nous décrivons, afin de formuler des affirmations fiables et convaincantes concernant la robustesse.
La comparaison entre les performances humaines et celles des modèles offre une perspective précieuse pour comprendre les forces et les limites des modèles d'embedding, mettant en lumière leurs succès et leurs échecs à capturer le sens et les nuances. Cependant, de telles comparaisons sont rarement effectuées, car la performance humaine sur les tâches d'embedding est difficile à mesurer. Pour combler cette lacune, nous introduisons HUME : un cadre d'évaluation humaine pour les embeddings de texte. Bien que des cadres comme MTEB fournissent une évaluation large des modèles, ils manquent d'estimations fiables de la performance humaine, limitant ainsi l'interprétabilité des scores des modèles. Nous mesurons la performance humaine sur 16 ensembles de données MTEB couvrant des tâches de reranking, de classification, de clustering et de similarité sémantique textuelle, dans des langues à ressources linguistiques élevées et faibles. Les humains atteignent une performance moyenne de 77,6 % contre 80,1 % pour le meilleur modèle d'embedding, bien que la variation soit importante : les modèles atteignent des performances quasi maximales sur certains ensembles de données tout en peinant sur d'autres, suggérant des problèmes liés aux données et révélant des lacunes dans les langues à faibles ressources. Nous fournissons des références de performance humaine, des insights sur les schémas de difficulté des tâches, et un cadre d'évaluation extensible qui permet une interprétation plus significative des modèles et guide le développement à la fois des modèles et des benchmarks. Notre code, nos ensembles de données et notre classement sont disponibles publiquement à l'adresse suivante : https://github.com/embeddings-benchmark/mteb.
Les modèles de raisonnement à grande échelle (LRMs) ont obtenu des performances impressionnantes sur des tâches de raisonnement complexes en générant des explications détaillées de type chaîne de pensée (CoT). Cependant, ces réponses sont souvent excessivement longues, contenant des étapes de raisonnement redondantes qui augmentent les coûts d'inférence et réduisent la praticité. Contrôler la longueur du raisonnement généré sans sacrifier la précision reste un défi ouvert. À travers une analyse empirique systématique, nous révélons une corrélation positive constante entre l'entropie du modèle et la longueur des réponses à différentes étapes du raisonnement, observée dans divers LRMs : la phase de réflexion présente une entropie plus élevée, reflétant un comportement exploratoire avec des réponses plus longues, tandis que la phase de réponse finale montre une entropie plus faible, indiquant une solution plus déterministe. Cette observation suggère que l'entropie à différentes étapes du raisonnement peut servir de levier pour équilibrer concision et performance. Sur la base de cette idée, cet article introduit Phase Entropy Aware Reward (PEAR), un mécanisme de récompense qui intègre l'entropie dépendante de la phase dans la conception des récompenses. Au lieu de traiter tous les tokens de manière uniforme, PEAR pénalise l'entropie excessive pendant la phase de réflexion tout en permettant une exploration modérée lors de la phase de réponse finale, ce qui encourage les modèles à générer des traces de raisonnement concises tout en conservant une flexibilité suffisante pour résoudre la tâche correctement. Cela permet un contrôle adaptatif de la longueur des réponses sans dépendre d'objectifs de longueur explicites ou de règles de troncation rigides. Des expériences approfondies sur quatre benchmarks démontrent que PEAR réduit systématiquement la longueur des réponses tout en maintenant une précision compétitive, quelle que soit l'échelle du modèle. De plus, PEAR montre une robustesse hors distribution (OOD) forte au-delà de la distribution d'entraînement. Notre code est disponible à l'adresse : https://github.com/iNLP-Lab/PEAR.
Lorsqu'une IA assistante se souvient que Sarah est une mère célibataire occupant deux emplois, interprète-t-elle son stress différemment que si elle était une cadre aisée ? Alors que les systèmes d'IA personnalisés intègrent de plus en plus la mémoire à long terme des utilisateurs, il est crucial de comprendre comment cette mémoire influence le raisonnement émotionnel. Nous étudions comment la mémoire des utilisateurs affecte l'intelligence émotionnelle des grands modèles de langage (LLM) en évaluant 15 modèles sur des tests d'intelligence émotionnelle validés par des humains. Nous constatons que des scénarios identiques associés à différents profils d'utilisateurs produisent des interprétations émotionnelles systématiquement divergentes. À travers des scénarios émotionnels indépendants des utilisateurs et des profils variés, des biais systématiques apparaissent dans plusieurs LLM performants, où les profils privilégiés reçoivent des interprétations émotionnelles plus précises. De plus, les LLM montrent des disparités significatives dans la compréhension des émotions et les tâches de recommandation de soutien selon les facteurs démographiques, indiquant que les mécanismes de personnalisation peuvent intégrer des hiérarchies sociales dans le raisonnement émotionnel des modèles. Ces résultats soulignent un défi majeur pour les IA dotées de mémoire : les systèmes conçus pour la personnalisation peuvent renforcer involontairement les inégalités sociales.
La compréhension intuitive de la physique dans les modèles de diffusion vidéo joue un rôle essentiel dans la construction de simulateurs de monde physiquement plausibles à usage général. Cependant, évaluer avec précision cette capacité reste une tâche complexe en raison de la difficulté à dissocier la justesse physique de l'apparence visuelle dans la génération. À cette fin, nous introduisons LikePhys, une méthode sans apprentissage qui évalue la physique intuitive dans les modèles de diffusion vidéo en distinguant les vidéos physiquement valides et impossibles, en utilisant l'objectif de débruitage comme substitut de vraisemblance basé sur ELBO sur un ensemble de données soigneusement sélectionné de paires valides-invalides. En testant sur notre benchmark construit de douze scénarios couvrant quatre domaines physiques, nous montrons que notre métrique d'évaluation, l'Erreur de Préférence de Plausibilité (PPE), démontre une forte corrélation avec les préférences humaines, surpassant les évaluateurs de pointe existants. Nous évaluons ensuite systématiquement la compréhension intuitive de la physique dans les modèles de diffusion vidéo actuels. Notre étude analyse également comment la conception du modèle et les paramètres d'inférence influencent cette compréhension et met en lumière les variations de capacité spécifiques aux domaines à travers les lois physiques. Les résultats empiriques montrent que, bien que les modèles actuels peinent avec les dynamiques complexes et chaotiques, il existe une tendance claire d'amélioration dans la compréhension de la physique à mesure que la capacité du modèle et les paramètres d'inférence augmentent.
La génération d'avatars humains 3D réalistes et contrôlables représente un défi de longue date, en particulier lorsqu'il s'agit de couvrir une large gamme d'attributs tels que l'ethnicité, l'âge, les styles vestimentaires et les formes corporelles détaillées. La capture et l'annotation de vastes ensembles de données humaines pour entraîner des modèles génératifs sont extrêmement coûteuses et limitées en termes d'échelle et de diversité. La question centrale que nous abordons dans cet article est la suivante : Les modèles de base existants peuvent-ils être distillés pour générer des données humaines 3D théoriquement illimitées et richement annotées ? Nous présentons InfiniHuman, un cadre qui distille de manière synergique ces modèles pour produire des données humaines richement annotées à un coût minimal et avec une scalabilité théoriquement illimitée. Nous proposons InfiniHumanData, un pipeline entièrement automatique qui exploite des modèles de vision-langage et de génération d'images pour créer un ensemble de données multi-modales à grande échelle. Une étude utilisateur montre que nos identités générées automatiquement sont indiscernables des rendus de scans. InfiniHumanData contient 111 000 identités couvrant une diversité sans précédent. Chaque identité est annotée avec des descriptions textuelles multi-granularités, des images RGB multi-vues, des images détaillées de vêtements et des paramètres de forme corporelle SMPL. Sur la base de cet ensemble de données, nous proposons InfiniHumanGen, un pipeline génératif basé sur la diffusion conditionné par du texte, la forme corporelle et des éléments vestimentaires. InfiniHumanGen permet une génération rapide, réaliste et précisément contrôlable d'avatars. Des expériences approfondies démontrent des améliorations significatives par rapport aux méthodes de pointe en termes de qualité visuelle, de vitesse de génération et de contrôlabilité. Notre approche permet une génération d'avatars de haute qualité avec un contrôle granulaire à une échelle pratiquement illimitée, grâce à une solution pratique et abordable. Nous rendrons publics le pipeline de génération automatique de données, l'ensemble de données complet InfiniHumanData et les modèles InfiniHumanGen à l'adresse suivante : https://yuxuan-xue.com/infini-human.
Les modèles génératifs constituent l'épine dorsale de l'apprentissage automatique moderne, soutenant les systèmes de pointe dans les domaines du texte, de la vision et des applications multimodales. Bien que l'estimation du maximum de vraisemblance ait traditionnellement servi de paradigme d'entraînement dominant, des travaux récents ont mis en lumière ses limites, notamment en matière de généralisation et de sensibilité à l'oubli catastrophique, par rapport aux techniques d'apprentissage par renforcement telles que les méthodes de gradient de politique. Cependant, ces approches dépendent de signaux de récompense explicites, souvent indisponibles en pratique, laissant ouverte la question fondamentale de l'alignement des modèles génératifs lorsque seuls des ensembles de données de haute qualité sont accessibles. Dans ce travail, nous abordons ce défi via un cadre d'optimisation bilevel, où la fonction de récompense est traitée comme la variable d'optimisation d'un problème de niveau externe, tandis qu'un objectif de gradient de politique définit le niveau interne. Nous menons ensuite une analyse théorique de ce problème d'optimisation dans un cadre traitable et en extrayons des insights qui, comme nous le démontrons, se généralisent à des applications telles que la classification tabulaire et l'apprentissage par renforcement basé sur des modèles. Nous publions le code à l'adresse https://github.com/abenechehab/nll_to_po.
Les modèles de fondation visuelle pré-entraînés (VFMs) font progresser l'apprentissage robotique grâce à des représentations visuelles riches, mais chaque VFM excelle généralement uniquement dans des domaines spécifiques, limitant ainsi leur généralité à travers différentes tâches. La distillation de plusieurs VFMs en une représentation unifiée pour la politique peut atténuer cette limitation, mais elle aboutit souvent à une sélection de caractéristiques rigide et spécifique à la tâche, nécessitant un ré-entraînement complet coûteux pour intégrer les connaissances du domaine robotique. Nous proposons VER, un transformateur d'experts visuels pour l'apprentissage robotique. Lors du pré-entraînement, VER distille plusieurs VFMs dans une bibliothèque d'experts visuels. Il affine ensuite uniquement un réseau de routage léger (moins de 0,4 % des paramètres) pour sélectionner dynamiquement les experts pertinents pour la tâche à partir de la bibliothèque pré-entraînée, en vue des tâches robotiques en aval. Nous introduisons également le Routage d'Experts par Patch avec un Recuit Top-K Progressif pour améliorer à la fois la flexibilité et la précision de la sélection dynamique d'experts. De plus, VER permet un affinage efficace des paramètres pour une utilisation scalable des experts et une intégration adaptative des connaissances du domaine robotique. Sur 17 tâches robotiques diverses et plusieurs têtes de politique, VER atteint des performances de pointe. Nous constatons que VER réduit les valeurs aberrantes de grande norme dans les régions non pertinentes pour la tâche (par exemple, l'arrière-plan) et se concentre sur les régions critiques pour la tâche. Les visualisations et les codes sont disponibles sur https://yixiaowang7.github.io/ver_page/.
Les données de pré-entraînement de haute qualité constituent le carburant fossile des grands modèles de langage (LLM), mais leurs réserves s'épuisent pour les modèles de pointe. Dans cet article, nous présentons RePro, une méthode novatrice de recyclage web qui entraîne un modèle de langage relativement petit avec de l'apprentissage par renforcement pour générer des reformulations efficaces et fidèles des données de pré-entraînement. Plus précisément, nous concevons une récompense de qualité et trois récompenses de fidélité, optimisant le modèle de reformulation pour convertir les données organiques en reformulations de haute qualité tout en conservant leur sémantique et leur structure principales. Dans notre expérience, nous entraînons un modèle de reformulation de 4 milliards de paramètres pour recycler 72 milliards de tokens échantillonnés à partir de DCLM-RefinedWeb. Les résultats de pré-entraînement sur des modèles de 400 millions et 1,4 milliard de paramètres montrent que RePro offre des gains de précision relatifs de 4,7 % à 14,0 % par rapport à un modèle de base utilisant uniquement des données organiques sur 22 tâches en aval. RePro surpasse également ReWire, la méthode de recyclage web de pointe qui utilise un modèle de reformulation de 70 milliards de paramètres, ainsi que le modèle de base avec un pool de données quatre fois plus grand. Les expériences avec différentes quantités de données recyclées mettent en évidence que RePro améliore l'efficacité des données organiques d'un facteur 2 à 3. Des analyses individuelles et distributionnelles confirment que RePro préserve davantage d'informations critiques et reflète fidèlement les caractéristiques des données organiques par rapport aux méthodes basées sur l'incitation. Ensemble, ces résultats montrent que RePro offre une voie efficace et contrôlable pour exploiter judicieusement le carburant fossile du pré-entraînement des LLM. Nous mettons à disposition notre code, notre modèle de reformulation et nos données recyclées à l'adresse https://github.com/cxcscmu/RePro.
Les mécanismes de réaction organique sont les réactions élémentaires séquentielles par lesquelles les réactifs forment des intermédiaires et des produits, et sont fondamentaux pour comprendre la réactivité chimique et concevoir de nouvelles molécules et réactions. Bien que les grands modèles de langage (LLM) aient montré des résultats prometteurs dans la compréhension de tâches chimiques telles que la conception de synthèses, il n'est pas clair dans quelle mesure cela reflète de véritables capacités de raisonnement chimique, c'est-à-dire la capacité à générer des intermédiaires valides, à maintenir une cohérence chimique et à suivre des voies multi-étapes logiquement cohérentes. Nous abordons cette question en introduisant oMeBench, le premier benchmark à grande échelle, expertisé, pour le raisonnement sur les mécanismes organiques en chimie organique. Il comprend plus de 10 000 étapes mécanistiques annotées avec des intermédiaires, des étiquettes de type et des niveaux de difficulté. De plus, pour évaluer plus précisément les capacités des LLM et permettre un scoring granulaire, nous proposons oMeS, un cadre d'évaluation dynamique qui combine la logique au niveau des étapes et la similarité chimique. Nous analysons les performances des LLM de pointe, et nos résultats montrent que bien que les modèles actuels affichent une intuition chimique prometteuse, ils peinent à effectuer un raisonnement multi-étapes correct et cohérent. Notamment, nous constatons que l'utilisation d'une stratégie de prompting et le fine-tuning d'un modèle spécialisé sur notre jeu de données proposé augmentent les performances de 50 % par rapport au modèle propriétaire leader. Nous espérons qu'oMeBench servira de fondement rigoureux pour faire progresser les systèmes d'IA vers un véritable raisonnement chimique.
Bien que les modèles de génération d'images à partir de texte (T2I) puissent synthétiser des images de haute qualité, leurs performances se dégradent considérablement lorsqu'ils sont sollicités avec des entités nouvelles ou hors distribution (OOD) en raison de limites inhérentes à leurs connaissances. Nous présentons World-To-Image, un cadre novateur qui comble cette lacune en enrichissant la génération T2I avec des connaissances mondiales pilotées par un agent. Nous concevons un agent qui recherche dynamiquement sur le web pour récupérer des images correspondant à des concepts inconnus du modèle de base. Ces informations sont ensuite utilisées pour optimiser les prompts multimodaux, guidant les puissants modèles génératifs vers une synthèse précise. De manière cruciale, notre évaluation va au-delà des métriques traditionnelles, en utilisant des évaluations modernes comme LLMGrader et ImageReward pour mesurer la véritable fidélité sémantique. Nos expériences montrent que World-To-Image surpasse significativement les méthodes de pointe à la fois en alignement sémantique et en esthétique visuelle, avec une amélioration de +8,1 % en précision par rapport au prompt sur notre benchmark NICE. Notre cadre atteint ces résultats avec une grande efficacité en moins de trois itérations, ouvrant la voie à des systèmes T2I capables de mieux refléter le monde réel en constante évolution. Notre code de démonstration est disponible ici : https://github.com/mhson-kyle/World-To-Image.
Les agents conversationnels modernes tels que ChatGPT et Alexa+ s'appuient sur des politiques prédéfinies spécifiant des métadonnées, des styles de réponse et des règles d'utilisation d'outils. Alors que ces systèmes basés sur des modèles de langage de grande taille (LLM) se développent pour prendre en charge des requêtes variées provenant d'entreprises et d'utilisateurs, ces politiques, souvent implémentées sous forme d'invites contextuelles, deviennent de plus en plus complexes et longues, rendant leur adhésion fidèle difficile et imposant des coûts de calcul fixes élevés. Avec l'émergence d'agents multimodaux, les politiques qui régissent les comportements visuels et multimodaux sont cruciales mais restent peu étudiées. Les travaux antérieurs sur la compression d'invites se concentrent principalement sur la réduction des modèles de tâches et des démonstrations, tandis que les études existantes sur l'alignement des politiques se limitent aux règles de sécurité basées sur le texte. Nous introduisons l'Internalisation de Politiques Multimodales (MPI), une nouvelle tâche qui internalise des politiques multimodales intensives en raisonnement dans les paramètres du modèle, permettant un suivi plus rigoureux des politiques sans inclure ces dernières lors de l'inférence. La MPI pose des défis uniques en termes de données et d'algorithmes. Nous construisons deux ensembles de données couvrant des tâches de prise de décision et d'utilisation d'outils synthétiques et réelles, et proposons TriMPI, un cadre d'entraînement en trois étapes. TriMPI injecte d'abord les connaissances politiques via un pré-entraînement continu, puis effectue un ajustement supervisé, et enfin applique PolicyRollout, une extension d'apprentissage par renforcement de style GRPO qui enrichit les déploiements avec des réponses conscientes des politiques pour une exploration ancrée. TriMPI obtient des gains notables en précision end-to-end, en généralisation et en robustesse face à l'oubli. En tant que premier travail sur l'internalisation de politiques multimodales, nous fournissons des ensembles de données, des recettes d'entraînement et des évaluations complètes pour stimuler les recherches futures. Page du projet : https://mikewangwzhl.github.io/TriMPI.
Les modèles de langage généralistes (LLMs) excellent dans le raisonnement, mais ceux optimisés pour la traduction peinent dans les tâches de raisonnement. Pour résoudre ce problème, nous proposons une nouvelle approche d'amélioration de la traduction qui commence avec des modèles d'instruction et applique un réglage sélectif par couches uniquement sur des données parallèles. En suivant cette méthode, nous introduisons les modèles Qwen3-XPlus, qui démontrent des améliorations significatives dans les performances de traduction, aussi bien pour les langues riches en ressources que pour celles qui en sont pauvres, atteignant des scores de plus de 15 spBLEU et 40 xComet pour des langues à faibles ressources comme le swahili. Fait intéressant, en s'entraînant uniquement sur de petits ensembles de données parallèles, Qwen3-XPlus obtient une amélioration moyenne de plus d'un point sur 7 tâches multilingues tout en maintenant une compétence comparable au modèle d'instruction Qwen3 sur 15 jeux de données de raisonnement populaires. Ce travail offre une approche prometteuse pour l'amélioration multilingue, réduisant considérablement la complexité et améliorant l'accessibilité pour un plus large éventail de langues. Le code et le modèle sont disponibles publiquement.
Au cœur de Deep Research se trouve l'extraction de connaissances, une tâche consistant à extraire des informations structurées à partir de masses de textes non structurés en réponse aux instructions des utilisateurs. Les grands modèles de langage (LLMs) excellent dans l'interprétation de ces instructions, mais leur déploiement à grande échelle est prohibitivement coûteux, tandis que les pipelines traditionnels de classificateurs et d'extracteurs restent efficaces mais fragiles et incapables de généraliser à de nouvelles tâches. Nous présentons Falconer, un cadre collaboratif qui combine le raisonnement agentique des LLMs avec des modèles proxy légers pour une extraction de connaissances scalable. Dans Falconer, les LLMs agissent comme des planificateurs, décomposant les instructions des utilisateurs en pipelines exécutables, et comme des annotateurs, générant des supervisions pour entraîner de petits proxies. Le cadre unifie la classification et l'extraction en deux opérations atomiques, obtenir une étiquette et obtenir un segment, permettant à un seul modèle suivant les instructions de remplacer plusieurs composants spécifiques à une tâche. Pour évaluer la cohérence entre les modèles proxy incubés par Falconer et les annotations fournies par les humains et les grands modèles, nous construisons de nouveaux benchmarks couvrant à la fois la planification et l'exécution de bout en bout. Les expériences montrent que Falconer atteint une précision comparable aux LLMs de pointe dans le suivi des instructions tout en réduisant les coûts d'inférence jusqu'à 90 % et en accélérant l'extraction de connaissances à grande échelle de plus de 20 fois, offrant ainsi une base efficace et scalable pour Deep Research.
La génération créative consiste en la synthèse de nouveaux échantillons surprenants et précieux qui reflètent l'intention de l'utilisateur tout en étant impossibles à anticiper. Cette tâche vise à étendre l'imagination humaine, permettant la découverte de concepts visuels existant dans les espaces inexplorés entre des domaines familiers. Bien que les modèles de diffusion texte-image excellent dans le rendu de scènes photoréalistes fidèles aux instructions de l'utilisateur, ils peinent encore à générer un contenu véritablement novateur. Les approches existantes pour améliorer la créativité générative reposent soit sur l'interpolation de caractéristiques d'image, ce qui limite l'exploration à des catégories prédéfinies, soit sur des procédures chronophages telles que l'optimisation d'embeddings ou le fine-tuning de modèles. Nous proposons le "VLM-Guided Adaptive Negative-Prompting", une méthode sans entraînement, appliquée lors de l'inférence, qui favorise la génération d'images créatives tout en préservant la validité de l'objet généré. Notre approche utilise un modèle vision-langage (VLM) qui analyse les sorties intermédiaires du processus de génération et les redirige de manière adaptative loin des concepts visuels conventionnels, encourageant l'émergence de résultats nouveaux et surprenants. Nous évaluons la créativité à travers la nouveauté et la validité, en utilisant des métriques statistiques dans l'espace d'embedding CLIP. À travers des expériences approfondies, nous montrons des gains constants en nouveauté créative avec un surcoût computationnel négligeable. De plus, contrairement aux méthodes existantes qui génèrent principalement des objets isolés, notre approche s'étend à des scénarios complexes, tels que la génération d'ensembles cohérents d'objets créatifs et la préservation de la créativité dans des prompts compositionnels élaborés. Notre méthode s'intègre de manière transparente dans les pipelines de diffusion existants, offrant une voie pratique pour produire des résultats créatifs qui dépassent les contraintes des descriptions textuelles.
L'apprentissage en contexte permet aux grands modèles de s'adapter à de nouvelles tâches à partir de quelques démonstrations, mais il a montré un succès limité dans la conception moléculaire. Les bases de données existantes telles que ChEMBL contiennent des propriétés moléculaires couvrant des millions de tests biologiques, mais les données étiquetées pour chaque propriété restent rares. Pour pallier cette limitation, nous introduisons les modèles de diffusion conditionnés par démonstration (DemoDiff), qui définissent les contextes de tâches à l'aide d'un petit ensemble d'exemples molécules-scores plutôt que de descriptions textuelles. Ces démonstrations guident un Transformer de débruitage pour générer des molécules alignées avec les propriétés cibles. Pour un pré-entraînement scalable, nous développons un nouveau tokeniseur moléculaire avec Node Pair Encoding qui représente les molécules au niveau des motifs, nécessitant 5,5 fois moins de nœuds. Nous constituons un ensemble de données contenant des millions de tâches contextuelles provenant de multiples sources couvrant à la fois les médicaments et les matériaux, et pré-entraînons un modèle de 0,7 milliard de paramètres sur celui-ci. Sur 33 tâches de conception dans six catégories, DemoDiff égale ou dépasse les modèles de langage 100 à 1000 fois plus grands et atteint un rang moyen de 3,63 contre 5,25-10,20 pour les approches spécifiques au domaine. Ces résultats positionnent DemoDiff comme un modèle fondationnel moléculaire pour la conception moléculaire en contexte. Notre code est disponible à l'adresse https://github.com/liugangcode/DemoDiff.
Ces dernières années, bien que les MLLM basés sur le cloud tels que QwenVL, InternVL, GPT-4o, Gemini et Claude Sonnet aient démontré des performances exceptionnelles avec des tailles de modèles atteignant des centaines de milliards de paramètres, ils dépassent largement les limitations en matière de mémoire, de consommation d'énergie et de capacité de calcul des appareils périphériques tels que les téléphones portables. Cet article présente AndesVL, une suite de MLLM côté mobile avec des paramètres allant de 0,6 à 4 milliards, basée sur le LLM Qwen3 et divers encodeurs visuels. Nous décrivons en détail les architectures de modèles, le pipeline d'entraînement et les données d'entraînement d'AndesVL, qui atteint des performances de premier plan sur un large éventail de benchmarks open-source, incluant des domaines tels que la compréhension d'images riches en texte, le raisonnement et les mathématiques, la compréhension multi-images, la VQA générale, la réduction des hallucinations, la compréhension multilingue et les tâches liées aux interfaces graphiques, comparé aux modèles de pointe de taille similaire. De plus, nous introduisons une approche 1+N LoRA.
Les paradigmes typiques de post-entraînement pour les modèles de vision et langage à grande échelle (LVLMs) incluent le Fine-Tuning Supervisé (SFT) et l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR). Le SFT exploite des guidages externes pour injecter de nouvelles connaissances, tandis que le RLVR utilise un renforcement interne pour améliorer les capacités de raisonnement et les performances globales. Cependant, notre analyse révèle que le SFT conduit souvent à des performances sous-optimales, tandis que le RLVR peine avec les tâches qui dépassent la base de connaissances interne du modèle. Pour pallier ces limitations, nous proposons ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning), un paradigme de post-entraînement unifié qui intègre les forces du SFT et du RLVR en une seule étape. Nous analysons la dérivation des objectifs du SFT et du RLVR pour établir l'objectif de ViSurf, offrant ainsi une perspective unifiée sur ces deux paradigmes. Le cœur de ViSurf consiste à injecter des étiquettes de vérité terrain dans les déploiements du RLVR, fournissant ainsi une supervision externe et un renforcement interne simultanés. De plus, nous introduisons trois nouvelles stratégies de contrôle des récompenses pour stabiliser et optimiser le processus d'entraînement. Des expériences approfondies sur plusieurs benchmarks diversifiés démontrent l'efficacité de ViSurf, surpassant à la fois le SFT individuel, le RLVR, et l'approche en deux étapes SFT \textrightarrow RLVR. Une analyse approfondie corrobore ces résultats, validant la dérivation et les principes de conception de ViSurf.
L'édition vidéo guidée par instructions a émergé comme une direction de recherche en pleine expansion, offrant de nouvelles opportunités pour la transformation intuitive de contenu tout en posant des défis significatifs pour l'évaluation systématique. Les benchmarks existants pour l'édition vidéo ne parviennent pas à soutenir adéquatement l'évaluation de l'édition vidéo guidée par instructions et souffrent en outre d'une diversité limitée des sources, d'une couverture étroite des tâches et de métriques d'évaluation incomplètes. Pour remédier à ces limitations, nous introduisons IVEBench, une suite de benchmarks moderne spécialement conçue pour l'évaluation de l'édition vidéo guidée par instructions. IVEBench comprend une base de données diversifiée de 600 vidéos sources de haute qualité, couvrant sept dimensions sémantiques et des longueurs de vidéo allant de 32 à 1 024 images. Il inclut en outre 8 catégories de tâches d'édition avec 35 sous-catégories, dont les instructions sont générées et affinées grâce à des modèles de langage de grande taille et à l'examen par des experts. De manière cruciale, IVEBench établit un protocole d'évaluation tridimensionnel englobant la qualité vidéo, la conformité aux instructions et la fidélité vidéo, intégrant à la fois des métriques traditionnelles et des évaluations basées sur des modèles de langage multimodaux de grande taille. Des expériences approfondies démontrent l'efficacité d'IVEBench dans le benchmarking des méthodes d'édition vidéo guidée par instructions les plus avancées, montrant sa capacité à fournir des résultats d'évaluation complets et alignés sur les jugements humains.
La segmentation sémantique précise des nuages de points issus de la numérisation laser terrestre (TLS) est limitée par le coût élevé de l'annotation manuelle. Nous proposons un pipeline semi-automatisé, prenant en compte l'incertitude, qui intègre la projection sphérique, l'enrichissement des caractéristiques, l'apprentissage par ensemble et l'annotation ciblée pour réduire l'effort d'étiquetage tout en maintenant une haute précision. Notre approche projette les points 3D sur une grille sphérique 2D, enrichit les pixels avec des caractéristiques multi-sources, et entraîne un ensemble de réseaux de segmentation pour produire des pseudo-labels et des cartes d'incertitude, ces dernières guidant l'annotation des régions ambiguës. Les sorties 2D sont rétroprojetées en 3D, produisant des nuages de points densément annotés, soutenus par une suite de visualisation à trois niveaux (cartes de caractéristiques 2D, nuages de points colorisés 3D et sphères virtuelles compactes) pour un triage rapide et un guidage du réviseur. En utilisant ce pipeline, nous construisons Mangrove3D, un ensemble de données de segmentation sémantique TLS pour les forêts de mangroves. Nous évaluons également l'efficacité des données et l'importance des caractéristiques pour répondre à deux questions clés : (1) quelle quantité de données annotées est nécessaire et (2) quelles caractéristiques sont les plus importantes. Les résultats montrent que la performance se stabilise après environ 12 scans annotés, les caractéristiques géométriques contribuent le plus, et des empilements compacts de neuf canaux capturent presque toute la puissance discriminative, avec l'Intersection sur Union moyenne (mIoU) atteignant un plateau autour de 0,76. Enfin, nous confirmons la généralisation de notre stratégie d'enrichissement des caractéristiques à travers des tests inter-datasets sur ForestSemantic et Semantic3D. Nos contributions incluent : (i) un pipeline robuste d'annotation TLS prenant en compte l'incertitude, accompagné d'outils de visualisation ; (ii) le dataset Mangrove3D ; et (iii) des recommandations empiriques sur l'efficacité des données et l'importance des caractéristiques, permettant ainsi une segmentation évolutive et de haute qualité des nuages de points TLS pour la surveillance écologique et au-delà. Le dataset et les scripts de traitement sont disponibles publiquement à l'adresse https://fz-rit.github.io/through-the-lidars-eye/.
Les améliorations dans la construction des modèles, incluant des garde-fous de sécurité renforcés, permettent aux modèles de langage de grande taille (LLMs) de passer de plus en plus les contrôles de sécurité standard. Cependant, les LLMs peuvent parfois dévier en révélant des comportements nuisibles, tels que l'expression de points de vue racistes, au cours de conversations. Pour analyser cela de manière systématique, nous introduisons CoBia, une suite d'attaques adversaires légères qui nous permettent d'affiner l'étendue des conditions dans lesquelles les LLMs s'écartent d'un comportement normatif ou éthique lors de conversations. CoBia crée une conversation construite où le modèle émet une affirmation biaisée concernant un groupe social. Nous évaluons ensuite si le modèle peut se rétablir de cette affirmation biaisée fabriquée et rejeter les questions de suivi biaisées. Nous évaluons 11 LLMs open-source ainsi que propriétaires pour leurs sorties liées à six catégories socio-démographiques pertinentes pour la sécurité individuelle et le traitement équitable, à savoir le genre, la race, la religion, la nationalité, l'orientation sexuelle et d'autres. Notre évaluation est basée sur des métriques de biais établies pour les LLMs, et nous comparons les résultats aux jugements humains pour évaluer la fiabilité et l'alignement des LLMs. Les résultats suggèrent que les conversations intentionnellement construites révèlent de manière fiable une amplification des biais et que les LLMs échouent souvent à rejeter les questions de suivi biaisées pendant le dialogue. Cette forme de test de résistance met en lumière des biais profondément ancrés qui peuvent être révélés par l'interaction. Le code et les artefacts sont disponibles à l'adresse https://github.com/nafisenik/CoBia.
Les modèles de raisonnement à grande échelle (LRM) excellent dans le raisonnement complexe, mais sont traditionnellement évalués dans des contextes statiques, dits de "monde figé" : les réponses du modèle sont supposées être instantanées, et le contexte d'une requête est considéré comme immuable pendant la durée de la réponse. Bien que cette hypothèse soit généralement valable pour des tâches à court terme, elle s'effondre dans les tâches de raisonnement modernes, telles que la programmation assistée, où les modèles peuvent prendre des heures pour réfléchir à des problèmes et où le code peut changer radicalement entre le moment où le modèle commence à réfléchir et celui où il produit sa réponse finale. Dans ce travail, nous remettons en question l'hypothèse du monde figé et évaluons la robustesse des LRM dans deux scénarios dynamiques réalistes : les interruptions, qui testent la qualité des sorties partielles du modèle avec un budget limité, et le contexte dynamique, qui teste l'adaptation du modèle aux changements en cours. Sur des benchmarks de mathématiques et de programmation nécessitant un raisonnement long, les évaluations statiques surestiment systématiquement la robustesse : même les LRM les plus avancés, qui atteignent une grande précision dans des contextes statiques, peuvent échouer de manière imprévisible lorsqu'ils sont interrompus ou exposés à un contexte changeant, avec une baisse de performance allant jusqu'à 60 % lorsque des mises à jour sont introduites tardivement dans le processus de raisonnement. Notre analyse révèle en outre plusieurs nouveaux modes d'échec, notamment la fuite de raisonnement, où les modèles intègrent le raisonnement dans leur réponse finale lorsqu'ils sont interrompus ; la panique, où sous pression temporelle les modèles abandonnent complètement le raisonnement et renvoient des réponses incorrectes ; et le doute de soi, où la performance se dégrade lors de l'intégration d'informations mises à jour.
Dans cet article, nous présentons la première étude à grande échelle explorant si le code JavaScript généré par les modèles de langage de grande taille (LLMs) peut révéler quel modèle l'a produit, permettant ainsi une attribution d'auteur fiable et une identification des modèles. Avec l'essor rapide du code généré par l'IA, l'attribution joue un rôle crucial dans la détection des vulnérabilités, le signalement de contenus malveillants et la garantie de responsabilité. Alors que la détection IA-vs-humain traite généralement l'IA comme une catégorie unique, nous montrons que les LLMs individuels laissent des signatures stylistiques uniques, même parmi les modèles appartenant à la même famille ou de taille de paramètres similaire. À cette fin, nous introduisons LLM-NodeJS, un ensemble de données de 50 000 programmes back-end Node.js provenant de 20 grands modèles de langage. Chaque programme a quatre variantes transformées, produisant 250 000 échantillons JavaScript uniques et deux représentations supplémentaires (JSIR et AST) pour diverses applications de recherche. En utilisant cet ensemble de données, nous comparons les classificateurs traditionnels d'apprentissage automatique aux encodeurs Transformer fine-tunés et introduisons CodeT5-JSA, une architecture personnalisée dérivée du modèle CodeT5 à 770 millions de paramètres, dont le décodeur a été supprimé et la tête de classification modifiée. Il atteint une précision de 95,8 % pour l'attribution à cinq classes, 94,6 % pour dix classes et 88,5 % pour vingt classes, surpassant les autres modèles testés tels que BERT, CodeBERT et Longformer. Nous démontrons que les classificateurs capturent des régularités stylistiques plus profondes dans le flux de données et la structure des programmes, plutôt que de se fier à des caractéristiques de surface. Par conséquent, l'attribution reste efficace même après l'obfuscation, la suppression des commentaires et les transformations lourdes du code. Pour soutenir la science ouverte et la reproductibilité, nous publions l'ensemble de données LLM-NodeJS, les scripts d'entraînement Google Colab et tous les matériels connexes sur GitHub : https://github.com/LLM-NodeJS-dataset.
Le diagnostic d'une image de lame entière est un processus interactif et multi-étapes impliquant des changements de grossissement et des déplacements entre différents champs. Bien que les modèles de base récents en pathologie soient performants, les systèmes agentiques pratiques qui décident quel champ examiner ensuite, ajustent le grossissement et fournissent des diagnostics explicables font encore défaut. Le frein principal est la donnée : une supervision scalable et alignée sur la pratique clinique du comportement de visualisation des experts, qui est tacite et basée sur l'expérience, non écrite dans les manuels ou en ligne, et donc absente de l'entraînement des grands modèles de langage. Nous présentons l'AI Session Recorder, qui fonctionne avec les visionneuses standard d'images de lame entière (WSI) pour enregistrer de manière non intrusive la navigation routinière et convertir les logs de visualisation en commandes comportementales standardisées (inspecter ou jeter un coup d'œil à des grossissements discrets) et en boîtes englobantes. Une revue légère avec intervention humaine transforme les justifications rédigées par l'IA en le jeu de données Pathology-CoT, une forme de supervision jumelée "où regarder" et "pourquoi c'est important" produite avec un temps d'étiquetage environ six fois inférieur. En utilisant ces données comportementales, nous construisons Pathologist-o3, un agent à deux étapes qui propose d'abord des régions d'intérêt puis effectue un raisonnement guidé par le comportement. Sur la détection de métastases ganglionnaires gastro-intestinales, il a atteint 84,5 % de précision, 100,0 % de rappel et 75,4 % de précision, surpassant le modèle OpenAI o3 de pointe et se généralisant à différentes architectures. À notre connaissance, cela constitue l'un des premiers systèmes agentiques en pathologie ancrés dans le comportement. En transformant les logs de visualisation quotidiens en une supervision scalable et validée par des experts, notre cadre rend la pathologie agentique pratique et établit une voie vers une IA clinique alignée sur l'humain et évolutive.
Les grands modèles de langage (LLM) peuvent répondre correctement à la question « Quand Einstein est-il né ? » tout en échouant à fournir la même date lorsqu'ils rédigent un texte sur la vie d'Einstein, révélant ainsi une incohérence fondamentale dans la manière dont ces modèles accèdent aux connaissances factuelles selon la complexité des tâches. Bien que ces modèles affichent une précision impressionnante sur les benchmarks de question-réponse factuelle, l'écart de fiabilité entre les requêtes simples et complexes reste mal compris, ce qui compromet leur fiabilité. Dans ce travail, nous introduisons l'Alignement des Formes Courtes et Longues pour la Réponse à des Questions Factuelles (SLAQ), un cadre d'évaluation contrôlé qui compare les réponses des LLM à des questions factuelles posées (a) de manière isolée (forme courte) versus (b) intégrées dans des requêtes complexes (forme longue). En examinant 16 LLM sur 600 requêtes, nous observons un désalignement systématique des réponses entre les formes courtes et longues correspondantes. Nous mettons également en évidence une perte de précision dépendante de la position et des effets de momentum où des réponses correctes ou incorrectes consécutives créent des schémas auto-renforçants. Grâce à une analyse mécaniste, nous constatons que les faits alignés activent des parties internes du modèle qui se chevauchent, et que des métriques basées sur la similarité mécaniste peuvent prédire l'alignement des réponses courtes-longues avec une précision allant jusqu'à 78 %. Notre travail établit la cohérence factuelle face à la complexité des requêtes comme un aspect crucial de la fiabilité des LLM et remet en question les pratiques d'évaluation actuelles, qui supposent implicitement qu'une bonne performance sur des questions factuelles simples implique également une fiabilité dans des tâches de recherche de connaissances plus complexes.
L'interpolation vidéo crée des transitions fluides et naturelles entre deux images, en faisant un outil indispensable pour le montage vidéo et la synthèse de vidéos longues. Les travaux existants dans ce domaine sont incapables de générer des mouvements larges, complexes ou détaillés. En particulier, ils ne parviennent pas à s'adapter à la diversité des intentions des utilisateurs et manquent généralement de contrôle fin sur les détails des images intermédiaires, ce qui entraîne un désalignement avec la vision créative. Pour combler ces lacunes, nous présentons MultiCOIN, un cadre d'interpolation vidéo permettant des contrôles multi-modaux, incluant les transitions de profondeur et de superposition, les trajectoires de mouvement, les invites textuelles et les zones cibles pour la localisation du mouvement, tout en maintenant un équilibre entre flexibilité, facilité d'utilisation et précision pour une interpolation vidéo fine. Pour y parvenir, nous adoptons l'architecture Diffusion Transformer (DiT) comme modèle génératif vidéo, en raison de sa capacité avérée à générer des vidéos longues de haute qualité. Pour assurer la compatibilité entre DiT et nos contrôles multi-modaux, nous cartographions tous les contrôles de mouvement dans une représentation commune, éparse et conviviale, basée sur des points, qui sert d'entrée vidéo/bruit. De plus, pour respecter la variété des contrôles qui opèrent à différents niveaux de granularité et d'influence, nous séparons les contrôles de contenu et les contrôles de mouvement en deux branches pour encoder les caractéristiques nécessaires avant de guider le processus de débruitage, ce qui donne lieu à deux générateurs : un pour le mouvement et un autre pour le contenu. Enfin, nous proposons une stratégie d'entraînement par étapes pour garantir que notre modèle apprenne les contrôles multi-modaux de manière fluide. Des expériences qualitatives et quantitatives approfondies démontrent que les contrôles multi-modaux permettent une narration visuelle plus dynamique, personnalisable et contextuellement précise.