papers.description
La génération de code dans des contextes longs devient de plus en plus cruciale alors que les modèles de langage de grande taille (LLMs) doivent raisonner sur des informations étendues dans la base de code. Bien que les avancées récentes permettent aux LLMs de code de traiter des entrées longues, les coûts élevés des API et la latence de génération restent des goulots d'étranglement majeurs. Les techniques existantes d'élagage de contexte, comme LLMLingua, obtiennent des résultats prometteurs pour le texte général mais négligent les structures et dépendances spécifiques au code, conduisant à des performances sous-optimales dans les tâches de programmation. Dans cet article, nous proposons LongCodeZip, un nouveau framework de compression de code plug-and-play conçu spécifiquement pour les LLMs de code. LongCodeZip utilise une stratégie en deux étapes : (1) une compression grossière, qui identifie et classe les morceaux au niveau des fonctions en utilisant la perplexité conditionnelle par rapport à l'instruction, ne conservant que les fonctions les plus pertinentes ; et (2) une compression fine, qui segmente les fonctions conservées en blocs basés sur la perplexité et sélectionne un sous-ensemble optimal sous un budget de jetons adaptatif pour maximiser la pertinence. Les évaluations sur plusieurs tâches, y compris la complétion de code, la synthèse et la réponse à des questions, montrent que LongCodeZip surpasse systématiquement les méthodes de référence, atteignant un taux de compression allant jusqu'à 5,6x sans dégrader les performances des tâches. En réduisant efficacement la taille du contexte tout en préservant les informations essentielles, LongCodeZip permet aux LLMs de mieux s'adapter aux scénarios de code à grande échelle du monde réel, améliorant ainsi l'efficacité et les capacités des applications d'intelligence de code.
Les modèles de diffusion ont révolutionné la génération d'images et de vidéos, atteignant une qualité visuelle sans précédent. Cependant, leur dépendance aux architectures de type transformateur entraîne des coûts de calcul prohibitifs, en particulier lors de l'extension de la génération à des vidéos longues. Des travaux récents ont exploré des formulations autorégressives pour la génération de vidéos longues, généralement en distillant des enseignants bidirectionnels à court terme. Néanmoins, étant donné que les modèles enseignants ne peuvent pas synthétiser des vidéos longues, l'extrapolation des modèles étudiants au-delà de leur horizon d'entraînement conduit souvent à une dégradation prononcée de la qualité, résultant de l'accumulation d'erreurs dans l'espace latent continu. Dans cet article, nous proposons une approche simple mais efficace pour atténuer la dégradation de la qualité dans la génération de vidéos à long horizon, sans nécessiter de supervision de la part d'enseignants spécialisés dans les vidéos longues ou de réentraînement sur des ensembles de données de vidéos longues. Notre approche repose sur l'exploitation des connaissances riches des modèles enseignants pour fournir des indications au modèle étudiant à travers des segments échantillonnés issus de vidéos longues auto-générées. Notre méthode maintient la cohérence temporelle tout en augmentant la longueur des vidéos jusqu'à 20 fois au-delà des capacités de l'enseignant, évitant des problèmes courants tels que la surexposition et l'accumulation d'erreurs sans recalculer les images superposées comme le font les méthodes précédentes. Lorsque nous augmentons les ressources de calcul, notre méthode montre la capacité de générer des vidéos allant jusqu'à 4 minutes et 15 secondes, ce qui équivaut à 99,9 % de la durée maximale supportée par l'encodage de position de notre modèle de base et plus de 50 fois plus long que celui de notre modèle de référence. Les expériences sur des benchmarks standard et notre benchmark amélioré proposé démontrent que notre approche surpasse considérablement les méthodes de référence en termes de fidélité et de cohérence. Notre démonstration de vidéos à long horizon est disponible à l'adresse https://self-forcing-plus-plus.github.io/.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est un paradigme émergent visant à améliorer les capacités de raisonnement des grands modèles de langage. Cependant, l'entraînement standard sur politique unique rejette les expériences de déploiement après une seule mise à jour, entraînant une inefficacité computationnelle et une instabilité. Bien que les travaux antérieurs en apprentissage par renforcement aient mis en avant les avantages de la réutilisation des expériences passées, le rôle des caractéristiques de ces expériences dans la dynamique d'apprentissage des grands modèles de raisonnement reste peu exploré. Dans cet article, nous sommes les premiers à étudier ce qui rend une expérience de raisonnement précieuse et à identifier la justesse du déploiement et l'entropie comme des indicateurs efficaces de la valeur de l'expérience. Sur la base de ces insights, nous proposons ExGRPO (Optimisation Relative de Politique par Groupes Expérientiels), un cadre qui organise et priorise les expériences précieuses, et utilise un objectif de politique mixte pour équilibrer l'exploration et l'exploitation des expériences. Les expériences sur cinq modèles de base (1,5 à 8 milliards de paramètres) montrent qu'ExGRPO améliore systématiquement les performances de raisonnement sur des benchmarks mathématiques/généraux, avec un gain moyen de +3,5/7,6 points par rapport au RLVR sur politique unique. De plus, ExGRPO stabilise l'entraînement sur des modèles plus forts et plus faibles où les méthodes sur politique unique échouent. Ces résultats mettent en évidence la gestion raisonnée des expériences comme un ingrédient clé pour un RLVR efficace et scalable.
Les méthodes de représentation de scènes 3D comme les Neural Radiance Fields (NeRF) et le 3D Gaussian Splatting (3DGS) ont considérablement fait progresser la synthèse de nouvelles vues. Alors que ces méthodes deviennent prédominantes, il devient crucial de s'attaquer à leurs vulnérabilités. Nous analysons la robustesse du 3DGS face aux attaques d'empoisonnement au niveau de l'image et proposons une nouvelle méthode d'empoisonnement guidée par la densité. Notre méthode injecte stratégiquement des points gaussiens dans les régions de faible densité identifiées via l'estimation de densité par noyau (Kernel Density Estimation, KDE), intégrant des objets illusoires dépendants du point de vue clairement visibles depuis les vues empoisonnées tout en affectant minimalement les vues non altérées. De plus, nous introduisons une stratégie de bruit adaptatif pour perturber la cohérence multi-vues, renforçant ainsi l'efficacité de l'attaque. Nous proposons un protocole d'évaluation basé sur le KDE pour évaluer systématiquement la difficulté de l'attaque, permettant un benchmarking objectif pour les recherches futures. Des expériences approfondies démontrent la performance supérieure de notre méthode par rapport aux techniques de pointe. Page du projet : https://hentci.github.io/stealthattack/
Les grands modèles de langage (LLMs) ont récemment démontré des capacités impressionnantes en tant qu'agents autonomes, montrant des promesses dans le raisonnement, l'utilisation d'outils et la prise de décision séquentielle. Bien que des benchmarks antérieurs aient évalué les agents LLM dans des domaines tels que l'ingénierie logicielle et la découverte scientifique, le domaine de la finance reste sous-exploré, malgré sa pertinence directe pour la valeur économique et la prise de décision à enjeux élevés. Les benchmarks financiers existants testent principalement les connaissances statiques à travers des questions-réponses, mais ils ne parviennent pas à capturer la nature dynamique et itérative du trading. Pour combler cette lacune, nous introduisons StockBench, un benchmark exempt de contamination conçu pour évaluer les agents LLM dans des environnements réalistes de trading boursier sur plusieurs mois. Les agents reçoivent des signaux quotidiens du marché — incluant les prix, les fondamentaux et les actualités — et doivent prendre des décisions séquentielles d'achat, de vente ou de maintien. La performance est évaluée à l'aide de métriques financières telles que le rendement cumulatif, le drawdown maximum et le ratio de Sortino. Notre évaluation des modèles propriétaires de pointe (par exemple, GPT-5, Claude-4) et des modèles à poids ouvert (par exemple, Qwen3, Kimi-K2, GLM-4.5) montre que si la plupart des agents LLM peinent à surpasser la stratégie de base d'achat et de maintien, plusieurs modèles démontrent un potentiel pour générer des rendements plus élevés et gérer le risque plus efficacement. Ces résultats mettent en lumière à la fois les défis et les opportunités dans le développement d'agents financiers alimentés par des LLM, montrant qu'exceller dans des tâches de connaissances financières statiques ne se traduit pas nécessairement en stratégies de trading réussies. Nous publions StockBench en tant que ressource open-source pour soutenir la reproductibilité et faire avancer les recherches futures dans ce domaine.
Nous présentons F2LLM - Foundation to Feature Large Language Models, une suite de modèles d'embedding de pointe disponibles en trois tailles : 0,6B, 1,7B et 4B. Contrairement aux modèles d'embedding précédemment classés en tête, qui nécessitent un pré-entraînement contrastif massif, des pipelines d'entraînement sophistiqués et des données d'entraînement synthétiques coûteuses, F2LLM est directement affiné à partir de modèles de base sur 6 millions de tuples requête-document-négatif issus de jeux de données open-source et non synthétiques, offrant ainsi un équilibre solide entre coût d'entraînement, taille du modèle et performance d'embedding. Sur le classement MTEB en anglais, F2LLM-4B se classe 2ᵉ parmi les modèles d'environ 4B paramètres et 7ᵉ au classement général, tandis que F2LLM-1,7B occupe la 1ʳᵉ place parmi les modèles de la plage de taille 1B-2B. Pour faciliter les recherches futures dans ce domaine, nous publions les modèles, le jeu de données d'entraînement et le code, positionnant F2LLM comme une base de référence solide, reproductible et économique pour les travaux à venir.
L'entraînement traditionnel des réseaux de neurones suit généralement des recettes d'optimisation fixes et prédéfinies, manquant de flexibilité pour répondre dynamiquement aux instabilités ou aux problèmes émergents lors de l'apprentissage. Dans cet article, nous présentons l'**Entraînement Interactif**, un cadre open-source qui permet une intervention en temps réel, guidée par des retours, pendant l'entraînement des réseaux de neurones, par des experts humains ou des agents d'IA automatisés. Au cœur de l'Entraînement Interactif se trouve un serveur de contrôle qui médie la communication entre les utilisateurs ou les agents et le processus d'entraînement en cours, permettant aux utilisateurs d'ajuster dynamiquement les hyperparamètres de l'optimiseur, les données d'entraînement et les points de contrôle du modèle. À travers trois études de cas, nous démontrons que l'Entraînement Interactif permet d'obtenir une meilleure stabilité de l'entraînement, une sensibilité réduite aux hyperparamètres initiaux et une amélioration de l'adaptabilité aux besoins évolutifs des utilisateurs, ouvrant la voie à un futur paradigme d'entraînement où les agents d'IA surveillent de manière autonome les journaux d'entraînement, résolvent proactivement les instabilités et optimisent la dynamique de l'apprentissage.
Le paradigme dominant pour l'entraînement de grands modèles de raisonnement commence par un pré-entraînement utilisant une perte de prédiction de token suivant sur de vastes quantités de données. L'apprentissage par renforcement, bien que puissant pour mettre à l'échelle le raisonnement, n'est introduit qu'à la toute dernière phase de post-entraînement, précédé par un réglage fin supervisé. Bien que dominant, cette méthode est-elle optimale pour l'entraînement ? Dans cet article, nous présentons RLP, un objectif de pré-entraînement par renforcement guidé par l'information, qui apporte l'esprit central de l'apprentissage par renforcement — l'exploration — à la dernière phase du pré-entraînement. L'idée clé est de traiter la chaîne de pensée comme une action exploratoire, avec des récompenses calculées en fonction du gain d'information qu'elle fournit pour prédire les tokens futurs. Cet objectif d'entraînement encourage essentiellement le modèle à réfléchir par lui-même avant de prédire ce qui suit, enseignant ainsi un comportement de pensée indépendante plus tôt dans le pré-entraînement. Plus concrètement, le signal de récompense mesure l'augmentation de la log-vraisemblance du token suivant lorsque l'on conditionne à la fois sur le contexte et une chaîne de raisonnement échantillonnée, par rapport à un conditionnement sur le contexte seul. Cette approche produit un signal de récompense dense sans vérificateur, permettant un entraînement efficace pour le flux complet de documents pendant le pré-entraînement. Plus précisément, RLP reformule l'apprentissage par renforcement pour le raisonnement comme un objectif de pré-entraînement sur du texte ordinaire, comblant ainsi l'écart entre la prédiction de token suivant et l'émergence d'une chaîne de pensée utile. Le pré-entraînement avec RLP sur Qwen3-1.7B-Base améliore la moyenne globale sur une suite de huit benchmarks en mathématiques et sciences de 19 %. Avec un post-entraînement identique, les gains se cumulent, avec les plus fortes améliorations sur des tâches exigeantes en raisonnement comme AIME25 et MMLU-Pro. L'application de RLP au modèle hybride Nemotron-Nano-12B-v2 augmente la moyenne globale de 42,81 % à 61,32 % et élève la moyenne en raisonnement scientifique de 23 %, démontrant ainsi une scalabilité à travers les architectures et les tailles de modèles.
Les modèles d'encodage multimodaux gagnent en popularité, notamment pour la recherche de documents en tant qu'alternatives efficaces aux pipelines basés uniquement sur le texte. Ces modèles sont généralement construits en affinant des décodeurs vision-langage de grande taille (VLMs) avec des fonctions de perte contrastives sur des paires texte-image. Dans ce travail, nous montrons que, bien que rentable, cette approche de réutilisation limite souvent les performances de recherche. À travers des expériences contrôlées, nous établissons une recette méthodique pour améliorer les modèles de recherche de documents visuels. Nous mesurons notamment l'impact du masquage de l'attention, de la résolution des images, des régimes de données d'alignement des modalités, et des objectifs contrastifs centrés sur l'interaction tardive, qui se révèlent être des facteurs clés de performance. En nous appuyant sur ces insights, nous publions ModernVBERT, un encodeur vision-langage compact de 250 millions de paramètres qui surpasse des modèles jusqu'à 10 fois plus grands lorsqu'il est affiné pour des tâches de recherche de documents. Les modèles et le code sont disponibles à l'adresse https://huggingface.co/ModernVBERT.
Malgré les progrès récents et rapides en matière de sécurité de l'IA, les grands modèles de langage actuels restent vulnérables aux attaques adverses dans des contextes d'interaction multi-tours, où les attaquants adaptent stratégiquement leurs prompts au fil des tours de conversation, posant ainsi un défi plus critique et réaliste. Les approches existantes pour découvrir les vulnérabilités de sécurité reposent soit sur un red-teaming manuel avec des experts humains, soit sur des méthodes automatisées utilisant des modèles prédéfinis et des données d'attaque sélectionnées par des humains, la plupart se concentrant sur des attaques en un seul tour. Cependant, ces méthodes n'ont pas exploré l'immense espace des attaques multi-tours possibles, ne tenant pas compte des trajectoires d'attaque novatrices qui émergent des dynamiques complexes des dialogues et de la planification stratégique des conversations. Cette lacune est particulièrement critique étant donné les récentes découvertes selon lesquelles les LLM présentent une vulnérabilité significativement plus élevée aux attaques multi-tours par rapport aux attaques en un seul tour. Nous proposons DialTree-RPO, un cadre d'apprentissage par renforcement on-policy intégré à une recherche arborescente qui découvre de manière autonome des stratégies d'attaque multi-tours diversifiées en traitant le dialogue comme un problème de prise de décision séquentielle, permettant une exploration systématique sans données manuellement sélectionnées. À travers des expériences approfondies, notre approche non seulement atteint un taux de réussite d'attaque (ASR) supérieur de plus de 25,9 % sur 10 modèles cibles par rapport aux approches précédentes de pointe, mais découvre également efficacement de nouvelles stratégies d'attaque en apprenant des politiques de dialogue optimales qui maximisent le succès des attaques sur plusieurs tours.
La génération audio-vidéo a souvent reposé sur des architectures multi-étapes complexes ou sur une synthèse séquentielle du son et des visuels. Nous présentons Ovi, un paradigme unifié pour la génération audio-vidéo qui modélise les deux modalités comme un seul processus génératif. En utilisant une fusion intermodale par blocs de modules twin-DiT, Ovi réalise une synchronisation naturelle et élimine le besoin de pipelines séparés ou d'alignement a posteriori. Pour faciliter la modélisation fine de la fusion multimodale, nous initialisons une tour audio avec une architecture identique à celle d'un modèle vidéo pré-entraîné performant. Entraînée à partir de zéro sur des centaines de milliers d'heures d'audio brut, la tour audio apprend à générer des effets sonores réalistes ainsi que des paroles qui transmettent une identité et des émotions riches du locuteur. La fusion est obtenue en entraînant conjointement les tours vidéo et audio identiques via un échange par blocs de la temporalité (via des embeddings scaled-RoPE) et de la sémantique (par une attention croisée bidirectionnelle) sur un vaste corpus vidéo. Notre modèle permet une narration cinématographique avec des paroles naturelles et des effets sonores précis et adaptés au contexte, produisant des clips vidéo de qualité cinématographique. Toutes les démos, le code et les poids du modèle sont publiés à l'adresse https://aaxwaz.github.io/Ovi.
Les agents de modèles de langage de grande taille (LLM) émergent rapidement comme des systèmes puissants pour automatiser des tâches dans divers domaines. Cependant, les progrès au sein de la communauté open source sont freinés par le manque de données d'entraînement de haute qualité et sous licence permissive pour les agents utilisant des outils. Les jeux de données existants sont souvent limités en termes de diversité, de réalisme et de complexité, en particulier concernant les interactions multi-outils et multi-tours. Pour combler cette lacune, nous présentons Toucan, le plus grand jeu de données publiquement disponible à ce jour pour les agents utilisant des outils, contenant 1,5 million de trajectoires synthétisées à partir de près de 500 protocoles de contexte de modèle (MCP) du monde réel. Contrairement aux travaux précédents, Toucan exploite des environnements MCP authentiques pour générer des tâches diversifiées, réalistes et complexes, avec des trajectoires impliquant l'exécution réelle d'outils. Notre pipeline produit d'abord un large éventail de requêtes d'utilisation d'outils à l'aide de cinq modèles distincts, applique un filtrage de qualité basé sur des modèles, puis génère des trajectoires agentiques avec trois modèles enseignants utilisant deux frameworks agentiques. Une validation rigoureuse basée sur des règles et des modèles garantit des résultats de haute qualité. Nous introduisons également trois mécanismes d'extension pour diversifier davantage les tâches et simuler des conversations multi-tours. Les modèles affinés sur Toucan surpassent leurs homologues plus grands et propriétaires sur le benchmark BFCL V3 et repoussent la frontière de Pareto sur le benchmark MCP-Universe.
Les agents d'utilisation informatique (CUAs) offrent des perspectives prometteuses pour l'automatisation des tâches numériques quotidiennes, mais leur manque de fiabilité et leur grande variabilité limitent leur application à des tâches complexes et à long terme. Nous introduisons la méthode Behavior Best-of-N (bBoN), qui permet de mettre à l'échelle ces agents en générant plusieurs déploiements et en sélectionnant parmi eux à l'aide de récits comportementaux décrivant les déploiements des agents. Cette méthode permet à la fois une exploration étendue et une sélection de trajectoires fondée sur des principes, améliorant considérablement la robustesse et les taux de réussite. Sur OSWorld, notre méthode de mise à l'échelle bBoN établit un nouvel état de l'art (SoTA) à 69,9 %, surpassant significativement les méthodes précédentes et s'approchant des performances humaines à 72 %, avec des ablations complètes validant les choix clés de conception. Nous démontrons également de solides résultats de généralisation sur différents systèmes d'exploitation avec WindowsAgentArena et AndroidWorld. De manière cruciale, nos résultats mettent en évidence l'efficacité déraisonnable de la mise à l'échelle des CUAs lorsqu'elle est bien réalisée : une mise à l'échelle efficace nécessite une compréhension et une sélection structurées des trajectoires, et bBoN fournit un cadre pratique pour y parvenir.
L'évaluation de la qualité des sorties des modèles de langage de grande taille (LLM) représente un défi critique. Les méthodes précédentes reposent soit sur des informations au niveau du texte (par exemple, des modèles de récompense, le vote majoritaire), qui peuvent sur-apprendre des indices superficiels, soit sur la confiance calibrée à partir des probabilités des tokens, ce qui échoue sur des modèles moins calibrés. Pourtant, ces deux signaux sont en réalité des projections partielles d'une source d'information plus riche : les états internes cachés du modèle. Les couches initiales, plus proches des embeddings de tokens, préservent les caractéristiques sémantiques et lexicales qui sous-tendent les jugements basés sur le texte, tandis que les couches ultérieures s'alignent de plus en plus avec les logits de sortie, intégrant des informations liées à la confiance. Cet article explore directement les états cachés comme fondement unifié pour la vérification. Nous montrons que la correction d'une solution est encodée comme une signature géométriquement séparable dans la trajectoire des activations cachées. Pour valider cela, nous présentons Clue (Clustering and Experience-based Verification), un vérificateur délibérément minimaliste et non paramétrique. Sans paramètres entraînables, CLUE résume chaque trace de raisonnement par un delta d'état caché et classe la correction via la distance au centroïde le plus proche des clusters de « succès » et « échec » formés à partir d'expériences passées. La simplicité de cette méthode met en évidence la force du signal sous-jacent. Empiriquement, CLUE surpasse systématiquement les bases de référence LLM-comme-juge et égale ou dépasse les méthodes modernes basées sur la confiance dans le réclassement des candidats, améliorant à la fois la précision top-1 et le vote majoritaire sur AIME 24/25 et GPQA. En point culminant, sur AIME 24 avec un modèle de 1,5 milliard de paramètres, CLUE augmente la précision de 56,7 % (majorité@64) à 70,0 % (top-maj@16).
Le pilotage par activation est une technique prometteuse pour contrôler le comportement des modèles de langage (LLM) en ajoutant des vecteurs sémantiquement significatifs directement dans les états cachés du modèle lors de l'inférence. Il est souvent présenté comme une alternative précise, interprétable et potentiellement plus sûre au réglage fin. Nous démontrons le contraire : le pilotage compromet systématiquement les dispositifs de sécurité d'alignement du modèle, le rendant conforme à des requêtes nuisibles. À travers des expériences approfondies sur différentes familles de modèles, nous montrons que même un pilotage dans une direction aléatoire peut augmenter la probabilité de conformité nuisible de 0 % à 2-27 %. De manière alarmante, le pilotage de caractéristiques bénignes issues d'un autoencodeur parcimonieux (SAE), une source courante de directions interprétables, augmente ces taux de 2 à 4 % supplémentaires. Enfin, nous montrons que la combinaison de 20 vecteurs échantillonnés aléatoirement qui contournent une seule requête crée une attaque universelle, augmentant significativement la conformité nuisible sur des requêtes non vues. Ces résultats remettent en question le paradigme de la sécurité par interprétabilité, montrant qu'un contrôle précis des internes du modèle ne garantit pas un contrôle précis du comportement du modèle.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore le raisonnement dans les grands modèles de langage (LLMs), mais peine à gérer l'exploration, un problème qui persiste également pour les LLMs multimodaux (MLLMs). Les méthodes actuelles traitent l'entrée visuelle comme une condition fixe et déterministe, négligeant une source critique d'ambiguïté et peinant à construire des politiques robustes face aux variations visuelles plausibles. Nous introduisons VOGUE (Visual Uncertainty Guided Exploration), une méthode novatrice qui déplace l'exploration de l'espace de sortie (texte) vers l'espace d'entrée (visuel). En traitant l'image comme un contexte stochastique, VOGUE quantifie la sensibilité de la politique aux perturbations visuelles en utilisant la divergence KL symétrique entre une branche "brute" et une branche "bruitée", créant ainsi un signal direct pour une exploration tenant compte de l'incertitude. Ce signal façonne l'objectif d'apprentissage via un bonus proportionnel à l'incertitude, qui, combiné à un bonus d'entropie des tokens et à un échantillonnage progressif, équilibre efficacement exploration et exploitation. Implémenté dans GRPO sur deux échelles de modèles (Qwen2.5-VL-3B/7B), VOGUE améliore la précision pass@1 de 2,6 % en moyenne sur trois benchmarks de mathématiques visuelles et de 3,7 % sur trois benchmarks de raisonnement général, tout en augmentant les performances pass@4 et en atténuant le déclin d'exploration couramment observé lors du réglage fin par RL. Notre travail montre que l'ancrage de l'exploration dans l'incertitude inhérente des entrées visuelles est une stratégie efficace pour améliorer le raisonnement multimodal.
L'intelligence artificielle est en train de vivre un changement de paradigme, passant de modèles de langage fermés à des systèmes d'agents interconnectés capables de perception externe et d'intégration d'informations. En tant qu'incarnation représentative, les Agents de Recherche Profonde (Deep Research Agents, DRAs) démontrent systématiquement des capacités de décomposition de tâches, de recherche inter-sources, de raisonnement multi-étapes et de production de sorties structurées, ce qui améliore significativement les performances sur des tâches complexes et ouvertes. Cependant, les benchmarks existants restent déficients en termes de dimensions d'évaluation, de formatage des réponses et de mécanismes de notation, limitant leur capacité à évaluer efficacement de tels systèmes. Cet article présente un benchmark rigoureux et un cadre d'évaluation multidimensionnel adapté aux DRAs et aux réponses de type rapport. Le benchmark comprend 214 requêtes complexes, expertement sélectionnées et réparties sur 10 domaines thématiques larges, chacune accompagnée de références manuellement construites pour soutenir une évaluation composite. Le cadre permet une évaluation complète des rapports détaillés générés par les DRAs, intégrant des métriques de notation pour la qualité sémantique, la focalisation thématique et la fiabilité des informations récupérées. Des expérimentations approfondies confirment la performance supérieure des DRAs mainstream par rapport aux modèles de raisonnement augmentés par des outils de recherche web, tout en révélant un potentiel considérable d'amélioration. Cette étude fournit une base solide pour l'évaluation des capacités, l'affinement architectural et l'avancement du paradigme dans les systèmes DRA.
Les grands modèles de langage (LLMs) génèrent souvent des hallucinations — des contenus non étayés qui compromettent la fiabilité. Bien que la plupart des travaux antérieurs abordent la détection des hallucinations comme une tâche binaire, de nombreuses applications réelles nécessitent l'identification de segments hallucinés, ce qui constitue un processus de prise de décision en plusieurs étapes. Cela soulève naturellement la question de savoir si un raisonnement explicite peut faciliter la tâche complexe de détection des segments hallucinés. Pour répondre à cette question, nous évaluons d'abord des modèles pré-entraînés avec et sans raisonnement en chaîne de pensée (CoT), et montrons que le raisonnement CoT a le potentiel de générer au moins une réponse correcte lorsqu'il est échantillonné plusieurs fois. Motivés par cela, nous proposons RL4HS, un cadre d'apprentissage par renforcement qui encourage le raisonnement avec une fonction de récompense au niveau des segments. RL4HS s'appuie sur l'optimisation de politique relative par groupe et introduit l'optimisation de politique consciente des classes pour atténuer le problème de déséquilibre des récompenses. Les expériences sur le benchmark RAGTruth (résumé, réponse à des questions, données-à-texte) montrent que RL4HS surpasse les modèles de raisonnement pré-entraînés et l'ajustement supervisé, démontrant la nécessité de l'apprentissage par renforcement avec des récompenses au niveau des segments pour détecter les segments hallucinés.
Le raisonnement visuel fin reste un défi central pour les modèles de langage multimodaux de grande taille (MLLMs). Le récent ReasonMap met en lumière cet écart en montrant que même les MLLMs avancés peinent à effectuer un raisonnement spatial dans des contextes structurés et riches en informations, comme les cartes de transport, une tâche d'importance pratique et scientifique évidente. Cependant, l'apprentissage par renforcement (RL) standard sur de telles tâches est entravé par des récompenses rares et une optimisation instable. Pour y remédier, nous construisons d'abord ReasonMap-Plus, un ensemble de données étendu qui introduit des signaux de récompense denses via des tâches de Question-Réponse Visuelle (VQA), permettant un entraînement efficace à froid des compétences de compréhension visuelle fine. Ensuite, nous proposons RewardMap, un cadre RL multi-étapes conçu pour améliorer à la fois la compréhension visuelle et les capacités de raisonnement des MLLMs. RewardMap intègre deux conceptions clés. Premièrement, nous introduisons une conception de récompense sensible à la difficulté qui inclut des récompenses détaillées, abordant directement le problème des récompenses rares tout en fournissant une supervision plus riche. Deuxièmement, nous proposons un schéma RL multi-étapes qui amorce l'entraînement à partir de tâches de perception simples vers des tâches de raisonnement complexes, offrant une stratégie de démarrage à froid plus efficace que le réglage fin supervisé (SFT) conventionnel. Les expériences sur ReasonMap et ReasonMap-Plus démontrent que chaque composant de RewardMap contribue à des gains de performance constants, tandis que leur combinaison donne les meilleurs résultats. De plus, les modèles entraînés avec RewardMap obtiennent une amélioration moyenne de 3,47 % sur 6 benchmarks couvrant le raisonnement spatial, le raisonnement visuel fin et des tâches générales au-delà des cartes de transport, soulignant des capacités améliorées de compréhension et de raisonnement visuels.
Nous présentons Aristotle, un système d'intelligence artificielle qui combine la vérification formelle avec le raisonnement informel, atteignant des performances équivalentes à une médaille d'or sur les problèmes de l'Olympiade Internationale de Mathématiques de 2025. Aristotle intègre trois composants principaux : un système de recherche de preuves Lean, un système de raisonnement informel qui génère et formalise des lemmes, et un solveur de géométrie dédié. Notre système démontre des performances de pointe avec des propriétés d'évolutivité favorables pour la démonstration automatique de théorèmes.
L'édition d'images basée sur le glissement a longtemps souffert de distorsions dans la région cible, principalement parce que les a priori des modèles de base précédents, comme Stable Diffusion, sont insuffisants pour projeter des latents optimisés sur la variété naturelle des images. Avec le passage des DDPM basés sur UNet à des DiT plus évolutifs avec appariement de flux (par exemple, SD3.5, FLUX), les a priori génératifs sont devenus significativement plus robustes, permettant des avancées dans diverses tâches d'édition. Cependant, l'édition basée sur le glissement n'a pas encore bénéficié de ces a priori renforcés. Ce travail propose le premier cadre pour exploiter efficacement l'a priori riche de FLUX pour l'édition basée sur le glissement, appelé DragFlow, obtenant des gains substantiels par rapport aux méthodes de référence. Nous montrons d'abord que l'application directe de l'édition par glissement basée sur des points aux DiT donne de mauvais résultats : contrairement aux caractéristiques hautement compressées des UNet, les caractéristiques des DiT sont insuffisamment structurées pour fournir un guidage fiable pour la supervision du mouvement point par point. Pour surmonter cette limitation, DragFlow introduit un paradigme d'édition basé sur des régions, où les transformations affines permettent une supervision des caractéristiques plus riche et plus cohérente. De plus, nous intégrons des adaptateurs de personnalisation pré-entraînés pour des domaines ouverts (par exemple, IP-Adapter) pour améliorer la cohérence du sujet, tout en préservant la fidélité de l'arrière-plan grâce à des contraintes strictes basées sur des masques de gradient. Les modèles de langage multimodaux de grande taille (MLLMs) sont également utilisés pour résoudre les ambiguïtés des tâches. Pour l'évaluation, nous avons constitué un nouveau benchmark d'édition par glissement basé sur des régions (ReD Bench) comprenant des instructions de glissement au niveau des régions. Des expériences approfondies sur DragBench-DR et ReD Bench montrent que DragFlow surpasse à la fois les méthodes de référence basées sur des points et sur des régions, établissant un nouvel état de l'art dans l'édition d'images basée sur le glissement. Le code et les jeux de données seront rendus publics après la publication.
L'architecture Transformer, soutenue par le mécanisme d'Attention Multi-Têtes (Multi-Head Attention, MHA), est devenue la norme de facto pour les modèles de pointe en intelligence artificielle. Cependant, la complexité computationnelle quadratique de la MHA par rapport à la longueur des séquences constitue un obstacle majeur à la mise à l'échelle, en particulier pour les applications impliquant des contextes longs. Les solutions prédominantes, telles que l'Attention Multi-Requête (Multi-Query Attention, MQA) et l'Attention à Requêtes Groupées (Grouped-Query Attention, GQA), ont efficacement résolu le goulot d'étranglement de la bande passante mémoire qui domine la latence de l'inférence autorégressive en partageant les projections des clés (Keys) et des valeurs (Values). Bien que très réussies, ces méthodes ne réduisent pas le nombre fondamental d'opérations en virgule flottante (FLOPs) nécessaires au calcul des scores d'attention, qui reste un goulot d'étranglement critique pour l'entraînement et le traitement de séquences complètes. Ce papier introduit l'Attention à Requêtes Sparse (Sparse Query Attention, SQA), une architecture d'attention novatrice qui explore une voie d'optimisation alternative et complémentaire. Au lieu de réduire les têtes de clés/valeurs, la SQA réduit le nombre de têtes de requêtes (Query heads). Cette modification architecturale diminue directement la complexité computationnelle du mécanisme d'attention d'un facteur proportionnel à la réduction des têtes de requêtes, réduisant ainsi le nombre total de FLOPs. Ce travail présente les fondements théoriques de la SQA, sa formulation mathématique, ainsi qu'une famille de variantes architecturales. Des benchmarks empiriques sur des séquences longues (32k à 200k tokens) démontrent que la SQA peut atteindre des améliorations significatives de débit, allant jusqu'à 3x dans des scénarios limités par la computation, tels que le pré-entraînement de modèles, le fine-tuning et les tâches basées sur des encodeurs, avec un impact minimal sur la qualité du modèle dans des expériences préliminaires à petite échelle. La SQA a été découverte de manière fortuite lors du développement de la future architecture Reactive Transformer, suggérant son potentiel en tant qu'outil puissant pour construire des modèles plus efficaces et évolutifs.
Les hallucinations ancrées dans le contexte sont des cas où les sorties d'un modèle contiennent des informations non vérifiables par rapport au texte source. Nous étudions l'applicabilité des modèles de langage de grande taille (LLMs) pour localiser de telles hallucinations, offrant ainsi une alternative plus pratique aux pipelines d'évaluation complexes existants. En l'absence de benchmarks établis pour la méta-évaluation de la localisation des hallucinations, nous en construisons un adapté aux LLMs, impliquant une annotation humaine exigeante de plus de 1 000 exemples. Nous complétons ce benchmark avec un protocole d'évaluation basé sur les LLMs, en vérifiant sa qualité par une évaluation humaine. Étant donné que les représentations existantes des hallucinations limitent les types d'erreurs pouvant être exprimées, nous proposons une nouvelle représentation basée sur des descriptions textuelles libres, capturant toute la gamme des erreurs possibles. Nous menons une étude approfondie, évaluant quatre LLMs à grande échelle, qui met en évidence la difficulté du benchmark, le meilleur modèle atteignant un score F1 de seulement 0,67. Grâce à une analyse minutieuse, nous offrons des insights sur les stratégies de prompting optimales pour cette tâche et identifions les principaux facteurs qui la rendent difficile pour les LLMs : (1) une tendance à marquer incorrectement les détails manquants comme incohérents, malgré des instructions visant à vérifier uniquement les faits dans la sortie ; et (2) une difficulté avec les sorties contenant des informations factuellement correctes mais absentes de la source – et donc non vérifiables – en raison de leur alignement avec les connaissances paramétriques du modèle.
La compréhension vidéo dans les modèles de langage multimodaux reste limitée par la longueur du contexte : les modèles manquent souvent des images de transition clés et peinent à maintenir la cohérence sur de longues échelles temporelles. Pour remédier à cela, nous adaptons l'Attention Sparse Native (NSA) aux modèles vidéo-langage. Notre méthode, VideoNSA, adapte Qwen2.5-VL via un entraînement de bout en bout sur un ensemble de données de 216K instructions vidéo. Nous utilisons une approche hybride d'attention consciente du matériel, préservant l'attention dense pour le texte, tout en employant la NSA pour la vidéo. Par rapport aux bases de référence de compression de tokens et d'attention sparse sans entraînement, VideoNSA obtient de meilleures performances en compréhension de vidéos longues, en raisonnement temporel et en benchmarks spatiaux. Une analyse d'ablation approfondie révèle quatre résultats clés : (1) une mise à l'échelle fiable jusqu'à 128K tokens ; (2) une allocation optimale de l'attention globale-locale avec un budget fixe ; (3) des modèles d'utilisation des branches dépendants de la tâche ; et (4) l'attention sparse combinée apprenable aide à induire des puits d'attention dynamiques.
Bien que les modèles actuels de vision et langage (VLMs) aient progressé dans la compréhension et le raisonnement multimodaux, leurs capacités fondamentales de perception et de raisonnement restent limitées. Plus précisément, même sur des tâches simples de puzzle, les VLMs existants performent de manière quasi aléatoire, révélant des lacunes dans leurs capacités de perception et de raisonnement. Bien que des données de haute qualité en vision et langage puissent améliorer ces capacités, leur rareté et leur évolutivité limitée imposent des contraintes significatives. Pour remédier à cela, nous proposons AGILE, un Apprentissage Interactif de Puzzle Agentique pour Améliorer la perception visuelle et le raisonnement dans les VLMs. AGILE formule la résolution de puzzle comme un processus interactif, permettant au modèle de s'engager progressivement avec l'environnement. À chaque étape, le modèle génère un code exécutable pour effectuer une action basée sur l'état actuel, tandis que l'environnement fournit un retour visuel détaillé pour guider l'accomplissement de la tâche. Grâce à ce cycle itératif d'observation et d'interaction, le modèle améliore progressivement ses capacités de perception et de raisonnement via l'exploration et le retour d'information. Les résultats expérimentaux montrent qu'AGILE non seulement améliore considérablement les performances sur des tâches de puzzle de complexité variable (par exemple, en augmentant la précision de 9,5 % à 82,8 % dans le cadre d'un puzzle 2 fois 2), mais démontre également une forte généralisation sur 9 tâches de vision générale, avec une amélioration moyenne de 3,1 %. Ces résultats indiquent des améliorations notables à la fois dans les capacités de perception et de raisonnement. Ce travail ouvre une nouvelle voie pour faire progresser le raisonnement et la généralisation dans les modèles multimodaux et fournit une solution efficace et évolutive à la rareté des données d'apprentissage par renforcement multimodal. Le code et les ensembles de données sont disponibles à l'adresse https://github.com/yuzeng0-0/AGILE.
Les systèmes multi-agents (MAS) alimentés par des modèles de langage visuel (VLMs) permettent de réaliser des tâches complexes, mais souffrent d'un nouveau type de défaillance : l'effet boule de neige des hallucinations visuelles multi-agents. Ce phénomène survient lorsqu'une hallucination est initiée par un seul agent et amplifiée par les agents suivants, en raison d'une dépendance excessive au flux textuel pour transmettre les informations visuelles. Grâce à des analyses d'attention au niveau des tours, des couches et des tokens, nous fournissons des insights détaillés sur l'essence de cet effet boule de neige, en lien avec la réduction de l'allocation d'attention visuelle. Cela nous permet d'identifier un sous-ensemble de tokens visuels présentant un pic d'attention unimodal dans les couches intermédiaires, qui préservent au mieux les preuves visuelles mais s'atténuent progressivement dans les tours d'agents plus profonds, entraînant ainsi l'effet boule de neige des hallucinations visuelles dans les MAS. Nous proposons donc ViF, un paradigme léger et plug-and-play pour atténuer ce problème, qui relaie les messages inter-agents avec un flux visuel alimenté par les tokens de relais visuels sélectionnés et applique une réallocation de l'attention pour amplifier ce schéma. Les résultats expérimentaux montrent que notre méthode réduit significativement l'effet boule de neige des hallucinations, améliorant de manière constante les performances sur huit benchmarks basés sur quatre structures MAS courantes et dix modèles de base. Le code source sera disponible à l'adresse : https://github.com/YU-deep/ViF.git.
Le redimensionnement au moment du test (Test-time Scaling, TTS) a démontré un succès remarquable dans l'amélioration des grands modèles de langage, mais son application à la génération d'images autoregressive (AR) basée sur la prédiction du token suivant (Next-Token Prediction, NTP) reste largement inexplorée. Les approches existantes de TTS pour l'AR visuelle (Visual AR, VAR), qui reposent sur un décodage partiel fréquent et des modèles de récompense externes, sont mal adaptées à la génération d'images basée sur la NTP en raison de l'incomplétude inhérente des résultats de décodage intermédiaires. Pour combler cette lacune, nous introduisons ScalingAR, le premier cadre TTS spécifiquement conçu pour la génération d'images AR basée sur la NTP, éliminant le besoin de décodage précoce ou de récompenses auxiliaires. ScalingAR exploite l'entropie des tokens comme un signal novateur dans la génération de tokens visuels et opère à deux niveaux de redimensionnement complémentaires : (i) le niveau Profil, qui diffuse un état de confiance calibré en fusionnant des signaux intrinsèques et conditionnels ; et (ii) le niveau Politique, qui utilise cet état pour interrompre de manière adaptative les trajectoires à faible confiance et planifier dynamiquement le guidage pour une force de conditionnement adaptée à la phase. Les expériences sur des benchmarks généraux et compositionnels montrent que ScalingAR (1) améliore les modèles de base de 12,5 % sur GenEval et de 15,2 % sur TIIF-Bench, (2) réduit efficacement la consommation de tokens visuels de 62,0 % tout en surpassant les modèles de référence, et (3) améliore avec succès la robustesse, atténuant les baisses de performance de 26,0 % dans des scénarios difficiles.
Le raisonnement nécessite de dépasser la simple correspondance de motifs ou la mémorisation de solutions pour identifier et mettre en œuvre des « procédures algorithmiques » permettant de déduire des réponses à des problèmes complexes. Cela implique de reconnaître les primitives, résultats intermédiaires ou procédures partagées les plus pertinents, puis de s’appuyer sur eux. Bien que l’apprentissage par renforcement (RL) post-entraînement sur de longues chaînes de raisonnement vise à découvrir ce type de comportement algorithmique, la plupart des traces de raisonnement apprises par les grands modèles échouent à capturer ou à réutiliser de manière cohérente des procédures, dérivant plutôt vers une exploration verbale et dégénérée. Pour aborder un raisonnement plus efficace, nous introduisons des abstractions de raisonnement : des descriptions concises en langage naturel de connaissances procédurales et factuelles qui guident le modèle vers l’apprentissage d’un raisonnement réussi. Nous entraînons les modèles à proposer plusieurs abstractions face à un problème, suivies d’un RL qui incite à construire une solution en utilisant les informations fournies par ces abstractions. Cela aboutit à un paradigme d’entraînement RL à deux joueurs, abrégé RLAD, qui entraîne conjointement un générateur d’abstractions et un générateur de solutions. Cette configuration permet une exploration structurée, découple les signaux d’apprentissage de la proposition d’abstractions et de la génération de solutions, et améliore la généralisation à des problèmes plus difficiles. Nous montrons également qu’allouer plus de ressources de calcul au temps de test pour générer des abstractions est plus bénéfique pour la performance que de générer davantage de solutions avec des budgets de test élevés, illustrant ainsi le rôle des abstractions dans la guidance d’une exploration significative.
Les modèles Vision-Langage-Action (VLA) visent à unifier la perception, la compréhension du langage et la génération d'actions, offrant une forte généralisation inter-tâches et inter-scènes avec un impact significatif sur l'IA incarnée. Cependant, les modèles VLA actuels manquent souvent de raisonnement explicite étape par étape, produisant plutôt des actions finales sans tenir compte des contraintes d'affordance ou des relations géométriques. Leurs pipelines post-entraînement renforcent rarement la qualité du raisonnement, reposant principalement sur un ajustement fin supervisé avec une conception de récompense faible. Pour relever ces défis, nous présentons VLA-R1, un VLA amélioré par le raisonnement qui intègre l'Apprentissage par Renforcement à partir de Récompenses Vérifiables (RLVR) avec l'Optimisation de Politique Relative par Groupe (GRPO) afin d'optimiser systématiquement à la fois le raisonnement et l'exécution. Plus précisément, nous concevons une stratégie post-entraînement basée sur RLVR avec des récompenses vérifiables pour l'alignement des régions, la cohérence des trajectoires et la mise en forme des sorties, renforçant ainsi la robustesse du raisonnement et la précision de l'exécution. De plus, nous développons VLA-CoT-13K, un ensemble de données de haute qualité qui fournit une supervision en chaîne de pensée explicitement alignée avec les annotations d'affordance et de trajectoire. Par ailleurs, des évaluations approfondies sur des plateformes en domaine, hors domaine, de simulation et de robot réel démontrent que VLA-R1 atteint une généralisation et des performances en conditions réelles supérieures par rapport aux méthodes VLA précédentes. Nous prévoyons de publier le modèle, le code et l'ensemble de données après la publication de ce travail. Code : https://github.com/GigaAI-research/VLA-R1. Site web : https://gigaai-research.github.io/VLA-R1.
La génération automatisée de rapports radiologiques structurés (SRRG) à partir d'images radiographiques thoraciques offre un potentiel significatif pour réduire la charge de travail des radiologues en produisant des rapports dans des formats structurés qui garantissent clarté, cohérence et respect des normes de compte-rendu clinique. Alors que les radiologues utilisent efficacement les contextes cliniques disponibles dans leur raisonnement diagnostique, les systèmes SRRG existants négligent ces éléments essentiels. Cette lacune fondamentale entraîne des problèmes critiques, notamment des hallucinations temporelles lors de la référence à des contextes cliniques inexistants. Pour pallier ces limitations, nous proposons une approche contextualisée de SRRG (C-SRRG) qui intègre de manière exhaustive un riche contexte clinique pour la génération de rapports. Nous constituons un ensemble de données C-SRRG en intégrant un contexte clinique complet comprenant 1) des images radiographiques multi-vues, 2) l'indication clinique, 3) les techniques d'imagerie, et 4) les études antérieures avec les comparaisons correspondantes basées sur les antécédents des patients. Grâce à un benchmarking approfondi avec des modèles de langage multimodal de pointe, nous démontrons que l'intégration du contexte clinique avec la méthode C-SRRG proposée améliore significativement la qualité de la génération de rapports. Nous rendons publics l'ensemble de données, le code et les points de contrôle pour faciliter les recherches futures sur la génération automatisée de rapports radiologiques alignés sur la pratique clinique à l'adresse https://github.com/vuno/contextualized-srrg.
Les réseaux de neurones graphiques (GNN) constituent l'architecture dominante pour l'apprentissage automatique moléculaire, en particulier pour la prédiction des propriétés moléculaires et les potentiels interatomiques basés sur l'apprentissage automatique (MLIP). Les GNN effectuent un passage de messages sur des graphes prédéfinis, souvent induits par un rayon de coupure fixe ou un schéma des k-plus proches voisins. Bien que cette conception s'aligne sur la localité présente dans de nombreuses tâches moléculaires, un graphe prédéfini peut limiter l'expressivité en raison du champ réceptif fixe et ralentir l'inférence avec des opérations sur des graphes creux. Dans ce travail, nous étudions si des Transformers purs, non modifiés, entraînés directement sur des coordonnées cartésiennes—sans graphes prédéfinis ni connaissances physiques préalables—peuvent approximer les énergies et les forces moléculaires. Comme point de départ de notre analyse, nous montrons comment entraîner un Transformer pour atteindre des erreurs absolues moyennes compétitives en énergie et en force, avec un budget de calcul d'entraînement équivalent, par rapport à un GNN équivariant de pointe sur le jeu de données OMol25. Nous découvrons que le Transformer apprend des motifs physiquement cohérents—tels que des poids d'attention qui décroissent inversement avec la distance interatomique—et les adapte de manière flexible à différents environnements moléculaires, en l'absence de biais prédéfinis. L'utilisation d'un Transformer standard permet également des améliorations prévisibles en fonction de l'augmentation des ressources d'entraînement, conformément aux lois d'échelle empiriques observées dans d'autres domaines. Nos résultats démontrent que de nombreuses propriétés favorables des GNN peuvent émerger de manière adaptative dans les Transformers, remettant en question la nécessité des biais inductifs de graphes prédéfinis et ouvrant la voie à des architectures standardisées et évolutives pour la modélisation moléculaire.
Les agents d'utilisation informatique (Computer-Use Agents, CUAs) constituent une classe d'agents de plus en plus déployée qui exécutent des actions sur des interfaces graphiques pour accomplir les objectifs des utilisateurs. Dans cet article, nous montrons que les CUAs présentent systématiquement une tendance aveugle à la poursuite d'objectifs (Blind Goal-Directedness, BGD) : un biais les poussant à poursuivre des objectifs indépendamment de leur faisabilité, de leur sécurité, de leur fiabilité ou du contexte. Nous caractérisons trois schémas prévalents de BGD : (i) l'absence de raisonnement contextuel, (ii) les hypothèses et décisions prises dans l'ambiguïté, et (iii) les objectifs contradictoires ou irréalisables. Nous développons BLIND-ACT, un benchmark de 90 tâches capturant ces trois schémas. Construit sur OSWorld, BLIND-ACT fournit des environnements réalistes et utilise des évaluateurs basés sur des modèles de langage (LLM) pour juger le comportement des agents, atteignant un accord de 93,75 % avec les annotations humaines. Nous utilisons BLIND-ACT pour évaluer neuf modèles de pointe, dont Claude Sonnet et Opus 4, Computer-Use-Preview, et GPT-5, observant des taux moyens élevés de BGD (80,8 %) parmi eux. Nous montrons que la BGD expose des risques subtils qui surviennent même lorsque les entrées ne sont pas directement nuisibles. Bien que les interventions basées sur l'ajustement des prompts réduisent les niveaux de BGD, un risque substantiel persiste, soulignant la nécessité d'interventions plus robustes lors de l'entraînement ou de l'inférence. Une analyse qualitative révèle les modes d'échec observés : le biais d'exécution prioritaire (se concentrer sur la manière d'agir plutôt que sur la nécessité d'agir), la dissociation pensée-action (l'exécution divergeant du raisonnement) et la primauté de la demande (justifier les actions en raison de la requête de l'utilisateur). L'identification de la BGD et l'introduction de BLIND-ACT établissent une base pour les recherches futures visant à étudier et atténuer ce risque fondamental et à assurer un déploiement sécurisé des CUAs.
Les modèles d'apprentissage de représentation multimodale ont démontré leur efficacité dans des tâches complexes, et l'intégration de modèles vision-langage (VLMs) a permis d'équiper les modèles d'incorporation de capacités à suivre des instructions. Cependant, les modèles d'incorporation existants manquent de capacités visuelles interactives pour spécifier des régions d'intérêt définies par les utilisateurs (par exemple, point, boîte englobante, masque), qui ont été explorées dans les modèles génératifs pour élargir leur applicabilité interactive avec les humains. Doté les modèles d'incorporation d'interactions visuelles non seulement débloquerait de nouvelles applications avec un ancrage localisé de l'intention de l'utilisateur, qui reste inexploré, mais permettrait également aux modèles d'apprendre des informations au niveau des entités dans les images pour compléter leurs représentations globales dans les tâches d'incorporation conventionnelles. Dans cet article, nous proposons un nouveau Visual-InteRactive Text-Image Universal Embedder (VIRTUE) qui étend les capacités du modèle de segmentation et du modèle vision-langage au domaine de l'apprentissage de représentation. Dans VIRTUE, le modèle de segmentation peut traiter des invites visuelles qui identifient des régions spécifiques dans une image, permettant ainsi à l'incorporateur de gérer des scénarios complexes et ambigus avec plus de précision. Pour évaluer la capacité d'interaction visuelle de VIRTUE, nous introduisons un benchmark à grande échelle de Segmentation-and-Scene Caption Retrieval (SCaR) comprenant 1 million d'échantillons, visant à récupérer la légende textuelle en considérant conjointement l'entité avec un objet spécifique et la scène de l'image. VIRTUE atteint systématiquement des performances de pointe avec des améliorations significatives dans 36 tâches universelles MMEB (3,1%-8,5%) et cinq tâches SCaR interactives visuelles (15,2%-20,3%).
L'apprentissage par renforcement hors politique (off-policy RL) pour les grands modèles de langage (LLMs) suscite un intérêt croissant, motivé par les contraintes pratiques des applications réelles, la complexité de l'infrastructure LLM-RL et la nécessité d'innovations supplémentaires dans les méthodologies de RL. Bien que l'algorithme classique REINFORCE et ses variantes modernes comme l'Optimisation Relative de Politique par Groupe (GRPO) soient généralement considérés comme des algorithmes en politique (on-policy) avec une tolérance limitée à l'hors politique, nous présentons dans ce travail une dérivation à partir des premiers principes pour REINFORCE relatif au groupe sans supposer une distribution spécifique des données d'entraînement, montrant qu'il admet une interprétation native hors politique. Cette perspective dégage deux principes généraux pour adapter REINFORCE aux contextes hors politique : la régularisation des mises à jour de la politique et la modulation active de la distribution des données. Notre analyse démystifie certains mythes concernant les rôles de l'échantillonnage d'importance et du clipping dans GRPO, unifie et réinterprète deux algorithmes récents — la Descente de Miroir de Politique en Ligne (OPMD) et REINFORCE Asymétrique (AsymRE) — comme des formes régularisées de la perte REINFORCE, et offre une justification théorique pour des stratégies de pondération des données apparemment heuristiques. Nos résultats conduisent à des insights actionnables validés par des études empiriques approfondies et ouvrent de nouvelles opportunités pour la conception d'algorithmes fondés sur des principes dans le RL hors politique pour les LLMs. Le code source de ce travail est disponible à l'adresse suivante : https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) excellent sur des prompts à entité unique mais peinent avec des descriptions multi-sujets, montrant souvent des fuites d'attributs, des enchevêtrements d'identités et des omissions de sujets. Nous introduisons le premier cadre théorique avec un objectif optimisable et fondé pour orienter la dynamique d'échantillonnage vers la fidélité multi-sujets. En envisageant le flow matching (FM) à travers le contrôle optimal stochastique (SOC), nous formulons le désenchevêtrement des sujets comme un contrôle sur un échantillonneur FM entraîné. Cela donne lieu à deux algorithmes indépendants de l'architecture : (i) un contrôleur à l'inférence sans entraînement qui perturbe la vitesse de base avec une mise à jour en une seule passe, et (ii) Adjoint Matching, une règle de fine-tuning légère qui régresse un réseau de contrôle vers un signal adjoint rétrograde tout en préservant les capacités du modèle de base. La même formulation unifie les heuristiques d'attention précédentes, s'étend aux modèles de diffusion via une correspondance flow-diffusion, et fournit la première voie de fine-tuning explicitement conçue pour la fidélité multi-sujets. Empiriquement, sur Stable Diffusion 3.5, FLUX et Stable Diffusion XL, les deux algorithmes améliorent systématiquement l'alignement multi-sujets tout en conservant le style du modèle de base. Le contrôle à l'inférence s'exécute efficacement sur des GPU grand public, et les contrôleurs fine-tunés entraînés sur des prompts limités généralisent à des prompts inédits. Nous mettons également en avant FOCUS (Flow Optimal Control for Unentangled Subjects), qui atteint une fidélité multi-sujets de pointe à travers les modèles.
La prévision de séries temporelles est essentielle pour la prise de décision dans des domaines aussi variés que l'énergie, la finance, le climat et la santé publique. En pratique, les prévisionnistes sont confrontés à des milliers de séries courtes et bruyantes, variant en fréquence, qualité et horizon, où le coût dominant ne réside pas dans l'ajustement des modèles, mais dans le prétraitement, la validation et l'assemblage laborieux nécessaires pour obtenir des prédictions fiables. Les modèles statistiques et d'apprentissage profond dominants sont adaptés à des ensembles de données ou domaines spécifiques et généralisent mal. Un cadre général, indépendant du domaine, minimisant l'intervention humaine, est donc urgent. Dans cet article, nous présentons TimeSeriesScientist (TSci), le premier cadre agentique piloté par un LLM pour la prévision générale de séries temporelles. Ce cadre comprend quatre agents spécialisés : Curator effectue des diagnostics guidés par LLM, enrichis par des outils externes qui raisonnent sur les statistiques des données pour choisir un prétraitement ciblé ; Planner réduit l'espace des hypothèses de choix de modèle en exploitant des diagnostics multi-modaux et une auto-planification sur les entrées ; Forecaster réalise l'ajustement et la validation des modèles et, sur la base des résultats, sélectionne de manière adaptative la meilleure configuration de modèle ainsi que la stratégie d'assemblage pour produire les prédictions finales ; et Reporter synthétise l'ensemble du processus dans un rapport complet et transparent. Avec des justifications en langage naturel transparentes et des rapports détaillés, TSci transforme le flux de travail de prévision en un système boîte blanche, à la fois interprétable et extensible à travers les tâches. Les résultats empiriques sur huit benchmarks établis démontrent que TSci surpasse systématiquement les bases de référence statistiques et basées sur LLM, réduisant l'erreur de prévision de 10,4 % et 38,2 % en moyenne, respectivement. De plus, TSci produit un rapport clair et rigoureux qui rend le flux de travail de prévision plus transparent et interprétable.
La mise à l'échelle parallèle de l'inférence des LLM (modèles de langage de grande taille) consiste à échantillonner un ensemble de N>1 réponses pour une seule invite d'entrée. Cependant, ces N réponses parallèles ont tendance à être générées indépendamment les unes des autres, partitionnant ainsi les ressources de calcul et laissant potentiellement des informations utiles dans une génération inexploitées par les autres. Cela contraste avec la mise à l'échelle de la longueur des réponses, où les calculs passés sont utilisés dans toutes les étapes futures. Pour obtenir des réponses et des ensembles de réponses de meilleure qualité, nous proposons Bridge, qui génère des réponses interdépendantes en parallèle en repensant les états cachés des LLM par lots comme des tenseurs holistiques plutôt que des tranches indépendantes. Avec seulement une petite quantité (2,8 % à 5,1 %) de nouveaux paramètres, Bridge améliore les gains relatifs de précision moyenne de l'apprentissage par renforcement avec des récompenses vérifiables jusqu'à 50 % et renforce la cohérence des réponses correctes. Une fois entraîné, Bridge s'adapte à toute largeur de génération, tout en offrant une performance supérieure à celle des générations indépendantes, débloquant ainsi un mode plus général de mise à l'échelle parallèle qui exploite efficacement les informations entre les séquences, compatible avec toute technique d'agrégation post-génération.
L'entraînement au raisonnement incite les LLM à produire de longues chaînes de pensée (long CoT), ce qui leur permet, entre autres, d'explorer des stratégies de résolution avec auto-vérification. Cela entraîne une plus grande précision, mais augmente la longueur du contexte, le coût en tokens/calcul et la latence des réponses. Nous posons la question suivante : Les modèles actuels peuvent-ils exploiter leur métacognition pour offrir d'autres combinaisons sur cette frontière de Pareto, par exemple une meilleure précision avec une longueur de contexte et/ou une latence réduites ? De manière abstraite, nous considérons le modèle comme un opérateur d'amélioration de ses propres "pensées" avec un continuum de stratégies possibles. Nous identifions une famille d'inférence intéressante, Parallel-Distill-Refine (PDR), qui effectue les étapes suivantes : (i) générer des ébauches diversifiées en parallèle ; (ii) les distiller dans un espace de travail textuel limité ; et (iii) affiner en fonction de cet espace de travail, produisant une sortie qui alimente le tour suivant. Fait important, la longueur du contexte (et donc le coût de calcul) est contrôlable via le degré de parallélisme et n'est plus confondue avec le nombre total de tokens générés. Nous rapportons des instanciations de PDR pour les modèles actuels qui offrent une meilleure précision que le long CoT tout en induisant une latence plus faible. Régler le degré de parallélisme à 1 donne un sous-cas intéressant, le Raffinement Séquentiel (SR) (amélioration itérative d'une seule réponse candidate), qui fournit une performance supérieure au long CoT. Le succès de telles orchestrations de modèles soulève la question de savoir si un entraînement supplémentaire pourrait déplacer la frontière de Pareto. À cette fin, nous entraînons un modèle de pensée de 8B avec l'apprentissage par renforcement (RL) pour le rendre cohérent avec PDR comme méthode d'inférence. Sur des tâches mathématiques avec des réponses vérifiables, les pipelines itératifs surpassent les bases de référence en une seule passe avec des budgets séquentiels équivalents, PDR offrant les gains les plus importants (par exemple, +11 % sur AIME 2024 et +9 % sur AIME 2025).
Le réglage fin supervisé (SFT) est la méthode prédominante pour adapter les grands modèles de langage (LLMs), mais il peine souvent à généraliser par rapport à l'apprentissage par renforcement (RL). Dans ce travail, nous postulons que cette disparité de performance ne découle pas uniquement de la fonction de perte, mais d'une différence plus fondamentale : le SFT apprend à partir d'un ensemble de données fixe et pré-collecté, tandis que le RL utilise des données on-policy échantillonnées à partir de la politique actuelle. Sur la base de cette hypothèse, nous introduisons le one-token rollout (OTR), un nouvel algorithme de réglage fin qui guide le SFT avec la méthode du gradient de politique. L'OTR reformule le processus d'apprentissage autorégressif en traitant chaque génération de token comme une trajectoire d'apprentissage par renforcement en une seule étape. À chaque étape, il effectue un « rollout » de Monte Carlo en échantillonnant plusieurs tokens candidats à partir de la distribution de la politique actuelle. Le token de vérité terrain des données supervisées est ensuite utilisé pour fournir un signal de récompense à ces échantillons. Guidé par le gradient de politique, notre algorithme réutilise des données supervisées statiques et off-policy en un signal dynamique et on-policy au niveau du token, capturant ainsi les avantages de généralisation de l'apprentissage on-policy tout en évitant le coût élevé de la génération de phrases complètes. À travers des expériences approfondies sur une suite diversifiée de benchmarks complexes couvrant le raisonnement mathématique, la génération de code et le raisonnement dans des domaines généraux, nous démontrons que l'OTR surpasse systématiquement le SFT standard. Nos résultats établissent l'OTR comme une alternative puissante et pratique pour le réglage fin des LLMs et fournissent des preuves convaincantes que la nature on-policy des données est un facteur critique de généralisation, ouvrant ainsi une nouvelle voie prometteuse pour le réglage fin des LLMs.
Bien que les grands modèles vision-langage (LVLMs) aient réalisé des progrès significatifs dans la compréhension vidéo, leur application au raisonnement sur de longues vidéos est entravée par l'échantillonnage uniforme des images et le raisonnement textuel statique, qui sont inefficaces et peinent à gérer les tâches vidéo visuellement complexes. Pour surmonter ces défis, nous introduisons dans cet article le concept de raisonnement avec de longues vidéos et proposons un nouveau cadre appelé FrameThinker. Dans ce cadre, les LVLMs sont capables d'interroger itérativement le contenu vidéo. Le développement de telles capacités de raisonnement vidéo dans les LVLMs présente des défis notables, notamment l'adaptation du modèle à de nouvelles actions vidéo (par exemple, sélectionner une image) et la conception de fonctions de récompense pour guider les LVLMs à adopter les actions nouvellement introduites. Pour résoudre ces problèmes, nous proposons une stratégie d'entraînement en deux phases : d'abord un réglage fin supervisé (SFT) pour inculquer les capacités d'action de base, suivi d'un apprentissage par renforcement (RL) pour optimiser une politique de prise de décision stratégique. Notamment, dans cette phase RL, nous menons une exploration approfondie et complète de la conception des récompenses pour chaque action et format de récompense. Des expériences approfondies sur des benchmarks de raisonnement comme Video-Holmes, LongVideo-Reason, et des benchmarks de compréhension de longues vidéos tels que LongVideoBench, MLVU, VideoMME et LVBench, démontrent que FrameThinker obtient une amélioration moyenne significative de +10,4 % par rapport aux baselines tout en réduisant drastiquement le nombre d'images traitées. Plus remarquablement, notre modèle de 7B, FrameThinker, établit un nouvel état de l'art sur LongVideo-Reason, atteignant une précision de 76,1 % en utilisant en moyenne seulement 20,6 images. Cela surpasse non seulement le concurrent LongVILA-R1 (72,0 %) mais le fait avec plus de 20 fois moins d'images (contre 512), démontrant une efficacité et une efficacité sans égal.
Dans l'évaluation de type arène des grands modèles de langage (LLMs), deux LLMs répondent à une requête utilisateur, et l'utilisateur choisit la réponse gagnante ou considère le "combat" comme un match nul, ce qui entraîne un ajustement des classements des deux modèles. L'approche dominante pour modéliser ces dynamiques de classement consiste à considérer les combats comme des matchs de jeu à deux joueurs, comme aux échecs, et à appliquer le système de classement Elo et ses dérivés. Dans cet article, nous examinons de manière critique ce paradigme. Plus précisément, nous nous interrogeons sur le fait qu'un match nul signifie véritablement que les deux modèles sont égaux et, par conséquent, si leurs classements devraient être égalisés. Nous conjecturons plutôt que les matchs nuls sont davantage indicatifs de la difficulté de la requête : si la requête est trop facile, les deux modèles ont plus de chances de réussir de manière égale. Sur trois ensembles de données d'arène réels, nous montrons que l'ignorance des mises à jour de classement pour les matchs nuls entraîne une augmentation relative de 1 à 3 % de la précision de prédiction des résultats des combats (y compris les matchs nuls) pour les quatre systèmes de classement étudiés. Des analyses supplémentaires suggèrent que les matchs nuls se produisent plus fréquemment pour les requêtes jugées très faciles et celles considérées comme hautement objectives, avec des ratios de risque de 1,37 et 1,35, respectivement. Nous recommandons que les futurs systèmes de classement reconsidèrent la sémantique actuelle des matchs nuls et prennent en compte les propriétés des requêtes dans les mises à jour de classement.
Les récents progrès dans le Post-Entraînement par Renforcement (RPT) ont considérablement amélioré les capacités des Modèles de Raisonnement à Grande Échelle (LRMs), suscitant un intérêt accru pour la généralisation du raisonnement basé sur l'apprentissage par renforcement (RL). Alors que les travaux existants se sont principalement concentrés sur l'étude de sa généralisation à travers les tâches ou les modalités, cette étude propose une perspective novatrice interlinguistique pour explorer la généralisation du raisonnement. Cela soulève une question cruciale : la capacité de raisonnement acquise grâce au RPT en anglais se transfère-t-elle efficacement à d'autres langues ? Nous abordons cette question en évaluant systématiquement les LRMs centrés sur l'anglais sur des benchmarks de raisonnement multilingues et en introduisant une métrique pour quantifier la transférabilité interlinguistique. Nos résultats révèlent que cette transférabilité varie considérablement selon le modèle initial, la langue cible et le paradigme d'entraînement. À travers des études d'intervention, nous constatons que les modèles dotés de capacités initiales plus fortes en anglais ont tendance à trop s'appuyer sur des motifs spécifiques à l'anglais, ce qui réduit leur généralisation interlinguistique. Pour remédier à cela, nous menons une étude approfondie sur l'entraînement parallèle. Les résultats expérimentaux mettent en évidence trois conclusions clés : le Premier Saut Parallèle, une amélioration significative des performances lors du passage d'un entraînement monolingue à un seul langage parallèle, et une Loi d'Échelle Parallèle prévisible, révélant que le transfert de raisonnement interlinguistique suit une loi de puissance en fonction du nombre de langues parallèles utilisées pour l'entraînement. De plus, nous identifions l'écart entre les performances monolingues réelles et la prédiction de la loi de puissance comme l'Écart de Généralisation Monolingue, indiquant que les LRMs centrés sur l'anglais ne parviennent pas à généraliser pleinement à travers les langues. Notre étude remet en question l'hypothèse selon laquelle le raisonnement des LRMs reflète la cognition humaine, offrant des insights critiques pour le développement de LRMs plus agnostiques vis-à-vis des langues.
Les perceptrons multicouches (MLP) suivent conventionnellement une conception étroite-large-étroite où les connexions résiduelles opèrent aux dimensions d'entrée/sortie tandis que le traitement s'effectue dans des espaces cachés élargis. Nous remettons en question cette convention en proposant des blocs MLP large-étroit-large (en forme de sablier) où les connexions résiduelles opèrent à des dimensions élargies tandis que le calcul résiduel traverse des goulots d'étranglement étroits. Cette inversion exploite des espaces de plus haute dimension pour un raffinement incrémental tout en maintenant l'efficacité computationnelle grâce à des conceptions à paramètres équivalents. La mise en œuvre des MLP en sablier nécessite une projection initiale pour élever les signaux d'entrée à des dimensions élargies. Nous proposons que cette projection puisse rester fixe à l'initialisation aléatoire tout au long de l'entraînement, permettant des implémentations efficaces pour l'entraînement et l'inférence. Nous évaluons les deux architectures sur des tâches génératives sur des ensembles de données d'images populaires, en caractérisant les frontières de Pareto performance-paramètres grâce à une recherche architecturale systématique. Les résultats montrent que les architectures en sablier atteignent systématiquement des frontières de Pareto supérieures par rapport aux conceptions conventionnelles. À mesure que les budgets de paramètres augmentent, les configurations optimales en sablier privilégient des réseaux plus profonds avec des connexions résiduelles plus larges et des goulots d'étranglement plus étroits—un modèle de mise à l'échelle distinct des MLP conventionnels. Nos résultats suggèrent de reconsidérer le placement des connexions résiduelles dans les architectures modernes, avec des applications potentielles s'étendant aux Transformers et autres réseaux résiduels.
Les grands modèles de langage (LLM) obtiennent désormais de solides performances sur de nombreuses suites mathématiques publiques, mais la séparation des frontières en mathématiques souffre de plus en plus d'effets de plafond. Nous présentons deux benchmarks complémentaires : SKYLENAGE-ReasoningMATH, un ensemble diagnostique de 100 items prenant en compte la structure, avec des métadonnées par item sur la longueur, la densité numérique et la complexité symbolique ; et SKYLENAGE-MATH, une suite de 150 items de style concours couvrant quatre niveaux, du lycée au doctorat, selon une taxonomie de sept sujets. Nous évaluons quinze variantes contemporaines de LLM dans une configuration unique et analysons les performances par sujet x modèle et par niveau x modèle. Sur la suite de concours, le modèle le plus performant atteint 44 % tandis que le second atteint 37 % ; la précision diminue du lycée au doctorat, et les meilleurs systèmes montrent une rétention doctorat-lycée proche de 79 %. Sur l'ensemble de raisonnement, le meilleur modèle atteint 81 % globalement, et les résultats des tranches les plus difficiles révèlent des écarts de robustesse clairs entre les leaders et le milieu de tableau. En résumé, nous publions SKYLENAGE-ReasoningMATH et rapportons les résultats agrégés pour SKYLENAGE-MATH ; ensemble, SKYLENAGE fournit un benchmark mathématique difficile, centré sur le raisonnement et largement couvrant, avec une difficulté calibrée et des métadonnées riches, servant de référence pour les futures évaluations du raisonnement mathématique.
L'évaluation de la qualité des images médicales (IQA) constitue la première barrière de sécurité pour l'IA clinique. Cependant, les approches existantes restent limitées par des métriques scalaires basées sur des scores et ne parviennent pas à refléter le processus de raisonnement descriptif, semblable à celui des experts, au cœur de l'évaluation. Pour combler cette lacune, nous introduisons MedQ-Bench, un benchmark complet qui établit un paradigme de perception-raisonnement pour l'évaluation de la qualité des images médicales basée sur le langage avec des modèles de langage multi-modaux (MLLMs). MedQ-Bench définit deux tâches complémentaires : (1) MedQ-Perception, qui explore la capacité perceptive de bas niveau via des questions élaborées par des humains sur les attributs visuels fondamentaux ; et (2) MedQ-Reasoning, englobant des tâches de raisonnement sans référence et comparatives, alignant l'évaluation des modèles sur un raisonnement humain concernant la qualité des images. Le benchmark couvre cinq modalités d'imagerie et plus de quarante attributs de qualité, totalisant 2 600 requêtes perceptives et 708 évaluations de raisonnement, incluant des sources d'images variées telles que des acquisitions cliniques authentiques, des images avec des dégradations simulées via des reconstructions basées sur la physique, et des images générées par IA. Pour évaluer la capacité de raisonnement, nous proposons un protocole de jugement multidimensionnel qui évalue les sorties des modèles selon quatre axes complémentaires. Nous validons rigoureusement l'alignement humain-IA en comparant les jugements basés sur les LLM avec ceux des radiologues. Notre évaluation de 14 MLLMs de pointe montre que les modèles présentent des compétences perceptives et de raisonnement préliminaires mais instables, avec une précision insuffisante pour une utilisation clinique fiable. Ces résultats soulignent la nécessité d'une optimisation ciblée des MLLMs dans l'IQA médicale. Nous espérons que MedQ-Bench catalysera des explorations supplémentaires et débloquera le potentiel inexploité des MLLMs pour l'évaluation de la qualité des images médicales.
Les systèmes de récupération à double encodeur reposent sur le principe que les documents pertinents devraient obtenir un score plus élevé que les documents non pertinents pour une requête donnée. Cependant, l'objectif dominant de l'estimation contrastive par bruit (Noise Contrastive Estimation, NCE), qui sous-tend la perte contrastive, optimise un substitut de classement adouci dont nous démontrons rigoureusement qu'il est fondamentalement insensible à la qualité de séparation des scores et sans lien avec l'AUC (aire sous la courbe ROC). Cette inadéquation entraîne une mauvaise calibration et des performances sous-optimales dans des tâches en aval telles que la génération assistée par récupération (Retrieval-Augmented Generation, RAG). Pour remédier à cette limitation fondamentale, nous introduisons la perte MW, un nouvel objectif d'entraînement qui maximise la statistique U de Mann-Whitney, mathématiquement équivalente à l'aire sous la courbe ROC (AUC). La perte MW encourage chaque paire positif-négatif à être correctement classée en minimisant l'entropie croisée binaire sur les différences de scores. Nous fournissons des garanties théoriques que la perte MW borne directement l'AoC (Area under the Curve), alignant ainsi mieux l'optimisation avec les objectifs de récupération. Nous promouvons également les courbes ROC et l'AUC comme des diagnostics naturels sans seuil pour évaluer la calibration et la qualité du classement des systèmes de récupération. Empiriquement, les systèmes de récupération entraînés avec la perte MW surpassent systématiquement leurs homologues contrastifs en termes d'AUC et de métriques de récupération standard. Nos expériences montrent que la perte MW est une alternative empiriquement supérieure à la perte contrastive, produisant des systèmes de récupération mieux calibrés et plus discriminants pour des applications critiques comme la RAG.
L'anonymisation des textes est essentielle pour développer et déployer de manière responsable l'intelligence artificielle dans des domaines à enjeux élevés tels que la santé, les services sociaux et le droit. Dans ce travail, nous proposons une nouvelle méthodologie pour la génération de textes synthétiques préservant la confidentialité, qui s'appuie sur les principes de la dé-identification et la théorie du « Hiding In Plain Sight » (HIPS). Notre approche introduit des codes de contrôle conscients des entités pour guider une génération contrôlée en utilisant soit l'apprentissage en contexte (ICL), soit le réglage de préfixe. La variante ICL garantit des niveaux de confidentialité conformes au système de dé-identification sous-jacent, tandis que la variante de réglage de préfixe intègre une stratégie de masquage personnalisée et une fonction de perte pour soutenir une génération évolutive et de haute qualité. Les expériences menées sur des ensembles de données juridiques et cliniques démontrent que notre méthode atteint un équilibre solide entre protection de la confidentialité et utilité, offrant une solution pratique et efficace pour la génération de textes synthétiques dans des domaines sensibles.
L'intégration des modèles de langage de grande taille (LLMs) avec les systèmes de l'Internet des objets (IoT) rencontre des défis importants liés à l'hétérogénéité matérielle et à la complexité du contrôle. Le Protocole de Contexte de Modèle (MCP) apparaît comme un facilitateur essentiel, offrant une communication standardisée entre les LLMs et les dispositifs physiques. Nous proposons IoT-MCP, un cadre novateur qui met en œuvre le MCP via des serveurs déployés en périphérie pour relier les LLMs et les écosystèmes IoT. Pour soutenir une évaluation rigoureuse, nous introduisons IoT-MCP Bench, le premier benchmark contenant 114 tâches de base (par exemple, « Quelle est la température actuelle ? ») et 1 140 tâches complexes (par exemple, « J'ai très chaud, avez-vous des idées ? ») pour les LLMs compatibles IoT. La validation expérimentale sur 22 types de capteurs et 6 unités de microcontrôleurs démontre un taux de réussite de 100 % pour IoT-MCP dans la génération d'appels d'outils répondant pleinement aux attentes et produisant des résultats entièrement précis, un temps de réponse moyen de 205 ms et une empreinte mémoire maximale de 74 Ko. Ce travail fournit à la fois un cadre d'intégration open-source (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) et une méthodologie d'évaluation standardisée pour les systèmes LLM-IoT.
Alors que les modèles de langage à grande échelle (LLM) augmentent en taille, la question n'est pas seulement de savoir à quel point ils deviennent grands, mais aussi quelle partie de leur capacité est effectivement utilisée. Les lois d'échelle existantes relient la taille du modèle à la perte, mais négligent la manière dont les composants exploitent leur espace latent. Nous étudions les réseaux feed-forward (FFN) et reformulons la sélection de la largeur comme un problème d'utilisation spectrale. En utilisant une suite de diagnostics légers -- Hard Rank (ratio de participation), Soft Rank (rang de Shannon), Concentration Spectrale, et l'indice composite d'Utilisation Spectrale (SUI) -- nous quantifions combien de directions latentes sont activées de manière significative dans les familles de modèles LLaMA, GPT-2 et nGPT. Notre découverte clé est une loi d'échelle spectrale asymétrique : le soft rank suit une loi de puissance presque parfaite avec la largeur des FFN, tandis que le hard rank ne croît que de manière sous-linéaire et avec une forte variance. Cette asymétrie suggère que l'élargissement des FFN ajoute principalement des directions de faible énergie en queue de distribution, tandis que les sous-espaces des modes dominants se saturent tôt. De plus, à des largeurs plus importantes, la variance se réduit encore davantage dans un sous-espace étroit, laissant une grande partie de l'espace latent sous-utilisée. Ces résultats reformulent la sélection de la largeur des FFN comme un compromis raisonné entre la capacité en queue de distribution et la capacité des modes dominants, offrant des orientations concrètes pour la conception de LLM efficaces en inférence.
La recherche d'images composées (Composed Image Retrieval, CIR) vise à retrouver des images cibles qui préservent le contenu visuel d'une image de référence tout en intégrant des modifications textuelles spécifiées par l'utilisateur. Les approches de CIR sans apprentissage spécifique (zero-shot CIR, ZS-CIR), qui ne nécessitent ni entraînement spécifique ni données étiquetées, sont très souhaitables, mais la capture précise de l'intention de l'utilisateur reste un défi. Dans cet article, nous présentons SQUARE, un nouveau cadre en deux étapes sans apprentissage qui exploite les modèles de langage multimodaux de grande taille (Multimodal Large Language Models, MLLMs) pour améliorer la ZS-CIR. Dans l'étape de Fusion Augmentée par Requête Sémantique (Semantic Query-Augmented Fusion, SQAF), nous enrichissons l'embedding de requête dérivé d'un modèle vision-langage (Vision-Language Model, VLM) tel que CLIP avec des légendes générées par un MLLM de l'image cible. Ces légences fournissent une guidance sémantique de haut niveau, permettant à la requête de mieux capturer l'intention de l'utilisateur et d'améliorer la qualité globale de la recherche. Dans l'étape de Réordonnancement Efficace par Lots (Efficient Batch Reranking, EBR), les candidats les mieux classés sont présentés sous forme de grille d'images avec des marques visuelles au MLLM, qui effectue un raisonnement visuel-sémantique conjoint sur tous les candidats. Notre stratégie de réordonnancement fonctionne en une seule passe et produit des classements plus précis. Les expériences montrent que SQUARE, par sa simplicité et son efficacité, offre des performances solides sur quatre benchmarks standard de CIR. Notamment, il maintient des performances élevées même avec des modèles pré-entraînés légers, démontrant ainsi son applicabilité potentielle.
Les modèles de pensée récents résolvent des tâches de raisonnement complexes en augmentant les ressources de calcul au moment du test, mais cette augmentation doit être allouée en fonction de la difficulté de la tâche. D’un côté, un raisonnement trop court (sous-raisonnement) entraîne des erreurs sur des problèmes plus difficiles nécessitant des étapes de raisonnement prolongées ; de l’autre, un raisonnement excessivement long (sur-raisonnement) peut être inefficace en termes de tokens, générant des étapes inutiles même après avoir atteint une solution intermédiaire correcte. Nous qualifions cela de sous-adaptativité, où le modèle ne parvient pas à moduler de manière appropriée la longueur de sa réponse face à des problèmes de difficulté variable. Pour remédier à la sous-adaptativité et trouver un équilibre entre sous-raisonnement et sur-raisonnement, nous proposons TRAAC (Think Right with Adaptive, Attentive Compression), une méthode de renforcement en ligne post-entraînement qui exploite l’auto-attention du modèle sur une trajectoire de raisonnement étendue pour identifier les étapes importantes et éliminer celles redondantes. TRAAC estime également la difficulté et l’intègre dans les récompenses d’entraînement, apprenant ainsi à allouer un budget de raisonnement proportionnel à la difficulté de l’exemple. Notre approche améliore la précision, réduit les étapes de raisonnement et permet une pensée adaptative par rapport aux modèles de base et à d’autres méthodes de renforcement. Sur une variété de tâches (AIME, AMC, GPQA-D, BBEH), TRAAC (Qwen3-4B) obtient un gain de précision absolu moyen de 8,4 % avec une réduction relative de la longueur du raisonnement de 36,8 % par rapport au modèle de base, et un gain de précision de 7,9 % accompagné d’une réduction de longueur de 29,4 % par rapport au meilleur modèle de renforcement. TRAAC montre également une forte généralisation : bien que nos modèles soient entraînés sur des ensembles de données mathématiques, ils montrent des gains en précision et en efficacité sur des ensembles de données non mathématiques hors distribution comme GPQA-D, BBEH et OptimalThinkingBench. Notre analyse confirme en outre que TRAAC fournit des ajustements fins du budget de raisonnement en fonction de la difficulté, et qu’une combinaison de calibration de la difficulté de la tâche et de compression basée sur l’attention produit des gains sur des tâches diverses.
La conception de séquences satisfaisant des objectifs multiples et souvent conflictuels constitue un défi central en ingénierie thérapeutique et biomoléculaire. Les cadres génératifs existants opèrent principalement dans des espaces continus avec une orientation mono-objectif, tandis que les approches discrètes manquent de garanties d'optimalité de Pareto pour plusieurs objectifs. Nous présentons AReUReDi (Annealed Rectified Updates for Refining Discrete Flows), un algorithme d'optimisation discrète doté de garanties théoriques de convergence vers le front de Pareto. S'appuyant sur les Rectified Discrete Flows (ReDi), AReUReDi combine la scalarisation de Tchebycheff, des propositions localement équilibrées et des mises à jour de Metropolis-Hastings recuitées pour orienter l'échantillonnage vers des états Pareto-optimaux tout en préservant l'invariance distributionnelle. Appliqué à la conception de séquences peptidiques et SMILES, AReUReDi optimise simultanément jusqu'à cinq propriétés thérapeutiques (incluant l'affinité, la solubilité, l'hémolyse, la demi-vie et la non-adhérence) et surpasse les approches basées sur l'évolution et la diffusion. Ces résultats établissent AReUReDi comme un cadre puissant et basé sur les séquences pour la génération de biomolécules à propriétés multiples.