papers.description
La relation entre les systèmes informatiques et le cerveau a servi de motivation pour des théoriciens pionniers depuis John von Neumann et Alan Turing. Les réseaux biologiques uniformes et invariants d'échelle, comme le cerveau, possèdent des propriétés puissantes, notamment la capacité à généraliser dans le temps, ce qui constitue le principal obstacle pour l'apprentissage automatique sur la voie des modèles de raisonnement universel. Nous présentons `Dragon Hatchling' (BDH), une nouvelle architecture de modèle de langage à grande échelle basée sur un réseau biologique inspiré et invariant d'échelle de particules neuronales interagissant localement. BDH combine des fondements théoriques solides et une interprétabilité intrinsèque sans sacrifier les performances comparables à celles des Transformers. BDH est une architecture pratique et performante de pointe pour l'apprentissage de séquences basé sur des états d'attention. En plus d'être un modèle graphique, BDH admet une formulation adaptée aux GPU. Il présente des lois d'échelle similaires à celles des Transformers : empiriquement, BDH rivalise avec les performances de GPT2 sur des tâches de langage et de traduction, pour un nombre de paramètres équivalent (de 10 millions à 1 milliard) et avec les mêmes données d'entraînement. BDH peut être représenté comme un modèle cérébral. La mémoire de travail de BDH pendant l'inférence repose entièrement sur la plasticité synaptique avec un apprentissage hebbien utilisant des neurones à impulsions. Nous confirmons empiriquement que des synapses spécifiques et individuelles renforcent les connexions chaque fois que BDH entend ou raisonne sur un concept spécifique lors du traitement des entrées linguistiques. Le réseau d'interaction neuronale de BDH est un graphe à modularité élevée avec une distribution des degrés à queue lourde. Le modèle BDH est biologiquement plausible, expliquant un mécanisme possible que les neurones humains pourraient utiliser pour produire la parole. BDH est conçu pour l'interprétabilité. Les vecteurs d'activation de BDH sont clairsemés et positifs. Nous démontrons la monosémanticité de BDH sur des tâches linguistiques. L'interprétabilité de l'état, qui va au-delà de l'interprétabilité des neurones et des paramètres du modèle, est une caractéristique inhérente de l'architecture BDH.
Le MCP standardise la manière dont les LLM interagissent avec les systèmes externes, formant ainsi la base des agents généraux. Cependant, les benchmarks MCP existants restent limités en portée : ils se concentrent sur des tâches principalement orientées lecture ou sur des interactions de faible profondeur, et ne parviennent pas à capturer la complexité et le réalisme des workflows du monde réel. Pour combler cette lacune, nous proposons MCPMark, un benchmark conçu pour évaluer l'utilisation du MCP de manière plus réaliste et complète. Il se compose de 127 tâches de haute qualité, créées en collaboration par des experts du domaine et des agents d'IA. Chaque tâche commence par un état initial soigneusement préparé et inclut un script programmatique pour la vérification automatique. Ces tâches exigent des interactions plus riches et plus diversifiées avec l'environnement, impliquant une large gamme d'opérations de création, lecture, mise à jour et suppression (CRUD). Nous menons une évaluation approfondie des LLM de pointe en utilisant un cadre d'agent minimal qui fonctionne dans une boucle d'appel d'outils. Les résultats empiriques montrent que le modèle le plus performant, gpt-5-medium, atteint seulement 52,56 % de réussite en pass@1 et 33,86 % en pass^4, tandis que d'autres modèles largement reconnus comme puissants, notamment claude-sonnet-4 et o3, tombent en dessous de 30 % en pass@1 et 15 % en pass^4. En moyenne, les LLM nécessitent 16,2 tours d'exécution et 17,4 appels d'outils par tâche, dépassant significativement ceux des benchmarks MCP précédents et soulignant la nature de test de résistance de MCPMark.
Bien que l'apprentissage par renforcement (RL) puisse efficacement améliorer les capacités de raisonnement des modèles vision-langage (VLMs), les méthodes actuelles restent fortement dépendantes de jeux de données intensifs en main-d'œuvre, nécessitant une construction et une vérification manuelles approfondies, ce qui entraîne des coûts de formation extrêmement élevés et limite ainsi le déploiement pratique des VLMs. Pour relever ce défi, nous proposons Vision-Zero, un framework indépendant du domaine permettant l'auto-amélioration des VLMs grâce à des jeux visuels compétitifs générés à partir de paires d'images arbitraires. Plus précisément, Vision-Zero englobe trois attributs principaux : (1) Framework de Jeu Stratégique en Auto-Jeu : Vision-Zero entraîne les VLMs dans des jeux de style "Qui est l'espion", où les modèles s'engagent dans un raisonnement stratégique et des actions à travers plusieurs rôles. Grâce à un gameplay interactif, les modèles génèrent automatiquement leurs propres données d'entraînement sans annotation humaine. (2) Jeu à partir d'Images Arbitraires : Contrairement aux frameworks ludifiés existants, Vision-Zero peut générer des jeux à partir d'images arbitraires, améliorant ainsi la capacité de raisonnement du modèle à travers divers domaines et montrant une forte généralisation à différentes tâches. Nous démontrons cette polyvalence en utilisant trois types distincts de jeux de données d'images : des scènes synthétiques basées sur CLEVR, des graphiques et des images du monde réel. (3) Gain de Performance Durable : Nous introduisons l'Optimisation Itérative de Politique en Auto-Jeu (Iterative-SPO), un nouvel algorithme d'entraînement qui alterne entre l'Auto-Jeu et l'apprentissage par renforcement avec des récompenses vérifiables (RLVR), atténuant le plateau de performance souvent observé dans l'entraînement en auto-jeu uniquement et permettant des améliorations durables à long terme. Malgré l'utilisation de données sans étiquettes, Vision-Zero atteint des performances de pointe en matière de raisonnement, de réponse à des questions sur des graphiques et de compréhension centrée sur la vision, surpassant d'autres méthodes basées sur l'annotation. Les modèles et le code ont été publiés à l'adresse https://github.com/wangqinsi1/Vision-Zero.
Le raisonnement est devenu une capacité essentielle dans les grands modèles de langage (LLM). Grâce à l'apprentissage par renforcement (RL), généralement via l'optimisation de politique relative par groupe (GRPO), ces modèles sont capables de résoudre des tâches complexes telles que les mathématiques et la génération de code. S'appuyant sur ces avancées, des recherches récentes ont cherché à étendre le raisonnement aux modèles vision-langage (VLM), obtenant des résultats prometteurs sur diverses tâches visuelles. Malgré ces progrès, notre étude révèle la double nature du raisonnement multimodal : bien qu'il améliore considérablement l'inférence logique et facilite la performance sur des problèmes difficiles, il peut progressivement altérer l'ancrage perceptuel, entraînant des échecs de reconnaissance sur des questions visuelles pourtant basiques. À travers une analyse approfondie, nous attribuons ce phénomène à l'oubli visuel, où un raisonnement prolongé amène le modèle à négliger de plus en plus les informations visuelles. Pour y remédier, nous proposons l'optimisation de politique ancrée visuellement (VAPO), une méthode simple mais efficace qui oriente explicitement le processus de raisonnement vers des trajectoires visuellement ancrées. Notre modèle résultant, VAPO-Thinker-7B, renforce significativement la dépendance du modèle aux informations visuelles et établit de nouveaux records sur un large éventail de benchmarks établis. Page du projet : https://xytian1008.github.io/VAPO/
Alors que le réglage fin supervisé (SFT) évolue d'une étape légère post-formation vers une phase intensive en calcul rivalisant avec l'échelle de la formation intermédiaire, l'efficacité des données est devenue cruciale pour aligner les grands modèles de langage (LLMs) sous des budgets serrés. Les méthodes existantes d'élagage des données souffrent d'une conception fragmentée : elles opèrent soit au niveau des échantillons, soit au niveau des tokens de manière isolée, échouant à optimiser conjointement ces deux dimensions. Cette disjonction entraîne des inefficacités significatives—des échantillons de haute valeur peuvent encore contenir des tokens redondants, tandis que l'élagage au niveau des tokens élimine souvent des signaux instructifs ou correctifs cruciaux intégrés dans des exemples individuels. Pour résoudre ce goulot d'étranglement, nous introduisons le Plan Erreur-Incertitude (EU), un cadre diagnostique qui caractérise conjointement l'utilité hétérogène des données d'entraînement à travers les échantillons et les tokens. Guidé par cette intuition, nous proposons le Réglage par Quadrant (Q-Tuning), un cadre unifié qui coordonne stratégiquement l'élagage des échantillons et des tokens. Q-Tuning emploie une stratégie en deux étapes : d'abord, il effectue un triage au niveau des échantillons pour retenir les exemples riches en idées fausses informatives ou en signaux de calibration ; ensuite, il applique une politique asymétrique d'élagage des tokens, utilisant un mécanisme de notation contextuel pour éliminer les tokens moins saillants exclusivement des échantillons contenant des idées fausses tout en préservant intégralement les échantillons de calibration. Notre méthode établit un nouvel état de l'art sur cinq benchmarks divers. Remarquablement, sur SmolLM2-1.7B, Q-Tuning atteint une amélioration moyenne de +38\% par rapport à la base de référence SFT avec toutes les données, en utilisant seulement 12,5\% des données d'entraînement originales. En tant que première approche d'élagage dynamique à surpasser systématiquement l'entraînement avec toutes les données, Q-Tuning fournit un plan pratique et évolutif pour maximiser l'utilisation des données dans le SFT des LLMs sous contraintes budgétaires.
Bien que les grands modèles de langage (LLMs) aient démontré des performances solides en réponse à des questions factuelles, ils restent sujets à des hallucinations et à des réponses inexactes, en particulier lorsque les tâches nécessitent des informations en dehors de leur connaissance paramétrique. En effet, la véracité exige plus que la précision : les modèles doivent également reconnaître l'incertitude et s'abstenir lorsqu'ils ne sont pas sûrs pour éviter les hallucinations. Cela représente un défi fondamental pour les méthodes existantes : les approches qui optimisent la précision amplifient souvent les hallucinations, tandis que celles qui encouragent l'abstention peuvent devenir trop conservatrices, sacrifiant des réponses correctes. Les deux extrêmes compromettent finalement la véracité. Dans ce travail, nous présentons TruthRL, un cadre général d'apprentissage par renforcement (RL) qui optimise directement la véracité des LLMs. Plus précisément, nous implémentons TruthRL en utilisant GRPO avec une récompense ternaire simple mais efficace qui distingue les réponses correctes, les hallucinations et les abstentions. Cela incite les modèles à réduire les hallucinations non seulement en fournissant des réponses correctes, mais aussi en permettant l'abstention en cas d'incertitude, améliorant ainsi la véracité. Des expériences approfondies sur quatre benchmarks intensifs en connaissances montrent que, par rapport au RL classique, TruthRL réduit significativement les hallucinations de 28,9 % et améliore la véracité de 21,1 %, avec des gains constants sur divers modèles de base (par exemple, Qwen, Llama) dans des configurations avec et sans récupération d'informations. Une étude d'ablation approfondie démontre que les méthodes classiques axées sur la précision, comme le fine-tuning supervisé ou le RL avec une récompense binaire, peinent à équilibrer la justesse factuelle et l'incertitude. En revanche, notre TruthRL axé sur la véracité atteint des performances solides à la fois en précision et en véracité, soulignant l'importance de la conception des objectifs d'apprentissage pour développer des LLMs véridiques.
Les modèles de langage de grande taille (LLMs), bien qu'entraînés uniquement sur du texte, développent de manière surprenante des préconceptions visuelles riches. Ces préconceptions permettent de débloquer des capacités visuelles latentes pour des tâches de vision avec une quantité relativement faible de données multimodales, et dans certains cas, de réaliser des tâches visuelles sans jamais avoir vu d'image. À travers une analyse systématique, nous révélons que les préconceptions visuelles - les connaissances implicites et émergentes sur le monde visuel acquises lors du pré-entraînement linguistique - sont composées de préconceptions de perception et de raisonnement séparables, avec des tendances et des origines de mise à l'échelle uniques. Nous montrons que la capacité de raisonnement visuel latent d'un LLM est principalement développée par un pré-entraînement sur des données centrées sur le raisonnement (par exemple, le code, les mathématiques, les textes académiques) et évolue de manière progressive. Cette préconception de raisonnement acquise lors du pré-entraînement linguistique est transférable et universellement applicable au raisonnement visuel. En revanche, une préconception de perception émerge de manière plus diffuse à partir de corpus variés, et la capacité de perception est plus sensible à l'encodeur visuel et aux données d'ajustement des instructions visuelles. Parallèlement, le texte décrivant le monde visuel s'avère crucial, bien que son impact sur la performance se sature rapidement. En tirant parti de ces insights, nous proposons une recette centrée sur les données pour le pré-entraînement de LLMs conscients de la vision et la vérifions à l'échelle d'un pré-entraînement de 1T de tokens. Nos résultats sont fondés sur plus de 100 expériences contrôlées consommant 500 000 heures de GPU, couvrant l'ensemble du pipeline de construction des MLLM - du pré-entraînement des LLMs à l'alignement visuel et au réglage fin multimodal supervisé - à travers cinq échelles de modèles, une large gamme de catégories et de mélanges de données, et plusieurs configurations d'adaptation. En parallèle de nos principales découvertes, nous proposons et examinons plusieurs hypothèses, et introduisons le Multi-Level Existence Bench (MLE-Bench). Ensemble, ce travail offre une nouvelle manière de cultiver délibérément des préconceptions visuelles à partir du pré-entraînement linguistique, ouvrant la voie à la prochaine génération de LLMs multimodaux.
Nous présentons DC-VideoGen, un cadre d’accélération post-entraînement pour la génération efficace de vidéos. DC-VideoGen peut être appliqué à tout modèle de diffusion vidéo pré-entraîné, améliorant l’efficacité en l’adaptant à un espace latent de compression profonde grâce à un réglage fin léger. Le cadre repose sur deux innovations clés : (i) un Autoencodeur Vidéo à Compression Profonde doté d’une conception temporelle chunk-causale inédite, permettant une compression spatiale de 32x/64x et temporelle de 4x tout en préservant la qualité de reconstruction et la généralisation à des vidéos plus longues ; et (ii) AE-Adapt-V, une stratégie d’adaptation robuste qui permet un transfert rapide et stable des modèles pré-entraînés dans le nouvel espace latent. L’adaptation du modèle Wan-2.1-14B pré-entraîné avec DC-VideoGen ne nécessite que 10 jours GPU sur le GPU NVIDIA H100. Les modèles accélérés atteignent une latence d’inférence jusqu’à 14,8 fois inférieure à celle de leurs homologues de base sans compromettre la qualité, et permettent en outre la génération de vidéos en 2160x3840 sur un seul GPU. Code : https://github.com/dc-ai-projects/DC-VideoGen.
Nous présentons OceanGym, le premier benchmark complet pour les agents incarnés sous-marins, conçu pour faire progresser l'IA dans l'un des environnements réels les plus exigeants. Contrairement aux domaines terrestres ou aériens, les milieux sous-marins présentent des défis perceptuels et décisionnels extrêmes, incluant une faible visibilité et des courants océaniques dynamiques, rendant le déploiement efficace d'agents exceptionnellement difficile. OceanGym englobe huit domaines de tâches réalistes et un cadre d'agent unifié piloté par des Modèles de Langage Multimodaux (MLLMs), qui intègrent perception, mémoire et prise de décision séquentielle. Les agents doivent comprendre les données optiques et sonar, explorer de manière autonome des environnements complexes et accomplir des objectifs à long terme dans ces conditions difficiles. Des expériences approfondies révèlent des écarts substantiels entre les agents pilotés par les MLLM de pointe et les experts humains, soulignant la difficulté persistante de la perception, de la planification et de l'adaptabilité dans les environnements sous-marins. En fournissant une plateforme haute fidélité et rigoureusement conçue, OceanGym établit un banc d'essai pour développer une IA incarnée robuste et transférer ces capacités à des véhicules sous-marins autonomes réels, marquant une étape décisive vers des agents intelligents capables d'opérer dans l'une des dernières frontières inexplorées de la Terre. Le code et les données sont disponibles à l'adresse https://github.com/OceanGPT/OceanGym.
L'apprentissage par renforcement avec récompense vérifiable (RLVR) résout efficacement des tâches complexes, mais nécessite des contextes extrêmement longs pendant l'entraînement, entraînant des coûts de calcul substantiels. Bien qu'un entraînement multi-étapes puisse partiellement atténuer ce problème, commencer avec des contextes trop courts provoque souvent une dégradation irréversible des performances, ne parvenant finalement pas à réduire significativement le calcul global de l'entraînement. Dans cet article, nous introduisons l'**I**nitialisation de **P**olitique **S**ans **R**éflexion (**TFPI**), une adaptation simple mais efficace du RLVR qui relie la distillation en chaîne de pensée (CoT) longue et le RLVR standard. TFPI utilise une opération *SansRéflexion* simple, rejetant explicitement le contenu de réflexion via un ajout direct *</think>*, pour réduire l'utilisation de tokens pendant l'inférence. L'entraînement avec des entrées adaptées *SansRéflexion* améliore les performances et réduit la consommation de tokens, même dans le mode de réflexion lente d'origine. Des expériences approfondies sur divers benchmarks ont montré que TFPI accélère la convergence du RL, atteint un plafond de performance plus élevé et produit des modèles de raisonnement plus efficaces en tokens sans récompenses spécialisées ou conceptions d'entraînement complexes. Avec TFPI uniquement, nous avons entraîné un modèle de 4B pour atteindre 89,0 % de précision sur AIME24 et 65,5 % sur LiveCodeBench en utilisant moins de 4 000 heures H20.
Les jugements basés sur les modèles de langage de grande taille (LLM) exploitent la puissance des LLM pour évaluer efficacement le contenu candidat et fournir des scores de jugement. Cependant, les biais inhérents et les vulnérabilités des jugements générés par les LLM soulèvent des préoccupations, mettant en évidence le besoin urgent de les distinguer dans des scénarios sensibles tels que l'évaluation par les pairs académiques. Dans ce travail, nous proposons et formalisons la tâche de détection des jugements et étudions systématiquement la détectabilité des jugements générés par les LLM. Contrairement à la détection de texte généré par les LLM, la détection des jugements repose uniquement sur les scores de jugement et les candidats, reflétant des scénarios réels où les retours textuels sont souvent indisponibles dans le processus de détection. Notre analyse préliminaire montre que les méthodes existantes de détection de texte généré par les LLM performent mal en raison de leur incapacité à capturer l'interaction entre les scores de jugement et le contenu candidat — un aspect crucial pour une détection efficace des jugements. Inspirés par cela, nous introduisons J-Detector, un détecteur neuronal léger et transparent enrichi de caractéristiques linguistiques explicitement extraites et améliorées par les LLM pour relier les biais des juges LLM aux propriétés des candidats afin d'obtenir une détection précise. Les expériences menées sur divers ensembles de données démontrent l'efficacité de J-Detector et montrent comment son interprétabilité permet de quantifier les biais des juges LLM. Enfin, nous analysons les facteurs clés affectant la détectabilité des jugements générés par les LLM et validons l'utilité pratique de la détection des jugements dans des scénarios réels.
La fiabilité des grands modèles de langage (LLMs) lors de la mise à l'échelle en phase de test est souvent évaluée à l'aide de vérificateurs externes ou de modèles de récompense qui distinguent le raisonnement correct de la logique défaillante. Les travaux antérieurs supposent généralement que les modèles de récompense basés sur le processus (PRMs), qui notent chaque étape intermédiaire du raisonnement, surpassent les modèles de récompense basés sur le résultat (ORMs) qui évaluent uniquement la réponse finale. Cette perspective repose principalement sur des preuves issues de domaines étroits, proches des mathématiques. Nous présentons la première évaluation unifiée de quatre variantes de modèles de récompense : les ORM et PRM discriminatifs (\DisORM, \DisPRM) et les ORM et PRM génératifs (\GenORM, \GenPRM), à travers 14 domaines variés. Contrairement à la sagesse conventionnelle, nous constatons que (i) \DisORM performe aussi bien que \DisPRM, (ii) \GenPRM n'est pas compétitif, et (iii) globalement, \GenORM est le plus robuste, offrant des gains significatifs et cohérents dans chaque domaine testé. Nous attribuons cela à la notation étape par étape de style PRM, qui hérite du bruit des étiquettes provenant de l'auto-étiquetage des LLM et a des difficultés à évaluer les trajectoires de raisonnement longues, y compris celles impliquant un raisonnement auto-correctif. Notre analyse théorique montre que l'agrégation étape par étape amplifie les erreurs à mesure que la longueur du raisonnement augmente, et nos observations empiriques confirment cet effet. Ces résultats remettent en question l'hypothèse dominante selon laquelle une supervision fine est toujours meilleure et soutiennent la vérification générative des résultats pour un déploiement multi-domaine. Nous rendons publics notre code, nos ensembles de données et nos points de contrôle à l'adresse https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} pour faciliter les recherches futures dans des contextes multi-domaines.
Panorama dispose d'un champ de vision complet (360°×180°), offrant une description visuelle plus complète que les images en perspective. Grâce à cette caractéristique, l'estimation de profondeur panoramique gagne en popularité dans le domaine de la vision 3D. Cependant, en raison de la rareté des données panoramiques, les méthodes précédentes sont souvent limitées à des cadres intra-domaines, ce qui entraîne une mauvaise généralisation zero-shot. De plus, en raison des distorsions sphériques inhérentes aux panoramas, de nombreuses approches reposent sur un découpage en perspective (par exemple, les cubemaps), ce qui conduit à une efficacité sous-optimale. Pour relever ces défis, nous proposons DA² : Depth Anything in Any Direction, un estimateur de profondeur panoramique précis, généralisable zero-shot et entièrement end-to-end. Plus précisément, pour augmenter les données panoramiques, nous introduisons un moteur de curation de données pour générer des données de profondeur panoramique de haute qualité à partir de perspectives, et créons environ 543 000 paires RGB-profondeur panoramiques, portant le total à environ 607 000. Pour atténuer davantage les distorsions sphériques, nous présentons SphereViT, qui exploite explicitement les coordonnées sphériques pour renforcer la cohérence géométrique sphérique dans les caractéristiques des images panoramiques, améliorant ainsi les performances. Un benchmark complet sur plusieurs ensembles de données démontre clairement les performances de pointe de DA², avec une amélioration moyenne de 38 % sur AbsRel par rapport au meilleur baseline zero-shot. Étonnamment, DA² surpasse même les méthodes intra-domaines précédentes, mettant en évidence sa supériorité en généralisation zero-shot. De plus, en tant que solution end-to-end, DA² présente une efficacité bien supérieure aux approches basées sur la fusion. Le code ainsi que les données panoramiques curatées seront publiés. Page du projet : https://depth-any-in-any-dir.github.io/.
Les capacités remarquables des modèles modernes de raisonnement à grande échelle sont largement débloquées grâce à des techniques de post-entraînement telles que le fine-tuning supervisé et l'apprentissage par renforcement. Cependant, les mécanismes architecturaux derrière ces améliorations restent largement opaques. Dans ce travail, nous utilisons l'analyse de circuits pour démontrer que le post-entraînement pour le raisonnement complexe déclenche l'émergence de têtes d'attention nouvelles et fonctionnellement spécialisées. Ces têtes soutiennent collectivement un raisonnement et des calculs structurés. Notre analyse comparative à travers les familles de modèles Qwen et DeepSeek-distilled révèle que ces têtes émergentes évoluent différemment selon les régimes d'entraînement. La distillation et le fine-tuning supervisé favorisent une addition cumulative de têtes de raisonnement stables. En revanche, l'optimisation relative de politique par groupe fonctionne dans un mode de recherche dynamique : relativement peu de têtes d'attention sont activées, évaluées et élaguées de manière itérative, leur survie suivant de près les fluctuations du signal de récompense de la tâche. De plus, nous constatons que les modèles contrôlables avec activation/désactivation de la pensée ne possèdent pas de têtes de pensée dédiées. Au lieu de cela, la désactivation du raisonnement explicite déclenche un ensemble plus large - mais moins efficace - de têtes compensatoires. Grâce à des analyses d'ablation et qualitatives, nous relions ces dynamiques au niveau des circuits à un compromis crucial de performance : les têtes renforcées permettent des stratégies de résolution de problèmes sophistiquées pour des problèmes difficiles, mais peuvent également introduire des modes d'échec dus à une sur-réflexion, tels que des erreurs de calcul ou des boucles logiques sur des tâches plus simples. Ces résultats relient les dynamiques au niveau des circuits à la performance au niveau macro, identifiant une tension inhérente où le raisonnement complexe se fait au détriment des calculs élémentaires. Plus largement, notre travail oriente les futures directions pour la conception des politiques d'entraînement, en soulignant la nécessité d'équilibrer le développement de stratégies de raisonnement efficaces avec l'assurance d'une exécution fiable et sans faille.
La génération vidéo à partir d'images a réalisé des progrès remarquables grâce aux avancées des modèles de diffusion, mais la création de vidéos avec des mouvements réalistes reste un défi majeur. Cette difficulté découle de la complexité à modéliser avec précision le mouvement, qui implique de capturer des contraintes physiques, des interactions entre objets et des dynamiques spécifiques à un domaine, difficiles à généraliser à travers divers scénarios. Pour y remédier, nous proposons MotionRAG, un cadre augmenté par récupération qui améliore le réalisme des mouvements en adaptant des a priori de mouvement à partir de vidéos de référence pertinentes via une Adaptation Contextuelle des Mouvements (CAMA). Les innovations techniques clés incluent : (i) un pipeline basé sur la récupération extrait des caractéristiques de mouvement de haut niveau à l'aide d'un encodeur vidéo et de rééchantillonneurs spécialisés pour distiller des représentations sémantiques du mouvement ; (ii) une approche d'apprentissage en contexte pour l'adaptation des mouvements, mise en œuvre via une architecture de transformateur causal ; (iii) un adaptateur d'injection de mouvement basé sur l'attention qui intègre de manière fluide les caractéristiques de mouvement transférées dans des modèles de diffusion vidéo pré-entraînés. Des expériences approfondies démontrent que notre méthode obtient des améliorations significatives dans plusieurs domaines et avec divers modèles de base, le tout avec une surcharge computationnelle négligeable lors de l'inférence. De plus, notre conception modulaire permet une généralisation zero-shot à de nouveaux domaines en mettant simplement à jour la base de données de récupération sans avoir à réentraîner les composants. Cette recherche renforce la capacité fondamentale des systèmes de génération vidéo en permettant la récupération et le transfert efficaces d'a priori de mouvement, facilitant ainsi la synthèse de dynamiques de mouvement réalistes.
Alors que les agents basés sur LLM sont de plus en plus déployés dans des scénarios réels, les benchmarks existants ne parviennent pas à capturer leur complexité inhérente à gérer des informations étendues, exploiter des ressources diverses et gérer des interactions utilisateur dynamiques. Pour combler cette lacune, nous présentons VitaBench, un benchmark exigeant qui évalue les agents sur des tâches interactives polyvalentes ancrées dans des contextes réels. S'inspirant d'applications quotidiennes telles que la livraison de repas, la consommation en magasin et les services de voyage en ligne, VitaBench propose aux agents l'environnement de simulation le plus complexe à ce jour, comprenant 66 outils. Grâce à un cadre qui élimine les politiques spécifiques à un domaine, nous permettons une composition flexible de ces scénarios et outils, générant 100 tâches inter-scénarios (résultats principaux) et 300 tâches mono-scénarios. Chaque tâche est dérivée de multiples requêtes utilisateur réelles et exige que les agents raisonnent à travers des dimensions temporelles et spatiales, utilisent des ensembles d'outils complexes, clarifient de manière proactive des instructions ambiguës et suivent les intentions changeantes des utilisateurs tout au long de conversations multi-tours. De plus, nous proposons un évaluateur basé sur une grille à fenêtre glissante, permettant une évaluation robuste des diverses voies de solution dans des environnements complexes et des interactions stochastiques. Notre évaluation approfondie révèle que même les modèles les plus avancés n'atteignent qu'un taux de réussite de 30 % sur les tâches inter-scénarios, et moins de 50 % sur les autres. Globalement, nous croyons que VitaBench servira de ressource précieuse pour faire progresser le développement des agents IA dans des applications pratiques du monde réel. Le code, le jeu de données et le classement sont disponibles sur https://vitabench.github.io/.
L'optimiseur Muon est systématiquement plus rapide qu'Adam pour l'entraînement des grands modèles de langage (LLMs), mais le mécanisme sous-jacent à son succès reste mal compris. Cet article démystifie ce mécanisme à travers le prisme de la mémoire associative. En éliminant sélectivement les composants du transformateur optimisés par Muon, nous révélons que les paramètres de mémoire associative des LLMs, à savoir les poids d'attention Valeur et Sortie (VO) et les réseaux feed-forward (FFNs), sont les principaux contributeurs à la supériorité de Muon. Motivés par cette perspective de mémoire associative, nous expliquons ensuite la supériorité de Muon sur les corpus réels, qui sont intrinsèquement à queue lourde : quelques classes (classes de queue) apparaissent bien moins fréquemment que les autres. Cette supériorité s'explique par deux propriétés clés : (i) sa règle de mise à jour produit systématiquement un spectre singulier plus isotrope que celui d'Adam ; et par conséquent, (ii) sur des données à queue lourde, il optimise les classes de queue plus efficacement qu'Adam. Au-delà des preuves empiriques, nous confirmons théoriquement ces résultats en analysant un modèle de mémoire associative à une couche sous des données déséquilibrées en classes. Nous prouvons que Muon atteint systématiquement un apprentissage équilibré entre les classes, indépendamment des embeddings de caractéristiques, tandis qu'Adam peut induire de grandes disparités dans les erreurs d'apprentissage en fonction des propriétés des embeddings. En résumé, nos observations empiriques et analyses théoriques révèlent l'avantage fondamental de Muon : sa règle de mise à jour s'aligne sur la structure de produit extérieur des mémoires associatives linéaires, permettant un apprentissage plus équilibré et efficace des classes de queue dans les distributions à queue lourde par rapport à Adam.
Les modèles de langage à diffusion (dLLMs) ont récemment suscité un intérêt considérable au sein de la communauté de recherche en tant qu'alternative prometteuse à la génération autorégressive, offrant une prédiction parallèle de tokens et une latence d'inférence réduite. Cependant, leur potentiel de décodage parallèle reste largement inexploité, car les modèles open-source existants nécessitent encore un nombre de pas de décodage presque équivalent à la longueur des tokens pour garantir leurs performances. Pour remédier à cela, nous introduisons dParallel, une méthode simple et efficace qui libère le parallélisme inhérent des dLLMs pour un échantillonnage rapide. Nous identifions que le principal goulot d'étranglement pour le décodage parallèle réside dans la convergence séquentielle de la certitude pour les tokens masqués. En nous appuyant sur cette observation, nous introduisons le cœur de notre approche : la distillation par forçage de certitude, une stratégie d'entraînement novatrice qui distille le modèle pour qu'il suive ses trajectoires d'échantillonnage originales tout en l'obligeant à atteindre une certitude élevée sur les tokens masqués plus rapidement et en parallèle. Des expériences approfondies sur divers benchmarks démontrent que notre méthode peut réduire considérablement le nombre de pas de décodage tout en maintenant les performances. Lorsqu'elle est appliquée au modèle LLaDA-8B-Instruct, dParallel réduit les pas de décodage de 256 à 30 sur GSM8K, obtenant une accélération de 8,5x sans dégradation des performances. Sur le benchmark MBPP, elle réduit les pas de décodage de 256 à 24, entraînant une accélération de 10,5x tout en conservant la précision. Notre code est disponible à l'adresse suivante : https://github.com/czg1225/dParallel.
Assurer un alignement multimodal précis entre les images générées par diffusion et les prompts d'entrée constitue un défi de longue date. Les travaux antérieurs ajustent les poids de diffusion à l'aide de données de préférence de haute qualité, qui tendent à être limitées et difficiles à étendre. Les méthodes récentes basées sur l'édition affinent davantage les régions locales des images générées, mais peuvent compromettre la qualité globale de l'image. Dans ce travail, nous proposons Implicit Multimodal Guidance (IMG), un nouveau cadre d'alignement multimodal basé sur la régénération qui ne nécessite aucune donnée supplémentaire ni opération d'édition. Plus précisément, étant donné une image générée et son prompt, IMG a) utilise un modèle de langage multimodal (MLLM) pour identifier les désalignements ; b) introduit un Aligner Implicite qui manipule les caractéristiques de conditionnement de la diffusion pour réduire les désalignements et permettre la régénération ; et c) formule l'objectif de réalignement en une fonction objectif entraînable, appelée Iteratively Updated Preference Objective. Des évaluations qualitatives et quantitatives approfondies sur SDXL, SDXL-DPO et FLUX montrent qu'IMG surpasse les méthodes d'alignement existantes. De plus, IMG agit comme un adaptateur plug-and-play flexible, améliorant de manière transparente les méthodes d'alignement basées sur l'ajustement fin précédent. Notre code sera disponible à l'adresse https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
L'apprentissage par renforcement (Reinforcement Learning, RL) a montré des succès remarquables dans l'amélioration des capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs). L'apprentissage par renforcement supervisé par processus (Process-Supervised RL, PSRL) s'est révélé être un paradigme plus efficace par rapport à l'apprentissage par renforcement basé sur les résultats. Cependant, les approches existantes de PSRL souffrent d'une efficacité d'exploration limitée, tant en termes de positions de branchement que d'échantillonnage. Dans cet article, nous introduisons un nouveau cadre PSRL (AttnRL), qui permet une exploration efficace pour les modèles de raisonnement. Motivés par des observations préliminaires indiquant que les étapes présentant des scores d'attention élevés sont corrélées avec des comportements de raisonnement, nous proposons de brancher à partir de positions ayant des valeurs élevées. De plus, nous développons une stratégie d'échantillonnage adaptative qui prend en compte la difficulté du problème et la taille historique des lots, garantissant que l'ensemble du lot d'entraînement maintient des valeurs d'avantage non nulles. Pour améliorer encore l'efficacité de l'échantillonnage, nous concevons un pipeline d'entraînement hors politique en une étape pour le PSRL. Des expériences approfondies sur plusieurs benchmarks de raisonnement mathématique difficiles démontrent que notre méthode surpasse systématiquement les approches antérieures en termes de performance, d'efficacité d'échantillonnage et d'entraînement.
Les humains peuvent-ils identifier les vidéos générées par IA (fausses) et fournir des raisons justifiées ? Alors que les modèles de génération vidéo ont progressé rapidement, une dimension critique -- à savoir si les humains peuvent détecter des traces de deepfake dans une vidéo générée, c'est-à-dire des artefacts visuels spatio-temporels qui révèlent qu'une vidéo est générée par une machine -- a été largement négligée. Nous présentons DeeptraceReward, le premier benchmark finement granulaire, conscient spatialement et temporellement, qui annote les traces de faux perçues par les humains pour la récompense de génération vidéo. Le jeu de données comprend 4,3K annotations détaillées sur 3,3K vidéos générées de haute qualité. Chaque annotation fournit une explication en langage naturel, localise une région de délimitation contenant la trace perçue, et marque des timestamps précis de début et de fin. Nous consolidons ces annotations en 9 catégories principales de traces de deepfake qui amènent les humains à identifier une vidéo comme générée par IA, et nous entraînons des modèles de langage multimodaux (LM) comme modèles de récompense pour imiter les jugements et localisations humaines. Sur DeeptraceReward, notre modèle de récompense de 7B surpasse GPT-5 de 34,7 % en moyenne sur l'identification des indices de faux, la localisation et l'explication. Fait intéressant, nous observons un gradient de difficulté constant : la classification binaire faux vs. réel est nettement plus facile que la détection fine des traces de deepfake ; dans cette dernière, la performance diminue des explications en langage naturel (les plus faciles), à la localisation spatiale, jusqu'à l'étiquetage temporel (le plus difficile). En mettant en avant les traces de deepfake perçues par les humains, DeeptraceReward fournit un banc d'essai rigoureux et un signal d'entraînement pour une génération vidéo socialement consciente et digne de confiance.
Nous étudions la régression code-vers-métrique : la prédiction de résultats numériques issus de l'exécution de code, une tâche complexe en raison de la nature ouverte des langages de programmation. Alors que les méthodes précédentes ont eu recours à un ingénierie de caractéristiques lourde et spécifique au domaine, nous montrons qu'un modèle de langage de régression unifié (RLM) peut prédire simultanément directement à partir du texte : (i) l'empreinte mémoire du code dans plusieurs langages de haut niveau tels que Python et C++, (ii) la latence des noyaux GPU Triton, et (iii) la précision et la vitesse des réseaux de neurones entraînés représentés en ONNX. En particulier, un RLM relativement petit de 300 millions de paramètres initialisé à partir de T5Gemma obtient un Spearman-rank > 0,9 sur des soumissions de programmation compétitive provenant d'APPS, et un modèle unifié unique atteint un Spearman-rank moyen > 0,5 sur 17 langages distincts de CodeNet. De plus, le RLM peut obtenir le Kendall-Tau moyen le plus élevé de 0,46 sur cinq espaces de conception classiques de NAS précédemment dominés par les réseaux de neurones graphiques, et prédire simultanément les latences d'architecture sur de nombreuses plateformes matérielles.
Bien que les systèmes précédents de type AI Scientist puissent générer des découvertes novatrices, ils manquent souvent de concentration pour produire des contributions scientifiquement précieuses qui répondent à des défis urgents définis par l'humanité. Nous présentons DeepScientist, un système conçu pour surmonter cet obstacle en menant des découvertes scientifiques entièrement autonomes et orientées vers un objectif sur des périodes de plusieurs mois. Il formalise la découverte comme un problème d'Optimisation Bayésienne, opérationnalisé à travers un processus d'évaluation hiérarchique composé des étapes "hypothétiser, vérifier et analyser". En s'appuyant sur une Mémoire des Découvertes cumulative, cette boucle équilibre intelligemment l'exploration de nouvelles hypothèses avec l'exploitation, en promouvant sélectivement les découvertes les plus prometteuses vers des niveaux de validation de plus haute fidélité. Consommant plus de 20 000 heures GPU, le système a généré environ 5 000 idées scientifiques uniques et en a validé expérimentalement environ 1 100, surpassant finalement les méthodes de pointe (SOTA) conçues par l'homme sur trois tâches d'IA de pointe par 183,7 %, 1,9 % et 7,9 %. Ce travail fournit la première preuve à grande échelle qu'une IA peut réaliser des découvertes qui surpassent progressivement le SOTA humain sur des tâches scientifiques, produisant des résultats précieux qui repoussent véritablement les frontières de la découverte scientifique. Pour faciliter des recherches ultérieures sur ce processus, nous rendrons publics tous les journaux d'expérimentation et le code du système à l'adresse https://github.com/ResearAI/DeepScientist/.
Les agents de modèles de langage de grande taille (LLM) sont limités par des fenêtres de contexte restreintes, nécessitant des systèmes de mémoire externes pour une compréhension à long terme de l'information. Les agents actuels dotés de mémoire reposent généralement sur des instructions et des outils prédéfinis pour les mises à jour de la mémoire. Cependant, les modèles de langage peuvent manquer de la capacité à déterminer quelles informations stocker, comment les structurer et quand les mettre à jour, en particulier à mesure que les systèmes de mémoire deviennent plus complexes. Cela entraîne une construction de mémoire sous-optimale et une perte d'information. Pour remédier à cela, nous proposons Mem-alpha, un cadre d'apprentissage par renforcement qui forme les agents à gérer efficacement des systèmes de mémoire complexes grâce à l'interaction et au retour d'information. Nous construisons également un ensemble de données d'entraînement spécialisé couvrant divers schémas d'interaction multi-tours, associés à des questions d'évaluation complètes conçues pour enseigner une gestion efficace de la mémoire. Pendant l'entraînement, les agents traitent des segments d'information séquentiels, apprennent à extraire et à stocker le contenu pertinent, puis mettent à jour le système de mémoire. Le signal de récompense découle de la précision des réponses aux questions sur l'historique complet de l'interaction, optimisant directement la construction de la mémoire. Pour illustrer l'efficacité de notre cadre d'entraînement, nous concevons une architecture de mémoire comprenant des composants centraux, épisodiques et sémantiques, équipée de multiples outils pour les opérations de mémoire. L'évaluation empirique démontre que Mem-alpha obtient des améliorations significatives par rapport aux agents de référence dotés de mémoire. Bien qu'étant entraînés exclusivement sur des instances d'une longueur maximale de 30 000 tokens, nos agents montrent une généralisation remarquable à des séquences dépassant 400 000 tokens, soit plus de 13 fois la longueur d'entraînement, mettant en évidence la robustesse de Mem-alpha.
Les réseaux de neurones récurrents modernes sont devenus une architecture compétitive pour la reconstruction 3D grâce à leur complexité temporelle linéaire. Cependant, leurs performances se dégradent considérablement lorsqu'ils sont appliqués au-delà de la longueur de contexte d'entraînement, révélant une généralisation limitée en termes de longueur. Dans ce travail, nous revisitons les modèles de base de reconstruction 3D sous l'angle de l'apprentissage au moment du test, en reformulant leur conception comme un problème d'apprentissage en ligne. En nous appuyant sur cette perspective, nous exploitons la confiance d'alignement entre l'état de mémoire et les observations entrantes pour dériver un taux d'apprentissage en forme fermée pour les mises à jour de la mémoire, afin d'équilibrer la rétention des informations historiques et l'adaptation aux nouvelles observations. Cette intervention sans entraînement, appelée TTT3R, améliore considérablement la généralisation en termes de longueur, obtenant une amélioration de 2 fois dans l'estimation de la pose globale par rapport aux méthodes de référence, tout en fonctionnant à 20 images par seconde avec seulement 6 Go de mémoire GPU pour traiter des milliers d'images. Le code est disponible sur https://rover-xingyu.github.io/TTT3R.
Les méthodes de séparation audio-visuelle de la parole (AVSS) exploitent les indices visuels pour extraire la parole cible et ont démontré une qualité de séparation élevée dans des environnements acoustiques bruyants. Cependant, ces méthodes impliquent généralement un grand nombre de paramètres et nécessitent un coût computationnel élevé, ce qui est inacceptable dans de nombreuses applications où la séparation de la parole ne sert qu'à une étape de prétraitement pour un traitement ultérieur de la parole. Pour résoudre ce problème, nous proposons une méthode AVSS efficace, nommée Dolphin. Pour l'extraction des caractéristiques visuelles, nous développons DP-LipCoder, un encodeur vidéo léger à double chemin qui transforme les mouvements labiaux en tokens sémantiques discrets alignés sur l'audio. Pour la séparation audio, nous construisons un séparateur léger encodeur-décodeur, dans lequel chaque couche intègre un bloc d'attention globale-locale (GLA) pour capturer efficacement les dépendances multi-échelles. Les expériences sur trois ensembles de données de référence ont montré que Dolphin non seulement surpasse le modèle actuel de pointe (SOTA) en termes de qualité de séparation, mais réalise également des améliorations remarquables en efficacité : plus de 50 % de paramètres en moins, une réduction de plus de 2,4x des MACs, et une vitesse d'inférence sur GPU plus de 6x plus rapide. Ces résultats indiquent que Dolphin offre une solution pratique et déployable pour une AVSS haute performance dans des scénarios réels. Notre code et notre page de démonstration sont disponibles publiquement à l'adresse http://cslikai.cn/Dolphin/.
La prolifération des grands modèles de langage (LLM) ouverts favorise un écosystème dynamique de recherche et d'innovation en intelligence artificielle (IA). Cependant, les méthodes de collaboration utilisées pour développer ces LLM ouverts, avant et après leur publication publique, n'ont pas encore été étudiées de manière exhaustive, limitant notre compréhension de la manière dont les projets de LLM ouverts sont initiés, organisés et gouvernés, ainsi que des opportunités pour renforcer davantage cet écosystème. Nous comblons cette lacune par une analyse exploratoire de la collaboration ouverte tout au long du cycle de vie du développement et de la réutilisation des LLM ouverts, en nous appuyant sur des entretiens semi-structurés avec les développeurs de 14 LLM ouverts issus de projets communautaires, d'instituts de recherche, de startups et de grandes entreprises technologiques en Amérique du Nord, en Europe, en Afrique et en Asie. Nous apportons trois contributions clés à la recherche et à la pratique. Premièrement, la collaboration dans les projets de LLM ouverts s'étend bien au-delà des LLM eux-mêmes, englobant des ensembles de données, des benchmarks, des frameworks open source, des classements, des forums de partage de connaissances et de discussion, ainsi que des partenariats de calcul, entre autres. Deuxièmement, les développeurs de LLM ouverts ont des motivations sociales, économiques et technologiques variées, allant de la démocratisation de l'accès à l'IA et de la promotion de la science ouverte à la construction d'écosystèmes régionaux et à l'élargissement de la représentation linguistique. Troisièmement, les projets de LLM ouverts échantillonnés présentent cinq modèles organisationnels distincts, allant des projets d'une seule entreprise aux projets communautaires soutenus par des organisations à but non lucratif, qui varient dans leur centralisation du contrôle et leurs stratégies d'engagement communautaire utilisées tout au long du cycle de vie des LLM ouverts. Nous concluons par des recommandations pratiques pour les parties prenantes cherchant à soutenir la communauté mondiale qui construit un avenir plus ouvert pour l'IA.
La construction d'agents de grands modèles de langage qui étendent leurs capacités en interagissant avec des outils externes représente une nouvelle frontière dans la recherche et les applications de l'IA. Dans cet article, nous présentons InfoAgent, un agent de recherche approfondie alimenté par un pipeline innovant de synthèse de données et orchestré par des outils de recherche web. Pour construire des requêtes complexes et difficiles à trouver, nous élaborons des arbres d'entités et appliquons un échantillonnage de sous-arbres avec floutage d'entités afin d'augmenter systématiquement la difficulté des questions. Contrairement aux travaux antérieurs qui s'appuient fortement sur des outils de recherche commerciaux, nous développons une infrastructure de recherche auto-hébergée dédiée, améliorant la transparence des environnements des agents et facilitant l'avancement ultérieur de leurs capacités. Nous évaluons l'efficacité de notre pipeline de données en mesurant le nombre moyen d'appels d'outils nécessaires pour répondre correctement à une question, et montrons également que notre agent obtient de meilleures performances lorsqu'il est équipé de nos outils. Notre InfoAgent est post-entraîné à partir de Qwen3-14B en utilisant une recette en deux étapes : un fine-tuning supervisé à froid pour instiller des comportements de recherche à long terme, suivi d'un apprentissage par renforcement qui améliore significativement l'utilisation des outils pilotée par le raisonnement. Avec nos méthodes, InfoAgent atteint une précision de 15,3 % sur BrowseComp, 29,2 % sur BrowseComp-ZH et 40,4 % sur Xbench-DS, surpassant les agents de recherche approfondie open-source précédents tels que WebSailor-72B et DeepDive-32B.
L'alignement en ligne (par exemple, GRPO) est généralement plus performant que l'alignement hors ligne (par exemple, DPO) — mais pourquoi ? En nous appuyant sur la théorie des perspectives issue de l'économie comportementale, nous proposons une explication centrée sur l'humain. Nous démontrons que l'échantillonnage en ligne sur politique approche mieux la distribution perçue par les humains de ce que le modèle peut produire, et que le clipping de type PPO/GRPO — initialement introduit pour stabiliser l'entraînement — reproduit un biais perceptif dans la manière dont les humains perçoivent les probabilités. En ce sens, PPO/GRPO agissent déjà comme des pertes perceptuelles. Notre théorie suggère en outre que la dichotomie en ligne/hors ligne est elle-même accessoire pour maximiser l'utilité humaine, car nous pouvons obtenir le même effet en entraînant de manière sélective sur n'importe quelles données d'une manière qui imite la perception humaine, plutôt que de nous restreindre aux données en ligne sur politique. Cela nous permettrait de post-entraîner plus rapidement, à moindre coût et avec plus de flexibilité sans sacrifier les performances. À cette fin, nous proposons un modèle de conception qui intègre explicitement les distorsions perceptuelles des probabilités dans des objectifs comme DPO/KTO/GRPO, créant ainsi des variantes "humanline" de ces méthodes. Étonnamment, nous constatons que ces variantes humanline, même lorsqu'elles sont entraînées avec des données hors ligne et hors politique, peuvent égaler les performances de leurs homologues en ligne sur des tâches à la fois vérifiables et non vérifiables.
La sécurité des grands modèles de langage (LLM) constitue l'un des défis les plus pressants pour permettre leur déploiement à grande échelle. Alors que la plupart des études et discussions mondiales se concentrent sur les risques génériques, tels que les modèles aidant les utilisateurs à se nuire ou à nuire à autrui, les entreprises sont confrontées à une préoccupation plus fondamentale : les agents basés sur des LLM sont-ils sûrs pour leur cas d'usage spécifique ? Pour répondre à cette question, nous introduisons la notion de sécurité opérationnelle, définie comme la capacité d'un LLM à accepter ou refuser de manière appropriée les requêtes des utilisateurs lorsqu'il est assigné à un objectif précis. Nous proposons également OffTopicEval, une suite d'évaluation et un benchmark pour mesurer la sécurité opérationnelle, à la fois de manière générale et dans des cas d'usage spécifiques d'agents. Nos évaluations sur six familles de modèles comprenant 20 LLM open-weight révèlent que, bien que les performances varient selon les modèles, tous restent fortement non sécurisés sur le plan opérationnel. Même les modèles les plus performants — Qwen-3 (235B) avec 77,77 % et Mistral (24B) avec 79,96 % — sont loin d'atteindre une sécurité opérationnelle fiable, tandis que les modèles GPT plafonnent dans la plage 62–73 %, Phi obtient des scores intermédiaires (48–70 %), et Gemma et Llama-3 chutent respectivement à 39,53 % et 23,84 %. Bien que la sécurité opérationnelle soit un problème central d'alignement des modèles, pour réduire ces échecs, nous proposons des méthodes de guidage basées sur les prompts : l'ancrage des requêtes (Q-ground) et l'ancrage des prompts système (P-ground), qui améliorent considérablement le refus hors domaine (OOD). Q-ground apporte des gains constants allant jusqu'à 23 %, tandis que P-ground offre des améliorations encore plus importantes, augmentant Llama-3.3 (70B) de 41 % et Qwen-3 (30B) de 27 %. Ces résultats soulignent à la fois le besoin urgent d'interventions en matière de sécurité opérationnelle et la promesse du guidage basé sur les prompts comme première étape vers des agents basés sur des LLM plus fiables.
Les fournisseurs de grands modèles de langage (LLM) mettent en avant des chiffres impressionnants concernant la taille maximale des fenêtres de contexte. Pour tester l'utilisation réelle de ces fenêtres de contexte, nous avons 1) défini un concept de fenêtre de contexte maximale effective, 2) formulé une méthode de test de l'efficacité d'une fenêtre de contexte pour différentes tailles et types de problèmes, et 3) créé une méthode standardisée pour comparer l'efficacité des modèles pour des tailles de fenêtres de contexte de plus en plus grandes, afin d'identifier le point de défaillance. Nous avons collecté des centaines de milliers de points de données sur plusieurs modèles et constaté des différences significatives entre la taille de la fenêtre de contexte maximale (MCW) rapportée et la taille de la fenêtre de contexte maximale effective (MECW). Nos résultats montrent que la MECW est non seulement très différente de la MCW, mais qu'elle varie également en fonction du type de problème. Quelques modèles haut de gamme de notre groupe de test ont échoué avec seulement 100 tokens dans le contexte ; la plupart ont subi une dégradation sévère de leur précision dès 1000 tokens dans le contexte. Tous les modèles sont restés bien en deçà de leur fenêtre de contexte maximale, avec un écart allant jusqu'à 99 %. Nos données révèlent que la fenêtre de contexte maximale effective varie en fonction du type de problème posé, offrant des insights clairs et exploitables pour améliorer la précision des modèles et réduire les taux d'hallucination.
La compréhension visuelle de base est-elle vraiment résolue dans les modèles de langage visuel (VLMs) de pointe ? Nous présentons VisualOverload, un benchmark légèrement différent pour la tâche de question-réponse visuelle (VQA), comprenant 2 720 paires de questions-réponses avec des réponses de référence tenues privées. Contrairement aux précédents ensembles de données VQA qui se concentrent généralement sur une compréhension quasi globale de l'image, VisualOverload met les modèles au défi d'effectuer des tâches visuelles simples, sans recours à des connaissances préalables, dans des scènes densément peuplées (ou surchargées). Notre ensemble de données est constitué de scans haute résolution de peintures du domaine public, remplies de multiples personnages, actions et sous-intrigues se déroulant sur des arrière-plans richement détaillés. Nous avons annoté manuellement ces images avec des questions réparties en six catégories de tâches pour tester une compréhension approfondie de la scène. Nous émettons l'hypothèse que les benchmarks actuels surestiment les performances des VLMs, et que l'encodage et le raisonnement sur les détails restent une tâche difficile pour eux, en particulier lorsqu'ils sont confrontés à des scènes densément peuplées. En effet, nous observons que même le meilleur modèle (o3) parmi les 37 modèles testés n'atteint que 19,6 % de précision sur notre partition de test la plus difficile et 69,5 % de précision globale sur toutes les questions. Au-delà d'une évaluation approfondie, nous complétons notre benchmark par une analyse des erreurs qui révèle plusieurs modes d'échec, notamment un manque de compétences en comptage, des échecs dans la reconnaissance optique de caractères (OCR) et des incohérences logiques frappantes dans des tâches complexes. En somme, VisualOverload expose un écart critique dans les modèles de vision actuels et offre une ressource cruciale pour la communauté afin de développer de meilleurs modèles. Benchmark : http://paulgavrikov.github.io/visualoverload
Les méthodes récentes d'apprentissage par renforcement (RL) ont considérablement amélioré les capacités de planification des grands modèles de langage (LLMs), mais les bases théoriques de leur efficacité restent floues. Dans ce travail, nous étudions les avantages et les limites du RL à travers une abstraction basée sur des graphes, en nous concentrant sur les méthodes de gradient de politique (PG) et de Q-learning. Nos analyses théoriques révèlent que le fine-tuning supervisé (SFT) peut introduire des solutions fallacieuses basées sur la co-occurrence, tandis que le RL atteint une planification correcte principalement grâce à l'exploration, soulignant ainsi le rôle de l'exploration dans l'amélioration de la généralisation. Cependant, nous montrons également que le PG souffre d'un effondrement de la diversité, où la diversité des sorties diminue pendant l'entraînement et persiste même après avoir atteint une précision parfaite. En revanche, le Q-learning offre deux avantages clés : l'apprentissage hors politique et la préservation de la diversité à la convergence. Nous démontrons en outre qu'une conception minutieuse des récompenses est nécessaire pour éviter le détournement de récompenses dans le Q-learning. Enfin, en appliquant notre cadre au benchmark de planification du monde réel Blocksworld, nous confirmons que ces comportements se manifestent dans la pratique.
Nous présentons Voice Evaluation of Reasoning Ability (VERA), un benchmark pour évaluer la capacité de raisonnement des systèmes interactifs vocaux soumis aux contraintes de conversations en temps réel. VERA comprend 2 931 épisodes conçus spécifiquement pour la voix, dérivés de benchmarks textuels établis et organisés en cinq catégories (Mathématiques, Web, Science, Contexte Long, Faits). Chaque élément est adapté pour l'interaction vocale tout en préservant la difficulté de raisonnement. VERA permet une comparaison directe texte-voix au sein des familles de modèles et soutient l'analyse de l'impact des choix architecturaux sur la fiabilité. Nous évaluons 12 systèmes vocaux contemporains ainsi que des modèles textuels de référence, et observons des écarts modaux importants et cohérents : en mathématiques compétitives, un modèle textuel leader atteint 74,8 % de précision, tandis que sa version vocale atteint 6,1 % ; en moyenne macro sur les catégories, les meilleurs modèles textuels atteignent 54,0 % contre 11,3 % pour les modèles vocaux. Les analyses latence-précision révèlent un plateau de faible latence, où les systèmes vocaux rapides se regroupent autour de ~10 % de précision, tandis qu'approcher les performances textuelles nécessite de sacrifier l'interaction en temps réel. Les expériences diagnostiques indiquent que les atténuations courantes sont insuffisantes. Augmenter le "temps de réflexion" apporte des gains négligeables ; une cascade découplée qui sépare le raisonnement de la narration améliore la précision mais reste bien en deçà du texte et introduit des erreurs caractéristiques de cohérence/ancrage. Les analyses d'échecs montrent en outre des signatures d'erreurs distinctes selon les architectures de streaming natif, end-to-end et en cascade. VERA fournit un banc d'essai reproductible et des diagnostics ciblés pour les architectures qui découplent la pensée de la parole, offrant une méthode rigoureuse pour mesurer les progrès vers des assistants vocaux en temps réel à la fois fluides et fiables dans leur raisonnement.
Le développement d'agents autonomes capables d'interagir efficacement avec les interfaces graphiques (GUIs) reste un problème ouvert et complexe, en particulier pour les modèles légers fonctionnant directement sur les appareils. Dans cet article, nous présentons Ferret-UI Lite, un agent GUI compact et end-to-end qui opère sur diverses plateformes, incluant les mobiles, le web et les ordinateurs de bureau. En utilisant des techniques optimisées pour le développement de modèles légers, nous avons construit notre agent Ferret-UI Lite de 3 milliards de paramètres en constituant un ensemble de données GUI diversifié provenant de sources réelles et synthétiques, en renforçant les performances à l'inférence grâce au raisonnement en chaîne de pensée et à l'utilisation d'outils visuels, ainsi qu'en appliquant l'apprentissage par renforcement avec des récompenses conçues. Ferret-UI Lite atteint des performances compétitives par rapport à d'autres agents GUI de petite taille. Pour la localisation dans les GUIs, Ferret-UI Lite obtient des scores de 91,6 %, 53,3 % et 61,2 % sur les benchmarks ScreenSpot-V2, ScreenSpot-Pro et OSWorld-G, respectivement. Pour la navigation dans les GUIs, Ferret-UI Lite atteint des taux de réussite de 28,0 % sur AndroidWorld et 19,8 % sur OSWorld. Nous partageons nos méthodes et les enseignements tirés du développement d'agents GUI compacts et fonctionnant sur appareil.
jina-reranker-v3 est un rerankeur de documents multilingue à 0,6 milliard de paramètres qui introduit une nouvelle interaction dite « last but not late ». Contrairement aux modèles à interaction tardive comme ColBERT, qui effectuent un encodage séparé suivi d'une correspondance multi-vecteurs, notre approche réalise une auto-attention causale entre la requête et les documents dans la même fenêtre contextuelle, permettant des interactions riches entre les documents avant d'extraire les embeddings contextuels à partir du dernier token de chaque document. Cette architecture compacte atteint des performances de pointe sur BEIR avec un nDCG@10 de 61,94 tout en étant dix fois plus petite que les rerankeurs génératifs de type listwise.
Les grands modèles de langage (LLMs) utilisent l'interaction multi-tours comme paradigme fondamental pour accomplir des tâches complexes. Cependant, leurs performances se dégradent souvent lors d'interactions prolongées, car ils sont généralement entraînés sur des données statiques à un seul tour, ce qui limite leur capacité à s'adapter aux retours utilisateur en temps réel. Pour remédier à cette limitation, nous proposons d'abord un nouveau paradigme : l'Adaptation de Politique en Temps de Test pour les Interactions Multi-Tours (T2PAM), qui utilise les retours utilisateur de l'interaction en cours comme signal de récompense pour estimer une politique optimale latente alignée sur les préférences de l'utilisateur, puis met à jour un petit sous-ensemble de paramètres pour orienter le modèle vers cette politique, permettant ainsi une autocorrection efficace en cours de conversation. Nous introduisons ensuite l'Adaptation en Une Étape Référencée à l'Optimum (ROSA), un algorithme léger qui met en œuvre T2PAM. ROSA guide les paramètres du modèle vers une politique optimale théorique en une seule étape de mise à jour efficace, évitant ainsi une optimisation itérative coûteuse basée sur le gradient et minimisant la surcharge computationnelle. Nous fournissons une analyse théorique rigoureuse garantissant que la politique de ROSA converge vers les préférences de l'utilisateur à mesure que le nombre d'interactions augmente. Des expériences approfondies sur des benchmarks exigeants démontrent que ROSA apporte des améliorations significatives à la fois en termes d'efficacité de la tâche et d'efficience.
Les grands modèles de langage excellent avec l'apprentissage par renforcement (RL), mais pour pleinement exploiter ce potentiel, une étape intermédiaire d'entraînement est nécessaire. Une phase intermédiaire efficace doit identifier un ensemble compact d'actions utiles et permettre une sélection rapide parmi elles via le RL en ligne. Nous formalisons cette intuition en présentant le premier résultat théorique sur la manière dont l'entraînement intermédiaire façonne l'après-entraînement : il caractérise un sous-espace d'actions qui minimise à la fois l'erreur d'approximation de la valeur due à l'élagage et l'erreur de RL lors de la planification ultérieure. Notre analyse révèle deux déterminants clés de l'efficacité de l'entraînement intermédiaire : l'efficacité de l'élagage, qui façonne l'a priori de la politique initiale de RL, et son impact sur la convergence du RL, qui régit la mesure dans laquelle cette politique peut être améliorée via des interactions en ligne. Ces résultats suggèrent que l'entraînement intermédiaire est plus efficace lorsque l'espace de décision est compact et que l'horizon effectif est court, soulignant l'importance d'opérer dans l'espace des abstractions d'actions plutôt que dans celui des actions primitives. En nous appuyant sur ces insights, nous proposons le Raisonnement comme Abstractions d'Actions (RA3), un algorithme d'entraînement intermédiaire scalable. Plus précisément, nous dérivons une borne inférieure variationnelle séquentielle et l'optimisons en découvrant itérativement des structures latentes temporellement cohérentes via le RL, suivies d'un affinage sur les données bootstrapées. Les expériences sur des tâches de génération de code démontrent l'efficacité de notre approche. Sur plusieurs modèles de base, RA3 améliore la performance moyenne sur HumanEval et MBPP de 8 et 4 points par rapport au modèle de base et à la baseline de prédiction du token suivant. De plus, RA3 atteint une convergence plus rapide et une performance asymptotique plus élevée dans RLVR sur HumanEval+, MBPP+, LiveCodeBench et Codeforces.
La compression du cache KV promet un débit accru et une efficacité améliorée avec une perte de performance négligeable. Bien que les gains en débit soient indéniables et que la littérature récente ait effectivement montré une dégradation minimale sur certains benchmarks, les conséquences de la compression dans des scénarios réalistes, tels que l'invocation multi-instructions, ont été insuffisamment étudiées. Dans cet article, nous identifions plusieurs écueils dont les praticiens devraient être conscients lors du déploiement de modèles de langage (LLM) avec un cache KV compressé. Nous montrons notamment que certaines instructions se dégradent beaucoup plus rapidement avec la compression, ce qui les rend effectivement ignorées par le LLM. À titre d'exemple pratique, nous mettons en lumière la fuite des prompts système comme étude de cas, en démontrant empiriquement l'impact de la compression sur la fuite et le suivi général des instructions. Nous identifions plusieurs facteurs qui jouent un rôle dans la fuite des prompts : la méthode de compression, l'ordre des instructions et le biais d'éviction du cache KV. Nous proposons ensuite des modifications simples aux politiques d'éviction du cache KV qui peuvent réduire l'impact de ces facteurs et améliorer les performances globales dans les tâches multi-instructions.
Des études empiriques récentes ont exploré l'idée de continuer à entraîner un modèle au moment du test pour une tâche donnée, connue sous le nom de test-time training (TTT), et ont constaté qu'elle permet d'obtenir des améliorations significatives des performances. Cependant, la compréhension des raisons et des conditions dans lesquelles le TTT est efficace reste limitée. Les explications antérieures se concentraient principalement sur l'observation que le TTT peut être utile lorsqu'il est appliqué à l'adaptation hors distribution ou utilisé avec des données privilégiées. Cependant, l'échelle croissante des modèles de fondation, avec la plupart des données de test étant en distribution, remet en question ces explications. Nous proposons plutôt que les modèles de fondation restent globalement sous-paramétrés, le TTT fournissant un mécanisme de spécialisation après la généralisation, en concentrant la capacité sur les concepts pertinents pour la tâche de test. Plus précisément, sous l'hypothèse de représentation linéaire, nous proposons un modèle dans lequel le TTT atteint une erreur de test en distribution nettement plus faible que l'entraînement global. Nous validons empiriquement les hypothèses clés de notre modèle en entraînant un autoencodeur parcimonieux sur ImageNet, montrant que les points de données sémantiquement liés sont expliqués par seulement quelques concepts partagés. Enfin, nous réalisons des études de mise à l'échelle sur des tâches d'image et de langage qui confirment les implications pratiques de notre modèle, en identifiant les régimes où la spécialisation est la plus efficace.
Les algorithmes actuels d'apprentissage par renforcement en ligne (RL) comme GRPO partagent une limitation clé dans le raisonnement des modèles de langage (LLM) : ils ne peuvent pas apprendre à partir de problèmes qui sont "insolubles" pour le modèle. En d'autres termes, ils ne peuvent améliorer les performances que sur des problèmes pour lesquels le modèle est capable d'explorer la réponse correcte. Par conséquent, la "limite supérieure" du modèle reste inchangée après l'entraînement RL, même si la probabilité de résoudre des problèmes plus faciles et solubles peut augmenter. Ces échantillons difficiles ne peuvent pas contribuer à l'entraînement, car aucun déploiement ne génère de récompenses et donc aucun gradient n'est produit. Pour permettre l'apprentissage à partir de ces échantillons difficiles, nous proposons NuRL, une méthode de "poussée" qui vise à repousser la limite supérieure du raisonnement des LLM en utilisant des indices auto-générés, c'est-à-dire des indices abstraits qui aident à réduire la difficulté du problème pour le modèle. Étant donné une question et sa réponse correcte, le modèle génère une chaîne de pensée (CoT) puis produit un indice contenant les connaissances essentielles nécessaires pour résoudre le problème. Pendant l'entraînement, nous générons G déploiements à partir de la politique de base et utilisons le taux de réussite pour décider si l'indice doit être injecté. Pour les échantillons difficiles avec un taux de réussite de 0 %, nous injectons l'indice et régénérons un nouveau lot de trajectoires. Cela apporte deux avantages : (1) l'indice augmente les taux de réussite (de 0 % à une valeur non nulle), introduisant ainsi des signaux d'entraînement pour les échantillons précédemment insolubles, et (2) les indices sont auto-générés, évitant un décalage de distribution et ne dépendant pas de modèles externes. NuRL obtient des améliorations constantes sur 6 benchmarks et 3 modèles, tout en restant complémentaire à la mise à l'échelle au moment du test. Notamment, NuRL peut augmenter la limite supérieure du modèle, alors que GRPO laisse le pass@1024 inchangé par rapport au modèle de base. De plus, nous présentons une étude systématique de ce qui constitue un indice efficace et quand les indices sont les plus utiles. Fait intéressant, les meilleurs indices sont abstraits et de haut niveau, et sont les plus bénéfiques lorsqu'ils sont appliqués de manière nécessaire et après que GRPO a convergé.
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs), malgré leurs performances prometteuses, souffrent encore d'une inférence peu efficace. Cela s'explique par le fait que les dLLMs reposent sur une attention bidirectionnelle et ne peuvent pas bénéficier directement du cache standard clé-valeur (KV) comme le font les modèles autorégressifs (ARMs). Pour résoudre ce problème, nous introduisons le Dual aDaptive Cache (d²Cache), un cadre de cache KV approximatif sans entraînement visant à accélérer l'inférence des dLLMs. d²Cache intègre une stratégie de sélection fine en deux étapes pour identifier les tokens et mettre à jour de manière adaptative leurs états KV à chaque étape de décodage, tout en conservant en cache les états KV des tokens restants pour une réutilisation ultérieure. De plus, d²Cache propose naturellement une alternative de décodage plus fiable, permettant une génération quasi séquentielle de gauche à droite et atténuant la confiance excessive prématurée dans les tokens situés en fin de séquence. Les résultats expérimentaux approfondis sur deux dLLMs représentatifs (à savoir, LLaDA et Dream) démontrent que d²Cache non seulement permet des accélérations substantielles de l'inférence, mais améliore également de manière cohérente la qualité de la génération. Le code est disponible à l'adresse suivante : https://github.com/Kamichanw/d2Cache.
L’IA moderne repose sur des réseaux de neurones artificiels profonds (RN). En 2025, l’article scientifique le plus cité du XXIe siècle est un article sur l’apprentissage profond résiduel avec des connexions résiduelles. Qui a inventé cela ? Nous présentons une chronologie de l’évolution de l’apprentissage profond résiduel.
Les modèles de langage de grande taille (LLMs) sont de plus en plus étudiés en tant que bases de connaissances neuronales pour soutenir des applications intensives en connaissances, telles que la réponse à des questions et la vérification de faits. Cependant, l'organisation structurelle de leurs connaissances reste inexplorée. Inspirés par des découvertes en neurosciences cognitives, telles que le regroupement sémantique et l'amorçage, où la connaissance d'un fait augmente la probabilité de se souvenir de faits connexes, nous investiguons un modèle analogue d'homophilie de connaissances dans les LLMs. Pour ce faire, nous cartographions les connaissances des LLMs dans une représentation graphique en vérifiant les connaissances à la fois au niveau des triplets et des entités. Ensuite, nous analysons la relation de connaissance entre une entité et ses voisins, découvrant que les LLMs tendent à posséder un niveau de connaissance similaire pour les entités positionnées plus proches dans le graphe. Motivés par ce principe d'homophilie, nous proposons un modèle de régression basé sur un réseau de neurones graphiques (GNN) pour estimer les scores de connaissance au niveau des entités pour les triplets en exploitant les scores de leurs voisinages. La connaissance prédite nous permet de prioriser la vérification des triplets moins bien connus, maximisant ainsi la couverture des connaissances sous le même budget d'étiquetage. Cela améliore non seulement l'efficacité de l'étiquetage actif pour le fine-tuning afin d'injecter des connaissances dans les LLMs, mais améliore également la récupération de chemins multi-sauts dans la réponse à des questions intensives en raisonnement.
Les techniques de recherche actuelles se limitent aux applications standard de requête-document RAG. Dans cet article, nous proposons une nouvelle technique pour étendre le code et l'index afin de prédire les API nécessaires, permettant ainsi directement une génération de code de haute qualité, de bout en bout, pour les applications de complétion automatique et d'IA agentique. Nous abordons le problème des fuites d'API dans les ensembles de données de référence actuels de code-à-code en introduisant un nouvel ensemble de données construit à partir de Script Includes de ServiceNow en situation réelle, qui capturent le défi de l'intention d'utilisation d'API peu claire dans le code. Nos métriques d'évaluation montrent que cette méthode atteint une précision de récupération de 87,86 % dans le top 40, fournissant le contexte critique avec les API nécessaires pour une génération de code en aval réussie. Pour permettre des prédictions en temps réel, nous développons un pipeline complet de post-entraînement qui optimise un reranker compact de 0,6 milliard de paramètres grâce à la génération d'ensembles de données synthétiques, au réglage fin supervisé et à l'apprentissage par renforcement. Cette approche permet à notre reranker compact de surpasser un modèle beaucoup plus grand de 8 milliards de paramètres tout en maintenant une latence réduite de 2,5 fois, abordant efficacement les nuances du code spécifique à l'entreprise sans la surcharge computationnelle des modèles plus volumineux.
Les systèmes multi-agents (SMA) sont de plus en plus capables de traiter des tâches complexes du monde réel, mais leur dépendance à la coordination inter-agents, à l'utilisation d'outils et au raisonnement à long terme rend la reconnaissance des erreurs particulièrement difficile. Des erreurs mineures peuvent se propager entre les agents, s'amplifiant en échecs de tâches tout en produisant des trajectoires d'exécution longues et entrelacées, imposant des coûts significatifs aux développeurs humains et aux systèmes automatisés pour déboguer et analyser. Notre idée clé est que, malgré des différences superficielles dans les trajectoires d'échec (par exemple, les logs), les erreurs des SMA se reproduisent souvent avec des motifs structurels similaires. Cet article présente CORRECT, le premier cadre léger et sans entraînement qui exploite un cache en ligne de schémas d'erreurs distillés pour reconnaître et transférer la connaissance des structures d'échec à travers de nouvelles requêtes. Cette réutilisation basée sur le cache permet aux LLM d'effectuer une localisation ciblée des erreurs au moment de l'inférence, évitant ainsi le besoin d'un réentraînement coûteux tout en s'adaptant aux déploiements dynamiques des SMA en quelques fractions de seconde. Pour soutenir une étude rigoureuse dans ce domaine, nous introduisons également CORRECT-Error, un jeu de données à grande échelle de plus de 2 000 trajectoires annotées collectées via un pipeline innovant d'injection d'erreurs guidé par des distributions du monde réel, et validé par une évaluation humaine pour garantir l'alignement avec les modèles naturels d'échec. Les expériences menées sur sept applications diverses de SMA montrent que CORRECT améliore la localisation des erreurs au niveau des étapes jusqu'à 19,8 % par rapport aux avancées existantes, avec un surcoût quasi nul, réduisant ainsi considérablement l'écart entre la reconnaissance automatisée et humaine des erreurs.
Les modèles basés sur les Transformers ont considérablement fait progresser la prévision de séries temporelles, avec des stratégies d'entrée par patchs offrant une efficacité accrue et une meilleure modélisation à long terme. Cependant, les approches existantes reposent sur une construction de patchs temporellement agnostique, où des positions de départ arbitraires et des longueurs fixes fragmentent la cohérence temporelle en divisant les transitions naturelles aux limites. Cette segmentation naïve perturbe souvent les dépendances à court terme et affaiblit l'apprentissage de représentations. En réponse, nous proposons EntroPE (Entropy-Guided Dynamic Patch Encoder), un cadre novateur et temporellement informé qui détecte dynamiquement les points de transition via l'entropie conditionnelle et place dynamiquement les limites des patchs. Cela préserve la structure temporelle tout en conservant les avantages computationnels du patchage. EntroPE se compose de deux modules clés : un Dynamic Patcher basé sur l'entropie (EDP) qui applique des critères informationnels pour localiser les transitions temporelles naturelles et déterminer les limites des patchs, et un Adaptive Patch Encoder (APE) qui utilise le pooling et l'attention croisée pour capturer les dépendances intra-patchs et produire des représentations latentes de taille fixe. Ces embeddings sont ensuite traités par un Transformer global pour modéliser la dynamique inter-patchs. Les expériences menées sur des benchmarks de prévision à long terme démontrent qu'EntroPE améliore à la fois la précision et l'efficacité, établissant ainsi le patchage dynamique guidé par l'entropie comme un nouveau paradigme prometteur pour la modélisation des séries temporelles. Le code est disponible à l'adresse suivante : https://github.com/Sachithx/EntroPE.
La compilation automatique de projets de logiciels open-source (OSS) est une tâche essentielle, laborieuse et complexe, ce qui en fait un défi pertinent pour les agents basés sur des modèles de langage de grande taille (LLM). Les méthodes existantes reposent sur des règles et des workflows manuellement élaborés, qui ne peuvent pas s'adapter aux OSS nécessitant une configuration personnalisée ou une mise en place d'environnement spécifique. Les tentatives récentes utilisant des modèles de langage de grande taille (LLM) se sont appuyées sur une évaluation sélective d'un sous-ensemble d'OSS hautement notés, une pratique qui sous-estime les défis réalistes de la compilation des OSS. En pratique, les instructions de compilation sont souvent absentes, les dépendances ne sont pas documentées, et des builds réussis peuvent même nécessiter la modification de fichiers sources ou de scripts de compilation. Nous proposons un benchmark plus exigeant et réaliste, BUILD-BENCH, comprenant des OSS plus diversifiés en termes de qualité, d'échelle et de caractéristiques. De plus, nous proposons un agent de référence basé sur un LLM, OSS-BUILD-AGENT, un système efficace doté d'un module amélioré de récupération d'instructions de compilation, qui atteint des performances de pointe sur BUILD-BENCH et s'adapte aux caractéristiques hétérogènes des OSS. Nous fournissons également une analyse détaillée concernant les différents choix de conception des méthodes de compilation et leur influence sur l'ensemble de la tâche, offrant des insights pour guider les avancées futures. Nous pensons que les performances sur BUILD-BENCH peuvent refléter fidèlement la capacité d'un agent à aborder la compilation comme une tâche complexe d'ingénierie logicielle, et, à ce titre, notre benchmark stimulera l'innovation avec un impact significatif sur les applications en aval dans les domaines du développement logiciel et de la sécurité logicielle.
Les modèles de langage multimodaux de grande taille (MLLMs) nécessitent des informations visuelles haute résolution pour effectuer une perception fine, mais le traitement d'images entières en haute résolution est prohibitif en termes de calcul. Bien que les méthodes récentes exploitent un mécanisme de Région d'Intérêt (RoI) pour se concentrer sur les zones saillantes, elles présentent généralement un compromis difficile : les approches basées sur l'apprentissage dépendent de jeux de données annotés à grande échelle, tandis que les méthodes sans apprentissage qui utilisent l'attention interne du modèle sont inefficaces sur le plan computationnel et moins précises, nécessitant soit des étapes de préremplissage multi-passes, soit un recours au processus de décodage auto-régressif lent. Dans cet article, nous proposons un Réseau de Proposition de Région auto-distillé (SD-RPN) efficace et sans annotation, qui résout ce compromis. Le SD-RPN est construit autour d'un pipeline qui transforme les cartes d'attention bruyantes des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité en débruitant explicitement le signal et en résolvant les ambiguïtés. Nous utilisons ces étiquettes pour entraîner un Réseau de Proposition de Région (RPN) léger qui apprend une localisation plus précise. Ce RPN est également très efficace, prédisant la RoI en une seule passe avant en utilisant les caractéristiques des couches intermédiaires du MLLM, découplant ainsi l'identification de la RoI de la génération auto-régressive et évitant les opérations multi-passes coûteuses. Pour valider notre approche, nous intégrons le framework dans l'architecture LLaVA-1.5. Bien qu'entraîné sur seulement quelques milliers (par exemple 10K) de paires question-réponse, notre méthode démontre une efficacité et une généralisation exceptionnelles, obtenant une amélioration absolue de plus de 10 % en précision sur des benchmarks non vus, notamment TextVQA, DocVQA et V-Star. Notre travail présente une solution pratique et évolutive pour améliorer la perception fine des MLLMs sans nécessiter de supervision coûteuse ou de réglage complet du modèle. Le code est disponible à l'adresse https://github.com/YuHengsss/SD-RPN.
Les grands modèles audio-langage progressent rapidement, mais la plupart des évaluations mettent l'accent sur la parole ou des sons d'origine globale, négligeant les indices culturellement distinctifs. Cette lacune soulève une question cruciale : les modèles actuels peuvent-ils généraliser à des audios localisés et non sémantiques que les communautés reconnaissent instantanément mais que les étrangers ne perçoivent pas ? Pour répondre à cela, nous présentons TAU (Taiwan Audio Understanding), un benchmark de "soundmarks" quotidiens taïwanais. TAU est construit via un pipeline combinant des sources sélectionnées, un éditing humain et une génération de questions assistée par des LLM, produisant 702 clips et 1 794 questions à choix multiples qui ne peuvent être résolues par les transcriptions seules. Les expériences montrent que les LALM de pointe, y compris Gemini 2.5 et Qwen2-Audio, performent bien en dessous des humains locaux. TAU démontre la nécessité de benchmarks localisés pour révéler les angles morts culturels, guider une évaluation multimodale plus équitable et garantir que les modèles servent des communautés au-delà du courant dominant mondial.
Nous présentons le Convolutional Set Transformer (CST), une nouvelle architecture neuronale conçue pour traiter des ensembles d'images de cardinalité arbitraire qui sont visuellement hétérogènes mais partagent une sémantique de haut niveau - telle qu'une catégorie, une scène ou un concept commun. Les réseaux existants prenant des ensembles en entrée, par exemple Deep Sets et Set Transformer, sont limités à des entrées vectorielles et ne peuvent pas directement gérer des tenseurs d'images 3D. Par conséquent, ils doivent être combinés avec un extracteur de caractéristiques, généralement un CNN, qui encode les images en embeddings avant que le réseau prenant des ensembles en entrée puisse modéliser les relations inter-images. En revanche, le CST opère directement sur des tenseurs d'images 3D, effectuant simultanément l'extraction de caractéristiques et la modélisation contextuelle, permettant ainsi des synergies entre les deux processus. Cette conception offre des performances supérieures dans des tâches telles que la Classification d'Ensembles et la Détection d'Anomalies dans les Ensembles, et fournit en outre une compatibilité native avec les méthodes d'explicabilité des CNN telles que Grad-CAM, contrairement aux approches concurrentes qui restent opaques. Enfin, nous montrons que les CST peuvent être pré-entraînés sur des ensembles de données à grande échelle et ensuite adaptés à de nouveaux domaines et tâches grâce à des schémas standard de Transfer Learning. Pour soutenir la recherche future, nous publions CST-15, un backbone de CST pré-entraîné sur ImageNet (https://github.com/chinefed/convolutional-set-transformer).
Les modèles de diffusion offrent un cadre physiquement fondé pour la prévision probabiliste du temps, mais leur dépendance typique à des solveurs itératifs lents lors de l'inférence les rend peu pratiques pour les applications sub-saisonnières à saisonnières (S2S), où les délais longs et l'étalonnage basé sur le domaine sont essentiels. Pour remédier à cela, nous présentons Swift, un modèle de cohérence en une seule étape qui, pour la première fois, permet un réglage fin autorégressif d'un modèle de flux de probabilité avec un objectif de score de probabilité classée continue (CRPS). Cela élimine le besoin d'ensembles multi-modèles ou de perturbations de paramètres. Les résultats montrent que Swift produit des prévisions compétentes toutes les 6 heures qui restent stables jusqu'à 75 jours, fonctionnant 39 fois plus vite que les modèles de diffusion de pointe tout en atteignant une compétence de prévision comparable à celle du système opérationnel IFS ENS basé sur la modélisation numérique. Cela marque une étape vers une prévision d'ensemble efficace et fiable, de l'échelle moyenne à l'échelle saisonnière.
Les concepteurs créent et modifient des designs graphiques en utilisant une représentation par couches, mais l'édition basée sur les couches devient impossible une fois que l'image est compositée en une image raster. Dans ce travail, nous proposons LayerD, une méthode pour décomposer les designs graphiques raster en couches afin de permettre un flux de travail créatif ré-éditable. LayerD aborde la tâche de décomposition en extrayant itérativement les couches de premier plan non occultées. Nous proposons une approche de raffinement simple mais efficace, en tirant parti de l'hypothèse selon laquelle les couches présentent souvent une apparence uniforme dans les designs graphiques. Comme la décomposition est un problème mal posé et que la structure des couches de référence peut ne pas être fiable, nous développons une métrique de qualité pour répondre à cette difficulté. Dans les expériences, nous montrons que LayerD parvient à réaliser une décomposition de haute qualité et surpasse les méthodes de référence. Nous démontrons également l'utilisation de LayerD avec des générateurs d'images de pointe et l'édition basée sur les couches.
Alors que les grands modèles de langage (LLM) dotés de capacités de raisonnement progressent rapidement dans les compétitions de mathématiques de niveau lycée et en programmation, peuvent-ils raisonner efficacement face à des défis complexes et ouverts rencontrés dans la recherche de pointe en physique ? Et surtout, quels types de tâches de raisonnement les physiciens souhaitent-ils voir les LLM les assister à accomplir ? Pour répondre à ces questions, nous présentons CritPt (Complex Research using Integrated Thinking - Physics Test, prononcé "point critique"), le premier benchmark conçu pour évaluer les LLM sur des tâches de raisonnement de niveau recherche non publiées, couvrant largement les domaines modernes de la physique, notamment la matière condensée, la physique quantique, la physique atomique, moléculaire et optique, l'astrophysique, la physique des hautes énergies, la physique mathématique, la physique statistique, la physique nucléaire, la dynamique non linéaire, la dynamique des fluides et la biophysique. CritPt se compose de 71 défis de recherche composites conçus pour simuler des projets de recherche à grande échelle de niveau débutant, qui sont également décomposés en 190 tâches de contrôle plus simples pour des analyses plus granulaires. Tous les problèmes ont été nouvellement créés par plus de 50 chercheurs actifs en physique, basés sur leurs propres recherches. Chaque problème est soigneusement sélectionné pour admettre une réponse résistante aux conjectures et vérifiable par machine, et est évalué par un pipeline de notation automatisé fortement personnalisé pour les formats de sortie spécifiques à la physique avancée. Nous constatons que si les LLM actuels de pointe montrent des signes prometteurs sur des points de contrôle isolés, ils restent loin de pouvoir résoudre de manière fiable des défis de recherche à grande échelle : la meilleure précision moyenne parmi les modèles de base n'est que de 4,0 %, atteinte par GPT-5 (haut), augmentant modérément à environ 10 % lorsqu'ils sont équipés d'outils de programmation. Grâce à l'évaluation réaliste mais standardisée offerte par CritPt, nous mettons en évidence un grand décalage entre les capacités actuelles des modèles et les exigences réalistes de la recherche en physique, offrant une base pour guider le développement d'outils d'IA scientifiquement fondés.
Les modèles de base pour les séries temporelles (TSFMs) offrent une prévision solide en mode zéro-shot grâce à un pré-entraînement à grande échelle, mais le réglage fin reste crucial pour améliorer les performances dans les domaines où les données publiques sont limitées. Avec l'augmentation du nombre de TSFMs, identifier efficacement le meilleur modèle pour un réglage fin en aval devient de plus en plus complexe. Dans ce travail, nous présentons TimeTic, un cadre d'estimation de la transférabilité qui reformule la sélection de modèle comme un problème d'apprentissage en contexte : à partir d'observations sur des ensembles de données connus (source), il prédit comment un TSFM performera après un réglage fin sur un ensemble de données cible. TimeTic organise de manière flexible les relations observées entre les modèles et les données comme information contextuelle, lui permettant de s'adapter de manière transparente à divers scénarios de test. En exploitant la structure tabulaire naturelle formée par les méta-caractéristiques des ensembles de données, les caractéristiques des modèles et les performances après réglage fin, nous utilisons des modèles de base tabulaires comme apprenants en contexte. Nous introduisons également une nouvelle caractérisation des modèles basée sur l'évolution de l'entropie à travers les couches du modèle, capturant les distinctions dans l'espace d'embedding et permettant à TimeTic de généraliser à des ensembles de modèles arbitraires. Nous établissons un benchmark complet pour l'estimation de la transférabilité incluant 10 ensembles de données, 10 modèles de base et 3 tâches de prévision. Sur ce benchmark, l'estimation de TimeTic montre une forte corrélation avec les performances réelles après réglage fin pour des ensembles de données jamais vus auparavant, atteignant une corrélation de rang moyenne d'environ 0,6 et une amélioration de 30 % par rapport à l'utilisation des performances en mode zéro-shot comme score de transférabilité.
Le tatouage numérique pour les grands modèles de langage (LLM) intègre un signal statistique lors de la génération de texte afin de permettre la détection de textes produits par le modèle. Bien que le tatouage se soit avéré efficace dans des contextes bénins, sa robustesse face aux tentatives d'évasion adverses reste contestée. Pour approfondir la compréhension et l'évaluation rigoureuses de ces vulnérabilités, nous proposons l'attaque par réécriture par inversion de biais (BIRA), qui est théoriquement motivée et indépendante du modèle. BIRA affaiblit le signal de tatouage en supprimant les logits des jetons susceptibles d'être tatoués lors de la réécriture basée sur un LLM, sans aucune connaissance du schéma de tatouage sous-jacent. Sur plusieurs méthodes récentes de tatouage, BIRA atteint un taux d'évasion supérieur à 99 % tout en préservant le contenu sémantique du texte original. Au-delà de la démonstration d'une attaque, nos résultats révèlent une vulnérabilité systématique, soulignant la nécessité de tests de résistance et de défenses robustes.
La purification adversarial avec des modèles de diffusion est apparue comme une stratégie de défense prometteuse, mais les méthodes existantes reposent généralement sur l'injection de bruit uniforme, qui perturbe indistinctement toutes les fréquences, corrompant les structures sémantiques et compromettant la robustesse. Notre étude empirique révèle que les perturbations adverses ne sont pas uniformément réparties : elles sont principalement concentrées dans les régions de haute fréquence, avec des motifs d'intensité de magnitude hétérogènes qui varient selon les fréquences et les types d'attaques. Motivés par cette observation, nous introduisons MANI-Pure, un cadre de purification adaptatif en magnitude qui exploite le spectre de magnitude des entrées pour guider le processus de purification. Au lieu d'injecter un bruit homogène, MANI-Pure applique de manière adaptative un bruit hétérogène ciblé en fréquence, supprimant efficacement les perturbations adverses dans les bandes fragiles de haute fréquence et de faible magnitude tout en préservant le contenu sémantique critique de basse fréquence. Des expériences approfondies sur CIFAR-10 et ImageNet-1K valident l'efficacité de MANI-Pure. Il réduit l'écart de précision sur les données propres à moins de 0,59 par rapport au classificateur original, tout en augmentant la précision robuste de 2,15, et atteint la première place en précision robuste sur le classement RobustBench, surpassant la méthode précédente de pointe.
Les approches existantes pour l'estimation de la maîtrise des compétences reposent souvent sur des classificateurs vidéo en boîte noire, ignorant le contexte multi-vues et manquant d'explicabilité. Nous présentons ProfVLM, un modèle compact vision-langage qui reformule cette tâche en un raisonnement génératif : il prédit conjointement le niveau de compétence et génère des retours d'experts à partir de vidéos égocentriques et exocentriques. Au cœur de notre méthode se trouve un AttentiveGatedProjector qui fusionne dynamiquement les caractéristiques multi-vues, projetées depuis un backbone TimeSformer figé vers un modèle de langage ajusté pour la génération de feedback. Entraîné sur EgoExo4D avec des commentaires d'experts, ProfVLM surpasse les méthodes de pointe tout en utilisant jusqu'à 20 fois moins de paramètres et en réduisant le temps d'entraînement jusqu'à 60 %. Notre approche non seulement atteint une précision supérieure sur diverses activités, mais produit également des critiques en langage naturel alignées sur la performance, offrant un raisonnement transparent. Ces résultats mettent en lumière la modélisation générative vision-langage comme une nouvelle direction puissante pour l'évaluation des compétences.
Les récents progrès en génération vidéo ont permis la synthèse de vidéos haute fidélité à partir de prompts fournis par l'utilisateur. Cependant, les modèles et benchmarks existants ne parviennent pas à capturer la complexité et les exigences de la génération vidéo professionnelle. Dans cette optique, nous introduisons Stable Cinemetrics, un cadre d'évaluation structuré qui formalise les contrôles cinématographiques en quatre taxonomies hiérarchiques et désentrelacées : Configuration, Événement, Éclairage et Caméra. Ensemble, ces taxonomies définissent 76 nœuds de contrôle granulaires ancrés dans les pratiques de l'industrie. En utilisant ces taxonomies, nous construisons un benchmark de prompts alignés sur des cas d'usage professionnels et développons un pipeline automatisé pour la catégorisation des prompts et la génération de questions, permettant une évaluation indépendante de chaque dimension de contrôle. Nous menons une étude humaine à grande échelle couvrant plus de 10 modèles et 20 000 vidéos, annotées par un panel de plus de 80 professionnels du cinéma. Notre analyse, à la fois globale et granulaire, révèle que même les modèles actuels les plus performants présentent des lacunes significatives, notamment dans les contrôles liés aux Événements et à la Caméra. Pour permettre une évaluation scalable, nous entraînons un évaluateur automatique, un modèle vision-langage aligné avec les annotations d'experts, qui surpasse les baselines zero-shot existantes. SCINE est la première approche à situer la génération vidéo professionnelle dans le paysage des modèles génératifs vidéo, introduisant des taxonomies centrées sur les contrôles cinématographiques et les soutenant avec des pipelines d'évaluation structurés et des analyses détaillées pour guider les recherches futures.
Les modèles existants de génération audio multimodale manquent souvent de contrôle utilisateur précis, ce qui limite leur applicabilité dans les workflows professionnels de bruitage. En particulier, ces modèles se concentrent sur la vidéo dans son ensemble et ne fournissent pas de méthodes précises pour prioriser un objet spécifique dans une scène, générant des sons de fond superflus ou se focalisant sur les mauvais objets. Pour combler cette lacune, nous introduisons la nouvelle tâche de génération audio consciente de la segmentation d'objets vidéo, qui conditionne explicitement la synthèse sonore sur des cartes de segmentation au niveau des objets. Nous présentons SAGANet, un nouveau modèle génératif multimodal qui permet une génération audio contrôlée en exploitant des masques de segmentation visuelle ainsi que des indices vidéo et textuels. Notre modèle offre aux utilisateurs un contrôle granulaire et localisé visuellement sur la génération audio. Pour soutenir cette tâche et approfondir la recherche sur le bruitage conscient de la segmentation, nous proposons Segmented Music Solos, un ensemble de données de référence de vidéos de performances d'instruments de musique avec des informations de segmentation. Notre méthode démontre des améliorations substantielles par rapport aux méthodes actuelles de pointe et établit une nouvelle norme pour la synthèse de bruitage contrôlée et haute fidélité. Le code, des échantillons et Segmented Music Solos sont disponibles à l'adresse https://saganet.notion.site.
Vers une édition d'image intelligente, la suppression d'objets devrait éliminer à la fois l'objet cible et ses artefacts visuels causaux, tels que les ombres et les réflexions. Cependant, les méthodes existantes basées sur l'apparence de l'image suivent soit un entraînement strictement aligné sur le masque et échouent à supprimer ces effets causaux qui ne sont pas explicitement masqués, soit adoptent des stratégies d'alignement de masque lâches qui manquent de contrôlabilité et peuvent effacer involontairement d'autres objets. Nous identifions que ces limitations découlent de l'ignorance de la relation causale entre la présence géométrique d'un objet et ses effets visuels. Pour remédier à cette limitation, nous proposons un cadre en deux étapes conscient de la géométrie qui découple la suppression d'objet en (1) suppression géométrique et (2) rendu d'apparence. Dans la première étape, nous supprimons directement l'objet de la géométrie (par exemple, la profondeur) en utilisant une supervision strictement alignée sur le masque, permettant une édition structurelle avec de fortes contraintes géométriques. Dans la deuxième étape, nous rendons une image RVB photoréaliste conditionnée par la géométrie mise à jour, où les effets visuels causaux sont implicitement considérés comme un résultat de la géométrie 3D modifiée. Pour guider l'apprentissage dans l'étape de suppression géométrique, nous introduisons un objectif basé sur des paires d'échantillons positifs et négatifs, encourageant le modèle à supprimer les objets ainsi que leurs artefacts visuels causaux tout en évitant de nouvelles insertions structurelles. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans la suppression des objets et de leurs artefacts associés sur deux benchmarks populaires. Le code est disponible à l'adresse https://github.com/buxiangzhiren/GeoRemover.