papers.description
Malgré leurs capacités remarquables, les modèles de langage à grande échelle (LLMs) peinent à exploiter efficacement les informations historiques d'interaction dans des environnements dynamiques et complexes. Les systèmes de mémoire permettent aux LLMs de dépasser les interactions sans état en introduisant des mécanismes de stockage, de récupération et d'utilisation persistants de l'information. Cependant, les systèmes de mémoire existants introduisent souvent des surcharges substantielles en temps et en calcul. À cette fin, nous introduisons un nouveau système de mémoire appelé LightMem, qui établit un équilibre entre la performance et l'efficacité des systèmes de mémoire. Inspiré par le modèle de mémoire humaine d'Atkinson-Shiffrin, LightMem organise la mémoire en trois étapes complémentaires. Premièrement, la mémoire sensorielle inspirée par la cognition filtre rapidement les informations non pertinentes grâce à une compression légère et regroupe les informations selon leurs sujets. Ensuite, la mémoire à court terme consciente des sujets consolide ces groupes thématiques, organisant et résumant le contenu pour un accès plus structuré. Enfin, la mémoire à long terme avec mise à jour pendant le sommeil utilise une procédure hors ligne qui découple la consolidation de l'inférence en ligne. Les expériences sur LongMemEval avec les architectures GPT et Qwen montrent que LightMem surpasse les bases de référence en termes de précision (gains allant jusqu'à 10,9 %) tout en réduisant l'utilisation de tokens jusqu'à 117 fois, les appels API jusqu'à 159 fois et le temps d'exécution de plus de 12 fois. Le code est disponible à l'adresse https://github.com/zjunlp/LightMem.
Nous présentons la technique de désagrégation de l'attention centrale (CAD), qui améliore l'entraînement des modèles de langage à grand contexte en découplant le calcul de l'attention centrale, softmax(QK^T)V, du reste du modèle et en l'exécutant sur un pool distinct de dispositifs. Dans les systèmes existants, l'attention centrale est colocalisée avec d'autres couches ; pour des contextes longs, sa croissance quadratique en termes de calcul par rapport à la croissance quasi-linéaire des autres composants entraîne un déséquilibre de charge et des retardataires dans les groupes parallèles de données et de pipelines. CAD est rendu possible par deux observations. Premièrement, l'attention centrale est sans état : elle ne possède pas de paramètres entraînables et seulement des données transitoires minimales, ce qui réduit l'équilibrage à la planification de tâches liées au calcul. Deuxièmement, elle est composable : les noyaux d'attention modernes conservent une efficacité élevée lors du traitement de lots fusionnés de fragments au niveau des jetons avec des longueurs arbitraires. CAD partitionne l'attention centrale en tâches au niveau des jetons et les répartit sur des serveurs d'attention dédiés, qui réorganisent dynamiquement les tâches pour équilibrer le calcul sans sacrifier l'efficacité des noyaux. Nous implémentons CAD dans un système appelé DistCA, qui utilise un schéma d'exécution en ping-pong pour superposer entièrement la communication avec le calcul et une exécution sur place sur les serveurs d'attention pour réduire l'utilisation de la mémoire. Sur 512 GPU H200 et des longueurs de contexte allant jusqu'à 512k jetons, DistCA améliore le débit d'entraînement de bout en bout jusqu'à 1,35x, élimine les retardataires dans les parallélismes de données et de pipelines, et atteint un équilibre quasi parfait en termes de calcul et de mémoire.
Les modèles génératifs de mondes (WMs) peuvent désormais simuler des environnements avec un réalisme visuel frappant, ce qui soulève naturellement la question de savoir s'ils peuvent doter des agents incarnés d'une perception prédictive pour la prise de décision. Les progrès sur cette question ont été limités par une évaluation fragmentée : la plupart des benchmarks existants adoptent des protocoles en boucle ouverte qui mettent l'accent sur la qualité visuelle de manière isolée, laissant la question centrale de l'utilité incarnée non résolue, c'est-à-dire, les WMs aident-ils réellement les agents à réussir des tâches incarnées ? Pour combler cette lacune, nous introduisons World-in-World, la première plateforme ouverte qui évalue les WMs dans un monde en boucle fermée reflétant les interactions réelles entre agents et environnement. World-in-World propose une stratégie de planification en ligne unifiée et une API d'action standardisée, permettant à des WMs hétérogènes de prendre des décisions. Nous avons conçu quatre environnements en boucle fermée qui évaluent rigoureusement divers WMs, privilégient la réussite des tâches comme métrique principale et dépassent l'accent commun sur la qualité visuelle ; nous présentons également la première loi d'échelle des données pour les modèles de mondes dans des contextes incarnés. Notre étude révèle trois surprises : (1) la qualité visuelle seule ne garantit pas la réussite des tâches, la contrôlabilité compte davantage ; (2) l'augmentation des données d'action-observation après l'entraînement est plus efficace que l'amélioration des générateurs de vidéos pré-entraînés ; et (3) l'allocation de plus de ressources de calcul lors de l'inférence permet aux WMs d'améliorer considérablement les performances en boucle fermée.
Les progrès récents dans la génération de texte-à-image (T2I) soulignent l'importance de référentiels fiables pour évaluer la précision avec laquelle les images générées reflètent la sémantique de leur description textuelle. Cependant, (1) les référentiels existants manquent de diversité dans les scénarios de prompts et de support multilingue, deux éléments essentiels pour une applicabilité dans le monde réel ; (2) ils offrent des évaluations grossières sur les dimensions principales, couvrant une gamme étroite de sous-dimensions, et sont insuffisants pour une évaluation fine des sous-dimensions. Pour répondre à ces limites, nous introduisons UniGenBench++, un référentiel unifié d'évaluation sémantique pour la génération T2I. Concrètement, il comprend 600 prompts organisés hiérarchiquement pour assurer à la fois couverture et efficacité : (1) il s'étend sur divers scénarios du monde réel, c'est-à-dire 5 thèmes principaux de prompts et 20 sous-thèmes ; (2) il explore de manière exhaustive la cohérence sémantique des modèles T2I sur 10 critères principaux et 27 sous-critères d'évaluation, chaque prompt évaluant plusieurs points de test. Pour évaluer rigoureusement la robustesse des modèles face aux variations linguistiques et à la longueur des prompts, nous fournissons des versions courtes et longues de chaque prompt en anglais et en chinois. En exploitant les connaissances générales du monde et les capacités de compréhension fine des images d'un modèle de langage multimodal (MLLM) propriétaire, à savoir Gemini-2.5-Pro, un pipeline efficace est développé pour la construction fiable du référentiel et l'évaluation simplifiée des modèles. De plus, pour faciliter davantage l'utilisation par la communauté, nous entraînons un modèle d'évaluation robuste permettant une évaluation hors ligne des sorties des modèles T2I. Grâce à un benchmarking complet des modèles T2I open-source et propriétaires, nous révélons systématiquement leurs forces et faiblesses sur divers aspects.
Nous présentons Ring-1T, le premier modèle de pensée open-source de pointe doté d’un trillion de paramètres. Il compte un trillion de paramètres au total et en active environ 50 milliards par token. L’entraînement de tels modèles à l’échelle du trillion de paramètres introduit des défis sans précédent, notamment un désalignement entre l’entraînement et l’inférence, des inefficacités dans le traitement des séquences et des goulots d’étranglement dans le système d’apprentissage par renforcement (RL). Pour y remédier, nous proposons trois innovations interconnectées : (1) IcePop stabilise l’entraînement RL via un masquage et un écrêtage des écarts au niveau des tokens, résolvant ainsi l’instabilité due aux divergences entre entraînement et inférence ; (2) C3PO++ améliore l’utilisation des ressources pour les longues séquences sous un budget de tokens en les partitionnant dynamiquement, obtenant ainsi une efficacité temporelle élevée ; et (3) ASystem, un cadre RL haute performance conçu pour surmonter les goulots d’étranglement systémiques qui entravent l’entraînement de modèles à un trillion de paramètres. Ring-1T obtient des résultats révolutionnaires sur des benchmarks critiques : 93,4 sur AIME-2025, 86,72 sur HMMT-2025, 2088 sur CodeForces et 55,94 sur ARC-AGI-v1. Notamment, il atteint un niveau de médaille d’argent sur l’IMO-2025, soulignant ses capacités de raisonnement exceptionnelles. En publiant le modèle complet MoE à 1T paramètres pour la communauté, nous offrons un accès direct à des capacités de raisonnement de pointe. Cette contribution marque une étape importante dans la démocratisation de l’intelligence de raisonnement à grande échelle et établit une nouvelle référence pour les performances des modèles open-source.
Bien que les grands modèles de langage (LLMs) possèdent un potentiel significatif pour faire progresser la découverte chimique, les LLMs actuels manquent de connaissances chimiques fondamentales, produisent des trajectoires de raisonnement peu fiables et présentent des performances sous-optimales dans diverses tâches chimiques. Pour relever ces défis, nous proposons Chem-R, un modèle de raisonnement chimique généralisable conçu pour imiter les processus délibératifs des chimistes. Chem-R est entraîné via un cadre en trois phases qui développe progressivement des capacités de raisonnement avancées, incluant : 1) la Formation Fondamentale en Chimie, qui établit les connaissances chimiques de base ; 2) la Distillation de Protocoles de Raisonnement Chimique, intégrant des traces de raisonnement structurées, semblables à celles des experts, pour guider une résolution de problèmes systématique et fiable ; 3) l'Optimisation Relative de Politique par Groupe Multi-tâches, qui optimise le modèle pour une performance équilibrée dans diverses tâches au niveau moléculaire et réactionnel. Ce pipeline structuré permet à Chem-R d'atteindre des performances de pointe sur des benchmarks complets, surpassant les principaux grands modèles de langage, y compris Gemini-2.5-Pro et DeepSeek-R1, jusqu'à 46 % sur les tâches moléculaires et 66 % sur les tâches réactionnelles. Par ailleurs, Chem-R surpasse également de manière constante les modèles de fondation chimiques existants dans les tâches au niveau moléculaire et réactionnel. Ces résultats mettent en évidence la robuste généralisation, l'interprétabilité et le potentiel de Chem-R en tant que fondement pour la prochaine génération de découverte chimique pilotée par l'IA.
La génération de vidéos longues avec les Transformers à Diffusion (DiTs) est limitée par la croissance quadratique de l'attention complète en fonction de la longueur de la séquence. Étant donné que l'attention est hautement redondante, les sorties sont dominées par un petit sous-ensemble de paires requête-clé. Les méthodes parcimonieuses existantes reposent sur une estimation grossière par blocs, dont les compromis précision-efficacité sont contraints par la taille des blocs. Cet article introduit l'Attention par Mélange de Groupes (MoGA), une attention parcimonieuse efficace qui utilise un routeur de tokens léger et apprenable pour associer précisément les tokens sans estimation par blocs. Grâce à un routage sémantiquement conscient, MoGA permet des interactions efficaces à longue portée. En tant que méthode sans noyau, MoGA s'intègre parfaitement aux piles d'attention modernes, y compris FlashAttention et le parallélisme de séquences. En s'appuyant sur MoGA, nous développons un modèle efficace de génération de vidéos longues qui produit de manière end-to-end des vidéos de niveau minute, multi-plans, en 480p à 24 ips, avec une longueur de contexte d'environ 580k. Des expériences approfondies sur diverses tâches de génération vidéo valident l'efficacité de notre approche.
Bien que les modèles de langage multimodaux de grande taille (MLLMs) excellent dans la compréhension holistique, ils peinent à capturer un monde dense avec des scènes complexes, nécessitant une analyse fine des détails complexes et des interrelations entre objets. Les MLLMs au niveau des régions ont constitué une étape prometteuse. Cependant, les tentatives précédentes sont généralement optimisées pour comprendre des régions données de manière isolée, négligeant les contextes globaux cruciaux. Pour remédier à cela, nous introduisons Grasp Any Region (GAR) pour une compréhension visuelle complète au niveau des régions. Grâce à une technique efficace de relecture des caractéristiques alignées sur les régions d'intérêt (RoI), GAR permet (1) une perception précise en exploitant les contextes globaux nécessaires, et (2) la modélisation des interactions entre plusieurs invites. Ensemble, il parvient naturellement à (3) un raisonnement compositionnel avancé pour répondre à des questions libres spécifiques sur n'importe quelle région, passant ainsi du paradigme de la description passive à celui du dialogue actif. De plus, nous construisons GAR-Bench, qui non seulement fournit une évaluation plus précise de la compréhension d'une seule région, mais aussi, et surtout, mesure les interactions et le raisonnement complexe à travers plusieurs régions. Des expériences approfondies ont démontré que GAR-1B non seulement maintient les capacités de légendage de pointe, par exemple en surpassant DAM-3B de +4,5 sur DLC-Bench, mais excelle également dans la modélisation des relations entre plusieurs invites avec des capacités de compréhension avancées, surpassant même InternVL3-78B sur GAR-Bench-VQA. Plus important encore, notre GAR-8B en zero-shot surpasse même VideoRefer-7B en domaine spécifique sur VideoRefer-BenchQ, indiquant que ses fortes capacités peuvent être facilement transférées aux vidéos.
Nous présentons DeepSeek-OCR comme une première exploration de la faisabilité de la compression de contextes longs via une cartographie optique 2D. DeepSeek-OCR se compose de deux éléments : DeepEncoder et DeepSeek3B-MoE-A570M en tant que décodeur. Plus précisément, DeepEncoder sert de moteur central, conçu pour maintenir de faibles activations avec des entrées haute résolution tout en atteignant des taux de compression élevés pour garantir un nombre optimal et gérable de tokens visuels. Les expériences montrent que lorsque le nombre de tokens textuels est inférieur à 10 fois celui des tokens visuels (c'est-à-dire un taux de compression < 10x), le modèle peut atteindre une précision de décodage (OCR) de 97 %. Même avec un taux de compression de 20x, la précision OCR reste d'environ 60 %. Cela montre un potentiel considérable pour des domaines de recherche tels que la compression de contextes historiques longs et les mécanismes d'oubli dans les LLMs. Au-delà de cela, DeepSeek-OCR démontre également une grande valeur pratique. Sur OmniDocBench, il surpasse GOT-OCR2.0 (256 tokens/page) en utilisant seulement 100 tokens visuels, et dépasse MinerU2.0 (6000+ tokens par page en moyenne) tout en utilisant moins de 800 tokens visuels. En production, DeepSeek-OCR peut générer des données d'entraînement pour les LLMs/VLMs à une échelle de 200k+ pages par jour (avec un seul A100-40G). Les codes et les poids du modèle sont accessibles publiquement à l'adresse http://github.com/deepseek-ai/DeepSeek-OCR.
Bien que les modèles de langage multimodaux de grande envergure (MLLMs) aient démontré leur compétence en matière de sous-titrage vidéo, les applications pratiques nécessitent des légendes qui suivent des instructions spécifiques de l'utilisateur plutôt que de générer des descriptions exhaustives et non contraintes. Les benchmarks actuels, cependant, évaluent principalement l'exhaustivité descriptive tout en négligeant largement les capacités de suivi des instructions. Pour combler cette lacune, nous introduisons IF-VidCap, un nouveau benchmark pour l'évaluation du sous-titrage vidéo contrôlable, qui contient 1 400 échantillons de haute qualité. Distinct des benchmarks existants de sous-titrage vidéo ou de suivi général des instructions, IF-VidCap intègre un cadre systématique qui évalue les légendes sur deux dimensions : la correction du format et la correction du contenu. Notre évaluation approfondie de plus de 20 modèles éminents révèle un paysage nuancé : malgré la domination continue des modèles propriétaires, l'écart de performance se réduit, les meilleures solutions open-source atteignant désormais une quasi-parité. De plus, nous constatons que les modèles spécialisés dans le sous-titrage dense sous-performent les MLLMs à usage général sur des instructions complexes, indiquant que les travaux futurs devraient simultanément faire progresser à la fois la richesse descriptive et la fidélité au suivi des instructions.
Bien que les modèles de diffusion atteignent une qualité de génération de pointe, ils souffrent toujours d'un échantillonnage coûteux en termes de calcul. Des travaux récents abordent ce problème avec des méthodes d'optimisation basées sur le gradient, qui distille un solveur ODE de diffusion en quelques étapes à partir du processus d'échantillonnage complet, réduisant ainsi le nombre d'évaluations de fonctions de plusieurs dizaines à seulement quelques-unes. Cependant, ces approches reposent souvent sur des techniques d'entraînement complexes et ne se concentrent pas explicitement sur la préservation des détails fins. Dans cet article, nous introduisons le Solveur Généralisé : une paramétrisation simple de l'échantillonneur ODE qui ne nécessite pas de techniques d'entraînement supplémentaires et améliore la qualité par rapport aux approches existantes. Nous combinons en outre la perte de distillation originale avec un entraînement adversarial, ce qui atténue les artefacts et améliore la fidélité des détails. Nous appelons la méthode résultante le Solveur Adversarial Généralisé et démontrons sa performance supérieure par rapport aux méthodes d'entraînement de solveur existantes sous des contraintes de ressources similaires. Le code est disponible à l'adresse https://github.com/3145tttt/GAS.
La personnalisation fidèle des grands modèles de langage (LLM) pour les aligner sur les préférences individuelles des utilisateurs est une tâche cruciale mais complexe. Bien que le fine-tuning supervisé (SFT) atteigne rapidement un plateau de performance, l'apprentissage par renforcement standard basé sur les retours humains (RLHF) peine également à capturer les nuances de la personnalisation. Les modèles de récompense basés sur des valeurs scalaires sont sujets au "reward hacking", ce qui entraîne des réponses verbeuses et superficiellement personnalisées. Pour surmonter ces limitations, nous proposons Critique-Post-Edit, un cadre d'apprentissage par renforcement robuste qui permet une personnalisation plus fidèle et contrôlable. Notre cadre intègre deux composants clés : (1) un modèle de récompense génératif personnalisé (GRM) qui fournit des scores multidimensionnels et des critiques textuelles pour résister au reward hacking, et (2) un mécanisme Critique-Post-Edit où le modèle de politique révise ses propres sorties en fonction de ces critiques pour un apprentissage plus ciblé et efficace. Lors d'une évaluation rigoureuse contrôlée par la longueur, notre méthode surpasse largement le PPO standard sur des benchmarks de personnalisation. Le modèle personnalisé Qwen2.5-7B obtient une amélioration moyenne de 11 % en taux de victoire, et le modèle personnalisé Qwen2.5-14B dépasse les performances de GPT-4.1. Ces résultats démontrent une voie pratique vers une personnalisation fidèle, efficace et contrôlable.
Bien que les récents progrès des modèles vision-langage (VLMs) aient permis des avancées remarquables dans un large éventail de tâches multimodales, la compréhension des relations spatiales en 3D à partir de vues limitées reste un défi majeur. Les méthodes de raisonnement précédentes reposent généralement sur du texte pur (par exemple, des cartes cognitives topologiques) ou sur des indices visuels en 2D. Cependant, leur capacité de représentation limitée entrave les performances dans des tâches spécifiques nécessitant une imagination spatiale en 3D. Pour pallier cette limitation, nous proposons 3DThinker, un cadre capable d'exploiter efficacement les riches informations géométriques intégrées dans les images tout en raisonnant, comme le font les humains. Notre cadre est le premier à permettre un raisonnement mental en 3D sans aucune entrée préalable en 3D, et il ne repose pas sur des données 3D explicitement étiquetées pour l'entraînement. Plus précisément, notre entraînement se déroule en deux étapes. Tout d'abord, nous effectuons un entraînement supervisé pour aligner la latence 3D générée par le VLM lors du raisonnement avec celle d'un modèle de fondation 3D (par exemple, VGGT). Ensuite, nous optimisons l'ensemble de la trajectoire de raisonnement uniquement basée sur des signaux de résultat, affinant ainsi le raisonnement mental sous-jacent en 3D. Des expériences approfondies sur plusieurs benchmarks montrent que 3DThinker surpasse systématiquement les bases de référence solides et offre une nouvelle perspective pour unifier les représentations 3D dans le raisonnement multimodal. Notre code sera disponible à l'adresse https://github.com/zhangquanchen/3DThinker.
Le tatouage multilingue vise à rendre les sorties des grands modèles de langage (LLM) traçables à travers les langues, mais les méthodes actuelles restent insuffisantes. Malgré les affirmations de robustesse interlingue, elles ne sont évaluées que sur des langues à ressources élevées. Nous montrons que les méthodes existantes de tatouage multilingue ne sont pas véritablement multilingues : elles échouent à rester robustes face aux attaques par traduction dans les langues à ressources moyennes et faibles. Nous attribuons cet échec au regroupement sémantique, qui ne fonctionne pas lorsque le vocabulaire du tokenizer contient trop peu de tokens de mots complets pour une langue donnée. Pour remédier à cela, nous introduisons STEAM, une méthode de détection basée sur la rétro-traduction qui restaure la force du tatouage perdue lors de la traduction. STEAM est compatible avec toute méthode de tatouage, robuste face à différents tokenizers et langues, non invasive et facilement extensible à de nouvelles langues. Avec des gains moyens de +0,19 AUC et +40%p TPR@1% sur 17 langues, STEAM offre une voie simple et robuste vers un tatouage plus équitable à travers diverses langues.
Le développement récent des modèles de langage multimodaux de grande envergure (MLLMs) a considérablement amélioré la capacité de l'IA à comprendre les modalités visuelles. Cependant, les benchmarks d'évaluation existants se limitent principalement à des questions-réponses en un seul tour, négligeant ainsi la complexité des dialogues multi-tours dans les scénarios réels. Pour combler cette lacune, nous introduisons MT-Video-Bench, un benchmark holistique de compréhension vidéo conçu pour évaluer les MLLMs dans des dialogues multi-tours. Plus précisément, notre MT-Video-Bench évalue principalement six compétences fondamentales axées sur la perceptivité et l'interactivité, englobant 987 dialogues multi-tours soigneusement sélectionnés dans divers domaines. Ces capacités sont rigoureusement alignées avec des applications réelles, telles que l'analyse interactive de sports et le tutorat intelligent basé sur des vidéos multi-tours. Avec MT-Video-Bench, nous évaluons de manière approfondie divers MLLMs open-source et propriétaires de pointe, révélant des écarts de performance significatifs et des limites dans la gestion des dialogues vidéo multi-tours. Le benchmark sera rendu public pour favoriser les recherches futures.
Les récents progrès dans la génération vidéo ont permis de produire des visuels captivants, avec des applications variées dans la création de contenu, le divertissement et la réalité virtuelle. Cependant, la plupart des modèles existants de génération vidéo basés sur des transformateurs à diffusion sont limités à des résolutions basses (<=720P) en raison de la complexité computationnelle quadratique du mécanisme d'attention par rapport à la largeur et à la hauteur de la sortie. Ce goulot d'étranglement computationnel rend la génération native de vidéos haute résolution (1080P/2K/4K) impraticable à la fois pour l'entraînement et l'inférence. Pour relever ce défi, nous présentons UltraGen, un nouveau cadre de génération vidéo qui permet i) une synthèse vidéo native haute résolution efficace et ii) de bout en bout. Plus précisément, UltraGen intègre une architecture d'attention hiérarchique à double branche basée sur une décomposition attention globale-locale, qui découple l'attention complète en une branche d'attention locale pour un contenu régional haute fidélité et une branche d'attention globale pour la cohérence sémantique globale. Nous proposons en outre une stratégie de modélisation globale spatialement compressée pour apprendre efficacement les dépendances globales, ainsi qu'un mécanisme d'attention locale hiérarchique entre fenêtres pour réduire les coûts computationnels tout en améliorant le flux d'information entre différentes fenêtres locales. Des expériences approfondies démontrent qu'UltraGen peut efficacement adapter des modèles vidéo pré-entraînés à basse résolution à des résolutions 1080P et même 4K pour la première fois, surpassant les méthodes existantes de pointe et les pipelines en deux étapes basés sur la super-résolution dans les évaluations qualitatives et quantitatives.
La qualité des données joue un rôle crucial dans l'amélioration du réglage fin supervisé (SFT) pour les grands modèles de langage (LLMs), et la sélection de données au niveau des tokens s'est imposée comme une direction prometteuse en raison de sa nature granulaire. Malgré leurs performances empiriques solides, les méthodes existantes de sélection au niveau des tokens partagent deux limitations majeures : (1) nécessiter l'entraînement ou l'accès à un modèle de référence supplémentaire, et (2) s'appuyer uniquement sur des informations de perte pour la sélection des tokens, ce qui ne permet pas de bien préserver les tokens sémantiquement importants qui ne sont pas favorisés par les métriques basées sur la perte. Pour relever ces défis, nous proposons ssToken, une approche de sélection de tokens auto-modulée et consciente de la sémantique. ssToken exploite des modèles historiques facilement accessibles pour calculer la différence de perte par token avec le modèle actuel, ce qui sert de signal auto-modulé permettant au modèle de sélectionner de manière adaptative les tokens le long de sa trajectoire d'optimisation, plutôt que de s'appuyer sur une perte excessive provenant d'un modèle de référence pré-entraîné comme dans les travaux précédents. Nous introduisons en outre une métrique d'estimation de l'importance des tokens basée sur l'attention et consciente de la sémantique, orthogonale à la sélection basée sur la perte et fournissant des informations sémantiques complémentaires pour un filtrage plus efficace. Des expériences approfondies sur différentes familles de modèles et échelles démontrent que la sélection auto-modulée et la sélection consciente de la sémantique surpassent individuellement le réglage fin sur l'ensemble des données, tandis que leur intégration—ssToken—obtient des gains synergiques et surpasse davantage les méthodes de sélection au niveau des tokens précédentes, offrant des améliorations de performance tout en maintenant l'efficacité de l'entraînement.
L'encodeur de texte original de CLIP est limité par une longueur maximale d'entrée de 77 tokens, ce qui entrave sa capacité à traiter efficacement des textes longs et à effectuer une compréhension sémantique fine. De plus, l'encodeur de texte de CLIP ne prend pas en charge les entrées multilingues. Toutes ces limitations restreignent considérablement son applicabilité à un éventail plus large de tâches. Des études récentes ont tenté de remplacer l'encodeur de texte de CLIP par un encodeur basé sur un modèle de langage de grande taille (LLM) pour améliorer sa capacité à traiter des textes longs, à comprendre plusieurs langues et à saisir des nuances sémantiques fines. Cependant, comme les espaces de représentation des LLM et l'espace vision-langage de CLIP sont pré-entraînés indépendamment sans alignement préalable, un alignement direct utilisant l'apprentissage contrastif peut perturber l'alignement intrinsèque vision-langage dans l'encodeur d'images de CLIP, conduisant à une sous-utilisation des connaissances acquises lors du pré-entraînement. Pour relever ce défi, nous proposons ProCLIP, un cadre d'alignement progressif vision-langage basé sur l'apprentissage curriculaire, afin d'aligner efficacement l'encodeur d'images de CLIP avec un encodeur basé sur un LLM. Plus précisément, ProCLIP distille d'abord les connaissances de l'encodeur de texte de CLIP dans l'encodeur basé sur un LLM pour tirer parti des riches connaissances pré-entraînées de CLIP tout en établissant un alignement initial entre l'encodeur LLM et l'encodeur d'images de CLIP. Ensuite, ProCLIP aligne davantage l'encodeur d'images de CLIP avec l'encodeur basé sur un LLM grâce à un réglage contrastif image-texte, en employant une régularisation par auto-distillation pour éviter le surajustement. Pour parvenir à un alignement plus efficace, une perte d'alignement sémantique par instance et une perte d'alignement de la structure des embeddings sont utilisées lors de l'héritage des représentations et du réglage contrastif. Le code est disponible à l'adresse suivante : https://github.com/VisionXLab/ProCLIP.
Ces dernières années, les modèles génératifs à grande échelle pour le contenu visuel (par exemple, les images, les vidéos et les objets/scènes 3D) ont réalisé des progrès remarquables. Cependant, l'entraînement de modèles de génération de vidéos à grande échelle reste particulièrement difficile et gourmand en ressources en raison de l'alignement intermodal texte-vidéo, des longues séquences impliquées et des dépendances spatio-temporelles complexes. Pour relever ces défis, nous présentons un cadre d'entraînement qui optimise quatre piliers : (i) le traitement des données, (ii) l'architecture du modèle, (iii) la stratégie d'entraînement et (iv) l'infrastructure pour les modèles de génération de vidéos à grande échelle. Ces optimisations ont permis des gains d'efficacité significatifs et des améliorations de performance à toutes les étapes du prétraitement des données, de la compression vidéo, de la mise à l'échelle des paramètres, du pré-entraînement basé sur un curriculum et du post-entraînement axé sur l'alignement. Notre modèle résultant, MUG-V 10B, rivalise avec les générateurs de vidéos les plus récents et, sur des tâches de génération de vidéos orientées commerce électronique, surpasse les meilleurs modèles de référence open-source dans les évaluations humaines. Plus important encore, nous mettons à disposition l'ensemble de la pile, y compris les poids du modèle, le code d'entraînement à grande échelle basé sur Megatron-Core, et les pipelines d'inférence pour la génération et l'amélioration de vidéos. À notre connaissance, il s'agit de la première publication publique de code d'entraînement pour la génération de vidéos à grande échelle exploitant Megatron-Core pour atteindre une efficacité d'entraînement élevée et une mise à l'échelle multi-nœud quasi-linéaire. Les détails sont disponibles sur https://github.com/Shopee-MUG/MUG-V{notre page web}.
Le raisonnement sur les relations spatiales dynamiques est essentiel, car les observateurs et les objets se déplacent souvent simultanément. Bien que les modèles vision-langage (VLMs) et les modèles d'expertise visuelle excellent dans les tâches en 2D et les scénarios statiques, leur capacité à comprendre pleinement les scénarios dynamiques en 3D reste limitée. Nous introduisons l'Intelligence Spatiale Dynamique et proposons DSI-Bench, un benchmark comprenant près de 1 000 vidéos dynamiques et plus de 1 700 questions annotées manuellement, couvrant neuf motifs de mouvement découplés des observateurs et des objets. Des conceptions spatialement et temporellement symétriques réduisent les biais et permettent une évaluation systématique du raisonnement des modèles concernant le mouvement de l'observateur et celui des objets. Notre évaluation de 14 VLMs et modèles experts révèle des limitations clés : les modèles confondent souvent le mouvement de l'observateur et celui des objets, présentent des biais sémantiques et échouent à inférer avec précision les relations relatives dans des scénarios dynamiques. Notre DSI-Bench fournit des résultats précieux et des insights pour le développement futur de modèles généraux et experts dotés d'une intelligence spatiale dynamique.
Bien que les agents basés sur des modèles de langage de grande taille (LLM) montrent un potentiel dans le trading automatisé, ils rencontrent encore des limitations critiques. Les cadres multi-agents les plus répandus souffrent souvent d'inefficacité, produisent des signaux incohérents et manquent d'optimisation de bout en bout nécessaire pour apprendre une stratégie cohérente à partir des retours du marché. Pour remédier à cela, nous présentons AlphaQuanter, un cadre mono-agent qui utilise l'apprentissage par renforcement (RL) pour apprendre une politique dynamique sur un flux de décision transparent et augmenté par des outils. Cela permet à un seul agent d'orchestrer de manière autonome les outils et d'acquérir proactivement des informations à la demande, établissant ainsi un processus de raisonnement transparent et vérifiable. Des expériences approfondies démontrent qu'AlphaQuanter atteint des performances de pointe sur des indicateurs financiers clés. De plus, son raisonnement interprétable révèle des stratégies sophistiquées, offrant des insights novateurs et précieux pour les traders humains. Notre code pour l'acquisition de données et l'entraînement de l'agent est disponible publiquement à l'adresse suivante : https://github.com/AlphaQuanter/AlphaQuanter.
Dans ce travail, nous démontrons qu'il est possible d'extraire des quantités significatives de données d'entraînement d'alignement à partir d'un modèle post-entraîné — utiles pour orienter le modèle afin d'améliorer certaines capacités telles que le raisonnement sur de longs contextes, la sécurité, le suivi d'instructions et les mathématiques. Alors que la majorité des travaux connexes sur la mémorisation se sont concentrés sur la mesure du succès de l'extraction des données d'entraînement via la correspondance de chaînes de caractères, nous soutenons que les modèles d'embedding sont mieux adaptés à nos objectifs spécifiques. Les distances mesurées à travers un modèle d'embedding de haute qualité peuvent identifier des similitudes sémantiques entre des chaînes de caractères qu'une métrique différente, telle que la distance d'édition, aura du mal à capturer. En fait, dans notre investigation, la correspondance approximative de chaînes de caractères aurait gravement sous-estimé (par une estimation conservatrice de 10 fois) la quantité de données pouvant être extraites en raison d'artefacts triviaux qui dévalorisent la métrique. Fait intéressant, nous constatons que les modèles régurgitent facilement les données d'entraînement utilisées lors des phases de post-entraînement telles que le SFT ou le RL. Nous montrons que ces données peuvent ensuite être utilisées pour entraîner un modèle de base, récupérant ainsi une part significative des performances originales. Nous croyons que notre travail expose un risque potentiellement négligé concernant l'extraction des données d'alignement. Enfin, notre travail ouvre une discussion intéressante sur les effets en aval des pratiques de distillation : puisque les modèles semblent régurgiter des aspects de leur ensemble d'entraînement, la distillation peut donc être considérée comme un entraînement indirect sur le jeu de données original du modèle.
Le raisonnement vidéo utilisant des modèles multimodaux de grande taille (LMMs) repose sur un apprentissage par renforcement (RL) coûteux et une chaîne de pensée verbeuse, entraînant une surcharge computationnelle importante lors de l'entraînement et de l'inférence. De plus, les mécanismes qui contrôlent le processus de pensée dans ces modèles de raisonnement sont très limités. Dans cet article, en utilisant l'entropie de la sortie du modèle comme signal, nous découvrons que les modèles de haute qualité passent par une série de micro-explorations et micro-exploitations qui maintiennent le processus de raisonnement ancré (c'est-à-dire évitent une randomisation excessive pendant que le modèle explore ou réfléchit à une réponse). Nous observons en outre qu'une fois ce processus de "pensée" terminé, les modèles plus précis démontrent une meilleure convergence en réduisant significativement l'entropie via une phase d'exploitation finale (c'est-à-dire une convergence plus certaine vers une trajectoire de solution). Nous utilisons ensuite ces nouvelles perspectives théoriquement fondées pour ajuster directement le comportement du modèle lors de l'inférence, sans recourir à l'apprentissage par renforcement ou à un réglage supervisé. Plus précisément, lors de l'inférence, notre approche proposée, appelée V-Reason (Video-Reason), adapte le cache de valeur du LMM via quelques étapes d'optimisation sur un petit contrôleur entraînable en utilisant un objectif basé sur l'entropie, c'est-à-dire sans supervision à partir d'un ensemble de données ou de RL. Ce réglage améliore le comportement de micro-exploration et d'exploitation du modèle pendant l'inférence. Nos expériences montrent que notre méthode proposée obtient des améliorations significatives par rapport aux modèles de base réglés par instruction sur plusieurs ensembles de données de raisonnement vidéo, réduisant l'écart avec les modèles entraînés par RL à moins de 0,6 % de précision moyenne sans aucun entraînement, tout en offrant des avantages massifs en termes d'efficacité : les tokens de sortie sont réduits de 58,6 % par rapport au modèle RL.
Les applications de diagnostic médical nécessitent des modèles capables de traiter des entrées médicales multimodales (images, antécédents des patients, résultats de laboratoire) et de générer des sorties diversifiées, incluant à la fois des rapports textuels et du contenu visuel (annotations, masques de segmentation et images). Malgré ce besoin, les systèmes d'IA médicale existants perturbent ce processus unifié : les modèles de compréhension d'images médicales interprètent les images mais ne peuvent pas générer de sorties visuelles, tandis que les modèles de génération d'images médicales synthétisent des images mais ne peuvent pas fournir d'explications textuelles. Cela entraîne des lacunes dans la représentation des données, l'intégration des caractéristiques et les capacités multimodales au niveau des tâches. À cette fin, nous proposons un cadre multiniveau qui s'inspire des workflows de diagnostic à travers le paradigme Observation-Connaissance-Analyse (OKA). Plus précisément, au niveau de l'observation, nous construisons UniMed-5M, un ensemble de données comprenant plus de 5,6 millions d'échantillons qui reformatent des données unimodales diversifiées en paires multimodales pour une observation fondamentale. Au niveau de la connaissance, nous proposons l'apprentissage progressif par curriculum qui introduit systématiquement des connaissances médicales multimodales. Au niveau de l'analyse, nous introduisons UniMedVL, le premier modèle médical unifié multimodal pour l'analyse simultanée des tâches de compréhension et de génération d'images au sein d'une seule architecture. UniMedVL atteint des performances supérieures sur cinq benchmarks de compréhension d'images médicales, tout en égalant les modèles spécialisés en qualité de génération sur huit modalités d'imagerie médicale. De manière cruciale, notre architecture unifiée permet un partage bidirectionnel des connaissances : les tâches de génération améliorent les caractéristiques de compréhension visuelle, démontrant que l'intégration de capacités traditionnellement séparées dans un cadre médical unique débloque des améliorations pour diverses tâches de vision-langage médicales. Le code est disponible à l'adresse https://github.com/uni-medical/UniMedVL.
Nous présentons Mono4DGS-HDR, le premier système permettant de reconstruire des scènes 4D à haute plage dynamique (HDR) rendables à partir de vidéos monoculaires à plage dynamique réduite (LDR) non posées, capturées avec des expositions alternées. Pour relever un tel défi, nous proposons un cadre unifié avec une approche d'optimisation en deux étapes basée sur le lissage gaussien. La première étape apprend une représentation gaussienne HDR de la vidéo dans l'espace de coordonnées de la caméra orthographique, éliminant ainsi le besoin de poses de caméra et permettant une reconstruction initiale robuste de la vidéo HDR. La deuxième étape transforme les gaussiennes de la vidéo dans l'espace monde et affine conjointement les gaussiennes mondiales avec les poses de caméra. De plus, nous proposons une stratégie de régularisation de la luminance temporelle pour améliorer la cohérence temporelle de l'apparence HDR. Étant donné que cette tâche n'a jamais été étudiée auparavant, nous construisons un nouveau benchmark d'évaluation en utilisant des ensembles de données publiquement disponibles pour la reconstruction de vidéos HDR. Des expériences approfondies démontrent que Mono4DGS-HDR surpasse significativement les solutions alternatives adaptées à partir des méthodes de pointe, tant en qualité de rendu qu'en vitesse.
Les modèles de langage de grande taille (LLMs) sont des raisonneurs puissants en langage naturel, mais leurs actions sont généralement limitées à la production de tokens de vocabulaire. Par conséquent, les interactions avec des environnements externes — tels que des opérateurs symboliques ou des simulateurs — doivent être exprimées sous forme de texte dans des formats prédéfinis, analysées et acheminées vers des interfaces externes. Cela surcharge le langage du modèle avec des tâches de raisonnement et de contrôle, et nécessite un analyseur personnalisé, externe au LLM. Pour résoudre ce problème, nous découplons les interactions avec l'environnement du langage en les internalisant dans un espace d'actions étendu (ExpA), au-delà du vocabulaire. Le modèle commence à raisonner dans l'environnement linguistique par défaut, mais peut déclencher des actions de routage et basculer vers un environnement externe à tout moment. À partir de là, le modèle ne peut invoquer que des actions spécifiques à l'environnement, recevoir des retours de celui-ci, et potentiellement revenir au langage en conséquence. Pour favoriser une exploration efficace de l'espace d'actions étendu et des nouveaux environnements, nous introduisons l'apprentissage par renforcement ExpA (EARL) avec une optimisation de politique contrefactuelle. Sur des tâches nécessitant des interactions multi-tours et une planification contingente, EARL surpasse des bases de référence solides avec des actions contraintes par le vocabulaire. Il se montre robuste dans l'apprentissage multi-tâches basé sur des calculatrices et, dans le problème de tri partiellement observé, atteint une précision parfaite pour Sort-4 tout en découvrant de manière autonome un algorithme efficace compétitif avec les conceptions classiques.
Les agents de code sont de plus en plus sollicités pour corriger des bugs de manière autonome sur des plateformes comme GitHub, mais leur évaluation de sécurité se concentre presque exclusivement sur la correction fonctionnelle. Dans cet article, nous révélons un nouveau type de menace pour les agents de code dans le monde réel : les correctifs fonctionnellement corrects mais vulnérables (FCV), qui passent tous les tests mais contiennent du code vulnérable. Avec notre FCV-Attack, qui peut être délibérément conçue par des attaquants malveillants ou implicitement introduite par des développeurs bienveillants, nous montrons que les modèles de langage les plus avancés (par exemple, ChatGPT et Claude) et les structures d'agents (par exemple, SWE-agent et OpenHands) sont tous vulnérables à cette menace FCV ; sur 12 combinaisons d'agents-modèles dans SWE-Bench, l'attaque ne nécessite qu'un accès en boîte noire et une seule requête à l'agent de code pour être exécutée. Par exemple, pour la vulnérabilité CWE-538 (exposition d'informations), la FCV-Attack atteint un taux de réussite de 40,7 % sur GPT-5 Mini + OpenHands. Nos résultats révèlent une menace de sécurité importante négligée par les paradigmes d'évaluation actuels et appellent au développement de défenses axées sur la sécurité pour les agents de code.
Les modèles multimodaux de grande taille (LMMs) sont de plus en plus appliqués à la recherche scientifique, mais il reste incertain s'ils peuvent comprendre et raisonner de manière fiable sur la complexité multimodale des articles scientifiques. Un défi central réside dans la détection et la résolution des incohérences entre le texte, les figures, les tableaux et les équations, des problèmes souvent subtils, spécifiques au domaine, et qui finissent par compromettre la clarté, la reproductibilité et la confiance. Les benchmarks existants négligent cette problématique, soit en isolant des modalités uniques, soit en s'appuyant sur des erreurs synthétiques qui ne capturent pas la complexité réelle. Nous introduisons PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), le premier benchmark basé sur des incohérences réelles signalées par les relecteurs dans des articles scientifiques. Grâce à un pipeline en plusieurs étapes incluant l'extraction de revues, le filtrage assisté par LLM et la vérification humaine, nous avons compilé 262 incohérences provenant de 242 articles. Sur la base de cet ensemble, nous concevons trois tâches, à savoir l'identification des incohérences, leur correction et l'appariement de paires, qui évaluent la capacité d'un modèle à détecter, corriger et raisonner sur les incohérences entre différentes modalités. De plus, pour résoudre le problème notoire des raccourcis basés sur les choix dans les évaluations à choix multiples, où les modèles exploitent les motifs de réponse sans véritablement comprendre la question, nous introduisons des représentations de réponse structurées en JSON qui minimisent les biais linguistiques en réduisant la dépendance aux indices stylistiques superficiels. Nous évaluons 21 LMMs de pointe, incluant des modèles open-weight de grande taille (GLM-4.5V 106B, InternVL3 78B) et des modèles propriétaires (Gemini 2.5 Pro, GPT-5 avec raisonnement élevé). Les résultats révèlent des performances étonnamment faibles (26,1-54,2 %), soulignant le défi du raisonnement scientifique multimodal et motivant des progrès vers des assistants scientifiques dignes de confiance.
La base de la science reproductible repose sur des protocoles qui sont précis, logiquement ordonnés et exécutables. La génération autonome de ces protocoles à partir de requêtes en langage naturel pourrait grandement améliorer l'efficacité du processus de reproduction. Cependant, les modèles de langage de grande taille (LLMs) actuels génèrent souvent des protocoles incomplets ou incohérents, limitant ainsi leur utilité. Pour remédier à cette limitation, nous introduisons d'abord SciRecipe, un ensemble de données à grande échelle comprenant plus de 12 000 protocoles structurés couvrant 27 sous-domaines biologiques et englobant à la fois des tâches de compréhension et de résolution de problèmes. Pour améliorer davantage la génération de protocoles, nous proposons le paradigme "Esquisse-et-Remplissage", qui sépare l'analyse, la structuration et l'expression afin de garantir que chaque étape soit explicite et vérifiable. En complément, le mécanisme de récompense structuré basé sur des composants évalue la granularité des étapes, l'ordre des actions et la fidélité sémantique, alignant ainsi l'optimisation du modèle sur la fiabilité expérimentale. Sur la base de ces composants, nous développons Thoth, formé à travers un processus en étapes de "Connaissance-à-Action" qui progresse de l'acquisition de connaissances au raisonnement opérationnel, et finalement à la génération de protocoles robustes et exécutables. Sur plusieurs benchmarks, Thoth surpasse de manière constante les LLMs propriétaires et open-source, obtenant des améliorations significatives en termes d'alignement des étapes, de séquencement logique et de précision sémantique. Notre approche ouvre la voie à des assistants scientifiques fiables qui relient la connaissance à l'exécution expérimentale. Toutes les données, codes et modèles seront rendus publics.
La qualité de l'image est un facteur crucial pour fournir un contenu visuellement attrayant sur les plateformes web. Cependant, les images subissent souvent une dégradation due aux opérations destructrices appliquées par les réseaux sociaux en ligne (OSNs), affectant négativement l'expérience utilisateur. La restauration d'image est le processus de récupération d'une image propre et de haute qualité à partir d'une entrée dégradée. Récemment, les modèles de restauration d'image multi-tâches (tout-en-un) ont suscité un intérêt significatif, grâce à leur capacité à gérer simultanément différents types de dégradations d'image. Cependant, ces modèles comportent souvent un nombre excessivement élevé de paramètres entraînables, les rendant inefficaces sur le plan computationnel. Dans cet article, nous proposons une stratégie pour compresser les modèles de restauration d'image multi-tâches. Nous visons à découvrir des sous-réseaux très épars au sein de modèles profonds surparamétrés qui peuvent égaler ou même surpasser les performances de leurs homologues denses. Le modèle proposé, nommé MIR-L, utilise une stratégie d'élagage itérative qui supprime les poids de faible magnitude sur plusieurs tours, tout en réinitialisant les poids restants à leur initialisation d'origine. Ce processus itératif est important pour l'optimisation du modèle de restauration d'image multi-tâches, découvrant efficacement des "billets gagnants" qui maintiennent ou dépassent les performances de pointe à des niveaux de parcimonie élevés. L'évaluation expérimentale sur des ensembles de données de référence pour les tâches de dépluie, de débrumage et de débruitage montre que MIR-L ne conserve que 10 % des paramètres entraînables tout en maintenant des performances élevées en restauration d'image. Notre code, ensembles de données et modèles pré-entraînés sont rendus publics à l'adresse https://github.com/Thomkat/MIR-L.
Un défi central dans l'inférence des grands modèles de langage est l'arbitrage entre la vitesse de génération et la qualité des résultats. Les modèles autorégressifs produisent des textes de haute qualité mais génèrent les tokens de manière séquentielle. Les modèles de diffusion peuvent générer des tokens en parallèle, mais nécessitent souvent de nombreuses itérations pour atteindre une qualité équivalente. Nous proposons la diffusion planifiée, une méthode hybride qui combine les forces des deux paradigmes. La diffusion planifiée fonctionne en deux étapes : d'abord, le modèle crée un plan autorégressif court qui divise la sortie en segments plus petits et indépendants. Ensuite, le modèle génère ces segments simultanément en utilisant la diffusion. Cette approche élargit la frontière de Pareto vitesse-qualité et offre une voie pratique pour une génération de texte plus rapide et de haute qualité. Sur AlpacaEval, une suite de 805 prompts d'exécution d'instructions, la diffusion planifiée atteint un arbitrage Pareto-optimal entre qualité et latence, obtenant une accélération de 1,27x à 1,81x par rapport à la génération autorégressive avec seulement une baisse de 0,87 % à 5,4 % du taux de réussite, respectivement. Notre analyse de sensibilité montre que le mécanisme de planification de la diffusion planifiée est minimal et fiable, et que des paramètres d'exécution simples existent pour offrir un contrôle flexible de l'arbitrage qualité-latence.
Les modèles de langage de grande taille (LLMs) présentent un alignement fort mais superficiel : ils refusent directement les requêtes nuisibles lorsqu'un refus est attendu au tout début d'un tour d'assistant, mais cette protection s'effondre une fois qu'une continuation nuisible est en cours (soit par des attaques adverses, soit par des attaques de préremplissage nuisible de l'assistant). Cela soulève une question fondamentale : L'alignement superficiel inné des LLMs peut-il être déverrouillé pour garantir la sécurité à des profondeurs de génération arbitraires ? Pour atteindre cet objectif, nous proposons l'Alignement à Toute Profondeur (ADA), une défense efficace au moment de l'inférence avec un surcoût négligeable. ADA est construit sur notre observation que l'alignement est concentré dans les jetons d'en-tête de l'assistant grâce à leur utilisation répétée dans l'entraînement aux refus superficiels, et que ces jetons possèdent les forts a priori d'alignement du modèle. En réintroduisant ces jetons en cours de génération, ADA incite le modèle à réévaluer la nocivité et à rétablir les refus à n'importe quel point de la génération. À travers diverses familles de modèles open-source (Llama, Gemma, Mistral, Qwen, DeepSeek et gpt-oss), ADA atteint une performance de sécurité robuste sans nécessiter de modifications des paramètres du modèle de base. Il assure un taux de refus proche de 100 % contre des attaques adverses de préremplissage allant de dizaines à milliers de jetons. De plus, ADA réduit le taux de réussite moyen des attaques adverses de prompt notables (comme GCG, AutoDAN, PAIR et TAP) à moins de 3 %. Tout cela est accompli tout en préservant l'utilité sur les tâches bénignes avec un minimum de sur-refus. ADA maintient cette résilience même après que le modèle de base subit un ajustement d'instruction ultérieur (bénin ou adversaire).
Les grands modèles de langage ajustés par instruction (IT-LLMs) démontrent un raisonnement zero-shot robuste, mais leur capacité à exécuter des instructions simples et autonomes reste peu explorée, bien que cela soit fondamental pour le suivi d'instructions complexes. Nous évaluons 20 IT-LLMs sur des versions modifiées des benchmarks MMLU et MMLU-Pro, en faisant varier systématiquement le format des étiquettes d'options (alphabétique, numérique, romain) tout en conservant leur signification identique sous quatre paradigmes : (1) Avec des instructions explicites, les changements d'étiquettes provoquent des variations importantes de performance (par exemple, -30,45 % pour les étiquettes romaines vs. numériques), révélant un biais lié au format des instructions. (2) Sans instructions, la performance chute davantage (jusqu'à -10,84 %) et la sensibilité aux étiquettes s'intensifie, soulignant le rôle des directives explicites. (3) Lorsque le contenu des options est supprimé, les modèles échouent à surpasser les bases de choix aléatoires, sauf avec des étiquettes numériques, suggérant une faible adhésion aux directives atomiques. (4) L'utilisation d'exemples en three-shot n'apporte pas de gains significatifs en robustesse ou fidélité, et les analyses de génération montrent des erreurs persistantes sur les étiquettes, en particulier pour les formats non numériques. Quelle que soit la taille des modèles, les LLMs plus grands atteignent une précision plus élevée mais restent incohérents dans le suivi des instructions. Ces résultats mettent en lumière les insuffisances des paradigmes actuels d'ajustement par instruction et soulignent la nécessité de méthodes d'évaluation et de stratégies d'entraînement ciblant explicitement le suivi d'instructions atomiques.
Et si les agents artificiels pouvaient non seulement communiquer, mais aussi évoluer, s’adapter et remodeler leurs mondes de manière imprévisible ? Avec les modèles de langage (LLM) alimentant désormais les systèmes multi-agents et les simulations sociales, nous assistons à l’émergence de nouvelles possibilités pour modéliser des environnements ouverts et en constante évolution. Pourtant, la plupart des simulations actuelles restent confinées à des cadres statiques, caractérisés par des tâches prédéfinies, des dynamiques limitées et des critères d’évaluation rigides. Ces limitations les empêchent de saisir la complexité des sociétés réelles. Dans cet article, nous soutenons que les benchmarks statiques et spécifiques à une tâche sont fondamentalement inadéquats et doivent être repensés. Nous examinons de manière critique les architectures émergentes qui intègrent les LLM aux dynamiques multi-agents, mettons en lumière des défis clés tels que l’équilibre entre stabilité et diversité, l’évaluation des comportements imprévus et la montée en complexité, et proposons une nouvelle taxonomie pour ce domaine en évolution rapide. Enfin, nous présentons une feuille de route de recherche axée sur l’ouverture, la co-évolution continue et le développement d’écosystèmes d’IA résilients et socialement alignés. Nous appelons la communauté à dépasser les paradigmes statiques et à contribuer à façonner la prochaine génération de simulations multi-agents adaptatives et socialement conscientes.
Nous étudions la prévision à court terme du nombre hebdomadaire d'incidents terroristes en utilisant la Global Terrorism Database (GTD, 1970-2016). Nous construisons un pipeline reproductible avec des découpages temporels fixes et évaluons un réseau LSTM bidirectionnel (BiLSTM) par rapport à des références classiques solides (naïf saisonnier, linéaire/ARIMA) et à un modèle de référence profond LSTM-Attention. Sur l'ensemble de test réservé, le BiLSTM atteint une RMSE de 6,38, surpassant LSTM-Attention (9,19 ; +30,6%) et une régression linéaire avec décalage (+35,4% de gain en RMSE), avec des améliorations parallèles en MAE et MAPE. Des ablations variant la mémoire temporelle, la longueur de l'historique d'entraînement, la granularité spatiale, la taille du lookback et les groupes de caractéristiques montrent que les modèles entraînés sur des données historiques longues généralisent le mieux ; un lookback modéré (20-30 semaines) fournit un contexte solide ; et l'encodage bidirectionnel est crucial pour capturer à la fois les schémas de montée en puissance et de conséquences dans la fenêtre. L'analyse des groupes de caractéristiques indique que la structure à court terme (comptages décalés et statistiques glissantes) contribue le plus, avec les caractéristiques géographiques et relatives aux victimes ajoutant un gain incrémental. Nous publions le code, les configurations et des tableaux de résultats compacts, et fournissons une déclaration sur les données/éthique documentant la licence GTD et l'utilisation à des fins de recherche uniquement. Globalement, l'étude offre une référence transparente et performante pour la prévision des incidents dans la GTD.
Les données fiables et vérifiables sont devenues un facteur clé des gains de capacités dans les modèles de langage modernes, permettant un apprentissage par renforcement stable avec des récompenses vérifiables et une distillation efficace qui transfère les compétences à travers les tâches mathématiques, de codage et agentielles. Cependant, la construction de données synthétiques vérifiables et généralisables reste difficile en raison de la génération sujette à des hallucinations, et des artefacts de vérification faibles ou triviaux qui ne parviennent pas à distinguer les solutions solides des solutions faibles. Les approches existantes reposent souvent sur des heuristiques spécifiques à la tâche ou des filtres post-hoc qui ne se transfèrent pas entre les domaines et manquent d'un évaluateur universel et fondé sur des principes de la vérifiabilité. Dans ce travail, nous introduisons un cadre de synthèse de données évolutif, indépendant de la tâche, guidé par des stratégies et vérifiable par exécution qui, à partir d'une supervision minimale initiale, synthétise conjointement des problèmes, des solutions candidates diversifiées et des artefacts de vérification, et découvre itérativement des stratégies via un évaluateur basé sur la cohérence qui impose un accord entre les vérifications annotées par l'homme et celles induites par la stratégie. Ce pipeline transforme le filtrage en une synthèse fondée sur des principes : il assemble de manière fiable des instances d'entraînement cohérentes et vérifiables et généralise sans règles spécifiques au domaine. Nos expériences démontrent l'efficacité de l'approche proposée sous les paradigmes d'entraînement RLVR et de distillation de modèles. Les résultats montrent que l'entraînement avec nos données synthétisées apporte des améliorations significatives sur les tâches LiveCodeBench et AgentBench-OS, mettant en évidence la robuste généralisation de notre cadre.
Les grands modèles de langage (LLM) augmentés par des outils émergent en tant qu'agents de recherche approfondis, des systèmes capables de décomposer des requêtes complexes, de récupérer des preuves externes et de synthétiser des réponses fondées. Cependant, les agents actuels restent limités par une récupération superficielle, des métriques d'alignement faibles et un comportement fragile dans l'utilisation des outils. Nous présentons PokeeResearch-7B, un agent de recherche approfondi de 7 milliards de paramètres construit sous un cadre unifié d'apprentissage par renforcement pour la robustesse, l'alignement et l'évolutivité. PokeeResearch-7B est entraîné par un cadre d'apprentissage par renforcement à partir de retours d'IA (RLAIF) sans annotation, optimisant les politiques à l'aide de signaux de récompense basés sur des LLM qui capturent la précision factuelle, la fidélité des citations et l'adhésion aux instructions. Un échafaudage de raisonnement multi-appels piloté par une chaîne de pensée renforce encore la robustesse grâce à l'auto-vérification et à la récupération adaptative après des échecs d'outils. Parmi 10 benchmarks populaires de recherche approfondie, PokeeResearch-7B atteint des performances de pointe parmi les agents de recherche approfondis à l'échelle de 7 milliards de paramètres. Cela met en évidence qu'un apprentissage par renforcement et une conception de raisonnement minutieux peuvent produire des agents IA efficaces, résilients et de qualité recherche. Le modèle et le code d'inférence sont open-source sous licence MIT à l'adresse https://github.com/Pokee-AI/PokeeResearchOSS.