papers.description
Nous présentons Apriel-1.5-15B-Thinker, un modèle de raisonnement multimodal à 15 milliards de paramètres en accès libre, qui atteint des performances de pointe grâce à une conception de formation plutôt qu’à une simple augmentation d’échelle. En partant de Pixtral-12B, nous appliquons une méthodologie progressive en trois étapes : (1) un surdimensionnement en profondeur pour étendre la capacité de raisonnement sans réentraînement à partir de zéro, (2) un pré-entraînement continu par étapes qui développe d’abord une compréhension fondamentale du texte et de la vision, puis améliore le raisonnement visuel grâce à une génération ciblée de données synthétiques abordant la structure spatiale, la compréhension compositionnelle et la perception fine, et (3) un affinage supervisé de haute qualité sur des paires instruction-réponse soigneusement sélectionnées, avec des traces de raisonnement explicites couvrant les mathématiques, la programmation, les sciences et l’utilisation d’outils. Notamment, notre modèle obtient des résultats compétitifs sans apprentissage par renforcement ni optimisation de préférences, isolant ainsi la contribution de notre approche centrée sur les données en pré-entraînement continu. Sur l’Indice d’Intelligence Artificielle d’Artificial Analysis, Apriel-1.5-15B-Thinker atteint un score de 52, égalant DeepSeek-R1-0528 tout en nécessitant nettement moins de ressources computationnelles. Sur dix benchmarks d’images, ses performances sont en moyenne à moins de cinq points de Gemini-2.5-Flash et Claude Sonnet-3.7, une réalisation clé pour un modèle fonctionnant sous les contraintes d’un déploiement sur un seul GPU. Nos résultats démontrent qu’une conception réfléchie en milieu de formation peut combler d’importants écarts de capacités sans recourir à une échelle massive, rendant ainsi le raisonnement multimodal de pointe accessible aux organisations disposant d’une infrastructure limitée. Nous publions le point de contrôle du modèle, toutes les recettes de formation et les protocoles d’évaluation sous licence MIT pour faire progresser la recherche en open source.
Les grands modèles de raisonnement (LRM) "pensent" en générant des chaînes de pensée structurées (CoT) avant de produire une réponse finale, mais ils manquent encore de la capacité à raisonner de manière critique sur l'alignement de la sécurité et sont facilement biaisés lorsqu'une prémisse erronée est injectée dans leur processus de pensée. Nous proposons RECAP (Alignement Robuste de la Sécurité via Préremplissage Contre-Aligné), une méthode d'apprentissage par renforcement (RL) post-entraînement qui enseigne explicitement aux modèles à surmonter les trajectoires de raisonnement erronées et à rediriger vers des réponses sûres et utiles. RECAP s'entraîne sur un mélange de préremplissages CoT contre-alignés générés synthétiquement et de prompts standards, ne nécessite aucun coût d'entraînement supplémentaire ni de modifications au-delà de l'apprentissage par renforcement à partir des retours humains (RLHF) classique, et améliore considérablement la sécurité et la robustesse aux jailbreaks, réduit le sur-refus, et préserve les capacités de raisonnement fondamentales — tout en maintenant le budget de tokens d'inférence. Une analyse approfondie montre que les modèles entraînés avec RECAP s'engagent plus fréquemment dans une auto-réflexion et restent robustes face aux attaques adaptatives, préservant la sécurité même après des tentatives répétées de contournement de leur raisonnement.
Les tokens visuels consomment des ressources computationnelles importantes dans les grands modèles multi-modaux (MLLMs), compromettant significativement leur efficacité. Des travaux récents ont tenté d'améliorer cette efficacité en compressant les tokens visuels pendant l'entraînement, soit par des modifications des composants du modèle, soit en introduisant des paramètres supplémentaires. Cependant, ils négligent souvent la difficulté d'apprentissage accrue causée par une telle compression, car l'espace des paramètres du modèle peine à s'adapter rapidement aux perturbations substantielles dans l'espace des caractéristiques induites par la compression des tokens. Dans ce travail, nous proposons de développer des MLLMs efficaces via la Distillation Progressive de la Cohérence (EPIC), un cadre d'apprentissage progressif. Plus précisément, en décomposant les perturbations de l'espace des caractéristiques introduites par la compression des tokens selon les dimensions token par token et couche par couche, nous introduisons respectivement la distillation de cohérence des tokens et la distillation de cohérence des couches, visant à réduire la difficulté d'entraînement en exploitant les conseils d'un modèle enseignant et en suivant une trajectoire d'apprentissage progressive. Des expériences approfondies démontrent l'efficacité supérieure, la robustesse et les capacités de généralisation de notre cadre proposé.
Les recherches approfondies ont révolutionné l'analyse des données, mais les scientifiques des données consacrent encore un temps considérable à la création manuelle de visualisations, soulignant la nécessité d'une automatisation robuste à partir de requêtes en langage naturel. Cependant, les systèmes actuels peinent à gérer des ensembles de données complexes contenant plusieurs fichiers et des itérations de raffinement. Les approches existantes, y compris les systèmes simples à agent unique ou multi-agents, simplifient souvent la tâche en se concentrant sur l'analyse initiale des requêtes tout en échouant à gérer de manière robuste la complexité des données, les erreurs de code ou la qualité finale des visualisations. Dans cet article, nous reformulons ce défi en tant que problème collaboratif multi-agents. Nous présentons CoDA, un système multi-agents qui utilise des agents LLM spécialisés pour l'analyse des métadonnées, la planification des tâches, la génération de code et l'auto-réflexion. Nous formalisons ce pipeline, démontrant comment une analyse centrée sur les métadonnées contourne les limites de tokens et comment un raffinement axé sur la qualité garantit la robustesse. Des évaluations approfondies montrent que CoDA obtient des gains substantiels dans le score global, surpassant les bases de référence concurrentes jusqu'à 41,5 %. Ce travail démontre que l'avenir de l'automatisation des visualisations ne réside pas dans la génération isolée de code, mais dans des workflows intégrés et collaboratifs d'agents.
Les modèles de langage conversationnel parlés (SLM) émergent comme un paradigme prometteur pour l'interaction vocale en temps réel. Cependant, leur capacité à gérer les dynamiques temporelles, incluant la gestion du timing, du tempo et de la parole simultanée, reste un défi critique et non évalué pour la fluidité conversationnelle. Pour combler cette lacune, nous introduisons le benchmark Game-Time, un cadre permettant d'évaluer systématiquement ces capacités temporelles. Inspiré par la manière dont les humains apprennent une langue à travers des activités linguistiques, Game-Time comprend des tâches de base de suivi d'instructions et des tâches avancées avec des contraintes temporelles, telles que l'adhésion au tempo et les réponses synchronisées. Notre évaluation de diverses architectures de SLM révèle une disparité de performance claire : bien que les modèles de pointe gèrent bien les tâches de base, de nombreux systèmes contemporains peinent encore avec le suivi d'instructions fondamental. Plus critique encore, presque tous les modèles voient leurs performances se dégrader considérablement sous contraintes temporelles, exposant des faiblesses persistantes dans la conscience du temps et l'interaction full-duplex. Le benchmark Game-Time fournit une base pour orienter les recherches futures vers une IA conversationnelle plus consciente du temps. Les démonstrations et les jeux de données sont disponibles sur notre site web de projet https://ga642381.github.io/Game-Time.
Les formats récents de nombres flottants 4 bits à micro-échelle accélérés par matériel, tels que MXFP4 et NVFP4, pris en charge par les GPU NVIDIA et AMD, promettent de révolutionner l'inférence des grands modèles de langage (LLM). Cependant, leurs avantages pratiques restent à prouver. Nous présentons la première étude exhaustive de MXFP4 et NVFP4 pour la quantification post-entraînement, révélant des écarts entre leurs promesses et leurs performances réelles. Notre analyse montre que les méthodes de pointe peinent avec FP4 en raison de deux problèmes clés : (1) la petite taille de groupe de NVFP4 neutralise de manière prouvée les techniques traditionnelles de mitigation des valeurs aberrantes ; (2) la quantification à échelle de puissance de deux de MXFP4 dégrade sévèrement la précision en raison d'une erreur induite élevée. Pour combler cet écart, nous introduisons Micro-Rotated-GPTQ (MR-GPTQ), une variante de l'algorithme de quantification classique GPTQ qui adapte le processus de quantification aux propriétés uniques de FP4, en utilisant des transformations de Hadamard par blocs et des optimisations spécifiques au format. Nous soutenons notre proposition avec un ensemble de noyaux GPU haute performance qui permettent le format MR-GPTQ avec un surcoût négligeable, par fusion de rotation dans les poids et calcul rapide en ligne des activations. Cela conduit à des accélérations par rapport à FP16 allant jusqu'à 3,6x par couche et 2,2x de bout en bout sur NVIDIA B200, et de 6x par couche et 4x de bout en bout sur RTX5090. Notre évaluation empirique approfondie démontre que MR-GPTQ égal ou dépasse la précision de l'état de l'art, améliorant significativement MXFP4 au point où il approche celle de NVFP4. Nous concluons que, bien que FP4 ne soit pas une mise à niveau automatique par rapport à INT4, des méthodes spécialisées comme MR-GPTQ peuvent ouvrir une nouvelle frontière de compromis précision-performance.
Les modèles basés sur la diffusion pour le contrôle robotique, incluant les politiques vision-langage-action (VLA) et vision-action (VA), ont démontré des capacités significatives. Cependant, leur avancée est limitée par le coût élevé de l'acquisition de jeux de données d'interaction à grande échelle. Ce travail introduit un paradigme alternatif pour améliorer les performances des politiques sans entraînement supplémentaire du modèle. De manière surprenante, nous montrons que les politiques composées peuvent surpasser les performances de chaque politique parente. Notre contribution est triple. Premièrement, nous établissons un fondement théorique montrant que la composition convexe des scores distributionnels de plusieurs modèles de diffusion peut produire un objectif fonctionnel en une étape supérieur à celui de tout score individuel. Une inégalité de type Grönwall est ensuite utilisée pour montrer que cette amélioration en une étape se propage à travers les trajectoires de génération entières, conduisant à des gains de performance systémiques. Deuxièmement, motivés par ces résultats, nous proposons la Composition Générale de Politiques (GPC), une méthode sans entraînement qui améliore les performances en combinant les scores distributionnels de plusieurs politiques pré-entraînées via une combinaison convexe et une recherche au moment du test. GPC est polyvalente, permettant la composition plug-and-play de politiques hétérogènes, incluant des modèles VA et VLA, ainsi que ceux basés sur la diffusion ou l'appariement de flux, indépendamment de leurs modalités visuelles d'entrée. Troisièmement, nous fournissons une validation empirique approfondie. Les expériences sur les benchmarks Robomimic, PushT et RoboTwin, ainsi que les évaluations robotiques en conditions réelles, confirment que GPC améliore constamment les performances et l'adaptabilité sur un ensemble diversifié de tâches. Une analyse approfondie des opérateurs de composition alternatifs et des stratégies de pondération offre des insights sur les mécanismes sous-jacents au succès de GPC. Ces résultats établissent GPC comme une méthode simple mais efficace pour améliorer les performances de contrôle en exploitant les politiques existantes.
Les récents progrès dans l'auto-amélioration des modèles de langage de grande taille (LLMs) ont permis d'améliorer efficacement les capacités des modèles sans augmenter significativement les coûts, en particulier en termes d'effort humain. Bien que ce domaine soit encore relativement jeune, son extension au domaine multimodal présente un potentiel immense pour exploiter des sources de données diversifiées et développer des modèles auto-améliorants plus généraux. Cette étude est la première à offrir un aperçu complet de l'auto-amélioration dans les modèles de langage multimodaux (MLLMs). Nous proposons une vue structurée de la littérature actuelle et discutons des méthodes sous trois angles : 1) la collecte de données, 2) l'organisation des données, et 3) l'optimisation des modèles, afin de faciliter le développement ultérieur de l'auto-amélioration dans les MLLMs. Nous incluons également les évaluations couramment utilisées et les applications en aval. Enfin, nous concluons en soulignant les défis ouverts et les directions futures de recherche.
Les avancées dans les modèles de langage de grande envergure (LLMs) ont permis l'émergence d'une nouvelle classe d'agents auto-évolutifs capables de s'améliorer de manière autonome grâce à l'interaction avec leur environnement, démontrant ainsi des capacités impressionnantes. Cependant, l'auto-évolution introduit également de nouveaux risques qui n'ont pas été pris en compte par les recherches actuelles en matière de sécurité. Dans ce travail, nous étudions le cas où l'auto-évolution d'un agent dévie de manière imprévue, conduisant à des résultats indésirables, voire nuisibles. Nous qualifions ce phénomène de *misevolution*. Pour mener une investigation systématique, nous évaluons la misevolution selon quatre axes évolutifs clés : le modèle, la mémoire, les outils et les workflows. Nos résultats empiriques révèlent que la misevolution constitue un risque répandu, affectant même les agents construits sur des LLMs de pointe (par exemple, Gemini-2.5-Pro). Différents risques émergents sont observés dans le processus d'auto-évolution, tels que la dégradation de l'alignement de sécurité après l'accumulation de mémoire, ou l'introduction involontaire de vulnérabilités lors de la création et de la réutilisation d'outils. À notre connaissance, il s'agit de la première étude à conceptualiser systématiquement la misevolution et à fournir des preuves empiriques de son occurrence, soulignant un besoin urgent de nouveaux paradigmes de sécurité pour les agents auto-évolutifs. Enfin, nous discutons des stratégies potentielles d'atténuation pour inspirer des recherches futures visant à construire des agents auto-évolutifs plus sûrs et plus fiables. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/ShaoShuai0605/Misevolution. Avertissement : cet article contient des exemples qui peuvent être offensants ou nuisibles.
Les LLM (Modèles de Langage de Grande Taille) se sont imposés comme des outils puissants pour interpréter des données multimodales. En médecine, ils offrent un potentiel particulier pour synthétiser de grands volumes d'informations cliniques en insights exploitables et en applications de santé numérique. Cependant, une limitation majeure réside dans leur incapacité à traiter des séries temporelles. Pour combler cette lacune, nous présentons OpenTSLM, une famille de Modèles de Langage pour Séries Temporelles (TSLM) créés en intégrant les séries temporelles comme une modalité native aux LLM pré-entraînés, permettant ainsi un raisonnement sur plusieurs séries temporelles de n'importe quelle longueur. Nous explorons deux architectures pour OpenTSLM. La première, OpenTSLM-SoftPrompt, modélise implicitement les séries temporelles en concaténant des tokens de séries temporelles apprenables avec des tokens de texte via un soft prompting. Bien que paramétriquement efficace, nous émettons l'hypothèse qu'une modélisation explicite des séries temporelles s'adapte mieux et surpasse les approches implicites. Nous introduisons donc OpenTSLM-Flamingo, qui intègre les séries temporelles avec le texte via une attention croisée. Nous comparons les deux variantes à des modèles de référence qui traitent les séries temporelles comme des tokens de texte ou des graphiques, à travers une série de tâches de raisonnement en chaîne de pensée (CoT) texte-séries temporelles. Nous présentons trois jeux de données : HAR-CoT, Sleep-CoT et ECG-QA-CoT. Sur tous ces jeux, les modèles OpenTSLM surpassent les références, atteignant 69,9 F1 dans la classification des stades de sommeil et 65,4 dans HAR, contre 9,05 et 52,2 pour les modèles textuels uniquement finetunés. Notamment, même les modèles OpenTSLM à 1 milliard de paramètres surpassent GPT-4o (15,47 et 2,95). OpenTSLM-Flamingo égalise OpenTSLM-SoftPrompt en performance et surpasse sur les séquences plus longues, tout en maintenant des exigences de mémoire stables. En revanche, SoftPrompt croît exponentiellement en mémoire avec la longueur de la séquence, nécessitant environ 110 Go contre 40 Go de VRAM lors de l'entraînement sur ECG-QA avec LLaMA-3B. Les évaluations d'experts par des cliniciens révèlent de solides capacités de raisonnement démontrées par OpenTSLM sur ECG-QA. Pour faciliter des recherches ultérieures, nous mettons à disposition tout le code, les jeux de données et les modèles en open source.
Les autoencodeurs parcimonieux (SAE) sont une technique de décomposition parcimonieuse des activations des réseaux de neurones en caractéristiques interprétables par l'homme. Cependant, les SAE actuels souffrent de l'absorption de caractéristiques, où des caractéristiques spécialisées captent des instances de caractéristiques générales, créant ainsi des lacunes dans la représentation, et de la composition de caractéristiques, où des caractéristiques indépendantes fusionnent en des représentations composites. Dans ce travail, nous introduisons l'Orthogonal SAE (OrtSAE), une nouvelle approche visant à atténuer ces problèmes en imposant l'orthogonalité entre les caractéristiques apprises. En mettant en œuvre une nouvelle procédure d'entraînement qui pénalise une similarité cosinus élevée entre les caractéristiques des SAE, OrtSAE favorise le développement de caractéristiques désenchevêtrées tout en évoluant linéairement avec la taille du SAE, évitant ainsi une surcharge computationnelle significative. Nous entraînons OrtSAE sur différents modèles et couches et le comparons à d'autres méthodes. Nous constatons que OrtSAE découvre 9 % de caractéristiques distinctes supplémentaires, réduit l'absorption de caractéristiques (de 65 %) et la composition de caractéristiques (de 15 %), améliore les performances sur la suppression des corrélations fallacieuses (+6 %), et atteint des performances comparables pour d'autres tâches en aval par rapport aux SAE traditionnels.
Les récents progrès des modèles de génération d'images à partir de texte (T2I) basés sur la diffusion ont conduit à des succès remarquables dans la création d'images de haute qualité à partir de descriptions textuelles. Cependant, garantir un alignement précis entre le texte et l'image générée reste un défi majeur pour les modèles de diffusion de pointe. Pour y remédier, les études existantes utilisent l'apprentissage par renforcement avec feedback humain (RLHF) pour aligner les sorties T2I avec les préférences humaines. Ces méthodes s'appuient soit directement sur des données de préférence d'images appariées, soit sur une fonction de récompense apprise, toutes deux dépendant fortement d'annotations humaines coûteuses et de haute qualité, ce qui pose des limites en termes d'évolutivité. Dans ce travail, nous introduisons l'Optimisation des Préférences Textuelles (TPO), un cadre qui permet un alignement "sans coût supplémentaire" des modèles T2I, en atteignant cet alignement sans nécessiter de données de préférence d'images appariées. TPO fonctionne en entraînant le modèle à préférer les descriptions correspondantes par rapport aux descriptions non correspondantes, qui sont construites en perturbant les légendes originales à l'aide d'un grand modèle de langage. Notre cadre est général et compatible avec les algorithmes existants basés sur les préférences. Nous étendons à la fois DPO et KTO à notre contexte, ce qui donne TDPO et TKTO. Les évaluations quantitatives et qualitatives sur plusieurs benchmarks montrent que nos méthodes surpassent systématiquement leurs versions originales, offrant de meilleurs scores de préférence humaine et un meilleur alignement texte-image. Notre code open-source est disponible à l'adresse https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Les petits modèles vision-langage (VLMs) offrent une alternative efficace sur le plan computationnel aux modèles plus volumineux, au prix de capacités de généralisation et de performances sur les tâches en aval plus faibles. Ces lacunes pourraient être atténuées par des techniques de mise à l'échelle au moment du test, mais les méthodes existantes sont généralement gourmandes en ressources, ce qui contredit les objectifs de conception économe en ressources des petits modèles. Pour pallier ces limitations, nous proposons deux nouvelles stratégies de mise à l'échelle au moment du test, efficaces et exploitant les caractéristiques internes du modèle plutôt qu'une supervision externe : (i) l'Augmentation au Moment du Test (TTAug), qui génère plusieurs entrées augmentées et agrège les sorties au niveau des tokens sans mise à jour des paramètres, et (ii) l'Adaptation au Moment du Test (TTAdapt), qui adapte les paramètres du modèle pendant l'inférence en utilisant des pseudolabels basés sur un consensus issus de TTAug. À travers des expériences approfondies sur neuf benchmarks, nous démontrons des améliorations de performances constantes tout en maintenant une efficacité computationnelle adaptée aux environnements à ressources limitées. La généralité de notre approche est démontrée à la fois au sein de modèles de différentes tailles et à travers différents VLMs sans réglage supplémentaire.
Le post-entraînement des grands modèles de langage (LLM) est limité par le coût élevé de l'acquisition de nouvelles connaissances ou de la correction d'erreurs, ainsi que par les effets secondaires imprévus qui surviennent fréquemment lors du réentraînement. Pour résoudre ces problèmes, nous présentons REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration), un cadre d'édition continue conçu pour permettre des mises à jour précises et peu coûteuses des modèles tout en préservant les connaissances non ciblées. REPAIR atténue l'instabilité et les conflits liés aux modifications séquentielles à grande échelle grâce à un mécanisme de rétroaction en boucle fermée couplé à une gestion dynamique de la mémoire. De plus, en intégrant une fusion fréquente des connaissances et en appliquant des gardes de localité robustes, REPAIR corrige efficacement les lacunes des approches traditionnelles agnostiques à la distribution, qui négligent souvent les effets d'entraînement involontaires. Nos expériences montrent que REPAIR améliore la précision des modifications de 10 % à 30 % sur plusieurs familles de modèles et réduit significativement l'oubli des connaissances. Ce travail introduit un cadre robuste pour développer des LLM fiables, évolutifs et en constante évolution.
La reconstruction de scènes 3D et la synthèse de nouvelles vues ont connu des progrès rapides ces dernières années. Les champs de radiance neuronaux (NeRF) ont démontré que des champs de radiance volumétriques continus peuvent produire une synthèse d'images de haute qualité, mais leurs longs temps d'entraînement et de rendu limitent leur praticabilité. Le lissage par Gaussiennes 3D (3DGS) a résolu ces problèmes en représentant les scènes avec des millions de Gaussiennes, permettant un rendu en temps réel et une optimisation rapide. Cependant, les primitives Gaussiennes ne sont pas naturellement compatibles avec les pipelines basés sur des maillages utilisés dans les casques de réalité virtuelle et les applications graphiques en temps réel. Les solutions existantes tentent de convertir les Gaussiennes en maillages par post-traitement ou via des pipelines en deux étapes, ce qui augmente la complexité et dégrade la qualité visuelle. Dans ce travail, nous introduisons Triangle Splatting+, qui optimise directement les triangles, la primitive fondamentale de l'infographie, dans un cadre de lissage différentiable. Nous formulons une paramétrisation des triangles pour permettre la connectivité via des sommets partagés, et nous concevons une stratégie d'entraînement qui impose des triangles opaques. Le résultat final est immédiatement utilisable dans les moteurs graphiques standard sans post-traitement. Les expériences sur les ensembles de données Mip-NeRF360 et Tanks & Temples montrent que Triangle Splatting+ atteint des performances de pointe dans la synthèse de nouvelles vues basées sur des maillages. Notre méthode surpasse les approches de lissage précédentes en termes de fidélité visuelle tout en restant efficace et rapide à entraîner. De plus, les maillages semi-connectés résultants supportent des applications en aval telles que la simulation basée sur la physique ou les visites interactives. La page du projet est disponible à l'adresse https://trianglesplatting2.github.io/trianglesplatting2/.
La rédaction de synthèses académiques, qui consiste à condenser une vaste littérature en un récit cohérent et perspicace, reste une tâche laborieuse et intellectuellement exigeante. Bien que les approches récentes, telles que les agents généralistes de recherche approfondie et les méthodes spécialisées dans les synthèses, puissent générer automatiquement des revues de littérature (appelées LLM4Survey), leurs résultats sont souvent en deçà des standards humains et il manque un benchmark rigoureux et aligné sur les besoins des lecteurs pour révéler pleinement leurs lacunes. Pour combler cette lacune, nous proposons un cadre d'évaluation granulaire et basé sur des quiz, SurveyBench, qui comprend (1) des sujets typiques de synthèse issus de 11 343 articles récents d'arXiv et de 4 947 synthèses de haute qualité correspondantes ; (2) une hiérarchie de métriques multidimensionnelles qui évalue la qualité du plan (par exemple, l'étendue de la couverture, la cohérence logique), la qualité du contenu (par exemple, la granularité de la synthèse, la clarté des insights) et la richesse non textuelle ; et (3) un protocole d'évaluation en double mode qui inclut des tests de réponse basés sur le contenu et sur des quiz, explicitement alignés sur les besoins informationnels des lecteurs. Les résultats montrent que SurveyBench met efficacement à l'épreuve les approches LLM4Survey existantes (par exemple, en moyenne 21 % inférieures aux humains dans l'évaluation basée sur le contenu).
Les modèles de diffusion discrets standards traitent tous les états non observés de manière identique en les mappant à un jeton d'absorption [MASK]. Cela crée un « vide informationnel » où les informations sémantiques qui pourraient être déduites des jetons non masqués sont perdues entre les étapes de débruitage. Nous introduisons la Diffusion Discrète Continuement Augmentée (Continuously Augmented Discrete Diffusion, CADD), un cadre qui enrichit l'espace d'états discrets avec une diffusion jumelée dans un espace latent continu. Cela produit des états graduellement corrompus où les jetons masqués sont représentés par des vecteurs latents bruyants mais informatifs, plutôt que par des « vides informationnels » effondrés. À chaque étape inverse, CADD peut exploiter le latent continu comme une indication sémantique pour guider le débruitage discret. La conception est simple et compatible avec l'entraînement existant des modèles de diffusion discrets. Au moment de l'échantillonnage, la force et le choix de l'estimateur pour le vecteur latent continu permettent un compromis contrôlé entre la couverture des modes (génération de sorties diversifiées) et la recherche de modes (génération de sorties contextuellement précises). Empiriquement, nous démontrons que CADD améliore la qualité générative par rapport à la diffusion basée sur le masquage dans la génération de texte, la synthèse d'images et la modélisation de code, avec des gains constants sur les métriques qualitatives et quantitatives par rapport à des bases de référence discrètes solides.
Nous étudions ce qui fonctionne réellement et ce qui ne fonctionne pas pour l'entraînement de grands modèles de langage en tant qu'agents via l'apprentissage par renforcement multi-tours. Malgré les progrès rapides, les cadres et définitions existants sont fragmentés, et il n'existe pas de formulation ou d'analyse systématique des choix de conception qui importent à travers les tâches. Nous comblons cette lacune en décomposant d'abord l'espace de conception en trois piliers interdépendants — environnement, récompense et politique — et en dérivant empiriquement une recette pour l'entraînement d'agents LLM dans des domaines textuels situés. En particulier, nous testons TextWorld et ALFWorld, des domaines populaires pour tester le raisonnement incarné situé, ainsi que SWE-Gym pour des tâches plus proches de l'ingénierie logicielle. (i) Pour l'environnement, nous analysons les impacts de la complexité des tâches en termes de taille des espaces d'état et d'action ainsi que de la longueur optimale de la solution, constatant que même des environnements simples au sein d'un domaine peuvent fournir des indications sur la capacité d'un agent à généraliser à des tâches plus complexes. (ii) Pour la récompense, nous étudions la rareté relative des récompenses, observant que bien que des récompenses denses au niveau des tours accélèrent l'entraînement, la performance et la stabilité dépendent fortement du choix de l'algorithme de RL. (iii) Et pour la politique de l'agent, nous explorons l'interaction entre la rareté des récompenses et les méthodes de gradient de politique biaisées (PPO, GRPO) et non biaisées (RLOO), en plus de montrer comment trouver le ratio optimal entre le Fine-tuning Supervisé (SFT) et l'entraînement RL pour un budget fixe. Nous condensons ces découvertes en une recette d'entraînement qui guide la co-conception à travers les trois piliers, facilitant les efforts de recherche et pratiques dans le RL agentique multi-tours. Code : https://github.com/pearls-lab/meow-tea-taro
Les troubles rachidiens touchent 619 millions de personnes dans le monde et constituent une cause majeure d'invalidité, pourtant le diagnostic assisté par l'IA reste limité par le manque de jeux de données multimodaux prenant en compte les niveaux vertébraux. La prise de décision clinique pour les troubles rachidiens nécessite un raisonnement sophistiqué à travers les radiographies, les scanners et les IRM à des niveaux vertébraux spécifiques. Cependant, les progrès ont été entravés par l'absence de données d'instruction traçables et cliniquement fondées, ainsi que de benchmarks standardisés spécifiques à la colonne vertébrale. Pour remédier à cela, nous présentons SpineMed, un écosystème co-conçu avec des chirurgiens du rachis en exercice. Il comprend SpineMed-450k, le premier jeu de données à grande échelle explicitement conçu pour le raisonnement au niveau vertébral à travers différentes modalités d'imagerie avec plus de 450 000 instances d'instruction, et SpineBench, un cadre d'évaluation cliniquement fondé. SpineMed-450k est constitué à partir de sources diverses, notamment des manuels, des directives, des jeux de données ouverts et environ 1 000 cas hospitaliers anonymisés, en utilisant un pipeline avec un clinicien dans la boucle et une méthode de génération en deux étapes (brouillon et révision) pour garantir des données de haute qualité et traçables pour les questions-réponses, les consultations multi-tours et la génération de rapports. SpineBench évalue les modèles sur des axes cliniquement pertinents, notamment l'identification des niveaux, l'évaluation des pathologies et la planification chirurgicale. Notre évaluation complète de plusieurs modèles récents de vision-langage à grande échelle (LVLMs) sur SpineBench révèle des faiblesses systématiques dans le raisonnement fin et spécifique aux niveaux. En revanche, notre modèle affiné sur SpineMed-450k démontre des améliorations constantes et significatives sur toutes les tâches. Les évaluations des cliniciens confirment la clarté diagnostique et l'utilité pratique des sorties de notre modèle.
Alors que les récents développements des modèles de langage de grande taille (LLMs) ont permis avec succès la création de systèmes de recommandation génératifs avec des interactions en langage naturel, leur comportement de recommandation reste limité, laissant d'autres composants plus simples mais cruciaux, tels que le filtrage par métadonnées ou attributs, sous-utilisés dans le système. Nous proposons un système de recommandation musicale basé sur un LLM avec appel d'outils pour servir de pipeline unifié de récupération et de reclassement. Notre système positionne un LLM comme un système de recommandation de bout en bout qui interprète l'intention de l'utilisateur, planifie les invocations d'outils et orchestre des composants spécialisés : filtres booléens (SQL), récupération parcimonieuse (BM25), récupération dense (similarité d'embeddings) et récupération générative (IDs sémantiques). Grâce à la planification des outils, le système prédit les types d'outils à utiliser, leur ordre d'exécution et les arguments nécessaires pour trouver de la musique correspondant aux préférences de l'utilisateur, en supportant des modalités diverses tout en intégrant de manière transparente plusieurs méthodes de filtrage de bases de données. Nous démontrons que ce cadre unifié d'appel d'outils atteint des performances compétitives dans divers scénarios de recommandation en employant de manière sélective les méthodes de récupération appropriées en fonction des requêtes des utilisateurs, envisageant ainsi un nouveau paradigme pour les systèmes de recommandation musicale conversationnels.
L'ancrage d'interface graphique (GUI grounding), la tâche consistant à mapper des instructions en langage naturel vers des coordonnées en pixels, est cruciale pour les agents autonomes, mais reste difficile pour les modèles de langage visuel (VLMs) actuels. Le principal goulot d'étranglement est la cartographie fiable de patchs à pixels, qui échoue lors de l'extrapolation à des affichages haute résolution non vus pendant l'entraînement. Les approches actuelles génèrent les coordonnées sous forme de tokens textuels directement à partir des caractéristiques visuelles, forçant le modèle à inférer implicitement des mappings complexes de position à pixels ; par conséquent, la précision se dégrade et les échecs se multiplient sur de nouvelles résolutions. Nous abordons ce problème avec deux innovations complémentaires. Premièrement, les tokens RULER servent de marqueurs de coordonnées explicites, permettant au modèle de référencer des positions de manière similaire à des lignes de grille sur une carte et d'ajuster plutôt que de générer des coordonnées à partir de zéro. Deuxièmement, l'Interleaved MRoPE (I-MRoPE) améliore l'encodage spatial en garantissant que les dimensions de largeur et de hauteur sont représentées de manière égale, corrigeant l'asymétrie des schémas positionnels standards. Les expériences sur ScreenSpot, ScreenSpot-V2 et ScreenSpot-Pro montrent des gains constants en précision d'ancrage, avec les améliorations les plus significatives sur les interfaces haute résolution. En fournissant un guidage spatial explicite plutôt que de s'appuyer sur un apprentissage implicite, notre approche permet une automatisation d'interface graphique plus fiable à travers diverses résolutions et plateformes.
Les agents web alimentés par des modèles de langage de grande taille (LLM) doivent traiter des observations de pages web souvent longues pour accomplir les objectifs des utilisateurs ; ces pages dépassent fréquemment plusieurs dizaines de milliers de tokens. Cela sature les limites de contexte et augmente les coûts de traitement computationnel ; de plus, le traitement de pages entières expose les agents à des risques de sécurité tels que l'injection de prompts. Les stratégies d'élagage existantes éliminent soit du contenu pertinent, soit conservent du contexte inutile, conduisant à des prédictions d'actions sous-optimales. Nous présentons FocusAgent, une approche simple mais efficace qui exploite un récupérateur LLM léger pour extraire les lignes les plus pertinentes des observations de l'arbre d'accessibilité (AxTree), guidé par les objectifs de la tâche. En élaguant le contenu bruyant et non pertinent, FocusAgent permet un raisonnement efficace tout en réduisant la vulnérabilité aux attaques par injection. Les expériences sur les benchmarks WorkArena et WebArena montrent que FocusAgent atteint les performances de références solides, tout en réduisant la taille des observations de plus de 50 %. De plus, une variante de FocusAgent réduit significativement le taux de réussite des attaques par injection de prompts, y compris les attaques par bannières et fenêtres pop-up, tout en maintenant les performances de réussite des tâches dans des environnements sans attaque. Nos résultats soulignent que la récupération ciblée basée sur les LLM est une stratégie pratique et robuste pour construire des agents web efficaces, performants et sécurisés.
Depuis la sortie de Deepseek-R1, l'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une approche centrale pour entraîner les grands modèles de langage (LLMs) sur des tâches de raisonnement. Les travaux récents se sont principalement concentrés sur la modification des fonctions de perte pour rendre le RLVR plus efficace et efficient. Dans cet article, motivés par des études sur la surréflexion dans les LLMs, nous proposons l'Échantillonnage Sensible à la Longueur pour l'Optimisation des Politiques (LSPO), un nouvel algorithme méta-RLVR qui sélectionne dynamiquement les données d'entraînement à chaque étape en fonction de la longueur moyenne des réponses. Nous évaluons LSPO sur plusieurs modèles de base et ensembles de données, démontrant qu'il améliore systématiquement l'efficacité de l'apprentissage. De plus, nous menons une étude d'ablation détaillée pour examiner des alternatives d'intégration des signaux de longueur dans l'échantillonnage dynamique, offrant ainsi des perspectives approfondies et mettant en lumière des directions prometteuses pour les recherches futures.
De multiples attaques par injection de prompts ont été proposées contre les agents web. Parallèlement, diverses méthodes ont été développées pour détecter les attaques générales par injection de prompts, mais aucune n'a été systématiquement évaluée pour les agents web. Dans ce travail, nous comblons cette lacune en présentant la première étude de référence exhaustive sur la détection des attaques par injection de prompts ciblant les agents web. Nous commençons par introduire une catégorisation fine de ces attaques basée sur le modèle de menace. Nous construisons ensuite des ensembles de données contenant à la fois des échantillons malveillants et bénins : des segments de texte malveillants générés par différentes attaques, des segments de texte bénins provenant de quatre catégories, des images malveillantes produites par des attaques, et des images bénignes provenant de deux catégories. Ensuite, nous systématisons les méthodes de détection basées sur le texte et sur l'image. Enfin, nous évaluons leurs performances dans plusieurs scénarios. Nos principales conclusions montrent que si certains détecteurs peuvent identifier les attaques reposant sur des instructions textuelles explicites ou des perturbations visibles dans les images avec une précision modérée à élevée, ils échouent largement contre les attaques qui omettent des instructions explicites ou utilisent des perturbations imperceptibles. Nos ensembles de données et notre code sont disponibles à l'adresse suivante : https://github.com/Norrrrrrr-lyn/WAInjectBench.
Le développement actuel des grands modèles de langage (LLM) traite la résolution de tâches et l'alignement des préférences comme des défis distincts, en optimisant d'abord pour la justesse objective, puis pour l'alignement sur les préférences humaines agrégées. Ce paradigme échoue dans les applications orientées vers les humains, où résoudre un problème correctement est insuffisant si la réponse ne correspond pas aux besoins de l'utilisateur. Ce défi s'intensifie dans les scénarios en temps réel où aucune historique d'interaction utilisateur n'existe en raison de conditions de démarrage à froid ou de contraintes de confidentialité. Les LLM doivent identifier ce qu'ils ignorent des préférences de l'utilisateur, solliciter stratégiquement les valeurs de préférence par le questionnement, puis adapter leurs processus de raisonnement et leurs réponses en conséquence — une chaîne complexe de processus cognitifs que nous appelons raisonnement personnalisé. Nous présentons PREFDISCO, une méthodologie d'évaluation qui transforme des benchmarks statiques en tâches de personnalisation interactives en utilisant des personnages psychologiquement fondés avec des préférences éparses. Notre cadre crée des scénarios où des questions identiques nécessitent des chaînes de raisonnement différentes selon le contexte utilisateur, car les approches d'explication optimales varient selon l'expertise et les préférences individuelles tout en maintenant l'exactitude factuelle. L'évaluation de 21 modèles de pointe sur 10 tâches révèle que 29,0 % des tentatives naïves de personnalisation produisent un alignement des préférences pire que les réponses génériques, mais que les réponses génériques échouent également à répondre efficacement aux besoins individuels des utilisateurs. Ces résultats suggèrent que le raisonnement personnalisé nécessite un développement dédié plutôt que d'émerger naturellement. PREFDISCO établit le raisonnement personnalisé comme une frontière de recherche mesurable et révèle des limitations fondamentales dans les capacités interactives des LLM actuels, fournissant une base pour développer des systèmes capables de s'adapter aux utilisateurs individuels dans des domaines tels que l'éducation, la santé et les domaines techniques où la personnalisation est critique.
L'optimisation des modèles de diffusion discrète (DDM) avec des récompenses reste un défi : le paradigme non autorégressif rend l'échantillonnage d'importance difficile à traiter et le déploiement complexe, ce qui embrouille les méthodes d'apprentissage par renforcement telles que l'Optimisation Relative de Politique de Groupe (GRPO). Dans cette étude, nous introduisons MaskGRPO, la première approche viable permettant un apprentissage par renforcement multimodal scalable dans la diffusion discrète, avec un échantillonnage d'importance efficace et des adaptations spécifiques aux modalités. Pour ce faire, nous clarifions d'abord les fondements théoriques des DDM, ce qui facilite la construction d'un estimateur d'importance capturant les fluctuations significatives des tokens pour les mises à jour de gradient. Nous avons ensuite soigneusement adapté la méthode de déploiement pour les séquences visuelles, ce qui produit des complétions diversifiées et des gradients d'optimisation fiables. Sur des benchmarks de raisonnement mathématique, de codage et de génération visuelle, MaskGRPO apporte des mises à jour plus stables et efficaces, conduisant à une meilleure performance de raisonnement et à une qualité de génération supérieure. Cette étude établit MaskGRPO comme une approche systématique d'optimisation de politique et la première méthode pratique pour la diffusion visuelle discrétisée.
La descente de gradient s’est avérée être une technique puissante et efficace pour l’optimisation dans de nombreuses applications d’apprentissage automatique. Les avancées récentes en neurosciences computationnelles ont montré que l’apprentissage dans la formulation standard de l’optimisation par descente de gradient n’est pas cohérent avec l’apprentissage dans les systèmes biologiques. Cela a ouvert des perspectives intéressantes pour développer des techniques d’apprentissage inspirées de la biologie. Une telle approche s’inspire de la loi de Dale, qui stipule que les synapses inhibitrices et excitatrices n’échangent pas leurs rôles au cours de l’apprentissage. Le schéma d’optimisation par descente de gradient exponentielle qui en résulte conduit à des poids synaptiques distribués selon une loi log-normale. Fait intéressant, la densité qui satisfait l’équation de Fokker-Planck correspondant à l’équation différentielle stochastique (EDS) avec un mouvement brownien géométrique (MBG) est la densité log-normale. En exploitant cette connexion, nous partons de l’EDS gouvernant le mouvement brownien géométrique et montrons que la discrétisation de l’EDS en temps inverse donne une règle de mise à jour multiplicative, qui coïncide de manière surprenante avec l’équivalent d’échantillonnage de la mise à jour de la descente de gradient exponentielle fondée sur la loi de Dale. De plus, nous proposons un nouveau formalisme pour l’appariement de scores multiplicatifs avec débruitage, englobant la fonction de perte proposée par Hyvärinen pour les données non négatives. En effet, les données distribuées selon une loi log-normale sont positives, et le formalisme d’appariement de scores proposé s’avère être un choix naturel. Cela permet l’entraînement de modèles basés sur les scores pour les données d’images et aboutit à un nouveau schéma de mise à jour multiplicative pour la génération d’échantillons à partir d’une densité log-normale. Les résultats expérimentaux sur les ensembles de données MNIST, Fashion MNIST et Kuzushiji démontrent la capacité générative de ce nouveau schéma. À notre connaissance, il s’agit de la première instance d’un modèle génératif inspiré de la biologie utilisant des mises à jour multiplicatives, fondé sur le mouvement brownien géométrique.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) associe la récupération de documents aux modèles de langage de grande taille (LLMs). Bien que l'augmentation de la taille des générateurs améliore la précision, elle entraîne également une hausse des coûts et limite la déployabilité. Nous explorons un axe orthogonal : l'élargissement du corpus du récupérateur pour réduire la dépendance aux grands LLMs. Les résultats expérimentaux montrent que l'augmentation du corpus renforce systématiquement RAG et peut souvent servir de substitut à l'augmentation de la taille du modèle, bien que les rendements diminuent à plus grande échelle. Les générateurs de petite et moyenne taille associés à des corpus plus vastes rivalisent souvent avec des modèles beaucoup plus grands utilisant des corpus plus restreints ; les modèles de taille moyenne tendent à en tirer le plus grand bénéfice, tandis que les modèles très petits ou très grands en profitent moins. Notre analyse révèle que les améliorations découlent principalement d'une couverture accrue des passages contenant des réponses, tandis que l'efficacité d'utilisation reste largement inchangée. Ces résultats établissent un compromis principe entre corpus et générateur : investir dans des corpus plus vastes offre une voie efficace pour renforcer RAG, souvent comparable à l'agrandissement du LLM lui-même.
Les modèles génératifs vidéo démontrent des capacités impressionnantes de conversion de texte en vidéo, stimulant une adoption généralisée dans de nombreuses applications réelles. Cependant, tout comme les grands modèles de langage (LLMs), les modèles de génération vidéo ont tendance à halluciner, produisant des vidéos plausibles même lorsqu'elles sont factuellement incorrectes. Bien que la quantification de l'incertitude (UQ) des LLMs ait été largement étudiée dans des travaux antérieurs, aucune méthode UQ pour les modèles vidéo n'existe, soulevant des préoccupations critiques en matière de sécurité. À notre connaissance, cet article représente le premier travail visant à quantifier l'incertitude des modèles vidéo. Nous présentons un cadre pour la quantification de l'incertitude des modèles génératifs vidéo, comprenant : (i) une métrique pour évaluer la calibration des modèles vidéo basée sur l'estimation robuste de la corrélation de rang sans hypothèses de modélisation strictes ; (ii) une méthode UQ en boîte noire pour les modèles vidéo (appelée S-QUBED), qui exploite la modélisation latente pour décomposer rigoureusement l'incertitude prédictive en ses composantes aléatoires et épistémiques ; et (iii) un ensemble de données UQ pour faciliter l'évaluation de la calibration des modèles vidéo. En conditionnant la tâche de génération dans l'espace latent, nous dissocions l'incertitude résultant de spécifications de tâches vagues de celle résultant d'un manque de connaissances. Grâce à des expériences approfondies sur des ensembles de données vidéo de référence, nous démontrons que S-QUBED calcule des estimations d'incertitude totale calibrées qui sont négativement corrélées avec la précision de la tâche et décompose efficacement les constituants aléatoires et épistémiques.
Les modèles actuels de génération vidéo-vers-audio (V2A) fonctionnent hors ligne, en supposant qu'une séquence vidéo entière ou des segments d'images sont disponibles au préalable. Cela limite considérablement leur utilisation dans des applications interactives telles que la création de contenu en direct et les modèles génératifs émergents de mondes virtuels. Pour combler cette lacune, nous introduisons la nouvelle tâche de génération V2A en ligne au niveau de l'image, où un modèle génère de manière autoregressive l'audio à partir de la vidéo sans accès aux images vidéo futures. De plus, nous proposons SoundReactor, qui, à notre connaissance, est le premier cadre simple mais efficace explicitement conçu pour cette tâche. Notre conception impose une causalité de bout en bout et vise une faible latence par image avec une synchronisation audio-visuelle. L'architecture de notre modèle repose sur un transformeur causal à décodeur uniquement, opérant sur des latents audio continus. Pour le conditionnement visuel, il exploite des caractéristiques de grille (patch) extraites de la plus petite variante de l'encodeur visuel DINOv2, qui sont agrégées en un seul token par image pour maintenir la causalité et l'efficacité de bout en bout. Le modèle est entraîné via un pré-entraînement par diffusion suivi d'un affinage de cohérence pour accélérer le décodage de la tête de diffusion. Sur un benchmark de vidéos de gameplay variées issues de titres AAA, notre modèle génère avec succès un audio stéréo de haute qualité, sémantiquement et temporellement aligné, validé par des évaluations objectives et humaines. De plus, notre modèle atteint une faible latence au niveau de la forme d'onde par image (26,3 ms avec NFE=1, 31,5 ms avec NFE=4) sur des vidéos à 30 FPS et 480p en utilisant un seul H100. Des échantillons de démonstration sont disponibles à l'adresse https://koichi-saito-sony.github.io/soundreactor/.
Avec les modèles de diffusion et de correspondance de flux atteignant des performances de génération de pointe, l'intérêt de la communauté s'est désormais tourné vers la réduction du temps d'inférence sans sacrifier la qualité des échantillons. Les modèles de cohérence (Consistency Models, CMs), qui sont entraînés pour être cohérents sur les trajectoires de diffusion ou d'équations différentielles ordinaires de flux de probabilité (PF-ODE), permettent un échantillonnage de flux ou de diffusion en une ou deux étapes. Cependant, les CMs nécessitent généralement un entraînement prolongé avec de grandes tailles de lots pour obtenir une qualité d'échantillon compétitive. Dans cet article, nous examinons la dynamique d'entraînement des CMs près de la convergence et découvrons que les tangentes des CMs — les directions de mise à jour des sorties des CMs — sont assez oscillatoires, dans le sens où elles se déplacent parallèlement à la variété des données, et non vers celle-ci. Pour atténuer les tangentes oscillatoires, nous proposons une nouvelle fonction de perte, appelée distance des caractéristiques de la variété (Manifold Feature Distance, MFD), qui fournit des tangentes alignées sur la variété et pointant vers la variété des données. Par conséquent, notre méthode — baptisée Align Your Tangent (AYT) — peut accélérer l'entraînement des CMs de plusieurs ordres de grandeur et même surpasser la métrique de similarité perceptuelle des patchs d'images apprise (Learned Perceptual Image Patch Similarity, LPIPS). De plus, nous constatons que notre fonction de perte permet un entraînement avec des tailles de lots extrêmement petites sans compromettre la qualité des échantillons. Code : https://github.com/1202kbs/AYT
Les modèles de langage multimodaux de grande envergure (MLLMs) ont obtenu des performances solides sur des benchmarks visuels généraux, mais rencontrent des difficultés avec les tâches hors distribution (OOD) dans des domaines spécialisés tels que l'imagerie médicale, où les données étiquetées sont limitées et coûteuses. Nous présentons LEAML, un cadre d'adaptation efficace en termes d'étiquettes qui exploite à la fois des échantillons VQA étiquetés rares et des images non étiquetées abondantes. Notre approche génère des paires de questions-réponses pseudo-pertinentes pour les données non étiquetées en utilisant un générateur de questions-réponses régularisé par une distillation de légendes. De manière cruciale, nous mettons à jour de manière sélective uniquement les neurones les plus pertinents pour la réponse aux questions, permettant ainsi au générateur de questions-réponses d'acquérir efficacement des connaissances spécifiques au domaine lors de la distillation. Les expériences sur l'endoscopie gastro-intestinale et les questions-réponses sportives démontrent que LEAML surpasse systématiquement l'ajustement fin standard sous supervision minimale, mettant en évidence l'efficacité de notre cadre LEAML proposé.
Les gains impressionnants de performance des modèles de langage modernes reposent actuellement sur la mise à l'échelle des paramètres : les modèles plus volumineux stockent davantage de connaissances du monde et raisonnent mieux. Cependant, compresser toutes les connaissances du monde dans les paramètres est inutile, car seule une fraction est utilisée par prompt, et peu pratique pour les appareils périphériques disposant d'une mémoire et d'une puissance de calcul limitées lors de l'inférence. Nous abordons cette lacune grâce à une architecture augmentée par mémoire et à une stratégie de pré-entraînement alignée avec les paradigmes matériels existants. Nous introduisons de petits modèles de langage qui accèdent à de grandes banques de mémoire paramétrique hiérarchique encodant les connaissances du monde. Pendant le pré-entraînement et l'inférence, nous récupérons un petit bloc de mémoire dépendant du contexte et l'ajoutons au modèle. Notre pré-entraînement apprend à stocker les connaissances du monde à longue traîne dans les paramètres de mémoire, tandis que le petit modèle de langage agit comme une ancre capturant les connaissances communes et les capacités de raisonnement général. Grâce à des expériences à l'échelle de milliers de milliards de tokens, nous montrons des gains significatifs : un modèle de 160 millions de paramètres augmenté d'une mémoire de 18 millions de paramètres extraite d'une banque de mémoire de 4,6 milliards obtient des performances comparables à un modèle standard avec plus de deux fois plus de paramètres. À travers des expériences approfondies, nous étudions le type et la taille optimaux des mémoires paramétriques dans les transformateurs, en les mettant à l'échelle à plus de 21 milliards de paramètres. Nous constatons que nos mémoires hiérarchiques à propagation avant proposées fonctionnent de manière robuste à travers les architectures de transformateurs, qu'elles soient ajoutées pendant le pré-entraînement ou a posteriori.
Le développement de logiciels repose fortement sur des tests unitaires approfondis, ce qui rend l'efficacité de la génération automatisée de tests unitaires (UTG) particulièrement importante. Cependant, la plupart des modèles de langage existants (LLMs) génèrent des cas de test un jeton à la fois lors de chaque passage avant, ce qui entraîne une UTG inefficace. Récemment, des LLMs basés sur la diffusion (dLLMs) ont émergé, offrant des capacités prometteuses de génération parallèle et montrant un fort potentiel pour une UTG efficace. Malgré cet avantage, leur application à l'UTG est encore limitée par un compromis clair entre efficacité et qualité des tests, car augmenter le nombre de jetons générés à chaque étape entraîne souvent une baisse significative de la qualité des cas de test. Pour surmonter cette limitation, nous présentons DiffTester, un cadre d'accélération spécialement conçu pour les dLLMs dans l'UTG. L'idée clé de DiffTester est que les tests unitaires ciblant la même méthode focale partagent souvent des motifs structurels répétitifs. En identifiant dynamiquement ces motifs communs grâce à l'analyse d'arbres syntaxiques abstraits pendant la génération, DiffTester augmente de manière adaptative le nombre de jetons produits à chaque étape sans compromettre la qualité de la sortie. Pour permettre une évaluation complète, nous étendons le benchmark original TestEval, limité à Python, en introduisant des langages de programmation supplémentaires, notamment Java et C++. Des expériences approfondies sur trois benchmarks avec deux modèles représentatifs montrent que DiffTester offre une accélération significative tout en préservant la couverture des tests. De plus, DiffTester se généralise bien à travers différents dLLMs et langages de programmation, fournissant une solution pratique et évolutive pour une UTG efficace dans le développement de logiciels. Le code et les données sont disponibles publiquement à l'adresse https://github.com/wellbeingyang/DLM4UTG-open.
Comprendre le risque dans la conduite autonome nécessite non seulement la perception et la prédiction, mais aussi un raisonnement de haut niveau sur le comportement des agents et le contexte. Les méthodes actuelles basées sur les modèles de langage visuel (Vision Language Models, VLMs) ancrent principalement les agents dans des images statiques et fournissent des jugements qualitatifs, manquant ainsi du raisonnement spatio-temporel nécessaire pour capturer l'évolution des risques dans le temps. Pour combler cette lacune, nous proposons NuRisk, un ensemble de données complet de question-réponse visuelle (Visual Question Answering, VQA) comprenant 2 900 scénarios et 1,1 million d'échantillons au niveau des agents, construit à partir de données réelles provenant de nuScenes et Waymo, complétées par des scénarios critiques pour la sécurité issus du simulateur CommonRoad. L'ensemble de données fournit des images séquentielles basées sur une vue de dessus (Bird-Eye-View, BEV) avec des annotations quantitatives de risque au niveau des agents, permettant un raisonnement spatio-temporel. Nous évaluons des VLMs bien connus à travers différentes techniques d'invite et constatons qu'ils échouent à effectuer un raisonnement spatio-temporel explicite, atteignant une précision maximale de 33 % avec une latence élevée. Pour pallier ces lacunes, notre agent VLM de 7B affiné améliore la précision à 41 % et réduit la latence de 75 %, démontrant des capacités de raisonnement spatio-temporel explicite que les modèles propriétaires ne possédaient pas. Bien que cela représente une avancée significative, la précision modeste souligne la profonde difficulté de la tâche, établissant NuRisk comme un benchmark critique pour faire progresser le raisonnement spatio-temporel dans la conduite autonome.
L'évaluation de la conformité aux politiques est une tâche fondamentale consistant à déterminer si un cas d'étude respecte strictement un ensemble de règles définies par des humains, plus communément appelées politiques. En pratique, les experts humains suivent un processus systématique et étape par étape pour identifier les violations par rapport aux stipulations spécifiques énoncées dans la politique. Cependant, la documentation de ces processus de raisonnement de référence, de niveau expert, est coûteuse à acquérir. Dans cet article, nous introduisons les Traces de Raisonnement Politique (PRT), une forme de chaînes de raisonnement générées spécialisées qui servent de pont de raisonnement pour améliorer les capacités d'évaluation de la conformité aux politiques d'un modèle de langage (LLM). Nos évaluations empiriques démontrent que l'utilisation des PRT, à la fois pour les scénarios d'inférence et d'entraînement, améliore significativement les performances des modèles open-weight et commerciaux, établissant un nouvel état de l'art pour les politiques HIPAA et GDPR. Au-delà des gains en précision, nous mettons également en évidence comment les PRT peuvent améliorer la capacité d'un LLM à citer avec précision les clauses des politiques, ainsi qu'à influencer les décisions de conformité grâce à leur forte utilisation à partir des chaînes de pensée brutes.