Articles de recherche IA sélectionnés quotidiennement avec traductions
Malgré les progrès rapides des scientifiques IA autonomes alimentés par des modèles de langage, la génération d'illustrations prêtes à être publiées reste un goulot d'étranglement laborieux dans le flux de travail de recherche. Pour alléger cette charge, nous présentons PaperBanana, un cadre agentiel pour la génération automatisée d'illustrations académiques publication-prêtes. Propulsé par des modèles de vision et de génération d'images de pointe, PaperBanana orchestre des agents spécialisés pour récupérer des références, planifier le contenu et le style, produire les images et les affiner itérativement via une auto-critique. Pour évaluer rigoureusement notre cadre, nous introduisons PaperBananaBench, comprenant 292 cas tests pour les diagrammes méthodologiques issus de publications de NeurIPS 2025, couvrant divers domaines de recherche et styles d'illustration. Des expériences complètes démontrent que PaperBanana surpasse constamment les meilleurs modèles de référence en termes de fidélité, concision, lisibilité et esthétique. Nous montrons en outre que notre méthode s'étend efficacement à la génération de graphiques statistiques de haute qualité. Collectivement, PaperBanana ouvre la voie à la génération automatisée d'illustrations publication-prêtes.
Le Reinforcement Learning avec Récompenses Vérifiables (RLVR) est devenu une pierre angulaire pour débloquer le raisonnement complexe dans les Grands Modèles de Langage (LLM). Cependant, la montée en puissance du RL est freinée par la quantité limitée de données vérifiables existantes, où les améliorations atteignent une saturation croissante lors d'entraînements prolongés. Pour surmonter cela, nous proposons Golden Goose, une astuce simple pour synthétiser un nombre illimité de tâches RLVR à partir de textes internet non vérifiables, en construisant une version à choix multiples de la tâche de remplissage au milieu. Étant donné un texte source, nous incitons un LLM à identifier et masquer les étapes clés du raisonnement, puis à générer un ensemble de distracteurs plausibles et diversifiés. Cela nous permet d'exploiter des corpus non vérifiables riches en raisonnement, généralement exclus de la construction de données RLVR antérieure (par exemple, les manuels scientifiques), pour synthétiser GooseReason-0.7M, un jeu de données RLVR à grande échelle comprenant plus de 0,7 million de tâches couvrant les domaines des mathématiques, de la programmation et des sciences générales. Empiriquement, GooseReason redynamise efficacement les modèles saturés par les données RLVR existantes, produisant des gains robustes et soutenus sous un apprentissage par renforcement continu et établissant de nouveaux records sur 15 benchmarks divers pour les modèles 1,5B et 4B-Instruct. Enfin, nous déployons Golden Goose dans un cadre réel, en synthétisant des tâches RLVR à partir de données brutes FineWeb pour le domaine de la cybersécurité, où aucune donnée RLVR n'existait auparavant. L'entraînement de Qwen3-4B-Instruct sur les données résultantes, GooseReason-Cyber, établit un nouveau state-of-the-art en cybersécurité, surpassant un modèle spécialisé de 7B pourtant soumis à un pré-entraînement et un post-entraînement extensifs spécifiques au domaine. Cela souligne le potentiel de l'extension automatique des données RLVR en exploitant l'abondant texte internet, riche en raisonnement mais non vérifiable.
Les grands modèles de langage (LLM) sont de plus en plus utilisés comme agents assistés d'outils pour la prise de décision multi-étapes, mais l'entraînement d'agents robustes utilisant des outils reste un défi. Les méthodes existantes nécessitent encore une intervention manuelle, dépendent d'environnements simulés non vérifiables, reposent exclusivement soit sur le réglage fin supervisé (SFT) soit sur l'apprentissage par renforcement (RL), et peinent avec un apprentissage stable à long terme et multi-tours. Pour relever ces défis, nous présentons ASTRA, un cadre entièrement automatisé de bout en bout pour l'entraînement d'agents de modèles de langage assistés d'outils via une synthèse de données évolutive et un apprentissage par renforcement vérifiable. ASTRA intègre deux composants complémentaires. Premièrement, un pipeline qui exploite la topologie statique des graphes d'appels d'outils synthétise des trajectoires diverses et structurellement fondées, instillant une compétence large et transférable dans l'utilisation d'outils. Deuxièmement, un cadre de synthèse d'environnements qui capture la topologie riche et compositionnelle du raisonnement sémantique humain convertit des traces question-réponse décomposées en environnements indépendants, exécutables en code et vérifiables par règles, permettant un RL multi-tours déterministe. Sur la base de cette méthode, nous développons une méthodologie d'entraînement unifiée qui intègre le SFT avec du RL en ligne en utilisant des récompenses au niveau de la trajectoire pour équilibrer l'accomplissement des tâches et l'efficacité de l'interaction. Les expériences sur plusieurs benchmarks d'utilisation d'outils agentiques démontrent que les modèles entraînés par ASTRA atteignent des performances de pointe à des échelles comparables, approchant les systèmes propriétaires tout en préservant la capacité de raisonnement fondamentale. Nous publions l'intégralité des pipelines, environnements et modèles entraînés à l'adresse https://github.com/LianjiaTech/astra.
Le format de faible précision NVFP4, pris en charge matériellement par les GPU NVIDIA Blackwell, promet de permettre pour la première fois le pré-entraînement entièrement quantifié de bout en bout de modèles massifs tels que les LLM. Pourtant, les méthodes d'entraînement quantifié existantes sacrifient encore une partie de la capacité de représentation de ce format au profit d'une estimation de gradient quantifié non biaisée plus précise par arrondi stochastique (SR), entraînant une perte de précision notable par rapport aux entraînements standards FP16 et FP8. Dans cet article, nous améliorons l'état de l'art pour l'entraînement quantifié en NVFP4 via une nouvelle routine de quantification non biaisée pour les formats micro-échelles, appelée MS-EDEN, qui présente une erreur de quantification plus de 2 fois inférieure à celle du SR. Nous l'intégrons dans un nouveau schéma de quantification entièrement NVFP4 pour les couches linéaires, appelé Quartet II. Nous montrons analytiquement que Quartet II permet une meilleure estimation du gradient de manière constante pour toutes les multiplications matricielles principales, tant lors des passes avant que lors des passes arrière. De plus, notre proposition synergise bien avec les améliorations récentes de l'entraînement spécifiquement conçues pour le NVFP4. Nous validons en outre Quartet II sur l'entraînement de LLM de bout en bout avec jusqu'à 1,9 milliard de paramètres sur 38 milliards de tokens. Nous fournissons des noyaux pour l'exécution sur les GPU NVIDIA Blackwell avec une accélération allant jusqu'à 4,2x par rapport au BF16. Notre code est disponible à l'adresse https://github.com/IST-DASLab/Quartet-II.
Les grands modèles de raisonnement (LRM) obtiennent des performances remarquables en exploitant l'apprentissage par renforcement (RL) sur des tâches de raisonnement pour générer de longues chaînes de raisonnement (CoT). Cependant, cette sur-optimisation privilégie souvent la compliance, rendant les modèles vulnérables aux requêtes malveillantes. Pour atténuer cette dégradation de la sécurité, les approches récentes reposent sur la distillation par un enseignant externe, ce qui introduit toutefois un écart distributionnel qui altère le raisonnement natif. Nous proposons ThinkSafe, un cadre d'alignement auto-généré qui rétablit l'alignement de sécurité sans enseignants externes. Notre idée clé est que si la compliance supprime les mécanismes de sécurité, les modèles conservent souvent des connaissances latentes pour identifier les dangers. ThinkSafe libère ce potentiel via un guidage léger du refus, orientant le modèle pour générer des traces de raisonnement sécuritaires dans la distribution. Le micro-ajustement sur ces réponses auto-générées réaligne efficacement le modèle tout en minimisant le décalage distributionnel. Les expériences sur DeepSeek-R1-Distill et Qwen3 montrent que ThinkSafe améliore significativement la sécurité tout en préservant la compétence raisonnante. Notamment, il atteint une sécurité supérieure et un raisonnement comparable à GRPO, avec un coût computationnel nettement réduit. Le code, les modèles et les jeux de données sont disponibles à l'adresse https://github.com/seanie12/ThinkSafe.git.
Bien que la méthode Chain-of-Thought (Chaîne de Pensée, CoT) améliore significativement les performances des Grands Modèles de Langage (LLM), les chaînes de raisonnement explicites introduisent une redondance computationnelle substantielle. Les méthodes de raisonnement latent récentes tentent de remédier à ce problème en comprimant les processus de raisonnement dans un espace latent, mais elles souffrent souvent d'une dégradation sévère des performances en raison de l'absence de guidage de compression approprié. Dans cette étude, nous proposons ReGuLaR (Rendered CoT-Guided variational Latent Reasoning), un paradigme d'apprentissage latent simple mais novateur qui résout ce problème. Fondamentalement, nous formulons le raisonnement latent dans le cadre des Auto-Encodeurs Variationnels (VAE), en échantillonnant l'état de raisonnement latent actuel à partir de la distribution a posteriori conditionnée par les états précédents. Plus précisément, lors de l'apprentissage de ce modèle de raisonnement latent variationnel, nous rendons les chaînes de raisonnement explicites sous forme d'images, à partir desquelles nous extrayons des représentations visuelles-sémantiques denses pour régulariser la distribution a posteriori, permettant ainsi une compression efficace avec une perte d'information minimale. Des expériences approfondies démontrent que ReGuLaR surpasse significativement les méthodes de raisonnement latent existantes à la fois en efficacité computationnelle et en efficacité du raisonnement, et dépasse même la méthode CoT grâce à un raisonnement multimodal, offrant ainsi une solution nouvelle et perspicace au raisonnement latent. Code : https://github.com/FanmengWang/ReGuLaR.
L'apprentissage au moment du test (Test-Time Training) offre une voie prometteuse pour améliorer la capacité de raisonnement des grands modèles de langage (LLM) en adaptant le modèle en utilisant uniquement les questions de test. Cependant, les méthodes existantes peinent avec les problèmes de raisonnement difficiles pour deux raisons : les questions de test brutes sont souvent trop difficiles pour produire des pseudo-étiquettes de haute qualité, et la taille limitée des ensembles de test rend les mises à jour continues en ligne sujettes à l'instabilité. Pour remédier à ces limitations, nous proposons TTCS, un cadre d'apprentissage au moment du test à évolution conjointe. Concrètement, TTCS initialise deux politiques à partir du même modèle pré-entraîné : un synthétiseur de questions et un solveur de raisonnement. Ces politiques évoluent grâce à une optimisation itérative : le synthétiseur génère des variantes de questions progressivement plus difficiles conditionnées par les questions de test, créant un curriculum structuré adapté aux capacités actuelles du solveur, tandis que le solveur se met à jour en utilisant des récompenses d'auto-cohérence calculées à partir de multiples réponses échantillonnées sur les questions de test originales et les questions synthétiques. Fait crucial, les retours du solveur guident le synthétiseur pour générer des questions alignées sur les capacités actuelles du modèle, et les variantes de questions générées stabilisent à leur tour l'apprentissage du solveur au moment du test. Les expériences montrent que TTCS renforce constamment la capacité de raisonnement sur des benchmarks mathématiques difficiles et se transfère à des tâches du domaine général à travers différentes architectures de LLM, mettant en lumière une voie évolutive pour construire dynamiquement des curricula au moment du test permettant l'auto-évolution. Notre code et les détails de mise en œuvre sont disponibles à l'adresse https://github.com/XMUDeepLIT/TTCS.
Ce travail souligne que la modélisation du monde vidéo, associée au pré-entraînement vision-langage, constitue une base nouvelle et indépendante pour l'apprentissage robotique. Intuitivement, les modèles du monde vidéo offrent la capacité d'anticiper le futur proche en comprenant la causalité entre les actions et la dynamique visuelle. Inspirés par cela, nous présentons LingBot-VA, un framework de diffusion autorégressif qui apprend simultanément la prédiction d'images et l'exécution de politiques. Notre modèle intègre trois conceptions soigneusement élaborées : (1) un espace latent partagé intégrant les tokens visuels et d'action, piloté par une architecture Mixture-of-Transformers (MoT), (2) un mécanisme de déploiement en boucle fermée permettant l'acquisition continue de retours environnementaux avec des observations réelles, (3) un pipeline d'inférence asynchrone parallélisant la prédiction d'actions et l'exécution motrice pour supporter un contrôle efficace. Nous évaluons notre modèle sur des benchmarks de simulation et des scénarios réels, où il démontre un potentiel significatif dans la manipulation à long terme, une efficacité des données en post-entraînement et une forte généralisabilité à des configurations nouvelles. Le code et le modèle sont mis à disposition publique pour favoriser les avancées communautaires.
Le raisonnement agentique à long horizon nécessite une compression efficace d'historiques d'interaction croissants dans une fenêtre de contexte limitée. La plupart des systèmes de mémoire existants sérialisent l'historique sous forme de texte, où le coût au niveau des tokens est uniforme et augmente linéairement avec la longueur, gaspillant souvent le budget précieux sur des détails de faible valeur. Pour cela, nous présentons MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long horizon sous contrainte de contexte sévère en allouant l'espace mémoire avec une densité informationnelle adaptive via une mise en page visuelle. Concrètement, MemOCR maintient une mémoire structurée en texte enrichi (par exemple, titres, surlignages) et la convertit en image que l'agent consulte pour l'accès mémoire, en priorisant visuellement les preuves cruciales tout en compressant agressivement les détails auxiliaires. Pour garantir la robustesse face à différents budgets mémoire, nous entraînons MemOCR par apprentissage par renforcement avec des objectifs sensibles au budget qui exposent l'agent à divers niveaux de compression. Sur des benchmarks de questions-réponses multi-sauts et à saut unique à contexte long, MemOCR surpasse les solides bases de référence textuelles et atteint une utilisation de contexte plus efficace sous des budgets extrêmes.
Les modèles d'embedding de pointe sont de plus en plus dérivés d'architectures de grands modèles de langage (LLM) décodeurs-seuls, adaptés via un apprentissage par contraste. Compte tenu de l'émergence de modèles de raisonnement entraînés par apprentissage par renforcement avec récompenses vérifiables (RLVR), une question naturelle se pose : les capacités de raisonnement accrues se traduisent-elles par des représentations sémantiques supérieures lorsque ces modèles servent d'initialisation pour les embeddings ? Contrairement aux attentes, notre évaluation sur MTEB et BRIGHT révèle un **effet nul** : les modèles d'embedding initialisés à partir de modèles de base ajustés par RLVR ne présentent aucun avantage de performance cohérent par rapport à leurs contreparties de base lorsqu'ils sont soumis à des protocoles d'entraînement identiques. Pour résoudre ce paradoxe, nous introduisons l'**A**nalyse de **S**imilarité des **R**eprésentations **H**iérarchique (HRSA), un cadre qui décompose la similarité aux niveaux de la représentation, de la géométrie et de la fonction. L'HRSA révèle que si le RLVR induit une réorganisation locale irréversible de la géométrie de la variété latente ainsi qu'une dérive réversible de la base des coordonnées, il préserve la géométrie globale de la variété et sa lisibilité linéaire. Par conséquent, l'apprentissage par contraste ultérieur conduit à un fort alignement entre les modèles initialisés à partir des bases standard et ceux issus du raisonnement, un phénomène que nous nommons **Realignement de la Variété**. Empiriquement, nos résultats suggèrent que, contrairement au réglage fin supervisé (SFT), le RLVR optimise les trajectoires au sein d'un paysage sémantique existant plutôt que de restructurer fondamentalement le paysage lui-même.
Les modèles de langage de grande taille (LLM) sont généralement évalués pour leur sécurité sous des conditions d'invite antagoniste en une seule tentative ou à faible budget, ce qui sous-estime les risques réels. En pratique, les attaquants peuvent exploiter un échantillonnage parallèle à grande échelle pour sonder un modèle de manière répétée jusqu'à obtenir une réponse nuisible. Bien que des travaux récents montrent que le succès des attaques augmente avec un échantillonnage répété, les méthodes fondamentales pour prédire le risque antagoniste à grande échelle restent limitées. Nous proposons une estimation du risque consciente de l'échelle par tirage du meilleur parmi N, SABER, pour modéliser la vulnérabilité aux contournements de sécurité sous un échantillonnage Best-of-N. Nous modélisons les probabilités de succès au niveau de l'échantillon à l'aide d'une distribution Bêta, le prior conjugué de la distribution de Bernoulli, et dérivons une loi d'échelle analytique qui permet une extrapolation fiable des taux de succès d'attaque pour un grand N à partir de mesures à petit budget. En utilisant seulement n=100 échantillons, notre estimateur ancré prédit le ASR@1000 avec une erreur absolue moyenne de 1,66, contre 12,04 pour la ligne de base, ce qui représente une réduction de 86,2 % de l'erreur d'estimation. Nos résultats révèlent des profils de mise à l'échelle des risques hétérogènes et montrent que les modèles semblant robustes lors d'évaluations standard peuvent subir une amplification non linéaire rapide des risques sous une pression antagoniste parallèle. Ce travail fournit une méthodologie peu coûteuse et évolutive pour une évaluation réaliste de la sécurité des LLM. Nous publierons notre code et nos scripts d'évaluation après la publication pour les recherches futures.
Malgré le potentiel non-autorégressif des modèles de langage par diffusion (dLLM), les stratégies de décodage existantes présentent un biais positionnel, ne parvenant pas à libérer pleinement le potentiel de génération arbitraire. Dans ce travail, nous explorons les caractéristiques spectrales inhérentes aux dLLM et présentons la première analyse dans le domaine fréquentiel, montrant que les composantes basse fréquence des états cachés encodent principalement les informations structurelles globales et les dépendances à longue portée, tandis que les composantes haute fréquence sont responsables de la caractérisation des détails locaux. Sur la base de cette observation, nous proposons FourierSampler, qui exploite un mécanisme de fenêtre glissante dans le domaine fréquentiel pour guider dynamiquement le modèle vers une génération « de la structure au détail ». FourierSampler surpasse les autres stratégies d'amélioration de l'inférence sur LLADA et SDAR, obtenant des améliorations relatives de 20,4 % sur LLaDA1.5-8B et 16,0 % sur LLaDA-8B-Instruct. Il dépasse notably les modèles autorégressifs de taille similaire comme Llama3.1-8B-Instruct.
Nous présentons PaddleOCR-VL-1.5, un modèle amélioré atteignant une nouvelle précision record (SOTA) de 94,5 % sur OmniDocBench v1.5. Pour évaluer rigoureusement la robustesse face aux distorsions physiques du monde réel, incluant la numérisation, l'inclinaison, la déformation, la photographie d'écran et l'éclairage, nous proposons le benchmark Real5-OmniDocBench. Les résultats expérimentaux démontrent que ce modèle amélioré atteint des performances SOTA sur ce nouveau benchmark. De plus, nous étendons les capacités du modèle en intégrant des tâches de reconnaissance de sceaux et de repérage de texte, tout en conservant une architecture ultra-compacte de 0,9 milliard de paramètres et une haute efficacité. Code : https://github.com/PaddlePaddle/PaddleOCR
Les approches récentes basées sur GRPO et fondées sur les modèles de "flow matching" ont montré des améliorations remarquables dans l'alignement sur les préférences humaines pour la génération d'images à partir de texte. Néanmoins, elles souffrent toujours du problème de récompense éparse : la récompense terminale de l'intégralité de la trajectoire de bruitage est appliquée à toutes les étapes intermédiaires, ce qui entraîne un décalage entre les signaux de retour globaux et les contributions exactes et granulaires aux étapes de bruitage intermédiaires. Pour résoudre ce problème, nous présentons DenseGRPO, un nouveau cadre qui aligne les préférences humaines avec des récompenses denses, évaluant la contribution granulaire de chaque étape de débruitage. Plus précisément, notre approche comprend deux composants clés : (1) nous proposons de prédire le gain de récompense par étape comme récompense dense de chaque étape de débruitage, en appliquant un modèle de récompense sur les images intermédiaires nettoyées via une approche basée sur les EDO. Cette méthode garantit un alignement entre les signaux de retour et les contributions des étapes individuelles, facilitant un entraînement efficace ; et (2) sur la base des récompenses denses estimées, un inconvénient de décalage entre le paramètre d'exploration uniforme et l'intensité de bruit variable dans le temps des méthodes existantes basées sur GRPO est révélé, conduisant à un espace d'exploration inapproprié. Ainsi, nous proposons un schéma sensible aux récompenses pour calibrer l'espace d'exploration en ajustant dynamiquement une injection de stochasticité spécifique à l'instant dans l'échantillonneur SDE, garantissant un espace d'exploration adapté à tous les instants. Des expériences approfondies sur plusieurs benchmarks standards démontrent l'efficacité du DenseGRPO proposé et soulignent le rôle crucial des récompenses denses valides dans l'alignement des modèles de "flow matching".
Des études récentes ont exploré l'utilisation de modèles de vision de base (VFMs) préentraînés tels que DINO pour les autoencodeurs génératifs, démontrant de fortes performances génératives. Malheureusement, les approches existantes souffrent souvent d'une fidélité de reconstruction limitée en raison de la perte de détails haute fréquence. Dans ce travail, nous présentons le DINO Spherical Autoencoder (DINO-SAE), un cadre qui établit un pont entre la représentation sémantique et la reconstruction au niveau pixel. Notre idée clé est que l'information sémantique dans les représentations contrastives est principalement encodée dans la direction des vecteurs de caractéristiques, tandis qu'imposer un appariement strict des magnitudes peut empêcher l'encodeur de préserver les détails fins. Pour résoudre ce problème, nous introduisons un module Hiérarchique d'Incorporation de Patchs Convolutifs qui améliore la préservation des structures et textures locales, et un objectif d'Alignement par Similarité Cosinus qui impose la cohérence sémantique tout en permettant des magnitudes de caractéristiques flexibles pour la rétention des détails. De plus, en nous appuyant sur l'observation que les représentations des modèles de base basés sur l'apprentissage auto-supervisé (SSL) résident intrinsèquement sur une hypersphère, nous utilisons le *Riemannian Flow Matching* pour entraîner un *Diffusion Transformer* (DiT) directement sur cette variété latente sphérique. Les expériences sur ImageNet-1K démontrent que notre approche atteint une qualité de reconstruction à la pointe de l'état de l'art, avec un rFID de 0.37 et un PSNR de 26.2 dB, tout en maintenant un fort alignement sémantique avec le VFM préentraîné. Notamment, notre DiT basé sur le *Riemannian Flow Matching* présente une convergence efficace, atteignant un gFID de 3.47 après 80 époques.
L'animation d'image de personnage vise à synthétiser des vidéos de haute fidélité en transférant le mouvement d'une séquence motrice vers une image de référence statique. Malgré les progrès récents, les méthodes existantes souffrent de deux défis fondamentaux : (1) des stratégies d'injection de mouvement sous-optimales qui créent un compromis entre la préservation de l'identité et la cohérence du mouvement, se manifestant comme un "effet de balançoire", et (2) une dépendance excessive à des prérequis de pose explicites (par exemple, des squelettes), qui capturent inadéquatement la dynamique complexe et entravent la généralisation à des caractères arbitraires non humanoïdes. Pour relever ces défis, nous présentons DreamActor-M2, un cadre d'animation universel qui réinvente le conditionnement du mouvement comme un problème d'apprentissage en contexte. Notre approche suit un paradigme en deux étages. Premièrement, nous comblons l'écart de modalité d'entrée en fusionnant l'apparence de référence et les indices de mouvement dans un espace latent unifié, permettant au modèle de raisonner conjointement sur l'identité spatiale et la dynamique temporelle en exploitant l'a priori génératif des modèles fondateurs. Deuxièmement, nous introduisons un pipeline de synthèse de données auto-amorcé qui sélectionne des paires d'entraînement pseudo inter-identités, facilitant une transition fluide du contrôle dépendant de la pose vers une animation RGB directe de bout en bout. Cette stratégie améliore significativement la généralisation à divers personnages et scénarios de mouvement. Pour faciliter une évaluation complète, nous introduisons en outre AW Bench, un benchmark polyvalent couvrant un large spectre de types de personnages et de scénarios de mouvement. Des expériences approfondies démontrent que DreamActor-M2 atteint des performances à l'état de l'art, offrant une fidélité visuelle supérieure et une robuste généralisation inter-domaines. Page du projet : https://grisoon.github.io/DreamActor-M2/
L’apprentissage par renforcement à partir de retours humains (RLHF) est une technique essentielle pour aligner les grands modèles de langage (LLM) sur les préférences humaines, mais il reste vulnérable à la sur-optimisation de la récompense, phénomène dans lequel les modèles de politique surapprennent le modèle de récompense et exploitent des motifs de récompense fallacieux plutôt que de capturer fidèlement l’intention humaine. Les atténuations précédentes reposent principalement sur des informations sémantiques de surface et peinent à résoudre efficacement le désalignement entre le modèle de récompense (RM) et le modèle de politique causé par les décalages continus de distribution de la politique. Cela entraîne inévitablement un écart croissant des récompenses, aggravant la sur-optimisation. Pour contourner ces limitations, nous présentons R2M (Real-Time Aligned Reward Model), un nouveau cadre RLHF léger. R2M va au-delà des modèles de récompense classiques qui dépendent uniquement des représentations sémantiques d’un LLM préentraîné. Il exploite plutôt les états cachés évolutifs de la politique (appelés retours de politique) pour s’aligner sur le décalage de distribution en temps réel de la politique durant le processus d’apprentissage par renforcement. Ces travaux ouvrent une nouvelle voie prometteuse pour améliorer les performances des modèles de récompense via l’utilisation en temps réel des retours des modèles de politique.
L'apprentissage par renforcement avec récompenses vérifiables est devenu un paradigme puissant pour l'entraînement d'agents intelligents. Cependant, les méthodes existantes utilisent généralement des récompenses binaires qui ne parviennent pas à capturer les différences de qualité entre les trajectoires atteignant des résultats identiques, négligeant ainsi la diversité potentielle au sein de l'espace des solutions. Inspirés par le concept du « sweet spot » (point idéal) au tennis – la région centrale de la raquette produisant les effets de frappe optimaux – nous introduisons Sweet Spot Learning (SSL), un nouveau cadre fournissant un guidage différencié pour l'optimisation des agents. SSL suit un principe simple mais efficace : des récompenses progressivement amplifiées et hiérarchisées guident les politiques vers la région « sweet spot » de l'espace des solutions. Ce principe s'adapte naturellement à diverses tâches : les tâches de perception visuelle exploitent une modélisation hiérarchique basée sur la distance pour récompenser la proximité, tandis que les tâches de raisonnement complexe récompensent les progrès incrémentaux vers des solutions prometteuses. Nous démontrons théoriquement que SSL préserve l'ordonnancement des solutions optimales et améliore le rapport signal-sur-bruit du gradient, favorisant ainsi une optimisation plus dirigée. Des expériences approfondies sur des tâches de perception d'interface graphique, de planification à court/long terme et de raisonnement complexe montrent des améliorations constantes par rapport à des bases de référence solides sur 12 benchmarks, atteignant des gains d'efficacité d'échantillonnage allant jusqu'à 2,5 fois et une transférabilité inter-tâches effective. Notre travail établit SSL comme un principe général pour l'entraînement d'agents compétents et robustes.
Les grands modèles de langage audio (LALM) autorégressifs (AR) tels que Qwen-2.5-Omni ont obtenu des performances solides en compréhension et interaction audio, mais leur mise à l'échelle reste coûteuse en données et en calcul, tandis que le décodage strictement séquentiel limite l'efficacité de l'inférence. Les modèles de langage à diffusion (dLLM) ont récemment démontré leur capacité à exploiter efficacement des données d'entraînement limitées, et les travaux antérieurs sur DIFFA indiquent que le remplacement d'une architecture AR par une contrepartie à diffusion peut considérablement améliorer la compréhension audio dans des conditions comparables, bien qu'à une échelle préliminaire sans ajustement instructionnel à grande échelle, alignement des préférences ou schémas de décodage pratiques. Nous présentons DIFFA-2, un LALM pratique basé sur la diffusion pour la compréhension audio générale. DIFFA-2 améliore l'encodeur vocal, utilise des adaptateurs sémantiques et acoustiques doubles, et est entraîné avec un curriculum en quatre étapes combinant alignement sémantique et acoustique, ajustement fin supervisé à grande échelle et optimisation des préférences à variance réduite, en utilisant exclusivement des corpus entièrement open-source. Les expériences sur MMSU, MMAU et MMAR montrent que DIFFA-2 améliore constamment DIFFA et rivalise avec les LALM AR performants dans des budgets d'entraînement pratiques, confirmant que la modélisation par diffusion constitue une architecture viable pour la compréhension audio à grande échelle. Notre code est disponible à l'adresse https://github.com/NKU-HLT/DIFFA.git.
Les grands modèles de langage (LLM) démontrent des capacités remarquables, mais leur prédiction stochastique token par token génère des incohérences logiques et du détournement de récompense que les systèmes symboliques formels évitent. Pour combler cet écart, nous introduisons un cadre guidé par la vérification logique formelle qui entrelace dynamiquement la vérification symbolique formelle avec le processus de génération en langue naturelle, fournissant un retour en temps réel pour détecter et rectifier les erreurs au fur et à mesure qu'elles se produisent. Contrairement aux méthodes neuro-symboliques antérieures limitées par une validation passive a posteriori, notre approche pénalise activement les erreurs de raisonnement intermédiaires durant l'enchaînement déductif. Nous opérationnalisons ce cadre via un nouveau pipeline d'entraînement en deux étapes qui synergise un fine-tuning supervisé guidé par vérification logique formelle et une optimisation par politique. Une évaluation approfondie sur six benchmarks couvrant les raisonnements mathématique, logique et général démontre que nos modèles de 7B et 14B paramètres surpassent les meilleures méthodes de référence par des marges moyennes de 10,4 % et 14,2 % respectivement. Ces résultats valident que la vérification formelle peut servir de mécanisme scalable pour repousser significativement les limites de performance du raisonnement avancé des LLM.
La génération d'images basée sur VQ suit généralement un pipeline en deux étapes : un tokenizer encode les images en tokens discrets, puis un modèle génératif apprend leurs dépendances pour la reconstruction. Cependant, l'amélioration de la tokenisation dans la première étape n'améliore pas nécessairement la génération en deuxième étape, car les méthodes existantes échouent à contraindre les dépendances entre tokens. Cette inadéquation force le modèle génératif à apprendre à partir de distributions non ordonnées, entraînant des biais et une faible cohérence. Pour résoudre ce problème, nous proposons une tokenisation visuelle native, qui impose des dépendances causales pendant la tokenisation. Sur cette base, nous présentons NativeTok, un cadre qui permet une reconstruction efficace tout en intégrant des contraintes relationnelles dans les séquences de tokens. NativeTok se compose de : (1) un Meta Image Transformer (MIT) pour la modélisation latente d'images, et (2) un Mixture of Causal Expert Transformer (MoCET), où chaque bloc expert léger génère un seul token conditionné par les tokens antérieurs et les caractéristiques latentes. Nous concevons en outre une stratégie d’apprentissage natif hiérarchique qui ne met à jour que les nouveaux blocs experts, garantissant ainsi l'efficacité de l'entraînement. Des expériences approfondies démontrent l'efficacité de NativeTok.
Les grands modèles de langage (LLM) peuvent appeler efficacement des outils, mais leur exécution multi-tours reste fragile : suite à une erreur d'appel d'outil, les modèles plus petits dégénèrent souvent en des ré-invocations invalides et répétitives, échouant à interpréter les retours d'erreur et à s'auto-corriger. Cette fragilité entrave le déploiement fiable dans des scénarios réels, où les erreurs d'exécution sont intrinsèquement inévitables lors des procédures d'interaction avec les outils. Nous identifions une limitation clé des approches actuelles : l'apprentissage par renforcement (RL) standard traite les erreurs comme des récompenses négatives éparses, ne fournissant aucune guidance sur la manière de récupérer, tandis que les ensembles de données synthétiques de correction d'erreurs pré-collectés souffrent d'un décalage de distribution avec les modes d'erreur *on-policy* du modèle. Pour combler cette lacune, nous proposons Fission-GRPO, un cadre qui convertit les erreurs d'exécution en une supervision corrective dans la boucle d'entraînement par RL. Notre mécanisme central fissionne chaque trajectoire échouée en une nouvelle instance d'entraînement en l'augmentant avec un retour diagnostique d'un Simulateur d'Erreur *finetuné*, puis rééchantillonne des *rollouts* de récupération *on-policy*. Cela permet au modèle d'apprendre des erreurs précises qu'il commet durant l'exploration, plutôt qu'à partir de cas d'erreur statiques pré-collectés. Sur BFCL v4 Multi-Turn, Fission-GRPO améliore le taux de récupération d'erreur de Qwen3-8B de 5.7% en valeur absolue et, crucialement, produit un gain de précision globale de 4% (de 42.75% à 46.75%) par rapport à GRPO, surpassant les agents spécialisés dans l'utilisation d'outils.
Si les grands modèles de langage (LLM) ont montré des potentialités en génie logiciel, leur application aux tests unitaires reste largement confinée à la génération isolée de tests ou à la prédiction d'oracles, négligeant le défi plus large de la maintenance des suites de tests. Nous présentons TAM-Eval (Test Automated Maintenance Evaluation), un cadre d'évaluation et un benchmark conçus pour évaluer les performances des modèles dans trois scénarios fondamentaux de maintenance des tests : la création, la réparation et la mise à jour des suites de tests. Contrairement aux travaux antérieurs limités à des tâches au niveau fonction, TAM-Eval opère au niveau du fichier de test, tout en maintenant l'accès au contexte complet du dépôt lors de l'évaluation isolée, reflétant mieux les flux de travail réels de maintenance. Notre benchmark comprend 1 539 scénarios extraits et validés automatiquement à partir de projets Python, Java et Go. TAM-Eval prend en charge l'évaluation indépendante du système pour les LLM bruts et les workflows agentiques, en utilisant un protocole sans référence basé sur le taux de réussite des suites de tests, la couverture de code et les tests de mutation. Les résultats empiriques indiquent que les LLM de pointe ont des capacités limitées dans les processus réalistes de maintenance des tests et n'apportent que des améliorations marginales à l'efficacité des tests. Nous publions TAM-Eval en tant que cadre open-source pour soutenir les futures recherches sur les tests logiciels automatisés. Nos données et notre code sont disponibles publiquement à l'adresse https://github.com/trndcenter/TAM-Eval.
Nous présentons RM-RF, un modèle de récompense léger pour l'évaluation sans exécution de tests unitaires générés automatiquement. Au lieu de compiler et d'exécuter de manière répétée des tests candidats, RM-RF prédit - uniquement à partir du code source et du code de test - trois signaux dérivés de l'exécution : (1) si la suite de tests augmentée compile et s'exécute avec succès, (2) si les cas de test générés augmentent la couverture de code, et (3) si les cas de test générés améliorent le taux de destruction des mutations. Pour entraîner et évaluer RM-RF, nous avons constitué un jeu de données multilingue (Java, Python, Go) de fichiers focaux, de fichiers de test et d'ajouts de tests candidats étiquetés par un pipeline basé sur l'exécution, et nous publions un jeu de données associé ainsi qu'une méthodologie pour l'évaluation comparative. Nous avons testé plusieurs familles de modèles et régimes d'ajustement (zero-shot, fine-tuning complet et PEFT via LoRA), atteignant un F1 moyen de 0,69 sur les trois cibles. Comparé aux instruments conventionnels de compilation et d'exécution, RM-RF offre une latence et un coût d'infrastructure substantiellement réduits tout en fournissant une fidélité prédictive compétitive, permettant un retour d'information rapide et évolutif pour la génération de tests à grande échelle et l'optimisation de code basée sur l'apprentissage par renforcement.
Bien que les systèmes multi-agents aient montré des potentialités pour traiter des tâches complexes via la spécialisation, le réglage fin simultané de multiples agents se heurte à deux défis majeurs : (1) l'attribution du crédit entre les agents, et (2) l'efficacité en échantillons des rollouts multi-agents coûteux. Dans ce travail, nous proposons le réglage fin de systèmes multi-agents avec des récompenses de processus par action issues de retours d'IA (MAPPA) pour résoudre ces deux problèmes. En attribuant le crédit à des actions individuelles d'agents plutôt qu'uniquement à la fin de la tâche, MAPPA permet une supervision fine sans vérité terrain tout en extrayant le signal d'entraînement maximal de chaque rollout. Nous démontrons notre approche sur des problèmes de mathématiques compétitives et des tâches d'analyse de données assistées par outils. Sur des problèmes mathématiques inédits, MAPPA obtient des gains de +5,0 à 17,5 pp sur l'AIME et de +7,8 à 17,2 pp sur l'AMC. Pour les tâches d'analyse de données, notre méthode améliore le taux de réussite de +12,5 pp tandis que les métriques de qualité s'améliorent jusqu'à 30 %, validant qu'une supervision par action peut conduire à des améliorations sur différents systèmes multi-agents et domaines. En relevant ces défis, notre travail constitue une première étape vers la mise à l'échelle de systèmes multi-agents pour des tâches complexes et à long horizon avec une supervision humaine minimale.
Les agents de recherche approfondie alimentés par de grands modèles de langage ont démontré de solides capacités en matière de récupération multi-étapes, de raisonnement et d'exécution de tâches à long terme. Cependant, leurs échecs pratiques proviennent souvent de l'absence de mécanismes pour surveiller et réguler les états de raisonnement et de récupération à mesure que les tâches évoluent dans l'incertitude. Les enseignements des neurosciences cognitives suggèrent que la métacognition humaine est organisée hiérarchiquement, intégrant une détection rapide des anomalies avec une réflexion déclenchée sélectivement et guidée par l'expérience. Dans ce travail, nous proposons la Recherche Approfondie avec Surveillance Métacognitive (DS-MCM), un cadre de recherche approfondie augmenté d'un mécanisme explicite et hiérarchique de surveillance métacognitive. DS-MCM intègre un Moniteur de Cohérence Rapide, qui effectue des vérifications légères de l'alignement entre les preuves externes et la confiance interne du raisonnement, et un Moniteur Lent Guidé par l'Expérience, qui est activé sélectivement pour guider une intervention corrective basée sur la mémoire d'expérience issue des trajectoires historiques de l'agent. En intégrant la surveillance directement dans la boucle de raisonnement-récupération, DS-MCM détermine à la fois quand une intervention est justifiée et comment les actions correctives doivent être éclairées par l'expérience antérieure. Les expériences menées sur plusieurs benchmarks de recherche approfondie et modèles de base démontrent que DS-MCM améliore constamment les performances et la robustesse.
Les études par sondage visent à déterminer quelles informations sont encodées dans les représentations d'une couche d'un LLM figé, en entraînant un prédicteur léger sur celles-ci. Au-delà de l'analyse, les sondes sont souvent utilisées de manière opérationnelle dans des pipelines de type « sonder puis orienter » : un vecteur de concept appris est extrait d'une sonde et injecté via un pilotage additif des activations en l'ajoutant à une représentation de couche durant la passe avant. L'efficacité de ce pipeline repose sur l'estimation de vecteurs de concept qui sont précis, stablement directionnels sous ablation, et peu coûteux à obtenir. Motivés par ces objectifs, nous proposons RAPTOR (Ridge-Adaptive Logistic Probe), une simple sonde logistique régularisée par L2 dont la force de ridge ajustée par validation produit des vecteurs de concept à partir de poids normalisés. À travers de nombreuses expériences sur des LLM fine-tunés par instructions et des ensembles de données de concepts rédigés par des humains, RAPTOR égal ou dépasse des bases de référence solides en précision tout en atteignant une stabilité directionnelle concurrentielle et un coût d'entraînement substantiellement inférieur ; ces résultats quantitatifs sont étayés par des démonstrations qualitatives de pilotage en aval. Enfin, en utilisant le théorème min-max gaussien convexe (Convex Gaussian Min-max Theorem, CGMT), nous fournissons une caractérisation mécanistique de la régression logistique ridge dans un modèle idéalisé gaussien maître-élève dans le régime haute dimension avec peu d'exemples, expliquant comment la force de pénalité médie la précision de la sonde et la stabilité du vecteur de concept, et produisant des prédictions structurelles qui s'alignent qualitativement sur les tendances observées sur les embeddings réels de LLM.
Le raisonnement en chaîne (Chain-of-Thought, CoT) permet aux grands modèles de langage (LLM) de résoudre des problèmes complexes, mais il reste limité par le coût computationnel et l'effondrement des chemins de raisonnement lorsqu'il est ancré dans des espaces de tokens discrets. Les approches récentes de raisonnement latent tentent d'optimiser l'efficacité en effectuant le raisonnement au sein d'états cachés continus. Cependant, ces méthodes fonctionnent généralement comme des mappings opaques de bout en bout, des étapes de raisonnement explicites vers des états latents, et nécessitent souvent un nombre prédéfini d'étapes latentes lors de l'inférence. Dans ce travail, nous présentons PLaT (Planning with Latent Thoughts), un cadre qui reformule le raisonnement latent comme un processus de planification en découplant fondamentalement le raisonnement de la verbalisation. Nous modélisons le raisonnement comme une trajectoire déterministe d'états de planification latents, tandis qu'un Décodeur distinct ancre ces pensées dans le texte lorsque cela est nécessaire. Ce découplage permet au modèle de déterminer dynamiquement quand mettre fin au raisonnement plutôt que de dépendre d'hyperparamètres fixes. Les résultats empiriques sur des benchmarks mathématiques révèlent un compromis distinct : bien que PLaT obtienne une précision gloutonne inférieure à celle des modèles de référence, il démontre une scalabilité supérieure en termes de diversité de raisonnement. Cela indique que PLaT apprend un espace de solutions plus robuste et plus large, offrant une base transparente et évolutive pour la recherche au moment de l'inférence.
Les environnements numériques (distribution des données) étant en constante évolution, avec l'arrivée continue de nouvelles données d'interface graphique introduisant de nouveaux domaines ou résolutions, les agents entraînés sur des environnements statiques voient leurs performances se dégrader. Dans ce travail, nous introduisons les Agents d'Interface Graphique Continue, une nouvelle tâche qui exige que les agents d'interface graphique réalisent un apprentissage continu face à des domaines et des résolutions changeants. Nous constatons que les méthodes existantes échouent à maintenir un ancrage stable lorsque les distributions d'interface graphique évoluent au fil du temps, en raison de la diversité des points d'interaction de l'interface utilisateur et des régions dans des scénarios fluctuants. Pour résoudre ce problème, nous introduisons l'Ancrage d'Interface Graphique en Flux (GUI-AiF), un nouveau cadre de réglage fin par renforcement qui stabilise l'apprentissage continu grâce à deux nouvelles récompenses : la Récompense de Point d'Ancrage en Flux (APR-iF) et la Récompense de Région d'Ancrage en Flux (ARR-iF). Ces récompenses guident les agents pour s'aligner sur les points et régions d'interaction changeants, atténuant la tendance des stratégies de récompense existantes à suradapter aux indices d'ancrage statiques (par exemple, les coordonnées fixes ou les échelles des éléments). Des expériences approfondies montrent que GUI-AiF surpasse les méthodes de référence de l'état de l'art. Notre travail établit le premier cadre d'apprentissage continu pour les agents d'interface graphique, révélant le potentiel inexploité du réglage fin par renforcement pour les Agents d'Interface Graphique Continue.
Les progrès récents des modèles de diffusion et d'appariement de flux ont mis en lumière un changement dans la cible de prédiction privilégiée – passant de la prédiction du bruit (ε) et de la vitesse (v) à la prédiction directe des données (x) – particulièrement dans les contextes de haute dimension. Cependant, une explication formelle des raisons pour lesquelles la cible optimale dépend des propriétés spécifiques des données reste insaisissable. Dans ce travail, nous proposons un cadre théorique basé sur une formulation de prédiction généralisée qui accommode des cibles de sortie arbitraires, dont les prédictions ε, v et x sont des cas particuliers. Nous dérivons la relation analytique entre la géométrie des données et la cible de prédiction optimale, offrant une justification rigoureuse expliquant pourquoi la prédiction x devient supérieure lorsque la dimension ambiante dépasse significativement la dimension intrinsèque des données. Par ailleurs, bien que notre théorie identifie la dimensionnalité comme le facteur gouvernant la cible de prédiction optimale, la dimension intrinsèque de données contraintes sur une variété est généralement intraitable à estimer en pratique. Pour combler cette lacune, nous proposons k-Diff, un cadre qui emploie une approche pilotée par les données pour apprendre directement le paramètre de prédiction optimal k à partir des données, contournant ainsi le besoin d'une estimation explicite de la dimension. Des expériences approfondies en génération d'images dans l'espace latent et l'espace pixel démontrent que k-Diff surpasse constamment les modèles de référence à cible fixe across différentes architectures et échelles de données, fournissant une approche principielle et automatisée pour améliorer les performances génératives.
L'apprentissage de représentation est central pour de nombreuses tâches en aval telles que la recherche, le clustering, la classification et le réordonnancement. Les encodeurs de séquences à la pointe de la technologie transforment généralement une séquence de tokens de longueur variable en un vecteur unique à l'aide d'un opérateur de pooling, le plus souvent un token spécial [CLS] ou un pooling moyen sur les embeddings de tokens. Dans cet article, nous identifions des faiblesses systématiques de ces stratégies de pooling : le token [CLS] a tendance à concentrer l'information vers les positions initiales de la séquence et peut sous-représenter des preuves distribuées, tandis que le pooling moyen peut diluer les signaux locaux saillants, conduisant parfois à une moins bonne performance sur des contextes courts. Pour résoudre ces problèmes, nous introduisons le Landmark (LMK) pooling, qui partitionne une séquence en segments, insère des tokens repères entre les segments, et forme la représentation finale par un pooling moyen des embeddings de ces tokens repères. Ce mécanisme simple améliore l'extrapolation aux contextes longs sans sacrifier les caractéristiques locales saillantes, au prix de l'introduction d'un petit nombre de tokens spéciaux. Nous démontrons empiriquement que le LMK pooling égalise les méthodes existantes sur les tâches de recherche en contexte court et apporte des améliorations substantielles sur les tâches en contexte long, ce qui en fait une alternative pratique et évolutive aux méthodes de pooling existantes.
La distillation des connaissances (KD) est de plus en plus adoptée pour transférer les capacités des grands modèles linguistiques vers des modèles plus petits, offrant des améliorations significatives en termes d'efficacité et d'utilité tout en surpassant souvent l'affinage standard. Au-delà des performances, la KD est également explorée comme mécanisme de préservation de la vie privée pour atténuer le risque de fuite des données d'entraînement. Bien que la mémorisation des données d'entraînement ait été largement étudiée dans les contextes standard de pré-entraînement et d'affinage, sa dynamique dans un cadre de distillation des connaissances reste mal comprise. Dans ce travail, nous étudions la mémorisation à travers le pipeline de KD en utilisant trois familles de grands modèles linguistiques (Pythia, OLMo-2, Qwen-3) et trois jeux de données (FineWeb, Wikitext, Nemotron-CC-v2). Nous constatons : (1) les modèles distillés mémorisent significativement moins de données d'entraînement que l'affinage standard (réduisant la mémorisation de plus de 50 %) ; (2) certains exemples sont intrinsèquement plus faciles à mémoriser et représentent une large fraction de la mémorisation pendant la distillation (plus de ~95 %) ; (3) la mémorisation de l'élève est prévisible avant la distillation en utilisant des caractéristiques basées sur l'entropie zlib, la divergence KL et la perplexité ; et (4) bien que les distillations douce et dure aient des taux de mémorisation globaux similaires, la distillation dure présente un risque plus élevé : elle hérite 2,7 fois plus d'exemples spécifiques à l'enseignant que la distillation douce. Globalement, nous démontrons que la distillation peut offrir à la fois une meilleure généralisation et des risques de mémorisation réduits par rapport à l'affinage standard.
L'alignement vision-langage à vocabulaire ouvert nécessite un appariement précis sous faible supervision. Pourtant, les méthodes existantes reposent soit sur des embeddings de phrases globaux manquant d'expressivité fine, soit introduisent un alignement au niveau des tokens avec une supervision explicite ou des architectures d'attention croisée lourdes. Nous proposons ExpAlign, un cadre d'alignement vision-langage théoriquement fondé, construit sur une formulation principlée d'apprentissage multi-instances. ExpAlign introduit une tête d'alignement par espérance qui effectue un pooling MIL doux par attention sur les similarités token-région, permettant une sélection implicite des tokens et des instances sans annotations supplémentaires. Pour stabiliser davantage l'apprentissage de l'alignement, nous développons un schéma de régularisation par cohérence multi-échelle basée sur l'énergie, incluant un objectif contrastif multi-positif Top-K et un Objectif de Cohérence Géométrique dérivé d'une minimisation d'énergie libre sous contrainte lagrangienne. Des expériences approfondies montrent qu'ExpAlign améliore constamment la détection à vocabulaire ouvert et la segmentation d'instances zero-shot, particulièrement sur les catégories à longue traîne. Plus notablement, il atteint un AP_r de 36.2 sur le jeu LVIS minival, surpassant d'autres méthodes state-of-the-art à échelle de modèle comparable, tout en restant léger et efficace à l'inférence.
La conduite autonome de bout en bout exploite de plus en plus le pré-entraînement vidéo auto-supervisé pour apprendre des représentations de planification transférables. Cependant, le pré-entraînement de modèles mondes vidéo pour la compréhension de scène n'a jusqu'à présent apporté que des améliorations limitées. Cette limitation est aggravée par l'ambiguïté inhérente à la conduite : chaque scène ne fournit typiquement qu'une seule trajectoire humaine, rendant difficile l'apprentissage de comportements multimodaux. Dans ce travail, nous proposons Drive-JEPA, un cadre qui intègre l'Architecture Prédictive à Codage Conjoint Vidéo (V-JEPA) avec une distillation de trajectoires multimodales pour la conduite de bout en bout. Premièrement, nous adaptons V-JEPA pour la conduite de bout en bout, en pré-entraînant un encodeur ViT sur de grandes vidéos de conduite pour produire des représentations prédictives alignées avec la planification de trajectoire. Deuxièmement, nous introduisons un planificateur centré sur les propositions qui distille des trajectoires diverses générées par simulateur aux côtés des trajectoires humaines, avec un mécanisme de sélection sensible à la quantité de mouvement pour promouvoir un comportement stable et sûr. Lorsqu'elle est évaluée sur NAVSIM, la représentation V-JEPA combinée à un décodeur simple basé sur un transformateur surpasse les méthodes antérieures de 3 PDMS dans le cadre sans perception. Le cadre complet Drive-JEPA atteint 93,3 PDMS sur la version 1 et 87,8 EPDMS sur la version 2, établissant un nouvel état de l'art.
Dans l'élagage de réseaux de neurones, l'hypothèse du billet gagnant (Lottery Ticket Hypothesis) postule que les grands réseaux contiennent des sous-réseaux parcimonieux, ou « billets gagnants », qui peuvent être entraînés isolément pour atteindre des performances équivalentes à celles de leurs contreparties denses. Cependant, la plupart des approches existantes supposent l'existence d'un unique billet gagnant universel partagé par toutes les entrées, ignorant ainsi l'hétérogénéité intrinsèque des données réelles. Dans ce travail, nous proposons « Router le billet gagnant » (Routing the Lottery, RTL), un cadre d'élagage adaptatif qui découvre plusieurs sous-réseaux spécialisés, appelés « billets adaptatifs », chacun étant conçu pour une classe, un cluster sémantique ou une condition environnementale spécifique. Sur divers jeux de données et tâches, RTL surpasse systématiquement les modèles de référence à modèle unique ou multiples en termes de précision équilibrée et de rappel, tout en utilisant jusqu'à 10 fois moins de paramètres que des modèles indépendants et en présentant un alignement sémantique. Par ailleurs, nous identifions l'effondrement des sous-réseaux, une baisse de performance sous un élagage agressif, et introduisons un score de similarité des sous-réseaux qui permet un diagnostic sans étiquette de la sur-parcimonie. Globalement, nos résultats reconsidèrent l'élagage comme un mécanisme d'alignement de la structure du modèle avec l'hétérogénéité des données, ouvrant la voie à un apprentissage profond plus modulaire et conscient du contexte.
Les modèles de langage de grande taille multimodaux (MLLM) sont un axe majeur de la recherche récente en IA. Cependant, la plupart des travaux antérieurs se concentrent sur la compréhension d'images statiques, tandis que leur capacité à traiter des données audio-vidéo séquentielles reste peu explorée. Cette lacune souligne la nécessité d'un benchmark de haute qualité pour évaluer systématiquement les performances des MLLM dans un cadre réaliste. Nous présentons SONIC-O1, un benchmark complet et entièrement vérifié par des humains, couvrant 13 domaines conversationnels réels avec 4 958 annotations et des métadonnées démographiques. SONIC-O1 évalue les MLLM sur des tâches clés, incluant la synthèse ouverte, la réponse à des questions à choix multiples (QCM) et la localisation temporelle avec des justifications raisonnées. Les expériences sur des modèles propriétaires et open source révèlent des limitations. Bien que l'écart de performance en précision sur les QCM entre deux familles de modèles soit relativement faible, nous observons une différence substantielle de 22,6 % dans la localisation temporelle entre le meilleur modèle propriétaire et le meilleur modèle open source. Les performances se dégradent en outre selon les groupes démographiques, indiquant des disparités persistantes dans le comportement des modèles. Globalement, SONIC-O1 fournit une suite d'évaluation ouverte pour une compréhension multimodale ancrée temporellement et socialement robuste. Nous publions SONIC-O1 pour la reproductibilité et la recherche : Page du projet : https://vectorinstitute.github.io/sonic-o1/ Jeu de données : https://huggingface.co/datasets/vector-institute/sonic-o1 Github : https://github.com/vectorinstitute/sonic-o1 Classement : https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Nous présentons KAPSO, un cadre modulaire pour la synthèse et l'optimisation autonomes de programmes. Étant donné un objectif en langage naturel et une méthode d'évaluation, KAPSO effectue itérativement des phases d'idéation, de synthèse et de modification de code, d'exécution, d'évaluation et d'apprentissage pour améliorer un artefact exécutable en vue d'objectifs mesurables. Plutôt que de considérer la synthèse comme un point final, KAPSO l'utilise comme un opérateur au sein d'une boucle d'optimisation à long terme, où les progrès sont définis par les résultats de l'évaluateur. KAPSO cible les échecs courants à long terme des agents de codage, tels que la perte de l'état expérimental, le débogage fragile et la faible réutilisation de l'expertise métier, en intégrant trois composants étroitement couplés. Premièrement, un moteur d'expérimentation natif git isole chaque tentative dans une branche, produisant des artefacts reproductibles et préservant la traçabilité entre les itérations. Deuxièmement, un système de connaissances ingère des sources hétérogènes, incluant des dépôts, des playbooks internes et des ressources externes organisées telles que de la documentation, des articles scientifiques et des résultats de recherche web, puis les structure en une représentation organisée qui permet une recherche basée sur les workflows, les implémentations et les contraintes d'environnement. Troisièmement, une couche de mémoire cognitive coordonne la récupération d'information et maintient un stock épisodique de leçons réutilisables, distillées à partir des traces d'expérimentation (journaux d'exécution, différences de code et retours de l'évaluateur), réduisant ainsi la répétition des modes d'erreur et accélérant la convergence. Nous avons évalué KAPSO sur MLE-Bench (compétitions de ML de type Kaggle) et ALE-Bench (optimisation heuristique de type AtCoder), et rapportons les performances de bout en bout. Code disponible à l'adresse : https://github.com/Leeroo-AI/kapso
Les motifs d'attention jouent un rôle crucial dans l'entraînement et l'inférence des grands modèles de langage. Les travaux antérieurs ont identifié des motifs individuels tels que les têtes de récupération, les têtes d'absorption et les traces diagonales, mais ces observations demeurent fragmentées et manquent d'une explication unificatrice. Pour combler cette lacune, nous présentons l'Analyse de Prévisibilité des Motifs d'Attention Temporelle (TAPPA), un cadre unificateur qui explique la diversité des motifs d'attention en analysant leurs formulations mathématiques sous-jacentes d'une perspective temporellement continue. TAPPA approfondit à la fois la compréhension du comportement de l'attention et guide les approches d'accélération de l'inférence. Plus précisément, TAPPA caractérise les motifs d'attention comme étant soit des motifs prévisibles avec des régularités claires, soit des motifs imprévisibles apparaissant effectivement aléatoires. Notre analyse révèle en outre que cette distinction peut s'expliquer par le degré d'auto-similarité des requêtes le long de la dimension temporelle. En nous concentrant sur les motifs prévisibles, nous fournissons une analyse mathématique détaillée de trois cas représentatifs à travers l'effet conjoint des requêtes, des clés et des Embeddings Positionnels Rotatifs (RoPE). Nous validons TAPPA en appliquant ses insights à des tâches de compression du cache KV et d'élagage de modèles de langage. Pour ces tâches, une métrique simple inspirée par TAPPA améliore constamment les performances par rapport aux méthodes de référence. Le code est disponible à l'adresse https://github.com/MIRALab-USTC/LLM-TAPPA.
Nous introduisons le Test de Turing de Personnalisation Visuelle (VTPV), un nouveau paradigme pour évaluer la personnalisation visuelle contextuelle basée sur l'indiscernabilité perceptuelle plutôt que sur la réplication d'identité. Un modèle réussit le VTPV si sa production (image, vidéo, actif 3D, etc.) est indiscernable, pour un humain ou un modèle de langage visuel (MLV) calibré, d'un contenu qu'une personne donnée pourrait vraisemblablement créer ou partager. Pour opérationnaliser le VTPV, nous présentons le Cadre VTPV, intégrant un benchmark de 10 000 personae (VTPV-Bench), un générateur augmenté par récupération visuelle (GARV), et le Score VTPV, une métrique textuelle calibrée sur les jugements humains et des MLV. Nous montrons une forte corrélation entre les évaluations humaines, par MLV et par VTPV, validant le Score VTPV comme un proxy perceptuel fiable. Les expériences démontrent que le GARV atteint le meilleur équilibre alignement-originalité, offrant une base évolutive et respectueuse de la vie privée pour l'IA générative personnalisée.
À l'ère post-Dennard, l'optimisation des systèmes embarqués nécessite de naviguer des compromis complexes entre efficacité énergétique et latence. Le réglage heuristique traditionnel s'avère souvent inefficace dans ces paysages de recherche de haute dimension et non lisses. Dans ce travail, nous proposons un cadre d'Optimisation Bayesienne utilisant des Processus Gaussiens pour automatiser la recherche des configurations d'ordonnancement optimales sur des architectures hétérogènes multi-cœurs. Nous abordons explicitement la nature multi-objectif du problème en approximant la Frontière de Pareto entre l'énergie et le temps. De plus, en intégrant une Analyse de Sensibilité (fANOVA) et en comparant différents noyaux de covariance (par exemple, Matérn contre RBF), nous apportons une interprétabilité physique au modèle boîte noire, révélant les paramètres matériels dominants qui pilotent la performance du système.
Une faible quantité d'informations vérifiées sur l'objectif peut-elle orienter le prétraitement auto-supervisé coûteux des modèles de fondation ? Le prétraitement standard optimise un objectif proxy fixe (par exemple, la prédiction du token suivant), ce qui peut allouer de manière sous-optimale les ressources de calcul par rapport aux capacités en aval souhaitées. Nous introduisons V-Pretraining : une méthode agnostique à la modalité, basée sur la valeur, pour un prétraitement continu contrôlé, dans laquelle un concepteur de tâches léger remodelle la tâche de prétraitement pour maximiser la valeur de chaque étape de gradient. Par exemple, considérons l'apprentissage auto-supervisé (SSL) avec augmentation d'échantillons. Le concepteur de tâches de V-Pretraining sélectionne des tâches de prétraitement (par exemple, des augmentations) pour lesquelles le gradient de la perte de prétraitement est aligné avec un gradient calculé sur une tâche en aval (par exemple, la segmentation d'image). Cela aide à orienter le prétraitement vers les capacités en aval pertinentes. Notamment, le modèle prétraité n'est jamais mis à jour sur les étiquettes de la tâche en aval ; celles-ci sont utilisées uniquement pour façonner la tâche de prétraitement. Avec des budgets de mise à jour de l'apprenant équivalents, le V-Pretraining appliqué à des modèles de langage de 0,5 à 7 milliards de paramètres améliore le raisonnement (GSM8K test Pass@1) jusqu'à 18 % relativement par rapport à la prédiction standard du token suivant, en utilisant seulement 12 % des exemples d'entraînement de GSM8K comme rétroaction. En vision par SSL, nous améliorons les résultats de l'état de l'art sur ADE20K jusqu'à 1,07 mIoU et réduisons le RMSE de NYUv2 tout en améliorant la précision linéaire sur ImageNet, et nous fournissons des preuves préliminaires d'une meilleure efficacité des tokens lors d'un prétraitement continu.