HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

41 papers found

PaperBanana : Automatisation de l'Illustration Académique pour les Chercheurs en IA
PaperBanana: Automating Academic Illustration for AI Scientists

Jan 30

ByDawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon

201

Malgré les progrès rapides des scientifiques IA autonomes alimentés par des modèles de langage, la génération d'illustrations prêtes à être publiées reste un goulot d'étranglement laborieux dans le flux de travail de recherche. Pour alléger cette charge, nous présentons PaperBanana, un cadre agentiel pour la génération automatisée d'illustrations académiques publication-prêtes. Propulsé par des modèles de vision et de génération d'images de pointe, PaperBanana orchestre des agents spécialisés pour récupérer des références, planifier le contenu et le style, produire les images et les affiner itérativement via une auto-critique. Pour évaluer rigoureusement notre cadre, nous introduisons PaperBananaBench, comprenant 292 cas tests pour les diagrammes méthodologiques issus de publications de NeurIPS 2025, couvrant divers domaines de recherche et styles d'illustration. Des expériences complètes démontrent que PaperBanana surpasse constamment les meilleurs modèles de référence en termes de fidélité, concision, lisibilité et esthétique. Nous montrons en outre que notre méthode s'étend efficacement à la génération de graphiques statistiques de haute qualité. Collectivement, PaperBanana ouvre la voie à la génération automatisée d'illustrations publication-prêtes.

Golden Goose : une astuce simple pour synthétiser des tâches RLVR illimitées à partir de textes Internet non vérifiables
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Jan 30

ByXiming Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi

105

Le Reinforcement Learning avec Récompenses Vérifiables (RLVR) est devenu une pierre angulaire pour débloquer le raisonnement complexe dans les Grands Modèles de Langage (LLM). Cependant, la montée en puissance du RL est freinée par la quantité limitée de données vérifiables existantes, où les améliorations atteignent une saturation croissante lors d'entraînements prolongés. Pour surmonter cela, nous proposons Golden Goose, une astuce simple pour synthétiser un nombre illimité de tâches RLVR à partir de textes internet non vérifiables, en construisant une version à choix multiples de la tâche de remplissage au milieu. Étant donné un texte source, nous incitons un LLM à identifier et masquer les étapes clés du raisonnement, puis à générer un ensemble de distracteurs plausibles et diversifiés. Cela nous permet d'exploiter des corpus non vérifiables riches en raisonnement, généralement exclus de la construction de données RLVR antérieure (par exemple, les manuels scientifiques), pour synthétiser GooseReason-0.7M, un jeu de données RLVR à grande échelle comprenant plus de 0,7 million de tâches couvrant les domaines des mathématiques, de la programmation et des sciences générales. Empiriquement, GooseReason redynamise efficacement les modèles saturés par les données RLVR existantes, produisant des gains robustes et soutenus sous un apprentissage par renforcement continu et établissant de nouveaux records sur 15 benchmarks divers pour les modèles 1,5B et 4B-Instruct. Enfin, nous déployons Golden Goose dans un cadre réel, en synthétisant des tâches RLVR à partir de données brutes FineWeb pour le domaine de la cybersécurité, où aucune donnée RLVR n'existait auparavant. L'entraînement de Qwen3-4B-Instruct sur les données résultantes, GooseReason-Cyber, établit un nouveau state-of-the-art en cybersécurité, surpassant un modèle spécialisé de 7B pourtant soumis à un pré-entraînement et un post-entraînement extensifs spécifiques au domaine. Cela souligne le potentiel de l'extension automatique des données RLVR en exploitant l'abondant texte internet, riche en raisonnement mais non vérifiable.

ASTRA : Synthèse Automatisée de Trajectoires Agentiques et d'Arènes de Renforcement
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Jan 29

ByXiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu

Les grands modèles de langage (LLM) sont de plus en plus utilisés comme agents assistés d'outils pour la prise de décision multi-étapes, mais l'entraînement d'agents robustes utilisant des outils reste un défi. Les méthodes existantes nécessitent encore une intervention manuelle, dépendent d'environnements simulés non vérifiables, reposent exclusivement soit sur le réglage fin supervisé (SFT) soit sur l'apprentissage par renforcement (RL), et peinent avec un apprentissage stable à long terme et multi-tours. Pour relever ces défis, nous présentons ASTRA, un cadre entièrement automatisé de bout en bout pour l'entraînement d'agents de modèles de langage assistés d'outils via une synthèse de données évolutive et un apprentissage par renforcement vérifiable. ASTRA intègre deux composants complémentaires. Premièrement, un pipeline qui exploite la topologie statique des graphes d'appels d'outils synthétise des trajectoires diverses et structurellement fondées, instillant une compétence large et transférable dans l'utilisation d'outils. Deuxièmement, un cadre de synthèse d'environnements qui capture la topologie riche et compositionnelle du raisonnement sémantique humain convertit des traces question-réponse décomposées en environnements indépendants, exécutables en code et vérifiables par règles, permettant un RL multi-tours déterministe. Sur la base de cette méthode, nous développons une méthodologie d'entraînement unifiée qui intègre le SFT avec du RL en ligne en utilisant des récompenses au niveau de la trajectoire pour équilibrer l'accomplissement des tâches et l'efficacité de l'interaction. Les expériences sur plusieurs benchmarks d'utilisation d'outils agentiques démontrent que les modèles entraînés par ASTRA atteignent des performances de pointe à des échelles comparables, approchant les systèmes propriétaires tout en préservant la capacité de raisonnement fondamentale. Nous publions l'intégralité des pipelines, environnements et modèles entraînés à l'adresse https://github.com/LianjiaTech/astra.

Quatuor II : Pré-entraînement précis de LLM en NVFP4 par une estimation de gradient non biaisée améliorée
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

Jan 30

ByAndrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh

Le format de faible précision NVFP4, pris en charge matériellement par les GPU NVIDIA Blackwell, promet de permettre pour la première fois le pré-entraînement entièrement quantifié de bout en bout de modèles massifs tels que les LLM. Pourtant, les méthodes d'entraînement quantifié existantes sacrifient encore une partie de la capacité de représentation de ce format au profit d'une estimation de gradient quantifié non biaisée plus précise par arrondi stochastique (SR), entraînant une perte de précision notable par rapport aux entraînements standards FP16 et FP8. Dans cet article, nous améliorons l'état de l'art pour l'entraînement quantifié en NVFP4 via une nouvelle routine de quantification non biaisée pour les formats micro-échelles, appelée MS-EDEN, qui présente une erreur de quantification plus de 2 fois inférieure à celle du SR. Nous l'intégrons dans un nouveau schéma de quantification entièrement NVFP4 pour les couches linéaires, appelé Quartet II. Nous montrons analytiquement que Quartet II permet une meilleure estimation du gradient de manière constante pour toutes les multiplications matricielles principales, tant lors des passes avant que lors des passes arrière. De plus, notre proposition synergise bien avec les améliorations récentes de l'entraînement spécifiquement conçues pour le NVFP4. Nous validons en outre Quartet II sur l'entraînement de LLM de bout en bout avec jusqu'à 1,9 milliard de paramètres sur 38 milliards de tokens. Nous fournissons des noyaux pour l'exécution sur les GPU NVIDIA Blackwell avec une accélération allant jusqu'à 4,2x par rapport au BF16. Notre code est disponible à l'adresse https://github.com/IST-DASLab/Quartet-II.

THINKSAFE : Alignement de sécurité auto-généré pour les modèles de raisonnement
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Jan 30

BySeanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang

Les grands modèles de raisonnement (LRM) obtiennent des performances remarquables en exploitant l'apprentissage par renforcement (RL) sur des tâches de raisonnement pour générer de longues chaînes de raisonnement (CoT). Cependant, cette sur-optimisation privilégie souvent la compliance, rendant les modèles vulnérables aux requêtes malveillantes. Pour atténuer cette dégradation de la sécurité, les approches récentes reposent sur la distillation par un enseignant externe, ce qui introduit toutefois un écart distributionnel qui altère le raisonnement natif. Nous proposons ThinkSafe, un cadre d'alignement auto-généré qui rétablit l'alignement de sécurité sans enseignants externes. Notre idée clé est que si la compliance supprime les mécanismes de sécurité, les modèles conservent souvent des connaissances latentes pour identifier les dangers. ThinkSafe libère ce potentiel via un guidage léger du refus, orientant le modèle pour générer des traces de raisonnement sécuritaires dans la distribution. Le micro-ajustement sur ces réponses auto-générées réaligne efficacement le modèle tout en minimisant le décalage distributionnel. Les expériences sur DeepSeek-R1-Distill et Qwen3 montrent que ThinkSafe améliore significativement la sécurité tout en préservant la compétence raisonnante. Notamment, il atteint une sécurité supérieure et un raisonnement comparable à GRPO, avec un coût computationnel nettement réduit. Le code, les modèles et les jeux de données sont disponibles à l'adresse https://github.com/seanie12/ThinkSafe.git.

ReGuLaR : Raisonnement latent variationnel guidé par une chaîne de pensée rendue
ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Jan 30

ByFanmeng Wang, Haotian Liu, Guojiang Zhao, Hongteng Xu, Zhifeng Gao

Bien que la méthode Chain-of-Thought (Chaîne de Pensée, CoT) améliore significativement les performances des Grands Modèles de Langage (LLM), les chaînes de raisonnement explicites introduisent une redondance computationnelle substantielle. Les méthodes de raisonnement latent récentes tentent de remédier à ce problème en comprimant les processus de raisonnement dans un espace latent, mais elles souffrent souvent d'une dégradation sévère des performances en raison de l'absence de guidage de compression approprié. Dans cette étude, nous proposons ReGuLaR (Rendered CoT-Guided variational Latent Reasoning), un paradigme d'apprentissage latent simple mais novateur qui résout ce problème. Fondamentalement, nous formulons le raisonnement latent dans le cadre des Auto-Encodeurs Variationnels (VAE), en échantillonnant l'état de raisonnement latent actuel à partir de la distribution a posteriori conditionnée par les états précédents. Plus précisément, lors de l'apprentissage de ce modèle de raisonnement latent variationnel, nous rendons les chaînes de raisonnement explicites sous forme d'images, à partir desquelles nous extrayons des représentations visuelles-sémantiques denses pour régulariser la distribution a posteriori, permettant ainsi une compression efficace avec une perte d'information minimale. Des expériences approfondies démontrent que ReGuLaR surpasse significativement les méthodes de raisonnement latent existantes à la fois en efficacité computationnelle et en efficacité du raisonnement, et dépasse même la méthode CoT grâce à un raisonnement multimodal, offrant ainsi une solution nouvelle et perspicace au raisonnement latent. Code : https://github.com/FanmengWang/ReGuLaR.

TTCS : Synthèse de Curriculum en Temps de Test pour une Auto-Évolution
TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Jan 30

ByChengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su

L'apprentissage au moment du test (Test-Time Training) offre une voie prometteuse pour améliorer la capacité de raisonnement des grands modèles de langage (LLM) en adaptant le modèle en utilisant uniquement les questions de test. Cependant, les méthodes existantes peinent avec les problèmes de raisonnement difficiles pour deux raisons : les questions de test brutes sont souvent trop difficiles pour produire des pseudo-étiquettes de haute qualité, et la taille limitée des ensembles de test rend les mises à jour continues en ligne sujettes à l'instabilité. Pour remédier à ces limitations, nous proposons TTCS, un cadre d'apprentissage au moment du test à évolution conjointe. Concrètement, TTCS initialise deux politiques à partir du même modèle pré-entraîné : un synthétiseur de questions et un solveur de raisonnement. Ces politiques évoluent grâce à une optimisation itérative : le synthétiseur génère des variantes de questions progressivement plus difficiles conditionnées par les questions de test, créant un curriculum structuré adapté aux capacités actuelles du solveur, tandis que le solveur se met à jour en utilisant des récompenses d'auto-cohérence calculées à partir de multiples réponses échantillonnées sur les questions de test originales et les questions synthétiques. Fait crucial, les retours du solveur guident le synthétiseur pour générer des questions alignées sur les capacités actuelles du modèle, et les variantes de questions générées stabilisent à leur tour l'apprentissage du solveur au moment du test. Les expériences montrent que TTCS renforce constamment la capacité de raisonnement sur des benchmarks mathématiques difficiles et se transfère à des tâches du domaine général à travers différentes architectures de LLM, mettant en lumière une voie évolutive pour construire dynamiquement des curricula au moment du test permettant l'auto-évolution. Notre code et les détails de mise en œuvre sont disponibles à l'adresse https://github.com/XMUDeepLIT/TTCS.

Modélisation du Monde Causal pour la Commande de Robots
Causal World Modeling for Robot Control

Jan 29

ByLin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu

Ce travail souligne que la modélisation du monde vidéo, associée au pré-entraînement vision-langage, constitue une base nouvelle et indépendante pour l'apprentissage robotique. Intuitivement, les modèles du monde vidéo offrent la capacité d'anticiper le futur proche en comprenant la causalité entre les actions et la dynamique visuelle. Inspirés par cela, nous présentons LingBot-VA, un framework de diffusion autorégressif qui apprend simultanément la prédiction d'images et l'exécution de politiques. Notre modèle intègre trois conceptions soigneusement élaborées : (1) un espace latent partagé intégrant les tokens visuels et d'action, piloté par une architecture Mixture-of-Transformers (MoT), (2) un mécanisme de déploiement en boucle fermée permettant l'acquisition continue de retours environnementaux avec des observations réelles, (3) un pipeline d'inférence asynchrone parallélisant la prédiction d'actions et l'exécution motrice pour supporter un contrôle efficace. Nous évaluons notre modèle sur des benchmarks de simulation et des scénarios réels, où il démontre un potentiel significatif dans la manipulation à long terme, une efficacité des données en post-entraînement et une forte généralisabilité à des configurations nouvelles. Le code et le modèle sont mis à disposition publique pour favoriser les avancées communautaires.

MemOCR : Mémoire visuelle sensible à la mise en page pour un raisonnement efficace sur de longs horizons
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Jan 29

ByYaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang

Le raisonnement agentique à long horizon nécessite une compression efficace d'historiques d'interaction croissants dans une fenêtre de contexte limitée. La plupart des systèmes de mémoire existants sérialisent l'historique sous forme de texte, où le coût au niveau des tokens est uniforme et augmente linéairement avec la longueur, gaspillant souvent le budget précieux sur des détails de faible valeur. Pour cela, nous présentons MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long horizon sous contrainte de contexte sévère en allouant l'espace mémoire avec une densité informationnelle adaptive via une mise en page visuelle. Concrètement, MemOCR maintient une mémoire structurée en texte enrichi (par exemple, titres, surlignages) et la convertit en image que l'agent consulte pour l'accès mémoire, en priorisant visuellement les preuves cruciales tout en compressant agressivement les détails auxiliaires. Pour garantir la robustesse face à différents budgets mémoire, nous entraînons MemOCR par apprentissage par renforcement avec des objectifs sensibles au budget qui exposent l'agent à divers niveaux de compression. Sur des benchmarks de questions-réponses multi-sauts et à saut unique à contexte long, MemOCR surpasse les solides bases de référence textuelles et atteint une utilisation de contexte plus efficace sous des budgets extrêmes.

Les modèles de raisonnement améliorent-ils les modèles d'embedding ?
Do Reasoning Models Enhance Embedding Models?

Jan 29

ByWun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song

Les modèles d'embedding de pointe sont de plus en plus dérivés d'architectures de grands modèles de langage (LLM) décodeurs-seuls, adaptés via un apprentissage par contraste. Compte tenu de l'émergence de modèles de raisonnement entraînés par apprentissage par renforcement avec récompenses vérifiables (RLVR), une question naturelle se pose : les capacités de raisonnement accrues se traduisent-elles par des représentations sémantiques supérieures lorsque ces modèles servent d'initialisation pour les embeddings ? Contrairement aux attentes, notre évaluation sur MTEB et BRIGHT révèle un **effet nul** : les modèles d'embedding initialisés à partir de modèles de base ajustés par RLVR ne présentent aucun avantage de performance cohérent par rapport à leurs contreparties de base lorsqu'ils sont soumis à des protocoles d'entraînement identiques. Pour résoudre ce paradoxe, nous introduisons l'**A**nalyse de **S**imilarité des **R**eprésentations **H**iérarchique (HRSA), un cadre qui décompose la similarité aux niveaux de la représentation, de la géométrie et de la fonction. L'HRSA révèle que si le RLVR induit une réorganisation locale irréversible de la géométrie de la variété latente ainsi qu'une dérive réversible de la base des coordonnées, il préserve la géométrie globale de la variété et sa lisibilité linéaire. Par conséquent, l'apprentissage par contraste ultérieur conduit à un fort alignement entre les modèles initialisés à partir des bases standard et ceux issus du raisonnement, un phénomène que nous nommons **Realignement de la Variété**. Empiriquement, nos résultats suggèrent que, contrairement au réglage fin supervisé (SFT), le RLVR optimise les trajectoires au sein d'un paysage sémantique existant plutôt que de restructurer fondamentalement le paysage lui-même.

Estimation statistique du risque adversarial dans les grands modèles de langage sous échantillonnage Best-of-N
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Jan 30

ByMingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao

Les modèles de langage de grande taille (LLM) sont généralement évalués pour leur sécurité sous des conditions d'invite antagoniste en une seule tentative ou à faible budget, ce qui sous-estime les risques réels. En pratique, les attaquants peuvent exploiter un échantillonnage parallèle à grande échelle pour sonder un modèle de manière répétée jusqu'à obtenir une réponse nuisible. Bien que des travaux récents montrent que le succès des attaques augmente avec un échantillonnage répété, les méthodes fondamentales pour prédire le risque antagoniste à grande échelle restent limitées. Nous proposons une estimation du risque consciente de l'échelle par tirage du meilleur parmi N, SABER, pour modéliser la vulnérabilité aux contournements de sécurité sous un échantillonnage Best-of-N. Nous modélisons les probabilités de succès au niveau de l'échantillon à l'aide d'une distribution Bêta, le prior conjugué de la distribution de Bernoulli, et dérivons une loi d'échelle analytique qui permet une extrapolation fiable des taux de succès d'attaque pour un grand N à partir de mesures à petit budget. En utilisant seulement n=100 échantillons, notre estimateur ancré prédit le ASR@1000 avec une erreur absolue moyenne de 1,66, contre 12,04 pour la ligne de base, ce qui représente une réduction de 86,2 % de l'erreur d'estimation. Nos résultats révèlent des profils de mise à l'échelle des risques hétérogènes et montrent que les modèles semblant robustes lors d'évaluations standard peuvent subir une amplification non linéaire rapide des risques sous une pression antagoniste parallèle. Ce travail fournit une méthodologie peu coûteuse et évolutive pour une évaluation réaliste de la sécurité des LLM. Nous publierons notre code et nos scripts d'évaluation après la publication pour les recherches futures.

FourierSampler : Libérer le potentiel non-autorégressif des modèles de langage par diffusion via une génération guidée par les fréquences
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Jan 30

BySiyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu

Malgré le potentiel non-autorégressif des modèles de langage par diffusion (dLLM), les stratégies de décodage existantes présentent un biais positionnel, ne parvenant pas à libérer pleinement le potentiel de génération arbitraire. Dans ce travail, nous explorons les caractéristiques spectrales inhérentes aux dLLM et présentons la première analyse dans le domaine fréquentiel, montrant que les composantes basse fréquence des états cachés encodent principalement les informations structurelles globales et les dépendances à longue portée, tandis que les composantes haute fréquence sont responsables de la caractérisation des détails locaux. Sur la base de cette observation, nous proposons FourierSampler, qui exploite un mécanisme de fenêtre glissante dans le domaine fréquentiel pour guider dynamiquement le modèle vers une génération « de la structure au détail ». FourierSampler surpasse les autres stratégies d'amélioration de l'inférence sur LLADA et SDAR, obtenant des améliorations relatives de 20,4 % sur LLaDA1.5-8B et 16,0 % sur LLaDA-8B-Instruct. Il dépasse notably les modèles autorégressifs de taille similaire comme Llama3.1-8B-Instruct.

PaddleOCR-VL-1.5 : Vers un modèle de langage visuel multitâche de 0,9B pour un analyse robuste de documents en conditions réelles
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Jan 29

ByCheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma

Nous présentons PaddleOCR-VL-1.5, un modèle amélioré atteignant une nouvelle précision record (SOTA) de 94,5 % sur OmniDocBench v1.5. Pour évaluer rigoureusement la robustesse face aux distorsions physiques du monde réel, incluant la numérisation, l'inclinaison, la déformation, la photographie d'écran et l'éclairage, nous proposons le benchmark Real5-OmniDocBench. Les résultats expérimentaux démontrent que ce modèle amélioré atteint des performances SOTA sur ce nouveau benchmark. De plus, nous étendons les capacités du modèle en intégrant des tâches de reconnaissance de sceaux et de repérage de texte, tout en conservant une architecture ultra-compacte de 0,9 milliard de paramètres et une haute efficacité. Code : https://github.com/PaddlePaddle/PaddleOCR

DenseGRPO : Des récompenses éparses aux récompenses denses pour l'alignement des modèles par appariement de flux
DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Jan 28

ByHaoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang

Les approches récentes basées sur GRPO et fondées sur les modèles de "flow matching" ont montré des améliorations remarquables dans l'alignement sur les préférences humaines pour la génération d'images à partir de texte. Néanmoins, elles souffrent toujours du problème de récompense éparse : la récompense terminale de l'intégralité de la trajectoire de bruitage est appliquée à toutes les étapes intermédiaires, ce qui entraîne un décalage entre les signaux de retour globaux et les contributions exactes et granulaires aux étapes de bruitage intermédiaires. Pour résoudre ce problème, nous présentons DenseGRPO, un nouveau cadre qui aligne les préférences humaines avec des récompenses denses, évaluant la contribution granulaire de chaque étape de débruitage. Plus précisément, notre approche comprend deux composants clés : (1) nous proposons de prédire le gain de récompense par étape comme récompense dense de chaque étape de débruitage, en appliquant un modèle de récompense sur les images intermédiaires nettoyées via une approche basée sur les EDO. Cette méthode garantit un alignement entre les signaux de retour et les contributions des étapes individuelles, facilitant un entraînement efficace ; et (2) sur la base des récompenses denses estimées, un inconvénient de décalage entre le paramètre d'exploration uniforme et l'intensité de bruit variable dans le temps des méthodes existantes basées sur GRPO est révélé, conduisant à un espace d'exploration inapproprié. Ainsi, nous proposons un schéma sensible aux récompenses pour calibrer l'espace d'exploration en ajustant dynamiquement une injection de stochasticité spécifique à l'instant dans l'échantillonneur SDE, garantissant un espace d'exploration adapté à tous les instants. Des expériences approfondies sur plusieurs benchmarks standards démontrent l'efficacité du DenseGRPO proposé et soulignent le rôle crucial des récompenses denses valides dans l'alignement des modèles de "flow matching".

DINO-SAE : Autoencodeur Sphérique DINO pour la Reconstruction et la Génération d'Images Haute Fidélité
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Jan 30

ByHun Chang, Byunghee Cha, Jong Chul Ye

Des études récentes ont exploré l'utilisation de modèles de vision de base (VFMs) préentraînés tels que DINO pour les autoencodeurs génératifs, démontrant de fortes performances génératives. Malheureusement, les approches existantes souffrent souvent d'une fidélité de reconstruction limitée en raison de la perte de détails haute fréquence. Dans ce travail, nous présentons le DINO Spherical Autoencoder (DINO-SAE), un cadre qui établit un pont entre la représentation sémantique et la reconstruction au niveau pixel. Notre idée clé est que l'information sémantique dans les représentations contrastives est principalement encodée dans la direction des vecteurs de caractéristiques, tandis qu'imposer un appariement strict des magnitudes peut empêcher l'encodeur de préserver les détails fins. Pour résoudre ce problème, nous introduisons un module Hiérarchique d'Incorporation de Patchs Convolutifs qui améliore la préservation des structures et textures locales, et un objectif d'Alignement par Similarité Cosinus qui impose la cohérence sémantique tout en permettant des magnitudes de caractéristiques flexibles pour la rétention des détails. De plus, en nous appuyant sur l'observation que les représentations des modèles de base basés sur l'apprentissage auto-supervisé (SSL) résident intrinsèquement sur une hypersphère, nous utilisons le *Riemannian Flow Matching* pour entraîner un *Diffusion Transformer* (DiT) directement sur cette variété latente sphérique. Les expériences sur ImageNet-1K démontrent que notre approche atteint une qualité de reconstruction à la pointe de l'état de l'art, avec un rFID de 0.37 et un PSNR de 26.2 dB, tout en maintenant un fort alignement sémantique avec le VFM préentraîné. Notamment, notre DiT basé sur le *Riemannian Flow Matching* présente une convergence efficace, atteignant un gFID de 3.47 après 80 époques.

DreamActor-M2 : Animation universelle d'images de personnages par apprentissage en contexte spatiotemporel
DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Jan 29

ByMingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao

L'animation d'image de personnage vise à synthétiser des vidéos de haute fidélité en transférant le mouvement d'une séquence motrice vers une image de référence statique. Malgré les progrès récents, les méthodes existantes souffrent de deux défis fondamentaux : (1) des stratégies d'injection de mouvement sous-optimales qui créent un compromis entre la préservation de l'identité et la cohérence du mouvement, se manifestant comme un "effet de balançoire", et (2) une dépendance excessive à des prérequis de pose explicites (par exemple, des squelettes), qui capturent inadéquatement la dynamique complexe et entravent la généralisation à des caractères arbitraires non humanoïdes. Pour relever ces défis, nous présentons DreamActor-M2, un cadre d'animation universel qui réinvente le conditionnement du mouvement comme un problème d'apprentissage en contexte. Notre approche suit un paradigme en deux étages. Premièrement, nous comblons l'écart de modalité d'entrée en fusionnant l'apparence de référence et les indices de mouvement dans un espace latent unifié, permettant au modèle de raisonner conjointement sur l'identité spatiale et la dynamique temporelle en exploitant l'a priori génératif des modèles fondateurs. Deuxièmement, nous introduisons un pipeline de synthèse de données auto-amorcé qui sélectionne des paires d'entraînement pseudo inter-identités, facilitant une transition fluide du contrôle dépendant de la pose vers une animation RGB directe de bout en bout. Cette stratégie améliore significativement la généralisation à divers personnages et scénarios de mouvement. Pour faciliter une évaluation complète, nous introduisons en outre AW Bench, un benchmark polyvalent couvrant un large spectre de types de personnages et de scénarios de mouvement. Des expériences approfondies démontrent que DreamActor-M2 atteint des performances à l'état de l'art, offrant une fidélité visuelle supérieure et une robuste généralisation inter-domaines. Page du projet : https://grisoon.github.io/DreamActor-M2/

Modèle de Récompense Aligné en Temps Réel au-Delà de la Sémantique
Real-Time Aligned Reward Model beyond Semantics

Jan 30

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

L’apprentissage par renforcement à partir de retours humains (RLHF) est une technique essentielle pour aligner les grands modèles de langage (LLM) sur les préférences humaines, mais il reste vulnérable à la sur-optimisation de la récompense, phénomène dans lequel les modèles de politique surapprennent le modèle de récompense et exploitent des motifs de récompense fallacieux plutôt que de capturer fidèlement l’intention humaine. Les atténuations précédentes reposent principalement sur des informations sémantiques de surface et peinent à résoudre efficacement le désalignement entre le modèle de récompense (RM) et le modèle de politique causé par les décalages continus de distribution de la politique. Cela entraîne inévitablement un écart croissant des récompenses, aggravant la sur-optimisation. Pour contourner ces limitations, nous présentons R2M (Real-Time Aligned Reward Model), un nouveau cadre RLHF léger. R2M va au-delà des modèles de récompense classiques qui dépendent uniquement des représentations sémantiques d’un LLM préentraîné. Il exploite plutôt les états cachés évolutifs de la politique (appelés retours de politique) pour s’aligner sur le décalage de distribution en temps réel de la politique durant le processus d’apprentissage par renforcement. Ces travaux ouvrent une nouvelle voie prometteuse pour améliorer les performances des modèles de récompense via l’utilisation en temps réel des retours des modèles de politique.

SSL : Apprentissage par Point Optimal pour un Guidage Différencié dans l'Optimisation Agentielle
SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Jan 30

ByJinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu

L'apprentissage par renforcement avec récompenses vérifiables est devenu un paradigme puissant pour l'entraînement d'agents intelligents. Cependant, les méthodes existantes utilisent généralement des récompenses binaires qui ne parviennent pas à capturer les différences de qualité entre les trajectoires atteignant des résultats identiques, négligeant ainsi la diversité potentielle au sein de l'espace des solutions. Inspirés par le concept du « sweet spot » (point idéal) au tennis – la région centrale de la raquette produisant les effets de frappe optimaux – nous introduisons Sweet Spot Learning (SSL), un nouveau cadre fournissant un guidage différencié pour l'optimisation des agents. SSL suit un principe simple mais efficace : des récompenses progressivement amplifiées et hiérarchisées guident les politiques vers la région « sweet spot » de l'espace des solutions. Ce principe s'adapte naturellement à diverses tâches : les tâches de perception visuelle exploitent une modélisation hiérarchique basée sur la distance pour récompenser la proximité, tandis que les tâches de raisonnement complexe récompensent les progrès incrémentaux vers des solutions prometteuses. Nous démontrons théoriquement que SSL préserve l'ordonnancement des solutions optimales et améliore le rapport signal-sur-bruit du gradient, favorisant ainsi une optimisation plus dirigée. Des expériences approfondies sur des tâches de perception d'interface graphique, de planification à court/long terme et de raisonnement complexe montrent des améliorations constantes par rapport à des bases de référence solides sur 12 benchmarks, atteignant des gains d'efficacité d'échantillonnage allant jusqu'à 2,5 fois et une transférabilité inter-tâches effective. Notre travail établit SSL comme un principe général pour l'entraînement d'agents compétents et robustes.

DIFFA-2 : Un modèle de langage massif par diffusion pratique pour la compréhension audio générale
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Jan 30

ByJiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin

Les grands modèles de langage audio (LALM) autorégressifs (AR) tels que Qwen-2.5-Omni ont obtenu des performances solides en compréhension et interaction audio, mais leur mise à l'échelle reste coûteuse en données et en calcul, tandis que le décodage strictement séquentiel limite l'efficacité de l'inférence. Les modèles de langage à diffusion (dLLM) ont récemment démontré leur capacité à exploiter efficacement des données d'entraînement limitées, et les travaux antérieurs sur DIFFA indiquent que le remplacement d'une architecture AR par une contrepartie à diffusion peut considérablement améliorer la compréhension audio dans des conditions comparables, bien qu'à une échelle préliminaire sans ajustement instructionnel à grande échelle, alignement des préférences ou schémas de décodage pratiques. Nous présentons DIFFA-2, un LALM pratique basé sur la diffusion pour la compréhension audio générale. DIFFA-2 améliore l'encodeur vocal, utilise des adaptateurs sémantiques et acoustiques doubles, et est entraîné avec un curriculum en quatre étapes combinant alignement sémantique et acoustique, ajustement fin supervisé à grande échelle et optimisation des préférences à variance réduite, en utilisant exclusivement des corpus entièrement open-source. Les expériences sur MMSU, MMAU et MMAR montrent que DIFFA-2 améliore constamment DIFFA et rivalise avec les LALM AR performants dans des budgets d'entraînement pratiques, confirmant que la modélisation par diffusion constitue une architecture viable pour la compréhension audio à grande échelle. Notre code est disponible à l'adresse https://github.com/NKU-HLT/DIFFA.git.

Repousser les frontières du raisonnement naturel : bénéfice entrelacé de la vérification par logique formelle
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

Jan 30

ByChuxue Cao, Jinluan Yang, Haoran Li, Kunhao Pan, Zijian Zhao, Zhengyu Chen, Yuchen Tian, Lijun Wu, Conghui He, Sirui Han, Yike Guo

Les grands modèles de langage (LLM) démontrent des capacités remarquables, mais leur prédiction stochastique token par token génère des incohérences logiques et du détournement de récompense que les systèmes symboliques formels évitent. Pour combler cet écart, nous introduisons un cadre guidé par la vérification logique formelle qui entrelace dynamiquement la vérification symbolique formelle avec le processus de génération en langue naturelle, fournissant un retour en temps réel pour détecter et rectifier les erreurs au fur et à mesure qu'elles se produisent. Contrairement aux méthodes neuro-symboliques antérieures limitées par une validation passive a posteriori, notre approche pénalise activement les erreurs de raisonnement intermédiaires durant l'enchaînement déductif. Nous opérationnalisons ce cadre via un nouveau pipeline d'entraînement en deux étapes qui synergise un fine-tuning supervisé guidé par vérification logique formelle et une optimisation par politique. Une évaluation approfondie sur six benchmarks couvrant les raisonnements mathématique, logique et général démontre que nos modèles de 7B et 14B paramètres surpassent les meilleures méthodes de référence par des marges moyennes de 10,4 % et 14,2 % respectivement. Ces résultats valident que la vérification formelle peut servir de mécanisme scalable pour repousser significativement les limites de performance du raisonnement avancé des LLM.

NativeTok : Tokenisation Visuelle Native pour une Génération d'Images Améliorée
NativeTok: Native Visual Tokenization for Improved Image Generation

Jan 30

ByBin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao

La génération d'images basée sur VQ suit généralement un pipeline en deux étapes : un tokenizer encode les images en tokens discrets, puis un modèle génératif apprend leurs dépendances pour la reconstruction. Cependant, l'amélioration de la tokenisation dans la première étape n'améliore pas nécessairement la génération en deuxième étape, car les méthodes existantes échouent à contraindre les dépendances entre tokens. Cette inadéquation force le modèle génératif à apprendre à partir de distributions non ordonnées, entraînant des biais et une faible cohérence. Pour résoudre ce problème, nous proposons une tokenisation visuelle native, qui impose des dépendances causales pendant la tokenisation. Sur cette base, nous présentons NativeTok, un cadre qui permet une reconstruction efficace tout en intégrant des contraintes relationnelles dans les séquences de tokens. NativeTok se compose de : (1) un Meta Image Transformer (MIT) pour la modélisation latente d'images, et (2) un Mixture of Causal Expert Transformer (MoCET), où chaque bloc expert léger génère un seul token conditionné par les tokens antérieurs et les caractéristiques latentes. Nous concevons en outre une stratégie d’apprentissage natif hiérarchique qui ne met à jour que les nouveaux blocs experts, garantissant ainsi l'efficacité de l'entraînement. Des expériences approfondies démontrent l'efficacité de NativeTok.

Utilisation Robuste d'Outils via Fission-GRPO : Apprendre à Récupérer après des Erreurs d'Exécution
Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Jan 22

ByZhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong

Les grands modèles de langage (LLM) peuvent appeler efficacement des outils, mais leur exécution multi-tours reste fragile : suite à une erreur d'appel d'outil, les modèles plus petits dégénèrent souvent en des ré-invocations invalides et répétitives, échouant à interpréter les retours d'erreur et à s'auto-corriger. Cette fragilité entrave le déploiement fiable dans des scénarios réels, où les erreurs d'exécution sont intrinsèquement inévitables lors des procédures d'interaction avec les outils. Nous identifions une limitation clé des approches actuelles : l'apprentissage par renforcement (RL) standard traite les erreurs comme des récompenses négatives éparses, ne fournissant aucune guidance sur la manière de récupérer, tandis que les ensembles de données synthétiques de correction d'erreurs pré-collectés souffrent d'un décalage de distribution avec les modes d'erreur *on-policy* du modèle. Pour combler cette lacune, nous proposons Fission-GRPO, un cadre qui convertit les erreurs d'exécution en une supervision corrective dans la boucle d'entraînement par RL. Notre mécanisme central fissionne chaque trajectoire échouée en une nouvelle instance d'entraînement en l'augmentant avec un retour diagnostique d'un Simulateur d'Erreur *finetuné*, puis rééchantillonne des *rollouts* de récupération *on-policy*. Cela permet au modèle d'apprendre des erreurs précises qu'il commet durant l'exploration, plutôt qu'à partir de cas d'erreur statiques pré-collectés. Sur BFCL v4 Multi-Turn, Fission-GRPO améliore le taux de récupération d'erreur de Qwen3-8B de 5.7% en valeur absolue et, crucialement, produit un gain de précision globale de 4% (de 42.75% à 46.75%) par rapport à GRPO, surpassant les agents spécialisés dans l'utilisation d'outils.

TAM-Eval : Évaluation des LLM pour la maintenance automatisée des tests unitaires
TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Jan 26

ByElena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Si les grands modèles de langage (LLM) ont montré des potentialités en génie logiciel, leur application aux tests unitaires reste largement confinée à la génération isolée de tests ou à la prédiction d'oracles, négligeant le défi plus large de la maintenance des suites de tests. Nous présentons TAM-Eval (Test Automated Maintenance Evaluation), un cadre d'évaluation et un benchmark conçus pour évaluer les performances des modèles dans trois scénarios fondamentaux de maintenance des tests : la création, la réparation et la mise à jour des suites de tests. Contrairement aux travaux antérieurs limités à des tâches au niveau fonction, TAM-Eval opère au niveau du fichier de test, tout en maintenant l'accès au contexte complet du dépôt lors de l'évaluation isolée, reflétant mieux les flux de travail réels de maintenance. Notre benchmark comprend 1 539 scénarios extraits et validés automatiquement à partir de projets Python, Java et Go. TAM-Eval prend en charge l'évaluation indépendante du système pour les LLM bruts et les workflows agentiques, en utilisant un protocole sans référence basé sur le taux de réussite des suites de tests, la couverture de code et les tests de mutation. Les résultats empiriques indiquent que les LLM de pointe ont des capacités limitées dans les processus réalistes de maintenance des tests et n'apportent que des améliorations marginales à l'efficacité des tests. Nous publions TAM-Eval en tant que cadre open-source pour soutenir les futures recherches sur les tests logiciels automatisés. Nos données et notre code sont disponibles publiquement à l'adresse https://github.com/trndcenter/TAM-Eval.

RM-RF : Modèle de Récompense pour l'Évaluation de Tests Unitaires Sans Exécution
RM -RF: Reward Model for Run-Free Unit Test Evaluation

Jan 19

ByElena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Nous présentons RM-RF, un modèle de récompense léger pour l'évaluation sans exécution de tests unitaires générés automatiquement. Au lieu de compiler et d'exécuter de manière répétée des tests candidats, RM-RF prédit - uniquement à partir du code source et du code de test - trois signaux dérivés de l'exécution : (1) si la suite de tests augmentée compile et s'exécute avec succès, (2) si les cas de test générés augmentent la couverture de code, et (3) si les cas de test générés améliorent le taux de destruction des mutations. Pour entraîner et évaluer RM-RF, nous avons constitué un jeu de données multilingue (Java, Python, Go) de fichiers focaux, de fichiers de test et d'ajouts de tests candidats étiquetés par un pipeline basé sur l'exécution, et nous publions un jeu de données associé ainsi qu'une méthodologie pour l'évaluation comparative. Nous avons testé plusieurs familles de modèles et régimes d'ajustement (zero-shot, fine-tuning complet et PEFT via LoRA), atteignant un F1 moyen de 0,69 sur les trois cibles. Comparé aux instruments conventionnels de compilation et d'exécution, RM-RF offre une latence et un coût d'infrastructure substantiellement réduits tout en fournissant une fidélité prédictive compétitive, permettant un retour d'information rapide et évolutif pour la génération de tests à grande échelle et l'optimisation de code basée sur l'apprentissage par renforcement.

Mise à l'échelle des systèmes multi-agents avec récompenses de processus
Scaling Multiagent Systems with Process Rewards

Jan 30

ByEd Li, Junyu Ren, Cat Yan

Bien que les systèmes multi-agents aient montré des potentialités pour traiter des tâches complexes via la spécialisation, le réglage fin simultané de multiples agents se heurte à deux défis majeurs : (1) l'attribution du crédit entre les agents, et (2) l'efficacité en échantillons des rollouts multi-agents coûteux. Dans ce travail, nous proposons le réglage fin de systèmes multi-agents avec des récompenses de processus par action issues de retours d'IA (MAPPA) pour résoudre ces deux problèmes. En attribuant le crédit à des actions individuelles d'agents plutôt qu'uniquement à la fin de la tâche, MAPPA permet une supervision fine sans vérité terrain tout en extrayant le signal d'entraînement maximal de chaque rollout. Nous démontrons notre approche sur des problèmes de mathématiques compétitives et des tâches d'analyse de données assistées par outils. Sur des problèmes mathématiques inédits, MAPPA obtient des gains de +5,0 à 17,5 pp sur l'AIME et de +7,8 à 17,2 pp sur l'AMC. Pour les tâches d'analyse de données, notre méthode améliore le taux de réussite de +12,5 pp tandis que les métriques de qualité s'améliorent jusqu'à 30 %, validant qu'une supervision par action peut conduire à des améliorations sur différents systèmes multi-agents et domaines. En relevant ces défis, notre travail constitue une première étape vers la mise à l'échelle de systèmes multi-agents pour des tâches complexes et à long horizon avec une supervision humaine minimale.

Recherche Approfondie avec Surveillance Méta-Cognitive Hiérarchique Inspirée par les Neurosciences Cognitives
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Jan 30

ByZhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu, Jun Xu

Les agents de recherche approfondie alimentés par de grands modèles de langage ont démontré de solides capacités en matière de récupération multi-étapes, de raisonnement et d'exécution de tâches à long terme. Cependant, leurs échecs pratiques proviennent souvent de l'absence de mécanismes pour surveiller et réguler les états de raisonnement et de récupération à mesure que les tâches évoluent dans l'incertitude. Les enseignements des neurosciences cognitives suggèrent que la métacognition humaine est organisée hiérarchiquement, intégrant une détection rapide des anomalies avec une réflexion déclenchée sélectivement et guidée par l'expérience. Dans ce travail, nous proposons la Recherche Approfondie avec Surveillance Métacognitive (DS-MCM), un cadre de recherche approfondie augmenté d'un mécanisme explicite et hiérarchique de surveillance métacognitive. DS-MCM intègre un Moniteur de Cohérence Rapide, qui effectue des vérifications légères de l'alignement entre les preuves externes et la confiance interne du raisonnement, et un Moniteur Lent Guidé par l'Expérience, qui est activé sélectivement pour guider une intervention corrective basée sur la mémoire d'expérience issue des trajectoires historiques de l'agent. En intégrant la surveillance directement dans la boucle de raisonnement-récupération, DS-MCM détermine à la fois quand une intervention est justifiée et comment les actions correctives doivent être éclairées par l'expérience antérieure. Les expériences menées sur plusieurs benchmarks de recherche approfondie et modèles de base démontrent que DS-MCM améliore constamment les performances et la robustesse.

RAPTOR : Sondes Logistiques à Adaptation de Crête
RAPTOR: Ridge-Adaptive Logistic Probes

Jan 29

ByZiqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding

Les études par sondage visent à déterminer quelles informations sont encodées dans les représentations d'une couche d'un LLM figé, en entraînant un prédicteur léger sur celles-ci. Au-delà de l'analyse, les sondes sont souvent utilisées de manière opérationnelle dans des pipelines de type « sonder puis orienter » : un vecteur de concept appris est extrait d'une sonde et injecté via un pilotage additif des activations en l'ajoutant à une représentation de couche durant la passe avant. L'efficacité de ce pipeline repose sur l'estimation de vecteurs de concept qui sont précis, stablement directionnels sous ablation, et peu coûteux à obtenir. Motivés par ces objectifs, nous proposons RAPTOR (Ridge-Adaptive Logistic Probe), une simple sonde logistique régularisée par L2 dont la force de ridge ajustée par validation produit des vecteurs de concept à partir de poids normalisés. À travers de nombreuses expériences sur des LLM fine-tunés par instructions et des ensembles de données de concepts rédigés par des humains, RAPTOR égal ou dépasse des bases de référence solides en précision tout en atteignant une stabilité directionnelle concurrentielle et un coût d'entraînement substantiellement inférieur ; ces résultats quantitatifs sont étayés par des démonstrations qualitatives de pilotage en aval. Enfin, en utilisant le théorème min-max gaussien convexe (Convex Gaussian Min-max Theorem, CGMT), nous fournissons une caractérisation mécanistique de la régression logistique ridge dans un modèle idéalisé gaussien maître-élève dans le régime haute dimension avec peu d'exemples, expliquant comment la force de pénalité médie la précision de la sonde et la stabilité du vecteur de concept, et produisant des prédictions structurelles qui s'alignent qualitativement sur les tendances observées sur les embeddings réels de LLM.

Chaîne de pensée latente comme planification : Découpler le raisonnement de la verbalisation
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jan 29

ByJiecong Wang, Hao Peng, Chunyang Liu

Le raisonnement en chaîne (Chain-of-Thought, CoT) permet aux grands modèles de langage (LLM) de résoudre des problèmes complexes, mais il reste limité par le coût computationnel et l'effondrement des chemins de raisonnement lorsqu'il est ancré dans des espaces de tokens discrets. Les approches récentes de raisonnement latent tentent d'optimiser l'efficacité en effectuant le raisonnement au sein d'états cachés continus. Cependant, ces méthodes fonctionnent généralement comme des mappings opaques de bout en bout, des étapes de raisonnement explicites vers des états latents, et nécessitent souvent un nombre prédéfini d'étapes latentes lors de l'inférence. Dans ce travail, nous présentons PLaT (Planning with Latent Thoughts), un cadre qui reformule le raisonnement latent comme un processus de planification en découplant fondamentalement le raisonnement de la verbalisation. Nous modélisons le raisonnement comme une trajectoire déterministe d'états de planification latents, tandis qu'un Décodeur distinct ancre ces pensées dans le texte lorsque cela est nécessaire. Ce découplage permet au modèle de déterminer dynamiquement quand mettre fin au raisonnement plutôt que de dépendre d'hyperparamètres fixes. Les résultats empiriques sur des benchmarks mathématiques révèlent un compromis distinct : bien que PLaT obtienne une précision gloutonne inférieure à celle des modèles de référence, il démontre une scalabilité supérieure en termes de diversité de raisonnement. Cela indique que PLaT apprend un espace de solutions plus robuste et plus large, offrant une base transparente et évolutive pour la recherche au moment de l'inférence.

Agents d'Interface Graphique Continue
Continual GUI Agents

Jan 28

ByZiwei Liu, Borui Kang, Hangjie Yuan, Zixiang Zhao, Wei Li, Yifan Zhu, Tao Feng

Les environnements numériques (distribution des données) étant en constante évolution, avec l'arrivée continue de nouvelles données d'interface graphique introduisant de nouveaux domaines ou résolutions, les agents entraînés sur des environnements statiques voient leurs performances se dégrader. Dans ce travail, nous introduisons les Agents d'Interface Graphique Continue, une nouvelle tâche qui exige que les agents d'interface graphique réalisent un apprentissage continu face à des domaines et des résolutions changeants. Nous constatons que les méthodes existantes échouent à maintenir un ancrage stable lorsque les distributions d'interface graphique évoluent au fil du temps, en raison de la diversité des points d'interaction de l'interface utilisateur et des régions dans des scénarios fluctuants. Pour résoudre ce problème, nous introduisons l'Ancrage d'Interface Graphique en Flux (GUI-AiF), un nouveau cadre de réglage fin par renforcement qui stabilise l'apprentissage continu grâce à deux nouvelles récompenses : la Récompense de Point d'Ancrage en Flux (APR-iF) et la Récompense de Région d'Ancrage en Flux (ARR-iF). Ces récompenses guident les agents pour s'aligner sur les points et régions d'interaction changeants, atténuant la tendance des stratégies de récompense existantes à suradapter aux indices d'ancrage statiques (par exemple, les coordonnées fixes ou les échelles des éléments). Des expériences approfondies montrent que GUI-AiF surpasse les méthodes de référence de l'état de l'art. Notre travail établit le premier cadre d'apprentissage continu pour les agents d'interface graphique, révélant le potentiel inexploité du réglage fin par renforcement pour les Agents d'Interface Graphique Continue.

Réexamen des prédictions des modèles de diffusion par la dimensionnalité
Revisiting Diffusion Model Predictions Through Dimensionality

Jan 29

ByQing Jin, Chaoyang Wang

Les progrès récents des modèles de diffusion et d'appariement de flux ont mis en lumière un changement dans la cible de prédiction privilégiée – passant de la prédiction du bruit (ε) et de la vitesse (v) à la prédiction directe des données (x) – particulièrement dans les contextes de haute dimension. Cependant, une explication formelle des raisons pour lesquelles la cible optimale dépend des propriétés spécifiques des données reste insaisissable. Dans ce travail, nous proposons un cadre théorique basé sur une formulation de prédiction généralisée qui accommode des cibles de sortie arbitraires, dont les prédictions ε, v et x sont des cas particuliers. Nous dérivons la relation analytique entre la géométrie des données et la cible de prédiction optimale, offrant une justification rigoureuse expliquant pourquoi la prédiction x devient supérieure lorsque la dimension ambiante dépasse significativement la dimension intrinsèque des données. Par ailleurs, bien que notre théorie identifie la dimensionnalité comme le facteur gouvernant la cible de prédiction optimale, la dimension intrinsèque de données contraintes sur une variété est généralement intraitable à estimer en pratique. Pour combler cette lacune, nous proposons k-Diff, un cadre qui emploie une approche pilotée par les données pour apprendre directement le paramètre de prédiction optimal k à partir des données, contournant ainsi le besoin d'une estimation explicite de la dimension. Des expériences approfondies en génération d'images dans l'espace latent et l'espace pixel démontrent que k-Diff surpasse constamment les modèles de référence à cible fixe across différentes architectures et échelles de données, fournissant une approche principielle et automatisée pour améliorer les performances génératives.

LMK > CLS : Regroupement par points de repère pour les plongements denses
LMK > CLS: Landmark Pooling for Dense Embeddings

Jan 29

ByMeet Doshi, Aashka Trivedi, Vishwajeet Kumar, Parul Awasthy, Yulong Li, Jaydeep Sen, Radu Florian, Sachindra Joshi

L'apprentissage de représentation est central pour de nombreuses tâches en aval telles que la recherche, le clustering, la classification et le réordonnancement. Les encodeurs de séquences à la pointe de la technologie transforment généralement une séquence de tokens de longueur variable en un vecteur unique à l'aide d'un opérateur de pooling, le plus souvent un token spécial [CLS] ou un pooling moyen sur les embeddings de tokens. Dans cet article, nous identifions des faiblesses systématiques de ces stratégies de pooling : le token [CLS] a tendance à concentrer l'information vers les positions initiales de la séquence et peut sous-représenter des preuves distribuées, tandis que le pooling moyen peut diluer les signaux locaux saillants, conduisant parfois à une moins bonne performance sur des contextes courts. Pour résoudre ces problèmes, nous introduisons le Landmark (LMK) pooling, qui partitionne une séquence en segments, insère des tokens repères entre les segments, et forme la représentation finale par un pooling moyen des embeddings de ces tokens repères. Ce mécanisme simple améliore l'extrapolation aux contextes longs sans sacrifier les caractéristiques locales saillantes, au prix de l'introduction d'un petit nombre de tokens spéciaux. Nous démontrons empiriquement que le LMK pooling égalise les méthodes existantes sur les tâches de recherche en contexte court et apporte des améliorations substantielles sur les tâches en contexte long, ce qui en fait une alternative pratique et évolutive aux méthodes de pooling existantes.

Dynamiques de mémorisation dans la distillation de connaissances pour les modèles de langage
Memorization Dynamics in Knowledge Distillation for Language Models

Jan 21

ByJaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano

La distillation des connaissances (KD) est de plus en plus adoptée pour transférer les capacités des grands modèles linguistiques vers des modèles plus petits, offrant des améliorations significatives en termes d'efficacité et d'utilité tout en surpassant souvent l'affinage standard. Au-delà des performances, la KD est également explorée comme mécanisme de préservation de la vie privée pour atténuer le risque de fuite des données d'entraînement. Bien que la mémorisation des données d'entraînement ait été largement étudiée dans les contextes standard de pré-entraînement et d'affinage, sa dynamique dans un cadre de distillation des connaissances reste mal comprise. Dans ce travail, nous étudions la mémorisation à travers le pipeline de KD en utilisant trois familles de grands modèles linguistiques (Pythia, OLMo-2, Qwen-3) et trois jeux de données (FineWeb, Wikitext, Nemotron-CC-v2). Nous constatons : (1) les modèles distillés mémorisent significativement moins de données d'entraînement que l'affinage standard (réduisant la mémorisation de plus de 50 %) ; (2) certains exemples sont intrinsèquement plus faciles à mémoriser et représentent une large fraction de la mémorisation pendant la distillation (plus de ~95 %) ; (3) la mémorisation de l'élève est prévisible avant la distillation en utilisant des caractéristiques basées sur l'entropie zlib, la divergence KL et la perplexité ; et (4) bien que les distillations douce et dure aient des taux de mémorisation globaux similaires, la distillation dure présente un risque plus élevé : elle hérite 2,7 fois plus d'exemples spécifiques à l'enseignant que la distillation douce. Globalement, nous démontrons que la distillation peut offrir à la fois une meilleure généralisation et des risques de mémorisation réduits par rapport à l'affinage standard.

ExpAlign : Alignement vision-langage guidé par les attentes pour l'ancrage en vocabulaire ouvert
ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

Jan 30

ByJunyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang

L'alignement vision-langage à vocabulaire ouvert nécessite un appariement précis sous faible supervision. Pourtant, les méthodes existantes reposent soit sur des embeddings de phrases globaux manquant d'expressivité fine, soit introduisent un alignement au niveau des tokens avec une supervision explicite ou des architectures d'attention croisée lourdes. Nous proposons ExpAlign, un cadre d'alignement vision-langage théoriquement fondé, construit sur une formulation principlée d'apprentissage multi-instances. ExpAlign introduit une tête d'alignement par espérance qui effectue un pooling MIL doux par attention sur les similarités token-région, permettant une sélection implicite des tokens et des instances sans annotations supplémentaires. Pour stabiliser davantage l'apprentissage de l'alignement, nous développons un schéma de régularisation par cohérence multi-échelle basée sur l'énergie, incluant un objectif contrastif multi-positif Top-K et un Objectif de Cohérence Géométrique dérivé d'une minimisation d'énergie libre sous contrainte lagrangienne. Des expériences approfondies montrent qu'ExpAlign améliore constamment la détection à vocabulaire ouvert et la segmentation d'instances zero-shot, particulièrement sur les catégories à longue traîne. Plus notablement, il atteint un AP_r de 36.2 sur le jeu LVIS minival, surpassant d'autres méthodes state-of-the-art à échelle de modèle comparable, tout en restant léger et efficace à l'inférence.

Drive-JEPA : JEPA vidéo et distillation de trajectoire multimodale pour la conduite de bout en bout
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

Jan 29

ByLinhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu

La conduite autonome de bout en bout exploite de plus en plus le pré-entraînement vidéo auto-supervisé pour apprendre des représentations de planification transférables. Cependant, le pré-entraînement de modèles mondes vidéo pour la compréhension de scène n'a jusqu'à présent apporté que des améliorations limitées. Cette limitation est aggravée par l'ambiguïté inhérente à la conduite : chaque scène ne fournit typiquement qu'une seule trajectoire humaine, rendant difficile l'apprentissage de comportements multimodaux. Dans ce travail, nous proposons Drive-JEPA, un cadre qui intègre l'Architecture Prédictive à Codage Conjoint Vidéo (V-JEPA) avec une distillation de trajectoires multimodales pour la conduite de bout en bout. Premièrement, nous adaptons V-JEPA pour la conduite de bout en bout, en pré-entraînant un encodeur ViT sur de grandes vidéos de conduite pour produire des représentations prédictives alignées avec la planification de trajectoire. Deuxièmement, nous introduisons un planificateur centré sur les propositions qui distille des trajectoires diverses générées par simulateur aux côtés des trajectoires humaines, avec un mécanisme de sélection sensible à la quantité de mouvement pour promouvoir un comportement stable et sûr. Lorsqu'elle est évaluée sur NAVSIM, la représentation V-JEPA combinée à un décodeur simple basé sur un transformateur surpasse les méthodes antérieures de 3 PDMS dans le cadre sans perception. Le cadre complet Drive-JEPA atteint 93,3 PDMS sur la version 1 et 87,8 EPDMS sur la version 2, établissant un nouvel état de l'art.

Acheminer la loterie : Sous-réseaux adaptatifs pour données hétérogènes
Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

Jan 29

ByGrzegorz Stefanski, Alberto Presta, Michal Byra

Dans l'élagage de réseaux de neurones, l'hypothèse du billet gagnant (Lottery Ticket Hypothesis) postule que les grands réseaux contiennent des sous-réseaux parcimonieux, ou « billets gagnants », qui peuvent être entraînés isolément pour atteindre des performances équivalentes à celles de leurs contreparties denses. Cependant, la plupart des approches existantes supposent l'existence d'un unique billet gagnant universel partagé par toutes les entrées, ignorant ainsi l'hétérogénéité intrinsèque des données réelles. Dans ce travail, nous proposons « Router le billet gagnant » (Routing the Lottery, RTL), un cadre d'élagage adaptatif qui découvre plusieurs sous-réseaux spécialisés, appelés « billets adaptatifs », chacun étant conçu pour une classe, un cluster sémantique ou une condition environnementale spécifique. Sur divers jeux de données et tâches, RTL surpasse systématiquement les modèles de référence à modèle unique ou multiples en termes de précision équilibrée et de rappel, tout en utilisant jusqu'à 10 fois moins de paramètres que des modèles indépendants et en présentant un alignement sémantique. Par ailleurs, nous identifions l'effondrement des sous-réseaux, une baisse de performance sous un élagage agressif, et introduisons un score de similarité des sous-réseaux qui permet un diagnostic sans étiquette de la sur-parcimonie. Globalement, nos résultats reconsidèrent l'élagage comme un mécanisme d'alignement de la structure du modèle avec l'hétérogénéité des données, ouvrant la voie à un apprentissage profond plus modulaire et conscient du contexte.

SONIC-O1 : Un benchmark en conditions réelles pour évaluer les modèles de langage multimodaux sur la compréhension audio-vidéo
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Jan 29

ByAhmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza

Les modèles de langage de grande taille multimodaux (MLLM) sont un axe majeur de la recherche récente en IA. Cependant, la plupart des travaux antérieurs se concentrent sur la compréhension d'images statiques, tandis que leur capacité à traiter des données audio-vidéo séquentielles reste peu explorée. Cette lacune souligne la nécessité d'un benchmark de haute qualité pour évaluer systématiquement les performances des MLLM dans un cadre réaliste. Nous présentons SONIC-O1, un benchmark complet et entièrement vérifié par des humains, couvrant 13 domaines conversationnels réels avec 4 958 annotations et des métadonnées démographiques. SONIC-O1 évalue les MLLM sur des tâches clés, incluant la synthèse ouverte, la réponse à des questions à choix multiples (QCM) et la localisation temporelle avec des justifications raisonnées. Les expériences sur des modèles propriétaires et open source révèlent des limitations. Bien que l'écart de performance en précision sur les QCM entre deux familles de modèles soit relativement faible, nous observons une différence substantielle de 22,6 % dans la localisation temporelle entre le meilleur modèle propriétaire et le meilleur modèle open source. Les performances se dégradent en outre selon les groupes démographiques, indiquant des disparités persistantes dans le comportement des modèles. Globalement, SONIC-O1 fournit une suite d'évaluation ouverte pour une compréhension multimodale ancrée temporellement et socialement robuste. Nous publions SONIC-O1 pour la reproductibilité et la recherche : Page du projet : https://vectorinstitute.github.io/sonic-o1/ Jeu de données : https://huggingface.co/datasets/vector-institute/sonic-o1 Github : https://github.com/vectorinstitute/sonic-o1 Classement : https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

KAPSO : Un cadre fondé sur la connaissance pour la synthèse et l'optimisation autonomes de programmes
KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization

Jan 29

ByAlireza Nadaf, Alireza Mohammadshahi, Majid Yazdani

Nous présentons KAPSO, un cadre modulaire pour la synthèse et l'optimisation autonomes de programmes. Étant donné un objectif en langage naturel et une méthode d'évaluation, KAPSO effectue itérativement des phases d'idéation, de synthèse et de modification de code, d'exécution, d'évaluation et d'apprentissage pour améliorer un artefact exécutable en vue d'objectifs mesurables. Plutôt que de considérer la synthèse comme un point final, KAPSO l'utilise comme un opérateur au sein d'une boucle d'optimisation à long terme, où les progrès sont définis par les résultats de l'évaluateur. KAPSO cible les échecs courants à long terme des agents de codage, tels que la perte de l'état expérimental, le débogage fragile et la faible réutilisation de l'expertise métier, en intégrant trois composants étroitement couplés. Premièrement, un moteur d'expérimentation natif git isole chaque tentative dans une branche, produisant des artefacts reproductibles et préservant la traçabilité entre les itérations. Deuxièmement, un système de connaissances ingère des sources hétérogènes, incluant des dépôts, des playbooks internes et des ressources externes organisées telles que de la documentation, des articles scientifiques et des résultats de recherche web, puis les structure en une représentation organisée qui permet une recherche basée sur les workflows, les implémentations et les contraintes d'environnement. Troisièmement, une couche de mémoire cognitive coordonne la récupération d'information et maintient un stock épisodique de leçons réutilisables, distillées à partir des traces d'expérimentation (journaux d'exécution, différences de code et retours de l'évaluateur), réduisant ainsi la répétition des modes d'erreur et accélérant la convergence. Nous avons évalué KAPSO sur MLE-Bench (compétitions de ML de type Kaggle) et ALE-Bench (optimisation heuristique de type AtCoder), et rapportons les performances de bout en bout. Code disponible à l'adresse : https://github.com/Leeroo-AI/kapso

Pourquoi les motifs d'attention existent : une analyse unificatrice sous l'angle temporel
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Jan 29

ByQingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li

Les motifs d'attention jouent un rôle crucial dans l'entraînement et l'inférence des grands modèles de langage. Les travaux antérieurs ont identifié des motifs individuels tels que les têtes de récupération, les têtes d'absorption et les traces diagonales, mais ces observations demeurent fragmentées et manquent d'une explication unificatrice. Pour combler cette lacune, nous présentons l'Analyse de Prévisibilité des Motifs d'Attention Temporelle (TAPPA), un cadre unificateur qui explique la diversité des motifs d'attention en analysant leurs formulations mathématiques sous-jacentes d'une perspective temporellement continue. TAPPA approfondit à la fois la compréhension du comportement de l'attention et guide les approches d'accélération de l'inférence. Plus précisément, TAPPA caractérise les motifs d'attention comme étant soit des motifs prévisibles avec des régularités claires, soit des motifs imprévisibles apparaissant effectivement aléatoires. Notre analyse révèle en outre que cette distinction peut s'expliquer par le degré d'auto-similarité des requêtes le long de la dimension temporelle. En nous concentrant sur les motifs prévisibles, nous fournissons une analyse mathématique détaillée de trois cas représentatifs à travers l'effet conjoint des requêtes, des clés et des Embeddings Positionnels Rotatifs (RoPE). Nous validons TAPPA en appliquant ses insights à des tâches de compression du cache KV et d'élagage de modèles de langage. Pour ces tâches, une métrique simple inspirée par TAPPA améliore constamment les performances par rapport aux méthodes de référence. Le code est disponible à l'adresse https://github.com/MIRALab-USTC/LLM-TAPPA.

Test de Turing de Personnalisation Visuelle
Visual Personalization Turing Test

Jan 30

ByRameen Abdal, James Burgess, Sergey Tulyakov, Kuan-Chieh Jackson Wang

Nous introduisons le Test de Turing de Personnalisation Visuelle (VTPV), un nouveau paradigme pour évaluer la personnalisation visuelle contextuelle basée sur l'indiscernabilité perceptuelle plutôt que sur la réplication d'identité. Un modèle réussit le VTPV si sa production (image, vidéo, actif 3D, etc.) est indiscernable, pour un humain ou un modèle de langage visuel (MLV) calibré, d'un contenu qu'une personne donnée pourrait vraisemblablement créer ou partager. Pour opérationnaliser le VTPV, nous présentons le Cadre VTPV, intégrant un benchmark de 10 000 personae (VTPV-Bench), un générateur augmenté par récupération visuelle (GARV), et le Score VTPV, une métrique textuelle calibrée sur les jugements humains et des MLV. Nous montrons une forte corrélation entre les évaluations humaines, par MLV et par VTPV, validant le Score VTPV comme un proxy perceptuel fiable. Les expériences démontrent que le GARV atteint le meilleur équilibre alignement-originalité, offrant une base évolutive et respectueuse de la vie privée pour l'IA générative personnalisée.

Apprentissage automatique pour l'ordonnancement énergétiquement performant
Machine Learning for Energy-Performance-aware Scheduling

Jan 30

ByZheyuan Hu, Yifei Shi

À l'ère post-Dennard, l'optimisation des systèmes embarqués nécessite de naviguer des compromis complexes entre efficacité énergétique et latence. Le réglage heuristique traditionnel s'avère souvent inefficace dans ces paysages de recherche de haute dimension et non lisses. Dans ce travail, nous proposons un cadre d'Optimisation Bayesienne utilisant des Processus Gaussiens pour automatiser la recherche des configurations d'ordonnancement optimales sur des architectures hétérogènes multi-cœurs. Nous abordons explicitement la nature multi-objectif du problème en approximant la Frontière de Pareto entre l'énergie et le temps. De plus, en intégrant une Analyse de Sensibilité (fANOVA) et en comparant différents noyaux de covariance (par exemple, Matérn contre RBF), nous apportons une interprétabilité physique au modèle boîte noire, révélant les paramètres matériels dominants qui pilotent la performance du système.

Pré-entraînement axé sur la valeur avec rétroaction en aval
Value-Based Pre-Training with Downstream Feedback

Jan 29

ByShuqi Ke, Giulia Fanti

Une faible quantité d'informations vérifiées sur l'objectif peut-elle orienter le prétraitement auto-supervisé coûteux des modèles de fondation ? Le prétraitement standard optimise un objectif proxy fixe (par exemple, la prédiction du token suivant), ce qui peut allouer de manière sous-optimale les ressources de calcul par rapport aux capacités en aval souhaitées. Nous introduisons V-Pretraining : une méthode agnostique à la modalité, basée sur la valeur, pour un prétraitement continu contrôlé, dans laquelle un concepteur de tâches léger remodelle la tâche de prétraitement pour maximiser la valeur de chaque étape de gradient. Par exemple, considérons l'apprentissage auto-supervisé (SSL) avec augmentation d'échantillons. Le concepteur de tâches de V-Pretraining sélectionne des tâches de prétraitement (par exemple, des augmentations) pour lesquelles le gradient de la perte de prétraitement est aligné avec un gradient calculé sur une tâche en aval (par exemple, la segmentation d'image). Cela aide à orienter le prétraitement vers les capacités en aval pertinentes. Notamment, le modèle prétraité n'est jamais mis à jour sur les étiquettes de la tâche en aval ; celles-ci sont utilisées uniquement pour façonner la tâche de prétraitement. Avec des budgets de mise à jour de l'apprenant équivalents, le V-Pretraining appliqué à des modèles de langage de 0,5 à 7 milliards de paramètres améliore le raisonnement (GSM8K test Pass@1) jusqu'à 18 % relativement par rapport à la prédiction standard du token suivant, en utilisant seulement 12 % des exemples d'entraînement de GSM8K comme rétroaction. En vision par SSL, nous améliorons les résultats de l'état de l'art sur ADE20K jusqu'à 1,07 mIoU et réduisons le RMSE de NYUv2 tout en améliorant la précision linéaire sur ImageNet, et nous fournissons des preuves préliminaires d'une meilleure efficacité des tokens lors d'un prétraitement continu.