papers.description
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) offre un mécanisme robuste pour améliorer le raisonnement mathématique dans les grands modèles. Cependant, nous identifions un manque systématique d'accent sur les questions plus difficiles dans les méthodes existantes, tant du point de vue algorithmique que des données, malgré leur importance pour affiner les capacités sous-développées. Sur le plan algorithmique, l'optimisation de politique relative par groupe (GRPO), largement utilisée, souffre d'un déséquilibre implicite où l'amplitude des mises à jour de la politique est plus faible pour les questions difficiles. Du point de vue des données, les approches d'augmentation reformulent principalement les questions pour améliorer la diversité sans augmenter systématiquement la difficulté intrinsèque. Pour résoudre ces problèmes, nous proposons un cadre MathForge à double volet pour améliorer le raisonnement mathématique en ciblant les questions plus difficiles sous ces deux angles, qui comprend un algorithme d'optimisation de politique de groupe sensible à la difficulté (DGPO) et une stratégie de reformulation de questions multi-aspects (MQR). Concrètement, DGPO corrige d'abord le déséquilibre implicite de GRPO via une estimation équilibrée de l'avantage de groupe selon la difficulté, et priorise ensuite les questions difficiles par une pondération au niveau des questions sensible à la difficulté. Parallèlement, MQR reformule les questions sous plusieurs aspects pour augmenter la difficulté tout en conservant la réponse de référence originale. Globalement, MathForge forme une boucle synergique : MQR élargit la frontière des données, et DGPO apprend efficacement des données augmentées. Des expériences approfondies montrent que MathForge surpasse significativement les méthodes existantes sur diverses tâches de raisonnement mathématique. Le code et les données augmentées sont disponibles à l'adresse https://github.com/AMAP-ML/MathForge.
Nous présentons LingBot-World, un simulateur mondial open-source issu de la génération vidéo. Positionné comme un modèle mondial de premier ordre, LingBot-World offre les caractéristiques suivantes. (1) Il maintient une fidélité élevée et une dynamique robuste dans un large éventail d'environnements, incluant le réalisme, les contextes scientifiques, les styles cartoon, et au-delà. (2) Il permet un horizon de niveau minute tout en préservant la cohérence contextuelle dans le temps, également appelée « mémoire à long terme ». (3) Il prend en charge l'interactivité en temps réel, atteignant une latence inférieure à 1 seconde pour une production de 16 images par seconde. Nous mettons publiquement à disposition le code et le modèle dans le but de réduire l'écart entre les technologies open-source et propriétaires. Nous sommes convaincus que notre publication dotera la communauté d'applications pratiques dans des domaines tels que la création de contenu, le jeu vidéo et l'apprentissage robotique.
Nous présentons Innovator-VL, un modèle linguistique multimodal scientifique conçu pour faire progresser la compréhension et le raisonnement dans divers domaines scientifiques tout en maintenant d'excellentes performances sur les tâches visuelles générales. Contrairement à la tendance qui consiste à s'appuyer sur un pré-entraînement massif spécifique à un domaine et des pipelines opaques, notre travail démontre qu'une conception d'entraînement rigoureuse et une méthodologie transparente peuvent produire une forte intelligence scientifique avec des besoins en données considérablement réduits. (i) Premièrement, nous fournissons un pipeline d'entraînement entièrement transparent et reproductible de bout en bout, couvrant la collecte, le nettoyage et le prétraitement des données, le réglage fin supervisé, l'apprentissage par renforcement et l'évaluation, ainsi que des procédures d'optimisation détaillées. Cela facilite une extension systématique par la communauté. (ii) Deuxièmement, Innovator-VL présente une remarquable efficacité des données, atteignant des performances compétitives sur diverses tâches scientifiques en utilisant moins de cinq millions d'échantillons triés, sans pré-entraînement à grande échelle. Ces résultats soulignent qu'un raisonnement efficace peut être obtenu par une sélection rigoureuse des données plutôt que par un scaling indistinct. (iii) Troisièmement, Innovator-VL démontre une forte généralisation, obtenant des performances compétitives sur des benchmarks de vision générale, de raisonnement multimodal et scientifiques. Cela indique que l'alignement scientifique peut être intégré dans un modèle unifié sans compromettre les capacités généralistes. Nos pratiques suggèrent que des modèles multimodaux scientifiques efficaces, reproductibles et performants peuvent être construits même sans données à grande échelle, fournissant une base pratique pour les recherches futures.
Nous présentons DeepSeek-OCR 2 afin d'étudier la faisabilité d'un nouvel encodeur - DeepEncoder V2 - capable de réordonner dynamiquement les tokens visuels selon la sémantique de l'image. Les modèles vision-langage (VLM) conventionnels traitent invariablement les tokens visuels selon un ordre rigide de balayage raster (haut-gauche vers bas-droit) avec un encodage positionnel fixe lorsqu'ils sont introduits dans les LLM. Cependant, cela contredit la perception visuelle humaine, qui suit des schémas de balayage flexibles mais sémantiquement cohérents, guidés par des structures logiques inhérentes. Particulièrement pour les images aux compositions complexes, la vision humaine présente un traitement séquentiel informé par la causalité. Inspiré par ce mécanisme cognitif, DeepEncoder V2 est conçu pour doter l'encodeur de capacités de raisonnement causal, lui permettant de réordonner intelligemment les tokens visuels avant l'interprétation du contenu par le LLM. Ce travail explore un nouveau paradigme : la compréhension d'images 2D peut-elle être efficacement réalisée via deux structures de raisonnement causal 1D en cascade, offrant ainsi une nouvelle approche architecturale ayant le potentiel d'atteindre un véritable raisonnement 2D. Les codes et les poids des modèles sont librement accessibles à l'adresse http://github.com/deepseek-ai/DeepSeek-OCR-2.
Le renforcement de l'apprentissage a permis aux grands modèles linguistiques d'agir comme des agents intelligents, mais leur entraînement pour des tâches à long horizon reste difficile en raison de la rareté des trajectoires de haute qualité, particulièrement dans un contexte de ressources limitées. Les méthodes existantes augmentent généralement le nombre de déploiements et allouent indistinctement les ressources computationnelles entre les étapes intermédiaires. Ces tentatives gaspillent intrinsèquement un budget computationnel substantiel sur des étapes triviales tout en échouant à garantir la qualité des échantillons. Pour remédier à cela, nous proposons Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), un nouveau cadre qui opère un branchement sélectif aux états décisionnels critiques pour une exploration économe en ressources. Notre idée clé est d'activer une exploration adaptative par branchement aux points de décision critiques pour sonder les trajectoires prometteuses, réalisant ainsi une allocation précise des ressources qui privilégie la qualité de l'échantillonnage plutôt qu'une couverture aveugle. Cette conception exploite les signaux décisionnels intrinsèques de l'agent pour réduire la dépendance aux connaissances a priori humaines, permettant à l'agent d'étendre autonome-ment son exploration et d'atteindre une plus forte généralisation. Les expériences sur diverses tâches (par exemple, la planification incarnée) démontrent que Spark atteint des taux de réussite supérieurs avec significativement moins d'échantillons d'entraînement, en présentant une généralisation robuste même dans des scénarios non vus.
Les représentations des modèles de langage contiennent souvent des directions linéaires correspondant à des concepts de haut niveau. Nous étudions ici la dynamique de ces représentations : comment elles évoluent le long de ces dimensions dans le contexte de conversations (simulées). Nous constatons que les représentations linéaires peuvent changer considérablement au cours d'une conversation ; par exemple, une information représentée comme factuelle au début peut être représentée comme non factuelle à la fin, et vice versa. Ces changements sont dépendants du contenu ; tandis que les représentations des informations pertinentes pour la conversation peuvent évoluer, les informations génériques sont généralement préservées. Ces modifications sont robustes, même pour des dimensions qui dissocient la factualité de motifs de réponse plus superficiels, et se produisent à travers différentes familles de modèles et différentes couches du modèle. Ces changements représentationnels ne nécessitent pas de conversations sur politique ; même la relecture d'un script de conversation écrit par un modèle entièrement différent peut produire des modifications similaires. Cependant, l'adaptation est beaucoup plus faible lorsque le contexte se limite simplement à une histoire de science-fiction explicitement présentée comme telle. Nous montrons également que piloter le modèle le long d'une direction représentationnelle peut avoir des effets radicalement différents à différents moments d'une conversation. Ces résultats sont compatibles avec l'idée que les représentations peuvent évoluer en réponse au modèle jouant un rôle particulier induit par une conversation. Nos résultats pourraient poser des défis pour l'interprétabilité et le pilotage – en particulier, ils impliquent qu'il pourrait être trompeur d'utiliser des interprétations statiques des caractéristiques ou des directions, ou des sondes qui supposent qu'une plage particulière de caractéristiques correspond systématiquement à une valeur de vérité terrain spécifique. Cependant, ce type de dynamique représentationnelle ouvre également de nouvelles pistes de recherche passionnantes pour comprendre comment les modèles s'adaptent au contexte.
Les grands modèles de langage sont de plus en plus affinés par apprentissage par renforcement dans des domaines vérifiables comme la programmation et les mathématiques. Pourtant, les méthodes actuelles d'apprentissage par renforcement avec récompenses vérifiables (RLVR) n'apprennent qu'à partir d'une récompense scalaire par tentative, créant un sévère goulot d'étranglement pour l'attribution de crédit. De nombreux environnements vérifiables fournissent en réalité un retour textuel riche, comme des erreurs d'exécution ou des évaluations de juge, qui expliquent pourquoi une tentative a échoué. Nous formalisons ce cadre comme l'apprentissage par renforcement avec retour riche et introduisons l'Optimisation de Politique par Auto-distillation (SDPO), qui convertit le retour tokenisé en un signal d'apprentissage dense sans aucun enseignant externe ou modèle de récompense explicite. SDPO traite le modèle actuel conditionné par le retour comme un auto-enseignant et distille ses prédictions de tokens suivants informées par le retour dans la politique. Ainsi, SDPO exploite la capacité du modèle à identifier rétrospectivement ses propres erreurs en contexte. Sur le raisonnement scientifique, l'utilisation d'outils et la programmation compétitive avec LiveCodeBench v6, SDPO améliore l'efficacité d'échantillonnage et la précision finale par rapport à des bases solides en RLVR. Notamment, SDPO surpasse également les bases dans des environnements RLVR standards qui ne renvoient qu'un retour scalaire, en utilisant les rollouts réussis comme retour implicite pour les tentatives échouées. Enfin, l'application de SDPO à des questions individuelles au moment du test accélère la découverte sur des tâches difficiles à récompense binaire, atteignant la même probabilité de découverte que l'échantillonnage best-of-k ou les conversations multi-tours avec 3 fois moins de tentatives.
Malgré l'aisance syntaxique des modèles de langage de grande taille (LLM), garantir leur exactitude logique dans des domaines à haut risque demeure un défi fondamental. Nous présentons un cadre neurosymbolique qui combine les LLM avec des solveurs SMT pour produire des réponses guidées par la vérification via un raffinement itératif. Notre approche décompose les sorties des LLM en affirmations atomiques, les auto-formalise en logique du premier ordre et vérifie leur cohérence logique à l'aide de la démonstration automatique de théorèmes. Nous introduisons trois innovations clés : (1) un consensus multi-modèles via la vérification d'équivalence sémantique formelle pour assurer un alignement au niveau logique entre les candidats, éliminant le biais syntaxique des métriques de forme de surface, (2) un routage sémantique qui dirige différents types d'affirmations vers des stratégies de vérification appropriées : les solveurs symboliques pour les affirmations logiques et des ensembles de LLM pour le raisonnement de sens commun, et (3) une localisation précise des erreurs logiques via les Sous-ensembles de Correction Minimale (MCS), qui identifient le sous-ensemble exact d'affirmations à réviser, transformant les signaux d'échec binaires en un retour d'information actionnable. Notre cadre classe les affirmations selon leur statut logique et agrège de multiples signaux de vérification en un score unifié avec une pénalité basée sur la variance. Le système affine itérativement les réponses en utilisant un retour structuré jusqu'à ce que les critères d'acceptation soient satisfaits ou qu'une convergence soit atteinte. Cette approche hybride offre des garanties formelles lorsque cela est possible et une vérification par consensus ailleurs, faisant progresser l'IA digne de confiance. Avec le modèle GPT-OSS-120B, VERGE démontre une amélioration moyenne des performances de 18,7 % à la convergence sur un ensemble de benchmarks de raisonnement par rapport aux approches en une seule passe.
Les agents d'interface graphique (GUI) présentent un potentiel considérable pour permettre aux modèles de fondation d'accomplir des tâches du monde réel, révolutionnant l'interaction homme-machine et améliorant la productivité humaine. Dans ce rapport, nous présentons OmegaUse, un modèle d'agent GUI polyvalent pour l'exécution autonome de tâches sur les plateformes mobiles et de bureau, prenant en charge les scénarios d'utilisation d'ordinateur et de téléphone. La construction d'un modèle d'agent GUI efficace repose sur deux facteurs : (1) des données de haute qualité et (2) des méthodes d'entraînement efficaces. Pour y répondre, nous introduisons un pipeline de construction de données soigneusement conçu et un paradigme d'entraînement découplé. Pour la construction des données, nous exploitons des ensembles de données open-source rigoureusement organisés et introduisons un nouveau cadre de synthèse automatisée qui intègre une exploration autonome ascendante avec une génération guidée par une taxonomie descendante pour créer des données synthétiques de haute fidélité. Pour l'entraînement, afin de mieux exploiter ces données, nous adoptons une stratégie en deux étapes : le Fine-Tuning Supervisé (SFT) pour établir la syntaxe d'interaction fondamentale, suivi par l'Optimisation de Politique Relative par Groupe (GRPO) pour améliorer l'ancrage spatial et la planification séquentielle. Pour équilibrer l'efficacité computationnelle avec la capacité de raisonnement agentique, OmegaUse est construit sur une architecture de Mélange d'Experts (MoE). Pour évaluer les capacités cross-terminal en mode hors ligne, nous introduisons OS-Nav, une suite de benchmarks couvrant plusieurs systèmes d'exploitation : ChiM-Nav, ciblant les environnements mobiles Android chinois, et Ubu-Nav, axé sur les interactions de bureau courantes sous Ubuntu. Des expériences approfondies montrent qu'OmegaUse est très compétitif sur les benchmarks GUI établis, atteignant un score state-of-the-art (SOTA) de 96,3% sur ScreenSpot-V2 et un taux de réussite par étape leader de 79,1% sur AndroidControl. OmegaUse performe également fortement sur OS-Nav, atteignant 74,24% de réussite par étape sur ChiM-Nav et 55,9% de succès moyen sur Ubu-Nav.
Les agents de codage à poids ouverts devraient détenir un avantage fondamental sur les systèmes propriétaires : ils peuvent être spécialisés pour des bases de code privées, en encodant des informations spécifiques au dépôt directement dans leurs poids. Pourtant, le coût et la complexité de l'entraînement ont maintenu cet avantage au stade théorique. Nous démontrons qu'il est désormais pratique. Nous présentons les Agents de Dépôt Efficaces à Vérification Souple (SERA), une méthode efficace pour entraîner des agents de codage qui permet la création rapide et économique d'agents spécialisés pour des bases de code privées. En utilisant uniquement du fine-tuning supervisé (SFT), SERA obtient des résultats à l'état de l'art parmi les modèles entièrement open-source (données, méthode, code ouvertes) tout en égalant les performances de modèles à poids ouverts de pointe comme Devstral-Small-2. La création de modèles SERA est 26 fois moins chère que l'apprentissage par renforcement et 57 fois moins chère que les méthodes précédentes utilisant des données synthétiques pour atteindre des performances équivalentes. Notre méthode, la Génération à Vérification Souple (SVG), génère des milliers de trajectoires à partir d'un seul dépôt de code. Combinée à la rentabilité, cela permet la spécialisation à des bases de code privées. Au-delà de la spécialisation par dépôt, nous appliquons SVG à un plus grand corpus de bases de code, générant plus de 200 000 trajectoires synthétiques. Nous utilisons cet ensemble de données pour fournir une analyse détaillée des lois d'échelle, des ablations et des facteurs confondants pour l'entraînement d'agents de codage. Dans l'ensemble, nous pensons que notre travail accélérera considérablement la recherche sur les agents de codage ouverts et démontrera l'avantage des modèles open-source pouvant se spécialiser pour des bases de code privées. Nous publions SERA comme premier modèle de la série Open Coding Agents de Ai2, ainsi que tout notre code, nos données et notre intégration Claude Code pour soutenir la communauté de recherche.
L'espace des méthodes d'augmentation de résolution de caractéristiques indépendantes de la tâche est apparu comme un domaine de recherche prometteur pour créer efficacement des caractéristiques plus denses à partir de backbone visuels pré-entraînés. Ces méthodes constituent un raccourci pour obtenir des caractéristiques denses à un coût bien inférieur, en apprenant à mapper des caractéristiques basse résolution vers des versions haute résolution. Alors que les premiers travaux dans ce domaine utilisaient des approches d'augmentation itérative, les travaux plus récents sont passés à des méthodes basées sur l'attention croisée, qui risquent de rencontrer les mêmes problèmes d'échelle d'efficacité que les backbones dont elles augmentent la résolution. Dans ce travail, nous démontrons que les méthodes d'augmentation itérative peuvent encore rivaliser avec les méthodes basées sur l'attention croisée ; de plus, elles peuvent atteindre des performances de pointe avec des coûts d'inférence plus faibles. Nous proposons UPLiFT, une architecture pour des Transformations de Caractéristiques Légères et Denses à l'échelle du Pixel Universelles. Nous proposons également un opérateur efficace, le Local Attender, pour surmonter les limitations des méthodes itératives précédentes d'augmentation de caractéristiques. Cet opérateur utilise une formulation alternative de pooling attentionnel entièrement définie localement. Nous montrons que notre Local Attender permet à UPLiFT de maintenir des caractéristiques stables tout au long de l'augmentation de résolution, permettant des performances de pointe avec des coûts d'inférence inférieurs à ceux des sur-échantillonneurs de caractéristiques denses existants. De plus, nous appliquons UPLiFT à des tâches en aval génératives et montrons qu'il atteint des performances compétitives avec les modèles de Coupled Flow Matching de pointe pour l'augmentation de résolution de caractéristiques VAE. Dans l'ensemble, UPLiFT offre une approche versatile et efficace pour créer des caractéristiques plus denses.
Malgré des décennies de recherche sur la parole réverbérante, la comparaison des méthodes reste difficile car la plupart des corpus manquent d'annotations acoustiques par fichier ou fournissent une documentation limitée pour la reproduction. Nous présentons RIR-Mega-Speech, un corpus d'environ 117,5 heures créé en convoluant des énoncés de LibriSpeech avec environ 5 000 réponses impulsionnelles de salle simulées issues de la collection RIR-Mega. Chaque fichier inclut le TR60, le rapport direct/réverbéré (DRR) et l'indice de clarté (C₅₀) calculés à partir de la RIR source en utilisant des procédures clairement définies et reproductibles. Nous fournissons également des scripts pour reconstruire le jeu de données et reproduire tous les résultats d'évaluation. En utilisant Whisper small sur 1 500 énoncés appariés, nous mesurons un taux d'erreur de mots (WER) de 5,20 % (IC à 95 % : 4,69–5,78) sur la parole non bruitée et de 7,70 % (7,04–8,35) sur les versions réverbérées, ce qui correspond à une augmentation appariée de 2,50 points de pourcentage (2,06–2,98). Cela représente une dégradation relative de 48 %. Le WER augmente de manière monotone avec le TR60 et diminue avec le DRR, ce qui est cohérent avec les études perceptives antérieures. Bien que le résultat fondamental selon lequel la réverbération nuit à la reconnaissance soit bien établi, nous visons à fournir à la communauté une ressource standardisée où les conditions acoustiques sont transparentes et les résultats peuvent être vérifiés indépendamment. Le dépôt inclut des instructions de reconstruction en une seule commande pour les environnements Windows et Linux.
La détection multimodale du sarcasme (MSD) vise à identifier le sarcasme dans des paires image-texte en modélisant les incohérences sémantiques entre les modalités. Les méthodes existantes exploitent souvent le désalignement des plongements intermodaux pour détecter l'incohérence, mais peinent lorsque le contenu visuel et textuel est faiblement lié ou sémantiquement indirect. Bien que les approches récentes utilisent les grands modèles de langage (LLM) pour générer des indices sarcastiques, la diversité et la subjectivité inhérentes à ces générations introduisent souvent du bruit. Pour résoudre ces limitations, nous proposons le Réseau de Comparaison par Discrépance Générative (GDCNet). Ce cadre capture les conflits intermodaux en utilisant des descriptions d'images factuelles générées par des LLM multimodaux (MLLM) comme ancres sémantiques stables. Concrètement, GDCNet calcule les écarts sémantiques et sentimentaux entre la description objective générée et le texte original, tout en mesurant la fidélité visuo-textuelle. Ces caractéristiques de discrepancy sont ensuite fusionnées avec les représentations visuelles et textuelles via un module à porte pour équilibrer de manière adaptive les contributions des modalités. Des expériences approfondies sur des benchmarks de MSD démontrent la précision et la robustesse supérieures de GDCNet, établissant un nouvel état de l'art sur le benchmark MMSD2.0.
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a considérablement amélioré les capacités de raisonnement des grands modèles de langage (LLM), mais l'entraînement stagne souvent lorsque les problèmes deviennent saturés. Nous identifions le défi central comme étant la faible accessibilité des échecs informatifs : les signaux d'apprentissage existent mais sont rarement rencontrés lors des déroulements standards. Pour résoudre ce problème, nous proposons le conditionnement par préfixe d'échec, une méthode simple et efficace pour apprendre à partir de problèmes saturés. Plutôt que de partir de la question originale, notre approche réalloue l'exploration en conditionnant l'entraînement sur des préfixes dérivés de trajectoires de raisonnement incorrectes rares, exposant ainsi le modèle à des états propices à l'échec. Nous observons que le conditionnement par préfixe d'échec produit des gains de performance équivalents à ceux d'un entraînement sur des problèmes de difficulté moyenne, tout en préservant l'efficacité des tokens. De plus, nous analysons la robustesse du modèle, constatant que notre méthode réduit la dégradation des performances sous des préfixes d'échec trompeurs, bien qu'avec un léger compromis dans l'adhésion au raisonnement correct initial. Enfin, nous démontrons qu'une approche itérative, qui actualise les préfixes d'échec pendant l'entraînement, permet des gains supplémentaires après les plateaux de performance. Globalement, nos résultats suggèrent que le conditionnement par préfixe d'échec offre une voie efficace pour prolonger l'entraînement RLVR sur des problèmes saturés.
La reconnaissance automatique de la parole attribuée au locuteur (ASR) dans les environnements multi-locuteurs reste un défi majeur. Bien que certaines approches obtiennent de bonnes performances après un affinage sur des domaines spécifiques, peu de systèmes généralisent bien sur des ensembles de données hors domaine. Notre travail précédent, Diarization-Conditioned Whisper (DiCoW), exploite les sorties de la diarisation du locuteur comme information de conditionnement et, avec un affinage minimal, a démontré de solides performances multilingues et multi-domaines. Dans cet article, nous abordons une limitation clé de DiCoW : l'ambiguïté dans les masques Silence-Cible-Non-cible-Chevauchenent (STNO), où deux locuteurs ou plus se chevauchant entièrement peuvent avoir un conditionnement presque identique malgré des transcriptions différentes. Nous présentons SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), qui utilise la sortie de diarisation pour localiser un segment d'enrôlement n'importe où dans la conversation où le locuteur cible est le plus actif. Ce segment d'enrôlement est utilisé comme conditionnement fixe via une attention croisée à chaque couche de l'encodeur. Nous affinons en outre DiCoW avec une meilleure segmentation des données, une initialisation améliorée du modèle et de l'augmentation. Ensemble, ces avancées permettent des gains substantiels : SE-DiCoW réduit le tcpWER moyenné macro de 52,4 % par rapport au DiCoW original sur le benchmark EMMA MT-ASR.
Les progrès récents en raisonnement des grands modèles de langage (LLM) sont de plus en plus pilotés par l'affinement des fonctions de perte post-entraînement et des stratégies d'alignement. Cependant, les paradigmes standards d'apprentissage par renforcement (RL) tels que l'Optimisation de Politique Relative par Groupe (GRPO) restent limités par une uniformité statique : un échantillonnage uniforme des prompts et un nombre fixe de rollouts par prompt. Pour des données de raisonnement hétérogènes et à queue lourde, cela crée des inefficacités structurelles qui gaspillent des ressources de calcul sur des patterns déjà résolus tout en sous-entraînant la longue queue des problèmes difficiles. Pour résoudre ce problème, nous proposons l'Optimisation Robuste de Distribution par Groupe Multi-Adversaire (GDRO), un framework axé sur l'optimisation qui dépasse les modèles de raisonnement uniformes en adaptant dynamiquement la distribution d'entraînement. Nous introduisons un Classificateur de Difficulté en Ligne qui partitionne les prompts en groupes de difficulté dynamiques pass@k. Nous proposons ensuite deux jeux GDRO indépendants pour le post-entraînement : (1) Prompt-GDRO, qui utilise un échantillonneur bandit à poids multiplicatifs débiaisé par moyenne mobile exponentielle (EMA) pour cibler la marge de difficulté intensive et augmenter le poids des groupes persistamment difficiles sans biais de fréquence ; et (2) Rollout-GDRO, qui utilise un contrôleur à prix shadow pour réallouer les rollouts entre les groupes, maximisant la réduction de la variance du gradient sur les tâches difficiles sous un budget moyen fixe (neutre en calcul). Nous fournissons des garanties de non-regret pour les deux contrôleurs ainsi qu'une analyse par proxy de la variance justifiant une allocation optimale des rollouts en racine carrée pour Rollout-GDRO. Nous validons notre framework sur le jeu de données DAPO 14.1k en utilisant les modèles Qwen3-Base. Prompt-GDRO et Rollout-GDRO obtiennent des gains relatifs moyens de +10,6 % et +10,1 %, respectivement, en précision pass@8 aux échelles 1,7B, 4B et 8B par rapport à la baseline GRPO. Une analyse qualitative révèle un curriculum émergent : les adversaires redirigent les ressources vers la frontière de raisonnement évolutive, améliorant les performances du modèle de raisonnement.
Pour les tâches socialement sensibles telles que la détection des discours haineux, la qualité des explications fournies par les grands modèles de langage (LLM) est cruciale pour des facteurs comme la confiance des utilisateurs et l'alignement du modèle. Bien que l'incitation par persona (Persona Prompting, PP) soit de plus en plus utilisée pour orienter la génération du modèle vers des spécificités utilisateur, son effet sur les raisonnements du modèle reste peu exploré. Nous étudions comment les raisonnements générés par les LLM varient lorsqu'ils sont conditionnés par différentes personas démographiques simulées. En utilisant des jeux de données annotés avec des raisonnements au niveau des mots, nous mesurons l'accord avec les annotations humaines de différents groupes démographiques et évaluons l'impact du PP sur le biais du modèle et l'alignement humain. Notre évaluation sur trois LLM révèle trois résultats clés : (1) Le PP améliore la classification pour la tâche la plus subjective (discours haineux) mais dégrade la qualité du raisonnement. (2) Les personas simulées ne parviennent pas à s'aligner avec leurs contreparties démographiques réelles, et un fort accord inter-personas montre que les modèles résistent à un pilotage significatif. (3) Les modèles présentent des biais démographiques persistants et une forte tendance à sur-signaler le contenu comme étant nuisible, indépendamment du PP. Nos résultats révèlent un compromis critique : si le PP peut améliorer la classification dans les tâches socialement sensibles, cela se fait souvent au détriment de la qualité du raisonnement et n'atténue pas les biais sous-jacents, ce qui appelle à la prudence dans son application.
Le croquis offre un moyen intuitif de transmettre une intention dynamique dans la création d'animations (c'est-à-dire comment les éléments évoluent dans le temps et l'espace), ce qui en fait un médium naturel pour la création automatique de contenu. Pourtant, les approches existantes contraignent souvent les croquis à des tokens de commande fixes ou à des formes visuelles prédéfinies, négligeant leur nature libre et le rôle central de l'humain dans la formulation de l'intention. Pour résoudre ce problème, nous introduisons un paradigme d'interaction où les utilisateurs transmettent une intention dynamique à un modèle vision-langage via un croquis libre, matérialisé ici dans un workflow allant du storyboard dessiné aux motion graphics. Nous implémentons une interface et l'améliorons grâce à une étude en trois phases menée avec 24 participants. L'étude montre comment les croquis transmettent le mouvement avec un apport minimal, comment leur ambiguïté inhérente nécessite l'implication des utilisateurs pour clarification, et comment les croquis peuvent guider visuellement le raffinement vidéo. Nos résultats révèlent le potentiel de l'interaction croquis et IA pour combler le fossé entre l'intention et le résultat, et démontrent son applicabilité à l'animation 3D et à la génération vidéo.
La demande croissante de déploiement robotique en temps réel nécessite une inférence rapide et sur périphérique pour les modèles vision-langage-action (VLA). Dans la littérature VLA, l'efficacité a été largement étudiée au niveau des tokens, comme l'élagage de tokens visuels. En revanche, la réduction systématique des couches de transformers a reçu une attention limitée et, à notre connaissance, n'a pas été explorée pour les modèles VLA basés sur les flux sous distillation de connaissances. Dans ce travail, nous proposons Shallow-pi, un cadre de distillation de connaissances structuré qui réduit drastiquement la profondeur des transformers tant pour le backbone VLM que pour la tête d'action basée sur les flux, compressant le modèle de 18 à 6 couches. Shallow-pi réalise une inférence plus de deux fois plus rapide avec une baisse absolue de moins d'un pourcent du taux de réussite sur les benchmarks de manipulation standard, établissant ainsi des performances de pointe parmi les modèles VLA réduits. Surtout, nous validons notre approche par des expérimentations en conditions réelles à l'échelle industrielle sur Jetson Orin et Jetson Thor, à travers plusieurs plateformes robotiques, y compris des systèmes humanoïdes, dans des scénarios de manipulation complexes et dynamiques.