Articles de recherche en IA sélectionnés quotidiennement avec traductions
Bien que l'apprentissage profond ait connu un succès remarquable dans de nombreux domaines, il a historiquement sous-performé sur les tâches d'apprentissage tabulaire, qui restent dominées par les arbres de décision à gradient boosting (GBDT). Cependant, des avancées récentes ouvrent la voie aux modèles de fondation tabulaires, capables d'exploiter des connaissances du monde réel et de généraliser à travers des ensembles de données diversifiés, en particulier lorsque les données contiennent du texte libre. Bien que l'intégration de capacités de modèles de langage dans les tâches tabulaires ait été explorée, la plupart des méthodes existantes utilisent des représentations textuelles statiques et indépendantes de la cible, limitant ainsi leur efficacité. Nous présentons TabSTAR : un modèle de fondation tabulaire avec des représentations sémantiquement conscientes de la cible. TabSTAR est conçu pour permettre l'apprentissage par transfert sur des données tabulaires avec des caractéristiques textuelles, grâce à une architecture exempte de paramètres spécifiques à un ensemble de données. Il déverrouille un encodeur de texte pré-entraîné et prend en entrée des tokens cibles, qui fournissent au modèle le contexte nécessaire pour apprendre des embeddings spécifiques à la tâche. TabSTAR atteint des performances de pointe pour des ensembles de données de taille moyenne et grande sur des benchmarks connus de tâches de classification avec des caractéristiques textuelles, et sa phase de pré-entraînement montre des lois d'échelle en fonction du nombre d'ensembles de données, offrant ainsi une voie pour des améliorations de performances supplémentaires.
Les modèles récents de raisonnement à grande échelle (LRMs) ont démontré de solides capacités de raisonnement grâce à l'apprentissage par renforcement (RL). Ces améliorations ont principalement été observées dans des tâches de raisonnement à contexte court. En revanche, l'extension des LRMs pour traiter et raisonner efficacement sur des entrées à contexte long via le RL reste un défi critique non résolu. Pour combler cette lacune, nous formalisons d'abord le paradigme du RL pour le raisonnement à contexte long, et identifions les principaux défis liés à une efficacité d'entraînement sous-optimale et à un processus d'optimisation instable. Pour résoudre ces problèmes, nous proposons QwenLong-L1, un cadre qui adapte les LRMs à contexte court aux scénarios à contexte long via un échelonnement progressif du contexte. Plus précisément, nous utilisons une étape de fine-tuning supervisé (SFT) d'échauffement pour établir une politique initiale robuste, suivie d'une technique de RL par phases guidée par un curriculum pour stabiliser l'évolution de la politique, et renforcée par une stratégie d'échantillonnage rétrospectif sensible à la difficulté pour encourager l'exploration de la politique. Les expériences sur sept benchmarks de question-réponse sur des documents à contexte long démontrent que QwenLong-L1-32B surpasse les LRMs phares comme OpenAI-o3-mini et Qwen3-235B-A22B, atteignant des performances comparables à Claude-3.7-Sonnet-Thinking, et affichant des performances de pointe parmi les LRMs les plus avancés. Ce travail fait progresser le développement de LRMs pratiques à contexte long capables d'un raisonnement robuste dans des environnements riches en informations.
Les grands modèles de langage (LLMs) excellent dans les tâches de raisonnement complexe, mais restent coûteux en termes de calcul, limitant leur déploiement pratique. Pour remédier à cela, des travaux récents se sont concentrés sur la distillation des capacités de raisonnement dans des modèles de langage plus petits (sLMs) en utilisant des traces de chaîne de pensée (CoT) provenant de LLMs enseignants. Cependant, cette approche rencontre des difficultés dans les scénarios nécessitant des connaissances factuelles rares ou des calculs précis, où les sLMs ont souvent tendance à halluciner en raison de leurs capacités limitées. Dans ce travail, nous proposons la Distillation d'Agent, un cadre pour transférer non seulement la capacité de raisonnement, mais aussi le comportement complet de résolution de tâches, des agents basés sur LLM vers des sLMs équipés d'outils de recherche et de code. Nous améliorons la distillation d'agent selon deux axes complémentaires : (1) nous introduisons une méthode d'invite appelée préfixe de première pensée pour améliorer la qualité des trajectoires générées par l'enseignant ; et (2) nous proposons une génération d'actions auto-cohérente pour améliorer la robustesse des petits agents lors des tests. Nous évaluons notre méthode sur huit tâches de raisonnement dans les domaines factuels et mathématiques, couvrant à la fois la généralisation en domaine et hors domaine. Nos résultats montrent que des sLMs aussi petits que 0,5B, 1,5B, 3B paramètres peuvent atteindre des performances compétitives avec des modèles plus grands de 1,5B, 3B, 7B paramètres affinés par distillation CoT, démontrant le potentiel de la distillation d'agent pour construire des petits agents pratiques utilisant des outils. Notre code est disponible à l'adresse https://github.com/Nardien/agent-distillation.
L'évolution rapide des grands modèles de langage (LLMs) s'est accompagnée d'une augmentation sans précédent des besoins en calcul, les coûts d'entraînement des modèles de pointe doublant tous les quelques mois. L'entraînement direct des modèles en arithmétique de faible précision offre une solution, en améliorant à la fois le débit de calcul et l'efficacité énergétique. Plus précisément, l'architecture récente Blackwell de NVIDIA facilite les opérations en très faible précision, notamment les variantes FP4, promettant des gains substantiels en efficacité. Cependant, les algorithmes actuels pour l'entraînement des LLMs en précision FP4 souffrent d'une dégradation significative de la précision et reposent souvent sur des solutions de secours en précision mixte. Dans cet article, nous étudions systématiquement l'entraînement FP4 supporté par le matériel et introduisons Quartet, une nouvelle approche permettant un entraînement FP4 précis de bout en bout, avec toutes les principales opérations (par exemple dans les couches linéaires) effectuées en faible précision. Grâce à des évaluations approfondies sur des modèles de type Llama, nous révélons une nouvelle loi d'échelle en faible précision qui quantifie les compromis de performance à travers différentes largeurs de bits et nous permet d'identifier une technique d'entraînement en faible précision "quasi-optimale" en termes de précision contre calcul, appelée Quartet. Nous implémentons Quartet en utilisant des noyaux CUDA optimisés pour les GPU NVIDIA Blackwell, et montrons qu'il peut atteindre une précision de pointe pour la précision FP4, en entraînant avec succès des modèles à l'échelle du milliard. Notre méthode démontre que l'entraînement entièrement basé sur FP4 est une alternative compétitive à l'entraînement en précision standard et FP8. Notre code est disponible à l'adresse https://github.com/IST-DASLab/Quartet.
Les grands modèles de langage ont démontré une remarquable maîtrise dans des tâches de raisonnement longues et complexes. Cependant, ils manifestent fréquemment une dépendance problématique à des schémas de raisonnement familiers, un phénomène que nous qualifions de rigidité de raisonnement. Malgré des instructions explicites des utilisateurs, ces modèles ignorent souvent des conditions clairement énoncées et reviennent à des trajectoires de raisonnement habituelles, conduisant à des conclusions incorrectes. Ce comportement pose des défis significatifs, en particulier dans des domaines tels que les mathématiques et les énigmes logiques, où un respect précis des contraintes spécifiées est crucial. Pour étudier systématiquement la rigidité de raisonnement, un comportement largement inexploré dans les travaux antérieurs, nous introduisons un ensemble de diagnostics expertement conçu. Notre ensemble de données comprend des variantes spécialement modifiées de benchmarks mathématiques existants, à savoir AIME et MATH500, ainsi que des énigmes bien connues délibérément repensées pour exiger une déviation des stratégies de raisonnement familières. En utilisant cet ensemble de données, nous identifions des schémas récurrents de contamination qui se produisent lorsque les modèles reviennent à un raisonnement ancré. Plus précisément, nous catégorisons cette contamination en trois modes distincts : (i) Surcharge d'interprétation, (ii) Méfiance envers l'entrée, et (iii) Attention partielle aux instructions, chacun causant l'ignorance ou la distorsion des instructions fournies. Nous rendons public notre ensemble de diagnostics pour faciliter les recherches futures sur l'atténuation de la rigidité de raisonnement dans les modèles de langage.
L'apprentissage par renforcement (Reinforcement Learning, RL) a considérablement amélioré les capacités de raisonnement des modèles vision-langage (Vision-Language Models, VLMs). Cependant, l'utilisation du RL au-delà des tâches de raisonnement reste largement inexplorée, en particulier pour les tâches intensives en perception comme la détection d'objets et l'ancrage. Nous proposons V-Triune, un système de Triple Apprentissage par Renforcement Unifié Visuel qui permet aux VLMs d'apprendre conjointement des tâches de raisonnement visuel et de perception dans un seul pipeline d'entraînement. V-Triune comprend trois composants complémentaires : le Formatage des Données au Niveau de l'Échantillon (pour unifier les entrées de tâches diverses), le Calcul de Récompense au Niveau du Vérificateur (pour fournir des récompenses personnalisées via des vérificateurs spécialisés) et la Surveillance des Métriques au Niveau de la Source (pour diagnostiquer les problèmes au niveau de la source de données). Nous introduisons également une nouvelle récompense Dynamique IoU, qui fournit un retour d'information adaptatif, progressif et précis pour les tâches de perception gérées par V-Triune. Notre approche est instanciée dans un cadre d'entraînement RL standard en utilisant des modèles de base open-source de 7B et 32B. Le modèle résultant, baptisé Orsta (One RL to See Them All), démontre des améliorations constantes à la fois pour les tâches de raisonnement et de perception. Cette capacité étendue est largement influencée par son entraînement sur un ensemble de données diversifié, construit autour de quatre tâches de raisonnement visuel représentatives (Mathématiques, Puzzle, Graphique et Science) et de quatre tâches de perception visuelle (Ancrage, Détection, Comptage et OCR). Par la suite, Orsta obtient des gains substantiels sur MEGA-Bench Core, avec des améliorations allant de +2,1 à un impressionnant +14,1 pour ses différentes variantes de modèles 7B et 32B, les avantages en termes de performance s'étendant à un large éventail de tâches en aval. Ces résultats mettent en évidence l'efficacité et l'évolutivité de notre approche unifiée de RL pour les VLMs. Le système V-Triune, ainsi que les modèles Orsta, sont disponibles publiquement à l'adresse https://github.com/MiniMax-AI.
Les benchmarks existants ne parviennent pas à capturer un aspect crucial de l'intelligence : le raisonnement physique, c'est-à-dire la capacité intégrée à combiner des connaissances spécifiques à un domaine, un raisonnement symbolique et une compréhension des contraintes du monde réel. Pour combler cette lacune, nous introduisons PhyX : le premier benchmark à grande échelle conçu pour évaluer la capacité des modèles à raisonner de manière ancrée dans la physique dans des scénarios visuels. PhyX comprend 3 000 questions multimodales soigneusement sélectionnées, couvrant 6 types de raisonnement répartis dans 25 sous-domaines et 6 domaines fondamentaux de la physique : thermodynamique, électromagnétisme, mécanique, physique moderne, optique, et ondes & acoustique. Dans notre évaluation approfondie, même les modèles les plus avancés peinent considérablement avec le raisonnement physique. GPT-4o, Claude3.7-Sonnet et GPT-o4-mini atteignent respectivement des précisions de 32,5 %, 42,2 % et 45,8 % — des écarts de performance dépassant 29 % par rapport aux experts humains. Notre analyse révèle des limites critiques des modèles actuels : une dépendance excessive aux connaissances disciplinaires mémorisées, un recours excessif aux formulations mathématiques, et une correspondance superficielle des motifs visuels plutôt qu'une compréhension physique authentique. Nous fournissons une analyse approfondie à travers des statistiques granulaires, des études de cas détaillées et plusieurs paradigmes d'évaluation pour examiner minutieusement les capacités de raisonnement physique. Pour garantir la reproductibilité, nous mettons en œuvre un protocole d'évaluation compatible basé sur des outils largement utilisés tels que VLMEvalKit, permettant une évaluation en un seul clic.
Ce rapport technique présente QwenLong-CPRS, un cadre de compression de contexte conçu pour une optimisation explicite des longs contextes, abordant les surcoûts de calcul prohibitifs lors de la phase de préremplissage et la dégradation des performances "perdues au milieu" des grands modèles de langage (LLM) lors du traitement de longues séquences. Implémenté grâce à un nouveau mécanisme d'optimisation dynamique du contexte, QwenLong-CPRS permet une compression de contexte multi-granularité guidée par des instructions en langage naturel, obtenant à la fois des gains d'efficacité et une amélioration des performances. Évoluant de la série d'architectures Qwen, QwenLong-CPRS introduit quatre innovations clés : (1) Une optimisation dynamique guidée par le langage naturel, (2) Des couches de raisonnement bidirectionnel pour une meilleure conscience des limites, (3) Des mécanismes de critique de tokens avec des têtes de modélisation du langage, et (4) Une inférence parallèle par fenêtres. Des évaluations approfondies sur cinq benchmarks (contextes de 4K à 2M mots) démontrent l'efficacité triple de QwenLong-CPRS : (1) Une supériorité constante par rapport à d'autres méthodes de gestion de contexte comme RAG et l'attention sparse, tant en précision qu'en efficacité. (2) Une intégration indépendante de l'architecture avec tous les LLM phares, incluant GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 et Qwen2.5-max, atteignant une compression de contexte de 21.59 fois accompagnée de gains de performance moyens de 19.15 points ; (3) Déployé avec Qwen2.5-32B-Instruct, QwenLong-CPRS surpasse les LLM propriétaires leaders de 4.85 et 10.88 points sur Ruler-128K et InfiniteBench, établissant de nouvelles performances SOTA.
Alors que le coût marginal de mise à l'échelle des calculs (données et paramètres) pendant l'entraînement préalable des modèles continue d'augmenter de manière significative, la mise à l'échelle au moment du test (TTS) est apparue comme une direction prometteuse pour améliorer les performances des modèles génératifs en allouant des ressources de calcul supplémentaires au moment de l'inférence. Bien que la TTS ait démontré un succès notable dans de multiples tâches linguistiques, il subsiste un écart important dans la compréhension des comportements de mise à l'échelle au moment du test pour les modèles génératifs d'images et de vidéos (modèles basés sur la diffusion ou sur les flux). Bien que des travaux récents aient initié l'exploration de stratégies d'inférence pour les tâches visuelles, ces approches présentent des limitations critiques : elles sont restreintes à des domaines spécifiques, montrent une faible scalabilité, ou tombent dans une sur-optimisation de la récompense au détriment de la diversité des échantillons. Dans cet article, nous proposons Evolutionary Search (EvoSearch), une méthode TTS novatrice, généraliste et efficace qui améliore de manière significative la scalabilité de la génération d'images et de vidéos pour les modèles de diffusion et de flux, sans nécessiter d'entraînement supplémentaire ni d'extension du modèle. EvoSearch reformule la mise à l'échelle au moment du test pour les modèles de diffusion et de flux comme un problème de recherche évolutionnaire, exploitant les principes de l'évolution biologique pour explorer et affiner efficacement la trajectoire de débruitage. En intégrant des mécanismes de sélection et de mutation soigneusement conçus et adaptés au processus de débruitage par équations différentielles stochastiques, EvoSearch génère itérativement des descendants de meilleure qualité tout en préservant la diversité de la population. À travers une évaluation approfondie sur des architectures de diffusion et de flux pour des tâches de génération d'images et de vidéos, nous démontrons que notre méthode surpasse systématiquement les approches existantes, atteint une plus grande diversité, et montre une forte généralisabilité à des métriques d'évaluation inédites. Notre projet est disponible sur le site https://tinnerhrhe.github.io/evosearch.
Le classement des hypothèses est un élément crucial de la découverte scientifique automatisée, en particulier dans les sciences naturelles où les expériences en laboratoire sont coûteuses et limitées en débit. Les approches existantes se concentrent sur le classement pré-expérimental, s'appuyant uniquement sur le raisonnement interne des grands modèles de langage sans intégrer les résultats empiriques des expériences. Nous introduisons la tâche de classement guidé par les expériences, qui vise à hiérarchiser les hypothèses candidates en fonction des résultats des hypothèses précédemment testées. Cependant, développer de telles stratégies est difficile en raison de l'impraticabilité de répéter des expériences réelles dans les domaines des sciences naturelles. Pour résoudre ce problème, nous proposons un simulateur basé sur trois hypothèses informées par le domaine, modélisant la performance des hypothèses en fonction de leur similarité avec une hypothèse de vérité terrain connue, perturbée par du bruit. Nous constituons un ensemble de données de 124 hypothèses chimiques avec des résultats expérimentaux rapportés pour valider le simulateur. Sur la base de ce simulateur, nous développons une méthode de classement pseudo guidé par les expériences qui regroupe les hypothèses par caractéristiques fonctionnelles communes et hiérarchise les candidates en fonction des insights dérivés des retours d'expériences simulées. Les expériences montrent que notre méthode surpasse les bases de référence pré-expérimentales et des ablations robustes.
Le choix du bruit initial influence significativement la qualité et l'alignement des modèles de diffusion vidéo, où différentes graines de bruit pour le même prompt peuvent conduire à des générations radicalement différentes. Bien que les méthodes récentes s'appuient sur des a priori conçus de manière externe, tels que des filtres de fréquence ou un lissage inter-images, elles négligent souvent les signaux internes du modèle qui indiquent quelles graines de bruit sont intrinsèquement préférables. Pour remédier à cela, nous proposons ANSE (Active Noise Selection for Generation), un cadre conscient du modèle qui sélectionne des graines de bruit de haute qualité en quantifiant l'incertitude basée sur l'attention. Au cœur de cette approche se trouve BANSA (Bayesian Active Noise Selection via Attention), une fonction d'acquisition qui mesure les désaccords d'entropie à travers plusieurs échantillons d'attention stochastiques pour estimer la confiance et la cohérence du modèle. Pour un déploiement efficace lors de l'inférence, nous introduisons une approximation masquée de Bernoulli de BANSA qui permet l'estimation des scores en utilisant une seule étape de diffusion et un sous-ensemble de couches d'attention. Les expériences sur CogVideoX-2B et 5B démontrent qu'ANSE améliore la qualité vidéo et la cohérence temporelle avec seulement une augmentation de 8% et 13% du temps d'inférence, respectivement, offrant ainsi une approche rigoureuse et généralisable à la sélection de bruit dans la diffusion vidéo. Consultez notre page de projet : https://anse-project.github.io/anse-project/
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) excellent dans les tâches complexes grâce au raisonnement en chaîne de pensée (Chain-of-Thought, CoT). Cependant, leur tendance à trop réfléchir entraîne des chaînes de raisonnement inutilement longues, augmentant considérablement les coûts d'inférence. Pour atténuer ce problème, nous introduisons VeriThinker, une nouvelle approche de compression du CoT. Contrairement aux méthodes conventionnelles qui affinent directement les LRMs sur la tâche de raisonnement originale en utilisant des données synthétiques de CoT concis, nous affinons de manière innovante le modèle uniquement à travers une tâche de vérification auxiliaire. En entraînant les LRMs à vérifier avec précision l'exactitude des solutions CoT, ces modèles deviennent intrinsèquement plus perspicaces quant à la nécessité des étapes de réflexion ultérieures, supprimant ainsi efficacement la tendance à trop réfléchir. Des expériences approfondies valident que VeriThinker réduit considérablement la longueur des chaînes de raisonnement tout en maintenant, voire en améliorant légèrement, la précision. Lorsqu'il est appliqué à DeepSeek-R1-Distill-Qwen-7B, notre approche réduit les tokens de raisonnement sur MATH500 de 3790 à 2125 tout en améliorant la précision de 0,8 % (de 94,0 % à 94,8 %), et sur AIME25, les tokens diminuent de 14321 à 10287 avec un gain de précision de 2,1 % (de 38,7 % à 40,8 %). De plus, nos expériences démontrent que VeriThinker peut également être généralisé de manière zero-shot au raisonnement spéculatif. Le code est disponible à l'adresse suivante : https://github.com/czg1225/VeriThinker.
Comprendre les scènes visuelles est fondamental pour l'intelligence humaine. Bien que les modèles discriminatifs aient considérablement fait progresser la vision par ordinateur, ils peinent souvent à appréhender la compositionnalité. En revanche, les récents modèles génératifs de diffusion texte-image excellent dans la synthèse de scènes complexes, suggérant des capacités compositionnelles intrinsèques. S'appuyant sur cela, des classificateurs de diffusion en zero-shot ont été proposés pour réutiliser les modèles de diffusion dans des tâches discriminatives. Bien que les travaux antérieurs aient montré des résultats prometteurs dans des scénarios discriminatifs compositionnels, ces résultats restent préliminaires en raison du nombre limité de benchmarks et d'une analyse relativement superficielle des conditions de réussite des modèles. Pour remédier à cela, nous présentons une étude approfondie des capacités discriminatives des classificateurs de diffusion sur un large éventail de tâches compositionnelles. Plus précisément, notre étude couvre trois modèles de diffusion (SD 1.5, 2.0 et, pour la première fois, 3-m) sur 10 jeux de données et plus de 30 tâches. De plus, nous éclairons le rôle que jouent les domaines des jeux de données cibles dans les performances respectives ; pour isoler les effets de domaine, nous introduisons un nouveau benchmark diagnostique, Self-Bench, composé d'images créées par les modèles de diffusion eux-mêmes. Enfin, nous explorons l'importance de la pondération des pas de temps et mettons en évidence une relation entre l'écart de domaine et la sensibilité aux pas de temps, en particulier pour SD3-m. En résumé, les classificateurs de diffusion comprennent la compositionnalité, mais sous certaines conditions ! Le code et les jeux de données sont disponibles à l'adresse https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
La génération de formes 3D haute résolution à l'aide de représentations volumétriques telles que les fonctions de distance signée (SDF) pose des défis substantiels en termes de calcul et de mémoire. Nous présentons Direct3D S2, un cadre de génération 3D évolutif basé sur des volumes clairsemés, qui atteint une qualité de sortie supérieure tout en réduisant considérablement les coûts d'entraînement. Notre innovation clé est le mécanisme d'attention spatiale clairsemée (Spatial Sparse Attention, SSA), qui améliore grandement l'efficacité des calculs des Transformers de Diffusion sur des données volumétriques clairsemées. Le SSA permet au modèle de traiter efficacement de grands ensembles de tokens au sein de volumes clairsemés, réduisant ainsi significativement la surcharge computationnelle et obtenant une accélération de 3,9x pour la passe avant et de 9,6x pour la passe arrière. Notre cadre inclut également un autoencodeur variationnel qui maintient un format volumétrique clairsemé cohérent aux étapes d'entrée, latente et de sortie. Par rapport aux méthodes précédentes utilisant des représentations hétérogènes dans les VAE 3D, cette conception unifiée améliore significativement l'efficacité et la stabilité de l'entraînement. Notre modèle est entraîné sur des ensembles de données publiquement disponibles, et les expériences démontrent que Direct3D S2 surpasse non seulement les méthodes de pointe en termes de qualité et d'efficacité de génération, mais permet également un entraînement à une résolution de 1024 en utilisant seulement 8 GPU, une tâche qui nécessiterait typiquement au moins 32 GPU pour des représentations volumétriques à une résolution de 256, rendant ainsi la génération 3D à l'échelle du gigascale à la fois pratique et accessible. Page du projet : https://nju3dv.github.io/projects/Direct3D-S2/.
L'évolution rapide et les applications croissantes des modèles de langage audio de grande envergure (ALLMs) nécessitent une compréhension rigoureuse de leur fiabilité. Cependant, les recherches systématiques sur l'évaluation de ces modèles, en particulier concernant les risques spécifiques à la modalité audio, restent largement inexplorées. Les cadres d'évaluation existants se concentrent principalement sur la modalité textuelle ou abordent seulement un ensemble restreint de dimensions de sécurité, ne tenant pas suffisamment compte des caractéristiques uniques et des scénarios d'application inhérents à la modalité audio. Nous présentons AudioTrust, le premier cadre d'évaluation multidimensionnel de la fiabilité et benchmark spécifiquement conçu pour les ALLMs. AudioTrust facilite les évaluations à travers six dimensions clés : équité, hallucination, sécurité, confidentialité, robustesse et authentification. Pour évaluer de manière exhaustive ces dimensions, AudioTrust est structuré autour de 18 configurations expérimentales distinctes. Son cœur repose sur un ensemble de données méticuleusement construit de plus de 4 420 échantillons audio/texte, tirés de scénarios réels (par exemple, conversations quotidiennes, appels d'urgence, interactions avec des assistants vocaux), spécifiquement conçus pour explorer la fiabilité multidimensionnelle des ALLMs. Pour l'évaluation, le benchmark conçoit soigneusement 9 métriques spécifiques à l'audio, et nous employons un pipeline automatisé à grande échelle pour un scoring objectif et évolutif des sorties de modèles. Les résultats expérimentaux révèlent les limites de fiabilité des ALLMs open-source et closed-source de pointe actuels lorsqu'ils sont confrontés à divers scénarios audio à haut risque, offrant des insights précieux pour le déploiement sécurisé et fiable des futurs modèles audio. Notre plateforme et benchmark sont disponibles à l'adresse https://github.com/JusperLee/AudioTrust.
Les grands modèles de langage présentent un biais positionnel -- une négligence systématique de l'information à des positions spécifiques dans le contexte --, mais son interaction avec la diversité linguistique reste mal comprise. Nous présentons une étude interlinguistique portant sur cinq langues typologiquement distinctes (anglais, russe, allemand, hindi, vietnamien), examinant comment le biais positionnel interagit avec l'incertitude du modèle, la syntaxe et l'incitation (prompting). Principaux résultats : (1) Le biais positionnel est piloté par le modèle, avec des variations spécifiques à la langue -- Qwen2.5-7B favorise les positions tardives, remettant en question l'hypothèse d'un biais en faveur des premiers tokens ; (2) Un guidage positionnel explicite (par exemple, "le contexte correct est à la position X") réduit la précision dans toutes les langues, sapant les pratiques d'ingénierie des prompts ; (3) L'alignement du contexte avec le biais positionnel augmente l'entropie, mais une entropie minimale ne prédit pas la précision. (4) Nous découvrons en outre que les LLM imposent différemment l'ordre dominant des mots dans les langues à ordre libre comme le hindi.
Les systèmes de génération augmentée par recherche (RAG) permettent aux grands modèles de langage (LLM) d'accéder à des connaissances externes lors de l'inférence. Les avancées récentes ont permis aux LLM d'agir comme agents de recherche via l'apprentissage par renforcement (RL), améliorant l'acquisition d'informations grâce à des interactions multi-tours avec des moteurs de recherche. Cependant, les approches existantes optimisent soit la recherche en utilisant des métriques spécifiques à la recherche (par exemple, NDCG) qui ignorent l'utilité en aval, soit affinent l'ensemble du LLM pour raisonner et récupérer conjointement, ce qui entrelace la recherche avec la génération et limite l'utilité réelle de la recherche ainsi que la compatibilité avec des modèles figés ou propriétaires. Dans ce travail, nous proposons s3, un cadre léger et indépendant du modèle, qui découple le chercheur du générateur et entraîne le chercheur en utilisant une récompense de Gain Au-Delà de RAG : l'amélioration de la précision de génération par rapport à un RAG naïf. s3 nécessite seulement 2,4k échantillons d'entraînement pour surpasser les modèles de référence entraînés sur plus de 70 fois plus de données, offrant systématiquement de meilleures performances en aval sur six benchmarks de questions-réponses générales et cinq benchmarks de questions-réponses médicales.
L'alignement des grands modèles de langage (LLM) pour détecter avec précision les hallucinations reste un défi majeur en raison de la nature sophistiquée des textes hallucinés. Conscients que les échantillons hallucinés présentent généralement une qualité trompeuse supérieure à celle des échantillons négatifs traditionnels, nous utilisons ces hallucinations soigneusement conçues comme exemples négatifs dans la procédure d'alignement DPO. Notre méthode intègre une stratégie d'apprentissage curriculaire, passant progressivement de l'entraînement sur des échantillons plus faciles, identifiés par la plus forte réduction des scores de probabilité des modèles de vérification des faits indépendants, à des échantillons de plus en plus difficiles. Cette gradation structurée de la difficulté assure un apprentissage stable et progressif. L'évaluation expérimentale montre que nos modèles HaluCheck, entraînés avec l'approche DPO curriculaire et des échantillons négatifs de haute qualité, améliorent significativement les performances du modèle sur diverses métriques, atteignant des améliorations allant jusqu'à 24 % sur des benchmarks difficiles comme MedHallu et HaluEval. De plus, les modèles HaluCheck démontrent une robustesse en contexte zero-shot, surpassant significativement les modèles de pointe plus grands sur divers benchmarks.
L'ingénierie front-end implique un flux de travail complexe où les ingénieurs conceptualisent des designs, les traduisent en code, et affinent itérativement l'implémentation. Alors que les benchmarks récents se concentrent principalement sur la conversion de designs visuels en code, nous présentons FullFront, un benchmark conçu pour évaluer les Modèles de Langage Multimodaux (MLLMs) à travers l'ensemble du pipeline de développement front-end. FullFront évalue trois tâches fondamentales qui correspondent directement au pipeline de l'ingénierie front-end : la Conception de Page Web (phase de conceptualisation), les Questions-Réponses sur la Perception de Page Web (compréhension de l'organisation visuelle et des éléments), et la Génération de Code de Page Web (phase d'implémentation). Contrairement aux benchmarks existants qui utilisent soit des sites web scrapés avec un code gonflé, soit du HTML généré par LLM trop simplifié, FullFront emploie un processus novateur en deux étapes pour transformer des pages web réelles en HTML propre et standardisé tout en conservant des designs visuels variés et en évitant les problèmes de droits d'auteur. Des tests approfondis des MLLMs de pointe révèlent des limitations significatives dans la perception des pages, la génération de code (notamment pour la gestion des images et des mises en page), et l'implémentation des interactions. Nos résultats démontrent quantitativement les disparités de performance entre les modèles et les tâches, et mettent en lumière un écart substantiel entre les capacités actuelles des MLLMs et la performance des experts humains en ingénierie front-end. Le benchmark FullFront et son code sont disponibles sur https://github.com/Mikivishy/FullFront.
L'apprentissage par renforcement (RL) s'est imposé comme une méthode efficace pour entraîner des modèles de raisonnement. Cependant, les approches RL existantes biaisent généralement la distribution des sorties du modèle vers des chemins maximisant la récompense, sans introduire de connaissances externes. Cela limite leur capacité d'exploration et aboutit à une frontière de raisonnement plus étroite par rapport aux modèles de base. Pour pallier cette limitation, nous proposons TAPO (Thought-Augmented Policy Optimization), un cadre novateur qui enrichit le RL en intégrant des guidages externes de haut niveau ("schémas de pensée"). En intégrant de manière adaptative des pensées structurées pendant l'entraînement, TAPO équilibre efficacement l'exploration interne du modèle et l'exploitation des guidages externes. Des expériences approfondies montrent que notre approche surpasse significativement GRPO de 99 % sur AIME, 41 % sur AMC et 17 % sur Minerva Math. Il est à noter que ces schémas de pensée de haut niveau, abstraits à partir de seulement 500 échantillons préalables, se généralisent efficacement à travers diverses tâches et modèles. Cela met en lumière le potentiel de TAPO pour des applications plus larges dans de multiples tâches et domaines. Notre analyse approfondie révèle que l'introduction de guidages externes produit des modèles de raisonnement puissants, dotés d'une explication supérieure du comportement d'inférence et d'une meilleure lisibilité des sorties.
Les grands modèles de langage (LLM) démontrent des capacités impressionnantes mais manquent d'une intelligence temporelle robuste, peinant à intégrer un raisonnement sur le passé avec des prédictions et des générations plausibles du futur. Par ailleurs, les méthodes existantes ciblent généralement des compétences temporelles isolées, comme la réponse à des questions sur des événements passés ou des prévisions basiques, et montrent une faible généralisation, en particulier lorsqu'il s'agit d'événements au-delà de leur date de connaissance ou nécessitant une vision créative. Pour pallier ces limites, nous introduisons Time-R1, le premier cadre permettant de doter un LLM de taille modérée (3 milliards de paramètres) de capacités temporelles complètes : compréhension, prédiction et génération créative. Notre approche repose sur un parcours de développement en trois étapes novateur ; les deux premières constituent un curriculum d'apprentissage par renforcement (RL) piloté par un système de récompenses dynamique basé sur des règles soigneusement conçues. Ce cadre construit progressivement (1) une compréhension temporelle fondamentale et des correspondances logiques entre événements et temps à partir de données historiques, (2) des compétences de prédiction d'événements futurs au-delà de sa date de connaissance, et enfin (3) permet une généralisation remarquable à la génération de scénarios futurs créatifs sans aucun ajustement fin. De manière frappante, les expériences montrent que Time-R1 surpasse des modèles plus de 200 fois plus grands, y compris le modèle de pointe DeepSeek-R1 de 671 milliards de paramètres, sur des benchmarks très exigeants de prédiction d'événements futurs et de génération de scénarios créatifs. Ce travail fournit des preuves solides qu'un ajustement fin progressif et bien conçu en RL permet à des modèles plus petits et efficaces d'atteindre une performance temporelle supérieure, offrant une voie pratique et évolutive vers une IA véritablement consciente du temps. Pour encourager la recherche, nous publions également Time-Bench, un ensemble de données multi-tâches à grande échelle pour le raisonnement temporel dérivé de 10 ans de données d'actualité, ainsi que notre série de points de contrôle Time-R1.
La croissance rapide des assistants vocaux alimentés par des modèles de langage de grande taille (LLM) a mis en lumière le besoin de données d'instructions vocales pour entraîner ces systèmes. Malgré l'abondance de données de reconnaissance vocale, il existe une pénurie notable de données d'instructions vocales, essentielles pour affiner les modèles afin qu'ils comprennent et exécutent des commandes parlées. La génération de synthèse vocale de haute qualité nécessite un bon modèle de synthèse vocale (TTS), qui peut ne pas être disponible pour les langues à ressources limitées. Notre approche novatrice relève ce défi en interrompant la synthèse au niveau de la représentation sémantique, évitant ainsi le besoin de TTS. Nous y parvenons en alignant les représentations sémantiques synthétiques avec l'encodeur pré-entraîné Whisper, permettant ainsi à un LLM d'être affiné sur des instructions textuelles tout en conservant la capacité de comprendre les instructions parlées lors de l'inférence. Ce processus d'entraînement simplifié constitue une approche prometteuse pour développer des assistants vocaux pour les langues à ressources limitées.
L'avancée rapide des modèles multi-modaux natifs et des modèles omni-modaux, illustrée par GPT-4o, Gemini et o3, avec leur capacité à traiter et générer du contenu à travers des modalités telles que le texte et les images, marque une étape significative dans l'évolution de l'intelligence. L'évaluation systématique de leurs capacités de sortie multi-modales dans les processus de pensée visuelle (également appelée chaîne de pensée multi-modale, M-CoT) devient d'une importance cruciale. Cependant, les benchmarks existants pour évaluer les modèles multi-modaux se concentrent principalement sur l'évaluation des entrées multi-modales et du raisonnement textuel, tout en négligeant l'importance du raisonnement à travers les sorties multi-modales. Dans cet article, nous présentons un benchmark, nommé RBench-V, conçu pour évaluer les capacités de raisonnement visuel indispensable des modèles. Pour construire RBench-V, nous avons soigneusement sélectionné 803 questions couvrant les mathématiques, la physique, le dénombrement et les jeux. Contrairement aux benchmarks précédents qui spécifient généralement certaines modalités d'entrée, RBench-V présente des problèmes centrés sur les sorties multi-modales, qui nécessitent la manipulation d'images telles que la génération de nouvelles images et la construction de lignes auxiliaires pour soutenir le processus de raisonnement. Nous évaluons de nombreux modèles open-source et propriétaires sur RBench-V, y compris o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Même le modèle le plus performant, o3, n'atteint qu'une précision de 25,8 % sur RBench-V, bien en dessous du score humain de 82,3 %, soulignant que les modèles actuels peinent à exploiter le raisonnement multi-modal. Les données et le code sont disponibles à l'adresse https://evalmodels.github.io/rbenchv.
La restauration d'images nocturnes affectées par plusieurs conditions météorologiques défavorables constitue un problème de recherche pratique mais encore peu exploré, car ces conditions coexistent souvent dans le monde réel avec divers effets d'éclairage nocturne. Cet article explore en premier lieu la tâche complexe de restauration d'images nocturnes multi-météo, où différents types de dégradations météorologiques s'entremêlent avec des effets de flare. Pour soutenir cette recherche, nous contribuons avec le jeu de données AllWeatherNight, qui propose des images nocturnes de grande qualité à grande échelle présentant diverses dégradations compositionnelles, synthétisées grâce à notre méthode de génération de dégradations prenant en compte l'illumination. De plus, nous présentons ClearNight, un cadre unifié de restauration d'images nocturnes, qui élimine efficacement les dégradations complexes en une seule étape. Plus précisément, ClearNight extrait des priors doubles basés sur Retinex et guide explicitement le réseau pour qu'il se concentre respectivement sur les régions d'illumination inégale et les contenus texturaux intrinsèques, améliorant ainsi l'efficacité de la restauration dans les scénarios nocturnes. Afin de mieux représenter les caractéristiques communes et uniques des dégradations météorologiques multiples, nous introduisons une méthode de collaboration dynamique spécifique-commune prenant en compte la météo, qui identifie les dégradations météorologiques et sélectionne de manière adaptative les unités candidates optimales associées à des types de météo spécifiques. Notre ClearNight atteint des performances de pointe à la fois sur des images synthétiques et réelles. Des expériences d'ablation approfondies valident la nécessité du jeu de données AllWeatherNight ainsi que l'efficacité de ClearNight. Page du projet : https://henlyta.github.io/ClearNight/mainpage.html
Apprendre aux grands modèles de langage (LLM) à être fidèles dans le contexte fourni est crucial pour construire des systèmes de recherche d'information fiables. Par conséquent, nous proposons un cadre systématique, CANOE, pour améliorer la fidélité des LLM dans les tâches de génération à la fois courtes et longues, sans annotations humaines. Plus précisément, nous synthétisons d'abord des données de questions-réponses (QA) courtes avec quatre tâches variées pour construire des données d'entraînement de haute qualité et facilement vérifiables sans annotation humaine. En outre, nous proposons Dual-GRPO, une méthode d'apprentissage par renforcement basée sur des règles qui inclut trois récompenses basées sur des règles adaptées, dérivées des données QA courtes synthétisées, tout en optimisant simultanément la génération de réponses courtes et longues. Notamment, Dual-GRPO élimine le besoin d'étiqueter manuellement des données de préférence pour entraîner des modèles de récompense et évite la sur-optimisation de la génération courte en s'appuyant uniquement sur les données QA courtes synthétisées. Les résultats expérimentaux montrent que CANOE améliore considérablement la fidélité des LLM sur 11 tâches en aval différentes, surpassant même les LLM les plus avancés, comme GPT-4o et OpenAI o1.
L'apprentissage par renforcement (Reinforcement Learning, RL) est une méthode puissante pour adapter les modèles de base à des tâches spécialisées, mais sa dépendance à des données annotées à grande échelle par des humains limite son adoption généralisée. Nous introduisons Synthetic Data RL, un cadre simple et général qui affine les modèles par renforcement en utilisant uniquement des données synthétiques générées à partir d'une définition de tâche. Notre méthode génère d'abord des paires de questions et réponses à partir de la définition de la tâche et de documents récupérés, puis adapte la difficulté de la question en fonction de la capacité du modèle à la résoudre, et sélectionne les questions en utilisant le taux de réussite moyen du modèle sur plusieurs échantillons pour l'entraînement RL. Sur Qwen-2.5-7B, notre méthode obtient une amélioration absolue de 29,2 % par rapport au modèle de base sur GSM8K (+2,9 pp par rapport au modèle ajusté par instructions, +6,6 pp par rapport à Self-Instruct), de 8,7 % sur MATH, de 13,1 % sur GPQA (+7,0 pp par rapport à SynthLLM), de 8,9 % sur MedQA, de 17,7 % sur CQA (droit) et de 13,7 % sur CFA (finance). Elle surpasse l'ajustement supervisé avec le même budget de données et atteint presque les performances du RL avec des données humaines complètes sur plusieurs jeux de données (par exemple, +17,2 pp sur GSM8K). L'ajout de 100 démonstrations humaines n'améliore la performance sur GSM8K que de 0,4 pp, montrant une valeur ajoutée limitée. En réduisant l'annotation de données humaines, Synthetic Data RL permet une adaptation de modèle basée sur le RL scalable et efficace. Le code et les démonstrations sont disponibles à l'adresse https://github.com/gydpku/Data_Synthesis_RL/.
Trinity-RFT est un cadre généraliste, flexible et évolutif conçu pour le réglage fin par renforcement (RFT) des grands modèles de langage. Il est construit selon une conception découplée, comprenant (1) un noyau RFT qui unifie et généralise les modes synchrones/asynchrones, on-policy/off-policy, et en ligne/hors ligne du RFT, (2) une intégration fluide pour l'interaction agent-environnement avec une haute efficacité et robustesse, et (3) des pipelines de données systématiques optimisés pour le RFT. Trinity-RFT peut être facilement adapté à divers scénarios d'application et sert de plateforme unifiée pour explorer les paradigmes avancés de l'apprentissage par renforcement. Ce rapport technique présente la vision, les caractéristiques, la conception et les implémentations de Trinity-RFT, accompagnés de nombreux exemples démontrant l'utilité et la convivialité du cadre proposé.
Nous présentons ScanBot, un nouveau jeu de données conçu pour le balayage de surface à haute précision conditionné par des instructions dans les systèmes robotiques. Contrairement aux jeux de données existants pour l'apprentissage robotique qui se concentrent sur des tâches grossières telles que la préhension, la navigation ou le dialogue, ScanBot cible les exigences de haute précision du balayage laser industriel, où la continuité de trajectoire au niveau submillimétrique et la stabilité des paramètres sont critiques. Le jeu de données couvre des trajectoires de balayage laser exécutées par un robot sur 12 objets variés et 6 types de tâches, incluant des scans de surface complète, des régions centrées sur la géométrie, des parties spatialement référencées, des structures fonctionnellement pertinentes, l'inspection de défauts et l'analyse comparative. Chaque scan est guidé par des instructions en langage naturel et est associé à des profils RGB, de profondeur et laser synchronisés, ainsi qu'aux poses du robot et aux états des articulations. Malgré les progrès récents, les modèles vision-langage-action (VLA) existants échouent encore à générer des trajectoires de balayage stables sous des instructions fines et des exigences de précision réalistes. Pour étudier cette limitation, nous évaluons une gamme de modèles de langage multimodaux (MLLMs) sur l'ensemble de la boucle perception-planification-exécution, révélant des défis persistants dans le suivi d'instructions sous des contraintes réalistes.
Le déploiement rapide des modèles vision-langage (VLMs) amplifie les risques de sécurité, pourtant la plupart des évaluations reposent sur des images artificielles. Cette étude pose la question suivante : à quel point les VLMs actuels sont-ils sûrs face aux images de mèmes que les utilisateurs ordinaires partagent ? Pour explorer cette question, nous introduisons MemeSafetyBench, un benchmark de 50 430 instances associant des images de mèmes réels à des instructions à la fois nuisibles et bénignes. En utilisant une taxonomie de sécurité complète et une génération d'instructions basée sur des LLM, nous évaluons plusieurs VLMs dans des interactions à un tour et à plusieurs tours. Nous examinons comment les mèmes du monde réel influencent les sorties nuisibles, les effets atténuants du contexte conversationnel, et la relation entre l'échelle du modèle et les métriques de sécurité. Nos résultats montrent que les VLMs présentent une plus grande vulnérabilité aux invites nuisibles basées sur des mèmes qu'aux images synthétiques ou typographiques. Les mèmes augmentent significativement les réponses nuisibles et réduisent les refus par rapport aux entrées textuelles uniquement. Bien que les interactions à plusieurs tours offrent une atténuation partielle, une vulnérabilité accrue persiste. Ces résultats soulignent la nécessité d'évaluations écologiquement valides et de mécanismes de sécurité renforcés.
Malgré les progrès récents dans la génération texte-image (T2I), les modèles existants peinent souvent à capturer fidèlement les intentions des utilisateurs à partir d'invites courtes et sous-spécifiées. Alors que des travaux antérieurs ont tenté d'améliorer les invites en utilisant des modèles de langage à grande échelle (LLMs), ces méthodes génèrent fréquemment un contenu stylisé ou irréaliste en raison d'un ancrage insuffisant dans la sémantique visuelle et la composition du monde réel. Inspirés par les avancées récentes en raisonnement pour les modèles de langage, nous proposons RePrompt, un nouveau cadre de reprompting qui introduit un raisonnement explicite dans le processus d'amélioration des invites via l'apprentissage par renforcement. Au lieu de s'appuyer sur des règles prédéfinies ou des réécritures stylistiques, notre méthode entraîne un modèle de langage à générer des invites structurées et auto-réfléchies en optimisant les résultats au niveau de l'image. Les modèles de récompense sur mesure évaluent les images générées en termes de préférence humaine, d'alignement sémantique et de composition visuelle, fournissant une supervision indirecte pour affiner la génération des invites. Notre approche permet un entraînement de bout en bout sans données annotées manuellement. Les expériences sur GenEval et T2I-Compbench montrent que RePrompt améliore significativement la fidélité de la disposition spatiale et la généralisation compositionnelle à travers divers modèles T2I, établissant de nouveaux résultats de pointe.
La génération de vidéos contrôlable (CVG) a progressé rapidement, mais les systèmes actuels échouent lorsque plusieurs acteurs doivent se déplacer, interagir et échanger leurs positions sous des signaux de contrôle bruités. Nous comblons cette lacune avec DanceTogether, le premier cadre de diffusion end-to-end qui transforme une seule image de référence ainsi que des flux indépendants de masques de pose en des vidéos longues et photoréalistes, tout en préservant strictement chaque identité. Un nouvel adaptateur, le MaskPoseAdapter, lie "qui" et "comment" à chaque étape de débrui-tage en fusionnant des masques de suivi robustes avec des cartes de chaleur de pose sémantiquement riches mais bruitées, éliminant ainsi la dérive d'identité et le saignement d'apparence qui affectent les pipelines basés sur des images individuelles. Pour l'entraînement et l'évaluation à grande échelle, nous introduisons (i) PairFS-4K, 26 heures de séquences de patinage en duo avec plus de 7 000 identités distinctes, (ii) HumanRob-300, un ensemble d'une heure d'interaction humanoïde-robot pour un transfert rapide entre domaines, et (iii) TogetherVideoBench, un benchmark à trois volets centré sur la suite de tests DanceTogEval-100 couvrant la danse, la boxe, la lutte, le yoga et le patinage artistique. Sur TogetherVideoBench, DanceTogether surpasse les méthodes précédentes de manière significative. De plus, nous montrons qu'un réglage fin d'une heure produit des vidéos humain-robot convaincantes, soulignant une généralisation large aux tâches d'intelligence artificielle incarnée et d'interaction humain-robot (HRI). Des ablations approfondies confirment que la liaison persistante entre identité et action est cruciale pour ces gains. Ensemble, notre modèle, jeux de données et benchmark élèvent la CVG d'une chorégraphie à sujet unique à une interaction multi-acteurs contrôlable de manière compositionnelle, ouvrant de nouvelles voies pour la production numérique, la simulation et l'intelligence incarnée. Nos démonstrations vidéo et code sont disponibles à l'adresse https://DanceTog.github.io/.
Nous présentons RIPT-VLA, un paradigme simple et évolutif d'apprentissage par renforcement interactif post-entraînement qui affine des modèles Vision-Langue-Action (VLA) pré-entraînés en utilisant uniquement des récompenses binaires de succès éparses. Les pipelines d'entraînement existants pour les modèles VLA reposent fortement sur des données de démonstration expertes hors ligne et sur l'imitation supervisée, limitant ainsi leur capacité à s'adapter à de nouvelles tâches et environnements dans des régimes à faible quantité de données. RIPT-VLA résout ce problème en permettant un post-entraînement interactif avec un algorithme d'optimisation de politique stable basé sur un échantillonnage dynamique de déploiement et une estimation d'avantage par exclusion mutuelle. RIPT-VLA possède les caractéristiques suivantes. Premièrement, il s'applique à divers modèles VLA, améliorant le modèle léger QueST de 21,2 % et portant le modèle OpenVLA-OFT de 7B à un taux de succès inédit de 97,5 %. Deuxièmement, il est efficace en termes de calcul et de données : avec une seule démonstration, RIPT-VLA permet à un modèle SFT initialement inopérant (4 %) d'atteindre un taux de succès de 97 % en seulement 15 itérations. De plus, nous démontrons que la politique apprise par RIPT-VLA se généralise à différentes tâches et scénarios et est robuste au contexte de l'état initial. Ces résultats mettent en évidence RIPT-VLA comme un paradigme pratique et efficace pour le post-entraînement des modèles VLA avec une supervision minimale.
Les grands modèles de langage sont généralement adaptés à des tâches spécifiques par un ajustement supervisé sur des données de domaine. Alors que l'ajustement standard se concentre sur la minimisation de la perte de génération pour optimiser les paramètres du modèle, nous allons plus loin en conservant et en exploitant les signaux d'apprentissage propres au modèle, de manière analogue à la façon dont les apprenants humains réfléchissent à leurs erreurs passées pour améliorer leurs performances futures. Nous introduisons d'abord le concept de Journal des Erreurs pour suivre systématiquement le comportement d'apprentissage du modèle et les erreurs récurrentes tout au long de l'ajustement. En traitant le modèle transformeur d'origine comme le Pilote, nous concevons en parallèle un modèle Copilote pour affiner les performances d'inférence du Pilote via une rectification des logits. Nous nommons ce cadre global Pilote-Copilote le Transformer Copilote, qui introduit (i) une nouvelle conception du modèle Copilote, (ii) un paradigme d'entraînement conjoint où le Copilote apprend continuellement à partir du Journal des Erreurs en évolution parallèlement au Pilote, et (iii) un paradigme d'inférence fusionnée où le Copilote rectifie les logits du Pilote pour une génération améliorée. Nous fournissons des analyses théoriques et empiriques de notre nouveau cadre d'apprentissage. Les expériences sur 12 benchmarks couvrant des tâches de bon sens, d'arithmétique et de recommandation démontrent que le Transformer Copilote améliore constamment les performances jusqu'à 34,5%, tout en introduisant une surcharge computationnelle marginale pour les modèles Pilote et en montrant une forte scalabilité et transférabilité.
Les récents progrès dans les agents LLM se sont largement appuyés sur des architectures de raisonnement comme ReAct, qui entrelacent pensée et action dans des environnements complexes. Cependant, ReAct produit souvent des étapes de raisonnement non fondées ou incohérentes, entraînant un désalignement entre l'état réel de l'agent et son objectif. Notre analyse révèle que cela découle de l'incapacité de ReAct à maintenir des croyances internes cohérentes et un alignement sur les objectifs, provoquant des erreurs cumulatives et des hallucinations. Pour remédier à cela, nous introduisons ReflAct, une nouvelle architecture qui déplace le raisonnement de la simple planification des prochaines actions vers une réflexion continue sur l'état de l'agent par rapport à son objectif. En ancrant explicitement les décisions dans les états et en imposant un alignement permanent sur les objectifs, ReflAct améliore considérablement la fiabilité stratégique. Cette conception apporte des gains empiriques substantiels : ReflAct surpasse ReAct de 27,7 % en moyenne, atteignant un taux de réussite de 93,3 % dans ALFWorld. Notamment, ReflAct surpasse même ReAct avec des modules d'amélioration supplémentaires (par exemple, Reflexion, WKM), montrant que renforcer le cœur de l'architecture de raisonnement est essentiel pour une performance fiable des agents.
Les algorithmes de gradient de politique ont été appliqués avec succès pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Malgré l'utilisation répandue de la régularisation de Kullback-Leibler (KL) dans les algorithmes de gradient de politique pour stabiliser l'entraînement, l'exploration systématique de la manière dont différentes formulations de divergence KL peuvent être estimées et intégrées dans les fonctions de perte substitutives pour l'apprentissage par renforcement (RL) en ligne représente un espace de conception nuancé et systématiquement explorable. Dans cet article, nous proposons le gradient de politique régularisé (RPG), un cadre systématique pour dériver et analyser les méthodes de gradient de politique régularisées par KL dans le contexte du RL en ligne. Nous dérivons les gradients de politique et les fonctions de perte substitutives correspondantes pour des objectifs régularisés par les divergences KL directe et inverse, en considérant à la fois les distributions de politiques normalisées et non normalisées. De plus, nous présentons des dérivations pour des fonctions de perte entièrement différentiables ainsi que des estimateurs de gradient de style REINFORCE, répondant à divers besoins algorithmiques. Nous menons des expériences approfondies sur le RL pour le raisonnement des LLM en utilisant ces méthodes, montrant des résultats améliorés ou compétitifs en termes de stabilité d'entraînement et de performance par rapport à des bases de référence solides telles que GRPO, REINFORCE++ et DAPO. Le code est disponible à l'adresse https://github.com/complex-reasoning/RPG.
Dans cet article, nous proposons une méthode simple et efficace pour l'entraînement de modèles de valeur sur des traces de raisonnement à contexte long. Contrairement aux modèles de récompense de processus (PRM) existants, notre méthode ne nécessite pas une notion fine de "étape", qui est difficile à définir pour les modèles de raisonnement à contexte long. En collectant un ensemble de données de 2,5 millions de traces de raisonnement, nous entraînons un modèle de valeur au niveau des tokens de 1,5 milliard de paramètres et l'appliquons aux modèles DeepSeek pour améliorer les performances avec une mise à l'échelle du calcul au moment du test. Nous constatons qu'une recherche guidée par la valeur (VGS) par blocs avec un vote majoritaire pondéré final permet une meilleure mise à l'échelle au moment du test que les méthodes standard telles que le vote majoritaire ou le best-of-n. Avec un budget d'inférence de 64 générations, VGS avec DeepSeek-R1-Distill-1.5B atteint une précision moyenne de 45,7 % sur quatre benchmarks de mathématiques compétitives (AIME 2024 & 2025, HMMT Fév 2024 & 2025), atteignant la parité avec o3-mini-medium. De plus, VGS réduit significativement les FLOPs d'inférence nécessaires pour atteindre la même performance que le vote majoritaire. Notre ensemble de données, modèle et codebase sont open-source.
Cet article présente une découverte fascinante : en entraînant un modèle LLM auto-régressif sur des tokens de texte, le modèle de texte développe intrinsèquement une capacité interne à comprendre les images et l'audio, acquérant ainsi la faculté de voir et d'entendre simplement en lisant. Les modèles LLM audio et visuels populaires affinent des modèles LLM de texte pour produire des sorties textuelles conditionnées par des embeddings d'images et d'audio. En revanche, notre architecture prend en entrée des patches d'images, des formes d'onde audio ou des tokens. Elle génère des embeddings ou des étiquettes de catégorie typiques d'un pipeline de classification. Nous démontrons la généralité des poids de texte pour faciliter la classification audio sur les ensembles de données FSD-50K et GTZAN. De plus, nous montrons que cela fonctionne pour la classification d'images sur CIFAR-10 et Fashion-MNIST, ainsi que sur des patches d'images. Cela renforce l'idée que les LLM de texte apprennent des circuits internes puissants qui peuvent être exploités en activant les connexions nécessaires pour diverses applications, plutôt que d'entraîner des modèles à partir de zéro à chaque fois.
Les connexions résiduelles sont essentielles pour les réseaux de neurones profonds, permettant une plus grande profondeur en atténuant le problème des gradients disparaissants. Cependant, dans les mises à jour résiduelles standard, la sortie du module est directement ajoutée au flux d'entrée. Cela peut entraîner des mises à jour qui renforcent ou modulent principalement la direction existante du flux, sous-exploitant potentiellement la capacité du module à apprendre des caractéristiques entièrement nouvelles. Dans ce travail, nous introduisons la Mise à Jour Résiduelle Orthogonale : nous décomposons la sortie du module par rapport au flux d'entrée et n'ajoutons que la composante orthogonale à ce flux. Cette conception vise à guider les modules pour qu'ils contribuent principalement à de nouvelles directions de représentation, favorisant un apprentissage de caractéristiques plus riche tout en promouvant un entraînement plus efficace. Nous démontrons que notre stratégie de mise à jour orthogonale améliore la précision de généralisation et la stabilité de l'entraînement sur diverses architectures (ResNetV2, Vision Transformers) et jeux de données (CIFARs, TinyImageNet, ImageNet-1k), obtenant par exemple un gain de +4,3\%p en précision top-1 pour ViT-B sur ImageNet-1k.
Le modèle Mixture-of-Experts (MoE) permet une mise à l'échelle efficace des grands modèles de langage (LLMs) grâce à l'activation parcimonieuse d'experts lors de l'inférence. Pour déployer efficacement de grands modèles MoE sur des appareils à mémoire limitée, de nombreux systèmes introduisent le *déchargement d'experts*, qui met en cache un sous-ensemble d'experts dans la mémoire rapide, laissant les autres dans la mémoire lente pour fonctionner sur le CPU ou être chargés à la demande. Bien que certaines recherches aient exploité la localité des activations d'experts, où des tokens consécutifs activent des experts similaires, le degré de cette **cohérence de routage locale** varie selon les modèles et reste peu étudié. Dans cet article, nous proposons deux métriques pour mesurer la cohérence de routage locale des modèles MoE : (1) **Segment Routing Best Performance (SRP)**, qui évalue dans quelle mesure un groupe fixe d'experts peut couvrir les besoins d'un segment de tokens, et (2) **Segment Cache Best Hit Rate (SCH)**, qui mesure le taux optimal de succès du cache au niveau du segment sous une limite de taille de cache donnée. Nous avons analysé 20 LLMs MoE de tailles et architectures variées et constaté que les modèles appliquant MoE à chaque couche et n'utilisant pas d'experts partagés présentent la plus forte cohérence de routage locale. Nous avons également montré que les experts spécialisés par domaine contribuent davantage à la cohérence de routage que ceux spécialisés par vocabulaire, et que la plupart des modèles peuvent équilibrer efficacité et efficience du cache avec des tailles de cache environ 2 fois supérieures au nombre d'experts actifs. Ces résultats ouvrent la voie à une conception et un déploiement de MoE économes en mémoire sans compromettre la vitesse d'inférence. Nous publions le code pour reproduire les expériences à l'adresse https://github.com/ljcleo/moe-lrc.
Les avancées récentes, telles que DeepSeek R1-Zero, mettent en lumière l'efficacité de l'apprentissage par incitation, un paradigme d'apprentissage par renforcement qui calcule les récompenses uniquement sur la base de la partie finale de la réponse générée par un modèle de langage, encourageant ainsi la production d'étapes de raisonnement intermédiaires. Cependant, ces méthodes reposent fondamentalement sur des vérificateurs externes, ce qui limite leur applicabilité à des domaines comme les mathématiques et la programmation, où de tels vérificateurs sont facilement disponibles. Bien que les modèles de récompense puissent servir de vérificateurs, ils nécessitent des données annotées de haute qualité et sont coûteux à entraîner. Dans ce travail, nous proposons NOVER, NO-VERifier Reinforcement Learning, un cadre général d'apprentissage par renforcement qui ne nécessite que des données standard de fine-tuning supervisé, sans recourir à un vérificateur externe. NOVER permet l'apprentissage par incitation sur une large gamme de tâches de texte-à-texte et surpasse un modèle de même taille distillé à partir de grands modèles de raisonnement tels que DeepSeek R1 671B de 7,7 %. De plus, la flexibilité de NOVER ouvre de nouvelles possibilités pour optimiser les grands modèles de langage, comme l'apprentissage par incitation inverse.
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des domaines sensibles tels que les entreprises et les gouvernements, il est crucial de s'assurer qu'ils respectent les politiques de sécurité définies par l'utilisateur dans un contexte donné, en particulier en ce qui concerne la non-divulgation d'informations. Bien que les études précédentes sur les LLM se soient concentrées sur la sécurité générale et les données socialement sensibles, il manque encore des benchmarks à grande échelle pour la préservation de la sécurité contextuelle face aux attaques. Pour remédier à cela, nous introduisons un nouveau jeu de données de référence à grande échelle, CoPriva, qui évalue l'adhésion des LLM aux politiques de non-divulgation contextuelle dans le cadre de réponses à des questions. Tiré de contextes réalistes, notre jeu de données inclut des politiques explicites et des requêtes conçues comme des attaques directes et indirectes difficiles visant à obtenir des informations interdites. Nous évaluons 10 LLM sur notre benchmark et révélons une vulnérabilité significative : de nombreux modèles violent les politiques définies par l'utilisateur et divulguent des informations sensibles. Cet échec est particulièrement grave face aux attaques indirectes, mettant en lumière une lacune critique dans l'alignement de la sécurité des LLM actuels pour les applications sensibles. Notre analyse montre que si les modèles peuvent souvent identifier la bonne réponse à une requête, ils ont du mal à intégrer les contraintes de politique lors de la génération. En revanche, ils montrent une capacité partielle à réviser leurs sorties lorsqu'ils y sont explicitement invités. Nos résultats soulignent le besoin urgent de méthodes plus robustes pour garantir la sécurité contextuelle.
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités remarquables dans le raisonnement multi-étapes et l'utilisation de moteurs de recherche aux étapes appropriées. Cependant, les approches existantes de raisonnement augmenté par récupération reposent sur des modèles de récupération séparés, limitant le rôle du LRM dans la récupération à décider quand récupérer et comment formuler les requêtes. Cette séparation non seulement augmente les coûts matériels et opérationnels, mais entraîne également des erreurs dans le processus de récupération en raison du goulot d'étranglement de représentation, un phénomène où l'espace d'encodage du récupérateur n'est pas suffisamment expressif pour répondre aux exigences du générateur. Pour résoudre ce problème, nous changeons de perspective en passant de la correspondance séquence-à-séquence à la localisation des chemins contenant la réponse dans le corpus, et proposons un nouveau cadre appelé FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). Ce cadre permet aux LRMs de récupérer les connaissances pertinentes par eux-mêmes en agissant à la fois comme générateur et récupérateur. Pour y parvenir, nous introduisons une variante de l'algorithme MCTS spécialisée pour la tâche de récupération, que nous appelons CT-MCTS (Corpus-Traversing Monte Carlo Tree Search). Dans cet algorithme, les LRMs parcourent le corpus vers les régions contenant les réponses. Nos résultats sur cinq benchmarks de questions-réponses à domaine ouvert, incluant des questions à saut unique et multi-sauts, montrent que FREESON obtient une amélioration moyenne de 14,4 % en EM et F1 par rapport à quatre modèles de raisonnement multi-étapes avec un récupérateur séparé, et il performe également de manière comparable au modèle de référence le plus fort, le surpassant de 3 % sur PopQA et de 2 % sur 2WikiMultihopQA.
Le RAG itératif pour le question-réponse multi-sauts rencontre des défis avec des contextes longs et l'accumulation d'informations non pertinentes. Cela entrave la capacité d'un modèle à traiter et à raisonner sur le contenu récupéré, limitant ainsi ses performances. Bien que les méthodes récentes se concentrent sur la compression des informations récupérées, elles sont soit limitées au RAG en une seule étape, nécessitent un ajustement fin ou manquent de scalabilité dans le RAG itératif. Pour relever ces défis, nous proposons Notes Writing, une méthode qui génère des notes concises et pertinentes à partir des documents récupérés à chaque étape, réduisant ainsi le bruit et ne conservant que les informations essentielles. Cela augmente indirectement la longueur effective du contexte des modèles de langage de grande taille (LLMs), leur permettant de raisonner et de planifier plus efficacement tout en traitant des volumes de texte d'entrée plus importants. Notes Writing est indépendant du cadre et peut être intégré à différentes méthodes de RAG itératif. Nous démontrons son efficacité avec trois méthodes de RAG itératif, sur deux modèles et quatre ensembles de données d'évaluation. Notes Writing entraîne une amélioration moyenne de 15,6 points de pourcentage au total, avec une augmentation minimale des tokens de sortie.
Le raisonnement temporel est crucial pour que les modèles de langage à grande échelle (LLMs) comprennent le monde réel. Cependant, les travaux existants négligent les défis réels du raisonnement temporel : (1) l'intensité des informations temporelles, (2) la dynamique rapide des événements, et (3) les dépendances temporelles complexes dans les interactions sociales. Pour combler cette lacune, nous proposons un benchmark multi-niveaux appelé TIME, conçu pour le raisonnement temporel dans des scénarios réels. TIME comprend 38 522 paires de questions-réponses, couvrant 3 niveaux avec 11 sous-tâches fines. Ce benchmark englobe 3 sous-ensembles de données reflétant différents défis du monde réel : TIME-Wiki, TIME-News et TIME-Dial. Nous menons des expériences approfondies sur des modèles de raisonnement et des modèles non raisonnés. Nous avons également effectué une analyse approfondie des performances en matière de raisonnement temporel dans divers scénarios et tâches réels, et résumé l'impact de la mise à l'échelle au moment du test sur les capacités de raisonnement temporel. De plus, nous publions TIME-Lite, un sous-ensemble annoté manuellement pour favoriser les recherches futures et l'évaluation standardisée en raisonnement temporel. Le code est disponible à l'adresse https://github.com/sylvain-wei/TIME, et le jeu de données est accessible à l'adresse https://huggingface.co/datasets/SylvainWei/TIME.
L'amélioration des capacités linguistiques des modèles de langage de grande taille (LLMs) pour inclure les langues à ressources limitées constitue un domaine de recherche crucial. Les orientations actuelles de la recherche reposent principalement sur des données synthétiques générées par la traduction de corpus anglais, qui, bien qu'elles démontrent une compréhension linguistique et des capacités de traduction prometteuses, aboutissent souvent à des modèles alignés sur la culture de la langue source. Ces modèles échouent fréquemment à représenter le patrimoine culturel et les valeurs des communautés locales. Ce travail propose une méthodologie pour créer des données de pré-entraînement à la fois synthétiques et basées sur la récupération, adaptées à une communauté spécifique, en tenant compte de (i) sa langue, (ii) son patrimoine culturel et (iii) ses valeurs culturelles. Nous démontrons notre méthodologie en utilisant les dialectes égyptien et marocain comme terrains d'essai, choisis pour leur richesse linguistique et culturelle et leur sous-représentation actuelle dans les LLMs. À titre de preuve de concept, nous développons NileChat, un LLM de 3 milliards de paramètres adapté aux communautés égyptienne et marocaine, intégrant leur langue, leur patrimoine culturel et leurs valeurs. Nos résultats sur divers benchmarks de compréhension, de traduction, et d'alignement culturel et de valeurs montrent que NileChat surpasse les LLMs existants sensibles à l'arabe de taille similaire et performe à égalité avec des modèles plus grands. Nous partageons nos méthodes, données et modèles avec la communauté pour promouvoir l'inclusion et la couverture de communautés plus diversifiées dans le développement des LLMs.
Dans cet article, nous présentons FuxiMT, un nouveau modèle de traduction automatique multilingue centré sur le chinois, alimenté par un grand modèle de langage (LLM) épars. Nous adoptons une stratégie en deux étapes pour entraîner FuxiMT. Nous pré-entraînons d'abord le modèle sur un vaste corpus chinois, puis procédons à un ajustement multilingue sur un grand ensemble de données parallèles couvrant 65 langues. FuxiMT intègre une architecture de type Mixture-of-Experts (MoEs) et utilise une stratégie d'apprentissage curriculaire pour assurer des performances robustes à différents niveaux de ressources. Les résultats expérimentaux montrent que FuxiMT surpasse significativement les modèles de référence, y compris les LLM et les modèles de traduction automatique de pointe, en particulier dans des scénarios à faibles ressources. De plus, FuxiMT démontre des capacités remarquables de traduction zero-shot pour des paires de langues non vues, indiquant son potentiel à combler les lacunes de communication là où les données parallèles sont rares ou indisponibles.
Le séquençage de novo des peptides est une tâche cruciale en protéomique. Cependant, les performances des méthodes actuelles basées sur l'apprentissage profond sont limitées par la complexité inhérente des données de spectrométrie de masse et la distribution hétérogène des signaux de bruit, entraînant des biais spécifiques aux données. Nous présentons RankNovo, le premier cadre de reranking profond qui améliore le séquençage de novo des peptides en exploitant les forces complémentaires de plusieurs modèles de séquençage. RankNovo utilise une approche de reranking par liste, modélisant les peptides candidats comme des alignements multiples de séquences et exploitant l'attention axiale pour extraire des caractéristiques informatives parmi les candidats. De plus, nous introduisons deux nouvelles métriques, PMD (Peptide Mass Deviation) et RMD (Residual Mass Deviation), qui offrent une supervision fine en quantifiant les différences de masse entre les peptides au niveau de la séquence et des résidus. Des expériences approfondies démontrent que RankNovo dépasse non seulement ses modèles de base utilisés pour générer les candidats d'entraînement pour le pré-entraînement au reranking, mais établit également un nouveau benchmark de pointe. Par ailleurs, RankNovo montre une forte généralisation zero-shot pour des modèles inédits dont les générations n'ont pas été exposées pendant l'entraînement, soulignant sa robustesse et son potentiel en tant que cadre universel de reranking pour le séquençage des peptides. Notre travail présente une nouvelle stratégie de reranking qui remet fondamentalement en question les paradigmes actuels basés sur un seul modèle et repousse les frontières du séquençage de novo précis. Notre code source est disponible sur GitHub.