Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons MiniMax-M1, le premier modèle de raisonnement à grande échelle et à poids ouvert au monde, basé sur une architecture hybride d'attention. MiniMax-M1 est alimenté par une architecture hybride de type Mixture-of-Experts (MoE) combinée à un mécanisme d'attention éclair. Le modèle est développé à partir de notre précédent modèle MiniMax-Text-01, qui contient un total de 456 milliards de paramètres, avec 45,9 milliards de paramètres activés par token. Le modèle M1 prend nativement en charge une longueur de contexte de 1 million de tokens, soit 8 fois la taille de contexte de DeepSeek R1. De plus, le mécanisme d'attention éclair de MiniMax-M1 permet une mise à l'échelle efficace des calculs lors des tests. Ces caractéristiques rendent M1 particulièrement adapté aux tâches complexes nécessitant le traitement de longues entrées et une réflexion approfondie. MiniMax-M1 est entraîné à l'aide d'un apprentissage par renforcement (RL) à grande échelle sur divers problèmes, y compris des environnements d'ingénierie logicielle basés sur des sandbox et des scénarios réels. En plus de l'avantage inhérent de M1 en termes d'efficacité pour l'entraînement RL, nous proposons CISPO, un nouvel algorithme RL pour améliorer encore l'efficacité de l'apprentissage par renforcement. CISPO limite les poids d'échantillonnage d'importance plutôt que les mises à jour des tokens, surpassant ainsi d'autres variantes concurrentes de RL. La combinaison de l'attention hybride et de CISPO permet à l'entraînement RL complet de MiniMax-M1 sur 512 GPU H800 de s'achever en seulement trois semaines, avec un coût de location de seulement 534 700 $. Nous publions deux versions des modèles MiniMax-M1 avec des budgets de réflexion de 40K et 80K respectivement, où le modèle 40K représente une phase intermédiaire de l'entraînement 80K. Les expériences sur des benchmarks standards montrent que nos modèles sont comparables ou supérieurs à des modèles à poids ouvert robustes tels que le DeepSeek-R1 original et Qwen3-235B, avec des forces particulières dans l'ingénierie logicielle complexe, l'utilisation d'outils et les tâches à contexte long. Nous rendons MiniMax-M1 public à l'adresse suivante : https://github.com/MiniMax-AI/MiniMax-M1.
Les découvertes scientifiques reposent de plus en plus sur un raisonnement multimodal complexe, basé sur des données scientifiques riches en informations et une expertise spécifique à un domaine. Renforcés par des benchmarks scientifiques de niveau expert, les modèles de langage multimodaux (MLLMs) scientifiques ont le potentiel d'améliorer significativement ce processus de découverte dans des workflows réalistes. Cependant, les benchmarks scientifiques actuels se concentrent principalement sur l'évaluation des capacités de compréhension des connaissances des MLLMs, ce qui conduit à une évaluation insuffisante de leurs capacités de perception et de raisonnement. Pour combler cette lacune, nous présentons le benchmark "Scientists' First Exam" (SFE), conçu pour évaluer les capacités cognitives scientifiques des MLLMs à travers trois niveaux interconnectés : la perception des signaux scientifiques, la compréhension des attributs scientifiques, et le raisonnement comparatif scientifique. Plus précisément, SFE comprend 830 paires de questions-réponses vérifiées par des experts, couvrant trois types de questions et 66 tâches multimodales réparties dans cinq disciplines à haute valeur ajoutée. Des expériences approfondies révèlent que les modèles actuels de pointe, GPT-3 et InternVL-3, n'atteignent respectivement que 34,08 % et 26,52 % sur SFE, mettant en évidence un potentiel d'amélioration significatif pour les MLLMs dans les domaines scientifiques. Nous espérons que les insights obtenus grâce à SFE faciliteront des avancées supplémentaires dans les découvertes scientifiques assistées par l'IA.
Les Agents de Recherche Profonde (Deep Research Agents, DRA) constituent une catégorie importante d'agents basés sur des modèles de langage (LLM). En orchestrant de manière autonome une exploration web multi-étapes, une récupération ciblée et une synthèse d'ordre supérieur, ils transforment d'immenses quantités d'informations en ligne en rapports de qualité analytique, riches en citations, compressant ainsi des heures de recherche manuelle en quelques minutes. Cependant, un benchmark complet pour évaluer systématiquement les capacités de ces agents fait encore défaut. Pour combler cette lacune, nous présentons DeepResearch Bench, un benchmark composé de 100 tâches de recherche de niveau doctorat, chacune soigneusement élaborée par des experts de domaines répartis dans 22 disciplines distinctes. L'évaluation des DRA est intrinsèquement complexe et laborieuse. Nous proposons donc deux nouvelles méthodologies qui atteignent un fort alignement avec le jugement humain. La première est une méthode basée sur des références avec des critères adaptatifs pour évaluer la qualité des rapports de recherche générés. L'autre cadre est introduit pour évaluer les capacités de récupération et de collecte d'informations des DRA en mesurant leur nombre de citations effectives et leur précision globale en matière de citations. Nous avons rendu open-source DeepResearch Bench ainsi que les composants clés de ces cadres sur https://github.com/Ayanami0730/deep_research_bench afin d'accélérer le développement d'agents pratiques basés sur des LLM.
Nous présentons TransDiff, le premier modèle de génération d'images qui combine un Transformer Autoregressif (AR) avec des modèles de diffusion. Dans ce cadre de modélisation conjointe, TransDiff encode les étiquettes et les images en caractéristiques sémantiques de haut niveau et utilise un modèle de diffusion pour estimer la distribution des échantillons d'images. Sur le benchmark ImageNet 256x256, TransDiff surpasse significativement les autres modèles de génération d'images basés sur un Transformer AR autonome ou des modèles de diffusion. Plus précisément, TransDiff atteint une Distance de Fréchet Inception (FID) de 1,61 et un Score Inception (IS) de 293,4, tout en offrant une latence d'inférence x2 fois plus rapide par rapport aux méthodes de pointe basées sur un Transformer AR et x112 fois plus rapide par rapport aux modèles de diffusion uniquement. De plus, en nous appuyant sur le modèle TransDiff, nous introduisons un nouveau paradigme de génération d'images appelé Autoregression Multi-Référence (MRAR), qui effectue une génération autoregressive en prédisant l'image suivante. MRAR permet au modèle de référencer plusieurs images précédemment générées, facilitant ainsi l'apprentissage de représentations plus diversifiées et améliorant la qualité des images générées dans les itérations suivantes. En appliquant MRAR, les performances de TransDiff sont améliorées, avec une réduction de la FID de 1,61 à 1,42. Nous espérons que TransDiff ouvrira une nouvelle frontière dans le domaine de la génération d'images.
Dans cet article, nous présentons DoTA-RAG (Dynamic-of-Thought Aggregation RAG), un système de génération augmentée par la recherche optimisé pour un débit élevé et des index de connaissances web à grande échelle. Les pipelines RAG traditionnels souffrent souvent d'une latence élevée et d'une précision limitée sur des ensembles de données massifs et diversifiés. DoTA-RAG résout ces défis grâce à un pipeline en trois étapes : réécriture de requêtes, routage dynamique vers des sous-index spécialisés, et recherche et classement multi-étapes. Nous améliorons également la recherche en évaluant et en sélectionnant un modèle d'embedding supérieur, en ré-encodant le grand corpus FineWeb-10BT. Par ailleurs, nous créons un ensemble de questions-réponses diversifié de 500 questions générées via le dispositif DataMorgana, couvrant un large éventail de sujets et de formats WebOrganizer. DoTA-RAG améliore le score de justesse des réponses de 0,752 (référence, utilisant le magasin de vecteurs pré-construit LiveRAG) à 1,478 tout en maintenant une faible latence, et il atteint un score de justesse de 0,929 lors du Live Challenge Day. Ces résultats mettent en évidence le potentiel de DoTA-RAG pour un déploiement pratique dans des domaines nécessitant un accès rapide et fiable à des sources de connaissances vastes et évolutives.
Les récents progrès dans les modèles de raisonnement à grande échelle ont permis un raisonnement complexe et étape par étape, mais introduisent souvent une surréflexion significative, entraînant des sorties verbeuses et redondantes qui nuisent à l'efficacité. Dans cette étude, nous examinons si une auto-réflexion explicite, signalée par des tokens tels que "Attends" et "Hmm", est nécessaire pour un raisonnement avancé. Nous proposons NoWait, une approche simple mais efficace qui désactive l'auto-réflexion explicite en supprimant ces tokens lors de l'inférence. Des expériences approfondies sur dix benchmarks couvrant des tâches de raisonnement textuel, visuel et vidéo montrent que NoWait réduit la longueur des trajectoires de raisonnement en chaîne de 27 % à 51 % dans cinq séries de modèles de style R1, sans compromettre l'utilité du modèle. NoWait offre ainsi une solution plug-and-play pour un raisonnement multimodal efficace et préservant l'utilité.
Nous présentons Ego-R1, un nouveau cadre pour le raisonnement sur des vidéos égocentriques ultra-longues (c'est-à-dire s'étalant sur des jours et des semaines), qui exploite un processus structuré de Chaîne de Pensée d'Outils (Chain-of-Tool-Thought, CoTT), orchestré par un Agent Ego-R1 entraîné via apprentissage par renforcement (Reinforcement Learning, RL). Inspiré par les stratégies de résolution de problèmes humaines, CoTT décompose le raisonnement complexe en étapes modulaires, avec l'agent RL invoquant des outils spécifiques, un par étape, pour répondre de manière itérative et collaborative à des sous-questions abordant des tâches telles que la récupération temporelle et la compréhension multi-modale. Nous concevons un paradigme d'entraînement en deux étapes impliquant un affinage supervisé (Supervised Finetuning, SFT) d'un modèle de langage pré-entraîné utilisant des données CoTT et du RL pour permettre à notre agent de proposer dynamiquement des outils étape par étape pour un raisonnement à long terme. Pour faciliter l'entraînement, nous construisons un ensemble de données appelé Ego-R1 Data, qui comprend Ego-CoTT-25K pour le SFT et Ego-QA-4.4K pour le RL. De plus, notre agent Ego-R1 est évalué sur un nouveau benchmark de questions-réponses sur des vidéos d'une semaine, Ego-R1 Bench, qui contient des paires de questions-réponses vérifiées par des humains provenant de sources hybrides. Les résultats approfondis démontrent que le raisonnement dynamique et augmenté par des outils de notre Agent Ego-R1 peut efficacement relever les défis uniques de la compréhension des vidéos égocentriques ultra-longues, étendant significativement la couverture temporelle de quelques heures à une semaine.
Dans ce travail, nous proposons une étude systématique des modèles de langage à diffusion discrète (dLLMs) et des modèles de langage multimodal à diffusion discrète (dMLLMs). Contrairement aux modèles autorégressifs (AR), les dLLMs et dMLLMs adoptent un paradigme de décodage parallèle multi-token utilisant une attention complète et une stratégie de génération basée sur le débruitage. Ce paradigme permet naturellement une génération parallèle, une contrôlabilité fine des sorties et une perception dynamique et réactive. Ces capacités étaient auparavant difficiles à atteindre avec les modèles AR. Récemment, un nombre croissant de d(M)LLMs propriétaires à l'échelle industrielle, ainsi qu'un grand nombre de d(M)LLMs académiques open-source, ont démontré des performances comparables à leurs homologues autorégressifs, tout en atteignant une accélération jusqu'à 10x en vitesse d'inférence. L'avancée des dLLMs et dMLLMs à diffusion discrète a été largement motivée par les progrès dans deux domaines. Le premier est le développement des dLLMs et dMLLMs autorégressifs, qui a accumulé de vastes quantités de données, de benchmarks et d'infrastructures fondamentales pour l'entraînement et l'inférence. Le deuxième domaine contributif est l'évolution des modèles mathématiques sous-jacents à la diffusion discrète. Ensemble, ces avancées ont catalysé une explosion de la recherche sur les dLLMs et dMLLMs au début de l'année 2025. Dans ce travail, nous présentons un aperçu complet de la recherche dans les domaines des dLLMs et dMLLMs. Nous retraçons le développement historique des dLLMs et dMLLMs, formalisons les cadres mathématiques sous-jacents et catégorisons les modèles représentatifs. Nous analysons en outre les techniques clés pour l'entraînement et l'inférence, et résumons les applications émergentes dans les domaines du langage, de la vision-langage et de la biologie. Nous concluons en discutant des orientations futures pour la recherche et le déploiement. Collection de papiers : https://github.com/LiQiiiii/DLLM-Survey
Les données jouent le rôle le plus prépondérant dans la manière dont les modèles de langage acquièrent des compétences et des connaissances. L'absence de vastes ensembles de données de pré-entraînement bien organisés entraîne des pipelines de données coûteux et inaccessibles. Nous présentons Essential-Web v1.0, un ensemble de données de 24 billions de tokens dans lequel chaque document est annoté avec une taxonomie à douze catégories couvrant le sujet, le format, la complexité du contenu et la qualité. Les étiquettes de taxonomie sont produites par EAI-Distill-0.5b, un modèle de 0,5 milliard de paramètres affiné qui atteint un accord d'annotateurs à moins de 3 % de celui de Qwen2.5-32B-Instruct. Avec rien de plus que des filtres de type SQL, nous obtenons des ensembles de données web compétitifs en mathématiques (-8,0 % par rapport à l'état de l'art), en code web (+14,3 %), en STEM (+24,5 %) et en médecine (+8,6 %). Essential-Web v1.0 est disponible sur HuggingFace : https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
Les tâches agentiques, qui nécessitent une résolution de problèmes en plusieurs étapes avec autonomie, utilisation d'outils et raisonnement adaptatif, deviennent de plus en plus centrales pour l'avancement du NLP et de l'IA. Cependant, les données d'instruction existantes manquent d'interaction avec les outils, et les benchmarks agentiques actuels reposent sur une annotation humaine coûteuse, limitant leur évolutivité. Nous présentons TaskCraft, un flux de travail automatisé pour générer des tâches agentiques évolutives en difficulté, multi-outils et vérifiables, accompagnées de trajectoires d'exécution. TaskCraft étend les tâches atomiques en utilisant des extensions basées sur la profondeur et la largeur pour créer des défis structurellement et hiérarchiquement complexes. Les résultats empiriques montrent que ces tâches améliorent l'optimisation des prompts dans le flux de travail de génération et renforcent le fine-tuning supervisé des modèles de base agentiques. Nous proposons un ensemble de données synthétiques à grande échelle d'environ 36 000 tâches de difficulté variable pour soutenir les recherches futures sur le réglage et l'évaluation des agents.
Nous présentons l’**Augmentation Autoregressive par Récupération** (AR-RAG), un nouveau paradigme qui améliore la génération d’images en incorporant de manière autoregressive des récupérations de plus proches voisins au niveau des patches. Contrairement aux méthodes précédentes qui effectuent une récupération unique et statique avant la génération et conditionnent l’ensemble du processus sur des images de référence fixes, AR-RAG réalise des récupérations contextuelles à chaque étape de génération, en utilisant les patches générés précédemment comme requêtes pour récupérer et intégrer les références visuelles les plus pertinentes au niveau des patches. Cela permet au modèle de répondre aux besoins évolutifs de la génération tout en évitant les limitations (par exemple, la sur-copie, les biais stylistiques, etc.) prévalentes dans les méthodes existantes. Pour concrétiser AR-RAG, nous proposons deux cadres parallèles : (1) **l’Augmentation de Distribution dans le Décodage** (DAiD), une stratégie de décodage prête à l’emploi sans entraînement qui fusionne directement la distribution des patches prédits par le modèle avec celle des patches récupérés, et (2) **l’Augmentation de Caractéristiques dans le Décodage** (FAiD), une méthode de réglage fin efficace en paramètres qui lisse progressivement les caractéristiques des patches récupérés via des opérations de convolution multi-échelles et les exploite pour enrichir le processus de génération d’images. Nous validons l’efficacité d’AR-RAG sur des benchmarks largement adoptés, tels que Midjourney-30K, GenEval et DPG-Bench, démontrant des gains de performance significatifs par rapport aux modèles de génération d’images de pointe.
Les méthodes de correspondance dense comme DUSt3R régressent des cartes de points par paires pour la reconstruction 3D. Cependant, la dépendance à la prédiction par paires et la capacité de généralisation limitée restreignent intrinsèquement la cohérence géométrique globale. Dans ce travail, nous introduisons Test3R, une technique d'apprentissage au moment du test étonnamment simple qui améliore significativement la précision géométrique. Utilisant des triplets d'images (I_1, I_2, I_3), Test3R génère des reconstructions à partir des paires (I_1, I_2) et (I_1, I_3). L'idée centrale est d'optimiser le réseau au moment du test via un objectif auto-supervisé : maximiser la cohérence géométrique entre ces deux reconstructions par rapport à l'image commune I_1. Cela garantit que le modèle produit des sorties cohérentes entre les paires, quelles que soient les entrées. Des expériences approfondies démontrent que notre technique surpasse significativement les méthodes précédentes de pointe dans les tâches de reconstruction 3D et d'estimation de profondeur multi-vues. De plus, elle est universellement applicable et pratiquement sans coût, ce qui la rend facilement applicable à d'autres modèles et implémentable avec une surcharge d'entraînement au test et une empreinte paramétrique minimales. Le code est disponible à l'adresse https://github.com/nopQAQ/Test3R.
Dans ce travail, nous étudions la synergie entre le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) dans le développement de modèles de raisonnement performants. Nous commençons par constituer les données d'entraînement pour le SFT à travers deux stratégies de mise à l'échelle : l'augmentation du nombre de prompts collectés et du nombre de réponses générées par prompt. Les deux approches entraînent des améliorations notables des performances en raisonnement, avec des gains plus substantiels lorsque le nombre de prompts est augmenté. Nous explorons ensuite les questions suivantes concernant la synergie entre le SFT et le RL : (i) Un modèle SFT plus performant conduit-il systématiquement à de meilleures performances finales après un entraînement RL à grande échelle ? (ii) Comment déterminer une température d'échantillonnage appropriée pendant l'entraînement RL pour équilibrer efficacement exploration et exploitation pour une initialisation SFT donnée ? Nos résultats suggèrent que (i) est vrai, à condition que l'entraînement RL soit effectif, en particulier lorsque la température d'échantillonnage est soigneusement choisie pour maintenir l'entropie ajustée à la température autour de 0,3, un réglage qui offre un bon équilibre entre exploration et exploitation. Notamment, l'écart de performance entre les modèles SFT initiaux se réduit significativement tout au long du processus RL. En tirant parti d'une base SFT solide et des insights sur l'interaction synergique entre le SFT et le RL, notre modèle AceReason-Nemotron-1.1 7B surpasse significativement AceReason-Nemotron-1.0 et atteint de nouvelles performances de pointe parmi les modèles de raisonnement basés sur Qwen2.5-7B sur des benchmarks exigeants en mathématiques et en code, démontrant ainsi l'efficacité de notre recette de post-entraînement. Nous mettons à disposition le modèle et les données à l'adresse suivante : https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
Avec l'amélioration rapide des capacités générales des LLM (modèles de langage de grande taille), la personnalisation des LLM, c'est-à-dire la manière de construire des systèmes LLM capables de générer des réponses ou des services personnalisés adaptés à des personas utilisateurs distinctes, est devenue un problème de recherche et d'ingénierie de plus en plus important. Cependant, contrairement aux nombreux nouveaux benchmarks exigeants publiés pour évaluer les capacités générales/de raisonnement, le manque de benchmarks de haute qualité pour évaluer la personnalisation des LLM entrave grandement les progrès dans ce domaine. Pour remédier à cela, nous introduisons PersonaFeedback, un nouveau benchmark qui évalue directement la capacité des LLM à fournir des réponses personnalisées en fonction de personas utilisateurs prédéfinies et de requêtes. Contrairement aux benchmarks existants qui nécessitent que les modèles infèrent des personas utilisateurs implicites à partir d'interactions historiques, PersonaFeedback dissocie l'inférence de la persona de la personnalisation, en se concentrant sur l'évaluation de la capacité du modèle à générer des réponses adaptées à des personas explicites. PersonaFeedback comprend 8298 cas de test annotés par des humains, classés en niveaux facile, moyen et difficile en fonction de la complexité contextuelle des personas utilisateurs et de la difficulté à distinguer les différences subtiles entre deux réponses personnalisées. Nous menons des évaluations approfondies sur une large gamme de modèles. Les résultats empiriques révèlent que même les LLM de pointe capables de résoudre des tâches de raisonnement complexes du monde réel peuvent échouer au niveau difficile de PersonaFeedback, où même les évaluateurs humains peuvent trouver les distinctions difficiles. De plus, nous effectuons une analyse approfondie des modes d'échec à travers différents types de systèmes, démontrant que le cadre actuel de récupération augmentée ne doit pas être considéré comme une solution de facto pour les tâches de personnalisation. Toutes les données du benchmark, les protocoles d'annotation et le pipeline d'évaluation seront rendus publics pour faciliter les recherches futures sur la personnalisation des LLM.
Dans le domaine du raisonnement multimodal en chaîne de pensée (CoT), les approches existantes reposent principalement sur un raisonnement dans l'espace purement linguistique, ce qui souffre intrinsèquement d'un biais linguistique et se limite largement aux domaines des mathématiques ou des sciences. Cette focalisation étroite limite leur capacité à gérer des tâches complexes de raisonnement visuel qui exigent une compréhension approfondie des détails des images. Pour remédier à ces limitations, cet article présente VGR, un nouveau modèle de langage multimodal (MLLM) de raisonnement doté de capacités améliorées de perception visuelle fine. Contrairement aux MLLM traditionnels qui répondent aux questions ou raisonnent uniquement dans l'espace linguistique, notre VGR détecte d'abord les régions pertinentes susceptibles d'aider à résoudre les problèmes, puis fournit des réponses précises basées sur les régions d'images rejouées. Pour y parvenir, nous avons constitué un ensemble de données SFT à grande échelle appelé VGR-SFT, qui contient des données de raisonnement combinant l'ancrage visuel et la déduction linguistique. Le pipeline d'inférence de VGR permet au modèle de sélectionner des boîtes englobantes pour référence visuelle, et une étape de relecture est introduite pour intégrer les régions correspondantes dans le processus de raisonnement, améliorant ainsi la compréhension multimodale. Les expériences menées sur le modèle de base LLaVA-NeXT-7B montrent que VGR obtient des performances supérieures sur des benchmarks multimodaux nécessitant une compréhension détaillée des images. Par rapport au modèle de base, VGR utilise seulement 30 % du nombre de tokens d'image tout en affichant des scores de +4,1 sur MMStar, +7,1 sur AI2D et une amélioration de +12,9 sur ChartQA.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités de généralisation remarquables à travers les tâches et les langues, révolutionnant ainsi le traitement du langage naturel. Cet article étudie l'alignement des représentations qui émerge naturellement dans les LLMs, en particulier dans les couches intermédiaires, et ses implications pour la séparation des informations spécifiques à une langue et indépendantes de la langue. Nous confirmons empiriquement l'existence de cet alignement, analysons son comportement par rapport aux modèles d'alignement explicitement conçus, et démontrons son potentiel pour la manipulation spécifique à une langue sans dégradation sémantique. Sur la base de ces résultats, nous proposons le Contrôle de Langue au Moment de l'Inférence (Inference-Time Language Control, ITLC), une méthode novatrice qui exploite l'injection latente pour permettre un contrôle linguistique translingual précis et atténuer la confusion linguistique dans les LLMs. Nos expériences mettent en évidence les fortes capacités de contrôle translingual de l'ITLC tout en préservant l'intégrité sémantique dans les langues cibles. De plus, nous démontrons son efficacité pour atténuer le problème de confusion linguistique translinguale, qui persiste même dans les LLMs actuels à grande échelle, entraînant une génération de langage incohérente. Ce travail approfondit notre compréhension de l'alignement des représentations dans les LLMs et propose une solution pratique pour améliorer leurs performances translinguales.
La recherche de données d'instruction diversifiées, complexes et à grande échelle est cruciale pour l'alignement automatique des grands modèles de langage (LLMs). Bien qu'il existe des méthodes capables de générer des instructions synthétiques à grande échelle, elles souffrent soit de sources de référence limitées, conduisant à une distribution étroite, soit reposent sur des extensions triviales qui ne parviennent pas à produire des trajectoires significatives en termes de complexité. En revanche, les instructions qui favorisent un alignement efficace sont généralement conçues avec des insights cognitifs et ancrées dans des cas d'utilisation réels. Dans cet article, nous synthétisons de telles instructions en utilisant un ancrage attribué, qui implique 1) un processus d'attribution descendant qui ancre un ensemble sélectionné d'instructions réelles à des utilisateurs situés, et 2) un processus de synthèse ascendant qui exploite des documents web pour d'abord générer une situation, puis une instruction significative. Ce cadre nous permet de collecter des instructions diversifiées et complexes à grande échelle, en utilisant la vaste gamme de documents web. Plus précisément, nous construisons un ensemble de données d'un million d'instructions, appelé SynthQuestions, et démontrons que les modèles entraînés sur celui-ci atteignent des performances de pointe sur plusieurs benchmarks courants, avec des améliorations qui continuent de s'étendre avec davantage de corpus web. Les données, modèles et codes seront disponibles à l'adresse https://github.com/Ignoramus0817/SynthQuestions.
Récemment, l'utilisation de modèles vision-langage pré-entraînés (VLMs) pour construire des modèles vision-langage-action (VLA) s'est imposée comme une approche prometteuse pour l'apprentissage efficace de la manipulation robotique. Cependant, peu de méthodes intègrent des signaux 3D dans les VLMs pour la prédiction d'actions, et elles n'exploitent pas pleinement la structure spatiale inhérente aux données 3D, ce qui entraîne une faible efficacité d'échantillonnage. Dans cet article, nous présentons BridgeVLA, un nouveau modèle VLA 3D qui (1) projette les entrées 3D en plusieurs images 2D, assurant ainsi un alignement des entrées avec l'architecture du VLM, et (2) utilise des cartes de chaleur 2D pour la prédiction d'actions, unifiant les espaces d'entrée et de sortie dans un espace d'images 2D cohérent. De plus, nous proposons une méthode d'entraînement préalable scalable qui dote l'architecture du VLM de la capacité à prédire des cartes de chaleur 2D avant l'apprentissage des politiques en aval. Des expériences approfondies montrent que la méthode proposée permet d'apprendre la manipulation 3D de manière efficace et efficiente. BridgeVLA surpasse les méthodes de référence de pointe sur trois benchmarks de simulation. Dans RLBench, il améliore le taux de réussite moyen de 81,4 % à 88,2 %. Dans COLOSSEUM, il démontre une performance nettement meilleure dans des scénarios de généralisation difficiles, augmentant le taux de réussite moyen de 56,7 % à 64,0 %. Dans GemBench, il dépasse toutes les méthodes de référence en termes de taux de réussite moyen. Dans des expériences sur robots réels, BridgeVLA surpasse une méthode de référence de pointe de 32 % en moyenne. Il généralise de manière robuste dans plusieurs scénarios hors distribution, incluant des perturbations visuelles et des instructions inédites. Remarquablement, il parvient à atteindre un taux de réussite de 96,8 % sur plus de 10 tâches avec seulement 3 trajectoires par tâche, mettant en évidence son extraordinaire efficacité d'échantillonnage. Site du projet : https://bridgevla.github.io/
Les récentes avancées dans les modèles de langage de grande envergure (LLMs) ont permis le développement d’agents d’IA qui manifestent des comportements de plus en plus proches de ceux des humains, incluant la planification, l’adaptation et les dynamiques sociales dans des scénarios divers, interactifs et ouverts. Ces comportements ne sont pas uniquement le produit des architectures internes des modèles sous-jacents, mais émergent de leur intégration dans des systèmes agentiques opérant dans des contextes spécifiques, où les facteurs environnementaux, les indices sociaux et les retours d’interaction façonnent le comportement au fil du temps. Cette évolution nécessite une nouvelle perspective scientifique : la science comportementale des agents d’IA. Plutôt que de se concentrer uniquement sur les mécanismes internes, cette perspective met l’accent sur l’observation systématique du comportement, la conception d’interventions pour tester des hypothèses, et l’interprétation guidée par la théorie de la manière dont les agents d’IA agissent, s’adaptent et interagissent au fil du temps. Nous systématisons un corpus croissant de recherches portant sur les interactions individuelles entre agents, multi-agents et humains-agents, et démontrons en outre comment cette perspective éclaire l’IA responsable en traitant l’équité, la sécurité, l’interprétabilité, la responsabilité et la confidentialité comme des propriétés comportementales. En unifiant les découvertes récentes et en traçant des orientations futures, nous positionnons la science comportementale des agents d’IA comme un complément nécessaire aux approches traditionnelles centrées sur les modèles, fournissant des outils essentiels pour comprendre, évaluer et gouverner le comportement dans le monde réel des systèmes d’IA de plus en plus autonomes.
L'évolution continue des modèles de langage a conduit au développement d'architectures à grande échelle qui démontrent des performances exceptionnelles sur un large éventail de tâches. Cependant, ces modèles s'accompagnent de demandes computationnelles et énergétiques significatives, ainsi que de potentielles implications en matière de confidentialité. Dans ce contexte, les Small Reasoning Language Models (SRLMs) avec environ 0,5 milliard de paramètres représentent une alternative convaincante en raison de leur remarquable efficacité computationnelle et de leur rentabilité, en particulier dans des environnements aux ressources limitées. Malgré ces avantages, la capacité limitée des modèles à 0,5 milliard de paramètres pose des défis dans la gestion de tâches complexes telles que le raisonnement mathématique et la génération de code. Cette recherche explore diverses stratégies d'entraînement, incluant le fine-tuning supervisé (SFT), la distillation de connaissances (KD) et l'apprentissage par renforcement (RL), ainsi que leurs implémentations hybrides, pour améliorer les performances des SRLMs à 0,5 milliard de paramètres. Nous analysons des méthodologies efficaces pour combler l'écart de performance entre les SRLMs et les modèles plus grands, et présentons des insights sur les pipelines d'entraînement optimaux adaptés à ces architectures plus petites. Grâce à une validation expérimentale approfondie et à des analyses détaillées, notre travail vise à fournir des recommandations pratiques pour maximiser les capacités de raisonnement des modèles à 0,5 milliard de paramètres.
L'apprentissage interactif à partir d'observations et de retours langagiers est un domaine de plus en plus étudié, stimulé par l'émergence d'agents basés sur de grands modèles de langage (LLM). Bien que des démonstrations empiriques impressionnantes aient été présentées, un cadre théorique solide pour ces problèmes de décision fait encore défaut. Dans cet article, nous formalisons le problème d'Apprentissage à partir de Retours Langagiers (LLF), établissons des hypothèses suffisantes pour permettre l'apprentissage malgré des récompenses latentes, et introduisons la dimension de transfert éludeur comme mesure de complexité pour caractériser la difficulté des problèmes LLF. Nous montrons que la dimension de transfert éludeur capture l'intuition selon laquelle l'information contenue dans les retours modifie la complexité de l'apprentissage du problème LLF. Nous démontrons des cas où l'apprentissage à partir de retours langagiers riches peut être exponentiellement plus rapide que l'apprentissage à partir de récompenses. Nous développons un algorithme sans regret, appelé HELiX, qui résout de manière prouvée les problèmes LLF à travers des interactions séquentielles, avec des garanties de performance qui évoluent avec la dimension de transfert éludeur du problème. À travers plusieurs domaines empiriques, nous montrons que HELiX performe bien même lorsque l'interrogation répétée de LLMs ne fonctionne pas de manière fiable. Nos contributions marquent une première étape vers la conception d'algorithmes d'apprentissage interactif fondés sur des principes théoriques à partir de retours langagiers génériques.
Dans quelle mesure les systèmes d'IA performent-ils en ingénierie algorithmique pour des problèmes d'optimisation complexes dans des domaines tels que le routage de livraisons de colis, la planification des équipages, la planification de la production en usine et l'équilibrage des réseaux électriques ? Nous présentons ALE-Bench, un nouveau benchmark pour évaluer les systèmes d'IA sur des concours de programmation algorithmique basés sur des scores. S'appuyant sur des tâches réelles issues des AtCoder Heuristic Contests, ALE-Bench propose des problèmes d'optimisation qui sont computationnellement difficiles et n'admettent aucune solution exacte connue. Contrairement aux benchmarks de codage de courte durée avec une évaluation binaire (réussi/échoué), ALE-Bench encourage un affinement itératif des solutions sur de longues périodes. Notre cadre logiciel prend en charge des architectures d'agents interactifs qui exploitent les retours d'exécution de tests et les visualisations. Notre évaluation des modèles de langage de pointe (LLM) a révélé que, bien qu'ils démontrent des performances élevées sur des problèmes spécifiques, un écart notable persiste par rapport aux humains en termes de cohérence entre les problèmes et de capacités de résolution de problèmes sur le long terme. Cela souligne la nécessité de ce benchmark pour stimuler les avancées futures de l'IA.
Les modèles de langage de grande taille (LLMs) sont de plus en plus intégrés dans les applications quotidiennes. À mesure que leur influence grandit, il devient essentiel de comprendre leur processus décisionnel et leur personnalité sous-jacente. Dans ce travail, nous interprétons la personnalité des modèles en utilisant notre ensemble de données proposé, le Supernova Event Dataset, un nouvel ensemble de données comprenant des articles variés couvrant des biographies, des événements historiques, des actualités et des découvertes scientifiques. Nous utilisons cet ensemble de données pour évaluer les LLMs sur l'extraction et le classement des événements clés à partir de textes, un défi subjectif et complexe qui nécessite un raisonnement sur un contexte à long terme et la modélisation de chaînes causales. Nous évaluons des modèles de petite taille comme Phi-4, Orca 2 et Qwen 2.5, ainsi que des modèles plus grands et plus puissants tels que Claude 3.7, Gemini 2.5 et OpenAI o3, et proposons un cadre dans lequel un autre LLM agit comme juge pour inférer la personnalité de chaque modèle en fonction de sa sélection et de sa classification des événements. Notre analyse révèle des traits de personnalité distincts : par exemple, Orca 2 démontre un raisonnement émotionnel axé sur les dynamiques interpersonnelles, tandis que Qwen 2.5 affiche un style plus stratégique et analytique. Lors de l'analyse des événements de découverte scientifique, Claude Sonnet 3.7 met l'accent sur le cadrage conceptuel, Gemini 2.5 Pro privilégie la validation empirique, et o3 favorise un raisonnement causal étape par étape. Cette analyse améliore l'interprétabilité des modèles, les rendant plus conviviaux pour une large gamme d'applications diverses.
Les séries temporelles du monde réel sont souvent régies par des dynamiques non linéaires complexes. Comprendre ces dynamiques sous-jacentes est crucial pour une prédiction future précise. Bien que l'apprentissage profond ait connu un succès majeur dans la prévision des séries temporelles, de nombreuses approches existantes ne modélisent pas explicitement ces dynamiques. Pour combler cette lacune, nous introduisons DeepEDM, un cadre qui intègre la modélisation des systèmes dynamiques non linéaires avec les réseaux de neurones profonds. Inspiré par la modélisation dynamique empirique (EDM) et ancré dans le théorème de Takens, DeepEDM présente un nouveau modèle profond qui apprend un espace latent à partir d'embeddings temporels retardés, et utilise la régression par noyau pour approximer les dynamiques sous-jacentes, tout en exploitant une implémentation efficace de l'attention softmax et en permettant une prédiction précise des pas de temps futurs. Pour évaluer notre méthode, nous menons des expériences approfondies sur des données synthétiques de systèmes dynamiques non linéaires ainsi que sur des séries temporelles réelles issues de divers domaines. Nos résultats montrent que DeepEDM est robuste au bruit d'entrée et surpasse les méthodes de pointe en termes de précision de prévision. Notre code est disponible à l'adresse : https://abrarmajeedi.github.io/deep_edm.
Les modèles de langage récents basés sur une réflexion approfondie raisonnent souvent de manière extensive pour améliorer leurs performances, mais un tel raisonnement prolongé n'est pas toujours souhaitable, car il entraîne des coûts d'inférence excessifs pour des gains de performance disproportionnés. Contrôler la longueur du raisonnement sans sacrifier les performances est donc important, mais reste un défi, en particulier sous des budgets de réflexion serrés. Nous proposons le **guidage budgétaire**, une méthode simple mais efficace pour orienter le processus de raisonnement des modèles de langage vers un budget cible sans nécessiter de réglage fin du modèle. Notre approche introduit un prédicteur léger qui modélise une distribution Gamma sur la longueur de réflexion restante lors de la génération du prochain jeton. Ce signal est ensuite utilisé pour guider la génération de manière douce et au niveau des jetons, garantissant que la trace globale du raisonnement respecte le budget de réflexion spécifié. Le guidage budgétaire permet un contrôle naturel de la longueur de réflexion, ainsi que des améliorations significatives de l'efficacité des jetons par rapport aux méthodes de référence sur des benchmarks mathématiques complexes. Par exemple, il permet un gain de précision allant jusqu'à 26 % sur le benchmark MATH-500 sous des budgets serrés, tout en maintenant une précision compétitive avec seulement 63 % des jetons de réflexion utilisés par le modèle à réflexion complète. Le guidage budgétaire se généralise également à des domaines de tâches plus larges et présente des capacités émergentes, comme l'estimation de la difficulté des questions. Le code source est disponible à l'adresse suivante : https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Comme les couches d'auto-attention dans les Transformers sont par conception invariantes aux permutations, des encodages positionnels doivent être explicitement incorporés pour permettre une compréhension spatiale. Cependant, les tables de recherche de taille fixe utilisées dans les embeddings positionnels (PE) traditionnels apprenables limitent les capacités d'extrapolation au-delà des longueurs de séquences pré-entraînées. Des méthodes conçues par des experts, telles que ALiBi et RoPE, atténuent cette limitation mais nécessitent des modifications importantes pour s'adapter à de nouvelles modalités, mettant en lumière des défis fondamentaux en matière d'adaptabilité et de scalabilité. Dans ce travail, nous présentons SeqPE, un framework unifié et entièrement apprenable d'encodage positionnel qui représente chaque indice de position n-dimensionnel comme une séquence symbolique et utilise un encodeur positionnel séquentiel léger pour apprendre leurs embeddings de manière end-to-end. Pour régulariser l'espace d'embedding de SeqPE, nous introduisons deux objectifs complémentaires : un objectif contrastif qui aligne les distances d'embedding avec une fonction de distance positionnelle prédéfinie, et une perte de distillation de connaissances qui ancre les embeddings positionnels hors distribution à des représentations enseignantes en distribution, améliorant ainsi les performances d'extrapolation. Les expériences menées sur la modélisation du langage, la réponse à des questions en contexte long et la classification d'images 2D démontrent que SeqPE dépasse non seulement les baselines solides en termes de perplexité, de correspondance exacte (EM) et de précision—particulièrement sous extrapolation de longueur de contexte—mais permet également une généralisation fluide aux entrées multidimensionnelles sans nécessiter de redéfinition manuelle de l'architecture. Nous publions notre code, nos données et nos checkpoints à l'adresse https://github.com/ghrua/seqpe.
L'entraînement de grands réseaux de neurones par rétropropagation de bout en bout crée d'importants goulots d'étranglement en matière de mémoire, limitant l'accès à la recherche de pointe en IA. Nous proposons DiffusionBlocks, un nouveau cadre d'entraînement qui interprète les blocs de réseaux de neurones comme effectuant des opérations de débruitage dans un processus de diffusion en temps continu. En partitionnant le réseau en blocs entraînables de manière indépendante et en optimisant les niveaux de bruit basés sur une masse de probabilité cumulative égale, notre approche atteint une efficacité mémoire significative tout en maintenant des performances compétitives par rapport à la rétropropagation traditionnelle dans les tâches génératives. Les expériences sur les tâches de génération d'images et de modélisation du langage démontrent une réduction de la mémoire proportionnelle au nombre de blocs tout en obtenant des performances supérieures. DiffusionBlocks offre une voie prometteuse pour démocratiser l'accès à l'entraînement de réseaux de neurones à grande échelle avec des ressources computationnelles limitées.
Les récents progrès des modèles de langage à grande échelle (LLMs) ont démontré de nouvelles possibilités pour une analyse de séries temporelles précise et efficace, mais les travaux antérieurs nécessitaient souvent un ajustement fin intensif et/ou ignoraient les corrélations inter-séries. Dans ce travail, nous explorons des stratégies simples et flexibles basées sur des prompts qui permettent aux LLMs d'effectuer des prévisions de séries temporelles sans nécessiter un réentraînement extensif ou l'utilisation d'une architecture externe complexe. À travers l'exploration de méthodes de prompting spécialisées qui exploitent la décomposition des séries temporelles, la tokenisation par patchs et l'augmentation basée sur la similarité des voisins, nous constatons qu'il est possible d'améliorer la qualité des prévisions des LLMs tout en maintenant la simplicité et en nécessitant un prétraitement minimal des données. À cette fin, nous proposons notre propre méthode, PatchInstruct, qui permet aux LLMs de faire des prédictions précises et efficaces.
Nous étudions la synthèse multimodale pour les vidéos pédagogiques, dont l'objectif est de fournir aux utilisateurs un moyen efficace d'apprendre des compétences sous forme d'instructions textuelles et d'images clés extraites des vidéos. Nous constatons que les benchmarks existants se concentrent sur la synthèse vidéo générique au niveau sémantique et ne sont pas adaptés pour fournir des instructions exécutables étape par étape ainsi que des illustrations, deux éléments cruciaux pour les vidéos pédagogiques. Nous proposons un nouveau benchmark pour la synthèse de vidéos pédagogiques sur les interfaces utilisateur (UI) afin de combler cette lacune. Nous avons collecté un ensemble de données de 2 413 vidéos pédagogiques sur les UI, totalisant plus de 167 heures. Ces vidéos sont annotées manuellement pour la segmentation vidéo, la synthèse textuelle et la synthèse vidéo, ce qui permet des évaluations complètes pour une synthèse vidéo concise et exécutable. Nous menons des expériences approfondies sur notre ensemble de données MS4UI, qui montrent que les méthodes de synthèse multimodale de pointe peinent à synthétiser les vidéos sur les UI, et soulignent l'importance de nouvelles méthodes pour la synthèse de vidéos pédagogiques sur les UI.
À une époque marquée par la prolifération de la désinformation et de la mésinformation en ligne, il est essentiel de donner aux lecteurs les moyens de comprendre le contenu qu'ils consultent. Des efforts importants dans cette direction reposent sur la vérification manuelle ou automatique des faits, ce qui peut s'avérer difficile pour des affirmations émergentes avec des informations limitées. De tels scénarios peuvent être abordés en évaluant la fiabilité et le biais politique de la source de l'affirmation, c'est-à-dire en caractérisant des organes de presse entiers plutôt que des affirmations ou des articles individuels. Il s'agit d'une direction de recherche importante mais encore peu explorée. Alors que les travaux antérieurs se sont penchés sur les contextes linguistiques et sociaux, nous n'analysons pas des articles individuels ou des informations sur les réseaux sociaux. Au lieu de cela, nous proposons une nouvelle méthodologie qui imite les critères utilisés par les vérificateurs professionnels pour évaluer la factualité et le biais politique d'un organe de presse dans son ensemble. Plus précisément, nous concevons une variété d'invites basées sur ces critères et sollicitons des réponses de grands modèles de langage (LLM), que nous agrégeons pour faire des prédictions. En plus de démontrer des améliorations significatives par rapport à des bases de référence solides grâce à des expériences approfondies avec plusieurs LLM, nous fournissons une analyse approfondie des erreurs concernant l'effet de la popularité des médias et de la région sur la performance des modèles. De plus, nous menons une étude d'ablation pour mettre en évidence les composants clés de notre ensemble de données qui contribuent à ces améliorations. Pour faciliter les recherches futures, nous avons publié notre ensemble de données et notre code à l'adresse https://github.com/mbzuai-nlp/llm-media-profiling.
Les récents progrès des modèles de langage de grande taille (LLMs) ont eu un impact significatif sur un large éventail de domaines, des domaines généraux aux domaines spécialisés. Cependant, ces avancées ont également considérablement augmenté le potentiel pour les utilisateurs malveillants d'exploiter des invites nuisibles et des jailbreaks pour des attaques malveillantes. Bien que de nombreux efforts aient été déployés pour prévenir les invites nuisibles et les jailbreaks, protéger les LLMs contre de telles attaques malveillantes reste une tâche importante et difficile. Dans cet article, nous proposons QGuard, une méthode de protection simple mais efficace, qui utilise l'invitation par questions pour bloquer les invites nuisibles de manière zero-shot. Notre méthode peut défendre les LLMs non seulement contre les invites nuisibles basées sur le texte, mais aussi contre les attaques d'invites nuisibles multimodales. De plus, en diversifiant et en modifiant les questions de protection, notre approche reste robuste contre les dernières invites nuisibles sans nécessiter de fine-tuning. Les résultats expérimentaux montrent que notre modèle performe de manière compétitive sur les ensembles de données nuisibles textuels et multimodaux. En outre, en fournissant une analyse de l'invitation par questions, nous permettons une analyse en boîte blanche des entrées utilisateur. Nous croyons que notre méthode offre des perspectives précieuses pour les services LLM dans le monde réel afin d'atténuer les risques de sécurité associés aux invites nuisibles.
Alors que la prolifération rapide des caméras portables a soulevé des préoccupations majeures concernant la confidentialité des vidéos égocentriques, les travaux antérieurs ont largement négligé les menaces uniques pesant sur la vie privée du porteur de la caméra. Cette étude explore la question centrale : quelle quantité d'informations privées concernant le porteur de la caméra peut être déduite de ses vidéos à la première personne ? Nous présentons EgoPrivacy, le premier benchmark à grande échelle pour l'évaluation exhaustive des risques de confidentialité dans la vision égocentrique. EgoPrivacy couvre trois types de confidentialité (démographique, individuelle et situationnelle), définissant sept tâches visant à récupérer des informations privées allant du niveau fin (par exemple, l'identité du porteur) au niveau grossier (par exemple, la tranche d'âge). Pour mettre davantage en lumière les menaces inhérentes à la vision égocentrique, nous proposons l'Attaque par Récupération Augmentée, une nouvelle stratégie d'attaque qui exploite la récupération ego-to-exo à partir d'un pool externe de vidéos exocentriques pour renforcer l'efficacité des attaques sur la confidentialité démographique. Une comparaison approfondie des différentes attaques possibles sous tous les modèles de menace est présentée, montrant que les informations privées du porteur sont très susceptibles d'être divulguées. Par exemple, nos résultats indiquent que les modèles de base peuvent compromettre efficacement la confidentialité du porteur, même dans des configurations zero-shot, en récupérant des attributs tels que l'identité, le lieu, le genre et l'origine ethnique avec une précision de 70 à 80 %. Notre code et nos données sont disponibles à l'adresse https://github.com/williamium3000/ego-privacy.
Les modèles de langage sont principalement entraînés sur des données textuelles massives provenant d'Internet, et il devient de plus en plus important de comprendre cette source de données. Les moteurs de recherche par correspondance exacte permettent d'effectuer des recherches dans de grands corpus textuels — en comptant les occurrences de chaînes de caractères et en récupérant les documents les contenant —, mais leur surcharge de stockage élevée limite leur application à des données à l'échelle d'Internet. Nous présentons Infini-gram mini, un système efficace et évolutif capable de rendre consultables des corpus textuels de l'ordre du pétaoctet. Basé sur la structure de données FM-index (Ferragina et Manzini, 2000), qui indexe et compresse simultanément le texte, notre système crée des index dont la taille ne représente que 44 % du corpus. Infini-gram mini améliore considérablement la meilleure implémentation existante de FM-index en termes de vitesse d'indexation (18 fois plus rapide) et d'utilisation de la mémoire, que ce soit lors de l'indexation (réduction de 3,2 fois) ou de l'interrogation (jusqu'à une quantité négligeable). Nous avons indexé 46 To de texte Internet en 50 jours avec un seul nœud CPU à 128 cœurs (ou 19 heures en utilisant 75 de ces nœuds). Nous montrons un cas d'utilisation important d'Infini-gram mini dans une analyse à grande échelle de la contamination des benchmarks. Nous constatons que plusieurs benchmarks d'évaluation de modèles de langage sont fortement contaminés dans les crawls Internet (jusqu'à 40 % dans SQuAD), ce qui pourrait conduire à surestimer les capacités des modèles de langage s'ils sont entraînés sur de telles données. Nous hébergeons un bulletin de contamination des benchmarks pour partager le taux de contamination de nombreux benchmarks de base et contribués par la communauté. Nous mettons également à disposition une interface web et un point d'API pour répondre aux requêtes de recherche générales sur les index d'Infini-gram mini.
L'apprentissage autorégulé (AAR) est essentiel pour les étudiants universitaires confrontés à des exigences académiques accrues et à une plus grande autonomie. Des compétences insuffisantes en AAR peuvent entraîner des habitudes d'étude désorganisées, une faible motivation et une mauvaise gestion du temps, compromettant ainsi la capacité des apprenants à réussir dans des environnements exigeants. À travers une étude formative impliquant 59 étudiants universitaires, nous avons identifié les principaux défis auxquels les étudiants sont confrontés dans le développement des compétences en AAR, notamment des difficultés liées à la fixation d'objectifs, à la gestion du temps et à l'apprentissage réflexif. Pour relever ces défis, nous présentons SRLAgent, un système assisté par des modèles de langage de grande taille (LLM) qui favorise les compétences en AAR grâce à la ludification et à un soutien adaptatif. Fondé sur le cadre en trois phases de Zimmerman pour l'AAR, SRLAgent permet aux étudiants de s'engager dans la fixation d'objectifs, l'exécution de stratégies et l'autoréflexion au sein d'un environnement interactif basé sur le jeu. Le système propose un retour d'information en temps réel et un étayage alimenté par les LLM pour soutenir les efforts d'étude indépendants des étudiants. Nous avons évalué SRLAgent en utilisant un plan d'étude inter-sujets, en le comparant à un système de base (AAR sans les fonctionnalités de l'Agent) et à une condition d'apprentissage multimédia traditionnelle. Les résultats ont montré des améliorations significatives des compétences en AAR au sein du groupe SRLAgent (p < 0,001, d de Cohen = 0,234) et un engagement plus élevé par rapport aux conditions de référence. Ce travail met en lumière la valeur de l'intégration d'un étayage en AAR et d'un soutien en temps réel par l'IA dans des environnements ludifiés, offrant des implications pour la conception de technologies éducatives visant à promouvoir un apprentissage approfondi et le développement de compétences métacognitives.
Alors que les modèles de langage sont de plus en plus utilisés en science des matériaux, les modèles typiques reposent sur des méthodes de tokenisation centrées sur la fréquence, initialement développées pour le traitement du langage naturel. Cependant, ces méthodes produisent fréquemment une fragmentation excessive et une perte sémantique, ne parvenant pas à maintenir l'intégrité structurelle et sémantique des concepts matériels. Pour résoudre ce problème, nous proposons MATTER, une nouvelle approche de tokenisation qui intègre des connaissances en matériaux dans le processus de tokenisation. Basé sur MatDetector, entraîné sur notre base de connaissances en matériaux, et une méthode de reclassement qui priorise les concepts matériels lors de la fusion des tokens, MATTER préserve l'intégrité structurelle des concepts matériels identifiés et empêche la fragmentation pendant la tokenisation, garantissant que leur signification sémantique reste intacte. Les résultats expérimentaux démontrent que MATTER surpasse les méthodes de tokenisation existantes, obtenant un gain de performance moyen de 4 % et 2 % dans les tâches de génération et de classification, respectivement. Ces résultats soulignent l'importance des connaissances du domaine pour les stratégies de tokenisation dans le traitement des textes scientifiques. Notre code est disponible à l'adresse suivante : https://github.com/yerimoh/MATTER.
Les grands modèles de langage (LLMs) sont généralement entraînés via la prédiction du mot suivant (NWP), qui offre une fluidité de surface élevée mais manque souvent de support pour un raisonnement robuste. Nous proposons BOttlenecked next Word exploration (BOW), un nouveau cadre d'apprentissage par renforcement (RL) qui repense la NWP en introduisant un goulot d'étranglement de raisonnement où un modèle de politique génère d'abord un chemin de raisonnement plutôt que de prédire directement le token suivant, après quoi un modèle juge figé prédit la distribution du token suivant uniquement basée sur ce chemin de raisonnement. Nous entraînons le modèle de politique en utilisant GRPO avec des récompenses qui quantifient l'efficacité avec laquelle le chemin de raisonnement facilite la récupération du mot suivant. Par rapport à d'autres méthodes de pré-entraînement continu, nous montrons que BOW améliore à la fois les capacités générales de raisonnement et celles spécifiques à la prédiction du mot suivant du modèle de base, évaluées sur divers benchmarks. Nos résultats montrent que BOW peut servir d'alternative efficace et scalable à la NWP classique.
La prédiction des résultats liés à la mortalité à partir d'images offre la perspective d'un dépistage de santé accessible, non invasif et évolutif. Nous présentons une méthode qui exploite des modèles de fondation de transformateurs visuels pré-entraînés pour estimer l'espérance de vie restante à partir d'images faciales et corporelles complètes, tout en fournissant une quantification robuste de l'incertitude. Nous montrons que l'incertitude prédictive varie systématiquement avec la véritable espérance de vie restante, et que cette incertitude peut être efficacement modélisée en apprenant une distribution gaussienne pour chaque échantillon. Notre approche atteint une erreur absolue moyenne (MAE) de pointe de 7,48 ans sur un ensemble de données établi, et s'améliore encore pour atteindre des MAE de 4,79 et 5,07 ans sur deux nouveaux ensembles de données de meilleure qualité, curés et publiés dans ce travail. Fait important, nos modèles fournissent des estimations d'incertitude bien calibrées, comme en témoigne une erreur de calibration attendue par segment de 0,62 ans. Bien que ces résultats ne soient pas destinés à un déploiement clinique, ils mettent en lumière le potentiel d'extraction de signaux médicalement pertinents à partir d'images. Nous mettons à disposition tout le code et les ensembles de données pour faciliter des recherches ultérieures.
Nous présentons et évaluons une suite de prompts structurés de type « preuve de concept » (PoC), conçus pour susciter un raisonnement hiérarchique similaire à celui des humains tout en guidant les modèles de langage de grande taille (LLMs) dans l'analyse sémantique et linguistique de haut niveau de manuscrits académiques. Ces prompts ciblent deux tâches analytiques non triviales : l'identification de claims non étayés dans les résumés (intégrité informationnelle) et le repérage de références pronominales ambiguës (clarté linguistique). Nous avons mené une évaluation systématique et multi-essais sur deux modèles de pointe (Gemini Pro 2.5 Pro et ChatGPT Plus o3) dans des conditions de contexte variées. Nos résultats pour la tâche d'intégrité informationnelle révèlent une divergence significative dans les performances des modèles : bien que les deux modèles aient réussi à identifier une tête de syntagme nominal non étayée (95 % de réussite), ChatGPT a systématiquement échoué (0 % de réussite) à identifier un modificateur adjectival non étayé que Gemini a correctement repéré (95 % de réussite), soulevant une question concernant l'influence potentielle du rôle syntaxique de la cible. Pour la tâche d'analyse linguistique, les deux modèles ont bien performé (80-90 % de réussite) avec un contexte complet du manuscrit. Cependant, dans un contexte limité au résumé, ChatGPT a atteint un taux de réussite parfait (100 %), tandis que les performances de Gemini se sont considérablement dégradées. Nos résultats suggèrent que l'utilisation de prompts structurés est une méthodologie viable pour l'analyse textuelle complexe, mais montrent que la performance des prompts peut fortement dépendre de l'interaction entre le modèle, le type de tâche et le contexte, soulignant la nécessité de tests rigoureux et spécifiques à chaque modèle.
Les travaux existants en génération automatique de musique se sont principalement concentrés sur des systèmes de bout en bout produisant des compositions complètes ou des continuations. Cependant, comme la composition musicale est typiquement un processus itératif, ces systèmes rendent difficile l'engagement dans un va-et-vient entre l'humain et la machine, essentiel à la créativité assistée par ordinateur. Dans cette étude, nous abordons la tâche de remplissage symbolique de musique personnalisable, multi-pistes, à long contexte et contrôlable, afin d'améliorer le processus de composition assistée par ordinateur. Nous présentons MIDI-RWKV, un modèle novateur basé sur l'architecture linéaire RWKV-7, permettant une co-création musicale efficace et cohérente sur des appareils embarqués. Nous démontrons également que MIDI-RWKV permet une méthode efficace de réglage de son état initial pour la personnalisation dans un régime à très faible échantillonnage. Nous évaluons MIDI-RWKV et son réglage d'état sur plusieurs métriques quantitatives et qualitatives, et publions les poids du modèle et le code à l'adresse https://github.com/christianazinn/MIDI-RWKV.
La langue évolue au fil du temps, y compris dans le domaine du discours haineux, qui se transforme rapidement en fonction des dynamiques sociales et des changements culturels. Bien que la recherche en traitement automatique du langage (TAL) ait étudié l'impact de l'évolution linguistique sur l'entraînement des modèles et ait proposé plusieurs solutions à cet égard, son influence sur l'évaluation des modèles reste peu explorée. Pourtant, les benchmarks de discours haineux jouent un rôle crucial pour garantir la sécurité des modèles. Dans cet article, nous évaluons empiriquement la robustesse de 20 modèles linguistiques à travers deux expériences évolutives sur le discours haineux, et nous mettons en évidence le décalage temporel entre les évaluations statiques et celles sensibles au temps. Nos résultats plaident en faveur de benchmarks linguistiques sensibles au temps afin d'évaluer correctement et de manière fiable les modèles linguistiques dans le domaine du discours haineux.