papers.description
Les modèles de langage scientifique à grande échelle (Sci-LLMs) transforment la manière dont les connaissances sont représentées, intégrées et appliquées dans la recherche scientifique, bien que leur progression soit influencée par la nature complexe des données scientifiques. Cette étude propose une synthèse exhaustive et centrée sur les données qui redéfinit le développement des Sci-LLMs comme une co-évolution entre les modèles et leur substrat de données sous-jacent. Nous établissons une taxonomie unifiée des données scientifiques et un modèle hiérarchique des connaissances scientifiques, en mettant l'accent sur les défis multimodaux, multi-échelles et spécifiques à un domaine qui distinguent les corpus scientifiques des ensembles de données généralistes en traitement du langage naturel. Nous passons en revue systématiquement les récents Sci-LLMs, des modèles généralistes aux modèles spécialisés couvrant diverses disciplines scientifiques, accompagnés d'une analyse approfondie de plus de 270 ensembles de données pré- et post-entraînement, montrant pourquoi les Sci-LLMs imposent des exigences distinctes — des corpus hétérogènes, multi-échelles et chargés d'incertitudes qui nécessitent des représentations préservant l'invariance de domaine et permettant un raisonnement intermodal. En matière d'évaluation, nous examinons plus de 190 ensembles de données de référence et observons une transition des évaluations statiques vers des évaluations orientées processus et découverte, avec des protocoles d'évaluation avancés. Ces analyses centrées sur les données mettent en lumière des problèmes persistants dans le développement des données scientifiques et discutent des solutions émergentes impliquant des pipelines d'annotation semi-automatisés et une validation experte. Enfin, nous esquissons un changement de paradigme vers des systèmes en boucle fermée où des agents autonomes basés sur les Sci-LLMs expérimentent activement, valident et contribuent à une base de connaissances vivante et évolutive. Collectivement, ce travail fournit une feuille de route pour construire des systèmes d'intelligence artificielle (IA) fiables et en évolution continue, fonctionnant comme de véritables partenaires dans l'accélération de la découverte scientifique.
Les modèles de langage multimodaux (MLLMs) dotés de capacités de raisonnement étape par étape ont démontré des performances remarquables sur des problèmes de raisonnement complexes. Cependant, ce processus de réflexion est redondant pour des problèmes simples qui ne nécessitent pas de raisonnement complexe. Pour remédier à cette inefficacité, nous proposons R-4B, un MLLM à réflexion automatique, capable de décider de manière adaptative quand réfléchir en fonction de la complexité du problème. L'idée centrale de R-4B est de doter le modèle de capacités de réflexion et de non-réflexion grâce à un recuit bi-mode, et d'appliquer l'optimisation de politique bi-mode (BPO) pour améliorer la précision du modèle dans la décision d'activer ou non le processus de réflexion. Plus précisément, nous entraînons d'abord le modèle sur un ensemble de données soigneusement sélectionné couvrant divers sujets, contenant des échantillons des modes avec et sans réflexion. Ensuite, il subit une deuxième phase d'entraînement dans un cadre GRPO amélioré, où le modèle de politique est contraint de générer des réponses pour chaque requête d'entrée dans les deux modes. Les résultats expérimentaux montrent que R-4B atteint des performances de pointe sur 25 benchmarks exigeants. Il surpasse Qwen2.5-VL-7B dans la plupart des tâches et atteint des performances comparables à des modèles plus grands comme Kimi-VL-A3B-Thinking-2506 (16B) sur des benchmarks intensifs en raisonnement, avec un coût computationnel moindre.
L'adoption croissante des grands modèles de langage (LLM) dans le génie logiciel nécessite une évaluation rigoureuse de la sécurité du code qu'ils génèrent. Cependant, les benchmarks existants sont inadéquats, car ils se concentrent sur des extraits de code isolés, utilisent des méthodes d'évaluation instables manquant de reproductibilité, et ne parviennent pas à relier la qualité du contexte d'entrée à la sécurité de la sortie. Pour combler ces lacunes, nous introduisons A.S.E (AI Code Generation Security Evaluation), un benchmark pour la génération sécurisée de code au niveau des dépôts. A.S.E construit des tâches à partir de dépôts réels documentés avec des CVE, en conservant le contexte complet du dépôt, comme les systèmes de construction et les dépendances inter-fichiers. Son cadre d'évaluation reproductible et conteneurisé utilise des règles définies par des experts pour fournir des évaluations stables et auditées de la sécurité, de la qualité de construction et de la stabilité de la génération. Notre évaluation des principaux LLM sur A.S.E révèle trois conclusions clés : (1) Claude-3.7-Sonnet obtient les meilleures performances globales. (2) L'écart de sécurité entre les modèles propriétaires et open-source est étroit ; Qwen3-235B-A22B-Instruct atteint le score de sécurité le plus élevé. (3) Les stratégies de décodage concises et « rapides » surpassent systématiquement les raisonnements complexes et « lents » pour la correction des failles de sécurité.
La capacité humaine à effectuer de manière fluide un raisonnement multimodal et des interactions physiques dans le monde ouvert constitue un objectif central pour les systèmes intelligents incarnés à usage général. Les récents modèles vision-langage-action (VLA), co-entraînés sur des données robotiques et visuo-textuelles à grande échelle, ont démontré des progrès notables dans le contrôle robotique général. Cependant, ils ne parviennent pas encore à atteindre la flexibilité humaine dans le raisonnement et l'interaction entrelacés. Dans ce travail, nous présentons EO-Robotics, composé du modèle EO-1 et du jeu de données EO-Data1.5M. EO-1 est un modèle de fondation incarné unifié qui obtient des performances supérieures en raisonnement multimodal incarné et en contrôle robotique grâce à un pré-entraînement entrelaçant vision, texte et action. Le développement d'EO-1 repose sur deux piliers clés : (i) une architecture unifiée qui traite les entrées multimodales de manière indiscriminée (image, texte, vidéo et action), et (ii) un jeu de données massif et de haute qualité pour le raisonnement multimodal incarné, EO-Data1.5M, qui contient plus de 1,5 million d'échantillons mettant l'accent sur la compréhension entrelacée vision-texte-action. EO-1 est entraîné grâce à des synergies entre le décodage auto-régressif et le débruitage par correspondance de flux sur EO-Data1.5M, permettant une génération fluide d'actions robotiques et un raisonnement multimodal incarné. Des expériences approfondies démontrent l'efficacité de l'apprentissage entrelaçant vision, texte et action pour la compréhension et la généralisation dans le monde ouvert, validées par une variété de tâches de manipulation dextre à long terme sur plusieurs incarnations. Cet article détaille l'architecture d'EO-1, la stratégie de construction des données d'EO-Data1.5M et la méthodologie d'entraînement, offrant des insights précieux pour le développement de modèles de fondation incarnés avancés.
Les lois d'échelle ont validé le succès et le potentiel des modèles entraînés sur de grandes quantités de données dans la génération créative à travers les domaines du texte, de l'image et de la vidéo. Cependant, ce paradigme se heurte à une pénurie de données dans le domaine 3D, car celles-ci sont beaucoup moins disponibles sur internet comparé aux modalités mentionnées précédemment. Heureusement, il existe des vidéos adéquates qui contiennent intrinsèquement des connaissances préalables de bon sens, offrant ainsi un signal de supervision alternatif pour atténuer le goulot d'étranglement de généralisation causé par les données 3D natives limitées. D'une part, les vidéos capturant plusieurs vues d'un objet ou d'une scène fournissent une cohérence spatiale préalable pour la génération 3D. D'autre part, les riches informations sémantiques contenues dans les vidéos permettent au contenu généré d'être plus fidèle aux invites textuelles et sémantiquement plausible. Cet article explore comment appliquer la modalité vidéo dans la génération d'actifs 3D, des ensembles de données aux modèles. Nous présentons Droplet3D-4M, le premier ensemble de données vidéo à grande échelle avec des annotations de niveau multi-vues, et entraînons Droplet3D, un modèle génératif prenant en charge à la fois les entrées d'images et de texte dense. Des expériences approfondies valident l'efficacité de notre approche, démontrant sa capacité à produire un contenu spatialement cohérent et sémantiquement plausible. De plus, contrairement aux solutions 3D prédominantes, notre approche montre un potentiel d'extension aux applications au niveau de la scène. Cela indique que les connaissances préalables de bon sens issues des vidéos facilitent considérablement la création 3D. Nous avons rendu publics toutes les ressources, y compris l'ensemble de données, le code, le cadre technique et les poids du modèle : https://dropletx.github.io/.
Les grands modèles de langage (LLM) excellent dans des tâches de raisonnement complexe telles que les mathématiques et la programmation, mais ils éprouvent souvent des difficultés avec des tâches interactives simples que les jeunes enfants accomplissent sans effort. Cette divergence met en lumière un écart critique entre la connaissance déclarative (savoir quelque chose) et la connaissance procédurale (savoir comment faire quelque chose). Bien que les agents d'apprentissage par renforcement (RL) traditionnels puissent acquérir des connaissances procédurales par l'interaction avec l'environnement, ils fonctionnent souvent comme des boîtes noires et nécessitent des volumes importants de données d'entraînement. En revanche, les LLM possèdent une vaste connaissance du monde et des capacités de raisonnement, mais sont incapables de convertir efficacement cette connaissance statique en prise de décision dynamique dans des contextes interactifs. Pour relever ce défi, nous proposons Think in Games (TiG), un cadre novateur qui permet aux LLM de développer une compréhension procédurale grâce à une interaction directe avec des environnements de jeu, tout en conservant leurs capacités inhérentes de raisonnement et d'explication. Plus précisément, TiG reformule la prise de décision basée sur le RL en une tâche de modélisation du langage : les LLM génèrent des politiques guidées par le langage, qui sont affinées itérativement par l'apprentissage par renforcement en ligne basé sur les retours de l'environnement. Nos résultats expérimentaux montrent que TiG comble avec succès l'écart entre la connaissance déclarative et procédurale, atteignant des performances compétitives avec des besoins en données et en calcul considérablement réduits par rapport aux méthodes RL conventionnelles. De plus, TiG fournit des explications étape par étape en langage naturel pour ses décisions, améliorant grandement la transparence et l'interprétabilité dans des tâches interactives complexes.
La synthèse de têtes parlantes pilotée par l'audio a atteint un photoréalisme remarquable, mais les modèles de pointe (SOTA) présentent un échec critique : ils manquent de généralisation à l'ensemble du spectre de la diversité humaine en termes d'ethnicité, de langue et de groupes d'âge. Nous soutenons que cet écart de généralisation est un symptôme direct des limitations des données d'entraînement existantes, qui manquent d'échelle, de qualité et de diversité nécessaires. Pour relever ce défi, nous introduisons TalkVid, un nouveau jeu de données à grande échelle, de haute qualité et diversifié, contenant 1244 heures de vidéo provenant de 7729 locuteurs uniques. TalkVid est élaboré grâce à un pipeline automatisé en plusieurs étapes, qui filtre rigoureusement la stabilité des mouvements, la qualité esthétique et les détails faciaux, et est validé par des jugements humains pour garantir sa fiabilité. De plus, nous construisons et publions TalkVid-Bench, un ensemble d'évaluation stratifié de 500 clips soigneusement équilibrés selon des axes démographiques et linguistiques clés. Nos expériences démontrent qu'un modèle entraîné sur TalkVid surpasse les modèles entraînés sur des jeux de données précédents, en affichant une généralisation inter-jeux de données supérieure. De manière cruciale, notre analyse sur TalkVid-Bench révèle des disparités de performance entre sous-groupes qui sont masquées par les métriques agrégées traditionnelles, soulignant ainsi sa nécessité pour les recherches futures. Le code et les données sont disponibles sur https://github.com/FreedomIntelligence/TalkVid.
jina-code-embeddings est une suite innovante de modèles d'incorporation de code conçue pour récupérer du code à partir de requêtes en langage naturel, répondre à des questions techniques et identifier des extraits de code sémantiquement similaires à travers différents langages de programmation. Elle utilise de manière novatrice une architecture autoregressive pré-entraînée à la fois sur du texte et du code, générant des incorporations via un mécanisme de pooling sur le dernier token. Nous décrivons la méthode d'entraînement et démontrons des performances de pointe malgré la taille relativement réduite des modèles, validant ainsi cette approche pour la construction de modèles d'incorporation de code.
Le mélange de données utilisé dans le pré-entraînement d'un modèle de langage est un élément fondamental de ses performances finales. Cependant, une stratégie de mélange statique est sous-optimale, car les préférences d'apprentissage du modèle pour différents domaines de données évoluent dynamiquement au cours de l'entraînement. De manière cruciale, observer ces préférences changeantes de manière efficace sur le plan computationnel reste un défi majeur. Pour y remédier, nous proposons TiKMiX, une méthode qui ajuste dynamiquement le mélange de données en fonction des préférences évolutives du modèle. TiKMiX introduit l'Influence de Groupe, une métrique efficace pour évaluer l'impact des domaines de données sur le modèle. Cette métrique permet de formuler le problème de mélange de données comme une recherche d'une distribution optimale maximisant l'influence. Nous résolvons ce problème via deux approches : TiKMiX-D pour une optimisation directe, et TiKMiX-M, qui utilise un modèle de régression pour prédire un mélange supérieur. Nous avons entraîné des modèles avec différents nombres de paramètres, sur jusqu'à 1 trillion de tokens. TiKMiX-D surpasse les performances des méthodes de pointe comme REGMIX tout en utilisant seulement 20 % des ressources computationnelles. TiKMiX-M conduit à un gain de performance moyen de 2 % sur 9 benchmarks en aval. Nos expériences révèlent que les préférences de données d'un modèle évoluent avec la progression de l'entraînement et l'échelle, et nous démontrons qu'ajuster dynamiquement le mélange de données en fonction de l'Influence de Groupe, une mesure directe de ces préférences, améliore significativement les performances en atténuant la sous-digestion des données observée avec des ratios statiques.
L'agent GUI vise à permettre des opérations automatisées sur les appareils mobiles et PC, ce qui constitue une tâche importante pour atteindre l'intelligence artificielle générale. Les avancées rapides des modèles de langage visuel (VLMs) accélèrent le développement des agents GUI, grâce à leurs puissantes capacités en compréhension visuelle et planification de tâches. Cependant, la création d'un agent GUI reste une tâche complexe en raison de la rareté des trajectoires d'opération, de la disponibilité des infrastructures interactives et des limitations initiales des modèles de base. Dans ce travail, nous présentons UItron, un modèle de base open-source pour les agents GUI automatiques, doté de capacités avancées en perception, ancrage et planification d'interfaces graphiques. UItron souligne la nécessité d'une ingénierie des données systémique et d'infrastructures interactives comme éléments fondamentaux pour faire progresser le développement des agents GUI. Il étudie systématiquement une série de stratégies d'ingénierie des données pour améliorer les effets d'entraînement, tout en établissant un environnement interactif connectant à la fois les appareils mobiles et PC. Pour l'entraînement, UItron adopte un ajustement supervisé pour les tâches de perception et de planification dans divers scénarios d'interfaces graphiques, puis développe un cadre d'apprentissage par renforcement curriculaire pour permettre un raisonnement complexe et une exploration dans des environnements en ligne. En conséquence, UItron obtient des performances supérieures dans les benchmarks de perception, ancrage et planification d'interfaces graphiques. En particulier, UItron met en avant une maîtrise de l'interaction avec les applications mobiles chinoises de premier plan, car nous avons identifié un manque général de capacités en chinois même dans les solutions les plus avancées. À cette fin, nous collectons manuellement plus d'un million d'étapes de trajectoires d'opération parmi les 100 applications les plus populaires, et construisons des environnements d'évaluation d'agents hors ligne et en ligne. Les résultats expérimentaux montrent qu'UItron réalise des progrès significatifs dans les scénarios d'applications chinoises, rapprochant ainsi les agents GUI d'une application réelle.
Les évaluations des modèles audio-langage (ALMs) — des modèles multimodaux qui prennent en entrée des séquences entrelacées d'audio et de texte et produisent du texte en sortie — sont entravées par l'absence de benchmarks standardisés ; la plupart des benchmarks ne mesurent qu'une ou deux capacités et omettent des aspects évaluatifs tels que l'équité ou la sécurité. De plus, la comparaison entre les modèles est difficile car les évaluations séparées testent un nombre limité de modèles et utilisent des méthodes de prompt et des paramètres d'inférence différents. Pour pallier ces lacunes, nous introduisons AHELM, un benchmark qui agrège divers ensembles de données — incluant deux nouveaux ensembles de données audio-texte synthétiques appelés PARADE, qui évalue les ALMs sur l'évitement des stéréotypes, et CoRe-Bench, qui mesure le raisonnement sur des conversations audio via des questions-réponses multi-tours inférentielles — afin de mesurer de manière holistique la performance des ALMs sur 10 aspects que nous avons identifiés comme importants pour le développement et l'utilisation des ALMs : perception audio, connaissance, raisonnement, détection des émotions, biais, équité, multilinguisme, robustesse, toxicité et sécurité. Nous standardisons également les prompts, les paramètres d'inférence et les métriques d'évaluation pour garantir des comparaisons équitables entre les modèles. Nous testons 14 ALMs à poids ouvert et à API fermée provenant de 3 développeurs, ainsi que 3 systèmes de base simples supplémentaires, chacun composé d'un système de reconnaissance automatique de la parole et d'un modèle de langage. Nos résultats montrent que bien que Gemini 2.5 Pro se classe premier sur 5 des 10 aspects, il présente une inéquité de groupe (p=0.01) sur les tâches de reconnaissance vocale, alors que la plupart des autres modèles ne le font pas. Nous constatons également que les systèmes de base performent raisonnablement bien sur AHELM, l'un d'entre eux se classant 5e au classement général malgré des capacités limitées à la conversion parole-texte. Pour plus de transparence, tous les prompts bruts, les générations de modèles et les sorties sont disponibles sur notre site web à l'adresse https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM est conçu pour être un benchmark évolutif, et de nouveaux ensembles de données et modèles seront ajoutés au fil du temps.
Les récents progrès dans l'application de l'apprentissage par renforcement (RL) aux grands modèles de langage (LLMs) ont conduit à des avancées significatives. En particulier, une série de phénomènes remarquables mais souvent contre-intuitifs ont été rapportés dans les LLMs, présentant des schémas qui ne sont généralement pas observés dans les contextes traditionnels de RL. Par exemple, des affirmations notables incluent qu'un seul exemple d'entraînement peut égaler les performances obtenues avec un ensemble de données complet, que le signal de récompense n'a pas besoin d'être très précis, et que l'entraînement uniquement avec des échantillons négatifs peut égaler ou même surpasser des méthodes sophistiquées basées sur les récompenses. Cependant, les conditions précises sous lesquelles ces observations sont valables - et, surtout, quand elles échouent - restent floues. Dans ce travail, nous identifions un facteur clé qui différencie les observations en RL : si le modèle pré-entraîné présente déjà un fort alignement modèle-tâche, mesuré par la précision pass@k sur la tâche évaluée. À travers un examen systématique et approfondi d'une série d'affirmations contre-intuitives, soutenu par une validation expérimentale rigoureuse sur différentes architectures de modèles et domaines de tâches, nos résultats montrent que bien que l'entraînement standard en RL reste constamment robuste dans divers contextes, beaucoup de ces résultats contre-intuitifs n'apparaissent que lorsque le modèle et la tâche présentent déjà un fort alignement modèle-tâche. En revanche, ces techniques échouent à conduire un apprentissage substantiel dans des régimes plus difficiles, où les méthodes standard de RL restent efficaces.
La symétrie est l'un des indices géométriques les plus fondamentaux en vision par ordinateur, et sa détection constitue un défi permanent. Avec les récents progrès des modèles vision-langage, notamment CLIP, nous étudions si un modèle CLIP pré-entraîné peut faciliter la détection de symétrie en exploitant les indices de symétrie supplémentaires présents dans les descriptions d'images naturelles. Nous proposons CLIPSym, qui exploite les encodeurs d'images et de langage de CLIP ainsi qu'un décodeur équivariant par rotation basé sur un hybride de Transformer et de G-Convolution pour détecter les symétries de rotation et de réflexion. Pour tirer pleinement parti de l'encodeur de langage de CLIP, nous avons développé une nouvelle technique d'invite appelée Semantic-Aware Prompt Grouping (SAPG), qui agrège un ensemble diversifié d'invites fréquentes basées sur des objets afin de mieux intégrer les indices sémantiques pour la détection de symétrie. Empiriquement, nous montrons que CLIPSym surpasse l'état de l'art actuel sur trois ensembles de données standard de détection de symétrie (DENDI, SDRW et LDRS). Enfin, nous réalisons des ablations détaillées vérifiant les avantages du pré-entraînement de CLIP, du décodeur équivariant proposé et de la technique SAPG. Le code est disponible à l'adresse https://github.com/timyoung2333/CLIPSym.
Les agents d'interface utilisateur (UI) promettent de rendre les interfaces inaccessibles ou complexes plus faciles à utiliser pour les utilisateurs aveugles ou malvoyants (BLV). Cependant, les agents d'UI actuels exécutent généralement les tâches de bout en bout sans impliquer les utilisateurs dans les choix critiques ou sans les informer des informations contextuelles importantes, réduisant ainsi leur autonomie. Par exemple, dans notre étude de terrain, un participant BLV a demandé à acheter l'eau pétillante la moins chère disponible, et l'agent en a automatiquement choisi une parmi plusieurs options au même prix, sans mentionner les produits alternatifs avec des saveurs différentes ou de meilleures évaluations. Pour résoudre ce problème, nous présentons Morae, un agent d'UI qui identifie automatiquement les points de décision lors de l'exécution des tâches et fait une pause pour permettre aux utilisateurs de faire des choix. Morae utilise des modèles multimodaux de grande envergure pour interpréter les requêtes des utilisateurs ainsi que le code de l'interface et les captures d'écran, et invite les utilisateurs à clarifier leurs préférences lorsqu'un choix doit être fait. Dans une étude portant sur des tâches web réelles avec des participants BLV, Morae a aidé les utilisateurs à accomplir plus de tâches et à sélectionner des options correspondant mieux à leurs préférences, par rapport aux agents de référence, y compris OpenAI Operator. Plus largement, ce travail illustre une approche à initiative mixte dans laquelle les utilisateurs bénéficient de l'automatisation des agents d'UI tout en ayant la possibilité d'exprimer leurs préférences.
La découverte automatisée de lois physiques à partir de données observationnelles dans le monde réel constitue un défi majeur en IA. Les méthodes actuelles, reposant sur la régression symbolique ou les LLMs, se limitent à des données unimodales et négligent les riches représentations phénoménologiques visuelles du mouvement, essentielles pour les physiciens. Cette "privation sensorielle" affaiblit considérablement leur capacité à interpréter les motifs spatio-temporels inhérents aux phénomènes dynamiques. Pour combler cette lacune, nous proposons VIPER-R1, un modèle multimodal qui effectue une Induction Visuelle pour le Raisonnement d'Équations Physiques afin de découvrir des formules symboliques fondamentales. Il intègre la perception visuelle, les données de trajectoire et le raisonnement symbolique pour imiter le processus de découverte scientifique. Le modèle est entraîné via un curriculum d'Induction de Structure de Mouvement (MSI), utilisant un réglage fin supervisé pour interpréter les portraits de phase cinématiques et construire des hypothèses guidées par une Chaîne de Pensée Causale (C-CoT), suivie d'une Calibration Symbolique Guidée par Récompense (RGSC) pour affiner la structure des formules avec l'apprentissage par renforcement. Lors de l'inférence, le VIPER-R1 entraîné agit comme un agent : il propose d'abord une ansatz symbolique de haute confiance, puis invoque activement un outil externe de régression symbolique pour effectuer un Réalignement Résiduel Symbolique (SR^2). Cette étape finale, analogue à l'analyse de perturbation d'un physicien, réconcilie le modèle théorique avec les données empiriques. Pour soutenir cette recherche, nous introduisons PhysSymbol, un nouveau corpus multimodal de 5 000 instances. Les expériences montrent que VIPER-R1 surpasse systématiquement les modèles de référence VLM en termes de précision et d'interprétabilité, permettant une découverte plus précise des lois physiques. Page du projet : https://jiaaqiliu.github.io/VIPER-R1/
Les réseaux à écho (Echo State Networks, ESNs) sont un type particulier de réseaux neuronaux récurrents (Recurrent Neural Networks, RNNs) non entraînés, relevant du cadre de l’apprentissage par réservoir (Reservoir Computing, RC), et populaires pour leur apprentissage rapide et efficace. Cependant, les ESNs traditionnels rencontrent souvent des difficultés dans le traitement d’informations à long terme. Dans cet article, nous introduisons une nouvelle classe de RNNs profonds non entraînés basés sur des connexions résiduelles temporelles, appelés réseaux à écho résiduels profonds (Deep Residual Echo State Networks, DeepResESNs). Nous montrons que l’exploitation d’une hiérarchie de couches récurrentes résiduelles non entraînées améliore significativement la capacité de mémoire et la modélisation temporelle à long terme. Pour les connexions résiduelles temporelles, nous considérons différentes configurations orthogonales, incluant des configurations générées aléatoirement et des configurations à structure fixe, et nous étudions leur impact sur la dynamique du réseau. Une analyse mathématique approfondie détaille les conditions nécessaires et suffisantes pour garantir une dynamique stable au sein des DeepResESNs. Nos expériences sur une variété de tâches de séries temporelles mettent en évidence les avantages de l’approche proposée par rapport aux RC traditionnels, qu’ils soient peu profonds ou profonds.
L'exploitation des données de mouvement humain pour doter les robots de compétences de manipulation polyvalentes est apparue comme un paradigme prometteur dans le domaine de la manipulation robotique. Cependant, la traduction des mouvements multi-sources de la main humaine en comportements robotiques réalisables reste un défi, en particulier pour les robots équipés de mains dextres multi-doigts caractérisées par des espaces d'action complexes et de haute dimension. De plus, les approches existantes peinent souvent à produire des politiques capables de s'adapter à des conditions environnementales variées. Dans cet article, nous présentons HERMES, un cadre d'apprentissage humain-robot pour la manipulation mobile bimanuelle dextre. Tout d'abord, HERMES formule une approche unifiée d'apprentissage par renforcement capable de transformer de manière fluide les mouvements hétérogènes de la main humaine provenant de multiples sources en comportements robotiques physiquement plausibles. Ensuite, pour atténuer l'écart sim2real, nous concevons une méthode de transfert sim2real basée sur des images de profondeur, de bout en bout, pour améliorer la généralisation aux scénarios réels. Par ailleurs, pour permettre un fonctionnement autonome dans des environnements variés et non structurés, nous enrichissons le modèle de base de navigation avec un mécanisme de localisation en boucle fermée Perspective-n-Point (PnP), assurant un alignement précis des objectifs visuels et reliant efficacement la navigation autonome à la manipulation dextre. Les résultats expérimentaux approfondis démontrent que HERMES présente de manière constante des comportements généralisables dans divers scénarios en conditions réelles, accomplissant avec succès de nombreuses tâches complexes de manipulation mobile bimanuelle dextre. Page du projet : https://gemcollector.github.io/HERMES/.
La quantification post-entraînement (PTQ) est cruciale pour déployer des modèles de détection d'objets efficaces, comme YOLO, sur des appareils aux ressources limitées. Cependant, l'impact de la réduction de précision sur la robustesse des modèles face à des dégradations d'entrée du monde réel, telles que le bruit, le flou et les artefacts de compression, est une préoccupation majeure. Cet article présente une étude empirique complète évaluant la robustesse des modèles YOLO (de l'échelle nano à extra-large) à travers plusieurs formats de précision : FP32, FP16 (TensorRT), Dynamic UINT8 (ONNX) et Static INT8 (TensorRT). Nous introduisons et évaluons une stratégie de calibration sensible aux dégradations pour la PTQ en Static INT8, où le processus de calibration TensorRT est exposé à un mélange d'images propres et synthétiquement dégradées. Les modèles ont été évalués sur le jeu de données COCO dans sept conditions de dégradation distinctes (incluant divers types et niveaux de bruit, de flou, de faible contraste et de compression JPEG) ainsi qu'un scénario de dégradation mixte. Les résultats indiquent que bien que les moteurs Static INT8 TensorRT offrent des accélérations substantielles (~1,5-3,3x) avec une baisse modérée de précision (~3-7% mAP50-95) sur des données propres, la calibration sensible aux dégradations proposée n'a pas permis d'obtenir des améliorations de robustesse cohérentes et généralisées par rapport à la calibration standard sur données propres pour la plupart des modèles et des dégradations. Une exception notable a été observée pour les modèles de plus grande échelle dans des conditions de bruit spécifiques, suggérant que la capacité du modèle pourrait influencer l'efficacité de cette approche de calibration. Ces résultats mettent en lumière les défis liés à l'amélioration de la robustesse de la PTQ et fournissent des insights pour le déploiement de détecteurs quantifiés dans des environnements non contrôlés. Tous les codes et tableaux d'évaluation sont disponibles à l'adresse https://github.com/AllanK24/QRID.
Chaque année, la plupart des établissements d'enseignement collectent et reçoivent un volume considérable de retours textuels de la part des étudiants concernant les cours, l'enseignement et l'expérience globale. Cependant, transformer ces retours bruts en informations utiles est loin d'être simple. Il s'agit d'un défi de longue date d'adopter des solutions automatiques d'analyse d'opinion pour ces données de revues éducatives en raison de la complexité du contenu et des exigences de rapport à faible granularité. L'analyse de sentiments basée sur les aspects (Aspect-based Sentiment Analysis, ABSA) offre une solution prometteuse avec ses capacités riches d'extraction d'opinions au niveau sub-phrase. Cependant, les recherches et ressources existantes en ABSA sont très fortement concentrées sur le domaine commercial. Dans le domaine de l'éducation, elles sont rares et difficiles à développer en raison de la limitation des ensembles de données publics et de la stricte protection des données. Un ensemble de données annoté de haute qualité est urgemment nécessaire pour faire progresser la recherche dans ce domaine sous-équipé. Dans ce travail, nous présentons EduRABSA (Education Review ABSA), le premier ensemble de données public et annoté d'ABSA pour les revues éducatives, couvrant trois types de sujets de revue (cours, personnel enseignant, université) en langue anglaise et toutes les principales tâches ABSA, y compris l'extraction d'aspects implicites et d'opinions implicites, peu explorées. Nous partageons également ASQE-DPT (Data Processing Tool), un outil manuel d'annotation de données hors ligne, léger et sans installation, qui génère des ensembles de données étiquetés pour des tâches ABSA complètes à partir d'une annotation à tâche unique. Ensemble, ces ressources contribuent à la communauté ABSA et au domaine de l'éducation en supprimant la barrière des ensembles de données, en soutenant la transparence et la reproductibilité de la recherche, et en permettant la création et le partage de ressources supplémentaires. L'ensemble de données, l'outil d'annotation, ainsi que les scripts et statistiques pour le traitement et l'échantillonnage des données sont disponibles à l'adresse suivante : https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.