Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) génèrent souvent des réponses présentant des biais inhérents, compromettant ainsi leur fiabilité dans des applications réelles. Les méthodes d'évaluation existantes négligent souvent les biais dans les réponses longues et la variabilité intrinsèque des sorties des LLMs. Pour relever ces défis, nous proposons FiSCo (Fine-grained Semantic Computation), un cadre statistique novateur visant à évaluer l'équité au niveau des groupes dans les LLMs en détectant des différences sémantiques subtiles dans les réponses longues entre différents groupes démographiques. Contrairement aux travaux antérieurs axés sur le sentiment ou les comparaisons au niveau des tokens, FiSCo va au-delà de l'analyse superficielle en opérant au niveau des affirmations, en exploitant des vérifications d'implication pour évaluer la cohérence sémantique entre les réponses. Nous décomposons les sorties du modèle en affirmations sémantiquement distinctes et appliquons des tests d'hypothèses statistiques pour comparer les similarités inter et intra-groupes, permettant ainsi une détection robuste des biais subtils. Nous formalisons une nouvelle définition de l'équité contrefactuelle au niveau des groupes et validons FiSCo sur des ensembles de données synthétiques et annotés par des humains, couvrant le genre, la race et l'âge. Les expériences montrent que FiSCo identifie de manière plus fiable les biais nuancés tout en réduisant l'impact de la variabilité stochastique des LLMs, surpassant diverses métriques d'évaluation.
Nous présentons AnimaX, un cadre d’animation 3D en flux direct qui relie les a priori de mouvement des modèles de diffusion vidéo à la structure contrôlable de l’animation basée sur des squelettes. Les méthodes traditionnelles de synthèse de mouvement sont soit limitées à des topologies squelettiques fixes, soit nécessitent une optimisation coûteuse dans des espaces de déformation de haute dimension. En revanche, AnimaX transfère efficacement les connaissances de mouvement basées sur la vidéo au domaine 3D, prenant en charge des maillages articulés variés avec des squelettes arbitraires. Notre méthode représente le mouvement 3D sous forme de cartes de poses 2D multi-vues et multi-images, et permet une diffusion conjointe vidéo-pose conditionnée par des rendus de modèles et une invite textuelle de mouvement. Nous introduisons des encodages positionnels partagés et des embeddings conscients des modalités pour assurer l’alignement spatio-temporel entre les séquences vidéo et de poses, transférant efficacement les a priori vidéo à la tâche de génération de mouvement. Les séquences de poses multi-vues résultantes sont triangulées en positions articulaires 3D et converties en animation de maillage via une cinématique inverse. Entraîné sur un nouvel ensemble de données de 160 000 séquences riggées, AnimaX atteint des résultats de pointe sur VBench en termes de généralisation, fidélité du mouvement et efficacité, offrant une solution évolutive pour l’animation 3D indépendante de la catégorie. Page du projet : https://anima-x.github.io/{https://anima-x.github.io/}.
Nous présentons Matrix-Game, un modèle de fondation de monde interactif pour la génération contrôlée de mondes de jeu. Matrix-Game est entraîné à l'aide d'un pipeline en deux étapes qui effectue d'abord un pré-entraînement à grande échelle sans étiquettes pour la compréhension de l'environnement, suivi d'un entraînement avec étiquettes d'actions pour la génération de vidéos interactives. Pour soutenir cela, nous avons constitué Matrix-Game-MC, un ensemble de données Minecraft complet comprenant plus de 2 700 heures de clips vidéo de gameplay non étiquetés et plus de 1 000 heures de clips de haute qualité étiquetés avec des annotations fines des actions du clavier et de la souris. Notre modèle adopte un paradigme de génération contrôlée d'image à monde, conditionné par une image de référence, un contexte de mouvement et les actions de l'utilisateur. Avec plus de 17 milliards de paramètres, Matrix-Game permet un contrôle précis des actions des personnages et des mouvements de la caméra, tout en maintenant une qualité visuelle élevée et une cohérence temporelle. Pour évaluer les performances, nous avons développé GameWorld Score, un benchmark unifié mesurant la qualité visuelle, la qualité temporelle, la contrôlabilité des actions et la compréhension des règles physiques pour la génération de mondes Minecraft. Des expériences approfondies montrent que Matrix-Game surpasse systématiquement les modèles de monde Minecraft open-source précédents (y compris Oasis et MineWorld) sur toutes les métriques, avec des gains particulièrement forts en termes de contrôlabilité et de cohérence physique. Des évaluations humaines en double aveugle confirment en outre la supériorité de Matrix-Game, mettant en évidence sa capacité à générer des vidéos perceptuellement réalistes et précisément contrôlables dans divers scénarios de jeu. Pour faciliter les recherches futures sur la génération interactive d'image à monde, nous mettrons en open-source les poids du modèle Matrix-Game et le benchmark GameWorld Score à l'adresse https://github.com/SkyworkAI/Matrix-Game.
Les approches récentes d'apprentissage par renforcement, telles que le GRPO supervisé par les résultats, ont fait progresser le raisonnement en chaîne de pensée dans les grands modèles de langage (LLM), mais leur adaptation aux LLM multimodaux (MLLM) reste inexplorée. Pour combler le manque d'évaluation rigoureuse des méthodes de post-formation des MLLM, nous introduisons SEED-Bench-R1, un benchmark comprenant des vidéos complexes du monde réel nécessitant une perception et un raisonnement équilibrés. Il propose un grand ensemble de données d'entraînement et évalue la généralisation à travers trois défis croissants : des scénarios intra-distribution, inter-environnement et inter-environnement-tâche. En utilisant SEED-Bench-R1, nous constatons que le GRPO standard, bien qu'il améliore la précision des réponses, réduit souvent la cohérence logique entre les étapes de raisonnement et les réponses, avec un taux de cohérence de seulement 57,9 %. Cela découle de signaux de récompense se concentrant uniquement sur les réponses finales, encourageant les raccourcis, et de pénalités KL strictes limitant l'exploration. Pour résoudre ce problème, nous proposons GRPO-CARE, un cadre d'apprentissage par renforcement conscient de la cohérence, optimisant à la fois la justesse des réponses et la cohérence du raisonnement sans supervision explicite. GRPO-CARE introduit une récompense à deux niveaux : (1) une récompense de base pour la justesse des réponses, et (2) un bonus de cohérence adaptatif, calculé en comparant la probabilité de raisonnement à réponse du modèle (via un modèle de référence à évolution lente) avec celle de ses pairs. Ce mécanisme dual amplifie les récompenses pour les chemins de raisonnement à la fois corrects et logiquement cohérents. En remplaçant les pénalités KL par ce bonus adaptatif, GRPO-CARE surpasse le GRPO standard sur SEED-Bench-R1, obtenant un gain de performance de 6,7 % au niveau d'évaluation le plus difficile et une amélioration de 24,5 % en cohérence. Il montre également une forte transférabilité, améliorant les performances du modèle sur divers benchmarks de compréhension vidéo. Notre travail contribue à un benchmark conçu de manière systématique et à un cadre de post-formation généralisable, faisant progresser le développement de MLLM plus interprétables et robustes.
L'ingénierie logicielle (SWE) est récemment devenue un banc d'essai crucial pour les agents LLM de nouvelle génération, exigeant des capacités intrinsèques dans deux dimensions critiques : la résolution itérative et soutenue de problèmes (par exemple, >50 tours d'interaction) et la gestion des dépendances contextuelles longues (par exemple, >32k tokens). Cependant, le processus de curation des données en SWE reste notoirement chronophage, car il repose fortement sur l'annotation manuelle pour le filtrage des fichiers de code et la configuration d'environnements d'exécution dédiés pour exécuter et valider les tests unitaires. Par conséquent, la plupart des jeux de données existants se limitent à quelques milliers d'instances provenant de GitHub. À cette fin, nous proposons un pipeline de curation de données automatisé et incrémental qui permet d'augmenter systématiquement le volume et la diversité des jeux de données SWE. Notre jeu de données comprend 10 169 instances de tâches Python issues de 2 531 dépôts GitHub distincts, chacune accompagnée d'une tâche spécifiée en langage naturel et d'une image d'environnement d'exécution dédiée pour la validation automatisée des tests unitaires. Nous avons soigneusement sélectionné plus de 8 000 trajectoires d'entraînement validées avec succès à partir de notre jeu de données SWE proposé. Lors du fine-tuning du modèle Skywork-SWE sur ces trajectoires, nous découvrons un phénomène frappant de mise à l'échelle des données : les performances du modèle entraîné pour les capacités d'ingénierie logicielle dans les LLM continuent de s'améliorer à mesure que la taille des données augmente, sans montrer de signes de saturation. Notamment, notre modèle Skywork-SWE atteint une précision de 38,0 % en pass@1 sur le benchmark SWE-bench Verified sans utiliser de vérificateurs ni de déploiements multiples, établissant un nouvel état de l'art (SOTA) parmi les LLM basés sur Qwen2.5-Coder-32B construits sur le framework d'agent OpenHands. De plus, avec l'intégration de techniques de mise à l'échelle au moment du test, la performance s'améliore encore pour atteindre 47,0 % de précision, surpassant les résultats SOTA précédents pour les modèles de moins de 32B paramètres. Nous publions le checkpoint du modèle Skywork-SWE-32B pour accélérer les recherches futures.
Cet article présente ScaleCap, une stratégie de génération de légendes d'images scalable au moment de l'inférence, qui produit des descriptions d'images complètes et détaillées. Les principaux défis de la génération de légendes de haute qualité résident dans les biais inhérents des LVLM (modèles de langage et vision multimodaux) : un biais multimodal entraînant une granularité descriptive déséquilibrée, offrant des comptes rendus détaillés de certains éléments tout en survolant d'autres ; un biais linguistique conduisant à des descriptions hallucinées d'objets inexistants. Pour résoudre ces problèmes, nous proposons une stratégie de génération de légendes débiaisée et scalable, qui enrichit et calibre continuellement la légende avec un budget d'inférence accru. Plus précisément, nous proposons deux composants novateurs : la réponse heuristique à des questions et l'évaluation contrastive de phrases. Le premier génère des questions spécifiques au contenu basées sur l'image et y répond pour injecter progressivement des informations pertinentes dans la légende. Le second utilise un décodage contrastif hors ligne au niveau de la phrase pour identifier et éliminer efficacement les hallucinations causées par les biais linguistiques. Avec un coût d'inférence accru, ScaleCap pose davantage de questions heuristiques pour capturer progressivement des détails visuels supplémentaires, générant ainsi des légendes plus précises, équilibrées et informatives. Des expériences approfondies d'alignement multimodal démontrent l'efficacité de ScaleCap. L'annotation de 450 000 images avec ScaleCap et leur utilisation pour le pré-entraînement de LVLM entraîne des gains de performance constants sur 11 benchmarks largement utilisés. De plus, ScaleCap démontre une richesse et une fidélité exceptionnelles des légendes générées avec deux tâches supplémentaires : remplacer les images par des légendes dans une tâche de VQA, et reconstruire des images à partir de légendes pour évaluer la couverture sémantique. Le code est disponible à l'adresse https://github.com/Cooperx521/ScaleCap.
La retouche photo est devenue un élément essentiel de la narration visuelle contemporaine, permettant aux utilisateurs de capturer des esthétiques et d'exprimer leur créativité. Bien que des outils professionnels comme Adobe Lightroom offrent des fonctionnalités puissantes, ils nécessitent une expertise considérable et un effort manuel important. En revanche, les solutions existantes basées sur l'IA proposent une automatisation, mais souffrent souvent d'une ajustabilité limitée et d'une mauvaise généralisation, ne répondant pas aux besoins diversifiés et personnalisés en matière d'édition. Pour combler cette lacune, nous présentons JarvisArt, un agent piloté par un modèle de langage multimodal (MLLM) qui comprend l'intention de l'utilisateur, imite le processus de raisonnement des artistes professionnels et coordonne intelligemment plus de 200 outils de retouche au sein de Lightroom. JarvisArt suit un processus d'entraînement en deux étapes : un fine-tuning supervisé initial basé sur la chaîne de pensée (Chain-of-Thought) pour établir des compétences de base en raisonnement et en utilisation d'outils, suivi d'une optimisation de politique relative par groupe pour la retouche (GRPO-R) afin d'améliorer davantage sa prise de décision et sa maîtrise des outils. Nous proposons également le protocole Agent-to-Lightroom pour faciliter une intégration transparente avec Lightroom. Pour évaluer les performances, nous développons MMArt-Bench, un nouveau benchmark construit à partir de modifications réelles effectuées par des utilisateurs. JarvisArt démontre une interaction conviviale, une généralisation supérieure et un contrôle précis des ajustements globaux et locaux, ouvrant ainsi une nouvelle voie pour la retouche photo intelligente. Il surpasse notamment GPT-4o avec une amélioration de 60 % des métriques moyennes au niveau des pixels sur MMArt-Bench pour la fidélité du contenu, tout en maintenant des capacités comparables de suivi des instructions. Page du projet : https://jarvisart.vercel.app/.
La variation dans les annotations humaines (c'est-à-dire les désaccords d'annotation) est courante en traitement automatique des langues (TAL) et reflète souvent des informations importantes telles que la subjectivité de la tâche et l'ambiguïté des échantillons. Bien que les modèles de langage de grande taille (LLMs) soient de plus en plus utilisés pour l'annotation automatique afin de réduire l'effort humain, leur évaluation se concentre souvent sur la prédiction des étiquettes de "vérité terrain" déterminées par vote majoritaire. Cependant, il reste incertain si ces modèles capturent également la variation informative des annotations humaines. Notre travail comble cette lacune en évaluant de manière approfondie la capacité des LLMs à prédire les désaccords d'annotation sans accès à des annotations humaines répétées. Nos résultats montrent que les LLMs peinent à modéliser les désaccords, ce qui peut être négligé par les évaluations basées sur les étiquettes majoritaires. Notamment, bien que le raisonnement de type RLVR (Reinforcement Learning with Verifiable Rewards) améliore généralement les performances des LLMs, il dégrade la performance dans la prédiction des désaccords. Nos résultats soulignent la nécessité cruciale d'évaluer et d'améliorer les annotateurs LLMs dans la modélisation des désaccords. Code et données disponibles sur https://github.com/EdisonNi-hku/Disagreement_Prediction.
La résolution de problèmes SQL complexes reste un goulot d'étranglement majeur dans les applications de bases de données réelles. Les modèles de langage à grande échelle (LLM) actuels, bien que compétents dans la traduction texte-SQL, n'ont pas été rigoureusement évalués sur la tâche plus complexe du débogage de problèmes SQL. Pour combler cette lacune, nous introduisons BIRD-CRITIC, un nouveau benchmark de débogage de problèmes SQL comprenant 530 tâches PostgreSQL (BIRD-CRITIC-PG) et 570 tâches multi-dialectes (BIRD-CRITIC-Multi), extraites de problèmes utilisateurs authentiques et rejouées dans de nouveaux environnements pour faciliter une évaluation rigoureuse. Les évaluations de base soulignent la complexité de la tâche, avec le modèle de raisonnement leader O3-Mini atteignant seulement un taux de réussite de 38,87 % sur BIRD-CRITIC-PG et 33,33 % sur BIRD-CRITIC-Multi. Par ailleurs, l'amélioration des modèles open-source pour les tâches de bases de données est cruciale pour renforcer le développement local tout en protégeant la confidentialité des données. Par conséquent, nous présentons Six-Gym (Sql-fIX-Gym), un environnement d'entraînement pour améliorer les capacités des modèles open-source dans le débogage de problèmes SQL. Cet environnement exploite la stratégie SQL-Rewind, qui génère automatiquement des ensembles de données exécutables de problèmes-solutions en rétro-ingénierie des problèmes à partir de SQL vérifiés. Cependant, les méthodes populaires de fine-tuning basées sur les trajectoires n'explorent pas de signaux de supervision substantiels. Nous proposons en outre f-Plan Boosting, qui extrait des plans de débogage de haut niveau à partir des solutions SQL, permettant aux LLM enseignants de produire 73,7 % de trajectoires réussies supplémentaires pour l'entraînement. Nous intégrons ces composants dans un agent open-source, Bird-Fixer. Basé sur Qwen-2.5-Coder-14B, Bird-Fixer atteint un taux de réussite de 38,11 % sur BIRD-CRITIC-PG et 29,65 % sur BIRD-CRITIC-Multi, surpassant les modèles propriétaires leaders tels que Claude-3.7-Sonnet et GPT-4.1, marquant ainsi une étape significative vers la démocratisation des capacités sophistiquées de débogage SQL. Le classement et le code source sont disponibles à l'adresse : https://bird-critic.github.io/
Les grands modèles de langage (LLM) ont réalisé des progrès remarquables dans les tâches de raisonnement, mais l'intégration optimale du Fine-Tuning Supervisé (SFT) et de l'Apprentissage par Renforcement (RL) reste un défi fondamental. À travers une analyse approfondie des distributions de tokens, des dynamiques d'apprentissage et des mécanismes d'intégration sous l'angle de l'entropie, nous révélons des différences clés entre ces paradigmes : le SFT induit des changements globaux à granularité grossière dans les distributions de politiques des LLM, tandis que le RL effectue des optimisations sélectives à granularité fine, l'entropie servant d'indicateur critique de l'efficacité de l'entraînement. Sur la base de ces observations, nous proposons le Fine-Tuning Supervisé par Renforcement (SRFT), une méthode en une seule étape qui unifie les deux paradigmes de fine-tuning grâce à des mécanismes de pondération sensibles à l'entropie. Notre approche applique simultanément le SFT et le RL pour optimiser directement le LLM en utilisant des démonstrations et des explorations autonomes plutôt que des méthodes séquentielles en deux étapes. Des expériences approfondies montrent que le SRFT atteint une précision moyenne de 59,1%, surpassant les méthodes sans RL de 9,0% sur cinq benchmarks de raisonnement mathématique et de 10,9% sur trois benchmarks hors distribution.
Les modèles de diffusion latente sont devenus un paradigme majeur pour la génération efficace de vidéos. Cependant, à mesure que les attentes des utilisateurs évoluent vers des sorties de plus haute résolution, le recours exclusif au calcul latent s’avère insuffisant. Une approche prometteuse consiste à découpler le processus en deux étapes : la génération de contenu sémantique et la synthèse des détails. La première utilise un modèle de base intensif en calcul à des résolutions plus basses, tandis que la seconde exploite un modèle léger de super-résolution vidéo en cascade (VSR) pour obtenir une sortie haute résolution. Dans ce travail, nous nous concentrons sur l’étude des principes clés de conception des modèles VSR en cascade, qui sont actuellement peu explorés. Premièrement, nous proposons deux stratégies de dégradation pour générer des paires d’entraînement qui imitent mieux les caractéristiques de sortie du modèle de base, assurant ainsi un alignement entre le modèle VSR et son générateur en amont. Deuxièmement, nous fournissons des insights critiques sur le comportement des modèles VSR grâce à une analyse systématique de (1) les stratégies d’échantillonnage des pas de temps, (2) les effets de l’augmentation du bruit sur les entrées à basse résolution (LR). Ces résultats éclairent directement nos innovations architecturales et d’entraînement. Enfin, nous introduisons une unité temporelle entrelacée et une attention locale parcimonieuse pour permettre un entraînement et une inférence efficaces, réduisant considérablement la surcharge computationnelle. Des expériences approfondies démontrent la supériorité de notre cadre par rapport aux méthodes existantes, avec des études d’ablation confirmant l’efficacité de chaque choix de conception. Notre travail établit une base simple mais efficace pour la génération de super-résolution vidéo en cascade, offrant des insights pratiques pour guider les avancées futures dans les systèmes de synthèse en cascade efficaces.
La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion conditionnels modernes. Bien que très efficace en pratique, les mécanismes sous-jacents par lesquels la CFG améliore la qualité, les détails et l'alignement avec les prompts ne sont pas entièrement compris. Nous proposons une nouvelle perspective sur la CFG en analysant ses effets dans le domaine fréquentiel, montrant que les basses et hautes fréquences ont des impacts distincts sur la qualité de génération. Plus précisément, la guidance en basse fréquence gouverne la structure globale et l'alignement avec la condition, tandis que la guidance en haute fréquence améliore principalement la fidélité visuelle. Cependant, l'application d'une échelle uniforme à toutes les fréquences -- comme c'est le cas dans la CFG standard -- entraîne une sursaturation et une réduction de la diversité à haute échelle, ainsi qu'une dégradation de la qualité visuelle à basse échelle. Sur la base de ces observations, nous proposons la guidance découplée en fréquence (Frequency-Decoupled Guidance, FDG), une approche efficace qui décompose la CFG en composantes de basse et haute fréquences et applique des forces de guidance distinctes à chaque composante. La FDG améliore la qualité des images à faible échelle de guidance et évite par conception les inconvénients des échelles élevées de CFG. À travers des expériences approfondies sur plusieurs jeux de données et modèles, nous démontrons que la FDG améliore systématiquement la fidélité des échantillons tout en préservant la diversité, conduisant à une amélioration des scores FID et de rappel par rapport à la CFG, établissant ainsi notre méthode comme une alternative plug-and-play à la guidance sans classifieur standard.
L'alternance codique (Code-Switching, CSW) désigne l'acte de passer d'une langue à une autre au sein d'un même discours. Ce phénomène est répandu dans les communautés multilingues et devient de plus en plus courant dans les contenus en ligne, où les utilisateurs mélangent naturellement les langues dans leurs communications quotidiennes. Par conséquent, les modèles de langage de grande taille (LLMs), désormais centraux dans le traitement et la génération de contenu, sont fréquemment exposés à des entrées en alternance codique. Étant donné leur utilisation généralisée, il est crucial de comprendre comment les LLMs traitent et raisonnent sur ces textes multilingues. Cet article présente une évaluation systématique de la compréhension des LLMs face à l'alternance codique en générant des variantes CSW de benchmarks établis en raisonnement et compréhension. Bien qu'une dégradation soit évidente lorsque des tokens étrangers perturbent le texte en anglais—même sous contraintes linguistiques—l'intégration de l'anglais dans d'autres langues améliore souvent la compréhension. Si l'utilisation de prompts donne des résultats mitigés, le fine-tuning offre une voie plus stable pour atténuer la dégradation.
Les modèles vision-langage-action (VLA) ont suscité un intérêt considérable pour leur potentiel dans l'amélioration de la manipulation robotique. Cependant, les approches précédentes reposent principalement sur les capacités de compréhension générale des modèles vision-langage (VLM) pour générer des signaux d'action, négligeant souvent la riche structure temporelle et causale intégrée dans les observations visuelles. Dans cet article, nous présentons UniVLA, un modèle VLA multimodal unifié et natif qui modélise de manière autoregressive les signaux visuels, linguistiques et d'action sous forme de séquences de tokens discrètes. Cette formulation permet un apprentissage flexible de tâches multimodales, en particulier à partir de données vidéo à grande échelle. En intégrant la modélisation du monde lors de l'après-entraînement, UniVLA capture les dynamiques causales à partir des vidéos, facilitant ainsi un transfert efficace vers l'apprentissage de politiques en aval—en particulier pour les tâches à long terme. Notre approche établit de nouveaux records de pointe sur plusieurs benchmarks de simulation largement utilisés, notamment CALVIN, LIBERO et Simplenv-Bridge, surpassant significativement les méthodes précédentes. Par exemple, UniVLA atteint un taux de réussite moyen de 95,5 % sur le benchmark LIBERO, dépassant les 85,5 % de pi0-FAST. Nous démontrons également sa large applicabilité dans des contextes réels de manipulation ALOHA et de conduite autonome.
Les grands modèles de langage (LLMs) offrent des perspectives prometteuses pour automatiser les tâches d'analyse de données, mais les modèles open source rencontrent des limitations significatives dans ces scénarios exigeants en raisonnement. Dans ce travail, nous explorons des stratégies pour améliorer les capacités d'analyse de données des LLMs open source. En constituant un jeu de données initial de scénarios diversifiés et réalistes, nous évaluons les modèles selon trois dimensions : compréhension des données, génération de code et planification stratégique. Notre analyse révèle trois conclusions clés : (1) La qualité de la planification stratégique est le principal déterminant de la performance des modèles ; (2) La conception des interactions et la complexité des tâches influencent significativement les capacités de raisonnement ; (3) La qualité des données a un impact plus important que la diversité pour atteindre une performance optimale. Nous exploitons ces insights pour développer une méthodologie de synthèse de données, démontrant des améliorations significatives dans les capacités de raisonnement analytique des LLMs open source.
L'apprentissage auto-supervisé (SSL) a révolutionné les représentations audio, mais les modèles restent souvent spécifiques à un domaine, se concentrant soit sur des tâches de parole, soit sur des tâches non liées à la parole. Dans ce travail, nous présentons Universal Speech and Audio Distillation (USAD), une approche unifiée pour l'apprentissage de représentations audio qui intègre divers types de données audio - parole, sons et musique - dans un seul modèle. USAD utilise une distillation efficace de couche à couche à partir de modèles SSL spécifiques à un domaine pour entraîner un étudiant sur un ensemble de données audio complet. USAD offre des performances compétitives sur divers benchmarks et ensembles de données, incluant des tâches de traitement de la parole au niveau des trames et des instances, ainsi que des tâches d'étiquetage audio et de classification de sons, atteignant des résultats proches de l'état de l'art avec un seul encodeur sur les benchmarks SUPERB et HEAR.
Les modèles de langage de grande taille (LLMs), en particulier les modèles à pensée lente, présentent souvent des hallucinations sévères, produisant un contenu incorrect en raison de leur incapacité à reconnaître avec précision les limites des connaissances lors du raisonnement. Bien que l'apprentissage par renforcement (RL) puisse améliorer les capacités de raisonnement complexe, son mécanisme de récompense axé sur les résultats manque souvent de supervision factuelle sur le processus de pensée, exacerbant ainsi le problème d'hallucination. Pour remédier à l'hallucination élevée dans les modèles à pensée lente, nous proposons le RL amélioré par la connaissance, KnowRL. KnowRL guide les modèles à effectuer une pensée lente basée sur les faits en intégrant une récompense de factualité, basée sur la vérification des connaissances, dans le processus de formation RL, les aidant à reconnaître leurs limites de connaissances. KnowRL guide les modèles à effectuer une pensée lente basée sur les faits en intégrant une récompense de factualité, basée sur la vérification des connaissances, dans le processus de formation RL, les aidant à reconnaître leurs limites de connaissances. Cet apport factuel ciblé pendant la formation RL permet au modèle d'apprendre et d'intérioriser des stratégies de raisonnement basées sur les faits. En récompensant directement l'adhésion aux faits dans les étapes de raisonnement, KnowRL favorise un processus de pensée plus fiable. Les résultats expérimentaux sur trois ensembles de données d'évaluation des hallucinations et deux ensembles de données d'évaluation du raisonnement démontrent que KnowRL atténue efficacement les hallucinations dans les modèles à pensée lente tout en maintenant leurs fortes capacités de raisonnement d'origine. Notre code est disponible à l'adresse https://github.com/zjunlp/KnowRL.
Cette étude explore l'efficacité des modèles de maintenance prédictive et l'optimisation des systèmes intelligents d'exploitation et de maintenance (O&M) pour améliorer l'efficacité de la production d'énergie éolienne. À travers une recherche qualitative, des entretiens structurés ont été menés avec cinq ingénieurs et responsables de maintenance de parcs éoliens, chacun disposant d'une expérience approfondie dans les opérations de turbines. En utilisant une analyse thématique, l'étude a révélé que si les modèles de maintenance prédictive réduisent efficacement les temps d'arrêt en identifiant les pannes majeures, ils peinent souvent à détecter les défaillances plus petites et graduelles. Les principaux défis identifiés incluent les faux positifs, les dysfonctionnements des capteurs et les difficultés d'intégration des nouveaux modèles avec les systèmes de turbines plus anciens. Les technologies avancées telles que les jumeaux numériques, les systèmes SCADA et la surveillance de l'état ont considérablement amélioré les pratiques de maintenance des turbines. Cependant, ces technologies nécessitent encore des améliorations, notamment dans le raffinement de l'IA et l'intégration des données en temps réel. Les résultats soulignent la nécessité d'un développement continu pour optimiser pleinement les performances des éoliennes et soutenir l'adoption plus large des énergies renouvelables.
Les modèles de raisonnement excellent en générant de longues chaînes de pensées, mais le décodage des milliers de tokens résultants est lent. Le décodage spéculatif au niveau des tokens (SD) aide, mais son bénéfice est limité, car la probabilité qu'une supposition entière de gamma-tokens soit correcte diminue de manière exponentielle à mesure que gamma augmente. Cela signifie qu'allouer plus de calcul pour des ébauches de tokens plus longues rencontre un plafond algorithmique, rendant l'accélération modeste et indépendante du matériel. Nous relevons ce plafond avec le Raisonnement Prospectif, qui exploite une deuxième couche de parallélisme au niveau des étapes. Notre idée clé est que les modèles de raisonnement génèrent étape par étape, et chaque étape n'a besoin d'être sémantiquement correcte, pas d'une correspondance exacte des tokens. Dans le Raisonnement Prospectif, un modèle d'ébauche léger propose plusieurs étapes futures ; le modèle cible développe chaque proposition en un seul passage groupé, et un vérificateur conserve les étapes sémantiquement correctes tout en permettant au modèle cible de régénérer celles qui échouent. Le SD au niveau des tokens opère toujours dans chaque étape de raisonnement, donc les deux couches de parallélisme se multiplient. Nous montrons que le Raisonnement Prospectif augmente l'accélération maximale du SD à la fois théoriquement et empiriquement. Sur GSM8K, AIME et d'autres benchmarks, le Raisonnement Prospectif améliore l'accélération du SD de 1,4x à 2,1x tout en préservant la qualité des réponses, et son accélération s'adapte mieux à un débit GPU supplémentaire. Notre code est disponible à l'adresse https://github.com/hao-ai-lab/LookaheadReasoning.
L'ajustement orthogonal (OFT) offre une adaptation hautement efficace en termes de paramètres tout en évitant l'oubli catastrophique, mais ses exigences élevées en temps d'exécution et en mémoire limitent son déploiement pratique. Nous identifions le principal goulot d'étranglement computationnel dans OFT comme son implémentation centrée sur les poids, qui repose sur des multiplications matricielles coûteuses avec une complexité cubique. Pour surmonter cela, nous proposons OFTv2, une reformulation centrée sur les entrées qui utilise à la place des multiplications matrice-vecteur (c'est-à-dire un calcul sans matrice), réduisant ainsi le coût computationnel à une complexité quadratique. Nous introduisons également la paramétrisation de Cayley-Neumann, une paramétrisation orthogonale efficace qui approxime l'inversion matricielle dans la transformation de Cayley via une série de Neumann tronquée. Ces modifications permettent à OFTv2 d'atteindre jusqu'à 10 fois plus de rapidité d'entraînement et une utilisation de mémoire GPU 3 fois plus faible sans compromettre les performances. De plus, nous étendons OFTv2 pour prendre en charge l'ajustement de modèles de base quantifiés et montrons qu'il surpasse la méthode populaire QLoRA en termes de stabilité d'entraînement, d'efficacité et d'utilisation de la mémoire.
La navigation vision-langage (VLN) dans des environnements urbains à grande échelle exige que les agents incarnés ancrent des instructions linguistiques dans des scènes complexes et se souviennent d'expériences pertinentes sur des horizons temporels étendus. Les pipelines modulaires antérieurs offrent une interprétabilité mais manquent de mémoire unifiée, tandis que les agents (M)LLM de bout en bout excellent dans la fusion de la vision et du langage mais restent limités par des fenêtres de contexte fixes et un raisonnement spatial implicite. Nous présentons Mem4Nav, un système de mémoire hiérarchique à long et court terme pour la cognition spatiale, qui peut enrichir n'importe quelle architecture VLN. Mem4Nav fusionne un octree parcimonieux pour l'indexation fine de voxels avec un graphe topologique sémantique pour la connectivité de points de repère de haut niveau, stockant les deux dans des tokens de mémoire entraînables intégrés via un Transformer réversible. La mémoire à long terme (LTM) compresse et conserve les observations historiques à la fois dans l'octree et les nœuds du graphe, tandis que la mémoire à court terme (STM) met en cache les entrées multimodales récentes en coordonnées relatives pour l'évitement d'obstacles en temps réel et la planification locale. À chaque étape, la récupération de la STM réduit considérablement le contexte dynamique, et, lorsqu'un historique plus profond est nécessaire, les tokens de la LTM sont décodés sans perte pour reconstruire les embeddings passés. Évalué sur Touchdown et Map2Seq avec trois architectures (modulaire, VLN de pointe avec LLM basé sur des prompts, et VLN de pointe avec MLLM à attention étendue), Mem4Nav apporte des gains de 7 à 13 points de pourcentage dans l'achèvement des tâches, une réduction suffisante de la SPD, et une amélioration de plus de 10 points de pourcentage du nDTW. Les ablations confirment l'indispensabilité à la fois de la carte hiérarchique et des modules de mémoire duale. Nos codes sont open-source via https://github.com/tsinghua-fib-lab/Mem4Nav.