Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que la tâche d'échange de visages a récemment attiré l'attention de la communauté de recherche, un problème connexe, celui de l'échange de têtes, reste largement inexploré. En plus du transfert de couleur de peau, l'échange de têtes pose des défis supplémentaires, tels que la nécessité de préserver les informations structurelles de l'ensemble de la tête lors de la synthèse et de combler les lacunes entre la tête échangée et l'arrière-plan. Dans cet article, nous abordons ces préoccupations avec GHOST 2.0, qui se compose de deux modules spécifiques au problème. Tout d'abord, nous introduisons un modèle Aligner amélioré pour la réanimation de la tête, qui préserve les informations d'identité à plusieurs échelles et est robuste aux variations extrêmes de pose. Ensuite, nous utilisons un module Blender qui intègre de manière transparente la tête réanimée dans l'arrière-plan cible en transférant la couleur de peau et en comblant les régions mal assorties. Les deux modules surpassent les références dans les tâches correspondantes, permettant d'obtenir des résultats de pointe dans l'échange de têtes. Nous abordons également des cas complexes, tels que de grandes différences dans les styles de cheveux entre la source et la cible. Le code est disponible à l'adresse suivante : https://github.com/ai-forever/ghost-2.0
Nous présentons Kanana, une série de modèles linguistiques bilingues qui démontrent des performances exceptionnelles en coréen et des performances compétitives en anglais. Le coût computationnel de Kanana est nettement inférieur à celui des modèles de pointe de taille similaire. Ce rapport détaille les techniques employées lors du pré-entraînement pour obtenir des modèles à la fois efficaces en termes de calcul et compétitifs, incluant le filtrage de données de haute qualité, le pré-entraînement par étapes, la mise à l'échelle en profondeur, ainsi que l'élagage et la distillation. De plus, le rapport décrit les méthodologies utilisées lors du post-entraînement des modèles Kanana, comprenant le réglage fin supervisé et l'optimisation des préférences, visant à améliorer leur capacité à interagir de manière fluide avec les utilisateurs. Enfin, le rapport explore les approches plausibles utilisées pour l'adaptation des modèles linguistiques à des scénarios spécifiques, tels que l'incorporation, la génération augmentée par récupération et l'appel de fonctions. La série de modèles Kanana couvre des tailles allant de 2,1 milliards à 32,5 milliards de paramètres, avec les modèles de 2,1 milliards de paramètres (base, instruct, embedding) publiés publiquement pour promouvoir la recherche sur les modèles linguistiques coréens.
La découverte scientifique repose sur la capacité des scientifiques à générer des hypothèses novatrices qui subissent une validation expérimentale rigoureuse. Pour renforcer ce processus, nous introduisons un co-scientifique IA, un système multi-agents construit sur Gemini 2.0. Ce co-scientifique IA vise à aider à découvrir de nouvelles connaissances originales et à formuler des hypothèses et propositions de recherche démontrablement innovantes, en s'appuyant sur des preuves antérieures et en s'alignant sur les objectifs et directives de recherche fournis par les scientifiques. La conception du système intègre une approche de génération, débat et évolution des hypothèses, inspirée par la méthode scientifique et accélérée par la mise à l'échelle des ressources de calcul au moment des tests. Les contributions clés incluent : (1) une architecture multi-agents avec un cadre d'exécution de tâches asynchrones pour une mise à l'échelle flexible des ressources de calcul ; (2) un processus d'évolution par tournoi pour l'amélioration continue de la génération d'hypothèses. Les évaluations automatisées montrent des bénéfices continus de l'augmentation des ressources de calcul, améliorant la qualité des hypothèses. Bien que généraliste, nous concentrons le développement et la validation dans trois domaines biomédicaux : le repositionnement de médicaments, la découverte de nouvelles cibles, et l'explication des mécanismes de l'évolution bactérienne et de la résistance aux antimicrobiens. Pour le repositionnement de médicaments, le système propose des candidats avec des résultats de validation prometteurs, y compris des candidats pour la leucémie myéloïde aiguë montrant une inhibition tumorale in vitro à des concentrations cliniquement applicables. Pour la découverte de nouvelles cibles, le co-scientifique IA a proposé de nouvelles cibles épigénétiques pour la fibrose hépatique, validées par une activité anti-fibrotique et une régénération des cellules hépatiques dans des organoïdes hépatiques humains. Enfin, le co-scientifique IA a reproduit des résultats expérimentaux non publiés via une découverte in silico parallèle d'un nouveau mécanisme de transfert de gènes dans l'évolution bactérienne. Ces résultats, détaillés dans des rapports séparés et synchronisés, démontrent le potentiel d'améliorer la découverte biomédicale et scientifique et d'inaugurer une ère de scientifiques renforcés par l'IA.
Comprendre les théorèmes spécifiques à un domaine nécessite souvent plus qu'un simple raisonnement textuel ; une communication efficace à travers des explications visuelles structurées est cruciale pour une compréhension approfondie. Bien que les grands modèles de langage (LLMs) démontrent des performances solides dans le raisonnement textuel sur les théorèmes, leur capacité à générer des explications visuelles cohérentes et pédagogiquement significatives reste un défi ouvert. Dans ce travail, nous présentons TheoremExplainAgent, une approche agentive pour générer des vidéos d'explication de théorèmes de longue durée (plus de 5 minutes) en utilisant des animations Manim. Pour évaluer systématiquement les explications multimodales de théorèmes, nous proposons TheoremExplainBench, un benchmark couvrant 240 théorèmes à travers plusieurs disciplines STEM, ainsi que 5 métriques d'évaluation automatisées. Nos résultats révèlent que la planification agentive est essentielle pour générer des vidéos détaillées de longue durée, et l'agent o3-mini atteint un taux de réussite de 93,8 % et un score global de 0,77. Cependant, nos études quantitatives et qualitatives montrent que la plupart des vidéos produites présentent des problèmes mineurs dans la disposition des éléments visuels. De plus, les explications multimodales révèlent des failles de raisonnement plus profondes que les explications textuelles ne parviennent pas à dévoiler, soulignant l'importance des explications multimodales.
Malgré le rôle central de la Grèce dans l'économie mondiale, les grands modèles de langage (LLMs) restent sous-explorés dans le contexte financier grec en raison de la complexité linguistique du grec et de la rareté des ensembles de données spécifiques au domaine. Les efforts précédents en traitement du langage naturel (NLP) financier multilingue ont révélé des disparités de performance considérables, mais aucun benchmark financier grec dédié ou LLM financier spécifique au grec n'a été développé jusqu'à présent. Pour combler cette lacune, nous introduisons Plutus-ben, le premier benchmark d'évaluation financière grec, et Plutus-8B, le premier LLM financier grec, affiné avec des données spécifiques au domaine grec. Plutus-ben aborde cinq tâches principales de NLP financier en grec : la reconnaissance d'entités nommées numériques et textuelles, la réponse à des questions, la synthèse abstraite et la classification thématique, facilitant ainsi des évaluations systématiques et reproductibles des LLMs. Pour soutenir ces tâches, nous présentons trois nouveaux ensembles de données financiers grecs de haute qualité, annotés minutieusement par des experts locuteurs natifs grecs, enrichis par deux ressources existantes. Notre évaluation complète de 22 LLMs sur Plutus-ben révèle que le NLP financier grec reste difficile en raison de la complexité linguistique, de la terminologie spécifique au domaine et des lacunes en raisonnement financier. Ces résultats soulignent les limites du transfert translinguistique, la nécessité d'une expertise financière dans les modèles formés en grec et les défis liés à l'adaptation des LLMs financiers au texte grec. Nous rendons publics Plutus-ben, Plutus-8B et tous les ensembles de données associés pour promouvoir la recherche reproductible et faire progresser le NLP financier grec, favorisant ainsi une inclusion multilingue plus large dans le domaine financier.
Les modèles de langage multilingues (LM) sont censés mémoriser les connaissances factuelles de manière cohérente à travers les langues, mais ils échouent souvent à transférer les connaissances entre les langues, même lorsqu'ils possèdent l'information correcte dans l'une d'elles. Par exemple, nous constatons qu'un LM peut identifier correctement Rashed Al Shashai comme étant originaire d'Arabie saoudite lorsqu'on l'interroge en arabe, mais échoue systématiquement à le faire lorsqu'on l'interroge en anglais ou en swahili. Pour étudier systématiquement cette limitation, nous introduisons un benchmark de 10 000 faits liés aux pays dans 13 langues et proposons trois nouvelles métriques : le Score de Rappel Factuel, le Score de Transférabilité des Connaissances et le Score de Transférabilité des Connaissances Factuelles Translinguales - afin de quantifier le rappel factuel et la transférabilité des connaissances dans les LM à travers différentes langues. Nos résultats révèlent des faiblesses fondamentales dans les LM actuels de pointe, en particulier dans la généralisation translinguale où les modèles échouent à transférer efficacement les connaissances entre différentes langues, conduisant à une performance incohérente sensible à la langue utilisée. Nos conclusions soulignent la nécessité pour les LM de reconnaître la fiabilité factuelle spécifique à chaque langue et d'exploiter les informations les plus fiables à travers les langues. Nous publions notre benchmark et cadre d'évaluation pour stimuler les recherches futures sur le transfert de connaissances multilingues.
Récemment, les modèles de type o1 ont suscité une attention considérable, ces modèles produisant de longues étapes de raisonnement en chaîne (Chain-of-Thought, CoT) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs) existants. Dans cet article, afin de comprendre les qualités de ces longues CoTs et de mesurer les capacités de critique des LLMs existants sur ces longues CoTs, nous introduisons DeltaBench, qui inclut les longues CoTs générées par différents modèles de type o1 (par exemple, QwQ, DeepSeek-R1) pour diverses tâches de raisonnement (par exemple, mathématiques, code, raisonnement général), afin de mesurer la capacité à détecter les erreurs dans le raisonnement en longue CoT. Sur la base de DeltaBench, nous effectuons d'abord une analyse fine des longues CoTs générées pour découvrir l'efficacité et l'efficience des différents modèles de type o1. Ensuite, nous menons des évaluations approfondies des modèles de récompense de processus (Process Reward Models, PRMs) et des modèles critiques existants pour détecter les erreurs de chaque processus annoté, dans le but d'explorer les limites et les contraintes des PRMs et des modèles critiques actuels. Enfin, nous espérons que DeltaBench pourra guider les développeurs à mieux comprendre les capacités de raisonnement en longue CoT de leurs modèles.
Nous présentons Rank1, le premier modèle de réordonnancement entraîné pour tirer parti du calcul au moment de l'inférence. Rank1 démontre l'applicabilité dans le domaine de la recherche d'utiliser un modèle de langage de raisonnement (par exemple, OpenAI's o1, Deepseek's R1, etc.) pour la distillation afin d'améliorer rapidement les performances d'un modèle plus petit. Nous avons rassemblé et rendu public un ensemble de données de plus de 600 000 exemples de traces de raisonnement R1 issues de requêtes et de passages de MS MARCO. Les modèles entraînés sur cet ensemble de données montrent : (1) des performances de pointe sur des ensembles de données avancés de raisonnement et de suivi d'instructions ; (2) une remarquable capacité à fonctionner hors distribution grâce à leur aptitude à répondre aux invites de l'utilisateur ; et (3) des chaînes de raisonnement explicables qui peuvent être fournies aux utilisateurs ou à des systèmes basés sur RAG. De plus, nous démontrons que les versions quantifiées de ces modèles conservent de solides performances tout en utilisant moins de calcul/mémoire. Globalement, Rank1 montre que le calcul au moment de l'inférence permet un nouveau type fondamental de modèle de réordonnancement explicable et performant pour la recherche.
Les modèles de récompense (RMs) sont essentiels pour l'entraînement et le passage à l'échelle lors de l'inférence des grands modèles de langage (LLMs). Cependant, les modèles de récompense existants se concentrent principalement sur les préférences humaines, négligeant les signaux de vérifiabilité qui ont montré un fort potentiel dans l'entraînement des LLMs. Dans cet article, nous proposons la modélisation de récompense agentique, un système de récompense qui combine des modèles de récompense avec des signaux de vérifiabilité provenant de différents aspects pour fournir des récompenses fiables. Nous mettons empiriquement en œuvre un agent de récompense, nommé RewardAgent, qui combine les récompenses basées sur les préférences humaines avec deux signaux vérifiables : la factualité et le suivi des instructions, pour fournir des récompenses plus fiables. Nous menons des expériences approfondies sur des benchmarks existants de modèles de récompense et des recherches de meilleur choix parmi n lors de l'inférence sur des tâches en aval du monde réel. RewardAgent surpasse significativement les modèles de récompense classiques, démontrant son efficacité. Nous construisons ensuite des paires de préférences d'entraînement en utilisant RewardAgent et entraînons un LLM avec l'objectif DPO, obtenant des performances supérieures sur divers benchmarks NLP par rapport aux modèles de récompense conventionnels. Nos codes sont publiés publiquement pour faciliter les recherches futures (https://github.com/THU-KEG/Agentic-Reward-Modeling).
L'enthousiasme grandit quant au potentiel des modèles de langage (LMs) pour accélérer les découvertes scientifiques. La falsification des hypothèses est essentielle au progrès scientifique, car elle permet d'affiner les affirmations de manière itérative au fil du temps. Ce processus nécessite un effort, un raisonnement et une ingéniosité significatifs de la part des chercheurs. Pourtant, les benchmarks actuels pour les LMs évaluent principalement leur capacité à générer des solutions plutôt qu'à les remettre en question. Nous plaidons pour le développement de benchmarks qui évaluent cette capacité inverse - la création de contre-exemples pour des solutions subtilement incorrectes. Pour démontrer cette approche, nous commençons par le domaine de la résolution de problèmes algorithmiques, où les contre-exemples peuvent être évalués automatiquement par exécution de code. Plus précisément, nous introduisons REFUTE, un benchmark dynamiquement mis à jour qui inclut des problèmes récents et des soumissions incorrectes issues de compétitions de programmation, où des experts humains ont réussi à identifier des contre-exemples. Notre analyse révèle que les meilleurs agents de raisonnement, même OpenAI o3-mini (haut) avec retour d'exécution de code, ne parviennent à créer des contre-exemples que pour <9 % des solutions incorrectes dans REFUTE, bien que les évaluations indiquent sa capacité à résoudre jusqu'à 48 % de ces problèmes à partir de zéro. Nous espérons que notre travail stimulera les progrès dans l'évaluation et l'amélioration de la capacité des LMs à falsifier des solutions incorrectes - une capacité cruciale à la fois pour accélérer la recherche et pour permettre aux modèles de s'améliorer par eux-mêmes grâce à un raisonnement réflexif fiable.
Les paywalls, les licences et les règles de droit d'auteur limitent souvent la diffusion large et la réutilisation des connaissances scientifiques. Nous soutenons qu'il est à la fois légalement et techniquement possible d'extraire les connaissances scientifiques contenues dans les textes académiques. Les méthodes actuelles, comme les embeddings de texte, ne parviennent pas à préserver de manière fiable le contenu factuel, et une simple paraphrase peut ne pas être juridiquement valable. Nous encourageons la communauté à adopter une nouvelle idée : convertir les documents académiques en Unités de Connaissance à l'aide de modèles de langage (LLMs). Ces unités utilisent des données structurées capturant les entités, attributs et relations sans contenu stylistique. Nous fournissons des preuves que les Unités de Connaissance : (1) constituent un cadre juridiquement défendable pour partager les connaissances issues de textes de recherche protégés par le droit d'auteur, basé sur des analyses juridiques du droit d'auteur allemand et de la doctrine du Fair Use américain, et (2) préservent la majorité (~95%) des connaissances factuelles du texte original, mesurées par la performance sur des QCM portant sur des faits issus du texte original protégé par le droit d'auteur dans quatre domaines de recherche. Libérer les connaissances scientifiques du droit d'auteur promet des avantages transformateurs pour la recherche et l'éducation scientifiques en permettant aux modèles de langage de réutiliser des faits importants provenant de textes protégés. Pour soutenir cela, nous partageons des outils open-source pour convertir les documents de recherche en Unités de Connaissance. Globalement, notre travail postule la faisabilité de démocratiser l'accès aux connaissances scientifiques tout en respectant le droit d'auteur.
L'entraînement de modèles vision-langage (VLMs) pour les agents d'interfaces graphiques (GUI) via l'apprentissage par renforcement (RL) présente des défis majeurs : le RL basé sur l'environnement nécessite des interactions coûteuses, tandis que les méthodes indépendantes de l'environnement peinent à gérer le décalage de distribution et la généralisation des récompenses. Nous proposons un cadre de RL indépendant de l'environnement qui découple l'estimation de la valeur de l'optimisation de la politique en exploitant un modèle d'environnement de valeur (VEM) préentraîné. Le VEM prédit directement les valeurs état-action à partir de données hors ligne, distillant des connaissances préalables de type humain sur les résultats des interactions avec les GUI sans nécessiter de prédiction de l'état suivant ni de retour d'environnement. Cela évite l'accumulation d'erreurs et renforce la résilience aux changements d'interface en se concentrant sur le raisonnement sémantique (par exemple, cette action fait-elle progresser l'objectif de l'utilisateur ?). Le cadre opère en deux étapes : (1) pré-entraîner le VEM pour estimer les utilités à long terme des actions et (2) guider l'exploration de la politique avec les signaux du VEM figé, permettant une automatisation des GUI indépendante de la mise en page. Évalué sur des benchmarks Android-in-the-Wild, le VEM atteint des performances de pointe dans les contextes hors ligne et en ligne, surpassant significativement les méthodes de référence indépendantes de l'environnement et égalant les approches basées sur l'environnement sans les coûts d'interaction. Fait notable, le VEM démontre qu'une estimation de valeur consciente de la sémantique peut atteindre des performances comparables aux méthodes entraînées en ligne.
L'estimation de profondeur monoculaire (MDE) vise à prédire la profondeur d'une scène à partir d'une seule image RGB et joue un rôle crucial dans la compréhension des scènes 3D. Les avancées récentes en MDE zero-shot exploitent des représentations de profondeur normalisées et un apprentissage par distillation pour améliorer la généralisation à travers des scènes variées. Cependant, les méthodes actuelles de normalisation de la profondeur pour la distillation, reposant sur une normalisation globale, peuvent amplifier les pseudo-étiquettes bruitées, réduisant ainsi l'efficacité de la distillation. Dans cet article, nous analysons systématiquement l'impact de différentes stratégies de normalisation de la profondeur sur la distillation des pseudo-étiquettes. Sur la base de nos observations, nous proposons la Distillation Trans-contextuelle, qui intègre des indices de profondeur globaux et locaux pour améliorer la qualité des pseudo-étiquettes. De plus, nous introduisons un cadre de distillation multi-enseignants qui exploite les forces complémentaires de différents modèles d'estimation de profondeur, conduisant à des prédictions de profondeur plus robustes et précises. Des expériences approfondies sur des ensembles de données de référence démontrent que notre approche surpasse significativement les méthodes de pointe, à la fois quantitativement et qualitativement.
Les modèles de langage dépendent fortement de données de haute qualité pour des performances optimales. Les approches existantes s'appuient sur des heuristiques conçues manuellement, la perplexité des modèles existants, l'entraînement de classificateurs ou un ingénierie minutieuse des prompts, ce qui nécessite une expertise significative et un effort important d'annotation humaine, tout en introduisant des biais. Nous présentons CritiQ, une nouvelle méthode de sélection de données qui extrait automatiquement des critères à partir des préférences humaines concernant la qualité des données, avec seulement 30 paires annotées manuellement, et effectue une sélection de données efficace. Le composant principal, CritiQ Flow, utilise un agent manager pour faire évoluer les critères de qualité et des agents worker pour effectuer des jugements par paires. Nous construisons une base de connaissances qui extrait les critères de qualité des travaux précédents pour renforcer CritiQ Flow. Par rapport aux méthodes basées sur la perplexité et les classificateurs, les critères verbaux sont plus interprétables et possèdent une valeur réutilisable. Après avoir dérivé les critères, nous entraînons le CritiQ Scorer pour attribuer des scores de qualité et effectuer une sélection de données efficace. Nous démontrons l'efficacité de notre méthode dans les domaines du code, des mathématiques et de la logique, atteignant une haute précision sur des ensembles de tests annotés manuellement. Pour valider la qualité des données sélectionnées, nous entraînons continuellement des modèles Llama 3.1 et observons une amélioration des performances sur les tâches en aval par rapport à un échantillonnage uniforme. Des études d'ablation valident les avantages de la base de connaissances et du processus de réflexion. Nous analysons comment les critères évoluent et l'efficacité du vote à la majorité.
Les grands modèles de langage (LLM) sont de plus en plus déployés dans des applications quotidiennes, nécessitant des capacités de raisonnement général robustes et un ensemble diversifié de compétences en raisonnement. Cependant, les benchmarks actuels évaluant le raisonnement des LLM se concentrent principalement sur les aptitudes mathématiques et de codage, laissant un vide dans l'évaluation des compétences de raisonnement plus larges. Une exception notable est le jeu de données BIG-Bench, qui a servi de référence cruciale pour évaluer les capacités de raisonnement général des LLM, grâce à son ensemble varié de tâches complexes permettant une évaluation complète du raisonnement général à travers diverses compétences dans un cadre unifié. Cependant, les récentes avancées des LLM ont conduit à une saturation sur BIG-Bench et sa version plus difficile, BIG-Bench Hard (BBH). Les modèles de pointe atteignent des scores quasi parfaits sur de nombreuses tâches de BBH, réduisant ainsi son utilité. Pour pallier cette limitation, nous introduisons BIG-Bench Extra Hard (BBEH), un nouveau benchmark conçu pour repousser les limites de l'évaluation du raisonnement des LLM. BBEH remplace chaque tâche de BBH par une nouvelle tâche qui explore une capacité de raisonnement similaire mais présente une difficulté significativement accrue. Nous évaluons divers modèles sur BBEH et observons une précision moyenne (harmonique) de 9,8 % pour le meilleur modèle à usage général et de 44,8 % pour le meilleur modèle spécialisé en raisonnement, indiquant une marge d'amélioration substantielle et soulignant le défi continu d'atteindre un raisonnement général robuste dans les LLM. Nous rendons BBEH public à l'adresse suivante : https://github.com/google-deepmind/bbeh.
La personnalisation efficace des LLM est cruciale pour un large éventail d'applications d'interface utilisateur telles que les assistants virtuels et la curation de contenu. Inspirés par les fortes capacités d'apprentissage en contexte des LLM, nous proposons l'Optimisation des Préférences en Quelques Étapes (FSPO), qui reformule la modélisation de la récompense comme un problème d'apprentissage méta. Dans ce cadre, un LLM apprend à s'adapter rapidement à un utilisateur via quelques préférences étiquetées de cet utilisateur, construisant ainsi une fonction de récompense personnalisée pour celui-ci. De plus, étant donné que les données de préférences du monde réel sont rares et difficiles à collecter à grande échelle, nous proposons des choix de conception soigneux pour construire des ensembles de données de préférences synthétiques pour la personnalisation, générant plus de 1 million de préférences personnalisées synthétiques à l'aide de LLM disponibles publiquement. En particulier, pour réussir le transfert des données synthétiques aux utilisateurs réels, nous considérons crucial que les données présentent à la fois une grande diversité et une structure cohérente et auto-cohérente. Nous évaluons FSPO sur la génération personnalisée ouverte pour jusqu'à 1 500 utilisateurs synthétiques à travers trois domaines : critiques de films, adaptation pédagogique basée sur le parcours éducatif et réponse à des questions générales, ainsi qu'une étude humaine contrôlée. Dans l'ensemble, FSPO atteint un taux de réussite Alpaca Eval de 87 % en moyenne dans la génération de réponses personnalisées pour les utilisateurs synthétiques et un taux de réussite de 72 % avec les utilisateurs humains réels dans la réponse à des questions ouvertes.
L'architecture Mixture of Experts (MoE) réduit considérablement les coûts d'entraînement et d'inférence par rapport à un modèle dense de capacité équivalente. Le recyclage (upcycling) est une approche qui initialise et entraîne un modèle MoE en utilisant un modèle dense pré-entraîné. Bien que le recyclage entraîne des gains de performance initiaux, la progression de l'entraînement est plus lente que lorsqu'il est effectué à partir de zéro, ce qui conduit à des performances sous-optimales à long terme. Nous proposons Drop-Upcycling - une méthode qui résout efficacement ce problème. Drop-Upcycling combine deux approches apparemment contradictoires : l'utilisation des connaissances des modèles denses pré-entraînés tout en réinitialisant statistiquement certaines parties des poids. Cette approche favorise stratégiquement la spécialisation des experts, améliorant ainsi significativement l'efficacité du modèle MoE dans l'acquisition de connaissances. Des expériences à grande échelle démontrent que Drop-Upcycling surpasse nettement les méthodes précédentes de construction de MoE à long terme, en particulier lors de l'entraînement sur des centaines de milliards de tokens ou plus. En conséquence, notre modèle MoE avec 5,9 milliards de paramètres actifs atteint des performances comparables à un modèle dense de 13 milliards de paramètres dans la même famille de modèles, tout en nécessitant environ 1/4 des FLOPs d'entraînement. Toutes les ressources expérimentales, y compris le code source, les données d'entraînement, les points de contrôle des modèles et les journaux, sont publiquement disponibles pour promouvoir la reproductibilité et les recherches futures sur MoE.
La communication efficace dans le Contrôle du Trafic Aérien (CTA) est essentielle pour garantir la sécurité de l'aviation, cependant les défis posés par l'anglais avec accent restent largement non résolus dans les systèmes de Reconnaissance Automatique de la Parole (RAP). Les modèles existants rencontrent des difficultés en termes de précision de transcription pour la parole avec accent d'Asie du Sud-Est (accent d'ASE), notamment dans des environnements bruyants de CTA. Cette étude présente le développement de modèles de RAP affinés spécifiquement pour les accents d'Asie du Sud-Est en utilisant un ensemble de données nouvellement créé. Notre recherche obtient des améliorations significatives, atteignant un Taux d'Erreur de Mots (TEM) de 0,0982 ou 9,82% pour la parole avec accent d'ASE en CTA. De plus, l'article souligne l'importance des ensembles de données spécifiques à la région et de la formation axée sur l'accent, offrant une voie pour le déploiement de systèmes de RAP dans des opérations militaires aux ressources limitées. Les résultats mettent en avant la nécessité de techniques d'entraînement robustes au bruit et d'ensembles de données spécifiques à la région pour améliorer la précision de transcription des accents non occidentaux dans les communications de CTA.
Alors que les modèles d'IA sont de plus en plus déployés dans divers scénarios réels, garantir leur sécurité reste un défi crucial mais encore peu exploré. Bien que des efforts substantiels aient été consacrés à l'évaluation et à l'amélioration de la sécurité de l'IA, l'absence d'un cadre standardisé et d'une boîte à outils complète constitue un obstacle majeur à la recherche systématique et à l'adoption pratique. Pour combler cette lacune, nous présentons AISafetyLab, un cadre unifié et une boîte à outils qui intègrent des méthodologies représentatives d'attaque, de défense et d'évaluation pour la sécurité de l'IA. AISafetyLab propose une interface intuitive permettant aux développeurs d'appliquer diverses techniques de manière fluide, tout en maintenant une base de code bien structurée et extensible pour les avancées futures. De plus, nous menons des études empiriques sur Vicuna, analysant différentes stratégies d'attaque et de défense afin de fournir des insights précieux sur leur efficacité comparative. Pour favoriser la recherche et le développement continus en matière de sécurité de l'IA, AISafetyLab est accessible publiquement à l'adresse https://github.com/thu-coai/AISafetyLab, et nous nous engageons à sa maintenance et à son amélioration continues.
Établir la relation entre les structures 3D et les états énergétiques des systèmes moléculaires s'est avéré être une approche prometteuse pour l'apprentissage des représentations moléculaires 3D. Cependant, les méthodes existantes se limitent à modéliser les états énergétiques moléculaires à partir de la mécanique classique. Cette limitation entraîne une négligence significative des effets de la mécanique quantique, tels que les structures d'énergie quantifiées (discrètes), qui offrent une estimation plus précise de l'énergie moléculaire et peuvent être mesurées expérimentalement via les spectres énergétiques. Dans cet article, nous proposons d'utiliser les spectres énergétiques pour améliorer le pré-entraînement des représentations moléculaires 3D (MolSpectra), intégrant ainsi les connaissances de la mécanique quantique dans les représentations moléculaires. Plus précisément, nous proposons SpecFormer, un encodeur multi-spectre pour encoder les spectres moléculaires via la reconstruction de patchs masqués. En alignant davantage les sorties de l'encodeur 3D et de l'encodeur de spectre à l'aide d'un objectif contrastif, nous améliorons la compréhension des molécules par l'encodeur 3D. Les évaluations sur des benchmarks publics révèlent que nos représentations pré-entraînées surpassent les méthodes existantes dans la prédiction des propriétés moléculaires et la modélisation des dynamiques.
Les techniques d'édition de connaissances ont émergé comme des outils essentiels pour mettre à jour les connaissances factuelles des grands modèles de langage (LLMs) et des modèles multimodaux (LMMs), leur permettant de corriger les informations obsolètes ou inexactes sans devoir être réentraînés à partir de zéro. Cependant, les référentiels existants pour l'édition de connaissances multimodales se concentrent principalement sur les connaissances au niveau des entités représentées sous forme de triplets simples, ce qui ne parvient pas à capturer la complexité des informations multimodales du monde réel. Pour résoudre ce problème, nous introduisons MMKE-Bench, un référentiel complet d'édition de connaissances multimodales, conçu pour évaluer la capacité des LMMs à éditer des connaissances visuelles diverses dans des scénarios du monde réel. MMKE-Bench aborde ces limitations en incorporant trois types de tâches d'édition : l'édition d'entités visuelles, l'édition sémantique visuelle et l'édition spécifique à l'utilisateur. De plus, MMKE-Bench utilise un langage naturel libre pour représenter et éditer les connaissances, offrant un format plus flexible et efficace. Le référentiel se compose de 2 940 éléments de connaissances et de 8 363 images réparties dans 33 catégories larges, avec des questions d'évaluation générées automatiquement et vérifiées par des humains. Nous évaluons cinq méthodes d'édition de connaissances de pointe sur trois LMMs de premier plan, révélant qu'aucune méthode n'excelle dans tous les critères, et que les éditions visuelles et spécifiques à l'utilisateur sont particulièrement difficiles. MMKE-Bench établit une nouvelle norme pour évaluer la robustesse des techniques d'édition de connaissances multimodales, favorisant les progrès dans ce domaine en évolution rapide.
Les grands modèles de langage (LLMs) sont devenus une partie indispensable des tâches de traitement du langage naturel. Cependant, l'échantillonnage autorégressif est devenu un goulot d'étranglement en termes d'efficacité. Le Décodage Spéculatif Multi-Brouillon (MDSD) est une approche récente où, lors de la génération de chaque jeton, un petit modèle de brouillon génère plusieurs brouillons, et le LLM cible les vérifie en parallèle, garantissant que la sortie finale est conforme à la distribution du modèle cible. Les deux principaux choix de conception dans le MDSD sont la méthode d'échantillonnage de brouillon et l'algorithme de vérification. Pour une méthode d'échantillonnage de brouillon fixe, le taux d'acceptation optimal est une solution à un problème de transport optimal, mais la complexité de ce problème rend difficile la résolution du taux d'acceptation optimal et la mesure de l'écart entre les algorithmes de vérification existants et la limite supérieure théorique. Cet article discute du dual du problème de transport optimal, fournissant un moyen de calculer efficacement le taux d'acceptation optimal. Pour la première fois, nous mesurons la limite supérieure théorique de l'efficacité du MDSD pour des tailles de vocabulaire dans les milliers et quantifions l'écart entre les algorithmes de vérification existants et cette limite. Nous comparons également différentes méthodes d'échantillonnage de brouillon en fonction de leurs taux d'acceptation optimaux. Nos résultats montrent que la méthode d'échantillonnage de brouillon influence fortement le taux d'acceptation optimal, l'échantillonnage sans remplacement surpassant l'échantillonnage avec remplacement. De plus, les algorithmes de vérification existants n'atteignent pas la limite supérieure théorique pour les échantillonnages sans remplacement et avec remplacement. Nos conclusions suggèrent que des méthodes d'échantillonnage de brouillon soigneusement conçues peuvent potentiellement améliorer le taux d'acceptation optimal et permettre le développement d'algorithmes de vérification qui se rapprochent de la limite supérieure théorique.
La génération de résumés textuels précis et concis à partir de documents multimodaux est un défi, en particulier lorsqu'il s'agit de contenus visuellement complexes comme les posters scientifiques. Nous présentons PosterSum, un nouveau benchmark visant à faire progresser le développement de modèles vision-langage capables de comprendre et de résumer des posters scientifiques en résumés d'articles de recherche. Notre ensemble de données contient 16 305 posters de conférences associés à leurs résumés correspondants. Chaque poster est fourni au format image et présente divers défis de compréhension visuelle, tels que des mises en page complexes, des zones de texte denses, des tableaux et des figures. Nous évaluons les modèles de langage multimodaux de pointe (MLLMs) sur PosterSum et montrons qu'ils peinent à interpréter et à résumer avec précision les posters scientifiques. Nous proposons Segment & Summarize, une méthode hiérarchique qui surpasse les MLLMs actuels sur les métriques automatisées, avec un gain de 3,14 % en ROUGE-L. Cela servira de point de départ pour les recherches futures sur la synthèse de posters.
La segmentation sémantique faiblement supervisée (WSSS) utilise généralement des annotations sémantiques limitées pour obtenir des cartes d'activation de classe (CAM) initiales. Cependant, en raison du couplage insuffisant entre les réponses d'activation de classe et les informations sémantiques dans l'espace de haute dimension, les CAM sont sujettes à la co-occurrence d'objets ou à la sous-activation, ce qui entraîne une précision de reconnaissance inférieure. Pour résoudre ce problème, nous proposons DOEI, Dual Optimization of Embedding Information, une nouvelle approche qui reconstruit les représentations d'embedding à travers des matrices de poids d'attention sensibles à la sémantique afin d'optimiser la capacité d'expression des informations d'embedding. Concrètement, DOEI amplifie les tokens de haute confiance et supprime ceux de faible confiance lors de l'interaction classe-patch. Cet alignement des réponses d'activation avec les informations sémantiques renforce la propagation et le découplage des caractéristiques cibles, permettant aux embeddings générés de représenter plus précisément les caractéristiques cibles dans l'espace sémantique de haut niveau. De plus, nous proposons un module d'alignement de caractéristiques hybrides dans DOEI qui combine les valeurs RVB, les caractéristiques guidées par l'embedding et les poids d'auto-attention pour augmenter la fiabilité des tokens candidats. Des expériences approfondies montrent que DOEI est un module plug-and-play efficace qui permet aux modèles WSSS basés sur des transformers visuels de pointe d'améliorer significativement la qualité des CAM et les performances de segmentation sur des benchmarks populaires, notamment PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) et MS COCO (+1,2%, +1,6% mIoU). Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/DOEI.