Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le raisonnement mathématique visuel, en tant que capacité fondamentale de raisonnement visuel, a suscité une attention considérable de la part de la communauté des modèles multimodaux de grande taille (LMMs). Les benchmarks existants, tels que MathVista et MathVerse, se concentrent davantage sur les performances orientées résultats, mais négligent les principes sous-jacents dans l'acquisition et la généralisation des connaissances. Inspirés par le raisonnement mathématique humain, nous introduisons WE-MATH, le premier benchmark spécifiquement conçu pour explorer les principes de résolution de problèmes au-delà des performances de bout en bout. Nous avons méticuleusement collecté et catégorisé 6,5K problèmes de mathématiques visuels, couvrant 67 concepts de connaissances hiérarchiques et cinq niveaux de granularité de connaissances. Nous décomposons les problèmes composites en sous-problèmes selon les concepts de connaissances requis et introduisons une nouvelle métrique à quatre dimensions, à savoir Connaissance Insuffisante (IK), Généralisation Inadéquate (IG), Maîtrise Complète (CM) et Mémorisation Par Cœur (RM), pour évaluer hiérarchiquement les problèmes inhérents au processus de raisonnement des LMMs. Avec WE-MATH, nous menons une évaluation approfondie des LMMs existants en matière de raisonnement mathématique visuel et révélons une corrélation négative entre les étapes de résolution et les performances spécifiques aux problèmes. Nous confirmons que le problème IK des LMMs peut être efficacement amélioré via des stratégies d'augmentation des connaissances. Plus notablement, le défi principal de GPT-4o a significativement évolué de IK vers IG, l'établissant comme le premier LMM à progresser vers le stade de généralisation des connaissances. En revanche, les autres LMMs montrent une inclination marquée vers la Mémorisation Par Cœur - ils résolvent correctement les problèmes composites impliquant plusieurs concepts de connaissances, mais échouent à répondre aux sous-problèmes. Nous anticipons que WE-MATH ouvrira de nouvelles voies pour les avancées dans le raisonnement mathématique visuel des LMMs. Les données et le code d'évaluation de WE-MATH sont disponibles à l'adresse https://github.com/We-Math/We-Math.
Nous présentons un cadre pour la programmation intuitive de robots par des non-experts, exploitant des invites en langage naturel et des informations contextuelles provenant du système d'exploitation robotique (ROS). Notre système intègre des modèles de langage de grande envergure (LLMs), permettant aux non-experts d'exprimer les exigences des tâches au système via une interface de chat. Les caractéristiques clés du cadre incluent : l'intégration de ROS avec un agent d'IA connecté à une multitude de LLMs open-source et commerciaux, l'extraction automatique d'un comportement à partir de la sortie du LLM et l'exécution d'actions/services ROS, la prise en charge de trois modes de comportement (séquence, arbre de comportement, machine à états), l'apprentissage par imitation pour ajouter de nouvelles actions robotiques à la bibliothèque d'actions possibles, et la réflexion du LLM via les retours humains et environnementaux. Des expériences approfondies valident le cadre, démontrant sa robustesse, son évolutivité et sa polyvalence dans divers scénarios, y compris des tâches à long terme, des réaménagements de table et un contrôle de supervision à distance. Pour faciliter l'adoption de notre cadre et soutenir la reproduction de nos résultats, nous avons rendu notre code open-source. Vous pouvez y accéder à l'adresse suivante : https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
Les documents sont des structures visuellement riches qui véhiculent des informations à travers du texte, ainsi que des tableaux, des figures, des mises en page ou des polices. Bien que les systèmes modernes de recherche de documents affichent de solides performances en matière de correspondance requête-texte, ils peinent à exploiter efficacement les indices visuels, ce qui limite leurs performances dans des applications pratiques de recherche de documents telles que la Génération Augmentée par Récupération. Pour évaluer les systèmes actuels sur la recherche de documents visuellement riches, nous introduisons le benchmark ViDoRe (Visual Document Retrieval Benchmark), composé de diverses tâches de récupération au niveau de la page couvrant plusieurs domaines, langues et contextes. Les lacunes inhérentes des systèmes modernes motivent l'introduction d'une nouvelle architecture de modèle de recherche, ColPali, qui exploite les capacités de compréhension des documents des modèles de vision et de langage récents pour produire des embeddings contextualisés de haute qualité uniquement à partir d'images de pages de documents. Combiné à un mécanisme de correspondance par interaction tardive, ColPali surpasse largement les pipelines modernes de recherche de documents tout en étant considérablement plus rapide et entièrement entraînable de bout en bout.
Les recherches récentes suggèrent que les algorithmes de recherche arborescente (par exemple, la recherche arborescente Monte Carlo) peuvent considérablement améliorer les performances des LLM sur des tâches complexes de raisonnement mathématique. Cependant, ils nécessitent souvent plus de 10 fois les ressources computationnelles du décodage glouton en raison de stratégies de recherche inefficaces, ce qui les rend difficiles à déployer dans des applications pratiques. Cette étude introduit un nouvel algorithme de recherche arborescente guidée avec sélection dynamique des nœuds et calcul du budget d'exploration au niveau des nœuds (nombre maximum d'enfants) pour résoudre ce problème. En prenant en compte l'avancement de la recherche vers la réponse finale (historique) et les indications d'un réseau de valeur (futur) entraîné sans aucune annotation étape par étape, notre algorithme sélectionne itérativement le nœud arborescent le plus prometteur avant de l'étendre dans les limites du budget computationnel alloué. Les expériences menées sur les ensembles de données GSM8K et TabMWP démontrent que notre approche offre non seulement des performances compétitives, mais bénéficie également de coûts computationnels significativement plus faibles par rapport aux méthodes de référence.
Le mélange de données pour le pré-entraînement des grands modèles de langage a un impact significatif sur les performances, mais la manière de déterminer un mélange efficace reste incertaine. Nous proposons RegMix pour identifier automatiquement un mélange de données performant en le formulant comme une tâche de régression. RegMix implique l'entraînement d'un ensemble de petits modèles avec des mélanges de données diversifiés et l'ajustement d'un modèle de régression pour prédire leurs performances en fonction de leurs mélanges respectifs. Avec le modèle de régression ajusté, nous simulons le mélange le mieux classé et l'utilisons pour entraîner un modèle à grande échelle avec une puissance de calcul plusieurs ordres de grandeur supérieure. Pour valider empiriquement RegMix, nous entraînons 512 modèles de 1 million de paramètres sur 1 milliard de tokens de différents mélanges pour ajuster le modèle de régression et trouver le mélange optimal. En utilisant ce mélange, nous entraînons un modèle de 1 milliard de paramètres sur 25 milliards de tokens (c'est-à-dire 1000 fois plus grand et 25 fois plus long), qui s'avère être le meilleur parmi 64 modèles candidats de 1 milliard de paramètres avec d'autres mélanges. De plus, notre méthode démontre une performance supérieure par rapport à la sélection humaine et obtient des résultats qui égalent ou surpassent DoReMi, tout en utilisant seulement 10 % du budget de calcul. Nos expériences montrent également que (1) Les mélanges de données ont un impact significatif sur les performances, avec des variations de performance sur une seule tâche allant jusqu'à 14,6 % ; (2) Les corpus web, plutôt que des données perçues comme de haute qualité comme Wikipédia, ont la plus forte corrélation positive avec les performances en aval ; (3) Les domaines interagissent de manière complexe, contredisant souvent le bon sens, ce qui rend nécessaire des approches automatiques comme RegMix ; (4) Les effets du mélange de données transcendent les lois d'échelle, et notre approche capture cette complexité en considérant tous les domaines ensemble. Notre code est disponible à l'adresse https://github.com/sail-sg/regmix.
Les modèles multimodaux de grande taille (LMM) démontrent des capacités impressionnantes de compréhension et de raisonnement intermodaux, souvent évaluées à travers des questions à choix multiples (QCM) incluant une image, une question et plusieurs options. Cependant, de nombreux benchmarks utilisés pour ces évaluations souffrent de biais systématiques. De manière remarquable, les modèles de langage de grande taille (LLM) sans aucune capacité de perception visuelle atteignent des performances non négligeables, ce qui compromet la crédibilité de ces évaluations. Pour résoudre ce problème tout en maintenant l'efficacité des évaluations par QCM, nous proposons MMEvalPro, un benchmark conçu pour éviter les erreurs de type I grâce à un pipeline d'évaluation en trois étapes et des métriques plus rigoureuses. Pour chaque question originale provenant de benchmarks existants, des annotateurs humains l'augmentent en créant une question de perception et une question d'ancrage de connaissances à travers un processus d'annotation méticuleux. MMEvalPro comprend 2 138 triplets de questions, totalisant 6 414 questions distinctes. Deux tiers de ces questions sont étiquetées manuellement par des experts humains, tandis que le reste est issu de benchmarks existants (MMMU, ScienceQA et MathVista). Par rapport aux benchmarks existants, nos expériences avec les derniers LLM et LMM montrent que MMEvalPro est plus difficile (le meilleur LMM est en retard de 31,73 % par rapport aux performances humaines, contre un écart moyen de 8,03 % dans les benchmarks précédents) et plus fiable (le meilleur LLM est en retard de 23,09 % par rapport au meilleur LMM, alors que l'écart pour les benchmarks précédents est de seulement 14,64 %). Notre analyse approfondie explique la raison de ce grand écart de performance et justifie la fiabilité de l'évaluation, soulignant son potentiel significatif pour faire avancer les recherches futures.
Dans cet article, nous adoptons une nouvelle approche pour la génération d'images autorégressive, basée sur deux éléments principaux. Le premier est le codage d'images par ondelettes, qui permet de tokeniser les détails visuels d'une image, des plus grossiers aux plus fins, en ordonnant l'information en commençant par les bits les plus significatifs des coefficients d'ondelettes les plus importants. Le second est une variante d'un transformeur de langage dont l'architecture est repensée et optimisée pour les séquences de tokens dans ce « langage d'ondelettes ». Le transformeur apprend les corrélations statistiques significatives au sein d'une séquence de tokens, qui sont des manifestations des corrélations bien connues entre les sous-bandes d'ondelettes à différentes résolutions. Nous présentons des résultats expérimentaux avec conditionnement sur le processus de génération.
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) s'est avérée efficace pour améliorer les performances des grands modèles de langage (LLMs) sur des tâches en aval telles que le raisonnement et l'alignement. Dans ce travail, nous proposons la DPO à Contrôle Étape par Étape (Step-Controlled DPO, SCDPO), une méthode permettant de fournir automatiquement une supervision des erreurs étape par étape en créant des échantillons négatifs de raisonnements mathématiques qui commencent à faire des erreurs à une étape spécifiée. En appliquant ces échantillons dans l'entraînement DPO, SCDPO peut mieux aligner le modèle pour comprendre les erreurs de raisonnement et produire des étapes de raisonnement précises. Nous appliquons SCDPO à la fois aux solutions intégrant du code et aux solutions en chaîne de pensée, montrant empiriquement qu'elle améliore systématiquement les performances par rapport à la DPO naïve sur trois modèles SFT différents, incluant un modèle SFT existant et deux modèles que nous avons affinés. Une analyse qualitative de l'attribution de crédit de SCDPO et DPO démontre l'efficacité de SCDPO à identifier les erreurs dans les solutions mathématiques. Nous appliquons ensuite SCDPO à un modèle InternLM2-20B, obtenant un modèle de 20B qui atteint des scores élevés de 88,5 % sur GSM8K et 58,1 % sur MATH, rivalisant avec tous les autres LLMs open-source, montrant ainsi le grand potentiel de notre méthode.
Cet article présente une méthode de restauration vidéo zero-shot utilisant des modèles de diffusion pré-entraînés pour la restauration d'images. Les méthodes traditionnelles de restauration vidéo nécessitent souvent un réentraînement pour différents paramètres et peinent à généraliser efficacement face à divers types de dégradations et jeux de données. Notre approche utilise une stratégie de fusion hiérarchique de tokens pour les images clés et les images locales, combinée à un mécanisme de correspondance hybride qui intègre le flux optique et un appariement des plus proches voisins basé sur les caractéristiques (fusion latente). Nous démontrons que notre méthode non seulement atteint des performances de pointe en restauration vidéo zero-shot, mais surpasse également de manière significative les modèles entraînés en termes de généralisation sur divers jeux de données et dégradations extrêmes (super-résolution 8x et réduction de bruit vidéo à écart-type élevé). Nous présentons des preuves à travers des métriques quantitatives et des comparaisons visuelles sur plusieurs jeux de données complexes. De plus, notre technique est compatible avec tout modèle de diffusion 2D de restauration, offrant un outil polyvalent et puissant pour les tâches d'amélioration vidéo sans nécessiter de réentraînement extensif. Cette recherche ouvre la voie à des technologies de restauration vidéo plus efficaces et largement applicables, soutenant les avancées dans les domaines nécessitant une sortie vidéo de haute qualité. Consultez notre page de projet pour les résultats vidéo à l'adresse https://jimmycv07.github.io/DiffIR2VR_web/.
Le transfert de style est un processus créatif visant à générer une image qui conserve l'essence de l'original tout en adoptant le style visuel d'une autre. Bien que les modèles de diffusion aient démontré une puissance générative impressionnante dans des applications personnalisées axées sur un sujet ou un style spécifique, les méthodes actuelles les plus avancées rencontrent encore des difficultés à atteindre un équilibre harmonieux entre la préservation du contenu et l'amélioration du style. Par exemple, amplifier l'influence du style peut souvent compromettre l'intégrité structurelle du contenu. Pour relever ces défis, nous décomposons la tâche de transfert de style en trois éléments clés : 1) le Style, axé sur les caractéristiques esthétiques de l'image ; 2) la Structure Spatiale, concernant l'agencement géométrique et la composition des éléments visuels ; et 3) le Contenu Sémantique, qui capture la signification conceptuelle de l'image. Guidés par ces principes, nous présentons InstantStyle-Plus, une approche qui privilégie l'intégrité du contenu original tout en intégrant harmonieusement le style cible. Plus précisément, notre méthode réalise l'injection de style via un processus efficace et léger, en s'appuyant sur le cadre innovant d'InstantStyle. Pour renforcer la préservation du contenu, nous amorçons le processus avec un bruit latent de contenu inversé et un ControlNet modulaire en tuiles pour préserver la disposition intrinsèque de l'image originale. Nous intégrons également un adaptateur sémantique global pour améliorer la fidélité du contenu sémantique. Pour éviter la dilution des informations de style, un extracteur de style est utilisé comme discriminateur pour fournir des indications supplémentaires sur le style. Les codes seront disponibles à l'adresse https://github.com/instantX-research/InstantStyle-Plus.
Les progrès dans les capacités des modèles de langage ont orienté leurs applications vers des contextes plus longs, faisant de l'évaluation et du développement en contexte long un domaine de recherche actif. Cependant, de nombreux cas d'usage disparates sont regroupés sous le terme générique de "contexte long", défini simplement par la longueur totale de l'entrée du modèle, incluant par exemple les tâches de type "aiguille dans une botte de foin", la synthèse de livres et l'agrégation d'informations. Étant donné leur difficulté variée, nous soutenons dans cet article de position que regrouper différentes tâches par leur longueur de contexte est peu productif. En tant que communauté, nous avons besoin d'un vocabulaire plus précis pour comprendre ce qui rend les tâches en contexte long similaires ou différentes. Nous proposons de décomposer la taxonomie du contexte long en fonction des propriétés qui les rendent plus difficiles avec des contextes plus longs. Nous proposons deux axes de difficulté orthogonaux : (I) Diffusion : À quel point est-il difficile de trouver les informations nécessaires dans le contexte ? (II) Étendue : Quelle quantité d'informations nécessaires y a-t-il à trouver ? Nous passons en revue la littérature sur le contexte long, justifions cette taxonomie comme un descripteur informatif et situons la littérature par rapport à celle-ci. Nous concluons que les configurations les plus difficiles et intéressantes, où les informations nécessaires sont très longues et fortement dispersées dans l'entrée, sont gravement sous-explorées. En utilisant un vocabulaire descriptif et en discutant des propriétés pertinentes de la difficulté en contexte long, nous pouvons mener des recherches plus éclairées dans ce domaine. Nous appelons à une conception minutieuse des tâches et des benchmarks avec un contexte clairement long, en tenant compte des caractéristiques qui le rendent qualitativement différent des contextes plus courts.
Cet article présente Embarrassingly Easy Text-to-Speech (E2 TTS), un système de synthèse vocale entièrement non-autorégressif et zero-shot qui offre un niveau de naturalité comparable à celui d'un locuteur humain, ainsi qu'une similarité de voix et une intelligibilité de pointe. Dans le cadre d'E2 TTS, le texte d'entrée est converti en une séquence de caractères incluant des tokens de remplissage. Le générateur de spectrogrammes mel basé sur le flow matching est ensuite entraîné sur la tâche de remplissage audio. Contrairement à de nombreux travaux précédents, il ne nécessite pas de composants supplémentaires (par exemple, un modèle de durée, un convertisseur graphème-phonème) ni de techniques complexes (par exemple, la recherche d'alignement monotone). Malgré sa simplicité, E2 TTS atteint des performances de pointe en synthèse vocale zero-shot, comparables ou supérieures à celles des travaux précédents, notamment Voicebox et NaturalSpeech 3. La simplicité d'E2 TTS permet également une grande flexibilité dans la représentation des entrées. Nous proposons plusieurs variantes d'E2 TTS pour améliorer l'utilisabilité lors de l'inférence. Consultez https://aka.ms/e2tts/ pour des exemples de démonstration.
La génération de visages pilotée par l'audio de manière générique à la personne constitue une tâche complexe en vision par ordinateur. Les méthodes précédentes ont réalisé des progrès remarquables en matière de synchronisation audio-visuelle, mais un écart significatif persiste entre les résultats actuels et les applications pratiques. Les défis sont doubles : 1) Préserver les traits individuels uniques pour atteindre une synchronisation labiale de haute précision. 2) Générer des rendus faciaux de haute qualité en temps réel. Dans cet article, nous proposons un nouveau cadre généralisé piloté par l'audio, RealTalk, qui se compose d'un transformateur audio-vers-expression et d'un rendu expression-vers-visage haute fidélité. Dans le premier composant, nous prenons en compte à la fois les caractéristiques d'identité et les variations intra-personnelles liées aux mouvements labiaux lors de la parole. En incorporant une attention intermodale sur des a priori faciaux enrichis, nous pouvons aligner efficacement les mouvements labiaux avec l'audio, atteignant ainsi une plus grande précision dans la prédiction des expressions. Dans le second composant, nous concevons un module léger d'alignement d'identité faciale (FIA) qui inclut une structure de contrôle de la forme des lèvres et une structure de référence de texture faciale. Cette conception novatrice nous permet de générer des détails fins en temps réel, sans dépendre de modules d'alignement de caractéristiques sophistiqués et inefficaces. Nos résultats expérimentaux, tant quantitatifs que qualitatifs, sur des ensembles de données publics démontrent les avantages clairs de notre méthode en termes de synchronisation labiale-parole et de qualité de génération. De plus, notre méthode est efficace et nécessite moins de ressources computationnelles, la rendant bien adaptée aux besoins des applications pratiques.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis aux agents LLM de collecter de manière autonome des informations sur le monde, sur lesquelles ils peuvent raisonner pour résoudre des problèmes complexes. Compte tenu de cette capacité, un intérêt croissant a été porté à l'utilisation des agents LLM pour prédire des événements internationaux, ce qui peut influencer la prise de décision et façonner le développement des politiques à l'échelle internationale. Malgré cet intérêt grandissant, il manque un benchmark rigoureux pour évaluer la capacité de prévision et la fiabilité des agents LLM. Pour combler cette lacune, nous introduisons MIRAI, un nouveau benchmark conçu pour évaluer systématiquement les agents LLM en tant que prévisionnistes temporels dans le contexte des événements internationaux. Notre benchmark propose un environnement agentique doté d'outils pour accéder à une vaste base de données d'événements historiques structurés et d'articles de presse textuels. Nous avons affiné la base de données d'événements GDELT grâce à un nettoyage et un parsing minutieux, afin de créer une série de tâches de prédiction relationnelle avec des horizons de prévision variés, évaluant les capacités des agents LLM de la prévision à court terme à long terme. Nous avons en outre implémenté des API pour permettre aux agents LLM d'utiliser différents outils via une interface basée sur le code. En résumé, MIRAI évalue de manière exhaustive les capacités des agents selon trois dimensions : 1) collecter et intégrer de manière autonome des informations critiques à partir de grandes bases de données mondiales ; 2) écrire des codes en utilisant des API et des bibliothèques spécifiques au domaine pour l'utilisation d'outils ; et 3) raisonner conjointement sur des connaissances historiques provenant de formats et de périodes variés pour prédire avec précision les événements futurs. Grâce à ce benchmarking complet, nous visons à établir un cadre fiable pour évaluer les capacités des agents LLM dans la prévision des événements internationaux, contribuant ainsi au développement de modèles plus précis et dignes de confiance pour l'analyse des relations internationales.
Les modèles basés sur la diffusion ont démontré un grand potentiel dans la génération d'images de haute qualité avec diverses compositions, ce qui peut bénéficier aux tâches de perception en aval. Cependant, une génération de composition entièrement automatique pilotée uniquement par le langage et une métrique appropriée pour mesurer plusieurs instances générées n'ont pas été bien explorées. Dans ce travail, nous présentons Auto Cherry-Picker (ACP), un cadre novateur qui génère des exemples d'entraînement multimodaux de haute qualité pour enrichir la perception et l'entraînement multimodal. En partant d'une simple liste de concepts en langage naturel, nous incitons des modèles de langage de grande taille (LLM) à générer une description détaillée et à concevoir des compositions raisonnables. Ensuite, nous utilisons un modèle prêt à l'emploi de texte-à-image pour générer plusieurs images. Puis, les données générées sont affinées à l'aide d'une métrique soigneusement conçue pour garantir la qualité. En particulier, nous présentons une nouvelle métrique, le Score Composite de Composition et d'Image (CLIS), pour évaluer équitablement les images générées. Nos exemples synthétiques de haute qualité améliorent les performances dans divers scénarios en personnalisant la liste initiale de concepts, notamment pour relever les défis associés à la distribution à longue traîne et aux ensembles de données déséquilibrés. Les résultats d'expériences sur les tâches en aval démontrent qu'Auto Cherry-Picker peut significativement améliorer les performances des modèles existants. De plus, nous avons approfondi la corrélation entre le CLIS et les gains de performance dans les tâches en aval, et nous constatons qu'un meilleur score CLIS entraîne de meilleures performances. Cette découverte montre le potentiel des métriques d'évaluation pour divers tâches de perception visuelle et de MLLM. Le code sera disponible.
Nous présentons OmniJARVIS, un nouveau modèle Vision-Langage-Action (VLA) pour des agents capables de suivre des instructions dans un monde ouvert dans Minecraft. Contrairement aux travaux antérieurs qui émettent soit des objectifs textuels à des contrôleurs séparés, soit des commandes de contrôle directement, OmniJARVIS adopte une approche différente pour garantir à la fois des capacités de raisonnement solides et de prise de décision efficace via une tokenisation unifiée des données d'interaction multimodales. Tout d'abord, nous introduisons une approche auto-supervisée pour apprendre un encodeur de comportement qui produit des tokens discrétisés pour les trajectoires de comportement tau = {o_0, a_0, ...} et un décodeur de politique d'apprentissage par imitation (IL) conditionné sur ces tokens. Ces tokens de comportement supplémentaires seront ajoutés au vocabulaire des modèles de langage multimodaux (MLM) pré-entraînés. Avec cet encodeur, nous regroupons ensuite les interactions multimodales à long terme impliquant des instructions de tâche, des souvenirs, des pensées, des observations, des réponses textuelles, des trajectoires de comportement, etc., en séquences de tokens unifiées et les modélisons avec des transformateurs autorégressifs. Grâce aux tokens de comportement sémantiquement significatifs, le modèle VLA résultant, OmniJARVIS, peut raisonner (en produisant des chaînes de pensées), planifier, répondre à des questions et agir (en produisant des tokens de comportement pour le décodeur de politique IL). OmniJARVIS démontre d'excellentes performances sur une collection complète de tâches atomiques, programmatiques et ouvertes dans un monde ouvert de Minecraft. Notre analyse révèle en outre les principes de conception cruciaux dans la formation des données d'interaction, la tokenisation unifiée et son potentiel de mise à l'échelle.
Les modèles de langage de grande taille (LLMs) ont démontré une compétence impressionnante dans diverses tâches de traitement du langage naturel (NLP), qui impliquent un raisonnement de plus en plus complexe. Le raisonnement sur les connaissances, un type principal de raisonnement, vise à dériver de nouvelles connaissances à partir de celles existantes. Bien qu'il ait été largement étudié dans le contexte des graphes de connaissances (KGs), le raisonnement sur les connaissances dans les LLMs reste peu exploré. Dans cet article, nous introduisons Chain-of-Knowledge, un cadre complet pour le raisonnement sur les connaissances, incluant des méthodologies pour la construction de jeux de données et l'apprentissage des modèles. Pour la construction de jeux de données, nous créons KnowReason via l'extraction de règles sur les KGs. Pour l'apprentissage des modèles, nous observons un surajustement des règles induit par un entraînement naïf. Par conséquent, nous améliorons CoK avec un mécanisme d'essai-erreur qui simule le processus humain d'exploration interne des connaissances. Nous menons des expériences approfondies avec KnowReason. Nos résultats montrent l'efficacité de CoK pour affiner les LLMs non seulement dans le raisonnement sur les connaissances, mais aussi dans les benchmarks de raisonnement général.
Le déploiement de modèles de langage de grande taille (LLMs) sur les appareils périphériques devient de plus en plus important pour améliorer l'intelligence embarquée. La quantification des poids est cruciale pour réduire l'empreinte mémoire des LLMs sur ces appareils. Cependant, les LLMs à faible précision nécessitent une multiplication matricielle en précision mixte (mpGEMM) entre des poids de faible précision et des activations de haute précision lors de l'inférence. Les systèmes existants, dépourvus de support natif pour mpGEMM, recourent à la déquantification des poids pour effectuer des calculs en haute précision. Cette approche indirecte peut entraîner une surcharge significative lors de l'inférence. Dans cet article, nous présentons T-MAC, une méthode innovante basée sur des tables de consultation (LUT) conçue pour une inférence efficace des LLMs à faible précision (c'est-à-dire des LLMs avec poids quantifiés) sur les CPU. T-MAC prend directement en charge mpGEMM sans déquantification, tout en éliminant les multiplications et en réduisant les additions nécessaires. Plus précisément, T-MAC transforme la multiplication traditionnelle centrée sur le type de données en une consultation de table bit à bit, et permet une solution mpGEMM unifiée et évolutive. Nos noyaux basés sur LUT évoluent linéairement avec la largeur de bits des poids. Évalué sur des modèles Llama et BitNet à faible précision, T-MAC démontre une augmentation allant jusqu'à 4x du débit et une réduction de 70% de la consommation d'énergie par rapport à llama.cpp. Pour BitNet-b1.58-3B, T-MAC offre un débit de génération de tokens de 30 tokens/s avec un seul cœur et 71 tokens/s avec huit cœurs sur M2-Ultra, et 11 tokens/s sur des appareils plus modestes comme le Raspberry Pi 5, ce qui dépasse significativement la vitesse de lecture moyenne d'un adulte. T-MAC, avec son paradigme de calcul basé sur LUT, ouvre la voie au déploiement pratique des LLMs à faible précision sur des appareils périphériques aux ressources limitées sans compromettre l'efficacité computationnelle. Le système est open-source à l'adresse https://github.com/microsoft/T-MAC.
L'apprentissage auto-supervisé (SSL) a permis d'étendre les technologies de traitement de la parole à un plus grand nombre de langues en réduisant le besoin de données annotées. Cependant, les modèles sont encore loin de prendre en charge les 7000+ langues parlées dans le monde. Nous proposons XEUS, un encodeur multilingue universel pour la parole, entraîné sur plus d'un million d'heures de données couvrant 4057 langues, quadruplant ainsi la couverture linguistique des modèles SSL. Nous combinons un million d'heures de parole issues de corpus publics existants avec un nouveau corpus de plus de 7400 heures couvrant 4057 langues, qui sera rendu public. Pour gérer la diversité des conditions des données de parole multilingues, nous enrichissons l'approche SSL classique de prédiction masquée avec un nouvel objectif de déréverbération, augmentant ainsi la robustesse. Nous évaluons XEUS sur plusieurs benchmarks et montrons qu'il surpasse ou atteint des résultats comparables aux modèles SSL de pointe (SOTA) pour une variété de tâches. XEUS établit un nouveau SOTA sur le benchmark ML-SUPERB : il surpasse MMS 1B et w2v-BERT 2.0 v2 respectivement de 0,8 % et 4,4 %, malgré un nombre de paramètres ou de données de pré-entraînement moindre. Les checkpoints, le code et les données sont disponibles sur https://www.wavlab.org/activities/2024/xeus/.
Les modèles de génération vidéo ont démontré d'impressionnantes capacités à produire des vidéos monoscopiques de qualité. Cependant, la génération de vidéos stéréoscopiques 3D reste peu explorée. Nous proposons une approche sans pose et sans entraînement pour générer des vidéos stéréoscopiques 3D en utilisant un modèle de génération vidéo monoscopique prêt à l'emploi. Notre méthode transforme une vidéo monoscopique générée en vues caméra sur une base stéréoscopique en utilisant une estimation de la profondeur vidéo, et emploie un nouveau cadre de remplissage vidéo par matrice de trames. Ce cadre exploite le modèle de génération vidéo pour remplir les trames observées à différents instants et sous différents angles. Cette approche efficace génère des vidéos stéréoscopiques cohérentes et sémantiquement homogènes sans optimisation de scène ni ajustement fin du modèle. De plus, nous développons un schéma de réinjection des limites de désocclusion qui améliore davantage la qualité du remplissage vidéo en atténuant les effets négatifs propagés depuis les zones désoccluses dans l'espace latent. Nous validons l'efficacité de notre méthode proposée en menant des expériences sur des vidéos issues de divers modèles génératifs, notamment Sora [4], Lumiere [2], WALT [8] et Zeroscope [42]. Les expériences montrent que notre méthode apporte une amélioration significative par rapport aux méthodes précédentes. Le code sera publié à l'adresse suivante : https://daipengwa.github.io/SVG_ProjectPage.
Récemment, plusieurs modèles de langage de grande taille (LLMs) spécialisés et ajustés par instruction pour la reconnaissance d'entités nommées (NER) ont émergé. Comparés aux approches traditionnelles de NER, ces modèles possèdent de fortes capacités de généralisation. Les LLMs existants se concentrent principalement sur la NER en zero-shot dans des distributions hors domaine, étant affinés sur un grand nombre de classes d'entités qui se chevauchent souvent largement ou complètement avec les ensembles de test. Dans ce travail, nous proposons plutôt SLIMER, une approche conçue pour traiter des étiquettes d'entités nommées jamais vues auparavant en instruisant le modèle sur moins d'exemples et en exploitant une invite enrichie de définitions et de directives. Les expériences démontrent que les définitions et les directives améliorent les performances, un apprentissage plus rapide et plus robuste, en particulier lors de l'étiquetage d'entités nommées inédites. De plus, SLIMER obtient des performances comparables aux approches de pointe en NER zero-shot hors domaine, tout en étant entraîné sur un ensemble réduit d'étiquettes.
L'apprentissage par renforcement à partir de retours humains (RLHF) est une stratégie populaire pour aligner les grands modèles de langage (LLM) sur des comportements souhaités. La modélisation des récompenses constitue une étape cruciale dans le RLHF. Cependant, la collecte de données de préférences appariées pour entraîner les modèles de récompense est souvent coûteuse et chronophage, en particulier pour les préférences spécifiques à un domaine nécessitant une annotation experte. Pour relever ce défi, nous proposons le Domain knowledge merged Reward Model (DogeRM), un cadre novateur qui intègre des connaissances spécifiques à un domaine dans un modèle de récompense général par fusion de modèles. Les expériences démontrent que DogeRM améliore les performances sur différents benchmarks et fournissent une analyse détaillée mettant en lumière les effets de la fusion de modèles, révélant ainsi le grand potentiel de cette approche pour faciliter l'alignement des modèles.
Les LLM traitent le texte sous forme de séquences de tokens qui correspondent approximativement à des mots, où les mots moins courants sont représentés par plusieurs tokens. Cependant, les tokens individuels sont souvent sémantiquement indépendants des significations des mots/concepts qu'ils composent. Par exemple, le tokenizer de Llama-2-7b divise le mot "northeastern" en les tokens ['_n', 'ort', 'he', 'astern'], dont aucun ne correspond à des unités sémantiquement significatives comme "north" ou "east". De même, les significations globales d'entités nommées comme "Neil Young" et d'expressions multi-mots comme "break a leg" ne peuvent pas être directement déduites de leurs tokens constitutifs. Mécaniquement, comment les LLM convertissent-ils de tels groupes arbitraires de tokens en représentations de niveau supérieur utiles ? Dans ce travail, nous constatons que les représentations du dernier token des entités nommées et des mots multi-tokens présentent un effet prononcé d'"effacement", où les informations sur les tokens précédents et actuels sont rapidement oubliées dans les premières couches. En utilisant cette observation, nous proposons une méthode pour "lire" le vocabulaire implicite d'un LLM autoregressif en examinant les différences dans les représentations des tokens à travers les couches, et présentons les résultats de cette méthode pour Llama-2-7b et Llama-3-8B. À notre connaissance, il s'agit de la première tentative d'explorer le vocabulaire implicite d'un LLM.
Nous décrivons la prédiction précise des affinités d'interaction ligand-protéine (LPI), également appelées interactions médicament-cible (DTI), à l'aide de petits modèles de langage génératifs (SLM) pré-entraînés et affinés par instruction. Nous avons obtenu des prédictions précises pour une gamme de valeurs d'affinité associées aux interactions ligand-protéine sur des données hors échantillon dans un cadre zero-shot. Seule la chaîne SMILES du ligand et la séquence d'acides aminés de la protéine ont été utilisées comme entrées du modèle. Nos résultats démontrent une nette amélioration par rapport aux méthodes basées sur l'apprentissage automatique (ML) et la perturbation d'énergie libre (FEP+) pour prédire avec précision une gamme d'affinités d'interaction ligand-protéine, ce qui peut être exploité pour accélérer davantage les campagnes de découverte de médicaments contre des cibles thérapeutiques complexes.
L'effacement exact (exact unlearning) a été initialement introduit comme un mécanisme de confidentialité permettant à un utilisateur de retirer ses données des modèles d'apprentissage automatique sur demande. Peu après, des schémas approximatifs ont été proposés pour atténuer les coûts impraticables associés à l'effacement exact. Plus récemment, l'effacement est souvent discuté comme une approche pour supprimer des connaissances inadmissibles, c'est-à-dire des connaissances que le modèle ne devrait pas posséder, telles que des informations protégées par des droits d'auteur non autorisés, inexactes ou malveillantes. L'idée est que si le modèle ne possède pas une certaine capacité malveillante, il ne peut pas être utilisé à des fins malveillantes associées. Dans cet article, nous revisitons le paradigme dans lequel l'effacement est utilisé pour les grands modèles de langage (LLMs) et mettons en évidence une incohérence sous-jacente découlant de l'apprentissage en contexte. L'effacement peut être un mécanisme de contrôle efficace pour la phase d'entraînement, mais il n'empêche pas le modèle d'accomplir un acte inadmissible lors de l'inférence. Nous introduisons un concept de réintroduction (ununlearning), où les connaissances effacées sont réintroduites en contexte, rendant effectivement le modèle capable de se comporter comme s'il connaissait les connaissances oubliées. En conséquence, nous soutenons qu'un filtrage de contenu pour les connaissances inadmissibles sera nécessaire et que même les schémas d'effacement exact ne suffisent pas pour une régulation efficace du contenu. Nous discutons de la faisabilité de la réintroduction pour les LLMs modernes et examinons les implications plus larges.
Les systèmes d'IA de pointe, incluant les grands modèles de langage (LLMs), exercent une influence croissante sur l'épistémologie des utilisateurs humains. Une telle influence peut renforcer les valeurs sociétales dominantes, contribuant potentiellement à l'ancrage de croyances morales erronées et, par conséquent, à la perpétuation à grande échelle de pratiques morales problématiques. Nous introduisons l'alignement progressif comme solution technique pour atténuer ce risque imminent. Les algorithmes d'alignement progressif apprennent à reproduire les mécanismes du progrès moral humain, abordant ainsi la vulnérabilité des méthodes d'alignement existantes face aux angles morts moraux contemporains. Pour stimuler la recherche en alignement progressif, nous présentons ProgressGym, un cadre expérimental permettant d'apprendre les mécanismes du progrès moral à partir de l'histoire, afin de faciliter les progrès futurs dans les décisions morales réelles. En s'appuyant sur 9 siècles de textes historiques et 18 LLMs historiques, ProgressGym permet de codifier les défis d'alignement progressif du monde réel en benchmarks concrets. Plus précisément, nous introduisons trois défis fondamentaux : suivre l'évolution des valeurs (PG-Follow), anticiper de manière proactive le progrès moral (PG-Predict), et réguler la boucle de rétroaction entre les changements de valeurs humains et ceux de l'IA (PG-Coevolve). Les méthodes d'alignement sans dimension temporelle sont inapplicables à ces tâches. En réponse, nous présentons des algorithmes d'apprentissage continu et extrapolatifs comme méthodes de base pour l'alignement progressif, et créons un classement ouvert sollicitant de nouveaux algorithmes et défis. Le cadre et le classement sont disponibles respectivement sur https://github.com/PKU-Alignment/ProgressGym et https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
Suivre plusieurs instructions est une capacité cruciale pour les grands modèles de langage (LLMs). L'évaluation de cette capacité présente des défis significatifs : (i) une cohérence limitée entre les instructions multiples, (ii) un biais positionnel où l'ordre des instructions affecte les performances du modèle, et (iii) un manque de tâches objectivement vérifiables. Pour résoudre ces problèmes, nous introduisons un benchmark conçu pour évaluer les capacités des modèles à suivre plusieurs instructions à travers des tâches de suivi séquentiel d'instructions (SIFo). Dans SIFo, la réussite de plusieurs instructions est vérifiable en examinant uniquement la dernière instruction. Notre benchmark évalue le suivi d'instructions à l'aide de quatre tâches (modification de texte, réponse à des questions, mathématiques et respect de règles de sécurité), chacune évaluant différents aspects du suivi séquentiel d'instructions. Notre évaluation des LLMs populaires, à la fois propriétaires et open-source, montre que les modèles plus récents et plus grands surpassent significativement leurs homologues plus anciens et plus petits sur les tâches SIFo, validant ainsi l'efficacité du benchmark. Tous les modèles éprouvent des difficultés à suivre des séquences d'instructions, révélant un manque important de robustesse des modèles de langage actuels.