Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Seed-Music, une suite de systèmes de génération musicale capable de produire de la musique de haute qualité avec un contrôle de style finement détaillé. Notre cadre unifié exploite à la fois la modélisation de langage auto-régressive et les approches de diffusion pour prendre en charge deux flux de travail clés de création musicale : la génération de musique contrôlée et l'édition en post-production. Pour la génération de musique contrôlée, notre système permet la génération de musique vocale avec des contrôles de performance à partir d'entrées multimodales, y compris des descriptions de style, des références audio, des partitions musicales et des indications vocales. Pour l'édition en post-production, il offre des outils interactifs pour éditer les paroles et les mélodies vocales directement dans l'audio généré. Nous encourageons les lecteurs à écouter des exemples audio de démonstration sur https://team.doubao.com/seed-music.
Les Transformers constituent la pierre angulaire de l'apprentissage profond moderne. Traditionnellement, ces modèles s'appuient sur des couches de perceptrons multicouches (MLP) pour mélanger les informations entre les canaux. Dans cet article, nous introduisons le Transformateur Kolmogorov-Arnold (KAT), une architecture novatrice qui remplace les couches MLP par des couches de Réseau Kolmogorov-Arnold (KAN) pour améliorer l'expressivité et les performances du modèle. Intégrer des KAN dans les transformers, cependant, n'est pas une tâche facile, surtout à grande échelle. Plus précisément, nous identifions trois défis clés : (C1) Fonction de base. La fonction standard de B-spline utilisée dans les KAN n'est pas optimisée pour le calcul parallèle sur le matériel moderne, ce qui entraîne des vitesses d'inférence plus lentes. (C2) Inefficacité des paramètres et des calculs. Les KAN nécessitent une fonction unique pour chaque paire entrée-sortie, rendant le calcul extrêmement volumineux. (C3) Initialisation des poids. L'initialisation des poids dans les KAN est particulièrement difficile en raison de leurs fonctions d'activation apprenantes, qui sont cruciales pour atteindre la convergence dans les réseaux neuronaux profonds. Pour surmonter les défis mentionnés ci-dessus, nous proposons trois solutions clés : (S1) Base rationnelle. Nous remplaçons les fonctions de B-spline par des fonctions rationnelles pour améliorer la compatibilité avec les GPU modernes. En implémentant cela en CUDA, nous obtenons des calculs plus rapides. (S2) Groupe KAN. Nous partageons les poids d'activation à travers un groupe de neurones pour réduire la charge de calcul sans sacrifier les performances. (S3) Initialisation préservant la variance. Nous initialisons soigneusement les poids d'activation pour garantir que la variance d'activation est maintenue entre les couches. Avec ces conceptions, le KAT s'échelonne efficacement et surpasse facilement les transformers traditionnels basés sur les MLP.
Les grands modèles de langage (LLM) basés sur les transformateurs deviennent de plus en plus importants dans divers domaines. Cependant, la complexité temporelle quadratique de l'opération d'attention pose un défi significatif pour l'extension à des contextes plus longs en raison de la latence d'inférence extrêmement élevée et de la consommation de mémoire GPU pour le stockage en cache des vecteurs clés-valeurs (KV). Cet article propose RetrievalAttention, une approche sans entraînement pour accélérer le calcul de l'attention. Pour exploiter la propriété dynamique et clairsemée de l'attention, RetrievalAttention construit des index de recherche des plus proches voisins approximatifs (ANNS) sur les vecteurs KV en mémoire CPU et récupère les plus pertinents via une recherche vectorielle lors de la génération. En raison de la distribution hors de portée (OOD) entre les vecteurs de requête et les vecteurs clés, les index ANNS prêts à l'emploi doivent encore parcourir O(N) (généralement 30% de toutes les clés) de données pour une récupération précise, ce qui ne permet pas d'exploiter la grande clairvoyance. RetrievalAttention identifie d'abord le défi OOD de l'attention basée sur ANNS, et y répond via un algorithme de recherche vectorielle conscient de l'attention qui peut s'adapter aux requêtes et n'accéder qu'à 1 à 3 % des données, réalisant ainsi une complexité temporelle sous-linéaire. RetrievalAttention réduit considérablement le coût d'inférence des LLM à long contexte avec des exigences de mémoire GPU beaucoup plus faibles tout en maintenant la précision du modèle. En particulier, RetrievalAttention ne nécessite que 16 Go de mémoire GPU pour traiter 128 000 jetons dans des LLM avec 8 milliards de paramètres, capable de générer un jeton en 0,188 seconde sur un seul NVIDIA RTX4090 (24 Go).
Nous présentons jina-embeddings-v3, un nouveau modèle d'incorporation de texte avec 570 millions de paramètres, qui atteint des performances de pointe sur des données multilingues et des tâches de recherche de long contexte, prenant en charge des longueurs de contexte allant jusqu'à 8192 jetons. Le modèle comprend un ensemble d'adaptateurs Low-Rank Adaptation (LoRA) spécifiques à la tâche pour générer des incorporations de haute qualité pour la recherche de requêtes de documents, le regroupement, la classification et la mise en correspondance de texte. De plus, l'Apprentissage de Représentation Matryoshka est intégré dans le processus de formation, permettant une troncature flexible des dimensions d'incorporation sans compromettre les performances. L'évaluation sur le banc d'essai MTEB montre que jina-embeddings-v3 surpasse les dernières incorporations propriétaires d'OpenAI et de Cohere sur les tâches en anglais, tout en obtenant des performances supérieures par rapport à multilingual-e5-large-instruct sur l'ensemble des tâches multilingues.
Les modèles vision-langage ont récemment évolué en systèmes polyvalents capables de performances élevées dans une variété de tâches, telles que la compréhension de documents, la réponse à des questions visuelles et l'ancrage, souvent dans des configurations de zéro-shot. La compréhension des bandes dessinées, domaine complexe et multifacette, a beaucoup à gagner de ces avancées. Les bandes dessinées, en tant que médium, combinent des récits visuels et textuels riches, défiant les modèles d'IA avec des tâches allant de la classification d'images à la détection d'objets, en passant par la segmentation d'instances et une compréhension narrative plus approfondie à travers des cases séquentielles. Cependant, la structure unique des bandes dessinées - caractérisée par des variations créatives de style, d'ordre de lecture et de narration non linéaire - présente un ensemble de défis distincts de ceux des autres domaines vision-langage. Dans cette étude, nous présentons une revue complète de la compréhension des bandes dessinées sous les perspectives des ensembles de données et des tâches. Nos contributions sont cinq : (1) Nous analysons la structure du médium des bandes dessinées, en détaillant ses éléments compositionnels distinctifs ; (2) Nous passons en revue les ensembles de données et les tâches largement utilisés dans la recherche sur les bandes dessinées, en soulignant leur rôle dans l'avancement du domaine ; (3) Nous introduisons le cadre Layer of Comics Understanding (LoCU), une nouvelle taxonomie qui redéfinit les tâches vision-langage dans les bandes dessinées et pose les bases pour les travaux futurs ; (4) Nous fournissons une revue détaillée et une catégorisation des méthodes existantes suivant le cadre LoCU ; (5) Enfin, nous mettons en lumière les défis actuels de la recherche et proposons des orientations pour des explorations futures, notamment dans le contexte des modèles vision-langage appliqués aux bandes dessinées. Cette étude est la première à proposer un cadre orienté vers les tâches pour l'intelligence des bandes dessinées et vise à guider la recherche future en comblant les lacunes critiques en termes de disponibilité des données et de définition des tâches. Un projet associé à cette étude est disponible sur https://github.com/emanuelevivoli/awesome-comics-understanding.
Les grands modèles de langage (LLM) sont devenus indispensables dans de nombreuses applications du monde réel. Malheureusement, le réglage fin de ces modèles à grande échelle, notamment dans des environnements fédérés où la confidentialité des données et l'efficacité de la communication sont critiques, présente des défis importants. Les méthodes existantes ont souvent recours au réglage fin à paramètres efficaces (PEFT) pour atténuer la surcharge de communication, mais cela se fait généralement au détriment de la précision du modèle. Pour remédier à ces limitations, nous proposons l'accordage complet des paramètres à grande échelle pour les LLM (Ferret), le premier méthode du premier ordre avec une aléatoire partagée pour permettre un accordage complet des paramètres des LLM à travers des sources de données décentralisées tout en maintenant une précision de modèle compétitive. Ferret réalise cela à travers trois aspects : (1) il utilise des méthodes du premier ordre largement appliquées pour des mises à jour locales efficaces ; (2) il projette ces mises à jour dans un espace de basse dimension pour réduire considérablement la surcharge de communication ; et (3) il reconstruit les mises à jour locales à partir de cet espace de basse dimension avec une aléatoire partagée pour faciliter une agrégation globale efficace des paramètres complets, assurant une convergence rapide et une performance finale compétitive. Nos analyses théoriques rigoureuses et nos insights ainsi que des expériences approfondies montrent que Ferret améliore significativement la scalabilité des approches existantes d'accordage complet des paramètres fédérés en atteignant une haute efficacité computationnelle, une réduction de la surcharge de communication et une convergence rapide, tout en maintenant une précision de modèle compétitive. Notre implémentation est disponible sur https://github.com/allen4747/Ferret.
Nous présentons le Diagramme de la Pensée (DoT), un cadre qui modélise le raisonnement itératif dans les grands modèles de langage (LLM) comme la construction d'un graphe acyclique dirigé (DAG) au sein d'un seul modèle. Contrairement aux approches traditionnelles qui représentent le raisonnement sous forme de chaînes linéaires ou d'arbres, DoT organise les propositions, les critiques, les raffinements et les vérifications dans une structure DAG cohérente, permettant au modèle d'explorer des voies de raisonnement complexes tout en maintenant une cohérence logique. Chaque nœud dans le diagramme correspond à une proposition qui a été proposée, critiquée, affinée ou vérifiée, permettant au LLM d'améliorer itérativement son raisonnement grâce à des retours en langage naturel. En exploitant la prédiction auto-régressive du prochain jeton avec des jetons spécifiques au rôle, DoT facilite les transitions fluides entre la proposition d'idées et leur évaluation critique, fournissant des retours plus riches que des signaux binaires. De plus, nous formalisons le cadre DoT en utilisant la Théorie des Topos, fournissant une base mathématique qui garantit la cohérence logique et la solidité du processus de raisonnement. Cette approche améliore à la fois les processus d'entraînement et d'inférence au sein d'un seul LLM, éliminant le besoin de plusieurs modèles ou de mécanismes de contrôle externes. DoT offre un cadre conceptuel pour la conception de modèles spécialisés en raisonnement de nouvelle génération, mettant l'accent sur l'efficacité de l'entraînement, les capacités de raisonnement robustes et les fondements théoriques. Le code est disponible sur https://github.com/diagram-of-thought/diagram-of-thought.
Les modèles audio-langage à vocabulaire ouvert, comme CLAP, offrent une approche prometteuse pour la classification audio sans étiquetage (ZSAC) en permettant la classification avec n'importe quel ensemble arbitraire de catégories spécifiées avec des indications en langage naturel. Dans cet article, nous proposons une méthode simple mais efficace pour améliorer le ZSAC avec CLAP. Plus précisément, nous passons de la méthode conventionnelle qui utilise des indications avec des étiquettes de catégories abstraites (par exemple, Son d'un orgue) à des indications qui décrivent les sons en utilisant leurs caractéristiques descriptives inhérentes dans un contexte diversifié (par exemple, Les tons profonds et résonnants de l'orgue remplissaient la cathédrale). Pour y parvenir, nous proposons d'abord ReCLAP, un modèle CLAP entraîné avec des légendes audio réécrites pour une meilleure compréhension des sons dans la nature. Ces légendes réécrites décrivent chaque événement sonore dans la légende originale en utilisant leurs caractéristiques discriminatives uniques. ReCLAP surpasse toutes les références à la fois en recherche audio-texte multimodale et en ZSAC. Ensuite, pour améliorer la classification audio sans étiquetage avec ReCLAP, nous proposons l'augmentation des indications. Contrairement à la méthode traditionnelle qui utilise des indications de modèle pré-écrites, nous générons des indications personnalisées pour chaque étiquette unique dans l'ensemble de données. Ces indications personnalisées décrivent d'abord l'événement sonore dans l'étiquette, puis les utilisent dans des scènes diverses. Notre méthode proposée améliore les performances de ReCLAP en ZSAC de 1 % à 18 % et surpasse toutes les références de 1 % à 55 %.
La Question-Réponse Visuelle (QRV) est devenue un cas d'utilisation clé dans plusieurs applications pour améliorer l'expérience utilisateur, notamment après que les Modèles Vision-Language (MVL) ont obtenu de bons résultats en inférence à zéro-shot. Cependant, évaluer différents MVL pour un besoin d'application en utilisant un cadre standardisé dans des environnements pratiques reste un défi. Cet article présente un cadre complet pour évaluer les MVL adaptés aux tâches de QRV dans des environnements pratiques. Nous présentons un ensemble de données novateur dérivé des référentiels établis de QRV, annoté avec des types de tâches, des domaines d'application et des types de connaissances, trois aspects pratiques clés sur lesquels les tâches peuvent varier. Nous introduisons également GoEval, une métrique d'évaluation multimodale développée en utilisant GPT-4o, atteignant un facteur de corrélation de 56,71% avec les jugements humains. Nos expériences avec dix MVL de pointe révèlent qu'aucun modèle unique n'excelle universellement, ce qui fait de la sélection appropriée une décision de conception clé. Les modèles propriétaires tels que Gemini-1.5-Pro et GPT-4o-mini surpassent généralement les autres, bien que des modèles open-source comme InternVL-2-8B et CogVLM-2-Llama-3-19B démontrent des forces compétitives dans des contextes spécifiques, tout en offrant des avantages supplémentaires. Cette étude guide la sélection des MVL en fonction des besoins spécifiques de la tâche et des contraintes de ressources, et peut également être étendue à d'autres tâches vision-language.
L'apprentissage par renforcement à partir des retours humains (RLHF) est l'une des techniques clés qui aide les grands modèles de langage (LLMs) à suivre les instructions et à fournir des réponses utiles et inoffensives. Alors que des méthodes d'optimisation de politique directe existent, les LLMs de pointe adoptent des méthodes basées sur le RL (généralement PPO) dans le cadre du RLHF pour entraîner la politique à générer de bonnes réponses guidées par un modèle de récompense appris à partir de données de préférence. Le principal défi de ces méthodes est l'inexactitude du modèle de récompense intermédiaire, en particulier dans les tâches de génération de code qui nécessitent un raisonnement long et complexe pour évaluer une réponse. Nous constatons que la fiabilité du modèle de récompense varie selon les réponses attribuées à des récompenses différentes. Cela nous pousse à filtrer les échantillons dont les récompenses peuvent être peu fiables pour améliorer le rapport signal/bruit pendant l'apprentissage de la politique, ce qui donne lieu à la Filtration de Politique pour l'Optimisation de Politique Proximale (PF-PPO). Pour choisir une stratégie de filtration de politique appropriée pour un modèle de récompense donné, le coefficient de détermination (R^2) entre les récompenses et les scores réels sur les échantillons filtrés sert de bon indicateur et nous aide à trouver plusieurs stratégies prometteuses. Nous menons des expériences approfondies pour valider l'efficacité du PF-PPO dans les tâches de génération de code, et constatons que certaines variantes du PF-PPO sont très efficaces et atteignent de nouvelles performances de pointe sur des modèles de 7 milliards de paramètres sur HumanEval, MBPP, et un nouveau banc d'essai LeetCode Contest plus difficile.
Notre travail examine l'efficacité de l'utilisation de méthodes avancées d'apprentissage automatique pour résoudre les captchas du système reCAPTCHAv2 de Google. Nous évaluons l'efficacité des systèmes automatisés dans la résolution des captchas en utilisant des modèles YOLO avancés pour la segmentation et la classification d'images. Notre principal résultat est que nous pouvons résoudre 100% des captchas, tandis que les travaux précédents n'ont résolu que 68 à 71%. De plus, nos résultats suggèrent qu'il n'y a pas de différence significative dans le nombre de défis que les humains et les robots doivent relever pour passer les captchas dans reCAPTCHAv2. Cela implique que les technologies actuelles en IA peuvent exploiter les captchas avancés basés sur l'image. Nous examinons également les coulisses de reCAPTCHAv2 et trouvons des preuves que reCAPTCHAv2 repose fortement sur les données de cookies et d'historique de navigation lors de l'évaluation de la nature humaine ou non d'un utilisateur. Le code est fourni avec cet article.
Des études récentes ont identifié que les modèles de langage, pré-entraînés sur des ensembles de données textuelles uniquement, manquent souvent de connaissances visuelles élémentaires, par exemple les couleurs des objets du quotidien. Motivés par cette observation, nous nous demandons si une lacune similaire existe en termes de connaissances auditives. Pour répondre à cette question, nous avons construit un nouvel ensemble de données appelé AuditoryBench, qui se compose de deux tâches novatrices pour évaluer les connaissances auditives. Sur la base de notre analyse utilisant ce banc d'essai, nous constatons que les modèles de langage souffrent également d'un manque important de connaissances auditives. Pour remédier à cette limitation, nous proposons AudioBERT, une nouvelle méthode pour augmenter les connaissances auditives de BERT grâce à une approche basée sur la récupération. Tout d'abord, nous détectons des segments de connaissances auditives dans les requêtes pour interroger efficacement notre modèle de récupération. Ensuite, nous injectons des connaissances auditives dans BERT et activons une adaptation de rang faible pour une adaptation efficace lorsque des connaissances auditives sont requises. Nos expériences démontrent qu'AudioBERT est très efficace, atteignant des performances supérieures sur l'AuditoryBench. L'ensemble de données et le code sont disponibles sur https://github.com/HJ-Ok/AudioBERT.
L'imagerie radiographique du thorax (CXR) est un outil diagnostique important utilisé dans les hôpitaux pour évaluer l'état des patients et surveiller les évolutions au fil du temps. Les modèles génératifs, en particulier les modèles basés sur la diffusion, ont montré des promesses dans la génération de radiographies synthétiques réalistes. Cependant, ces modèles se concentrent principalement sur la génération conditionnelle en utilisant des données ponctuelles, c'est-à-dire généralement des CXR pris à un moment spécifique avec leurs rapports correspondants, limitant leur utilité clinique, en particulier pour capturer les changements temporels. Pour pallier cette limitation, nous proposons un nouveau cadre, EHRXDiff, qui prédit les images CXR futures en intégrant les CXR précédents avec les événements médicaux ultérieurs, tels que les prescriptions, les mesures de laboratoire, etc. Notre cadre suit et prédit dynamiquement la progression de la maladie en se basant sur un modèle de diffusion latent, conditionné à l'image CXR précédente et à un historique d'événements médicaux. Nous évaluons de manière exhaustive les performances de notre cadre selon trois aspects clés, notamment la cohérence clinique, la cohérence démographique et le réalisme visuel. Nous démontrons que notre cadre génère des images futures de haute qualité et réalistes qui capturent les changements temporels potentiels, suggérant son potentiel pour un développement ultérieur en tant qu'outil de simulation clinique. Cela pourrait offrir des perspectives précieuses pour la surveillance des patients et la planification des traitements dans le domaine médical.
Les systèmes de recommandation utilisent souvent des informations textuelles pour améliorer leurs prédictions, notamment dans des scénarios de recommandation à démarrage à froid ou à zéro-shot, où les approches traditionnelles de filtrage collaboratif ne peuvent pas être utilisées. De nombreuses approches pour l'extraction d'informations textuelles pour les systèmes de recommandation ont été proposées ces dernières années, les Transformateurs de phrases étant les plus remarquables. Cependant, ces modèles sont entraînés à prédire la similarité sémantique sans utiliser les données d'interaction avec des motifs cachés spécifiques aux systèmes de recommandation. Dans cet article, nous proposons beeFormer, un cadre pour entraîner des modèles de Transformateurs de phrases avec des données d'interaction. Nous démontrons que nos modèles entraînés avec beeFormer peuvent transférer des connaissances entre les ensembles de données tout en surpassant non seulement les Transformateurs de phrases pour la similarité sémantique, mais aussi les méthodes traditionnelles de filtrage collaboratif. Nous montrons également que l'entraînement sur plusieurs ensembles de données de domaines différents permet d'accumuler des connaissances dans un seul modèle, ouvrant la possibilité d'entraîner des modèles universels de Transformateurs de phrases, agnostiques au domaine, pour extraire des représentations textuelles pour les systèmes de recommandation. Nous mettons à disposition le code source, les modèles entraînés et des détails supplémentaires permettant de reproduire nos expériences sur https://github.com/recombee/beeformer.
La conversion graphème-phonème (G2P) est cruciale dans le traitement de la parole, en particulier pour des applications telles que la synthèse vocale. Les systèmes G2P doivent posséder une compréhension linguistique et une conscience contextuelle des langues avec des mots polyphoniques et des phonèmes dépendant du contexte. Les grands modèles de langage (LLM) ont récemment démontré un potentiel significatif dans diverses tâches linguistiques, suggérant que leurs connaissances phonétiques pourraient être exploitées pour le G2P. Dans cet article, nous évaluons les performances des LLM dans la conversion G2P et introduisons des méthodes de sollicitation et de post-traitement qui améliorent les sorties des LLM sans formation supplémentaire ni données étiquetées. Nous présentons également un ensemble de données de référence conçu pour évaluer les performances G2P sur des défis phonétiques au niveau des phrases de la langue persane. Nos résultats montrent qu'en appliquant les méthodes proposées, les LLM peuvent surpasser les outils G2P traditionnels, même dans une langue sous-représentée comme le persan, mettant en évidence le potentiel de développement de systèmes G2P assistés par LLM.