Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous décrivons le développement et les capacités de Meltemi 7B, le premier grand modèle de langage ouvert pour la langue grecque. Meltemi 7B possède 7 milliards de paramètres et est entraîné sur un corpus grec de 40 milliards de tokens. Pour le développement de Meltemi 7B, nous avons adapté Mistral en effectuant un pré-entraînement continu sur le corpus grec. Meltemi 7B intègre des informations actualisées jusqu'à septembre 2023. Par ailleurs, nous avons traduit et organisé un corpus d'instructions en grec, qui a été utilisé pour l'ajustement par instruction d'un modèle de conversation, nommé Meltemi 7B Instruct. Une attention particulière a été portée à l'alignement et à l'élimination de contenu toxique pour Meltemi 7B Instruct. Les modèles développés sont évalués sur un large ensemble de corpus d'évaluation collectés, et des exemples de prompts et de réponses sont présentés. Meltemi 7B et Meltemi 7B Instruct sont tous deux disponibles à l'adresse https://huggingface.co/ilsp sous licence Apache 2.0.
Les modèles de langage de grande taille (LLMs) ont révolutionné le domaine du traitement automatique du langage naturel, atteignant des performances sans précédent dans une variété d'applications grâce à l'augmentation de la taille des modèles et de la longueur des séquences. Cependant, l'augmentation associée des coûts de calcul et de mémoire pose des défis importants, notamment dans la gestion des longues séquences en raison de la complexité quadratique du mécanisme d'attention des transformateurs. Cet article se concentre sur le scénario de contexte long, en abordant les inefficacités dans la consommation de mémoire du cache KV lors de l'inférence. Contrairement aux approches existantes qui optimisent la mémoire en fonction de la longueur des séquences, nous révélons que la dimension des canaux du cache KV présente une redondance significative, caractérisée par une distribution de magnitude déséquilibrée et une structure de faible rang dans les poids d'attention. Sur la base de ces observations, nous proposons ThinK, une nouvelle méthode d'élagage du cache KV dépendante des requêtes, conçue pour minimiser la perte des poids d'attention tout en élaguant sélectivement les canaux les moins significatifs. Notre approche non seulement maintient ou améliore la précision du modèle, mais réduit également les coûts de mémoire de plus de 20 % par rapport aux méthodes classiques d'éviction du cache KV. Des évaluations approfondies sur les modèles LLaMA3 et Mistral à travers divers ensembles de données de longues séquences confirment l'efficacité de ThinK, établissant un nouveau précédent pour le déploiement efficace des LLMs sans compromettre les performances. Nous esquissons également le potentiel d'étendre notre méthode à l'élagage du cache de valeurs, démontrant la polyvalence et la large applicabilité de ThinK dans la réduction des surcharges de mémoire et de calcul.
Les méthodologies de pré-entraînement à grande échelle pour les modèles de langage chimique représentent une avancée majeure en chémoinformatique. Ces méthodes excellent dans des tâches telles que la prédiction de propriétés et la génération de molécules en apprenant des représentations contextualisées des tokens d'entrée grâce à l'apprentissage auto-supervisé sur de grands corpus non annotés. Typiquement, cela implique un pré-entraînement sur des données non annotées suivi d'un ajustement fin sur des tâches spécifiques, réduisant ainsi la dépendance aux ensembles de données annotés et élargissant la compréhension des représentations du langage chimique. Cet article présente un grand modèle de fondation chimique de type encodeur-décodeur pré-entraîné sur un ensemble de données soigneusement sélectionné de 91 millions d'échantillons SMILES provenant de PubChem, ce qui équivaut à 4 milliards de tokens moléculaires. Le modèle de fondation proposé prend en charge différentes tâches complexes, y compris la prédiction de propriétés quantiques, et offre une flexibilité avec deux variantes principales (289M et 8×289M). Nos expériences sur plusieurs ensembles de données de référence valident la capacité du modèle proposé à fournir des résultats de pointe pour différentes tâches. Nous fournissons également une évaluation préliminaire de la compositionnalité de l'espace d'embedding comme prérequis pour les tâches de raisonnement. Nous démontrons que l'espace latent produit est séparable par rapport à l'état de l'art avec des capacités d'apprentissage en few-shot.
Alors que les grands modèles de langage (LLM) sont de plus en plus intégrés dans les flux de travail opérationnels (LLM-Ops), il devient urgent de mettre en place des garde-fous efficaces pour garantir des interactions sûres et alignées, y compris la capacité à détecter des contenus potentiellement dangereux ou inappropriés dans différentes langues. Cependant, les classificateurs de contenu adapté au travail existants se concentrent principalement sur les textes en anglais. Pour combler cette lacune dans le contexte de la langue malaisienne, nous présentons un nouveau classificateur de texte adapté au travail, spécialement conçu pour les contenus en malais. En constituant et en annotant un ensemble de données inédit de textes malaisiens couvrant plusieurs catégories de contenu, nous avons entraîné un modèle de classification capable d'identifier les matériaux potentiellement dangereux en utilisant des techniques de traitement du langage naturel de pointe. Ce travail représente une étape importante pour permettre des interactions plus sûres et un filtrage des contenus afin d'atténuer les risques potentiels et d'assurer un déploiement responsable des LLM. Pour maximiser l'accessibilité et encourager des recherches supplémentaires visant à améliorer l'alignement dans les LLM-Ops dans le contexte malaisien, le modèle est rendu public à l'adresse suivante : https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
Nous présentons Diffusion Augmented Agents (DAAG), un nouveau cadre qui exploite des modèles de langage de grande taille, des modèles vision-langage et des modèles de diffusion pour améliorer l'efficacité d'échantillonnage et l'apprentissage par transfert dans l'apprentissage par renforcement pour des agents incarnés. DAAG re-étiquette rétrospectivement les expériences passées de l'agent en utilisant des modèles de diffusion pour transformer des vidéos de manière temporellement et géométriquement cohérente afin de les aligner avec des instructions cibles, grâce à une technique que nous appelons Hindsight Experience Augmentation. Un modèle de langage de grande taille orchestre ce processus de manière autonome sans nécessiter de supervision humaine, ce qui le rend bien adapté aux scénarios d'apprentissage continu. Le cadre réduit la quantité de données étiquetées par récompense nécessaires pour 1) affiner un modèle vision-langage qui agit comme un détecteur de récompense, et 2) entraîner des agents d'apprentissage par renforcement sur de nouvelles tâches. Nous démontrons les gains d'efficacité d'échantillonnage de DAAG dans des environnements robotiques simulés impliquant la manipulation et la navigation. Nos résultats montrent que DAAG améliore l'apprentissage des détecteurs de récompense, le transfert d'expériences passées et l'acquisition de nouvelles tâches - des capacités clés pour développer des agents d'apprentissage continu efficaces. Le matériel supplémentaire et les visualisations sont disponibles sur notre site web https://sites.google.com/view/diffusion-augmented-agents/.
Nous présentons Knesset-DictaBERT, un modèle de langage hébreu de grande taille affiné sur le corpus de la Knesset, qui comprend les débats parlementaires israéliens. Ce modèle s'appuie sur l'architecture DictaBERT et démontre des améliorations significatives dans la compréhension du langage parlementaire selon la tâche de masquage de mots (MLM). Nous fournissons une évaluation détaillée des performances du modèle, montrant des améliorations en termes de perplexité et de précision par rapport au modèle de base DictaBERT.
Cet article présente une approche innovante pour l'extraction d'images qui redéfinit la tâche traditionnelle basée sur la régression en un défi de modélisation générative. Notre méthode exploite les capacités des modèles de diffusion latente, enrichis par des connaissances pré-entraînées étendues, pour régulariser le processus d'extraction. Nous introduisons des innovations architecturales novatrices qui permettent à notre modèle de produire des masques avec une résolution et un niveau de détail supérieurs. La méthode proposée est polyvalente et peut réaliser à la fois une extraction d'images sans guidage et avec guidage, s'adaptant à une variété d'indices supplémentaires. Notre évaluation exhaustive sur trois ensembles de données de référence démontre la performance supérieure de notre approche, tant sur le plan quantitatif que qualitatif. Les résultats reflètent non seulement l'efficacité robuste de notre méthode, mais mettent également en lumière sa capacité à générer des masques visuellement convaincants qui approchent la qualité photoréaliste. La page du projet pour cet article est disponible à l'adresse suivante : https://lightchaserx.github.io/matting-by-generation/
Les méthodes existantes de légendage musical se limitent à générer des descriptions globales concises pour de courts extraits musicaux, ce qui ne permet pas de capturer les caractéristiques musicales fines et les changements temporels dans la musique. Pour pallier ces limitations, nous proposons FUTGA, un modèle doté de capacités de compréhension fine de la musique grâce à un apprentissage basé sur l'augmentation générative avec des compositions temporelles. Nous exploitons des ensembles de données existants de légendes musicales et des modèles de langage de grande taille (LLMs) pour synthétiser des légendes musicales détaillées incluant des descriptions structurelles et des limites temporelles pour des chansons complètes. Enrichi par l'ensemble de données synthétiques proposé, FUTGA est capable d'identifier les changements temporels de la musique aux points de transition clés ainsi que leurs fonctions musicales, tout en générant des descriptions détaillées pour chaque segment musical. Nous introduisons également un ensemble de données de légendes musicales pour des chansons complètes généré par FUTGA, en complément des ensembles de données MusicCaps et Song Describer. Nous évaluons les légendes générées automatiquement sur plusieurs tâches en aval, incluant la génération et la recherche musicale. Les expériences démontrent la qualité des légendes générées et la meilleure performance dans diverses tâches en aval obtenue par notre approche de légendage musical. Notre code et nos ensembles de données sont disponibles à l'adresse suivante : https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
La recherche d'information neuronale a progressé rapidement dans les langues riches en ressources, mais les avancées dans les langues moins dotées comme le japonais ont été freinées par la pénurie de données, entre autres défis. Par conséquent, les modèles multilingues ont dominé la recherche en japonais, malgré leurs inefficacités computationnelles et leur incapacité à capturer les nuances linguistiques. Bien que des modèles monolingues à vecteurs multiples récents comme JaColBERT aient réduit cet écart, ils restent à la traîne par rapport aux méthodes multilingues dans les évaluations à grande échelle. Ce travail aborde les méthodes d'entraînement sous-optimales des systèmes de recherche à vecteurs multiples dans des contextes à faibles ressources, en se concentrant sur le japonais. Nous évaluons et améliorons systématiquement les aspects clés des configurations d'inférence et d'entraînement de JaColBERT, et plus largement, des modèles à vecteurs multiples. Nous améliorons encore les performances grâce à une nouvelle étape de fusion de points de contrôle, démontrant son efficacité pour combiner les avantages du réglage fin avec les capacités de généralisation du point de contrôle original. En nous appuyant sur notre analyse, nous introduisons une nouvelle recette d'entraînement, aboutissant au modèle JaColBERTv2.5. JaColBERTv2.5, avec seulement 110 millions de paramètres et entraîné en moins de 15 heures sur 4 GPU A100, surpasse significativement toutes les méthodes existantes sur tous les benchmarks courants, atteignant un score moyen de 0,754, bien au-dessus du précédent meilleur score de 0,720. Pour soutenir les recherches futures, nous rendons publics nos modèles finaux, les points de contrôle intermédiaires et toutes les données utilisées.
HAL (Hyper Articles en Ligne) est le dépôt national français de publications, utilisé par la plupart des établissements d'enseignement supérieur et des organismes de recherche dans le cadre de leur politique de science ouverte. En tant que bibliothèque numérique, il constitue un riche référentiel de documents académiques, mais son potentiel pour la recherche avancée a été sous-exploité. Nous présentons HALvest, un ensemble de données unique qui comble le fossé entre les réseaux de citations et le texte intégral des articles soumis sur HAL. Nous avons élaboré notre jeu de données en filtrant HAL pour ne retenir que les publications académiques, ce qui a permis d'obtenir environ 700 000 documents, couvrant 34 langues et 13 domaines identifiés, adaptés à l'entraînement de modèles de langage, et générant environ 16,5 milliards de tokens (dont 8 milliards en français et 7 milliards en anglais, les langues les plus représentées). Nous transformons les métadonnées de chaque article en un réseau de citations, produisant ainsi un graphe hétérogène orienté. Ce graphe inclut les auteurs identifiés de manière unique sur HAL, ainsi que tous les articles soumis en libre accès et leurs citations. Nous proposons une base de référence pour l'attribution d'auteurs en utilisant ce jeu de données, implémentons une gamme de modèles de pointe en apprentissage de représentation de graphes pour la prédiction de liens, et discutons de l'utilité de la structure de graphe de connaissances que nous avons générée.