Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le développement rapide des modèles de langage de grande envergure (LLMs) open source a été véritablement remarquable. Cependant, la loi d'échelle décrite dans la littérature précédente présente des conclusions variées, ce qui jette une ombre sur l'évolutivité des LLMs. Nous plongeons dans l'étude des lois d'échelle et présentons nos découvertes distinctives qui facilitent la mise à l'échelle de modèles de grande envergure dans deux configurations open source couramment utilisées, 7B et 67B. Guidés par les lois d'échelle, nous introduisons DeepSeek LLM, un projet dédié à l'avancement des modèles de langage open source avec une perspective à long terme. Pour soutenir la phase de pré-entraînement, nous avons développé un ensemble de données qui comprend actuellement 2 000 milliards de tokens et qui continue de s'étendre. Nous procédons ensuite à un réglage fin supervisé (SFT) et à une optimisation directe des préférences (DPO) sur les modèles de base de DeepSeek LLM, aboutissant à la création des modèles DeepSeek Chat. Nos résultats d'évaluation démontrent que DeepSeek LLM 67B surpasse LLaMA-2 70B sur divers benchmarks, en particulier dans les domaines du code, des mathématiques et du raisonnement. De plus, les évaluations ouvertes révèlent que DeepSeek LLM 67B Chat présente des performances supérieures à celles de GPT-3.5.
Les avancées dans la compréhension des documents visuellement riches (Visually Rich Document Understanding, VrDU) ont permis l'extraction d'informations et le question-réponse sur des documents présentant des mises en page complexes. Deux types d'architectures ont émergé : les modèles basés sur les transformateurs, inspirés des modèles de langage de grande taille (LLMs), et les réseaux de neurones graphiques (Graph Neural Networks). Dans cet article, nous présentons DocGraphLM, un nouveau cadre qui combine des modèles de langage pré-entraînés avec la sémantique des graphes. Pour y parvenir, nous proposons 1) une architecture d'encodeur conjoint pour représenter les documents, et 2) une nouvelle approche de prédiction de liens pour reconstruire les graphes de documents. DocGraphLM prédit à la fois les directions et les distances entre les nœuds en utilisant une fonction de perte conjointe convergente qui priorise la restauration du voisinage et atténue la détection des nœuds distants. Nos expériences sur trois ensembles de données de pointe (SotA) montrent une amélioration constante des tâches d'extraction d'informations (IE) et de question-réponse (QA) grâce à l'adoption des caractéristiques graphiques. De plus, nous constatons que l'utilisation des caractéristiques graphiques accélère la convergence lors du processus d'apprentissage pendant l'entraînement, bien qu'elles soient uniquement construites par prédiction de liens.
Nous explorons un défi nuancé mais significatif inhérent aux Vision Transformers (ViTs) : les cartes de caractéristiques de ces modèles présentent des artefacts en forme de grille, qui nuisent considérablement à la performance des ViTs dans les tâches en aval. Nos investigations retracent ce problème fondamental jusqu'aux embeddings positionnels au stade de l'entrée. Pour y remédier, nous proposons un nouveau modèle de bruit, universellement applicable à tous les ViTs. Plus précisément, le modèle de bruit décompose les sorties des ViTs en trois composantes : un terme sémantique exempt d'artefacts de bruit et deux termes liés aux artefacts, conditionnés par les positions des pixels. Une telle décomposition est réalisée en imposant une cohérence des caractéristiques inter-vues avec des champs neuronaux sur une base par image. Ce processus d'optimisation par image extrait des caractéristiques sans artefacts des sorties brutes des ViTs, fournissant ainsi des caractéristiques propres pour des applications hors ligne. En élargissant la portée de notre solution pour supporter une fonctionnalité en ligne, nous introduisons un débruiteur apprenable pour prédire directement des caractéristiques sans artefacts à partir des sorties non traitées des ViTs, qui montre des capacités de généralisation remarquables sur de nouvelles données sans nécessiter d'optimisation par image. Notre approche en deux étapes, nommée Denoising Vision Transformers (DVT), ne nécessite pas de ré-entraîner les ViTs pré-entraînés existants et est immédiatement applicable à toute architecture basée sur les Transformers. Nous évaluons notre méthode sur une variété de ViTs représentatifs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Des évaluations approfondies démontrent que notre DVT améliore de manière constante et significative les modèles polyvalents de pointe existants dans des tâches sémantiques et géométriques sur plusieurs jeux de données (par exemple, +3,84 mIoU). Nous espérons que notre étude encouragera une réévaluation de la conception des ViTs, en particulier concernant l'utilisation naïve des embeddings positionnels.
Stable Diffusion XL (SDXL) est devenu le meilleur modèle open source de génération d'image à partir de texte (T2I) grâce à sa polyvalence et à sa qualité d'image exceptionnelle. Répondre efficacement aux exigences computationnelles des modèles SDXL est crucial pour élargir leur portée et leur applicabilité. Dans ce travail, nous introduisons deux variantes réduites, Segmind Stable Diffusion (SSD-1B) et Segmind-Vega, avec des UNets de 1,3 milliard et 0,74 milliard de paramètres respectivement, obtenues par suppression progressive en utilisant des pertes au niveau des couches visant à réduire la taille du modèle tout en préservant la qualité générative. Nous publions les poids de ces modèles sur https://hf.co/Segmind. Notre méthodologie implique l'élimination des réseaux résiduels et des blocs de transformateurs de la structure U-Net de SDXL, entraînant des réductions significatives des paramètres et de la latence. Nos modèles compacts imitent efficacement le SDXL original en capitalisant sur les connaissances transférées, obtenant des résultats compétitifs par rapport aux SDXL plus volumineux avec plusieurs milliards de paramètres. Notre travail met en évidence l'efficacité de la distillation de connaissances couplée à des pertes au niveau des couches pour réduire la taille du modèle tout en préservant les capacités génératives de haute qualité de SDXL, facilitant ainsi un déploiement plus accessible dans des environnements à ressources limitées.
Le modèle CLIP et le modèle Segment Anything (SAM) sont des modèles de base vision (VFMs) remarquables. SAM excelle dans les tâches de segmentation à travers divers domaines, tandis que CLIP est reconnu pour ses capacités de reconnaissance en zéro-shot. Cet article présente une exploration approfondie de l'intégration de ces deux modèles dans un cadre unifié. Plus précisément, nous introduisons le modèle Open-Vocabulary SAM, un modèle inspiré de SAM conçu pour la segmentation interactive et la reconnaissance simultanées, en exploitant deux modules uniques de transfert de connaissances : SAM2CLIP et CLIP2SAM. Le premier adapte les connaissances de SAM dans CLIP via la distillation et des adaptateurs de transformateurs apprenables, tandis que le second transfère les connaissances de CLIP dans SAM, améliorant ainsi ses capacités de reconnaissance. Des expériences approfondies sur divers ensembles de données et détecteurs montrent l'efficacité d'Open-Vocabulary SAM dans les tâches de segmentation et de reconnaissance, surpassant significativement les bases de référence naïves consistant simplement à combiner SAM et CLIP. De plus, avec l'aide d'un entraînement sur des données de classification d'images, notre méthode peut segmenter et reconnaître environ 22 000 classes.
Ces dernières années, la génération de parole a connu des progrès remarquables, atteignant désormais une capacité de génération en une seule étape souvent pratiquement indiscernable de la voix humaine réelle. L'intégration de ces avancées dans la génération de parole avec des modèles de langage de grande envergure pourrait révolutionner un large éventail d'applications. Cependant, certaines applications, telles que les systèmes conversationnels d'assistance, nécessitent des outils de génération de parole naturelle et conversationnelle qui fonctionnent également efficacement en temps réel. Les modèles actuels de pointe comme VALL-E et SoundStorm, alimentés par des codecs audio neuronaux hiérarchiques, nécessitent des composants neuronaux volumineux et des données d'entraînement extensives pour bien fonctionner. En revanche, MQTTS vise à construire des modèles de synthèse vocale conversationnelle plus compacts tout en exploitant des données de parole conversationnelle réelle à plus petite échelle. Cependant, sa nature autoregressive entraîne une latence d'inférence élevée, limitant ainsi son utilisation en temps réel. Afin de pallier les limitations actuelles des modèles de synthèse vocale de pointe tout en capitalisant sur leurs forces, nous introduisons dans ce travail la série de modèles Pheme qui 1) propose des modèles compacts mais performants, 2) permet une génération de parole parallèle, 3) produit une parole conversationnelle naturelle, et 4) peut être entraînée efficacement sur des données conversationnelles à plus petite échelle, réduisant les besoins en données de plus de 10 fois tout en égalant la qualité des modèles de synthèse vocale autoregressive. Nous montrons également qu'à travers une simple distillation enseignant-élève, nous pouvons obtenir des améliorations significatives de la qualité vocale pour des configurations à un seul locuteur sur la base de points de contrôle pré-entraînés de Pheme, en s'appuyant uniquement sur de la parole synthétique générée par des modèles enseignants beaucoup plus volumineux. Des échantillons audio et des modèles pré-entraînés sont disponibles en ligne.