Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons DeepSeek-Prover-V1.5, un modèle de langage open-source conçu pour la démonstration de théorèmes dans Lean 4, qui améliore DeepSeek-Prover-V1 en optimisant à la fois les processus d'entraînement et d'inférence. Pré-entraîné sur DeepSeekMath-Base avec une spécialisation dans les langages mathématiques formels, le modèle subit un fine-tuning supervisé en utilisant un ensemble de données amélioré pour la démonstration formelle de théorèmes, dérivé de DeepSeek-Prover-V1. Un raffinement supplémentaire est obtenu grâce à l'apprentissage par renforcement basé sur les retours d'un assistant de preuve (RLPAF). Au-delà de l'approche de génération de preuves en une seule passe de DeepSeek-Prover-V1, nous proposons RMaxTS, une variante de la recherche arborescente Monte-Carlo qui utilise une stratégie d'exploitation guidée par des récompenses intrinsèques pour générer des chemins de preuve diversifiés. DeepSeek-Prover-V1.5 démontre des améliorations significatives par rapport à DeepSeek-Prover-V1, atteignant de nouveaux résultats de pointe sur l'ensemble de test du benchmark miniF2F de niveau lycée (63,5%) et du benchmark ProofNet de niveau universitaire (25,3%).
Les modèles de langage de grande taille (LLMs) ont réalisé des avancées significatives. Cependant, le paradigme d'apprentissage courant traite les LLMs comme des dépôts d'informations passifs, négligeant leur potentiel pour l'apprentissage actif et l'alignement. Certaines approches entraînent les LLMs en utilisant leurs propres données synthétiques générées, explorant ainsi la possibilité d'un alignement actif. Néanmoins, il existe encore un énorme fossé entre ces méthodes d'alignement ponctuelles et l'alignement automatique continu des humains. Dans cet article, nous présentons I-SHEEP, un paradigme itératif d'auto-amélioration. Ce paradigme, inspiré du comportement humain, permet aux LLMs de s'auto-aligner continuellement à partir de rien. Comparé à la méthode d'alignement ponctuelle Dromedary (sun2023principledriven), qui correspond à la première itération dans cet article, I-SHEEP peut considérablement améliorer les capacités des modèles Qwen et Llama. I-SHEEP atteint une amélioration relative maximale de 78,2 % dans Alpaca Eval, 24,0 % dans MT Bench, et une augmentation absolue de 8,88 % dans la précision de IFEval sur les itérations suivantes du modèle Qwen-1.5 72B. De plus, I-SHEEP surpasse le modèle de base dans diverses tâches de génération de benchmarks standards, obtenant une amélioration moyenne de 24,77 % dans les tâches de génération de code, 12,04 % dans TrivialQA, et 20,29 % dans SQuAD. Nous fournissons également de nouvelles perspectives basées sur les résultats expérimentaux. Nos codes, ensembles de données et modèles sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/I-SHEEP.
L'entraînement d'un réseau de neurones est une entreprise monolithique, comparable à graver la connaissance dans la pierre : une fois le processus terminé, modifier cette connaissance dans le réseau est quasiment impossible, car toutes les informations sont distribuées à travers les poids du réseau. Nous explorons ici une alternative simple et convaincante en combinant la puissance de représentation des réseaux de neurones profonds avec la flexibilité d'une base de données. En décomposant la tâche de classification d'images en similarité d'images (via un plongement pré-entraîné) et en recherche (via une récupération rapide des plus proches voisins dans une base de connaissances), nous construisons une mémoire visuelle simple et flexible dotée des capacités clés suivantes : (1.) La capacité d'ajouter des données de manière flexible à différentes échelles : des échantillons individuels jusqu'à des classes entières et des données à l'échelle du milliard ; (2.) La capacité de supprimer des données via le désapprentissage et l'élagage de la mémoire ; (3.) Un mécanisme de décision interprétable sur lequel nous pouvons intervenir pour contrôler son comportement. Ensemble, ces capacités démontrent de manière exhaustive les avantages d'une mémoire visuelle explicite. Nous espérons que cela pourra contribuer à une réflexion sur la manière dont la connaissance devrait être représentée dans les modèles de vision profonde — au-delà de la graver dans des poids « de pierre ».
La distillation ou condensation de jeux de données vise à condenser un ensemble d'entraînement à grande échelle en un ensemble synthétique beaucoup plus petit, de sorte que les performances d'entraînement des ensembles distillés et originaux sur les réseaux de neurones soient similaires. Bien que le nombre d'échantillons d'entraînement puisse être considérablement réduit, les méthodes actuelles de pointe reposent fortement sur d'énormes étiquettes douces pour obtenir des performances satisfaisantes. Par conséquent, le stockage requis peut être comparable à celui des jeux de données originaux, en particulier pour les ensembles à grande échelle. Pour résoudre ce problème, au lieu de stocker ces étiquettes lourdes, nous proposons un nouveau cadre d'allègement des étiquettes appelé HeLlO, visant à créer des projecteurs image-étiquette efficaces, avec lesquels les étiquettes synthétiques peuvent être générées directement en ligne à partir d'images synthétiques. Plus précisément, pour construire de tels projecteurs, nous exploitons les connaissances préalables des modèles de base open-source, par exemple CLIP, et introduisons une stratégie de fine-tuning de type LoRA pour réduire l'écart entre les distributions pré-entraînées et cibles, afin que les modèles originaux pour la génération d'étiquettes douces puissent être distillés en un groupe de matrices de faible rang. De plus, une méthode d'optimisation d'image efficace est proposée pour atténuer davantage l'erreur potentielle entre les générateurs d'étiquettes originaux et distillés. Des expériences approfondies démontrent qu'avec seulement environ 0,003 % du stockage original requis pour un ensemble complet d'étiquettes douces, nous obtenons des performances comparables aux méthodes actuelles de pointe en matière de distillation de jeux de données sur des ensembles à grande échelle. Notre code sera disponible.
La synthèse de vidéos riches en mouvements et temporellement cohérentes reste un défi en intelligence artificielle, en particulier lorsqu'il s'agit de durées prolongées. Les modèles existants de texte-à-vidéo (T2V) utilisent couramment une attention croisée spatiale pour le contrôle textuel, guidant de manière équivalente la génération de différentes images sans guidage textuel spécifique à chaque image. Ainsi, la capacité du modèle à comprendre la logique temporelle véhiculée dans les prompts et à générer des vidéos avec des mouvements cohérents est limitée. Pour surmonter cette limitation, nous introduisons FancyVideo, un générateur de vidéos innovant qui améliore le mécanisme de contrôle textuel existant avec le module de guidage textuel inter-images bien conçu (CTGM). Plus précisément, le CTGM intègre l'injecteur d'informations temporelles (TII), le raffineur d'affinité temporelle (TAR) et le booster de caractéristiques temporelles (TFB) respectivement au début, au milieu et à la fin de l'attention croisée, pour obtenir un guidage textuel spécifique à chaque image. Tout d'abord, le TII injecte des informations spécifiques à chaque image à partir des caractéristiques latentes dans les conditions textuelles, obtenant ainsi des conditions textuelles inter-images. Ensuite, le TAR affine la matrice de corrélation entre les conditions textuelles inter-images et les caractéristiques latentes le long de la dimension temporelle. Enfin, le TFB renforce la cohérence temporelle des caractéristiques latentes. Des expériences approfondies comprenant des évaluations quantitatives et qualitatives démontrent l'efficacité de FancyVideo. Notre approche atteint des résultats de génération T2V de pointe sur le benchmark EvalCrafter et facilite la synthèse de vidéos dynamiques et cohérentes. Les résultats vidéo sont disponibles à l'adresse https://fancyvideo.github.io/, et nous rendrons notre code et les poids du modèle publics.
Alors que de nombreuses capacités des modèles de langage (LMs) s'améliorent avec l'augmentation du budget d'entraînement, l'influence de l'échelle sur les hallucinations n'est pas encore pleinement comprise. Les hallucinations se présentent sous de nombreuses formes, et il n'existe pas de définition universellement acceptée. Nous nous concentrons donc sur l'étude des hallucinations où une réponse correcte apparaît textuellement dans l'ensemble d'entraînement. Pour contrôler entièrement le contenu des données d'entraînement, nous construisons un ensemble de données basé sur un graphe de connaissances (KG), et l'utilisons pour entraîner une série de LMs de taille croissante. Nous constatons que, pour un ensemble de données fixe, les LMs plus grands et entraînés plus longtemps hallucinent moins. Cependant, halluciner sur ≤5 % des données d'entraînement nécessite un modèle d'un ordre de grandeur plus grand, et donc un ordre de grandeur plus de calcul, que ce que Hoffmann et al. (2022) ont rapporté comme étant optimal. Compte tenu de ce coût élevé, nous étudions comment les détecteurs d'hallucinations dépendent de l'échelle. Bien que nous observions que la taille du détecteur améliore les performances sur les sorties d'un LM fixe, nous trouvons une relation inverse entre l'échelle du LM et la détectabilité de ses hallucinations.
Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cela engendre des coûts substantiels et peut entraîner une redondance dans les compétences. La fusion de connaissances vise à intégrer des LLM existants de diverses architectures et capacités en un LLM plus puissant grâce à un entraînement continu léger, réduisant ainsi la nécessité d'un développement coûteux de LLM. Dans ce travail, nous proposons un nouveau cadre pour la fusion de connaissances de LLM conversationnels à travers deux étapes principales, aboutissant à FuseChat. Premièrement, nous effectuons une fusion de connaissances par paire sur des LLM conversationnels sources de structures et d'échelles variées pour créer plusieurs LLM cibles avec une structure et une taille identiques via un ajustement fin léger. Durant ce processus, une approche d'alignement de tokens basée sur des statistiques est introduite comme pierre angulaire pour fusionner des LLM de structures différentes. Deuxièmement, nous fusionnons ces LLM cibles dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les coefficients de fusion basée sur l'amplitude des mises à jour des paramètres avant et après l'ajustement fin. Nous implémentons et validons FuseChat en utilisant six LLM conversationnels de premier plan avec des architectures et des échelles diverses, incluant OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, et Qwen-1.5-Chat-72B. Les résultats expérimentaux sur deux benchmarks de suivi d'instructions, AlpacaEval 2.0 et MT-Bench, démontrent la supériorité de FuseChat-7B par rapport aux modèles de référence de différentes tailles. Notre modèle est même comparable au plus grand Mixtral-8x7B-Instruct et approche GPT-3.5-Turbo-1106 sur MT-Bench. Notre code, les poids du modèle et les données sont publics à l'adresse https://github.com/fanqiwan/FuseAI.
Le cadre du Mixture of Experts (MoE) est devenu une architecture populaire pour les grands modèles de langage en raison de ses performances supérieures par rapport aux modèles denses. Cependant, l'entraînement des MoE à partir de zéro à grande échelle est prohibitivement coûteux. Les méthodes existantes atténuent ce problème en pré-entraînant plusieurs modèles denses experts de manière indépendante et en les utilisant pour initialiser un MoE. Cela se fait en utilisant le réseau feed-forward (FFN) des experts pour initialiser les experts du MoE tout en fusionnant les autres paramètres. Cependant, cette méthode limite la réutilisation des paramètres des modèles denses aux seules couches FFN, restreignant ainsi les avantages lors de la "revalorisation" de ces modèles en MoE. Nous proposons BAM (Branch-Attend-Mix), une méthode simple mais efficace qui remédie à cette lacune. BAM tire pleinement parti des modèles denses spécialisés en utilisant non seulement leur FFN pour initialiser les couches du MoE, mais en exploitant également pleinement les paramètres d'attention des experts en les initialisant dans une variante douce des couches Mixture of Attention (MoA). Nous explorons deux méthodes pour revaloriser les paramètres d'attention : 1) initialiser des experts d'attention séparés à partir de modèles denses en incluant tous les paramètres d'attention pour une performance optimale du modèle ; et 2) partager les paramètres de clé et de valeur entre tous les experts pour favoriser une meilleure efficacité lors de l'inférence. Pour améliorer encore l'efficacité, nous adoptons une architecture de transformateur à attention parallèle pour les MoE, ce qui permet aux experts d'attention et aux experts FFN d'être calculés simultanément. Nos expériences sur des modèles de départ allant de 590 millions à 2 milliards de paramètres démontrent que BAM surpasse les méthodes de référence à la fois en termes de perplexité et de performance sur les tâches en aval, dans les mêmes contraintes de calcul et de données.
Les conversations entre humains et modèles offrent un aperçu des scénarios réels des utilisateurs, de leurs comportements et de leurs besoins, constituant ainsi une ressource précieuse pour le développement et la recherche sur les modèles. Alors que les entreprises à but lucratif collectent des données utilisateurs via les API de leurs modèles, les utilisant en interne pour améliorer leurs propres modèles, la communauté open source et de recherche est à la traîne. Nous présentons la collection ShareLM, un ensemble unifié de conversations humaines avec des grands modèles de langage, ainsi que son plugin d'accompagnement, une extension Web permettant de contribuer volontairement des conversations utilisateur-modèle. Alors que peu de plateformes partagent leurs discussions, le plugin ShareLM ajoute cette fonctionnalité, permettant ainsi aux utilisateurs de partager des conversations provenant de la plupart des plateformes. Le plugin permet à l'utilisateur d'évaluer ses conversations, à la fois au niveau de la conversation et des réponses, et de supprimer les conversations qu'il préfère garder privées avant qu'elles ne quittent le stockage local de l'utilisateur. Nous publions les conversations du plugin dans le cadre de la collection ShareLM, et appelons à un effort communautaire accru dans le domaine des données ouvertes humain-modèle. Le code, le plugin et les données sont disponibles.
Cet article présente PeriodWave-Turbo, un modèle de génération de formes d'ondes à haute fidélité et haute efficacité, optimisé par appariement de flux adversarial. Récemment, les modèles génératifs basés sur l'appariement de flux conditionnel (CFM) ont été adoptés avec succès pour des tâches de génération de formes d'ondes, en exploitant un objectif unique d'estimation de champ vectoriel pour l'entraînement. Bien que ces modèles puissent générer des signaux de forme d'onde à haute fidélité, ils nécessitent un nombre significativement plus élevé d'étapes d'équations différentielles ordinaires (ODE) par rapport aux modèles basés sur les GAN, qui ne nécessitent qu'une seule étape de génération. De plus, les échantillons générés manquent souvent d'informations à haute fréquence en raison d'une estimation bruyante du champ vectoriel, ce qui ne garantit pas une reproduction fidèle des hautes fréquences. Pour pallier cette limitation, nous améliorons les modèles génératifs pré-entraînés basés sur CFM en incorporant une modification du générateur à pas fixe. Nous avons utilisé des pertes de reconstruction et un retour adversarial pour accélérer la génération de formes d'ondes à haute fidélité. Grâce à l'optimisation par appariement de flux adversarial, seulement 1 000 étapes de réglage fin sont nécessaires pour atteindre des performances de pointe sur diverses métriques objectives. De plus, nous réduisons significativement la vitesse d'inférence, passant de 16 étapes à 2 ou 4 étapes. En augmentant également la taille du modèle de base de PeriodWave de 29 millions à 70 millions de paramètres pour améliorer la généralisation, PeriodWave-Turbo atteint des performances sans précédent, avec un score d'évaluation perceptuelle de la qualité de la parole (PESQ) de 4,454 sur le jeu de données LibriTTS. Les échantillons audio, le code source et les points de contrôle seront disponibles à l'adresse https://github.com/sh-lee-prml/PeriodWave.
La synthèse de nouvelles vues (Novel View Synthesis, NVS) et la génération 3D ont récemment enregistré des améliorations notables. Cependant, ces travaux se concentrent principalement sur des catégories restreintes ou des actifs 3D synthétiques, ce qui limite leur capacité à généraliser à des scènes complexes en conditions réelles et à être directement intégrés à la synthèse 2D. De plus, ces méthodes dépendent fortement des poses de caméra, ce qui restreint leurs applications pratiques. Pour surmonter ces limitations, nous proposons MVInpainter, qui reformule l'édition 3D comme une tâche d'inpainting 2D multi-vues. Concrètement, MVInpainter effectue un inpainting partiel d'images multi-vues en s'appuyant sur des références plutôt que de générer entièrement une nouvelle vue à partir de zéro, ce qui simplifie grandement la complexité de la NVS en conditions réelles et exploite des indices non masqués au lieu de conditions de pose explicites. Pour garantir la cohérence inter-vues, MVInpainter est renforcé par des préalables vidéo issus de composantes de mouvement et des guides d'apparence basés sur l'attention concaténée des clés et valeurs de référence. Par ailleurs, MVInpainter intègre une attention par slots pour agréger des caractéristiques de flux optique de haut niveau à partir des régions non masquées, permettant ainsi de contrôler le mouvement de la caméra sans nécessiter de pose lors de l'entraînement et de l'inférence. Des expériences approfondies au niveau des scènes, sur des ensembles de données centrés sur les objets et orientés vers l'avant, confirment l'efficacité de MVInpainter pour diverses tâches, telles que la suppression, la synthèse, l'insertion et le remplacement d'objets multi-vues. La page du projet est disponible à l'adresse suivante : https://ewrfcas.github.io/MVInpainter/.
Évaluer les capacités des grands modèles de langage (LLMs) est souvent un défi, en partie parce qu'il est difficile de trouver des tâches auxquelles ils n'ont pas été exposés pendant leur entraînement. Nous abordons ce défi en nous concentrant sur une nouvelle tâche : les programmes graphiques symboliques, une représentation populaire du contenu graphique qui génère des données visuelles de manière procédurale. Les LLMs ont montré un potentiel prometteur pour la synthèse de programmes, mais comprennent-ils les programmes graphiques symboliques ? Contrairement aux programmes conventionnels, les programmes graphiques symboliques peuvent être traduits en contenu graphique. Ici, nous caractérisons la compréhension d'un LLM des programmes symboliques en termes de sa capacité à répondre à des questions liées au contenu graphique. Cette tâche est difficile car les questions sont complexes à répondre à partir des seuls programmes symboliques — pourtant, elles seraient faciles à répondre à partir du contenu graphique correspondant, comme nous le vérifions via une expérience humaine. Pour comprendre les programmes symboliques, les LLMs pourraient avoir besoin de la capacité à imaginer à quoi ressemblerait le contenu graphique correspondant sans accéder directement au rendu visuel. Nous utilisons cette tâche pour évaluer les LLMs en créant un vaste benchmark pour la compréhension sémantique des programmes graphiques symboliques. Ce benchmark est construit via la correspondance programme-graphique, nécessitant ainsi un effort humain minimal. Nous évaluons les LLMs actuels sur notre benchmark pour obtenir une évaluation préliminaire de leur capacité à raisonner sur des scènes visuelles à partir de programmes. Nous constatons que cette tâche distingue les LLMs existants et que les modèles considérés comme bons en raisonnement performent mieux. Enfin, nous introduisons le Symbolic Instruction Tuning (SIT) pour améliorer cette capacité. Concrètement, nous interrogeons GPT-4 avec des questions et des images générées par des programmes symboliques. Ces données sont ensuite utilisées pour affiner un LLM. Nous constatons également que les données SIT peuvent améliorer la capacité générale des LLMs à suivre des instructions.