Articles de recherche en IA sélectionnés quotidiennement avec traductions
Il est depuis longtemps établi que les modèles prédictifs peuvent être transformés en compresseurs sans perte et vice versa. Par ailleurs, ces dernières années, la communauté de l'apprentissage automatique s'est concentrée sur l'entraînement de modèles (de langage) auto-supervisés de plus en plus grands et puissants. Puisque ces grands modèles de langage présentent des capacités prédictives impressionnantes, ils sont bien placés pour être de puissants compresseurs. Dans ce travail, nous préconisons d'envisager le problème de prédiction à travers le prisme de la compression et évaluons les capacités de compression des grands modèles (fondamentaux). Nous montrons que les grands modèles de langage sont des prédicteurs polyvalents puissants et que la perspective de la compression offre de nouvelles perspectives sur les lois d'échelle, la tokenisation et l'apprentissage en contexte. Par exemple, Chinchilla 70B, bien qu'entraîné principalement sur du texte, compresse les patches d'ImageNet à 43,4 % et les échantillons de LibriSpeech à 16,4 % de leur taille brute, surpassant respectivement des compresseurs spécifiques à un domaine comme PNG (58,5 %) ou FLAC (30,3 %). Enfin, nous montrons que l'équivalence prédiction-compression nous permet d'utiliser n'importe quel compresseur (comme gzip) pour construire un modèle génératif conditionnel.
Dans ce travail, nous présentons une méthode d'apprentissage par renforcement scalable pour l'entraînement de politiques multi-tâches à partir de grands ensembles de données hors ligne, capables d'exploiter à la fois des démonstrations humaines et des données collectées de manière autonome. Notre méthode utilise un Transformer pour fournir une représentation scalable des fonctions Q entraînées via des sauvegardes de différences temporelles hors ligne. Nous appelons donc cette méthode Q-Transformer. En discrétisant chaque dimension d'action et en représentant la valeur Q de chaque dimension d'action sous forme de tokens séparés, nous pouvons appliquer des techniques de modélisation de séquences à haute capacité pour le Q-learning. Nous présentons plusieurs décisions de conception qui permettent d'obtenir de bonnes performances avec l'entraînement RL hors ligne, et montrons que Q-Transformer surpasse les algorithmes RL hors ligne précédents et les techniques d'apprentissage par imitation sur une suite diversifiée de tâches de manipulation robotique en conditions réelles. Le site web du projet et les vidéos sont disponibles à l'adresse suivante : https://q-transformer.github.io
Les grands modèles de langage (LLM) avec des milliards de paramètres ont démontré des performances exceptionnelles sur diverses tâches de traitement du langage naturel. Ce rapport présente OpenBA, un modèle seq2seq bilingue asymétrique open-source de 15 milliards de paramètres, visant à contribuer une variante de LLM à la communauté des modèles open-source orientés vers le chinois. Nous améliorons OpenBA avec des techniques efficaces et efficientes, tout en adoptant une stratégie d'entraînement en trois étapes pour former le modèle à partir de zéro. Notre solution peut également atteindre des performances très compétitives avec seulement 380 milliards de tokens, surpassant LLaMA-70B sur le benchmark BELEBELE, BLOOM-176B sur le benchmark MMLU, et GLM-130B sur le benchmark C-Eval (difficile). Ce rapport fournit les principaux détails pour pré-entraîner un modèle analogue, incluant le traitement des données de pré-entraînement, la collecte de données Bilingual Flan, les observations empiriques qui inspirent la conception de notre architecture de modèle, les objectifs d'entraînement des différentes étapes, et d'autres techniques d'amélioration. Nous avons restructuré notre code pour suivre les principes de conception de la bibliothèque Huggingface Transformers, le rendant plus pratique pour les développeurs, et avons publié des points de contrôle des différentes étapes d'entraînement sur https://huggingface.co/openBA. Plus de détails sur notre projet sont disponibles sur https://github.com/OpenNLG/openBA.git.
Cet article vise à comprendre les impacts de diverses combinaisons de données (par exemple, texte web, Wikipédia, GitHub, livres) sur l'entraînement de grands modèles de langage en utilisant SlimPajama. SlimPajama est un ensemble de données multi-sources rigoureusement dédupliqué, qui a été affiné et encore dédupliqué pour atteindre 627 milliards de tokens à partir du vaste ensemble de données RedPajama de 1,2 trillion de tokens, contribué par Together. Nous avons nommé notre recherche SlimPajama-DC, une analyse empirique conçue pour révéler les caractéristiques fondamentales et les meilleures pratiques associées à l'utilisation de SlimPajama dans l'entraînement de grands modèles de langage. Au cours de notre recherche avec SlimPajama, deux observations cruciales ont émergé : (1) Déduplication globale vs. déduplication locale. Nous analysons et discutons comment les déduplications globale (à travers différentes sources de données) et locale (au sein d'une seule source de données) affectent les performances des modèles entraînés. (2) Proportions d'ensembles de données multi-sources de haute qualité/hautement dédupliqués dans la combinaison. Pour étudier cela, nous construisons six configurations de l'ensemble de données SlimPajama et entraînons chacune d'elles en utilisant le modèle Cerebras-GPT de 1,3 milliard de paramètres avec Alibi et SwiGLU. Notre meilleure configuration surpasse de manière significative le modèle de 1,3 milliard de paramètres entraîné sur RedPajama en utilisant le même nombre de tokens d'entraînement. Tous nos modèles de 1,3 milliard de paramètres sont entraînés sur le cluster Cerebras 16x CS-2 avec un total de 80 PFLOP/s en précision mixte bf16. Nous étendons également nos découvertes (telles que l'augmentation de la diversité des données est cruciale après la déduplication globale) sur un modèle de 7 milliards de paramètres avec un entraînement à grand lot. Nos modèles et les ensembles de données SlimPajama-DC séparés sont disponibles à l'adresse : https://huggingface.co/MBZUAI-LLM et https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Les récents progrès dans la génération audio ont été stimulés par l'évolution des modèles d'apprentissage profond à grande échelle et des ensembles de données étendus. Cependant, la tâche de génération vidéo-vers-audio (V2A) reste un défi, principalement en raison de la relation complexe entre les données visuelles et auditives de haute dimension, ainsi que des difficultés liées à la synchronisation temporelle. Dans cette étude, nous présentons FoleyGen, un système de génération V2A à domaine ouvert basé sur un paradigme de modélisation du langage. FoleyGen utilise un codec audio neuronal prêt à l'emploi pour la conversion bidirectionnelle entre les formes d'onde et les tokens discrets. La génération des tokens audio est facilitée par un modèle Transformer unique, conditionné sur des caractéristiques visuelles extraites par un encodeur visuel. Un problème courant dans la génération V2A est le désalignement entre l'audio généré et les actions visibles dans la vidéo. Pour y remédier, nous explorons trois nouveaux mécanismes d'attention visuelle. Nous entreprenons également une évaluation exhaustive de plusieurs encodeurs visuels, chacun pré-entraîné sur des tâches unimodales ou multimodales. Les résultats expérimentaux sur le jeu de données VGGSound montrent que notre système FoleyGen surpasse les systèmes précédents sur tous les critères objectifs et dans les évaluations humaines.
Nous présentons POP3D, un nouveau cadre de travail permettant de créer un modèle 3D à vue complète de 360° à partir d'une seule image. POP3D résout deux problèmes majeurs qui limitent la reconstruction à vue unique. Premièrement, POP3D offre une généralisation substantielle à des catégories arbitraires, une caractéristique que les méthodes précédentes peinent à atteindre. Deuxièmement, POP3D améliore encore la fidélité et le naturel de la reconstruction, un aspect crucial où les travaux concurrents échouent. Notre approche combine les forces de quatre composants principaux : (1) un prédicteur de profondeur et de normales monoculaires servant à prédire des indices géométriques cruciaux, (2) une méthode de découpage spatial capable de délimiter les parties potentiellement invisibles de l'objet cible, (3) un modèle génératif pré-entraîné sur un large ensemble de données d'images pouvant compléter les régions invisibles de la cible, et (4) une méthode de reconstruction de surface implicite neuronale adaptée à la reconstruction d'objets à l'aide d'images RGB ainsi que d'indices géométriques monoculaires. La combinaison de ces composants permet à POP3D de se généraliser facilement à diverses images en conditions réelles et de générer des reconstructions de pointe, surpassant de manière significative les travaux similaires. Page du projet : http://cg.postech.ac.kr/research/POP3D