papers.description
Nous présentons FinTral, une suite de modèles de langage multimodal de pointe (LLMs) basée sur le modèle Mistral-7b et spécialement conçue pour l'analyse financière. FinTral intègre des données textuelles, numériques, tabulaires et visuelles. Nous enrichissons FinTral par un pré-entraînement spécifique au domaine, un ajustement fin par instruction et un entraînement RLAIF en exploitant une vaste collection de jeux de données textuels et visuels que nous avons soigneusement sélectionnés pour ce travail. Nous introduisons également un benchmark complet comprenant neuf tâches et 25 jeux de données pour l'évaluation, y compris les hallucinations dans le domaine financier. Notre modèle FinTral entraîné avec l'optimisation directe des préférences en utilisant des outils et des méthodes de recherche avancés, baptisé FinTral-DPO-T&R, démontre une performance exceptionnelle en zero-shot. Il surpasse ChatGPT-3.5 dans toutes les tâches et dépasse GPT-4 dans cinq des neuf tâches, marquant une avancée significative dans la technologie financière pilotée par l'IA. Nous montrons également que FinTral a le potentiel d'exceller dans l'analyse en temps réel et la prise de décision dans divers contextes financiers.
La nature est intrinsèquement libre de toute contrainte de résolution. Dans ce contexte, les modèles de diffusion existants, tels que les Transformers de Diffusion, rencontrent souvent des difficultés lorsqu'ils traitent des résolutions d'images en dehors de leur domaine d'entraînement. Pour surmonter cette limitation, nous présentons le Flexible Vision Transformer (FiT), une architecture de transformer spécialement conçue pour générer des images avec des résolutions et des rapports d'aspect non restreints. Contrairement aux méthodes traditionnelles qui perçoivent les images comme des grilles à résolution statique, FiT conceptualise les images comme des séquences de tokens de taille dynamique. Cette perspective permet une stratégie d'entraînement flexible qui s'adapte sans effort à divers rapports d'aspect, tant pendant la phase d'entraînement que d'inférence, favorisant ainsi la généralisation de la résolution et éliminant les biais induits par le recadrage des images. Renforcé par une structure de réseau soigneusement ajustée et l'intégration de techniques d'extrapolation sans entraînement, FiT démontre une flexibilité remarquable dans la génération par extrapolation de résolution. Des expériences approfondies mettent en évidence les performances exceptionnelles de FiT sur une large gamme de résolutions, démontrant son efficacité tant à l'intérieur qu'au-delà de la distribution de résolution de son entraînement. Le dépôt est disponible à l'adresse suivante : https://github.com/whlzy/FiT.
Nous présentons AnyGPT, un modèle de langage multimodal tout-à-tout qui utilise des représentations discrètes pour le traitement unifié de diverses modalités, incluant la parole, le texte, les images et la musique. AnyGPT peut être entraîné de manière stable sans aucune modification de l'architecture actuelle des grands modèles de langage (LLM) ou des paradigmes d'entraînement. Au lieu de cela, il repose exclusivement sur un prétraitement au niveau des données, facilitant l'intégration transparente de nouvelles modalités dans les LLM, similaire à l'incorporation de nouvelles langues. Nous construisons un ensemble de données multimodal centré sur le texte pour le pré-entraînement à l'alignement multimodal. En utilisant des modèles génératifs, nous synthétisons le premier ensemble de données d'instructions multimodal tout-à-tout à grande échelle. Il se compose de 108k échantillons de conversations multi-tours qui entrelacent de manière complexe diverses modalités, permettant ainsi au modèle de gérer des combinaisons arbitraires d'entrées et de sorties multimodales. Les résultats expérimentaux démontrent qu'AnyGPT est capable de faciliter des conversations multimodales tout-à-tout tout en atteignant des performances comparables à celles des modèles spécialisés dans toutes les modalités, prouvant que les représentations discrètes peuvent unifier efficacement et commodément plusieurs modalités au sein d'un modèle de langage. Les démonstrations sont disponibles sur https://junzhan2000.github.io/AnyGPT.github.io/.
Le décodage spéculatif est une technique importante pour accélérer l'inférence d'un grand modèle de langage cible en s'appuyant sur les prédictions d'un modèle auxiliaire de brouillon. Bien qu'efficace, dans des contextes spécifiques à une application, il nécessite souvent un ajustement fin des modèles de brouillon et cible pour atteindre des taux d'acceptation élevés. À mesure que le nombre de tâches en aval augmente, ces modèles de brouillon ajoutent une complexité significative aux systèmes d'inférence. Nous proposons le **Streaming Spéculatif**, une méthode de décodage spéculatif à modèle unique qui intègre la génération de brouillon dans le modèle cible en modifiant l'objectif d'ajustement fin de la prédiction du prochain jeton à la prédiction de n-grammes futurs. Le Streaming Spéculatif accélère le décodage de 1,8 à 3,1 fois dans un ensemble diversifié de tâches, telles que la synthèse, les requêtes structurées et la représentation de sens, sans sacrifier la qualité de la génération. De plus, le Streaming Spéculatif est efficace en termes de paramètres. Il atteint des accélérations comparables ou supérieures aux architectures de style Medusa tout en utilisant environ 10 000 fois moins de paramètres supplémentaires, ce qui le rend bien adapté aux appareils à ressources limitées.
La quantification des modèles utilise des valeurs à faible largeur de bits pour représenter les matrices de poids des modèles, ce qui constitue une approche prometteuse pour réduire à la fois le stockage et les surcharges computationnelles liées au déploiement des LLM très attendus. Cependant, les méthodes de quantification existantes subissent une dégradation sévère des performances lorsque la largeur de bits est extrêmement réduite, et se concentrent donc sur l'utilisation de valeurs 4 bits ou 8 bits pour quantifier les modèles. Cet article quantifie audacieusement les matrices de poids des LLM à 1 bit, ouvrant la voie à un déploiement des LLM avec une largeur de bits extrêmement faible. Pour cet objectif, nous introduisons un framework d'entraînement avec prise en compte de la quantification à 1 bit (QAT) nommé OneBit, incluant une nouvelle méthode de représentation des paramètres à 1 bit pour mieux quantifier les LLM ainsi qu'une méthode efficace d'initialisation des paramètres basée sur la décomposition matricielle pour améliorer la vitesse de convergence du framework QAT. Des résultats expérimentaux suffisants indiquent que OneBit atteint de bonnes performances (au moins 83 % des performances non quantifiées) avec des processus d'entraînement robustes en utilisant uniquement des matrices de poids à 1 bit.
Les grands modèles de langage (LLM) ont démontré un large éventail de capacités, telles que la génération de code robotique à partir de commandes en langage naturel -- permettant à des non-experts de diriger les comportements des robots, de les modifier en fonction de retours d'expérience, ou de les composer pour exécuter de nouvelles tâches. Cependant, ces capacités (propulsées par l'apprentissage en contexte) se limitent à des interactions à court terme, où les retours des utilisateurs restent pertinents uniquement tant qu'ils s'inscrivent dans la taille de contexte du LLM, et peuvent être oubliés lors d'interactions plus longues. Dans ce travail, nous étudions le fine-tuning des LLM générant du code robotique, afin qu'ils mémorisent leurs interactions en contexte et améliorent leur "enseignabilité", c'est-à-dire leur efficacité à s'adapter aux entrées humaines (mesurée par le nombre moyen de corrections avant que l'utilisateur considère la tâche réussie). Notre observation clé est que lorsque les interactions homme-robot sont formulées comme un processus de décision markovien partiellement observable (où les entrées en langage naturel sont des observations, et les sorties de code robotique sont des actions), alors l'entraînement d'un LLM à compléter des interactions précédentes peut être vu comme l'entraînement d'un modèle de dynamique de transition -- qui peut être combiné avec des techniques classiques de robotique telles que le contrôle prédictif par modèle (MPC) pour découvrir des chemins plus courts vers la réussite. Cela donne naissance au Contrôle Prédictif par Modèle de Langage (LMPC), un cadre qui applique le fine-tuning de PaLM 2 pour améliorer son enseignabilité sur 78 tâches réparties sur 5 incarnations de robots -- augmentant les taux de réussite d'enseignement par des non-experts sur des tâches inédites de 26,9% tout en réduisant le nombre moyen de corrections humaines de 2,4 à 1,9. Les expériences montrent que LMPC produit également des méta-apprenants performants, améliorant le taux de réussite de l'apprentissage en contexte pour de nouvelles tâches sur des incarnations de robots et des API inédites de 31,5%. Voir les vidéos, le code et les démos sur : https://robot-teaching.github.io/.
Le succès remarquable des modèles de langage de grande taille (LLMs) et du réglage par instruction propulse l'évolution des modèles vision-langage (VLMs) vers un modèle polyvalent à usage général. Cependant, il reste à explorer si les VLMs actuels possèdent véritablement des capacités de compréhension d'image de qualité au niveau des objets, déterminées par des questions telles que "quels objets sont présents dans l'image ?" ou "quel objet correspond à une boîte englobante spécifiée ?". Nos résultats révèlent que les capacités de compréhension d'image des VLMs actuels sont fortement corrélées à leurs performances en zero-shot sur les tâches vision-langage (VL). Cela suggère que la priorisation de la compréhension de base des images est cruciale pour que les VLMs excellent dans les tâches VL. Pour améliorer la compréhension d'image au niveau des objets, nous proposons Crayon Large Language and Vision mOdel (CoLLaVO), qui intègre le réglage par instruction avec un prompt crayon comme nouveau schéma de réglage de prompt visuel basé sur des cartes de couleurs panoptiques. De plus, nous présentons une stratégie d'apprentissage de Dual QLoRA pour préserver la compréhension d'image au niveau des objets sans l'oublier lors du réglage par instruction visuelle, permettant ainsi un bond significatif dans les benchmarks VL en zero-shot.
La qualité des données de fine-tuning est cruciale pour aligner les grands modèles de langage (LLMs) avec les valeurs humaines. Les méthodes actuelles pour améliorer la qualité des données sont soit laborieuses, soit sujettes à des erreurs factuelles causées par les hallucinations des LLMs. Cet article explore l'amélioration de la qualité des données d'instruction existantes pour mieux les aligner avec les valeurs humaines, en introduisant une approche simple et efficace nommée ReAlign, qui reformate les réponses des données d'instruction dans un format mieux aligné avec des critères préétablis et les preuves recueillies. Cette approche minimise l'annotation humaine, les hallucinations et les difficultés de mise à l'échelle, tout en restant orthogonale aux techniques d'alignement existantes. Expérimentalement, ReAlign améliore significativement la capacité générale d'alignement, le raisonnement mathématique, la factualité et la lisibilité des LLMs. De manière encourageante, sans introduire de données supplémentaires ou de techniques d'entraînement avancées, et simplement en reformatant la réponse, la capacité de raisonnement mathématique de LLaMA-2-13B sur GSM8K peut être améliorée de 46,77 % à 56,63 % en termes de précision. De plus, seulement 5 % des données ReAlign entraînent une augmentation de 67 % de la capacité générale d'alignement mesurée par le jeu de données Alpaca. Ce travail souligne la nécessité de poursuivre les recherches sur la science et l'interprétabilité mécanique des LLMs. Nous avons rendu le code et les données associés accessibles au public pour soutenir les études futures à l'adresse https://github.com/GAIR-NLP/ReAlign.
Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes dans la compréhension du langage et l'exécution de tâches de raisonnement complexes. Cependant, les LLMs avec de longues fenêtres contextuelles sont connus pour leurs coûts d'entraînement élevés et leur latence d'inférence importante. Même les modèles les plus avancés comme GPT-4 et Claude2 commettent souvent des erreurs lors du traitement d'entrées dépassant 100 000 tokens, un phénomène également connu sous le nom de "lost in the middle". Dans cet article, nous proposons LongAgent, une méthode basée sur la collaboration multi-agents, qui permet de mettre à l'échelle des LLMs (par exemple, LLaMA) pour un contexte de 128K et démontre une supériorité potentielle dans le traitement de textes longs par rapport à GPT-4. Dans LongAgent, un leader est responsable de comprendre l'intention de l'utilisateur et de diriger les membres de l'équipe pour acquérir des informations à partir de documents. En raison des hallucinations des membres, il n'est pas trivial pour un leader d'obtenir des informations précises à partir des réponses de dizaines à centaines de membres. Pour résoudre ce problème, nous développons un mécanisme de communication inter-membres pour résoudre les conflits de réponses causés par les hallucinations grâce au partage d'informations. Nos résultats expérimentaux indiquent que LongAgent offre une alternative prometteuse pour le traitement de textes longs. L'équipe d'agents instanciée avec LLaMA-7B réalise des améliorations significatives dans des tâches telles que la recherche de textes de 128k, la réponse à des questions multi-sauts, par rapport à GPT-4.
Les modèles de langage de pointe peuvent démontrer des capacités impressionnantes de raffinement du raisonnement sur des tâches de mathématiques, de sciences ou de programmation. Cependant, des travaux récents montrent que même les meilleurs modèles ont du mal à identifier quand et où raffiner sans accès à un retour externe. Les modèles de récompense basés sur les résultats (ORMs), entraînés à prédire la justesse de la réponse finale pour indiquer quand raffiner, offrent une solution pratique pour décider quand procéder à ce raffinement. Les modèles de récompense basés sur le processus (PRMs), entraînés à prédire la justesse des étapes intermédiaires, peuvent ensuite être utilisés pour indiquer où raffiner. Cependant, leur entraînement est coûteux, nécessitant des annotations humaines approfondies. Dans cet article, nous proposons des ORMs étape par étape (SORMs), qui sont entraînés uniquement sur des données synthétiques, pour approximer la récompense future attendue de la politique optimale ou V^{star}. Plus précisément, les SORMs sont entraînés à prédire la justesse de la réponse finale en échantillonnant la politique actuelle plusieurs fois (plutôt qu'une seule fois comme dans le cas des ORMs). Nos expériences montrent que les SORMs peuvent détecter plus précisément les étapes de raisonnement incorrectes par rapport aux ORMs, améliorant ainsi la précision en aval lors des raffinements. Nous entraînons ensuite des modèles de raffinement globaux, qui prennent uniquement la question et une solution provisoire en entrée pour prédire une solution corrigée, ainsi que des modèles de raffinement locaux qui prennent également en entrée une critique indiquant l'emplacement de la première erreur de raisonnement. Nous générons des données d'entraînement pour ces deux modèles de manière synthétique en réutilisant les données utilisées pour entraîner le SORM. Nous constatons que la combinaison des raffinements globaux et locaux, en utilisant l'ORM comme reclassificateur, surpasse significativement chacun d'eux individuellement, ainsi qu'une base de référence de meilleur échantillon parmi trois. Avec cette stratégie, nous pouvons améliorer la précision d'un modèle LLaMA-2 13B (déjà affiné par apprentissage par renforcement) sur GSM8K de 53\% à 65\% lors d'un échantillonnage glouton.
Bien que les algorithmes de synthèse de vues basés sur les surfaces soient attrayants en raison de leurs faibles exigences computationnelles, ils peinent souvent à reproduire des structures fines. En revanche, des méthodes plus coûteuses qui modélisent la géométrie de la scène sous forme de champ de densité volumétrique (par exemple, NeRF) excellent dans la reconstruction de détails géométriques précis. Cependant, les champs de densité représentent souvent la géométrie de manière "floue", ce qui entrave la localisation exacte de la surface. Dans ce travail, nous modifions les champs de densité pour les encourager à converger vers les surfaces, sans compromettre leur capacité à reconstruire des structures fines. Premièrement, nous utilisons une représentation de grille d'opacité discrète au lieu d'un champ de densité continu, ce qui permet aux valeurs d'opacité de passer de manière discontinue de zéro à un à la surface. Deuxièmement, nous appliquons un anti-crénelage en lançant plusieurs rayons par pixel, ce qui permet de modéliser les limites d'occlusion et les structures sous-pixel sans utiliser de voxels semi-transparents. Troisièmement, nous minimisons l'entropie binaire des valeurs d'opacité, ce qui facilite l'extraction de la géométrie de surface en encourageant les valeurs d'opacité à se binariser vers la fin de l'entraînement. Enfin, nous développons une stratégie de maillage basée sur la fusion, suivie d'une simplification du maillage et d'un ajustement du modèle d'apparence. Les maillages compacts produits par notre modèle peuvent être rendus en temps réel sur des appareils mobiles et atteignent une qualité de synthèse de vue significativement supérieure par rapport aux approches existantes basées sur les maillages.
Cet article présente une nouvelle méthode pour exercer un contrôle précis de l'éclairage lors de la génération d'images basée sur la diffusion pilotée par texte. Bien que les modèles de diffusion existants soient déjà capables de générer des images sous n'importe quelle condition d'éclairage, sans guidage supplémentaire, ces modèles ont tendance à corréler le contenu de l'image et l'éclairage. De plus, les prompts textuels manquent de la puissance expressive nécessaire pour décrire des configurations d'éclairage détaillées. Pour offrir au créateur de contenu un contrôle précis de l'éclairage lors de la génération d'images, nous enrichissons le prompt textuel avec des informations détaillées sur l'éclairage sous forme d'indices de radiance, c'est-à-dire des visualisations de la géométrie de la scène avec un matériau canonique homogène sous l'éclairage cible. Cependant, la géométrie de la scène nécessaire pour produire ces indices de radiance est inconnue. Notre observation clé est que nous n'avons besoin que de guider le processus de diffusion, donc des indices de radiance exacts ne sont pas nécessaires ; il suffit d'orienter le modèle de diffusion dans la bonne direction. Sur la base de cette observation, nous introduisons une méthode en trois étapes pour contrôler l'éclairage lors de la génération d'images. Dans la première étape, nous utilisons un modèle de diffusion pré-entraîné standard pour générer une image provisoire sous un éclairage non contrôlé. Ensuite, dans la deuxième étape, nous resynthétisons et affinons l'objet au premier plan de l'image générée en transmettant l'éclairage cible à un modèle de diffusion raffiné, nommé DiLightNet, en utilisant des indices de radiance calculés sur une forme grossière de l'objet au premier plan déduite de l'image provisoire. Pour préserver les détails de texture, nous multiplions les indices de radiance par un encodage neuronal de l'image synthétisée provisoire avant de les transmettre à DiLightNet. Enfin, dans la troisième étape, nous resynthétisons l'arrière-plan pour qu'il soit cohérent avec l'éclairage de l'objet au premier plan. Nous démontrons et validons notre modèle de diffusion contrôlé par l'éclairage sur une variété de prompts textuels et de conditions d'éclairage.
Malgré les capacités remarquables des modèles vision-langage (VLMs) en tant qu'assistants visuels polyvalents, deux défis majeurs persistent dans les frameworks VLM existants : (1) le manque de diversité des tâches lors du pré-entraînement et du réglage par instructions visuelles, et (2) les erreurs d'annotation et les biais dans les données de réglage par instructions synthétisées par GPT-4. Ces deux défis entraînent des problèmes tels qu'une faible généralisation, des hallucinations et un oubli catastrophique. Pour relever ces défis, nous avons construit Vision-Flan, le jeu de données de réglage par instructions visuelles le plus diversifié disponible publiquement à ce jour, comprenant 187 tâches variées et 1 664 261 instances provenant de jeux de données académiques, chaque tâche étant accompagnée d'une instruction rédigée par un expert. En outre, nous proposons un framework de réglage par instructions en deux étapes, dans lequel les VLMs sont d'abord affinés sur Vision-Flan puis ajustés sur des données synthétisées par GPT-4. Nous constatons que ce framework en deux étapes surpasse significativement le framework traditionnel de réglage par instructions visuelles en une seule étape et atteint des performances de pointe sur un large éventail de benchmarks d'évaluation multimodaux. Enfin, nous menons des analyses approfondies pour comprendre le réglage par instructions visuelles, et nos conclusions révèlent que : (1) les données synthétisées par GPT-4 n'améliorent pas substantiellement les capacités des VLMs mais modulent plutôt les réponses du modèle pour les aligner sur des formats préférés par les humains ; (2) une quantité minimale (par exemple, 1 000) de données synthétisées par GPT-4 peut efficacement aligner les réponses des VLMs avec les préférences humaines ; (3) le réglage par instructions visuelles aide principalement les grands modèles de langage (LLMs) à comprendre les caractéristiques visuelles.
Les modèles auto-régressifs ont obtenu des résultats impressionnants dans la génération d'images 2D en modélisant des distributions conjointes dans l'espace de grille. Dans cet article, nous étendons les modèles auto-régressifs aux domaines 3D et cherchons à renforcer la capacité de génération de formes 3D en améliorant simultanément la capacité et l'évolutivité des modèles auto-régressifs. Tout d'abord, nous exploitons un ensemble de jeux de données 3D publics pour faciliter l'entraînement de modèles à grande échelle. Cet ensemble comprend une collection complète d'environ 900 000 objets, avec plusieurs propriétés telles que des maillages, des points, des voxels, des images rendues et des légendes textuelles. Ce jeu de données étiqueté diversifié, appelé Objaverse-Mix, permet à notre modèle d'apprendre à partir d'une large gamme de variations d'objets. Cependant, l'application directe de l'auto-régression 3D rencontre des défis critiques liés aux exigences computationnelles élevées sur les grilles volumétriques et à l'ordre auto-régressif ambigu le long des dimensions de la grille, ce qui entraîne une qualité inférieure des formes 3D. Pour remédier à cela, nous présentons ensuite un nouveau cadre appelé Argus3D en termes de capacité. Concrètement, notre approche introduit un apprentissage de représentation discrète basé sur un vecteur latent plutôt que sur des grilles volumétriques, ce qui non seulement réduit les coûts computationnels mais préserve également les détails géométriques essentiels en apprenant les distributions conjointes dans un ordre plus gérable. La capacité de génération conditionnelle peut ainsi être réalisée en concaténant simplement diverses entrées de conditionnement au vecteur latent, telles que des nuages de points, des catégories, des images et des textes. De plus, grâce à la simplicité de notre architecture de modèle, nous augmentons naturellement l'échelle de notre approche à un modèle plus grand avec 3,6 milliards de paramètres, améliorant ainsi la qualité de la génération 3D polyvalente. Des expériences approfondies sur quatre tâches de génération démontrent qu'Argus3D peut synthétiser des formes diverses et fidèles à travers plusieurs catégories, atteignant des performances remarquables.