Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que la prédiction du jeton suivant est considérée comme une voie prometteuse vers l'intelligence artificielle générale, elle a du mal à exceller dans les tâches multimodales, qui sont encore dominées par des modèles de diffusion (par exemple, Diffusion Stable) et des approches compositionnelles (par exemple, CLIP combiné avec des LLM). Dans cet article, nous présentons Emu3, une nouvelle suite de modèles multimodaux de pointe entraînés uniquement avec la prédiction du jeton suivant. En tokenisant les images, le texte et les vidéos dans un espace discret, nous entraînons un seul transformateur à partir de zéro sur un mélange de séquences multimodales. Emu3 surpasse plusieurs modèles spécifiques à des tâches bien établis à la fois dans la génération et la perception, dépassant des modèles phares tels que SDXL et LLaVA-1.6, tout en éliminant le besoin de architectures de diffusion ou compositionnelles. Emu3 est également capable de générer des vidéos haute fidélité en prédisant le jeton suivant dans une séquence vidéo. Nous simplifions les conceptions de modèles multimodaux complexes en nous concentrant sur un seul objectif : les jetons, débloquant un grand potentiel pour l'extension à la fois pendant l'entraînement et l'inférence. Nos résultats démontrent que la prédiction du jeton suivant est une voie prometteuse pour construire une intelligence multimodale générale au-delà du langage. Nous mettons en open source des techniques et des modèles clés pour soutenir de futures recherches dans cette direction.
Dans cet article, nous présentons MIO, un nouveau modèle fondamental basé sur des jetons multimodaux, capable de comprendre et de générer de la parole, du texte, des images et des vidéos de manière autonome et autoregressive. Alors que l'émergence des grands modèles de langage (GML) et des grands modèles de langage multimodal (GMLM) propulse les avancées dans l'intelligence artificielle générale grâce à leurs capacités polyvalentes, ils manquent encore d'une véritable compréhension et génération any-to-any. Récemment, la sortie de GPT-4o a mis en lumière le potentiel remarquable des GML any-to-any pour des tâches complexes du monde réel, permettant une entrée et une sortie omnidirectionnelles à travers les images, la parole et le texte. Cependant, il est en source fermée et ne prend pas en charge la génération de séquences multimodales entrelacées. Pour combler cette lacune, nous présentons MIO, qui est entraîné sur un mélange de jetons discrets à travers quatre modalités en utilisant une modélisation multimodale causale. MIO passe par un processus d'entraînement en quatre étapes : (1) pré-entraînement d'alignement, (2) pré-entraînement entrelacé, (3) pré-entraînement amélioré par la parole, et (4) un ajustement fin supervisé complet sur diverses tâches textuelles, visuelles et de parole. Nos résultats expérimentaux indiquent que MIO présente des performances compétitives, et dans certains cas supérieures, par rapport aux baselines précédentes en dual-modal, aux baselines de modèle any-to-any, et même aux baselines spécifiques à la modalité. De plus, MIO démontre des capacités avancées inhérentes à sa fonction any-to-any, telles que la génération vidéo-texte entrelacée, le raisonnement en chaîne de la pensée visuelle, la génération de directives visuelles, l'édition d'images d'instruction, etc.
L'honnêteté est un principe fondamental pour aligner les grands modèles de langage (LLM) avec les valeurs humaines, exigeant que ces modèles reconnaissent ce qu'ils savent et ne savent pas et soient capables d'exprimer fidèlement leurs connaissances. Malgré des promesses encourageantes, les LLM actuels présentent encore des comportements significativement malhonnêtes, tels que la présentation confiante de réponses incorrectes ou l'incapacité d'exprimer ce qu'ils savent. De plus, la recherche sur l'honnêteté des LLM rencontre également des défis, notamment des définitions variables de l'honnêteté, des difficultés à distinguer entre les connaissances connues et inconnues, et un manque de compréhension globale de la recherche connexe. Pour résoudre ces problèmes, nous proposons une enquête sur l'honnêteté des LLM, couvrant sa clarification, les approches d'évaluation et les stratégies d'amélioration. De plus, nous offrons des perspectives pour la recherche future, dans le but d'inspirer de nouvelles explorations dans ce domaine important.
L'augmentation de la taille des modèles pose un défi significatif pour le déploiement et l'inférence des Grands Modèles de Langage (GML). En raison de la redondance dans les poids des GML, les recherches récentes se sont concentrées sur la quantification des poids uniquement à un nombre de bits extrêmement faible (même jusqu'à 2 bits). Cela réduit les besoins en mémoire, optimise les coûts de stockage et diminue les besoins en bande passante mémoire lors de l'inférence. Cependant, en raison des limitations de représentation numérique, la quantification des poids basée sur des scalaires traditionnels peine à atteindre de si faibles nombres de bits. Des recherches récentes sur la Quantification Vectorielle (VQ) pour les GML ont démontré le potentiel d'une quantification de modèle à très faible nombre de bits en comprimant des vecteurs en indices à l'aide de tables de recherche. Dans cet article, nous introduisons la Quantification Post-Entraînement Vectorielle (VPTQ) pour la quantification à très faible nombre de bits des GML. Nous utilisons l'Optimisation du Deuxième Ordre pour formuler le problème de VQ des GML et guider la conception de notre algorithme de quantification en résolvant l'optimisation. Nous affinons ensuite les poids en utilisant l'Optimisation du Deuxième Ordre Indépendante des Canaux pour une VQ granulaire. De plus, en décomposant le problème d'optimisation, nous proposons un algorithme d'initialisation de codebook bref et efficace. Nous étendons également le VPTQ pour prendre en charge la quantification résiduelle et des valeurs aberrantes, ce qui améliore la précision du modèle et comprime davantage le modèle. Nos résultats expérimentaux montrent que le VPTQ réduit la perplexité de quantification du modèle de 0,01 à 0,34 sur LLaMA-2, de 0,38 à 0,68 sur Mistral-7B, de 4,41 à 7,34 sur LLaMA-3 par rapport à l'état de l'art à 2 bits, avec une amélioration moyenne de la précision de 0,79 à 1,5% sur LLaMA-2, de 1% sur Mistral-7B, de 11 à 22% sur LLaMA-3 pour les tâches de questions-réponses en moyenne. Nous utilisons seulement 10,4 à 18,6% du temps d'exécution de l'algorithme de quantification, ce qui se traduit par une augmentation de 1,6 à 1,8 fois du débit d'inférence par rapport à l'état de l'art.
L'analyse de contenu de documents est un domaine de recherche crucial en vision par ordinateur. Malgré les avancées significatives dans des méthodes telles que la ROC, la détection de mise en page et la reconnaissance de formules, les solutions open source existantes peinent à fournir de manière cohérente une extraction de contenu de haute qualité en raison de la diversité des types de documents et de leur contenu. Pour relever ces défis, nous présentons MinerU, une solution open source pour une extraction de contenu de document de haute précision. MinerU exploite les modèles sophistiqués de PDF-Extract-Kit pour extraire efficacement le contenu de divers documents et utilise des règles de prétraitement et de post-traitement finement ajustées pour garantir l'exactitude des résultats finaux. Les résultats expérimentaux montrent que MinerU atteint systématiquement des performances élevées sur différents types de documents, améliorant significativement la qualité et la cohérence de l'extraction de contenu. Le projet open source MinerU est disponible sur https://github.com/opendatalab/MinerU.
Nous présentons PhysGen, une nouvelle méthode de génération d'images en vidéos qui convertit une seule image et une condition d'entrée (par exemple, la force et le couple appliqués à un objet dans l'image) pour produire une vidéo réaliste, physiquement plausible et temporellement cohérente. Notre insight clé est d'intégrer une simulation physique basée sur un modèle avec un processus de génération de vidéos basé sur les données, permettant des dynamiques plausibles dans l'espace des images. Au cœur de notre système se trouvent trois composants principaux : (i) un module de compréhension des images qui capture efficacement la géométrie, les matériaux et les paramètres physiques de l'image ; (ii) un modèle de simulation des dynamiques dans l'espace des images qui utilise la physique des corps rigides et les paramètres inférés pour simuler des comportements réalistes ; et (iii) un module de rendu et de raffinement basé sur l'image qui exploite la diffusion vidéo générative pour produire des séquences vidéo réalistes présentant le mouvement simulé. Les vidéos résultantes sont réalistes à la fois du point de vue physique et visuel, et sont même précisément contrôlables, démontrant des résultats supérieurs par rapport aux travaux existants de génération d'images en vidéos basée sur les données, grâce à des comparaisons quantitatives et à une étude utilisateur complète. Les vidéos résultantes de PhysGen peuvent être utilisées pour diverses applications ultérieures, telles que transformer une image en une animation réaliste ou permettre aux utilisateurs d'interagir avec l'image et de créer diverses dynamiques. Page du projet : https://stevenlsw.github.io/physgen/
Les méthodes d'optimisation des préférences commencent généralement l'entraînement avec un modèle SFT bien entraîné en tant que modèle de référence. Dans RLHF et DPO, un terme de régularisation est utilisé pendant le processus d'optimisation des préférences pour empêcher le modèle de politique de s'écarter trop de la distribution du modèle de référence, évitant ainsi la génération de réponses anormales. Lorsque le modèle de référence est déjà bien aligné avec les données fournies ou ne nécessite que de légères adaptations, cette approche peut produire un modèle bien aligné. Cependant, si le modèle de référence n'est pas aligné avec les données fournies et nécessite un écart significatif par rapport à son état actuel, un terme de régularisation peut en fait entraver l'alignement du modèle. Dans cette étude, nous proposons l'Optimisation des Préférences par Intervention Modulée (MIPO) pour résoudre ce problème. MIPO module le degré d'intervention à partir du modèle de référence en fonction de l'alignement des données fournies avec celui-ci. Si les données sont bien alignées, l'intervention est augmentée pour empêcher le modèle de politique de diverger significativement du modèle de référence. En revanche, si l'alignement est faible, l'interférence est réduite pour faciliter un entraînement plus approfondi. Nous comparons les performances de MIPO et de DPO en utilisant Mistral-7B et Llama3-8B dans Alpaca Eval 2.0 et MT-Bench. Les résultats expérimentaux démontrent que MIPO surpasse systématiquement DPO dans divers scénarios d'évaluation.
Cet article présente une nouvelle approche pour l'utilisation de grands modèles de langage (GML) dans des tâches de classification, généralement traitées à l'aide de modèles d'apprentissage automatique (ML). Contrairement aux modèles ML qui dépendent fortement du nettoyage des données et de l'ingénierie des caractéristiques, cette méthode simplifie le processus en utilisant des GML. Cet article propose un nouveau concept appelé "Apprentissage de Modèle de Langage (AML)" alimenté par une nouvelle méthode appelée "Prédiction Augmentée de Données (PAD)". La classification est effectuée par des GML en utilisant une méthode similaire à celle des humains explorant et comprenant manuellement les données et décidant des classifications en utilisant les données comme référence. Les données d'entraînement sont résumées et évaluées pour déterminer les caractéristiques qui conduisent le plus à la classification de chaque libellé. Dans le processus de PAD, le système utilise le résumé des données pour créer automatiquement une requête, qui est utilisée pour récupérer les lignes pertinentes de l'ensemble de données. Une classification est générée par le GML en utilisant le résumé des données et les lignes pertinentes, garantissant une précision satisfaisante même avec des données complexes. L'utilisation du résumé des données et de données similaires dans PAD assure une prise de décision contextuelle. La méthode proposée utilise les termes "Agir comme un Modèle d'Apprentissage Automatique Explicable" dans le prompt pour améliorer l'interprétabilité des prédictions en permettant aux utilisateurs de revoir la logique derrière chaque prédiction. Dans certains cas de test, le système a obtenu une précision supérieure à 90 %, prouvant l'efficacité du système et son potentiel à surpasser les modèles ML conventionnels dans divers scénarios. Le code est disponible sur https://github.com/Pro-GenAI/LML-DAP
La mémoire à long terme est significative pour les agents, dans laquelle les intuitions jouent un rôle crucial. Cependant, l'émergence d'intuitions non pertinentes et le manque d'intuitions générales peuvent grandement compromettre l'efficacité des intuitions. Pour résoudre ce problème, dans cet article, nous présentons l'Agent d'Intuition Multi-Échelle (MSI-Agent), un agent incarné conçu pour améliorer la planification et la prise de décision des LLMs en résumant et en utilisant efficacement les intuitions à différentes échelles. MSI réalise cela à travers le sélecteur d'expérience, le générateur d'intuition et le sélecteur d'intuition. En exploitant un pipeline en trois parties, MSI peut générer des intuitions spécifiques à la tâche et de haut niveau, les stocker dans une base de données, puis utiliser les intuitions pertinentes pour aider à la prise de décision. Nos expériences montrent que MSI surpasse une autre stratégie d'intuition lors de la planification par GPT3.5. De plus, nous approfondissons les stratégies de sélection d'expérience et d'intuition initiales, visant à fournir aux LLM des intuitions plus utiles et pertinentes pour une meilleure prise de décision. Nos observations indiquent également que MSI présente une meilleure robustesse face à des scénarios de changement de domaine.
Malgré les récentes avancées dans les grands modèles de langage (GML), leurs performances sur des problèmes de raisonnement complexes nécessitant une réflexion multi-étapes et la combinaison de diverses compétences restent limitées. Pour remédier à cela, nous proposons un nouveau cadre, HDFlow, pour le raisonnement complexe avec les GML qui combine des modes de réflexion rapide et lente de manière adaptative. Notre approche se compose de deux composants clés : 1) une nouvelle approche pour un raisonnement lent et délibéré appelée Flux Dynamique, qui décompose automatiquement les problèmes complexes en sous-tâches plus gérables et conçoit dynamiquement un flux de travail pour assembler des outils spécialisés de GML ou de raisonnement symbolique pour résoudre les sous-tâches ; 2) Pensée Hybride, un cadre général qui combine dynamiquement la réflexion rapide et lente en fonction de la complexité du problème. Enfin, nous proposons une méthode facile à mettre à l'échelle pour la synthèse automatique d'un ensemble de données à grande échelle de 27K problèmes de raisonnement complexes et une méthode d'ajustement de la pensée hybride qui entraîne des GML plus petits sur cet ensemble de données pour intégrer les stratégies de raisonnement hybride rapide/lent. Les expériences sur quatre ensembles de données de référence en raisonnement démontrent que notre raisonnement lent avec des flux dynamiques surpasse significativement Chaîne-de-Pensée, et la pensée hybride atteint la plus haute précision tout en offrant un équilibre efficace entre l'efficacité computationnelle et les performances. Le réglage fin en utilisant notre approche de pensée hybride renforce également de manière significative les capacités de raisonnement complexe des modèles de langage open-source. Les résultats mettent en avant la promesse de la pensée lente, des flux dynamiques et de la pensée hybride dans l'expansion de la frontière de la résolution de problèmes complexes avec les GML. Le code et les données seront publiés sur \url{https://github.com/wenlinyao/HDFlow.}