Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Movie Gen, un ensemble de modèles de base qui génère des vidéos haute qualité en 1080p avec différents ratios d'aspect et une audio synchronisée. Nous montrons également des capacités supplémentaires telles que le montage vidéo précis basé sur des instructions et la génération de vidéos personnalisées basées sur l'image d'un utilisateur. Nos modèles établissent un nouvel état de l'art sur plusieurs tâches : synthèse texte-vidéo, personnalisation vidéo, montage vidéo, génération vidéo-audio et génération texte-audio. Notre plus grand modèle de génération vidéo est un transformateur de 30 milliards de paramètres entraîné avec une longueur de contexte maximale de 73 000 jetons vidéo, correspondant à une vidéo générée de 16 secondes à 16 images par seconde. Nous présentons plusieurs innovations techniques et simplifications sur l'architecture, les espaces latents, les objectifs et recettes d'entraînement, la curation des données, les protocoles d'évaluation, les techniques de parallélisation et les optimisations de l'inférence qui nous permettent de tirer parti de la mise à l'échelle des données de pré-entraînement, de la taille du modèle et de la puissance de calcul d'entraînement pour former des modèles de génération de médias à grande échelle. Nous espérons que cet article aidera la communauté de recherche à accélérer les progrès et l'innovation dans les modèles de génération de médias. Toutes les vidéos de cet article sont disponibles sur https://go.fb.me/MovieGenResearchVideos.
Percevoir et générer diverses modalités sont cruciaux pour les modèles d'IA afin d'apprendre efficacement à partir de signaux du monde réel et d'interagir avec eux, nécessitant des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variables ; et (2) des biais significatifs en termes de requêtes, de notation et de généralisation. Pour y remédier, nous introduisons MixEval-X, le premier banc d'essai du monde réel de tout type à tout type conçu pour optimiser et standardiser les évaluations à travers les modalités d'entrée et de sortie. Nous proposons des mélanges de bancs d'essai multimodaux et des pipelines d'adaptation-rectification pour reconstruire les distributions de tâches du monde réel, garantissant que les évaluations se généralisent efficacement aux cas d'utilisation réels. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de bancs d'essai avec les distributions de tâches du monde réel et que le classement des modèles est fortement corrélé avec celui des évaluations du monde réel crowdsourcées (jusqu'à 0,98). Nous fournissons des tableaux de classement complets pour reclasser les modèles et organisations existants et offrons des perspectives pour améliorer la compréhension des évaluations multimodales et orienter les recherches futures.
Les juges basés sur les LLM ont émergé comme une alternative évolutive à l'évaluation humaine et sont de plus en plus utilisés pour évaluer, comparer et améliorer les modèles. Cependant, la fiabilité des juges basés sur les LLM eux-mêmes est rarement examinée. À mesure que les LLM deviennent plus avancés, leurs réponses deviennent plus sophistiquées, nécessitant des juges plus solides pour les évaluer. Les benchmarks existants se concentrent principalement sur l'alignement d'un juge avec les préférences humaines, mais échouent souvent à prendre en compte des tâches plus complexes où la préférence humaine obtenue par crowdsourcing est un mauvais indicateur de la véracité et de la logique. Pour remédier à cela, nous proposons un nouveau cadre d'évaluation pour évaluer de manière objective les juges basés sur les LLM. Sur la base de ce cadre, nous proposons JudgeBench, un benchmark pour évaluer les juges basés sur les LLM sur des paires de réponses complexes couvrant les domaines de la connaissance, du raisonnement, des mathématiques et du codage. JudgeBench exploite un pipeline novateur pour convertir des ensembles de données difficiles existants en paires de réponses complexes avec des étiquettes de préférence reflétant la véracité objective. Notre évaluation complète sur une collection de juges sollicités, de juges affinés, de juges multi-agents et de modèles de récompense montre que JudgeBench pose un défi beaucoup plus important que les benchmarks précédents, de nombreux modèles performants (par exemple, GPT-4o) obtenant à peine de meilleurs résultats qu'une supposition aléatoire. Dans l'ensemble, JudgeBench offre une plateforme fiable pour évaluer des juges basés sur les LLM de plus en plus avancés. Les données et le code sont disponibles sur https://github.com/ScalerLab/JudgeBench.
Le passage à l'échelle des modèles autorégressifs en vision n'a pas été aussi bénéfique que dans les grands modèles de langage. Dans ce travail, nous examinons ce problème d'échelle dans le contexte de la génération texte-image, en nous concentrant sur deux facteurs critiques : si les modèles utilisent des jetons discrets ou continus, et si les jetons sont générés dans un ordre de trame aléatoire ou fixe en utilisant des architectures de transformer de type BERT ou GPT. Nos résultats empiriques montrent que, bien que tous les modèles évoluent efficacement en termes de perte de validation, leurs performances d'évaluation - mesurées par FID, le score GenEval et la qualité visuelle - suivent des tendances différentes. Les modèles basés sur des jetons continus obtiennent une qualité visuelle nettement meilleure que ceux utilisant des jetons discrets. De plus, l'ordre de génération et les mécanismes d'attention affectent significativement le score GenEval : les modèles à ordre aléatoire obtiennent des scores GenEval nettement meilleurs par rapport aux modèles à ordre de trame. Inspirés par ces découvertes, nous entraînons Fluid, un modèle autorégressif à ordre aléatoire sur des jetons continus. Le modèle Fluid 10.5B atteint un nouveau FID de pointe en zéro-shot de 6.16 sur MS-COCO 30K, et un score global de 0.69 sur le banc d'essai GenEval. Nous espérons que nos découvertes et résultats encourageront les efforts futurs pour combler davantage l'écart d'échelle entre les modèles de vision et de langage.
Dans cet article, nous présentons Janus, un cadre autorégressif qui unifie la compréhension et la génération multimodales. Les recherches antérieures reposent souvent sur un seul encodeur visuel pour les deux tâches, tel que Chameleon. Cependant, en raison des niveaux différents de granularité de l'information requis par la compréhension et la génération multimodales, cette approche peut entraîner des performances sous-optimales, en particulier dans la compréhension multimodale. Pour résoudre ce problème, nous avons dissocié l'encodage visuel en voies distinctes, tout en exploitant une architecture de transformateur unifiée pour le traitement. La dissociation non seulement résout le conflit entre les rôles de l'encodeur visuel dans la compréhension et la génération, mais renforce également la flexibilité du cadre. Par exemple, les composants de compréhension et de génération multimodales peuvent sélectionner indépendamment leurs méthodes d'encodage les plus adaptées. Les expériences montrent que Janus surpasse le modèle unifié précédent et égale ou dépasse les performances des modèles spécifiques à la tâche. La simplicité, la grande flexibilité et l'efficacité de Janus en font un candidat solide pour les modèles multimodaux unifiés de nouvelle génération.
Le succès des grands modèles de langage (GML) a incité à des efforts pour intégrer les données vocales et audio, dans le but de créer des modèles fondamentaux généraux capables de traiter à la fois des entrées textuelles et non textuelles. Les récentes avancées, telles que GPT-4o, mettent en lumière le potentiel des GML de parole de bout en bout, qui préservent les informations non sémantiques et les connaissances du monde pour une compréhension plus approfondie de la parole. Pour guider le développement des GML de parole, nous proposons une feuille de route en cinq niveaux, allant de la reconnaissance automatique de la parole (ASR) de base à des modèles surhumains avancés capables d'intégrer des informations non sémantiques avec des connaissances acoustiques abstraites pour des tâches complexes. De plus, nous concevons un banc d'essai, le Banc d'essai SAGI, qui normalise les aspects critiques à travers diverses tâches à ces cinq niveaux, mettant en lumière les défis liés à l'utilisation de connaissances acoustiques abstraites et à la complétude des capacités. Nos résultats révèlent des lacunes dans la gestion des indices paralinguistiques et des connaissances acoustiques abstraites, et nous proposons des orientations futures. Cet article décrit une feuille de route pour faire progresser les GML de parole, présente un banc d'essai pour l'évaluation, et offre des aperçus clés sur leurs limitations actuelles et leur potentiel.
Les assistants mobiles actuels sont limités par leur dépendance aux API système ou ont du mal avec des instructions utilisateur complexes et des interfaces diverses en raison de capacités de compréhension et de prise de décision restreintes. Pour relever ces défis, nous proposons MobA, un nouvel Agent de téléphone mobile alimenté par des modèles de langage multimodaux de grande taille qui améliore les capacités de compréhension et de planification grâce à une architecture d'agent à deux niveaux sophistiquée. L'Agent Global de haut niveau (GA) est responsable de la compréhension des commandes utilisateur, du suivi des mémoires historiques et de la planification des tâches. L'Agent Local de bas niveau (LA) prédit des actions détaillées sous forme d'appels de fonctions, guidé par des sous-tâches et des mémoires du GA. L'intégration d'un Module de Réflexion permet une réalisation efficace des tâches et permet au système de gérer des tâches complexes jamais rencontrées auparavant. MobA démontre des améliorations significatives en termes d'efficacité d'exécution des tâches et de taux de réalisation dans des évaluations en conditions réelles, soulignant le potentiel des assistants mobiles alimentés par MLLM.
Les Modèles de Langage Visuel (VLM), ont souvent du mal avec les connaissances spécifiques à une culture, en particulier dans des langues autres que l'anglais et dans des contextes culturels sous-représentés. Pour évaluer leur compréhension de telles connaissances, nous introduisons WorldCuisines, un banc d'essai à grande échelle pour la compréhension multilingue et multiculturelle, basée sur des images. Ce banc d'essai comprend un ensemble de données de questions-réponses visuelles (VQA) avec des paires texte-image dans 30 langues et dialectes, couvrant 9 familles de langues et comprenant plus d'un million de points de données, ce qui en fait le plus grand banc d'essai VQA multiculturel à ce jour. Il inclut des tâches pour identifier les noms de plats et leurs origines. Nous fournissons des ensembles de données d'évaluation de deux tailles (12 000 et 60 000 instances) ainsi qu'un ensemble de données d'entraînement (1 million d'instances). Nos résultats montrent que bien que les VLM performant mieux avec le bon contexte de localisation, ils ont du mal avec les contextes adverses et à prédire des cuisines et langues régionales spécifiques. Pour soutenir la recherche future, nous mettons à disposition une base de connaissances avec des entrées alimentaires annotées et des images, ainsi que les données VQA.
La compréhension visuelle riche en texte - la capacité de traiter des environnements où un contenu textuel dense est intégré à des éléments visuels - est cruciale pour les grands modèles de langage multimodaux (MLLM) afin d'interagir efficacement avec des environnements structurés. Pour améliorer cette capacité, nous proposons de synthétiser des instructions multimodales générales à partir des interfaces utilisateur de pages web en utilisant des grands modèles de langage basés sur du texte (LLMs). Malgré l'absence d'entrée visuelle directe, les LLMs basés sur du texte sont capables de traiter des représentations textuelles structurées à partir des arbres d'accessibilité des pages web. Ces instructions sont ensuite associées à des captures d'écran d'interfaces utilisateur pour entraîner des modèles multimodaux. Nous présentons MultiUI, un ensemble de données contenant 7,3 millions d'échantillons provenant de 1 million de sites web, couvrant diverses tâches multimodales et mises en page d'interfaces utilisateur. Les modèles entraînés sur MultiUI excellent non seulement dans les tâches d'interfaces utilisateur web - atteignant jusqu'à une amélioration de 48\% sur VisualWebBench et un gain de précision de 19,1\% sur un ensemble de données d'agent web Mind2Web - mais généralisent également de manière surprenante aux tâches d'interfaces utilisateur non web et même à des domaines non liés aux interfaces utilisateur, tels que la compréhension de documents, la ROC, et l'interprétation de graphiques. Ces résultats mettent en évidence la large applicabilité des données d'interfaces utilisateur web pour faire progresser la compréhension visuelle riche en texte dans divers scénarios.
Les récents progrès dans la génération de vidéos personnalisées ont permis aux utilisateurs de créer des vidéos adaptées à des sujets spécifiques et à des trajectoires de mouvement. Cependant, les méthodes existantes nécessitent souvent un réglage fin compliqué au moment du test et ont du mal à équilibrer l'apprentissage du sujet et le contrôle du mouvement, limitant ainsi leurs applications dans le monde réel. Dans cet article, nous présentons DreamVideo-2, un cadre de personnalisation de vidéos sans ajustement au moment du test capable de générer des vidéos avec un sujet spécifique et une trajectoire de mouvement, guidé par une seule image et une séquence de boîtes englobantes, respectivement, et sans nécessiter de réglage fin au moment du test. Plus précisément, nous introduisons l'attention de référence, qui exploite les capacités inhérentes du modèle pour l'apprentissage du sujet, et concevons un module de mouvement guidé par un masque pour obtenir un contrôle précis du mouvement en utilisant pleinement le signal de mouvement robuste des masques de boîtes dérivés des boîtes englobantes. Alors que ces deux composants remplissent leurs fonctions prévues, nous observons empiriquement que le contrôle du mouvement a tendance à dominer l'apprentissage du sujet. Pour remédier à cela, nous proposons deux conceptions clés : 1) l'attention de référence masquée, qui intègre un schéma de modélisation de masque latent mélangé dans l'attention de référence pour améliorer les représentations du sujet aux positions souhaitées, et 2) une perte de diffusion repondérée, qui différencie les contributions des régions à l'intérieur et à l'extérieur des boîtes englobantes pour assurer un équilibre entre le sujet et le contrôle du mouvement. Des résultats expérimentaux approfondis sur un ensemble de données nouvellement créé démontrent que DreamVideo-2 surpasse les méthodes de pointe à la fois en termes de personnalisation du sujet et de contrôle du mouvement. L'ensemble de données, le code et les modèles seront rendus publics.
L'intelligence artificielle (IA) a démontré un potentiel significatif dans le domaine de la santé, en particulier dans le diagnostic des maladies et la planification des traitements. Les récents progrès des Modèles Médicaux à Grande Echelle Vision-Langage (Med-LVLMs) ont ouvert de nouvelles possibilités pour des outils de diagnostic interactifs. Cependant, ces modèles souffrent souvent d'hallucinations factuelles, pouvant entraîner des diagnostics incorrects. Le fine-tuning et la génération augmentée par récupération (RAG) ont émergé comme des méthodes pour résoudre ces problèmes. Cependant, la quantité de données de haute qualité et les écarts de distribution entre les données d'entraînement et les données de déploiement limitent l'application des méthodes de fine-tuning. Bien que RAG soit léger et efficace, les approches existantes basées sur RAG ne sont pas suffisamment générales pour différents domaines médicaux et peuvent potentiellement causer des problèmes de désalignement, à la fois entre les modalités et entre le modèle et la vérité terrain. Dans cet article, nous proposons un système RAG multimodal polyvalent, MMed-RAG, conçu pour améliorer la factualité des Med-LVLMs. Notre approche introduit un mécanisme de récupération conscient du domaine, une méthode adaptative de sélection des contextes récupérés, et une stratégie de fine-tuning préalable basée sur RAG prouvable. Ces innovations rendent le processus RAG suffisamment général et fiable, améliorant significativement l'alignement lors de l'introduction des contextes récupérés. Les résultats expérimentaux sur cinq ensembles de données médicales (radiologie, ophtalmologie, pathologie) concernant la VQA médicale et la génération de rapports montrent que MMed-RAG peut obtenir une amélioration moyenne de 43,8% de l'exactitude factuelle des Med-LVLMs. Nos données et notre code sont disponibles sur https://github.com/richard-peng-xia/MMed-RAG.
Dans ce travail, nous améliorons le mécanisme d'attention multi-têtes, au cœur du modèle Transformer, afin d'améliorer l'efficacité tout en maintenant ou dépassant le niveau de précision précédent. Nous montrons que l'attention multi-têtes peut être exprimée sous forme de sommation. En nous appuyant sur l'idée que toutes les têtes d'attention ne sont pas également significatives, nous proposons l'attention Mélange-de-Têtes (MoH), une nouvelle architecture qui considère les têtes d'attention comme des experts dans le mécanisme de Mélange-d'Experts (MoE). MoH présente deux avantages significatifs : Premièrement, MoH permet à chaque jeton de sélectionner les têtes d'attention appropriées, améliorant l'efficacité de l'inférence sans compromettre la précision ou augmenter le nombre de paramètres. Deuxièmement, MoH remplace la sommation standard dans l'attention multi-têtes par une sommation pondérée, introduisant de la flexibilité dans le mécanisme d'attention et débloquant un potentiel de performance supplémentaire. Des expériences approfondies sur ViT, DiT et LLMs démontrent que MoH surpasse l'attention multi-têtes en n'utilisant que 50 % à 90 % des têtes d'attention. De plus, nous montrons que des modèles d'attention multi-têtes pré-entraînés, tels que LLaMA3-8B, peuvent être encore affinés pour devenir nos modèles MoH. Notamment, MoH-LLaMA3-8B atteint une précision moyenne de 64,0 % sur 14 benchmarks, surpassant LLaMA3-8B de 2,4 % en utilisant seulement 75 % des têtes d'attention. Nous croyons que le MoH proposé est une alternative prometteuse à l'attention multi-têtes et fournit une base solide pour le développement de modèles d'attention avancés et efficaces.
L'évaluation des grands modèles de langage (LLM) est coûteuse : elle nécessite la génération et l'examen des sorties des LLM sur un banc d'essai à grande échelle de diverses tâches. Cet article examine comment réduire efficacement les tâches utilisées pour évaluer les LLM sans affecter la qualité de l'évaluation. Notre étude révèle que la transférabilité des tâches et leur pertinence fournissent des informations cruciales pour identifier le sous-ensemble le plus représentatif de tâches en optimisant une fonction de localisation d'installation. Nous proposons une mesure pratiquement efficace pour estimer la transférabilité entre deux tâches via l'apprentissage en contexte (ICL). En analysant la transférabilité par paires, nous pouvons réduire les tâches dans un banc d'essai de LLM moderne (par exemple, MMLU ou FLAN) à 5 % tout en n'induisant qu'une différence de <4 % par rapport à l'évaluation sur le banc d'essai d'origine. Comparé aux travaux antérieurs, notre méthode est sans entraînement, sans gradient et très efficace, ne nécessitant que l'ICL.
L'alignement des grands modèles de langage (LLM) implique de former des modèles sur des paires de sortie préférentielle-contrastive pour ajuster leurs réponses selon les préférences humaines. Pour obtenir de telles paires contrastives, des méthodes traditionnelles comme RLHF et RLAIF s'appuient sur des schémas de contraste limités, tels que la variation des variantes de modèle ou des températures de décodage. Cette singularité conduit à deux problèmes : (1) l'alignement n'est pas exhaustif ; et par conséquent (2) les modèles sont susceptibles d'être victimes d'attaques de jailbreaking. Pour résoudre ces problèmes, nous étudions comment construire des schémas de contraste plus complets et diversifiés pour améliorer les données de préférence (RQ1) et vérifier l'impact de la diversification des schémas de contraste sur l'alignement des modèles (RQ2). Pour la RQ1, nous proposons PopAlign, un cadre qui intègre des schémas de contraste diversifiés à travers le prompt, le modèle et les niveaux de pipeline, introduisant six stratégies de contraste ne nécessitant pas de procédures de marquage de rétroaction supplémentaires. En ce qui concerne la RQ2, nous menons des expériences approfondies démontrant que PopAlign surpasse significativement les méthodes existantes, conduisant à un alignement plus complet.
Permettre aux grands modèles de langage (LLMs) de gérer une gamme plus large de tâches complexes (par exemple, le codage, les mathématiques) a attiré l'attention de nombreux chercheurs. Alors que les LLMs continuent d'évoluer, l'augmentation simplement du nombre de paramètres du modèle entraîne des améliorations de performance décroissantes et des coûts computationnels élevés. Récemment, le modèle o1 d'OpenAI a montré que les stratégies d'inférence (c'est-à-dire, les méthodes de calcul au moment du test) peuvent également améliorer significativement les capacités de raisonnement des LLMs. Cependant, les mécanismes derrière ces méthodes restent inexplorés. Dans notre travail, pour étudier les schémas de raisonnement de o1, nous comparons o1 avec des méthodes existantes de calcul au moment du test (BoN, BoN pas à pas, Agent Workflow et Auto-affiner) en utilisant le GPT-4o d'OpenAI comme base sur des bancs d'essai de raisonnement général dans trois domaines (c'est-à-dire, mathématiques, codage, raisonnement de bon sens). Plus précisément, nos expériences montrent que le modèle o1 a obtenu les meilleures performances sur la plupart des ensembles de données. En ce qui concerne les méthodes de recherche de réponses diverses (par exemple, BoN), nous constatons que la capacité des modèles de récompense et l'espace de recherche limitent tous deux la limite supérieure de ces méthodes. En ce qui concerne les méthodes qui décomposent le problème en de nombreux sous-problèmes, l'Agent Workflow a obtenu de meilleures performances que BoN pas à pas en raison de l'invite système spécifique au domaine pour planifier de meilleurs processus de raisonnement. Enfin, il convient de mentionner que nous avons résumé six schémas de raisonnement de o1 et fourni une analyse détaillée sur plusieurs bancs d'essai de raisonnement.
Le post-entraînement est apparu comme un paradigme crucial pour adapter des modèles pré-entraînés à grande échelle à diverses tâches, dont les effets sont pleinement reflétés par les paramètres delta (c'est-à-dire, la disparité entre les paramètres post-entraînés et pré-entraînés). Alors que de nombreuses études ont exploré les propriétés des paramètres delta via des opérations telles que l'élagage, la quantification, l'approximation à faible rang et l'extrapolation, un cadre unifié pour examiner systématiquement ces caractéristiques faisait défaut. Dans cet article, nous proposons une nouvelle perspective basée sur l'approximation de la somme de Riemann de la fonction de perte pour élucider les opérations d'édition des paramètres delta. Notre analyse catégorise les méthodes existantes en trois classes en fonction de leurs performances post-édition : compétitive, diminuée et améliorée, expliquant comment elles sont exprimées par le terme d'approximation de la somme de Riemann et comment elles modifient les performances du modèle. Des expériences approfondies sur des modèles visuels et linguistiques, y compris ViT, LLaMA 3, Qwen 2 et Mistral, corroborent nos conclusions théoriques. De plus, nous introduisons des extensions aux techniques existantes telles que DARE et BitDelta, mettant en évidence leurs limitations dans l'exploitation des propriétés des paramètres delta et les réorganisant en expressions générales pour améliorer l'applicabilité et l'efficacité de l'édition des paramètres delta dans les modèles post-entraînés.
Récemment, la quantification a été largement utilisée pour la compression et l'accélération des grands modèles de langage~(LLMs). En raison des valeurs aberrantes dans les LLMs, il est crucial d'aplanir les poids et activations pour minimiser l'erreur de quantification avec des points de quantification également espacés. Des recherches antérieures explorent diverses transformations pré-quantification pour supprimer les valeurs aberrantes, telles que la mise à l'échelle par canal et la transformation de Hadamard. Cependant, nous observons que ces poids et activations transformés peuvent encore rester raides et étendus. Dans cet article, nous proposons FlatQuant (Transformation Affine Rapide et Apprentissable), une nouvelle approche de quantification post-entraînement pour améliorer la planéité des poids et activations. Notre approche identifie des transformations affines optimales adaptées à chaque couche linéaire, calibrées en quelques heures via un objectif léger. Pour réduire les surcoûts d'exécution, nous appliquons une décomposition de Kronecker aux matrices de transformation, et fusionnons toutes les opérations dans FlatQuant en un seul noyau. De vastes expériences montrent que FlatQuant établit une nouvelle référence en matière de quantification. Par exemple, il atteint une baisse de précision de moins de 1% pour la quantification W4A4 sur le modèle LLaMA-3-70B, surpassant SpinQuant de 7.5%. En termes de latence d'inférence, FlatQuant réduit le ralentissement induit par la transformation pré-quantification de 0.26x de QuaRot à seulement 0.07x, offrant jusqu'à 2.3x d'accélération pour le préremplissage et 1.7x d'accélération pour le décodage, respectivement. Le code est disponible sur : https://github.com/ruikangliu/FlatQuant.
L'assemblage d'images panoramiques fournit une vue unifiée et grand angle d'une scène qui dépasse le champ de vision de la caméra. Assembler des images d'une vidéo panoramique en une photographie panoramique est un problème bien compris pour les scènes stationnaires, mais lorsque des objets sont en mouvement, une panorama fixe ne peut pas capturer la scène. Nous présentons une méthode pour synthétiser une vidéo panoramique à partir d'une vidéo panoramique capturée de manière informelle, comme si la vidéo originale avait été capturée avec une caméra grand angle. Nous posons la synthèse de panorama comme un problème de peinture hors champ espace-temps, où nous visons à créer une vidéo panoramique complète de la même durée que la vidéo d'entrée. Une complétion cohérente du volume espace-temps nécessite une forte et réaliste connaissance a priori du contenu vidéo et du mouvement, pour laquelle nous adaptons des modèles vidéo génératifs. Cependant, les modèles génératifs existants ne s'étendent pas immédiatement à la complétion panoramique, comme nous le montrons. Nous appliquons plutôt la génération vidéo en tant que composante de notre système de synthèse de panorama, et démontrons comment exploiter les forces des modèles tout en minimisant leurs limitations. Notre système peut créer des panoramas vidéo pour une gamme de scènes en extérieur comprenant des personnes, des véhicules, de l'eau en mouvement, ainsi que des éléments de fond stationnaires.
Bien que les grands modèles de langage (GML) démontrent une impressionnante compétence dans diverses tâches, ils présentent des risques potentiels en termes de sécurité, tels que les "jailbreaks", où des entrées malveillantes peuvent contraindre les GML à générer du contenu nuisible. Pour répondre à ces problèmes, de nombreux développeurs de GML ont mis en place diverses mesures de sécurité pour aligner ces modèles. Cet alignement implique plusieurs techniques, notamment le filtrage des données lors de la pré-formation, le fine-tuning supervisé, l'apprentissage par renforcement à partir des retours humains, et des exercices de red-teaming. Ces méthodes introduisent souvent des biais délibérés et intentionnels similaires à la Politique de Correction (PC) pour garantir le comportement éthique des GML. Dans cet article, nous examinons les biais intentionnels injectés dans les GML à des fins de sécurité et étudions les méthodes pour contourner ces techniques d'alignement de sécurité. Notamment, ces biais intentionnels entraînent un taux de réussite de jailbreak de 20% dans les modèles GPT-4o qui diffère entre les mots-clés non-binaires et cisgenres et de 16% entre les mots-clés blancs et noirs, même lorsque les autres parties des stimuli sont identiques. Nous introduisons le concept de PCJailbreak, mettant en lumière les risques inhérents posés par ces biais induits par la sécurité. De plus, nous proposons une méthode de défense efficace, PCDefense, qui prévient les tentatives de jailbreak en injectant des stimuli de défense avant la génération. PCDefense se présente comme une alternative attrayante aux modèles de garde, tels que Llama-Guard, qui nécessitent un coût d'inférence supplémentaire après la génération de texte. Nos résultats soulignent le besoin urgent pour les développeurs de GML d'adopter une approche plus responsable lors de la conception et de la mise en œuvre des mesures de sécurité.
À mesure que les capacités des Modèles de Langage Multimodal à Grande Échelle (MLLM) continuent de s'améliorer, le besoin d'une évaluation des capacités de niveau supérieur des MLLM augmente. Cependant, il existe un manque de travaux évaluant les MLLM pour la perception et la compréhension de contenu visuel chinois de niveau supérieur. Pour combler cette lacune, nous introduisons le **B**anc d'**E**ssai pour la **C**ompréhension des **I**mplications d'**I**mages chinoises, **CII-Bench**, qui vise à évaluer les capacités de perception et de compréhension de niveau supérieur des MLLM pour les images chinoises. CII-Bench se distingue de plusieurs manières par rapport aux bancs d'essai existants. Tout d'abord, pour garantir l'authenticité du contexte chinois, les images de CII-Bench sont issues d'Internet chinois et examinées manuellement, avec des réponses correspondantes également élaborées manuellement. De plus, CII-Bench intègre des images représentant la culture traditionnelle chinoise, telles que des peintures traditionnelles chinoises célèbres, qui peuvent refléter profondément la compréhension de la culture traditionnelle chinoise par le modèle. À travers de vastes expériences sur CII-Bench avec plusieurs MLLM, nous avons fait des découvertes significatives. Tout d'abord, un écart substantiel est observé entre les performances des MLLM et des humains sur CII-Bench. La précision la plus élevée des MLLM atteint 64,4 %, tandis que la précision humaine avoisine 78,2 %, culminant à un impressionnant 81,0 %. Ensuite, les MLLM se comportent moins bien sur les images de culture traditionnelle chinoise, suggérant des limitations dans leur capacité à comprendre les sémantiques de haut niveau et à manquer d'une base de connaissances approfondie de la culture traditionnelle chinoise. Enfin, il est observé que la plupart des modèles affichent une précision améliorée lorsque des indices émotionnels d'image sont incorporés dans les indications. Nous pensons que CII-Bench permettra aux MLLM de mieux comprendre la sémantique chinoise et les images spécifiques à la Chine, faisant progresser le chemin vers une intelligence artificielle générale experte (AGI). Notre projet est disponible publiquement sur https://cii-bench.github.io/.
La Correction d'Erreurs Générative (GEC) s'est imposée comme une méthode de post-traitement puissante pour améliorer les performances des systèmes de Reconnaissance Automatique de la Parole (ASR). Cependant, nous montrons que les modèles GEC ont du mal à généraliser au-delà des types spécifiques d'erreurs rencontrés lors de l'entraînement, limitant leur capacité à corriger de nouvelles erreurs non vues au moment du test, notamment dans des scénarios hors domaine (OOD). Ce phénomène est amplifié avec les entités nommées (NE), où, en plus d'un manque d'informations contextuelles ou de connaissances sur les NE, de nouvelles NE continuent d'apparaître. Pour résoudre ces problèmes, nous proposons DARAG (Correction d'Erreurs Générative Augmentée par les Données et la Récupération), une approche novatrice conçue pour améliorer la GEC pour l'ASR dans des scénarios en domaine (ID) et hors domaine (OOD). Nous enrichissons l'ensemble d'entraînement de GEC avec des données synthétiques générées en incitant des LLM et des modèles de texte-parole, simulant ainsi des erreurs supplémentaires à partir desquelles le modèle peut apprendre. Pour les scénarios OOD, nous simulons de manière similaire et de manière non supervisée des erreurs au moment du test à partir de nouveaux domaines. De plus, pour mieux gérer les entités nommées, nous introduisons une correction augmentée par la récupération en enrichissant l'entrée avec des entités récupérées à partir d'une base de données. Notre approche est simple, évolutive, et à la fois indépendante du domaine et de la langue. Nous menons des expériences sur plusieurs ensembles de données et paramètres, montrant que DARAG surpasse toutes nos références, atteignant des améliorations relatives de 8\% à 30\% du Taux d'Erreur de Mots en ID et de 10\% à 33\% en OOD.
Les interactions multi-turn entre les grands modèles de langage (LLM) et les utilisateurs incluent naturellement des signaux de rétroaction implicites. Si un LLM répond de manière inattendue à une instruction, l'utilisateur est susceptible de le signaler en reformulant la demande, en exprimant de la frustration, ou en passant à une tâche alternative. Ces signaux sont indépendants de la tâche et occupent un sous-espace relativement contraint du langage, permettant au LLM de les identifier même s'il échoue sur la tâche réelle. Cela crée une opportunité d'apprentissage continu à partir des interactions sans annotations supplémentaires. Nous introduisons ReSpect, une méthode pour apprendre de tels signaux dans les interactions passées via la rétrospéction. Nous déployons ReSpect dans un nouveau scénario d'interaction multimodal, où les humains donnent des instructions à un LLM pour résoudre une tâche de raisonnement abstrait avec un espace de solutions combinatoires. À travers des milliers d'interactions avec des humains, nous montrons comment ReSpect améliore progressivement le taux de réalisation de la tâche de 31% à 82%, le tout sans aucune annotation externe.
Le développement de grands modèles de langage (LLMs) a considérablement amélioré les capacités des modèles de langage multimodaux (MLLMs) en tant qu'assistants généraux. Cependant, le manque de connaissances spécifiques à l'utilisateur limite encore leur application dans la vie quotidienne des humains. Dans cet article, nous présentons le cadre de Personnalisation Augmentée par Récupération (RAP) pour la personnalisation des MLLMs. À partir d'un MLLM général, nous le transformons en un assistant personnalisé en trois étapes. (a) Se souvenir : Nous concevons une base de données clé-valeur pour stocker les informations liées à l'utilisateur, telles que le nom de l'utilisateur, l'avatar et d'autres attributs. (b) Récupérer : Lorsque l'utilisateur lance une conversation, RAP récupérera des informations pertinentes dans la base de données en utilisant un récupérateur multimodal. (c) Générer : La requête d'entrée et les informations des concepts récupérés sont alimentées dans les MLLMs pour générer des réponses personnalisées, augmentées de connaissances. Contrairement aux méthodes précédentes, RAP permet une édition de concepts en temps réel via la mise à jour de la base de données externe. Pour améliorer davantage la qualité de génération et l'alignement avec les informations spécifiques à l'utilisateur, nous concevons un pipeline pour la collecte de données et créons un ensemble de données spécialisé pour l'entraînement personnalisé des MLLMs. Sur la base de l'ensemble de données, nous entraînons une série de MLLMs en tant qu'assistants multimodaux personnalisés. En pré-entraînant sur un ensemble de données à grande échelle, les RAP-MLLMs peuvent généraliser à une infinité de concepts visuels sans ajustement supplémentaire. Nos modèles démontrent une flexibilité exceptionnelle et une qualité de génération dans une variété de tâches, telles que la légende d'images personnalisée, la réponse à des questions et la reconnaissance visuelle. Le code, les données et les modèles sont disponibles sur https://github.com/Hoar012/RAP-MLLM.
Générer de la musique qui s'aligne avec le contenu visuel d'une vidéo a été une tâche difficile, car cela nécessite une compréhension approfondie de la sémantique visuelle et implique de générer de la musique dont la mélodie, le rythme et la dynamique s'harmonisent avec les récits visuels. Cet article présente MuVi, un nouveau cadre qui aborde efficacement ces défis pour améliorer la cohésion et l'expérience immersive du contenu audiovisuel. MuVi analyse le contenu vidéo à travers un adaptateur visuel spécialement conçu pour extraire des caractéristiques contextuellement et temporellement pertinentes. Ces caractéristiques sont utilisées pour générer de la musique qui correspond non seulement à l'humeur et au thème de la vidéo, mais aussi à son rythme et à son tempo. Nous introduisons également un schéma d'entraînement préalable contrastif musique-visuel pour assurer la synchronisation, basé sur la nature périodique des phrases musicales. De plus, nous démontrons que notre générateur de musique basé sur l'ajustement de flux a une capacité d'apprentissage en contexte, nous permettant de contrôler le style et le genre de la musique générée. Les résultats expérimentaux montrent que MuVi présente des performances supérieures tant en termes de qualité audio que de synchronisation temporelle. Les échantillons de vidéos musicales générées sont disponibles sur https://muvi-v2m.github.io.
Les modèles de langage (LMs) ont démontré des capacités de raisonnement et de rappel de niveau expert en médecine. Cependant, les coûts computationnels et les préoccupations en matière de confidentialité constituent des obstacles croissants à une mise en œuvre à grande échelle. Nous introduisons une adaptation parcimonieuse de phi-3-mini, MedMobile, un LM de 3,8 milliards de paramètres capable de fonctionner sur un appareil mobile, pour des applications médicales. Nous démontrons que MedMobile obtient un score de 75,7% sur le MedQA (USMLE), dépassant la note de passage pour les médecins (~60%), et approchant les scores des modèles 100 fois plus grands. Nous réalisons ensuite une série d'ablations soigneuses, et démontrons que la chaîne de pensée, l'assemblage et le réglage fin conduisent aux plus grands gains de performance, tandis que, de manière inattendue, la génération augmentée par récupération ne parvient pas à démontrer d'améliorations significatives.
Malgré les progrès significatifs réalisés dans les grands modèles de langage multimodaux (MLLMs), leur coût computationnel élevé reste un obstacle au déploiement réel. Inspirés par le mélange de profondeurs (MoDs) en traitement automatique du langage naturel, nous visons à aborder cette limitation du point de vue des "tokens activés". Notre idée principale est que si la plupart des tokens sont redondants pour le calcul de la couche, ils peuvent être directement sautés via la couche MoD. Cependant, la conversion directe des couches denses des MLLMs en couches MoD entraîne une dégradation significative des performances. Pour résoudre ce problème, nous proposons une stratégie d'adaptation MoD innovante pour les MLLMs existants appelée gamma-MoD. Dans gamma-MoD, une nouvelle métrique est proposée pour guider le déploiement des MoDs dans le MLLM, à savoir le rang des cartes d'attention (ARank). À travers ARank, nous pouvons identifier efficacement quelle couche est redondante et devrait être remplacée par la couche MoD. Sur la base d'ARank, nous proposons en outre deux conceptions novatrices pour maximiser la parcimonie computationnelle des MLLM tout en maintenant leurs performances, à savoir un routeur partagé vision-langage et un apprentissage de routage masqué. Avec ces conceptions, plus de 90 % des couches denses du MLLM peuvent être efficacement converties en couches MoD. Pour valider notre méthode, nous l'appliquons à trois MLLMs populaires et menons des expériences approfondies sur 9 jeux de données de référence. Les résultats expérimentaux valident non seulement l'importante efficacité de gamma-MoD par rapport aux MLLMs existants, mais confirment également sa capacité de généralisation sur divers MLLMs. Par exemple, avec une légère baisse de performance, c'est-à-dire -1,5 %, gamma-MoD peut réduire le temps d'entraînement et d'inférence de LLaVA-HR respectivement de 31,0 % et 53,2 %.
La croissance rapide de l'échelle des modèles a nécessité des ressources computationnelles substantielles pour le peaufinage. Une approche existante telle que l'Adaptation à Faible Rang (LoRA) a cherché à résoudre le problème de la gestion des grands paramètres mis à jour dans le cadre d'un peaufinage complet. Cependant, LoRA utilise une initialisation aléatoire et l'optimisation de matrices de faible rang pour approximer les poids mis à jour, ce qui peut entraîner une convergence sous-optimale et un écart de précision par rapport au peaufinage complet. Pour résoudre ces problèmes, nous proposons LoLDU, une approche de Peaufinage Efficace des Paramètres (PEFT) qui réduit de manière significative le nombre de paramètres entraînables de 2600 fois par rapport aux méthodes PEFT classiques tout en maintenant des performances comparables. LoLDU exploite la Décomposition Inférieure-Diagonale-Supérieure (LDU) pour initialiser les matrices de faible rang pour une convergence plus rapide et une orthogonalité. Nous nous concentrons sur l'optimisation de la matrice diagonale pour les transformations d'échelle. À notre connaissance, LoLDU possède le moins de paramètres parmi toutes les approches PEFT. Nous avons mené des expériences approfondies sur 4 ensembles de données de suivi d'instructions, 6 ensembles de données de compréhension du langage naturel (NLU), 8 ensembles de données de classification d'images, et des ensembles de données de génération d'images avec plusieurs types de modèles (LLaMA2, RoBERTa, ViT, et Stable Diffusion), fournissant une analyse complète et détaillée. Notre code open-source est disponible sur https://github.com/SKDDJ/LoLDU.
La capacité à découvrir de nouveaux matériaux aux propriétés souhaitables est cruciale pour de nombreuses applications, de la lutte contre le changement climatique aux avancées dans le matériel informatique de nouvelle génération. L'IA a le potentiel d'accélérer la découverte et la conception de matériaux en explorant plus efficacement l'espace chimique par rapport à d'autres méthodes computationnelles ou par essais et erreurs. Bien que des progrès substantiels aient été réalisés en matière de données, de références et de modèles d'IA pour les matériaux, une barrière qui s'est manifestée est le manque de données d'entraînement disponibles publiquement et de modèles pré-entraînés ouverts. Pour y remédier, nous présentons une version Meta FAIR de l'ensemble de données ouvert à grande échelle Open Materials 2024 (OMat24) et un ensemble de modèles pré-entraînés associés. OMat24 contient plus de 110 millions de calculs de théorie fonctionnelle de la densité (DFT) axés sur la diversité structurale et compositionnelle. Nos modèles EquiformerV2 atteignent des performances de pointe sur le classement Matbench Discovery et sont capables de prédire la stabilité à l'état fondamental et les énergies de formation avec un score F1 supérieur à 0,9 et une précision de 20 meV/atome, respectivement. Nous explorons l'impact de la taille du modèle, des objectifs auxiliaires de débruitage et du réglage fin sur les performances à travers une gamme d'ensembles de données comprenant OMat24, MPtraj et Alexandria. La publication ouverte de l'ensemble de données OMat24 et des modèles permet à la communauté de recherche de s'appuyer sur nos efforts et de stimuler de nouvelles avancées dans la science des matériaux assistée par l'IA.
Nous proposons Long-LRM, un modèle de reconstruction gaussienne 3D généralisable capable de reconstruire une grande scène à partir d'une longue séquence d'images d'entrée. Plus précisément, notre modèle peut traiter 32 images sources à une résolution de 960x540 en seulement 1,3 seconde sur un seul GPU A100 80G. Notre architecture présente un mélange des récents blocs Mamba2 et des blocs transformateurs classiques qui ont permis de traiter beaucoup plus de jetons que les travaux antérieurs, améliorés par des étapes efficaces de fusion de jetons et d'élagage gaussien qui équilibrent entre qualité et efficacité. Contrairement aux modèles feed-forward précédents qui sont limités au traitement de 1 à 4 images d'entrée et ne peuvent reconstruire qu'une petite partie d'une grande scène, Long-LRM reconstruit l'ensemble de la scène en une seule étape feed-forward. Sur des ensembles de données de scènes à grande échelle tels que DL3DV-140 et Tanks and Temples, notre méthode atteint des performances comparables aux approches basées sur l'optimisation tout en étant deux ordres de grandeur plus efficace. Page du projet : https://arthurhero.github.io/projects/llrm
Alors que les grands modèles de langage évoluent rapidement pour prendre en charge un contexte plus long, on observe une disparité notable dans leur capacité à générer des sorties de plus grande longueur. Une étude récente suggère que la principale cause de ce déséquilibre pourrait provenir du manque de données avec des sorties longues lors de l'entraînement par alignement. À la lumière de cette observation, des tentatives sont faites pour réaligner les modèles de base avec des données comblant le fossé, ce qui donne des modèles capables de générer des sorties longues lorsqu'ils sont instruits. Dans cet article, nous explorons l'impact de la qualité des données dans l'ajustement d'un modèle pour des sorties longues, et la possibilité de le faire à partir des points de départ des modèles alignés sur l'humain (instructeur ou conversation). Grâce à une curation minutieuse des données, nous montrons qu'il est possible d'obtenir une amélioration de performance similaire dans nos modèles ajustés, avec seulement une petite fraction d'instances de données d'entraînement et de calcul. De plus, nous évaluons la généralisabilité de telles approches en appliquant nos recettes d'ajustement à plusieurs modèles. Nos résultats suggèrent que, bien que les capacités de génération de sorties longues varient d'un modèle à l'autre dès le départ, notre approche pour les ajuster avec des données de haute qualité en utilisant des ressources informatiques légères produit systématiquement une amélioration notable sur tous les modèles sur lesquels nous avons expérimenté. Nous avons rendu public notre ensemble de données curaté pour l'ajustement de la capacité d'écriture longue, les implémentations de l'ajustement et de l'évaluation du modèle, ainsi que les modèles affinés, tous accessibles librement.
Le Guidage sans Classificateur (CFG) est une technique cruciale pour améliorer la qualité des échantillons des modèles génératifs visuels. Cependant, dans la génération multimodale autoregressive (AR), le CFG introduit des incohérences de conception entre le langage et le contenu visuel, contredisant la philosophie de conception visant à unifier différentes modalités pour l'AR visuel. Motivés par les méthodes d'alignement des modèles linguistiques, nous proposons l'Alignement Contrastif Conditionnel (CCA) pour faciliter la génération visuelle AR sans guidage avec des performances élevées et analyser sa connexion théorique avec les méthodes d'échantillonnage guidé. Contrairement aux méthodes de guidage qui modifient le processus d'échantillonnage pour atteindre la distribution d'échantillonnage idéale, le CCA ajuste directement les modèles pré-entraînés pour correspondre à la même distribution cible. Les résultats expérimentaux montrent que le CCA peut améliorer significativement les performances sans guidage de tous les modèles testés avec seulement une époque de fine-tuning (environ 1\% des époques de pré-entraînement) sur l'ensemble de données de pré-entraînement, à la hauteur des méthodes d'échantillonnage guidé. Cela élimine largement le besoin d'échantillonnage guidé dans la génération visuelle AR et réduit le coût d'échantillonnage de moitié. De plus, en ajustant les paramètres d'entraînement, le CCA peut atteindre des compromis entre la diversité des échantillons et la fidélité similaires au CFG. Cela confirme expérimentalement la forte connexion théorique entre l'alignement ciblé sur le langage et les méthodes de guidage ciblées sur le visuel, unifiant deux domaines de recherche précédemment indépendants. Code et poids du modèle : https://github.com/thu-ml/CCA.
La généralisation des modèles de langage propriétaires a soulevé des préoccupations en matière de confidentialité des données sensibles des utilisateurs, soulignant le besoin d'inférence privée (PI), où l'inférence est effectuée directement sur des entrées chiffrées. Cependant, les méthodes actuelles de PI sont confrontées à des surcoûts de communication et de latence prohibitifs, principalement en raison des opérations non linéaires. Dans cet article, nous présentons une analyse approfondie pour comprendre le rôle des non-linéarités dans les modèles de langage basés sur des décodeurs de transformateurs uniquement. Nous introduisons AERO, un cadre d'optimisation architecturale en quatre étapes qui affine l'architecture existante des modèles de langage à décodeur pour une PI efficace en supprimant systématiquement des non-linéarités telles que LayerNorm et GELU et en réduisant les calculs en FLOPs. Pour la première fois, nous proposons une architecture basée uniquement sur Softmax avec beaucoup moins de FLOPs adaptée à une PI efficace. De plus, nous concevons une nouvelle technique de régularisation de l'entropie pour améliorer les performances des modèles basés uniquement sur Softmax. AERO permet d'atteindre une réduction de la communication jusqu'à 4,23 fois et de la latence jusqu'à 1,94 fois. Nous validons l'efficacité d'AERO en le comparant aux technologies de pointe.
Les modèles fondamentaux vision-langage (comme CLIP) ont récemment démontré leur puissance en transfert d'apprentissage, grâce à un pré-entraînement image-texte à grande échelle. Cependant, les données du domaine cible dans les tâches ultérieures peuvent être très différentes de la phase de pré-entraînement, ce qui rend difficile la généralisation efficace d'un tel modèle unique. En revanche, il existe une large gamme de modèles experts contenant des connaissances visuelles et/ou linguistiques diversifiées pré-entraînées sur différentes modalités, tâches, réseaux et ensembles de données. Malheureusement, ces modèles sont des "agents isolés" avec des structures hétérogènes, et la manière d'intégrer leurs connaissances pour généraliser des modèles similaires à CLIP n'a pas été pleinement explorée. Pour combler cette lacune, nous proposons un cadre TransAgent général et concis, qui transporte les connaissances des agents isolés de manière unifiée, et guide efficacement CLIP pour généraliser avec une distillation des connaissances multi-source. Grâce à ce cadre distinct, nous collaborons de manière flexible avec 11 agents hétérogènes pour renforcer les modèles fondamentaux vision-langage, sans coût supplémentaire lors de la phase d'inférence. Enfin, notre TransAgent atteint des performances de pointe sur 11 ensembles de données de reconnaissance visuelle. Dans le même contexte de faible disponibilité de données, il surpasse le populaire CoOp d'environ 10 % en moyenne, et de 20 % sur EuroSAT qui présente de grands écarts de domaine.
De nombreux étudiants éprouvent des difficultés avec les problèmes mathématiques verbaux (PMV), ayant souvent du mal à identifier les informations clés et à sélectionner les opérations mathématiques appropriées. L'instruction basée sur les schémas (IBS) est une stratégie basée sur des preuves qui aide les étudiants à catégoriser les problèmes en fonction de leur structure, améliorant ainsi la précision de la résolution des problèmes. En nous appuyant sur cela, nous proposons un cadre d'Instruction Basée sur les Schémas avec Récupération Augmentée de Génération (IBS-RAG) qui intègre un grand modèle de langage (GML). Notre approche met l'accent sur un raisonnement étape par étape en exploitant les schémas pour guider la génération de solutions. Nous évaluons ses performances sur l'ensemble de données GSM8K, en le comparant avec GPT-4 et GPT-3.5 Turbo, et introduisons une métrique de "score de raisonnement" pour évaluer la qualité des solutions. Nos résultats suggèrent que l'IBS-RAG améliore la clarté du raisonnement et la précision de la résolution des problèmes, offrant potentiellement des avantages éducatifs pour les étudiants.