Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Video-LLaMA, un cadre multi-modal qui confère aux grands modèles de langage (LLMs) la capacité de comprendre à la fois le contenu visuel et auditif des vidéos. Video-LLaMA amorce un entraînement inter-modal à partir d'encodeurs visuels et audio pré-entraînés figés, ainsi que de LLMs figés. Contrairement aux précédents LLMs visuels qui se concentrent sur la compréhension d'images statiques, tels que MiniGPT-4~zhu2023minigpt et LLaVA~liu2023visualit, Video-LLaMA relève deux défis dans la compréhension des vidéos : (1) capturer les changements temporels dans les scènes visuelles, (2) intégrer les signaux audio-visuels. Pour le premier défi, nous proposons Video Q-former pour étendre l'encodeur d'images pré-entraîné à un encodeur de vidéos et introduisons une tâche de génération vidéo-texte pour apprendre la correspondance entre la vidéo et le langage. Pour le second défi, nous exploitons ImageBind~girdhar2023imagebind comme encodeur audio pré-entraîné, qui excelle dans l'alignement de différentes modalités dans un espace d'embedding commun. Nous introduisons ensuite un Audio Q-former pour apprendre les tokens de requête auditifs. Pour aligner la sortie des encodeurs visuel et audio avec l'espace d'embedding du LLM, nous entraînons Video-LLaMA sur un vaste ensemble de données de légendes visuelles et un ensemble de données de réglage d'instructions visuelles de haute qualité. Nous constatons que Video-LLaMA démontre la capacité de percevoir et de comprendre le contenu vidéo, générant des réponses significatives ancrées dans les informations visuelles et auditives présentes dans les vidéos. Cela souligne le potentiel de Video-LLaMA en tant que prototype prometteur pour des assistants IA audio-visuels. Notre code, modèle pré-entraîné et démonstration sont disponibles à l'adresse suivante : https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot est un projet novateur visant à améliorer les performances des modèles de langage multilingues pour les langues non anglophones. Malgré la disponibilité de divers modèles multilingues tels que mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) et BLOOM (Scao et al., 2022), les chercheurs et développeurs se tournent souvent vers la création de modèles monolingues dans leurs langues respectives en raison de l'insatisfaction quant aux capacités actuelles des modèles multilingues pour les langues non anglophones. Pour combler cette lacune, nous cherchons à développer des modèles de langage multilingues avancés offrant de meilleures performances pour les langues non anglophones. Dans cet article, nous présentons les modèles Polyglot Korean, qui se concentrent spécifiquement sur le coréen plutôt que d'être multilingues. En collaboration avec TUNiB, notre équipe a collecté 1,2 To de données coréennes soigneusement sélectionnées pour notre recherche. Nous avons pris la décision délibérée de privilégier le développement de modèles coréens avant de nous lancer dans des modèles multilingues. Ce choix a été motivé par plusieurs facteurs : premièrement, les modèles coréens ont permis des comparaisons de performances avec les modèles multilingues existants ; et enfin, ils répondent aux besoins spécifiques des entreprises et chercheurs coréens. Cet article présente notre travail sur le développement des modèles Polyglot Korean, qui proposent des étapes pour combler l'écart de performance des langues non anglophones dans les modèles de langage multilingues.
Les modèles de langage de grande taille (LLMs) bénéficient considérablement de l'incitation par chaîne de pensée (Chain-of-Thought, CoT) pour accomplir diverses tâches de raisonnement. Bien que la CoT permette aux modèles de produire des processus de raisonnement plus complets, son accent sur les étapes intermédiaires de raisonnement peut introduire involontairement des hallucinations et des erreurs accumulées, limitant ainsi la capacité des modèles à résoudre des tâches de raisonnement complexes. Inspirés par la manière dont les humains s'engagent dans des processus de raisonnement logique déductif minutieux et méticuleux pour résoudre des tâches, nous cherchons à permettre aux modèles de langage d'effectuer un raisonnement déductif explicite et rigoureux, tout en assurant la fiabilité de leur processus de raisonnement grâce à l'auto-vérification. Cependant, vérifier directement la validité d'un processus de raisonnement déductif entier est difficile, même avec des modèles avancés comme ChatGPT. Face à cela, nous proposons de décomposer un processus de vérification de raisonnement en une série de sous-processus étape par étape, chacun ne recevant que le contexte et les prémisses nécessaires. Pour faciliter cette procédure, nous proposons le Programme Naturel, un format de raisonnement déductif basé sur le langage naturel. Notre approche permet aux modèles de générer des étapes de raisonnement précises où les étapes suivantes sont plus rigoureusement fondées sur les étapes précédentes. Elle permet également aux modèles de langage d'effectuer une auto-vérification du raisonnement de manière progressive. En intégrant ce processus de vérification à chaque étape du raisonnement déductif, nous améliorons significativement la rigueur et la fiabilité des étapes de raisonnement générées. Tout au long de ce processus, nous améliorons également la justesse des réponses pour les tâches de raisonnement complexes. Le code sera disponible à l'adresse suivante : https://github.com/lz1oceani/verify_cot.
La mise à l'échelle de la synthèse vocale (text-to-speech) sur un vaste et diversifié ensemble de données s'est avérée très efficace pour généraliser le timbre et le style de parole, en particulier dans le cadre de la synthèse vocale zero-shot. Cependant, les travaux précédents encodent généralement la parole en latence à l'aide d'un codec audio et utilisent des modèles de langage autoregressifs ou des modèles de diffusion pour la générer, ce qui ignore la nature intrinsèque de la parole et peut conduire à des résultats inférieurs ou incontrôlables. Nous soutenons que la parole peut être décomposée en plusieurs attributs (par exemple, le contenu, le timbre, la prosodie et la phase) et que chacun d'eux devrait être modélisé à l'aide d'un module doté de biais inductifs appropriés. Dans cette perspective, nous concevons soigneusement un nouveau système de synthèse vocale zero-shot appelé Mega-TTS, qui est entraîné sur des données massives et variées et modélise les différents attributs de différentes manières : 1) Au lieu d'utiliser une latence encodée par un codec audio comme caractéristique intermédiaire, nous choisissons toujours le spectrogramme car il sépare bien la phase des autres attributs. La phase peut être correctement construite par un vocodeur basé sur GAN et n'a pas besoin d'être modélisée par le modèle de langage. 2) Nous modélisons le timbre à l'aide de vecteurs globaux, car le timbre est un attribut global qui évolue lentement dans le temps. 3) Nous utilisons en outre un modèle acoustique basé sur VQGAN pour générer le spectrogramme et un modèle de langage de code latent pour ajuster la distribution de la prosodie, car la prosodie change rapidement dans une phrase, et les modèles de langage peuvent capturer à la fois les dépendances locales et à long terme. Nous mettons à l'échelle Mega-TTS sur des ensembles de données multi-domaines contenant 20 000 heures de parole et évaluons ses performances sur des locuteurs inconnus. Les résultats expérimentaux démontrent que Mega-TTS surpasse les systèmes de synthèse vocale de pointe dans les tâches de synthèse zero-shot, d'édition de parole et de synthèse multilingue, avec une naturalité, une robustesse et une similarité de locuteur supérieures grâce aux biais inductifs appropriés de chaque module. Des échantillons audio sont disponibles à l'adresse https://mega-tts.github.io/demo-page.
Nous présentons MotionDiffuser, une représentation basée sur la diffusion pour la distribution conjointe des trajectoires futures de multiples agents. Une telle représentation présente plusieurs avantages clés : premièrement, notre modèle apprend une distribution hautement multimodale qui capture une diversité de résultats futurs. Deuxièmement, la conception simple du prédicteur ne nécessite qu'un seul objectif d'entraînement par perte L2 et ne dépend pas d'ancres de trajectoire. Troisièmement, notre modèle est capable d'apprendre la distribution conjointe du mouvement de plusieurs agents de manière invariante par permutation. De plus, nous utilisons une représentation compressée des trajectoires via l'ACP, ce qui améliore les performances du modèle et permet un calcul efficace de la probabilité logarithmique exacte des échantillons. Par la suite, nous proposons un cadre général d'échantillonnage contraint qui permet un échantillonnage contrôlé des trajectoires basé sur des fonctions de coût différentiables. Cette stratégie permet une multitude d'applications telles que l'application de règles et de préférences physiques, ou la création de scénarios de simulation sur mesure. MotionDiffuser peut être combiné avec des architectures de base existantes pour obtenir des résultats de pointe en prévision de mouvement. Nous obtenons des résultats de pointe pour la prédiction de mouvement multi-agent sur le jeu de données Waymo Open Motion.
Récemment, les méthodes génératives 3D guidées par texte ont réalisé des avancées remarquables dans la production de textures et de géométries de haute qualité, profitant de la prolifération des grands modèles vision-langage et de diffusion d'images. Cependant, les méthodes existantes peinent encore à créer des avatars 3D de têtes haute fidélité sur deux aspects : (1) Elles s'appuient principalement sur un modèle de diffusion texte-à-image pré-entraîné tout en manquant de conscience 3D et de connaissances préalables sur les têtes. Cela les rend sujettes à des incohérences et des distorsions géométriques dans les avatars générés. (2) Elles sont limitées en matière d'édition fine. Cela est principalement dû aux limitations héritées des modèles de diffusion d'images 2D pré-entraînés, qui deviennent plus prononcées lorsqu'il s'agit d'avatars 3D de têtes. Dans ce travail, nous relevons ces défis en introduisant une pipeline polyvalente allant du grossier au fin, appelée HeadSculpt, pour créer (c'est-à-dire générer et éditer) des avatars 3D de têtes à partir de prompts textuels. Plus précisément, nous dotons d'abord le modèle de diffusion d'une conscience 3D en exploitant un contrôle basé sur des points de repère et un embedding textuel appris représentant l'apparence de la vue arrière des têtes, permettant ainsi des générations d'avatars de têtes cohérentes en 3D. Nous proposons en outre une nouvelle stratégie de distillation de score d'édition consciente de l'identité pour optimiser un maillage texturé avec une technique de rendu différentiable haute résolution. Cela permet de préserver l'identité tout en suivant les instructions d'édition. Nous démontrons la fidélité supérieure et les capacités d'édition de HeadSculpt à travers des expériences approfondies et des comparaisons avec les méthodes existantes.
Nous proposons PolyVoice, un framework basé sur un modèle de langage pour un système de traduction parole-à-parole (S2ST). Notre framework est composé de deux modèles de langage : un modèle de traduction et un modèle de synthèse vocale. Nous utilisons des unités de parole discrétisées, générées de manière entièrement non supervisée, ce qui permet à notre framework d'être utilisé pour des langues non écrites. Pour la partie synthèse vocale, nous adoptons l'approche existante VALL-E X et construisons un modèle de langage audio basé sur des unités. Cela confère à notre framework la capacité de préserver les caractéristiques vocales et le style d'élocution du discours original. Nous testons notre système sur les paires chinois ⇒ anglais et anglais ⇒ espagnol. Les résultats expérimentaux montrent que notre système peut générer une parole de haute qualité tant en termes de traduction que de qualité audio. Des échantillons vocaux sont disponibles à l'adresse https://speechtranslation.github.io/polyvoice.
Les grands modèles de langage entraînés sur du code ont démontré un potentiel considérable pour augmenter la productivité des développeurs de logiciels. Plusieurs benchmarks basés sur l'exécution ont été proposés pour évaluer la correction fonctionnelle du code généré par les modèles sur des problèmes de programmation simples. Néanmoins, il est coûteux de réaliser la même évaluation sur des projets complexes du monde réel en raison des coûts d'exécution. À l'inverse, les outils d'analyse statique tels que les linters, qui peuvent détecter des erreurs sans exécuter le programme, n'ont pas été suffisamment explorés pour évaluer les modèles de génération de code. Dans ce travail, nous proposons un cadre d'évaluation statique pour quantifier les erreurs statiques dans les complétions de code Python, en exploitant les arbres syntaxiques abstraits. Par rapport à l'évaluation basée sur l'exécution, notre méthode est non seulement plus efficace, mais aussi applicable au code en situation réelle. Pour les expériences, nous collectons des contextes de code à partir de dépôts open source pour générer un million de corps de fonctions à l'aide de modèles publics. Notre analyse statique révèle que les erreurs les plus courantes parmi celles commises par les modèles de langage sont les noms non définis et les variables inutilisées. À travers des études approfondies, nous montrons également l'impact de la température d'échantillonnage, de la taille du modèle et du contexte sur les erreurs statiques dans les complétions de code.
Les modèles probabilistes de diffusion par débruitage ont révolutionné la génération d'images grâce à leur fidélité et leur diversité impressionnantes. Nous démontrons qu'ils excellent également dans l'estimation du flux optique et de la profondeur monoculaire, étonnamment sans architectures ni fonctions de perte spécifiques à ces tâches, pourtant prédominantes. Par rapport aux estimations ponctuelles des méthodes conventionnelles basées sur la régression, les modèles de diffusion permettent également une inférence de Monte Carlo, par exemple en captant l'incertitude et l'ambiguïté dans le flux et la profondeur. Avec un pré-entraînement auto-supervisé, l'utilisation combinée de données synthétiques et réelles pour l'entraînement supervisé, et des innovations techniques (remplissage et entraînement de diffusion par débruitage avec déroulement d'étapes) pour gérer les données d'entraînement bruyantes et incomplètes, ainsi qu'une forme simple de raffinement grossier à fin, il est possible d'entraîner des modèles de diffusion de pointe pour l'estimation de la profondeur et du flux optique. Des expériences approfondies se concentrent sur les performances quantitatives par rapport aux benchmarks, les ablations, et la capacité du modèle à capturer l'incertitude et la multimodalité, ainsi qu'à imputer les valeurs manquantes. Notre modèle, DDVM (Denoising Diffusion Vision Model), obtient une erreur relative de profondeur de pointe de 0,074 sur le benchmark NYU en intérieur et un taux d'erreur Fl-all de 3,26 % sur le benchmark KITTI pour le flux optique, soit environ 25 % de mieux que la meilleure méthode publiée. Pour un aperçu, voir https://diffusion-vision.github.io.
Les réseaux de neurones ternaires et binaires permettent un calcul sans multiplication et promettent des gains d'efficacité de plusieurs ordres de grandeur par rapport aux réseaux en pleine précision s'ils sont implémentés sur du matériel spécialisé. Cependant, étant donné que les espaces des paramètres et des sorties sont fortement discrétisés, l'optimisation de tels réseaux s'est avérée très difficile. Ces difficultés sont amplifiées pour la classe des modèles de génération de texte basés sur les transformateurs, en raison de la sensibilité de l'opération d'attention à la quantification et des effets cumulatifs du bruit lors du décodage auto-régressif dans l'espace de sortie à cardinalité élevée. Nous abordons ce problème avec une combinaison de quantification basée sur les statistiques pour les poids et de quantification élastique des activations, et démontrons les premiers modèles de transformateurs ternaires et binaires sur les tâches de résumé et de traduction automatique. Notre modèle BART ternaire de base atteint un score R1 de 41 sur le benchmark CNN/DailyMail, ce qui est seulement 3,9 points en dessous du modèle en pleine précision tout en étant 16 fois plus efficace. Notre modèle binaire, bien que moins précis, atteint un score non négligeable de 35,6. Pour la traduction automatique, nous avons obtenu des scores BLEU de 21,7 et 17,6 sur le benchmark WMT16 En-Ro, contre un score de 26,8 pour le modèle mBART en pleine précision. Nous comparons également notre approche dans le cadre des activations 8 bits, où nos modèles ternaires et même binaires peuvent égaler ou surpasser les meilleurs modèles 8 bits existants dans la littérature. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/Ternary_Binary_Transformer
L'effacement de concepts vise à supprimer des caractéristiques spécifiques d'une représentation. Il peut être utilisé pour améliorer l'équité (par exemple, empêcher un classifieur d'utiliser le genre ou la race) et l'interprétabilité (par exemple, supprimer un concept pour observer les changements dans le comportement du modèle). Dans cet article, nous présentons LEAst-squares Concept Erasure (LEACE), une méthode en forme fermée qui empêche de manière prouvée tous les classifieurs linéaires de détecter un concept tout en infligeant le moins de dommages possible à la représentation. Nous appliquons LEACE à des modèles de langage de grande taille avec une nouvelle procédure appelée "nettoyage de concepts", qui efface les informations du concept cible de chaque couche du réseau. Nous démontrons l'utilité de notre méthode sur deux tâches : mesurer la dépendance des modèles de langage vis-à-vis des informations sur les parties du discours, et réduire le biais de genre dans les embeddings de BERT. Le code est disponible à l'adresse https://github.com/EleutherAI/concept-erasure.
Nous présentons Semantic Interpreter, un système d'IA convivial pour le langage naturel destiné aux logiciels de productivité tels que Microsoft Office, qui exploite les modèles de langage de grande taille (LLMs) pour exécuter l'intention de l'utilisateur à travers les fonctionnalités des applications. Bien que les LLMs soient excellents pour comprendre l'intention de l'utilisateur exprimée en langage naturel, ils ne suffisent pas à satisfaire les intentions spécifiques aux applications qui nécessitent plus que des transformations texte-à-texte. Nous introduisons donc l'Office Domain Specific Language (ODSL), un langage concis et de haut niveau spécialisé pour effectuer des actions et interagir avec les entités dans les applications Office. Semantic Interpreter utilise une méthode de construction d'invites d'analyse-récupération avec les LLMs pour la synthèse de programmes, traduisant les énoncés en langage naturel de l'utilisateur en programmes ODSL qui peuvent être transpilés en APIs d'applications puis exécutés. Nous concentrons notre discussion principalement sur une exploration de recherche pour Microsoft PowerPoint.
Les grands modèles de langage pour le code (Code-LLMs) ont récemment apporté des avancées considérables dans la complétion de code, une fonctionnalité fondamentale de l'assistance à la programmation et de l'intelligence du code. Cependant, la plupart des travaux existants ignorent la présence potentielle de bugs dans le contexte du code utilisé pour la génération, qui sont inévitables dans le développement logiciel. Par conséquent, nous introduisons et étudions le problème de la complétion de code bogué, inspiré par le scénario réaliste des suggestions de code en temps réel où le contexte contient des bugs potentiels — des anti-modèles qui peuvent devenir des bugs dans le programme complété. Pour étudier cette tâche de manière systématique, nous introduisons deux jeux de données : l'un avec des bugs synthétiques dérivés de modifications d'opérateurs altérant la sémantique (buggy-HumanEval) et l'autre avec des bugs réalistes issus de soumissions d'utilisateurs à des problèmes de codage (buggy-FixEval). Nous constatons que la présence de bugs potentiels dégrade significativement les performances de génération des Code-LLMs hautement performants. Par exemple, les taux de réussite de CodeGen-2B-mono sur les cas de test de buggy-HumanEval chutent de plus de 50 % en présence d'un seul bug potentiel dans le contexte. Enfin, nous explorons plusieurs méthodes post-hoc pour atténuer l'effet négatif des bugs potentiels et constatons qu'il reste un écart important dans les performances après atténuation.
La reconstruction de surfaces neuronales s'est avérée puissante pour récupérer des surfaces 3D denses via le rendu neuronal basé sur des images. Cependant, les méthodes actuelles peinent à restituer les structures détaillées des scènes du monde réel. Pour résoudre ce problème, nous présentons Neuralangelo, qui combine la puissance de représentation des grilles 3D multi-résolution avec le rendu neuronal de surfaces. Deux éléments clés permettent notre approche : (1) les gradients numériques pour calculer des dérivées d'ordre supérieur en tant qu'opération de lissage et (2) une optimisation allant du grossier au fin sur les grilles de hachage contrôlant différents niveaux de détails. Même sans entrées auxiliaires telles que la profondeur, Neuralangelo peut efficacement récupérer des structures de surfaces 3D denses à partir d'images multi-vues avec une fidélité surpassant significativement les méthodes précédentes, permettant une reconstruction détaillée de scènes à grande échelle à partir de captures vidéo RGB.
Avec le développement des grands modèles de langage, de nombreux systèmes linguistiques remarquables comme ChatGPT ont prospéré et obtenu un succès impressionnant sur de nombreuses tâches, démontrant la puissance incroyable des modèles de base. Dans l'optique d'exploiter les capacités de ces modèles de base pour les tâches de vision, le Segment Anything Model (SAM), un modèle de base pour la segmentation d'images, a été récemment proposé et présente une forte capacité de généralisation en zero-shot sur de nombreuses tâches 2D en aval. Cependant, la possibilité d'adapter SAM aux tâches de vision 3D reste à explorer, en particulier pour la détection d'objets 3D. Inspirés par cette idée, nous explorons dans cet article l'adaptation de la capacité de généralisation en zero-shot de SAM à la détection d'objets 3D. Nous proposons un pipeline de traitement BEV alimenté par SAM pour détecter des objets et obtenons des résultats prometteurs sur le vaste jeu de données ouvert Waymo. En tant que tentative précoce, notre méthode fait un pas vers la détection d'objets 3D avec des modèles de base de vision et ouvre la voie à l'exploitation de leur puissance pour les tâches de vision 3D. Le code est disponible à l'adresse suivante : https://github.com/DYZhang09/SAM3D.
Cet article technique présente un système de robot conversationnel qui exploite les récentes avancées dans les modèles de langage à grande échelle (LLMs) tels que GPT-3 et ChatGPT. Le système est intégré à un générateur de gestes co-parole, qui sélectionne des gestes appropriés en fonction de la signification conceptuelle du discours. Notre motivation est d'explorer des moyens d'utiliser les progrès récents des LLMs pour des applications robotiques pratiques, ce qui profite au développement à la fois des chatbots et des LLMs. Plus précisément, cela permet le développement de systèmes de chatbots hautement réactifs en tirant parti des LLMs et ajoute des effets visuels à l'interface utilisateur des LLMs comme valeur ajoutée. Le code source du système est disponible sur GitHub pour notre robot interne (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) et sur GitHub pour le Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
Les modèles autorégressifs pour le texte génèrent parfois des sorties répétitives et de faible qualité en raison de l'accumulation d'erreurs au cours des étapes de génération. Ce problème est souvent attribué au biais d'exposition - la différence entre la manière dont un modèle est entraîné et la manière dont il est utilisé lors de l'inférence. Les modèles de diffusion par débruitage offrent une approche alternative dans laquelle un modèle peut revisiter et réviser sa sortie. Cependant, ils peuvent être coûteux en termes de calcul, et les efforts précédents sur le texte ont conduit à des modèles produisant des sorties moins fluides que les modèles autorégressifs, en particulier pour des textes et paragraphes plus longs. Dans cet article, nous proposons PLANNER, un modèle qui combine la diffusion sémantique latente avec la génération autorégressive, pour générer un texte fluide tout en exerçant un contrôle global sur les paragraphes. Le modèle y parvient en combinant un module de "décodage" autorégressif avec un module de "planification" qui utilise la diffusion latente pour générer des embeddings sémantiques de paragraphes de manière grossière à fine. La méthode proposée est évaluée sur diverses tâches de génération conditionnelle, et les résultats sur la génération sémantique, la complétion de texte et la synthèse montrent son efficacité à générer des textes longs de haute qualité de manière efficiente.
Les modèles vision-langage (VLMs) pré-entraînés de manière discriminative avec des fonctions de perte contrastives d'appariement image-texte telles que P(match|texte, image) ont été critiqués pour leur manque de compréhension compositionnelle. Cela signifie qu'ils peuvent produire des scores similaires même si la légende originale est réorganisée en une déclaration sémantique différente. Pour remédier à cela, nous proposons d'utiliser le {bf S}core de {bf P}re-{bf E}ntraînement {bf G}énératif {bf V}isuel ({bf VisualGPTScore}) de P(texte|image), un score génératif multimodal qui capture la probabilité d'une légende textuelle conditionnée à une image en utilisant un modèle de langage conditionné par l'image. Contrairement à l'idée que les VLMs sont de simples modèles de sacs de mots, notre VisualGPTScore prêt à l'emploi démontre des performances de premier plan sur des benchmarks récemment proposés pour la recherche d'images-textes comme ARO et Crepe, qui évaluent le raisonnement compositionnel. De plus, nous factorisons VisualGPTScore en un produit de la marginale P(texte) et de l'Information Mutuelle Ponctuelle (PMI). Cela permet de (a) diagnostiquer les ensembles de données présentant un fort biais linguistique, et (b) de débiaiser les résultats sur d'autres benchmarks comme Winoground en utilisant un cadre information-théorique. VisualGPTScore fournit des insights précieux et sert de référence solide pour l'évaluation future de la compositionnalité visio-linguistique.
Les grands modèles texte-à-vidéo entraînés sur des données à l'échelle d'Internet ont démontré des capacités exceptionnelles à générer des vidéos de haute fidélité à partir de descriptions textuelles arbitraires. Cependant, l'adaptation de ces modèles à des tâches avec des données spécifiques limitées, comme l'animation ou les vidéos de robotique, représente un défi computationnel important, car le fine-tuning d'un grand modèle pré-entraîné peut s'avérer prohibitif en termes de coût. Inspirés par la manière dont un petit composant modifiable (par exemple, les prompts, le prefix-tuning) peut adapter un grand modèle de langage pour effectuer de nouvelles tâches sans nécessiter l'accès aux poids du modèle, nous explorons comment adapter un grand modèle texte-à-vidéo pré-entraîné à une variété de domaines et tâches en aval sans fine-tuning. Pour répondre à cette question, nous proposons Video Adapter, qui exploite la fonction de score d'un grand modèle de diffusion vidéo pré-entraîné comme un a priori probabiliste pour guider la génération d'un petit modèle vidéo spécifique à une tâche. Nos expériences montrent que Video Adapter est capable d'intégrer les connaissances étendues et de préserver la haute fidélité d'un grand modèle vidéo pré-entraîné dans un petit modèle vidéo spécifique à une tâche, capable de générer des vidéos de haute qualité mais spécialisées sur une variété de tâches telles que l'animation, la modélisation égocentrique, et la modélisation de données de robotique simulées et réelles. Plus de vidéos sont disponibles sur le site https://video-adapter.github.io/.
Les vulnérabilités logicielles engendrent des coûts significatifs pour les entreprises. Malgré des efforts considérables dans la recherche et le développement de méthodes de détection des vulnérabilités logicielles, les failles non détectées continuent de mettre en danger les propriétaires et les utilisateurs de logiciels. De nombreuses méthodes actuelles de détection des vulnérabilités nécessitent que les extraits de code puissent être compilés et construits avant de tenter une détection. Cela introduit malheureusement une latence importante entre le moment où une vulnérabilité est injectée et celui où elle est corrigée, ce qui peut considérablement augmenter le coût de réparation d'une vulnérabilité. Nous reconnaissons que les avancées récentes en apprentissage automatique peuvent être utilisées pour détecter des motifs de code vulnérables dans des extraits de code syntaxiquement incomplets, au moment même où le développeur écrit le code, c'est-à-dire à l'EditTime. Dans cet article, nous présentons un système pratique qui exploite l'apprentissage profond sur un ensemble de données à grande échelle de motifs de code vulnérables pour apprendre les manifestations complexes de plus de 250 types de vulnérabilités et détecter les motifs de code vulnérables à l'EditTime. Nous discutons des approches zero-shot, few-shot et de fine-tuning sur des modèles de langage pré-entraînés (LLMs) de pointe. Nous montrons que, par rapport aux modèles de détection de vulnérabilités de pointe, notre approche améliore l'état de l'art de 10 %. Nous évaluons également notre approche pour détecter les vulnérabilités dans le code auto-généré par les LLMs. L'évaluation sur un benchmark de scénarios de code à haut risque montre une réduction des vulnérabilités pouvant atteindre 90 %.