papers.description
Les méthodes de fine-tuning paramétriquement efficaces (PEFT) visent à adapter les grands modèles via des mises à jour d'un petit nombre de poids. Cependant, de nombreux travaux antérieurs en interprétabilité ont montré que les représentations encodent des informations sémantiques riches, suggérant que la modification des représentations pourrait constituer une alternative plus puissante. Ici, nous explorons cette hypothèse en développant une famille de méthodes de Fine-tuning des Représentations (ReFT). Les méthodes ReFT opèrent sur un modèle de base figé et apprennent des interventions spécifiques à la tâche sur les représentations cachées. Nous définissons une instance forte de la famille ReFT, le ReFT de Sous-espace Linéaire de Bas Rang (LoReFT). LoReFT est un remplacement direct des PEFT existants et apprend des interventions qui sont 10 à 50 fois plus efficaces en termes de paramètres que les PEFT de pointe précédents. Nous présentons LoReFT sur huit tâches de raisonnement de bon sens, quatre tâches de raisonnement arithmétique, Alpaca-Eval v1.0 et GLUE. Dans toutes ces évaluations, LoReFT offre le meilleur équilibre entre efficacité et performance, et surpasse presque toujours les PEFT de pointe. Nous rendons publique une bibliothèque générique d'entraînement ReFT à l'adresse https://github.com/stanfordnlp/pyreft.
Les modèles de diffusion ont démontré un grand succès dans le domaine de la génération d'images à partir de texte. Cependant, atténuer le désalignement entre les invites textuelles et les images reste un défi. La raison fondamentale derrière ce désalignement n'a pas été largement étudiée. Nous observons que ce désalignement est causé par une activation insuffisante de l'attention des tokens. Nous attribuons ce phénomène à une utilisation inadéquate des conditions par le modèle de diffusion, résultant de son paradigme d'entraînement. Pour résoudre ce problème, nous proposons CoMat, une stratégie de fine-tuning de modèle de diffusion de bout en bout avec un mécanisme de correspondance conceptuelle image-texte. Nous utilisons un modèle de génération de légendes d'images pour mesurer l'alignement image-texte et guider le modèle de diffusion à revisiter les tokens ignorés. Un module de concentration d'attributs est également proposé pour résoudre le problème de liaison des attributs. Sans aucune donnée d'image ou de préférence humaine, nous utilisons seulement 20 000 invites textuelles pour fine-tuner SDXL et obtenir CoMat-SDXL. Des expériences approfondies montrent que CoMat-SDXL surpasse significativement le modèle de référence SDXL dans deux benchmarks d'alignement texte-image et atteint des performances de pointe.
Cet article présente MiniGPT4-Video, un modèle de langage multimodal (LLM) conçu spécifiquement pour la compréhension vidéo. Le modèle est capable de traiter à la fois des données visuelles temporelles et textuelles, ce qui le rend apte à comprendre les complexités des vidéos. S'appuyant sur le succès de MiniGPT-v2, qui excellait dans la traduction des caractéristiques visuelles dans l'espace LLM pour des images uniques et obtenait des résultats impressionnants sur divers benchmarks image-texte, cet article étend les capacités du modèle pour traiter une séquence d'images, lui permettant ainsi de comprendre les vidéos. MiniGPT4-video ne se contente pas de prendre en compte le contenu visuel, mais intègre également des conversations textuelles, permettant au modèle de répondre efficacement à des requêtes impliquant à la fois des composants visuels et textuels. Le modèle proposé surpasse les méthodes existantes de pointe, enregistrant des gains de 4,22 %, 1,13 %, 20,82 % et 13,1 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA respectivement. Nos modèles et notre code ont été rendus publics ici https://vision-cair.github.io/MiniGPT4-video/.
Dans le paysage en évolution rapide de l'intelligence artificielle, les modèles de langage multi-modaux de grande échelle émergent comme un domaine d'intérêt majeur. Ces modèles, qui combinent diverses formes de données d'entrée, gagnent en popularité. Cependant, comprendre leurs mécanismes internes reste une tâche complexe. De nombreuses avancées ont été réalisées dans le domaine des outils et mécanismes d'explicabilité, mais il reste encore beaucoup à explorer. Dans ce travail, nous présentons une nouvelle application interactive visant à comprendre les mécanismes internes des grands modèles vision-langage. Notre interface est conçue pour améliorer l'interprétabilité des patches d'images, qui jouent un rôle crucial dans la génération d'une réponse, et pour évaluer l'efficacité du modèle de langage à ancrer sa sortie dans l'image. Avec notre application, un utilisateur peut investiguer systématiquement le modèle et découvrir les limites du système, ouvrant la voie à des améliorations des capacités du système. Enfin, nous présentons une étude de cas montrant comment notre application peut aider à comprendre les mécanismes d'échec dans un modèle multi-modal populaire : LLaVA.
Dans cet article, nous explorons l'idée d'entraîner des modèles de langage de grande taille (LLMs) sur du texte hautement compressé. Alors que les tokenizers standards basés sur des sous-mots compressent le texte par un petit facteur, les compresseurs de texte neuronaux peuvent atteindre des taux de compression bien plus élevés. S'il était possible d'entraîner des LLMs directement sur du texte compressé de manière neuronale, cela conférerait des avantages en termes d'efficacité d'entraînement et de déploiement, ainsi qu'une gestion plus aisée des longues séquences textuelles. Le principal obstacle à cet objectif est que la compression forte tend à produire des sorties opaques qui ne se prêtent pas bien à l'apprentissage. En particulier, nous constatons que le texte compressé de manière naïve via le codage arithmétique n'est pas facilement apprenable par les LLMs. Pour surmonter cela, nous proposons Equal-Info Windows, une nouvelle technique de compression où le texte est segmenté en blocs qui se compressent chacun à la même longueur en bits. En utilisant cette méthode, nous démontrons un apprentissage efficace sur du texte compressé de manière neuronale qui s'améliore avec l'échelle, et surpasse largement les modèles de référence au niveau des octes sur les benchmarks de perplexité et de vitesse d'inférence. Bien que notre méthode produise une perplexité plus élevée que les tokenizers basés sur des sous-mots pour des modèles entraînés avec le même nombre de paramètres, elle présente l'avantage de séquences plus courtes. Des séquences plus courtes nécessitent moins d'étapes de génération autoregressive et réduisent la latence. Enfin, nous fournissons une analyse approfondie des propriétés qui contribuent à l'apprenabilité, et proposons des suggestions concrètes pour améliorer davantage les performances des tokenizers à haute compression.
Les modèles de langage de grande taille (LLMs) pour le code évoluent rapidement, avec l'édition de code émergeant comme une capacité critique. Nous présentons CodeEditorBench, un cadre d'évaluation conçu pour évaluer rigoureusement les performances des LLMs dans les tâches d'édition de code, incluant le débogage, la traduction, le polissage et le changement de spécifications. Contrairement aux benchmarks existants qui se concentrent uniquement sur la génération de code, CodeEditorBench met l'accent sur des scénarios réels et des aspects pratiques du développement logiciel. Nous avons sélectionné des défis et scénarios de codage variés provenant de cinq sources, couvrant divers langages de programmation, niveaux de complexité et tâches d'édition. L'évaluation de 19 LLMs révèle que les modèles propriétaires (notamment Gemini-Ultra et GPT-4) surpassent les modèles open-source dans CodeEditorBench, mettant en lumière des différences de performance selon les types de problèmes et la sensibilité aux prompts. CodeEditorBench vise à catalyser les avancées des LLMs en fournissant une plateforme robuste pour évaluer les capacités d'édition de code. Nous publierons tous les prompts et jeux de données pour permettre à la communauté d'étendre le dataset et de benchmarker les nouveaux LLMs. En introduisant CodeEditorBench, nous contribuons à l'avancement des LLMs dans l'édition de code et offrons une ressource précieuse pour les chercheurs et les praticiens.
Nous présentons PointInfinity, une famille efficace de modèles de diffusion pour nuages de points. Notre idée centrale est d'utiliser une architecture basée sur des transformateurs avec une représentation latente de taille fixe et invariante à la résolution. Cela permet un entraînement efficace avec des nuages de points de basse résolution, tout en permettant la génération de nuages de points haute résolution lors de l'inférence. Plus important encore, nous montrons que l'augmentation de la résolution au moment du test au-delà de la résolution d'entraînement améliore la fidélité des nuages de points et des surfaces générés. Nous analysons ce phénomène et établissons un lien avec le guidage sans classificateur couramment utilisé dans les modèles de diffusion, démontrant que les deux permettent de faire un compromis entre fidélité et variabilité lors de l'inférence. Les expériences sur CO3D montrent que PointInfinity peut générer efficacement des nuages de points haute résolution (jusqu'à 131k points, 31 fois plus que Point-E) avec une qualité de pointe.
Diverses attaques de jailbreak ont été proposées pour tester en rouge les modèles de langage de grande taille (LLMs) et ont révélé les protections vulnérables de ces derniers. Par ailleurs, certaines méthodes ne se limitent pas à la modalité textuelle et étendent l'attaque de jailbreak aux modèles de langage multimodaux de grande taille (MLLMs) en perturbant l'entrée visuelle. Cependant, l'absence d'un benchmark universel d'évaluation complique la reproduction des performances et la comparaison équitable. De plus, il manque une évaluation complète des modèles propriétaires fermés de pointe (SOTA), en particulier des MLLMs, tels que GPT-4V. Pour résoudre ces problèmes, ce travail commence par construire un ensemble de données d'évaluation de jailbreak complet avec 1445 questions nuisibles couvrant 11 politiques de sécurité différentes. Sur la base de cet ensemble de données, des expériences approfondies de test en rouge sont menées sur 11 LLMs et MLLMs différents, incluant à la fois des modèles propriétaires SOTA et des modèles open-source. Nous effectuons ensuite une analyse approfondie des résultats évalués et constatons que (1) GPT4 et GPT-4V démontrent une meilleure robustesse contre les attaques de jailbreak par rapport aux LLMs et MLLMs open-source. (2) Llama2 et Qwen-VL-Chat sont plus robustes par rapport aux autres modèles open-source. (3) La transférabilité des méthodes de jailbreak visuel est relativement limitée par rapport aux méthodes de jailbreak textuel. L'ensemble de données et le code peuvent être trouvés ici https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
Nous présentons RALL-E, une méthode robuste de modélisation du langage pour la synthèse texte-à-parole (TTS). Bien que les travaux précédents basés sur les grands modèles de langage (LLM) montrent des performances impressionnantes en TTS zero-shot, ces méthodes souffrent souvent d'une faible robustesse, comme une prosodie instable (hauteur et rythme/durée étranges) et un taux d'erreur sur les mots (WER) élevé, en raison du style de prédiction autoregressif des modèles de langage. L'idée centrale de RALL-E est l'incitation par chaîne de pensée (CoT), qui décompose la tâche en étapes plus simples pour améliorer la robustesse du TTS basé sur les LLM. Pour réaliser cette idée, RALL-E prédit d'abord les caractéristiques de prosodie (hauteur et durée) du texte d'entrée et les utilise comme conditions intermédiaires pour prédire les tokens de parole dans un style CoT. Ensuite, RALL-E utilise l'incitation de durée prédite pour guider le calcul des poids d'auto-attention dans le Transformer, afin de forcer le modèle à se concentrer sur les phonèmes et les caractéristiques de prosodie correspondants lors de la prédiction des tokens de parole. Les résultats d'évaluations objectives et subjectives approfondies démontrent que, par rapport à une méthode de référence puissante, VALL-E, RALL-E améliore significativement le WER du TTS zero-shot, passant de 6,3 % (sans reclassement) et 2,1 % (avec reclassement) à 2,8 % et 1,0 %, respectivement. De plus, nous montrons que RALL-E synthétise correctement des phrases difficiles pour VALL-E et réduit le taux d'erreur de 68 % à 4 %.