papers.title

papers.description

ReFT : Affinage des Représentations pour les Modèles de Langage
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

Les méthodes de fine-tuning paramétriquement efficaces (PEFT) visent à adapter les grands modèles via des mises à jour d'un petit nombre de poids. Cependant, de nombreux travaux antérieurs en interprétabilité ont montré que les représentations encodent des informations sémantiques riches, suggérant que la modification des représentations pourrait constituer une alternative plus puissante. Ici, nous explorons cette hypothèse en développant une famille de méthodes de Fine-tuning des Représentations (ReFT). Les méthodes ReFT opèrent sur un modèle de base figé et apprennent des interventions spécifiques à la tâche sur les représentations cachées. Nous définissons une instance forte de la famille ReFT, le ReFT de Sous-espace Linéaire de Bas Rang (LoReFT). LoReFT est un remplacement direct des PEFT existants et apprend des interventions qui sont 10 à 50 fois plus efficaces en termes de paramètres que les PEFT de pointe précédents. Nous présentons LoReFT sur huit tâches de raisonnement de bon sens, quatre tâches de raisonnement arithmétique, Alpaca-Eval v1.0 et GLUE. Dans toutes ces évaluations, LoReFT offre le meilleur équilibre entre efficacité et performance, et surpasse presque toujours les PEFT de pointe. Nous rendons publique une bibliothèque générique d'entraînement ReFT à l'adresse https://github.com/stanfordnlp/pyreft.

CoMat : Alignement des modèles de diffusion texte-image avec la correspondance conceptuelle image-texte
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

Les modèles de diffusion ont démontré un grand succès dans le domaine de la génération d'images à partir de texte. Cependant, atténuer le désalignement entre les invites textuelles et les images reste un défi. La raison fondamentale derrière ce désalignement n'a pas été largement étudiée. Nous observons que ce désalignement est causé par une activation insuffisante de l'attention des tokens. Nous attribuons ce phénomène à une utilisation inadéquate des conditions par le modèle de diffusion, résultant de son paradigme d'entraînement. Pour résoudre ce problème, nous proposons CoMat, une stratégie de fine-tuning de modèle de diffusion de bout en bout avec un mécanisme de correspondance conceptuelle image-texte. Nous utilisons un modèle de génération de légendes d'images pour mesurer l'alignement image-texte et guider le modèle de diffusion à revisiter les tokens ignorés. Un module de concentration d'attributs est également proposé pour résoudre le problème de liaison des attributs. Sans aucune donnée d'image ou de préférence humaine, nous utilisons seulement 20 000 invites textuelles pour fine-tuner SDXL et obtenir CoMat-SDXL. Des expériences approfondies montrent que CoMat-SDXL surpasse significativement le modèle de référence SDXL dans deux benchmarks d'alignement texte-image et atteint des performances de pointe.

AutoWebGLM : Amorçage et renforcement d'un agent de navigation web basé sur un grand modèle de langage
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

Les grands modèles de langage (LLMs) ont alimenté de nombreuses tâches d'agents intelligents, telles que la navigation sur le web. Cependant, la plupart des agents existants sont loin d'être satisfaisants sur les pages web réelles en raison de trois facteurs : (1) la polyvalence des actions sur les pages web, (2) le texte HTML dépassant la capacité de traitement des modèles, et (3) la complexité de la prise de décision due à la nature ouverte du web. Face à ce défi, nous avons développé AutoWebGLM, un agent automatisé de navigation web surpassant GPT-4, basé sur ChatGLM3-6B. Inspirés par les habitudes de navigation humaine, nous avons conçu un algorithme de simplification HTML pour représenter les pages web, en conservant les informations essentielles de manière concise. Nous utilisons une méthode hybride humain-IA pour construire des données de navigation web destinées à un entraînement progressif. Ensuite, nous améliorons le modèle par apprentissage par renforcement et échantillonnage par rejet pour faciliter la compréhension des pages web, les opérations de navigation et la décomposition efficace des tâches par lui-même. Pour les tests, nous avons établi un benchmark bilingue -- AutoWebBench -- pour les tâches de navigation web réelles. Nous évaluons AutoWebGLM sur divers benchmarks de navigation web, révélant ses améliorations mais aussi les défis sous-jacents à relever pour s'adapter aux environnements réels. Le code, le modèle et les données associés seront publiés sur https://github.com/THUDM/AutoWebGLM.

MiniGPT4-Video : Faire progresser les LLM multimodaux pour la compréhension vidéo grâce à des tokens visuels-textuels entrelacés
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

Cet article présente MiniGPT4-Video, un modèle de langage multimodal (LLM) conçu spécifiquement pour la compréhension vidéo. Le modèle est capable de traiter à la fois des données visuelles temporelles et textuelles, ce qui le rend apte à comprendre les complexités des vidéos. S'appuyant sur le succès de MiniGPT-v2, qui excellait dans la traduction des caractéristiques visuelles dans l'espace LLM pour des images uniques et obtenait des résultats impressionnants sur divers benchmarks image-texte, cet article étend les capacités du modèle pour traiter une séquence d'images, lui permettant ainsi de comprendre les vidéos. MiniGPT4-video ne se contente pas de prendre en compte le contenu visuel, mais intègre également des conversations textuelles, permettant au modèle de répondre efficacement à des requêtes impliquant à la fois des composants visuels et textuels. Le modèle proposé surpasse les méthodes existantes de pointe, enregistrant des gains de 4,22 %, 1,13 %, 20,82 % et 13,1 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA respectivement. Nos modèles et notre code ont été rendus publics ici https://vision-cair.github.io/MiniGPT4-video/.

LVLM-Intrepret : Un outil d'interprétabilité pour les grands modèles vision-langage
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

Dans le paysage en évolution rapide de l'intelligence artificielle, les modèles de langage multi-modaux de grande échelle émergent comme un domaine d'intérêt majeur. Ces modèles, qui combinent diverses formes de données d'entrée, gagnent en popularité. Cependant, comprendre leurs mécanismes internes reste une tâche complexe. De nombreuses avancées ont été réalisées dans le domaine des outils et mécanismes d'explicabilité, mais il reste encore beaucoup à explorer. Dans ce travail, nous présentons une nouvelle application interactive visant à comprendre les mécanismes internes des grands modèles vision-langage. Notre interface est conçue pour améliorer l'interprétabilité des patches d'images, qui jouent un rôle crucial dans la génération d'une réponse, et pour évaluer l'efficacité du modèle de langage à ancrer sa sortie dans l'image. Avec notre application, un utilisateur peut investiguer systématiquement le modèle et découvrir les limites du système, ouvrant la voie à des améliorations des capacités du système. Enfin, nous présentons une étude de cas montrant comment notre application peut aider à comprendre les mécanismes d'échec dans un modèle multi-modal populaire : LLaVA.

Entraînement des LLM sur du texte compressé neuronalement
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

Dans cet article, nous explorons l'idée d'entraîner des modèles de langage de grande taille (LLMs) sur du texte hautement compressé. Alors que les tokenizers standards basés sur des sous-mots compressent le texte par un petit facteur, les compresseurs de texte neuronaux peuvent atteindre des taux de compression bien plus élevés. S'il était possible d'entraîner des LLMs directement sur du texte compressé de manière neuronale, cela conférerait des avantages en termes d'efficacité d'entraînement et de déploiement, ainsi qu'une gestion plus aisée des longues séquences textuelles. Le principal obstacle à cet objectif est que la compression forte tend à produire des sorties opaques qui ne se prêtent pas bien à l'apprentissage. En particulier, nous constatons que le texte compressé de manière naïve via le codage arithmétique n'est pas facilement apprenable par les LLMs. Pour surmonter cela, nous proposons Equal-Info Windows, une nouvelle technique de compression où le texte est segmenté en blocs qui se compressent chacun à la même longueur en bits. En utilisant cette méthode, nous démontrons un apprentissage efficace sur du texte compressé de manière neuronale qui s'améliore avec l'échelle, et surpasse largement les modèles de référence au niveau des octes sur les benchmarks de perplexité et de vitesse d'inférence. Bien que notre méthode produise une perplexité plus élevée que les tokenizers basés sur des sous-mots pour des modèles entraînés avec le même nombre de paramètres, elle présente l'avantage de séquences plus courtes. Des séquences plus courtes nécessitent moins d'étapes de génération autoregressive et réduisent la latence. Enfin, nous fournissons une analyse approfondie des propriétés qui contribuent à l'apprenabilité, et proposons des suggestions concrètes pour améliorer davantage les performances des tokenizers à haute compression.

CodeEditorBench : Évaluation des capacités d'édition de code des grands modèles de langage
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

Les modèles de langage de grande taille (LLMs) pour le code évoluent rapidement, avec l'édition de code émergeant comme une capacité critique. Nous présentons CodeEditorBench, un cadre d'évaluation conçu pour évaluer rigoureusement les performances des LLMs dans les tâches d'édition de code, incluant le débogage, la traduction, le polissage et le changement de spécifications. Contrairement aux benchmarks existants qui se concentrent uniquement sur la génération de code, CodeEditorBench met l'accent sur des scénarios réels et des aspects pratiques du développement logiciel. Nous avons sélectionné des défis et scénarios de codage variés provenant de cinq sources, couvrant divers langages de programmation, niveaux de complexité et tâches d'édition. L'évaluation de 19 LLMs révèle que les modèles propriétaires (notamment Gemini-Ultra et GPT-4) surpassent les modèles open-source dans CodeEditorBench, mettant en lumière des différences de performance selon les types de problèmes et la sensibilité aux prompts. CodeEditorBench vise à catalyser les avancées des LLMs en fournissant une plateforme robuste pour évaluer les capacités d'édition de code. Nous publierons tous les prompts et jeux de données pour permettre à la communauté d'étendre le dataset et de benchmarker les nouveaux LLMs. En introduisant CodeEditorBench, nous contribuons à l'avancement des LLMs dans l'édition de code et offrons une ressource précieuse pour les chercheurs et les praticiens.

PointInfinity : Modèles de diffusion de points invariants à la résolution
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

Nous présentons PointInfinity, une famille efficace de modèles de diffusion pour nuages de points. Notre idée centrale est d'utiliser une architecture basée sur des transformateurs avec une représentation latente de taille fixe et invariante à la résolution. Cela permet un entraînement efficace avec des nuages de points de basse résolution, tout en permettant la génération de nuages de points haute résolution lors de l'inférence. Plus important encore, nous montrons que l'augmentation de la résolution au moment du test au-delà de la résolution d'entraînement améliore la fidélité des nuages de points et des surfaces générés. Nous analysons ce phénomène et établissons un lien avec le guidage sans classificateur couramment utilisé dans les modèles de diffusion, démontrant que les deux permettent de faire un compromis entre fidélité et variabilité lors de l'inférence. Les expériences sur CO3D montrent que PointInfinity peut générer efficacement des nuages de points haute résolution (jusqu'à 131k points, 31 fois plus que Point-E) avec une qualité de pointe.

RALL-E : Modélisation robuste du langage de codec avec incitation en chaîne de pensée pour la synthèse de parole à partir de texte
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

Nous présentons RALL-E, une méthode robuste de modélisation du langage pour la synthèse texte-à-parole (TTS). Bien que les travaux précédents basés sur les grands modèles de langage (LLM) montrent des performances impressionnantes en TTS zero-shot, ces méthodes souffrent souvent d'une faible robustesse, comme une prosodie instable (hauteur et rythme/durée étranges) et un taux d'erreur sur les mots (WER) élevé, en raison du style de prédiction autoregressif des modèles de langage. L'idée centrale de RALL-E est l'incitation par chaîne de pensée (CoT), qui décompose la tâche en étapes plus simples pour améliorer la robustesse du TTS basé sur les LLM. Pour réaliser cette idée, RALL-E prédit d'abord les caractéristiques de prosodie (hauteur et durée) du texte d'entrée et les utilise comme conditions intermédiaires pour prédire les tokens de parole dans un style CoT. Ensuite, RALL-E utilise l'incitation de durée prédite pour guider le calcul des poids d'auto-attention dans le Transformer, afin de forcer le modèle à se concentrer sur les phonèmes et les caractéristiques de prosodie correspondants lors de la prédiction des tokens de parole. Les résultats d'évaluations objectives et subjectives approfondies démontrent que, par rapport à une méthode de référence puissante, VALL-E, RALL-E améliore significativement le WER du TTS zero-shot, passant de 6,3 % (sans reclassement) et 2,1 % (avec reclassement) à 2,8 % et 1,0 %, respectivement. De plus, nous montrons que RALL-E synthétise correctement des phrases difficiles pour VALL-E et réduit le taux d'erreur de 68 % à 4 %.

Test d'intrusion de GPT-4V : GPT-4V est-il sûr face aux attaques de contournement uni/multi-modales ?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu

Diverses attaques de jailbreak ont été proposées pour tester en rouge les modèles de langage de grande taille (LLMs) et ont révélé les protections vulnérables de ces derniers. Par ailleurs, certaines méthodes ne se limitent pas à la modalité textuelle et étendent l'attaque de jailbreak aux modèles de langage multimodaux de grande taille (MLLMs) en perturbant l'entrée visuelle. Cependant, l'absence d'un benchmark universel d'évaluation complique la reproduction des performances et la comparaison équitable. De plus, il manque une évaluation complète des modèles propriétaires fermés de pointe (SOTA), en particulier des MLLMs, tels que GPT-4V. Pour résoudre ces problèmes, ce travail commence par construire un ensemble de données d'évaluation de jailbreak complet avec 1445 questions nuisibles couvrant 11 politiques de sécurité différentes. Sur la base de cet ensemble de données, des expériences approfondies de test en rouge sont menées sur 11 LLMs et MLLMs différents, incluant à la fois des modèles propriétaires SOTA et des modèles open-source. Nous effectuons ensuite une analyse approfondie des résultats évalués et constatons que (1) GPT4 et GPT-4V démontrent une meilleure robustesse contre les attaques de jailbreak par rapport aux LLMs et MLLMs open-source. (2) Llama2 et Qwen-VL-Chat sont plus robustes par rapport aux autres modèles open-source. (3) La transférabilité des méthodes de jailbreak visuel est relativement limitée par rapport aux méthodes de jailbreak textuel. L'ensemble de données et le code peuvent être trouvés ici https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.

papers.title

papers.description

ReFT : Affinage des Représentations pour les Modèles de Langage
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

CoMat : Alignement des modèles de diffusion texte-image avec la correspondance conceptuelle image-texte
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

AutoWebGLM : Amorçage et renforcement d'un agent de navigation web basé sur un grand modèle de langage
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

MiniGPT4-Video : Faire progresser les LLM multimodaux pour la compréhension vidéo grâce à des tokens visuels-textuels entrelacés
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

LVLM-Intrepret : Un outil d'interprétabilité pour les grands modèles vision-langage
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

Entraînement des LLM sur du texte compressé neuronalement
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

CodeEditorBench : Évaluation des capacités d'édition de code des grands modèles de langage
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

PointInfinity : Modèles de diffusion de points invariants à la résolution
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

RALL-E : Modélisation robuste du langage de codec avec incitation en chaîne de pensée pour la synthèse de parole à partir de texte
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

Test d'intrusion de GPT-4V : GPT-4V est-il sûr face aux attaques de contournement uni/multi-modales ?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu