HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

StemGen : Un modèle de génération musicale qui écoute
StemGen: A music generation model that listens

Dec 14

ByJulian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le

La génération de musique de bout en bout à l'aide de techniques d'apprentissage profond a connu une explosion d'activité récemment. Cependant, la plupart des modèles se concentrent sur la production de musique entièrement mixée en réponse à des informations de conditionnement abstraites. Dans ce travail, nous présentons un paradigme alternatif pour créer des modèles de génération musicale capables d'écouter et de répondre au contexte musical. Nous décrivons comment un tel modèle peut être construit en utilisant une architecture basée sur des transformeurs non autorégressifs, et nous présentons plusieurs améliorations architecturales et d'échantillonnage novatrices. Nous entraînons l'architecture décrite sur un ensemble de données open-source ainsi que sur un ensemble de données propriétaire. Nous évaluons les modèles produits en utilisant des métriques de qualité standard ainsi qu'une nouvelle approche basée sur des descripteurs de recherche d'information musicale. Le modèle résultant atteint la qualité audio des modèles de pointe conditionnés par du texte, tout en démontrant une forte cohérence musicale avec son contexte.

TinyGSM : atteindre plus de 80 % sur GSM8k avec des petits modèles de langage
TinyGSM: achieving >80% on GSM8k with small language models

Dec 14

ByBingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang

Les modèles à petite échelle offrent divers avantages computationnels, mais la question de savoir dans quelle mesure la taille est critique pour les capacités de résolution de problèmes reste ouverte. Plus précisément, pour résoudre des problèmes de mathématiques de niveau primaire, la taille minimale de modèle nécessaire pour franchir la barre des 80 % sur le benchmark GSM8K reste à ce jour de 34 milliards de paramètres. Notre travail étudie comment des jeux de données de haute qualité pourraient être la clé permettant à de petits modèles linguistiques d'acquérir un raisonnement mathématique. Nous présentons TinyGSM, un jeu de données synthétique de 12,3 millions de problèmes de mathématiques de niveau primaire accompagnés de solutions en Python, entièrement généré par GPT-3.5. Après un ajustement fin sur TinyGSM, nous constatons qu'un duo composé d'un modèle de génération de 1,3 milliard de paramètres et d'un modèle de vérification de 1,3 milliard de paramètres peut atteindre une précision de 81,5 %, surpassant ainsi des modèles existants qui sont des ordres de grandeur plus grands. Ce résultat rivalise également avec la performance du modèle « enseignant » GPT-3.5 (77,4 %), à partir duquel les données d'entraînement de notre modèle sont générées. Notre approche est simple et repose sur deux composants clés : 1) le jeu de données de haute qualité TinyGSM, 2) l'utilisation d'un vérificateur, qui sélectionne les sorties finales parmi plusieurs générations candidates.

CogAgent : Un modèle de langage visuel pour les agents d'interface graphique
CogAgent: A Visual Language Model for GUI Agents

Dec 14

ByWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

Les individus passent un temps considérable sur des appareils numériques via des interfaces graphiques (GUIs), telles que les écrans d'ordinateur ou de smartphone. Les grands modèles de langage (LLMs) comme ChatGPT peuvent assister les utilisateurs dans des tâches telles que la rédaction d'e-mails, mais peinent à comprendre et interagir avec les GUIs, limitant ainsi leur potentiel à accroître les niveaux d'automatisation. Dans cet article, nous présentons CogAgent, un modèle de langage visuel (VLM) de 18 milliards de paramètres spécialisé dans la compréhension et la navigation des GUIs. En utilisant à la fois des encodeurs d'images basse et haute résolution, CogAgent prend en charge des entrées à une résolution de 1120*1120, lui permettant de reconnaître des éléments de page et du texte de petite taille. En tant que modèle de langage visuel généraliste, CogAgent établit l'état de l'art sur cinq benchmarks riches en texte et quatre benchmarks généraux de question-réponse visuelle (VQA), incluant VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet et POPE. CogAgent, utilisant uniquement des captures d'écran comme entrée, surpasse les méthodes basées sur LLM qui consomment du texte HTML extrait dans des tâches de navigation sur GUI PC et Android — Mind2Web et AITW, repoussant ainsi les limites de l'état de l'art. Le modèle et les codes sont disponibles à l'adresse https://github.com/THUDM/CogVLM.

VideoLCM : Modèle de Cohérence Latente pour la Vidéo
VideoLCM: Video Latent Consistency Model

Dec 14

ByXiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang

Les modèles de cohérence ont démontré une puissante capacité dans la génération efficace d'images et ont permis la synthèse en quelques étapes d'échantillonnage, réduisant ainsi le coût computationnel élevé des modèles de diffusion. Cependant, l'application des modèles de cohérence à la génération de vidéos, un domaine plus complexe et gourmand en ressources, reste encore peu explorée. Dans ce rapport, nous présentons le cadre VideoLCM pour combler cette lacune, qui exploite le concept des modèles de cohérence issus de la génération d'images pour synthétiser efficacement des vidéos avec un nombre minimal d'étapes tout en maintenant une haute qualité. VideoLCM s'appuie sur les modèles de diffusion latente vidéo existants et intègre des techniques de distillation de cohérence pour entraîner le modèle de cohérence latente. Les résultats expérimentaux révèlent l'efficacité de notre VideoLCM en termes d'efficacité computationnelle, de fidélité et de cohérence temporelle. Notamment, VideoLCM réalise une synthèse vidéo de haute fidélité et fluide avec seulement quatre étapes d'échantillonnage, démontrant ainsi son potentiel pour la synthèse en temps réel. Nous espérons que VideoLCM pourra servir de base simple mais efficace pour les recherches ultérieures. Le code source et les modèles seront rendus publics.

Une image vaut plus que 77 tokens de texte : Évaluation des modèles de type CLIP sur les descriptions denses
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Dec 14

ByJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano

Les méthodes de curation pour les ensembles de données massifs en vision et langage doivent trouver un équilibre entre la taille des données et leur qualité. Cependant, même les légendes les mieux annotées disponibles sont bien trop courtes pour capturer la richesse des détails visuels d'une image. Pour démontrer la valeur des paires image-texte denses et fortement alignées, nous avons constitué le jeu de données Densely Captioned Images (DCI), contenant 8012 images naturelles annotées manuellement avec des descriptions alignées sur des masques, dépassant en moyenne 1000 mots chacune. Grâce à des légendes précises et fiables associées à des parties spécifiques d'une image, nous pouvons évaluer la compréhension du contenu visuel par les modèles vision-langage (VLMs) via une nouvelle tâche consistant à associer chaque légende à son sous-cadre correspondant. Comme les modèles actuels sont souvent limités à 77 tokens textuels, nous introduisons également une version résumée (sDCI) où la longueur de chaque légende est limitée. Nous montrons que les techniques modernes qui progressent sur les benchmarks standards ne correspondent pas à une amélioration significative sur notre benchmark basé sur sDCI. Enfin, nous affinons CLIP en utilisant sDCI et montrons des améliorations significatives par rapport à la ligne de base malgré un petit ensemble d'entraînement. En publiant le premier jeu de données de légendes denses annotées manuellement, nous espérons permettre le développement de nouveaux benchmarks ou méthodes de fine-tuning pour la prochaine génération de VLMs.

Mosaic-SDF pour les modèles génératifs 3D
Mosaic-SDF for 3D Generative Models

Dec 14

ByLior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

Les modèles génératifs actuels basés sur la diffusion ou les flux pour les formes 3D se divisent en deux catégories : la distillation de modèles de diffusion d'images 2D pré-entraînés, et l'entraînement direct sur des formes 3D. Lors de l'entraînement d'un modèle de diffusion ou de flux sur des formes 3D, un choix de conception crucial est la représentation de la forme. Une représentation de forme efficace doit respecter trois principes de conception : elle doit permettre une conversion efficace de grands ensembles de données 3D vers la forme de représentation ; elle doit offrir un bon compromis entre la puissance d'approximation et le nombre de paramètres ; et elle doit avoir une forme tensorielle simple compatible avec les architectures neuronales puissantes existantes. Alors que les représentations standard de formes 3D telles que les grilles volumétriques et les nuages de points ne respectent pas simultanément tous ces principes, nous défendons dans cet article une nouvelle représentation qui le fait. Nous introduisons Mosaic-SDF (M-SDF) : une représentation simple de formes 3D qui approxime la fonction de distance signée (SDF) d'une forme donnée en utilisant un ensemble de grilles locales réparties près de la frontière de la forme. La représentation M-SDF est rapide à calculer pour chaque forme individuellement, ce qui la rend facilement parallélisable ; elle est efficace en termes de paramètres car elle ne couvre que l'espace autour de la frontière de la forme ; et elle a une forme matricielle simple, compatible avec les architectures basées sur les Transformers. Nous démontrons l'efficacité de la représentation M-SDF en l'utilisant pour entraîner un modèle génératif de flux 3D, incluant la génération conditionnée par classe avec le jeu de données 3D Warehouse, et la génération de texte vers 3D en utilisant un jeu de données d'environ 600 000 paires légende-forme.

Modèles de Langage Alignés au Pixel
Pixel Aligned Language Models

Dec 14

ByJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid

Les grands modèles de langage ont connu un succès considérable ces dernières années, tout comme leurs variantes dans le domaine de la vision. Les modèles vision-langage existants peuvent décrire des images en langage naturel, répondre à des questions liées à la vision ou effectuer un raisonnement complexe sur l'image. Cependant, il reste incertain comment les tâches de localisation, telles que l'ancrage de mots ou la localisation référentielle, peuvent être réalisées à l'aide de grands modèles de langage. Dans ce travail, nous visons à développer un modèle vision-langage capable de prendre des localisations, par exemple un ensemble de points ou de boîtes, comme entrées ou sorties. Lorsque les localisations sont utilisées comme entrées, le modèle effectue une génération de légendes conditionnée par la localisation, produisant des descriptions pour l'objet ou la région indiquée. Lorsqu'il génère des localisations comme sorties, notre modèle régresse les coordonnées des pixels pour chaque mot généré par le modèle de langage, réalisant ainsi un ancrage dense de mots. Notre modèle est pré-entraîné sur le jeu de données Localized Narrative, qui contient des légendes alignées pixel-mot basées sur l'attention humaine. Nous montrons que notre modèle peut être appliqué à diverses tâches vision-langage prenant en compte la localisation, incluant la localisation référentielle, la génération de légendes conditionnée par la localisation et la génération dense de légendes d'objets, atteignant des performances de pointe sur RefCOCO et Visual Genome. Page du projet : https://jerryxu.net/PixelLLM .

SEEAvatar : Génération photoréaliste d'avatars 3D à partir de texte avec contraintes géométriques et d'apparence
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance

Dec 13

ByYuanyou Xu, Zongxin Yang, Yi Yang

Propulsée par des modèles de génération d'images à grande échelle à partir de texte, la génération d'avatars 3D à partir de texte a réalisé des progrès prometteurs. Cependant, la plupart des méthodes échouent à produire des résultats photoréalistes, limitées par une géométrie imprécise et une apparence de faible qualité. Pour une génération d'avatars plus pratique, nous présentons SEEAvatar, une méthode pour générer des avatars 3D photoréalistes à partir de texte avec des contraintes d'auto-évolution pour une géométrie et une apparence découplées. Pour la géométrie, nous proposons de contraindre l'avatar optimisé dans une forme globale décente avec un avatar modèle. L'avatar modèle est initialisé avec des connaissances humaines préalables et peut être mis à jour par l'avatar optimisé périodiquement en tant que modèle évolutif, ce qui permet une génération de forme plus flexible. De plus, la géométrie est également contrainte par les connaissances humaines préalables statiques dans les parties locales comme le visage et les mains pour maintenir les structures délicates. Pour la génération d'apparence, nous utilisons un modèle de diffusion amélioré par l'ingénierie de prompts pour guider un pipeline de rendu physiquement basé afin de générer des textures réalistes. La contrainte de légèreté est appliquée sur la texture d'albédo pour supprimer les effets d'éclairage incorrects. Les expériences montrent que notre méthode surpasse les méthodes précédentes à la fois sur la qualité globale et locale de la géométrie et de l'apparence avec une grande marge. Puisque notre méthode peut produire des maillages et des textures de haute qualité, ces actifs peuvent être directement appliqués dans le pipeline graphique classique pour un rendu réaliste sous n'importe quelle condition d'éclairage. Page du projet : https://seeavatar3d.github.io.

Zebra : Extension de la fenêtre contextuelle par une attention locale-globale groupée par couches
Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

Dec 14

ByKaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu

Cet article présente une nouvelle approche visant à améliorer les capacités des modèles de langage de grande taille (LLMs) dans le traitement et la compréhension de séquences textuelles étendues, un aspect crucial pour les applications nécessitant une compréhension approfondie et une synthèse de grands volumes d'informations. Conscients des défis inhérents à l'extension de la fenêtre contextuelle pour les LLMs, principalement basés sur l'architecture Transformer, nous proposons une nouvelle architecture de modèle, appelée Zebra. Cette architecture gère efficacement les problèmes de complexité quadratique en temps et en mémoire associés à l'attention complète dans le Transformer en utilisant des couches d'attention locale-globale groupées. Notre modèle, semblable aux rayures alternées d'un zèbre, équilibre les couches d'attention locale et globale, réduisant ainsi significativement les besoins en calcul et en mémoire. Des expériences approfondies, incluant un pré-entraînement à partir de zéro, une continuation de l'entraînement d'adaptation à des contextes longs et un réglage d'instructions longues, sont menées pour évaluer les performances de Zebra. Les résultats montrent que Zebra atteint des performances comparables ou supérieures sur des benchmarks de séquences courtes et longues, tout en améliorant l'efficacité de l'entraînement et de l'inférence.

Les modèles vision-langage comme source de récompenses
Vision-Language Models as a Source of Rewards

Dec 14

ByKate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang

La construction d'agents généralistes capables d'accomplir de nombreux objectifs dans des environnements riches et ouverts constitue l'une des frontières de recherche en apprentissage par renforcement. Un facteur limitant clé pour développer de tels agents avec l'apprentissage par renforcement a été la nécessité d'un grand nombre de fonctions de récompense pour atteindre différents objectifs. Nous étudions la faisabilité d'utiliser des modèles vision-langage prêts à l'emploi, ou VLMs, comme sources de récompenses pour les agents d'apprentissage par renforcement. Nous montrons comment des récompenses pour la réalisation visuelle d'une variété d'objectifs linguistiques peuvent être dérivées de la famille de modèles CLIP, et utilisées pour entraîner des agents d'apprentissage par renforcement capables d'atteindre divers objectifs linguistiques. Nous illustrons cette approche dans deux domaines visuels distincts et présentons une tendance de mise à l'échelle montrant comment des VLMs plus grands produisent des récompenses plus précises pour la réalisation d'objectifs visuels, ce qui à son tour génère des agents d'apprentissage par renforcement plus performants.

FineControlNet : Contôle textuel fin pour la génération d'images avec injection de contrôle textuel spatialement aligné
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

Dec 14

ByHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, Volkan Isler

Récemment introduit, ControlNet possède la capacité de guider le processus de génération d’images piloté par du texte avec des entrées géométriques telles que la pose humaine en 2D ou les caractéristiques de contours. Bien que ControlNet offre un contrôle sur la forme géométrique des instances dans l’image générée, il manque la capacité de dicter l’apparence visuelle de chaque instance. Nous présentons FineControlNet pour fournir un contrôle précis de l’apparence de chaque instance tout en conservant la capacité de contrôle précis de la pose. Plus précisément, nous développons et démontrons FineControlNet avec un contrôle géométrique via des images de pose humaine et un contrôle d’apparence via des invites textuelles au niveau de l’instance. L’alignement spatial des invites textuelles spécifiques à chaque instance et des poses 2D dans l’espace latent permet les capacités de contrôle fin de FineControlNet. Nous évaluons les performances de FineControlNet par une comparaison rigoureuse avec les modèles de diffusion texte-à-image conditionnés par la pose de pointe. FineControlNet atteint des performances supérieures dans la génération d’images qui suivent les invites textuelles et les poses spécifiques à chaque instance fournies par l’utilisateur, par rapport aux méthodes existantes. Page web du projet : https://samsunglabs.github.io/FineControlNet-project-page

LIME : Édition d'image localisée via régularisation de l'attention dans les modèles de diffusion
LIME: Localized Image Editing via Attention Regularization in Diffusion Models

Dec 14

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

Les modèles de diffusion (DMs) ont gagné en importance grâce à leur capacité à générer des images de haute qualité et variées, avec des avancées récentes dans la génération d'images à partir de texte. L'attention de la recherche se porte désormais sur la contrôlabilité des DMs. Un défi majeur dans ce domaine est l'édition localisée, où des zones spécifiques d'une image sont modifiées sans affecter le reste du contenu. Cet article présente LIME pour l'édition localisée d'images dans les modèles de diffusion, sans nécessiter de régions d'intérêt (RoI) spécifiées par l'utilisateur ou d'entrées textuelles supplémentaires. Notre méthode utilise des caractéristiques issues de méthodes pré-entraînées et une technique de clustering simple pour obtenir des cartes de segmentation sémantique précises. Ensuite, en exploitant les cartes d'attention croisée, elle affine ces segments pour des modifications localisées. Enfin, nous proposons une nouvelle technique de régularisation de l'attention croisée qui pénalise les scores d'attention croisée non pertinents dans la RoI lors des étapes de débruitage, garantissant ainsi des modifications localisées. Notre approche, sans ré-entraînement ni ajustement fin, améliore de manière constante les performances des méthodes existantes dans divers benchmarks d'édition.

Modèle de Fondation d'Objets Généraux pour les Images et les Vidéos à Grande Échelle
General Object Foundation Model for Images and Videos at Scale

Dec 14

ByJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

Nous présentons dans ce travail GLEE, un modèle de fondation au niveau des objets pour localiser et identifier des objets dans des images et des vidéos. Grâce à un cadre unifié, GLEE réalise la détection, la segmentation, le suivi, l'ancrage et l'identification d'objets arbitraires dans un scénario de monde ouvert pour diverses tâches de perception d'objets. En adoptant une stratégie d'apprentissage cohérente, GLEE acquiert des connaissances à partir de sources de données variées avec des niveaux de supervision différents pour formuler des représentations générales d'objets, excellant dans le transfert zero-shot vers de nouvelles données et tâches. Plus précisément, nous utilisons un encodeur d'images, un encodeur de texte et un prompteur visuel pour gérer des entrées multimodales, permettant de résoudre simultanément diverses tâches en aval centrées sur les objets tout en maintenant des performances de pointe. Démonstré par un entraînement extensif sur plus de cinq millions d'images provenant de divers benchmarks, GLEE montre une polyvalence remarquable et une amélioration des performances de généralisation, abordant efficacement les tâches en aval sans nécessiter d'adaptation spécifique à la tâche. En intégrant de grands volumes de données étiquetées automatiquement, nous améliorons encore ses capacités de généralisation zero-shot. De plus, GLEE est capable d'être intégré dans des modèles de langage de grande taille, servant de modèle de fondation pour fournir des informations universelles au niveau des objets pour des tâches multimodales. Nous espérons que la polyvalence et l'universalité de notre méthode marqueront une étape significative dans le développement de modèles de fondation visuels efficaces pour les systèmes d'AGI. Le modèle et le code seront disponibles à l'adresse https://glee-vision.github.io.

UniDream : Unification des priors de diffusion pour la génération de modèles 3D relightables à partir de texte
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Dec 14

ByZexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang

Les récentes avancées dans la technologie de génération de texte-à-3D ont considérablement amélioré la conversion de descriptions textuelles en objets 3D imaginatifs, bien géométriquement structurés et finement texturés. Malgré ces progrès, une limitation prédominante découle de l'utilisation de données RVB dans les modèles de diffusion ou de reconstruction, ce qui entraîne souvent des modèles présentant des effets d'éclairage et d'ombres inhérents qui nuisent à leur réalisme, limitant ainsi leur utilité dans les applications exigeant des capacités de rééclairage précises. Pour combler cette lacune, nous présentons UniDream, un cadre de génération texte-à-3D intégrant des a priori de diffusion unifiés. Notre approche se compose de trois éléments principaux : (1) un processus d'entraînement en deux phases pour obtenir des modèles de diffusion et de reconstruction multi-vues alignés en albédo-normal, (2) une procédure de génération progressive pour la géométrie et les textures d'albédo basée sur l'échantillonnage par distillation de score (Score Distillation Sample, SDS) utilisant les modèles de reconstruction et de diffusion entraînés, et (3) une application innovante de SDS pour finaliser la génération PBR tout en maintenant un albédo fixe basé sur le modèle Stable Diffusion. Des évaluations approfondies démontrent qu'UniDream surpasse les méthodes existantes en générant des objets 3D avec des textures d'albédo plus nettes, des surfaces plus lisses, un réalisme accru et des capacités de rééclairage supérieures.

ZeroQuant(4+2) : Redéfinir la quantification des LLM avec une nouvelle stratégie centrée sur FP6 pour des tâches génératives diversifiées
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Dec 14

ByXiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao

Cette étude examine les méthodes de quantification 4 bits comme GPTQ dans les grands modèles de langage (LLMs), mettant en évidence le sur-apprentissage de GPTQ et son amélioration limitée dans les tâches Zero-Shot. Alors que les travaux précédents se concentraient uniquement sur la mesure Zero-Shot, nous étendons le champ des tâches à des catégories plus génératives telles que la génération de code et le résumé abstrait, où nous avons constaté que la quantification INT4 peut considérablement sous-performer. Cependant, le simple passage à des formats de précision supérieure comme FP6 s'est avéré particulièrement difficile, et donc négligé, en raison de la mauvaise performance causée par le manque d'intégration sophistiquée et de stratégies d'accélération système sur le matériel IA actuel. Nos résultats montrent que FP6, même avec un schéma de quantification grossier, performe robustement à travers divers algorithmes et tâches, démontrant sa supériorité en termes de précision et de polyvalence. Notamment, avec la quantification FP6, le modèle \codestar-15B performe de manière comparable à sa version FP16 en génération de code, et pour les modèles plus petits comme le 406M, il se rapproche de leurs bases de référence en résumé. Aucun de ces résultats ne peut être atteint par INT4. Pour mieux s'adapter à divers matériels IA et atteindre la meilleure performance système, nous proposons une nouvelle conception 4+2 pour FP6 afin d'atteindre une latence similaire à la quantification fine-grain INT4 de pointe. Avec notre conception, FP6 peut devenir une solution prometteuse aux méthodes de quantification 4 bits actuellement utilisées dans les LLMs.

VL-GPT : Un Transformeur Pré-entraîné Génératif pour la Compréhension et la Génération Visuelles et Linguistiques
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Dec 14

ByJinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan

Dans ce travail, nous présentons Vision-Language Generative Pre-trained Transformer (VL-GPT), un modèle de transformateur capable de percevoir et de générer simultanément des données visuelles et linguistiques. VL-GPT réalise une approche de pré-entraînement unifiée pour les modalités image et texte en utilisant un objectif auto-régressif simple, permettant ainsi au modèle de traiter les images et le texte aussi naturellement qu'un modèle de langage traite le texte. Pour y parvenir, nous proposons d'abord un nouveau cadre de tokenizer-détokenizer pour les données visuelles, conçu spécifiquement pour transformer des images brutes en une séquence d'embeddings continus et les reconstruire en conséquence. Combiné avec le tokenizer et détokenizer de texte existants, ce cadre permet d'encoder des données image-texte entrelacées en une séquence multimodale, qui peut ensuite être introduite dans le modèle de transformateur. Par conséquent, VL-GPT peut effectuer un pré-entraînement à grande échelle sur des corpus multimodaux en utilisant un objectif auto-régressif unifié (c'est-à-dire la prédiction du token suivant). Une fois le pré-entraînement terminé, VL-GPT démontre des performances remarquables en zero-shot et few-shot sur une variété de tâches de compréhension et de génération visuelles et linguistiques, incluant la génération de légendes d'images, la réponse à des questions visuelles, la génération d'images à partir de texte, et plus encore. De plus, le modèle pré-entraîné conserve des capacités d'apprentissage en contexte lorsqu'il est fourni avec des prompts multimodaux. Nous effectuons également un réglage par instruction sur notre VL-GPT, mettant en évidence son potentiel exceptionnel pour l'assistance multimodale. Le code source et les poids du modèle seront rendus publics.

Aider ou guider ? Les ensembles de modèles de récompense atténuent mais n'éliminent pas le détournement des récompenses
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant

Les modèles de récompense jouent un rôle clé dans l'alignement des applications de modèles de langage sur les préférences humaines. Cependant, cette configuration crée une incitation pour le modèle de langage à exploiter les erreurs du modèle de récompense pour obtenir une récompense estimée élevée, un phénomène souvent appelé "reward hacking". Une atténuation naturelle consiste à entraîner un ensemble de modèles de récompense, en agrégeant les sorties des modèles pour obtenir une estimation de récompense plus robuste. Nous explorons l'application des ensembles de récompense à l'alignement, à la fois pendant l'entraînement (via l'apprentissage par renforcement) et pendant l'inférence (via le réordonnancement). Premièrement, nous montrons que les modèles de récompense sont sous-spécifiés : des modèles de récompense qui performent de manière similaire en distribution peuvent produire des récompenses très différentes lorsqu'ils sont utilisés pour l'alignement, en raison d'un décalage de distribution. Deuxièmement, la sous-spécification entraîne une sur-optimisation, où l'alignement sur un modèle de récompense n'améliore pas la récompense mesurée par un autre modèle de récompense entraîné sur les mêmes données. Troisièmement, la sur-optimisation est atténuée par l'utilisation d'ensembles de récompense, et les ensembles qui varient par leurs graines de pré-entraînement conduisent à une meilleure généralisation que les ensembles qui diffèrent uniquement par leurs graines de fine-tuning, les deux surpassant les modèles de récompense individuels. Cependant, même les ensembles de récompense pré-entraînés n'éliminent pas le reward hacking : nous montrons plusieurs phénomènes qualitatifs de reward hacking qui ne sont pas atténués par l'ensemblage car tous les modèles de récompense dans l'ensemble présentent des schémas d'erreur similaires.

SHAP-EDITOR : Édition latente 3D guidée par instructions en quelques secondes
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Dec 14

ByMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi

Nous proposons un nouveau cadre d'édition 3D en propagation directe appelé Shap-Editor. Les recherches antérieures sur l'édition d'objets 3D se concentraient principalement sur la modification d'objets individuels en exploitant des réseaux d'édition d'images 2D prêts à l'emploi. Cela est réalisé via un processus appelé distillation, qui transfère les connaissances du réseau 2D vers les actifs 3D. La distillation nécessite au moins plusieurs dizaines de minutes par actif pour obtenir des résultats d'édition satisfaisants, ce qui la rend peu pratique. En revanche, nous nous demandons si l'édition 3D peut être réalisée directement par un réseau en propagation directe, évitant ainsi l'optimisation au moment du test. En particulier, nous émettons l'hypothèse que l'édition peut être grandement simplifiée en encodant d'abord les objets 3D dans un espace latent approprié. Nous validons cette hypothèse en nous appuyant sur l'espace latent de Shap-E. Nous démontrons que l'édition 3D directe dans cet espace est possible et efficace en construisant un réseau d'édition en propagation directe qui ne nécessite qu'environ une seconde par modification. Nos expériences montrent que Shap-Editor généralise bien à la fois aux actifs 3D dans la distribution et hors distribution avec différents prompts, affichant des performances comparables aux méthodes qui effectuent une optimisation au moment du test pour chaque instance éditée.

TigerBot : Un modèle de langage multilingue et multitâche open source
TigerBot: An Open Multilingual Multitask LLM

Dec 14

ByYe Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

Nous publions et présentons la famille de modèles de langage de grande taille (LLM) TigerBot, composée de modèles de base et de modèles conversationnels, avec des tailles allant de 7, 13, 70 à 180 milliards de paramètres. Nous développons nos modèles en partant de Llama-2 et BLOOM, et repoussons les limites en matière de données, d'algorithmes d'entraînement, d'infrastructure et d'outils d'application. Nos modèles offrent des gains de performance significatifs par rapport aux modèles open-source de pointe (SOTA), tels que Llama-2, avec notamment une amélioration de 6 % en anglais et de 20 % en chinois. La famille de modèles TigerBot obtient également des performances de premier plan dans les principaux benchmarks académiques et industriels ainsi que dans les classements. Nous pensons que TigerBot représente un simple aperçu de la progression fulgurante de la communauté open-source des LLM. Par conséquent, nous sommes ravis de contribuer en publiant publiquement nos modèles et en détaillant notre approche, en mettant un accent particulier sur la construction de LLM SOTA de manière démocratisée et sur leur utilisation dans des applications réelles.

Aider ou guider ? Les ensembles de modèles de récompense atténuent mais n'éliminent pas le détournement des récompenses
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant