ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Modèle Aya : Un modèle de langage multilingue en accès libre affiné par instruction
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Feb 12, 2024
Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
492

Les récentes avancées dans les modèles de langage de grande taille (LLM) se sont concentrées sur un petit nombre de langues riches en données. Que faut-il pour élargir l'accès à ces avancées au-delà des langues dites de première catégorie ? Notre travail présente Aya, un modèle de langage génératif massivement multilingue capable de suivre des instructions dans 101 langues, dont plus de 50 % sont considérées comme étant à ressources limitées. Aya surpasse mT0 et BLOOMZ sur la majorité des tâches tout en couvrant deux fois plus de langues. Nous introduisons de nouvelles suites d'évaluation approfondies qui élargissent l'état de l'art en matière d'évaluation multilingue à travers 99 langues — incluant des tâches discriminatives et génératives, des évaluations humaines, ainsi que des taux de victoire simulés couvrant à la fois les tâches hors distribution et les performances en distribution. De plus, nous menons des investigations détaillées sur la composition optimale des mélanges de fine-tuning, l'élagage des données, ainsi que sur la toxicité, les biais et la sécurité de nos modèles. Nous mettons à disposition en open source nos ensembles de données d'instructions et notre modèle à l'adresse suivante : https://hf.co/CohereForAI/aya-101.

OS-Copilot : Vers des agents informatiques généralistes dotés d’auto-amélioration
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Feb 12, 2024
Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong
464

L'interaction autonome avec l'ordinateur constitue un défi de longue date doté d'un grand potentiel, et la récente prolifération des modèles de langage à grande échelle (LLMs) a considérablement accéléré les progrès dans la construction d'agents numériques. Cependant, la plupart de ces agents sont conçus pour interagir avec un domaine restreint, tel qu'un logiciel ou un site web spécifique. Cette focalisation étroite limite leur applicabilité pour des tâches informatiques générales. À cette fin, nous introduisons OS-Copilot, un cadre pour construire des agents généralistes capables d'interagir avec des éléments complets d'un système d'exploitation (OS), incluant le web, les terminaux de code, les fichiers, les multimédias et diverses applications tierces. Nous utilisons OS-Copilot pour créer FRIDAY, un agent incarné auto-améliorant pour l'automatisation de tâches informatiques générales. Sur GAIA, un benchmark d'assistants IA généralistes, FRIDAY surpasse les méthodes précédentes de 35%, démontrant une forte généralisation à des applications non vues grâce à l'accumulation de compétences issues de tâches antérieures. Nous présentons également des preuves numériques et quantitatives que FRIDAY apprend à contrôler et à s'auto-améliorer sur Excel et Powerpoint avec une supervision minimale. Notre cadre OS-Copilot et nos résultats empiriques fournissent une infrastructure et des insights pour des recherches futures visant à développer des agents informatiques plus performants et polyvalents.

ChemLLM : Un modèle de langage de grande envergure pour la chimie
ChemLLM: A Chemical Large Language Model

Feb 10, 2024
Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
317

Les grands modèles de langage (LLM) ont réalisé des progrès impressionnants dans les applications chimiques, notamment la prédiction des propriétés moléculaires, la génération de molécules, la conception de protocoles expérimentaux, etc. Cependant, la communauté manque d'un modèle basé sur le dialogue spécifiquement conçu pour la chimie. Le défi provient du fait que la plupart des données chimiques et des connaissances scientifiques sont principalement stockées dans des bases de données structurées, et l'utilisation directe de ces données structurées compromet la capacité du modèle à maintenir un dialogue cohérent. Pour résoudre ce problème, nous développons une nouvelle méthode de construction d'instructions basée sur des modèles qui transforme les connaissances structurées en dialogue simple, les rendant ainsi adaptées à l'entraînement des modèles de langage. En exploitant cette approche, nous développons ChemLLM, le premier grand modèle de langage dédié à la chimie, capable d'exécuter diverses tâches à travers les disciplines chimiques avec une interaction fluide en dialogue. ChemLLM surpasse GPT-3.5 sur les trois principales tâches en chimie, à savoir la conversion de noms, la description moléculaire et la prédiction de réactions, et dépasse GPT-4 sur deux d'entre elles. Remarquablement, ChemLLM montre également une adaptabilité exceptionnelle à des tâches mathématiques et physiques connexes, malgré un entraînement principalement sur des corpus centrés sur la chimie. De plus, ChemLLM démontre une maîtrise dans des tâches spécialisées de traitement du langage naturel (NLP) en chimie, telles que la traduction de littérature et la programmation chémoinformatique. ChemLLM ouvre une nouvelle voie d'exploration dans les études chimiques, tandis que notre méthode d'intégration des connaissances chimiques structurées dans les systèmes de dialogue établit une nouvelle frontière pour le développement de LLM dans divers domaines scientifiques. Les codes, les jeux de données et les poids du modèle sont accessibles publiquement à l'adresse hf.co/AI4Chem/ChemLLM-7B-Chat.

Fiddler : Orchestration CPU-GPU pour l'inférence rapide des modèles de mélange d'experts
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Feb 10, 2024
Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci
171

Les modèles de langage de grande taille (LLMs) basés sur l'architecture Mixture-of-Experts (MoE) démontrent des performances prometteuses sur diverses tâches. Cependant, leur exécution dans des environnements aux ressources limitées, où la mémoire GPU n'est pas abondante, est un défi en raison de la taille importante des modèles. Les systèmes existants qui déchargent les poids des modèles vers la mémoire CPU souffrent d'une surcharge significative due au transfert fréquent de données entre le CPU et le GPU. Dans cet article, nous proposons Fiddler, un moteur d'inférence économe en ressources avec orchestration CPU-GPU pour les modèles MoE. L'idée clé de Fiddler est d'utiliser la capacité de calcul du CPU pour minimiser le mouvement de données entre le CPU et le GPU. Notre évaluation montre que Fiddler peut exécuter le modèle Mixtral-8x7B non compressé, qui dépasse 90 Go de paramètres, pour générer plus de 3 tokens par seconde sur un seul GPU avec 24 Go de mémoire, montrant une amélioration d'un ordre de grandeur par rapport aux méthodes existantes. Le code de Fiddler est disponible publiquement à l'adresse https://github.com/efeslab/fiddler.

PIVOT : L'incitation visuelle itérative suscite des connaissances exploitables pour les modèles de langage visuel.
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12, 2024
Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
162

Les modèles de langage visuel (VLMs) ont démontré des capacités impressionnantes dans une variété de tâches, allant du raisonnement logique à la compréhension visuelle. Cela ouvre la porte à des interactions plus riches avec le monde, par exemple dans le contrôle robotique. Cependant, les VLMs ne produisent que des sorties textuelles, tandis que le contrôle robotique et d'autres tâches spatiales nécessitent la génération de coordonnées continues, d'actions ou de trajectoires. Comment pouvons-nous permettre aux VLMs de gérer de tels contextes sans ajustement fin sur des données spécifiques à la tâche ? Dans cet article, nous proposons une nouvelle approche de *prompting* visuel pour les VLMs, que nous appelons *Prompting with Iterative Visual Optimization* (PIVOT), qui transforme les tâches en un processus itératif de question-réponse visuelle. À chaque itération, l'image est annotée avec une représentation visuelle des propositions auxquelles le VLM peut se référer (par exemple, des actions robotiques candidates, des localisations ou des trajectoires). Le VLM sélectionne ensuite les meilleures propositions pour la tâche. Ces propositions sont affinées de manière itérative, permettant au VLM de converger vers la meilleure réponse disponible. Nous étudions PIVOT dans des contextes de navigation robotique en monde réel, de manipulation à partir d'images, de suivi d'instructions en simulation, ainsi que dans d'autres tâches d'inférence spatiale telles que la localisation. Nous constatons, peut-être de manière surprenante, que notre approche permet un contrôle *zero-shot* de systèmes robotiques sans aucune donnée d'entraînement spécifique, une navigation dans divers environnements, et d'autres capacités. Bien que les performances actuelles soient loin d'être parfaites, notre travail met en lumière les potentiels et les limites de ce nouveau paradigme et montre une approche prometteuse pour les VLMs à l'échelle d'Internet dans les domaines du raisonnement robotique et spatial. Site web : pivot-prompt.github.io et HuggingFace : https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.

Rendre la synthèse vocale à partir de texte en zero-shot basée sur le Flow-Matching capable de rire comme vous le souhaitez
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Feb 12, 2024
Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
161

Le rire est l'un des aspects les plus expressifs et naturels de la parole humaine, véhiculant des émotions, des signaux sociaux et de l'humour. Cependant, la plupart des systèmes de synthèse vocale (TTS) ne parviennent pas à produire des sons de rire réalistes et appropriés, limitant ainsi leurs applications et l'expérience utilisateur. Bien que des travaux antérieurs aient tenté de générer des rires naturels, ils n'ont pas réussi à contrôler avec précision le timing et la variété des rires générés. Dans ce travail, nous proposons ELaTE, un système TTS zero-shot capable de générer des paroles riantes naturelles pour n'importe quel locuteur à partir d'un court extrait audio, avec un contrôle précis du timing et de l'expression du rire. Concrètement, ELaTE utilise l'extrait audio pour imiter les caractéristiques vocales, le texte pour indiquer le contenu de la parole générée, et une entrée pour contrôler l'expression du rire, qui peut être soit les moments de début et de fin du rire, soit un extrait audio supplémentaire contenant le rire à imiter. Nous développons notre modèle en nous appuyant sur un système TTS zero-shot basé sur le conditionnement par flow-matching, et l'affinons avec une représentation au niveau des trames provenant d'un détecteur de rire comme conditionnement supplémentaire. Grâce à une méthode simple pour mélanger des données à petite échelle conditionnées par le rire avec des données de pré-entraînement à grande échelle, nous démontrons qu'un modèle TTS zero-shot pré-entraîné peut être facilement affiné pour générer des rires naturels avec une contrôlabilité précise, sans perdre la qualité du modèle TTS zero-shot pré-entraîné. À travers les évaluations, nous montrons qu'ELaTE peut générer des paroles riantes avec une qualité et une contrôlabilité significativement supérieures par rapport aux modèles conventionnels. Consultez https://aka.ms/elate/ pour des exemples de démonstration.

Une histoire de queues : L'effondrement des modèles comme changement des lois d'échelle
A Tale of Tails: Model Collapse as a Change of Scaling Laws

Feb 10, 2024
Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
161

À mesure que la taille des modèles d'IA augmente, les lois d'échelle neuronales sont devenues un outil crucial pour prédire les améliorations des grands modèles lors de l'augmentation de leur capacité et de la taille des données d'entraînement originales (humaines ou naturelles). Cependant, l'utilisation généralisée de modèles populaires signifie que l'écosystème des données et textes en ligne co-évoluera pour contenir progressivement des quantités croissantes de données synthétisées. Dans cet article, nous posons la question suivante : Comment les lois d'échelle changeront-elles dans le régime inévitable où les données synthétiques s'intègrent au corpus d'entraînement ? Les futurs modèles continueront-ils à s'améliorer, ou seront-ils condamnés à dégénérer jusqu'à un effondrement total (du modèle) ? Nous développons un cadre théorique de l'effondrement des modèles à travers le prisme des lois d'échelle. Nous découvrons une large gamme de phénomènes de dégradation, analysant la perte d'échelle, le décalage d'échelle avec le nombre de générations, le « désapprentissage » des compétences, et le phénomène de "grokking" lors du mélange de données humaines et synthétisées. Notre théorie est validée par des expériences à grande échelle avec un transformateur sur une tâche arithmétique et la génération de texte utilisant le grand modèle de langage Llama2.

Prismatic VLMs : Exploration de l'espace de conception des modèles de langage conditionnés visuellement
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Feb 12, 2024
Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
152

Les modèles de langage conditionnés visuellement (VLMs) connaissent une adoption croissante dans des applications telles que le dialogue visuel, la compréhension de scènes et la planification de tâches robotiques ; une adoption qui a alimenté une multitude de nouveaux modèles tels que LLaVa, InstructBLIP et PaLI-3. Malgré le volume des nouvelles versions, les décisions clés de conception concernant le prétraitement des images, l'architecture et l'optimisation restent peu explorées, rendant difficile la compréhension des facteurs qui influencent la performance des modèles - un défi encore compliqué par l'absence d'évaluations objectives et cohérentes. Pour combler ces lacunes, nous compilons d'abord une suite d'évaluations standardisées couvrant la réponse à des questions visuelles, la localisation d'objets à partir du langage, et des ensembles de défis ciblés qui sondent des propriétés telles que l'hallucination ; des évaluations qui fournissent un aperçu calibré et granulaire des capacités d'un VLM. Ensuite, nous investiguons rigoureusement les VLMs selon des axes de conception clés, incluant les représentations visuelles pré-entraînées et la quantification des compromis entre l'utilisation de modèles de langage de base et ceux ajustés par instruction, entre autres. Nous accompagnons notre analyse de trois contributions ressources : (1) un cadre unifié pour l'évaluation des VLMs, (2) un code optimisé et flexible pour l'entraînement des VLMs, et (3) des points de contrôle pour tous les modèles, incluant une famille de VLMs à l'échelle 7-13B qui surpassent strictement InstructBLIP et LLaVa v1.5, l'état de l'art dans les VLMs open-source.

AutoMathText : Sélection autonome de données avec des modèles de langage pour les textes mathématiques
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Feb 12, 2024
Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
152

Pour améliorer la maîtrise des modèles de langage en raisonnement mathématique via un pré-entraînement continu, nous introduisons une nouvelle stratégie qui exploite des modèles de langage de base pour la sélection autonome de données. S'écartant des méthodes conventionnelles de fine-tuning supervisé ou de classificateurs entraînés avec des données annotées manuellement, notre approche utilise des modèles de langage méta-invites comme vérificateurs zero-shot pour évaluer et sélectionner de manière autonome un contenu mathématique de haute qualité. Nous publions également le jeu de données open-source AutoMathText, contenant plus de 200 Go de données. Pour démontrer l'efficacité de notre méthode, nous avons effectué un pré-entraînement continu d'un modèle de langage Mistral à 7 milliards de paramètres sur le jeu de données AutoMathText, obtenant des améliorations significatives des performances en aval sur le jeu de données MATH, avec une quantité de tokens réduite de plusieurs ordres de grandeur par rapport aux travaux précédents de pré-entraînement continu. Notre méthode montre une efficacité de pré-entraînement en tokens deux fois supérieure à celle des approches de référence, soulignant le potentiel de notre approche pour améliorer les capacités de raisonnement mathématique des modèles. Le jeu de données AutoMathText est disponible à l'adresse https://huggingface.co/datasets/math-ai/AutoMathText. Le code est disponible à l'adresse https://github.com/yifanzhang-pro/AutoMathText.

Lois d'échelle pour les mélanges d'experts à granularité fine
Scaling Laws for Fine-Grained Mixture of Experts

Feb 12, 2024
Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur
141

Les modèles de type Mixture of Experts (MoE) sont apparus comme une solution principale pour réduire le coût computationnel des grands modèles de langage. Dans ce travail, nous analysons leurs propriétés de mise à l'échelle en intégrant une gamme étendue de variables. Plus précisément, nous introduisons un nouvel hyperparamètre, la granularité, dont l'ajustement permet un contrôle précis de la taille des experts. Sur cette base, nous établissons des lois de mise à l'échelle pour les MoE à granularité fine, en prenant en compte le nombre de tokens d'entraînement, la taille du modèle et la granularité. En exploitant ces lois, nous déterminons la configuration d'entraînement optimale pour un budget computationnel donné. Nos résultats montrent non seulement que les modèles MoE surpassent systématiquement les Transformers denses, mais aussi que l'écart d'efficacité entre les modèles denses et les MoE s'accroît à mesure que nous augmentons la taille du modèle et le budget d'entraînement. De plus, nous démontrons que la pratique courante consistant à définir la taille des experts dans les MoE pour qu'elle reflète celle de la couche feed-forward n'est pas optimale pour presque aucun budget computationnel.

ODIN : La récompense désentrelacée atténue le piratage dans l'apprentissage par renforcement avec feedback humain
ODIN: Disentangled Reward Mitigates Hacking in RLHF

Feb 11, 2024
Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro
141

Dans ce travail, nous étudions le problème du détournement de récompense lié à la longueur des réponses, un défi émergeant dans l'apprentissage par renforcement à partir de retours humains (RLHF) sur les modèles de langage de grande taille (LLMs). Une réponse bien formatée, verbeuse mais moins utile provenant des LLMs peut souvent tromper les LLMs eux-mêmes, voire les évaluateurs humains, pour obtenir des scores élevés. Le même problème se pose également pour certains modèles de récompense dans l'apprentissage par renforcement (RL). Pour relever les défis à la fois dans l'entraînement et l'évaluation, nous établissons un protocole d'évaluation plus fiable pour comparer différentes configurations d'entraînement, qui examine le compromis entre le score d'évaluation des LLMs et la longueur des réponses obtenue en faisant varier les hyperparamètres d'entraînement. Sur la base de cette évaluation, nous menons des études à grande échelle, dont les résultats apportent des éclairages sur l'efficacité des hyperparamètres et des astuces utilisés en RL pour atténuer le biais de longueur. Nous proposons en outre d'améliorer le modèle de récompense en entraînant conjointement deux têtes linéaires sur des représentations de caractéristiques partagées pour prédire les récompenses, l'une entraînée à corréler avec la longueur, et l'autre entraînée à décorréler avec la longueur et donc à se concentrer davantage sur le contenu réel. Nous écartons ensuite la tête de longueur en RL pour empêcher le détournement de récompense sur la longueur. Les expériences démontrent que notre approche élimine presque entièrement la corrélation de récompense avec la longueur et améliore significativement la politique obtenue.

LiRank : Modèles de classement à grande échelle industriels chez LinkedIn
LiRank: Industrial Large Scale Ranking Models at LinkedIn

Feb 10, 2024
Fedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh
131

Nous présentons LiRank, un cadre de classement à grande échelle chez LinkedIn qui met en production des architectures de modélisation et des méthodes d'optimisation de pointe. Nous dévoilons plusieurs améliorations de modélisation, notamment le Residual DCN, qui ajoute des mécanismes d'attention et des connexions résiduelles à la célèbre architecture DCNv2. Nous partageons des insights sur la combinaison et le réglage d'architectures SOTA pour créer un modèle unifié, incluant le Dense Gating, les Transformers et le Residual DCN. Nous proposons également des techniques novatrices pour la calibration et décrivons comment nous avons industrialisé des méthodes d'exploration/exploitation basées sur l'apprentissage profond. Pour permettre un service efficace et de qualité production pour les grands modèles de classement, nous détaillons comment entraîner et compresser les modèles en utilisant la quantification et la compression de vocabulaire. Nous fournissons des détails sur la configuration de déploiement pour des cas d'utilisation à grande échelle tels que le classement du Fil d'actualité, les recommandations d'emplois et la prédiction du taux de clics (CTR) pour les publicités. Nous résumons nos apprentissages issus de divers tests A/B en mettant en lumière les approches techniques les plus efficaces. Ces idées ont contribué à des améliorations relatives des métriques à tous les niveaux chez LinkedIn : +0,5 % de sessions des membres dans le Fil d'actualité, +1,76 % de candidatures qualifiées pour la recherche et les recommandations d'emplois, et +4,3 % pour le CTR des publicités. Nous espérons que ce travail pourra fournir des insights pratiques et des solutions aux praticiens intéressés par l'exploitation de systèmes de classement profond à grande échelle.

GALA3D : Vers la génération de scènes complexes 3D à partir de texte via un éclatement gaussien génératif guidé par la disposition
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Feb 11, 2024
Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
111

Nous présentons GALA3D, des GAussiens 3D génératifs avec contrôle guidé par LAyout, pour une génération text-to-3D compositionnelle efficace. Nous utilisons d'abord des modèles de langage de grande taille (LLMs) pour générer le layout initial et introduisons une représentation 3D Gaussienne guidée par layout pour la génération de contenu 3D avec des contraintes géométriques adaptatives. Nous proposons ensuite un mécanisme d'optimisation compositionnelle objet-scène avec diffusion conditionnée pour générer de manière collaborative des scènes 3D réalistes avec une géométrie, une texture, une échelle et des interactions précises entre plusieurs objets tout en ajustant simultanément les priors de layout grossiers extraits des LLMs pour les aligner avec la scène générée. Les expériences montrent que GALA3D est un framework convivial et end-to-end pour la génération de contenu 3D au niveau scénique de pointe et l'édition contrôlée, tout en garantissant la haute fidélité des entités au niveau objet dans la scène. Les codes sources et modèles seront disponibles sur https://gala3d.github.io/.

Réglage Pas-à-Pas : Mise à l'échelle de l'auto-alignement des LLM par amorçage
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

Feb 12, 2024
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao
101

L'auto-alignement est une méthode efficace pour réduire le coût de l'annotation humaine tout en garantissant des capacités prometteuses du modèle. Cependant, la plupart des méthodes actuelles réalisent la collecte de données et l'entraînement en une seule étape, ce qui peut négliger la capacité d'amélioration continue des modèles auto-alignés. Cela soulève une question clé : Et si nous effectuions un auto-alignement par bootstrap en plusieurs étapes ? Cette stratégie améliore-t-elle les performances du modèle ou conduit-elle à une dégradation rapide ? Dans cet article, notre exploration pionnière examine l'impact de l'auto-alignement par bootstrap sur les grands modèles de langage. Nos résultats révèlent que l'auto-alignement par bootstrap surpasse nettement l'approche en une seule étape, en garantissant la diversité des données grâce à l'apprentissage en contexte. Pour exploiter davantage les capacités du bootstrap, nous étudions et ajustons l'ordre d'entraînement des données, ce qui améliore les performances du modèle. Sur la base de ces découvertes, nous proposons le Step-On-Feet Tuning (SOFT), qui exploite la capacité améliorée en few-shot du modèle pour booster les performances en zero-shot ou one-shot. En nous appuyant sur une recette d'entraînement allant du facile au difficile, nous proposons SOFT+, qui améliore encore les performances de l'auto-alignement. Nos expériences démontrent l'efficacité de SOFT (SOFT+) sur diverses tâches de classification et de génération, mettant en lumière le potentiel de l'auto-alignement par bootstrap pour améliorer continuellement les performances d'alignement des modèles.

Amélioration des politiques grâce aux modèles de feedback linguistique
Policy Improvement using Language Feedback Models

Feb 12, 2024
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
91

Nous présentons les Modèles de Feedback Langagier (Language Feedback Models, LFMs) qui identifient les comportements souhaitables - des actions qui aident à accomplir les tâches spécifiées dans les instructions - pour l'apprentissage par imitation dans le suivi d'instructions. Pour entraîner les LFMs, nous obtenons des feedbacks de Modèles de Langage à Grande Échelle (Large Language Models, LLMs) sur des trajectoires visuelles verbalisées en descriptions langagières. Premièrement, en utilisant les LFMs pour identifier les comportements souhaitables à imiter, nous améliorons le taux d'accomplissement des tâches par rapport à des bases solides de clonage comportemental dans trois environnements distincts de mise en correspondance langagière (Touchdown, ScienceWorld et ALFWorld). Deuxièmement, les LFMs surpassent l'utilisation des LLMs comme experts pour prédire directement les actions, en contrôlant le nombre de tokens de sortie des LLMs. Troisièmement, les LFMs généralisent à des environnements non vus, améliorant le taux d'accomplissement des tâches de 3,5 à 12,0 % grâce à une seule ronde d'adaptation. Enfin, les LFMs peuvent être modifiés pour fournir un feedback interprétable par l'homme sans perte de performance, permettant la vérification humaine des comportements souhaitables pour l'apprentissage par imitation.

Feb 12
Feb 13
Feb 14