Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération de texte-à-3D, qui vise à synthétiser des objets 3D réalistes à partir de descriptions textuelles, a suscité un intérêt considérable dans la communauté de la vision par ordinateur. Bien que plusieurs travaux existants aient obtenu des résultats impressionnants pour cette tâche, ils reposent principalement sur un paradigme d'optimisation long et fastidieux. Plus précisément, ces méthodes optimisent un champ neuronal à partir de zéro pour chaque description textuelle, prenant environ une heure ou plus pour générer un seul objet. Ce coût de formation élevé et répétitif entrave leur déploiement pratique. Dans cet article, nous proposons un nouveau cadre pour la génération rapide de texte-à-3D, baptisé Instant3D. Une fois entraîné, Instant3D est capable de créer un objet 3D pour une description textuelle inédite en moins d'une seconde avec une seule exécution d'un réseau feedforward. Nous atteignons cette vitesse remarquable en concevant un nouveau réseau qui construit directement un triplan 3D à partir d'une description textuelle. L'innovation clé de notre Instant3D réside dans notre exploration de stratégies pour injecter efficacement les conditions textuelles dans le réseau. De plus, nous proposons une fonction d'activation simple mais efficace, la sigmoïde mise à l'échelle, pour remplacer la fonction sigmoïde originale, ce qui accélère la convergence de l'entraînement de plus de dix fois. Enfin, pour résoudre le problème de Janus (multi-têtes) dans la génération 3D, nous proposons un algorithme Perp-Neg adaptatif qui peut ajuster dynamiquement ses échelles de négation de concept en fonction de la gravité du problème de Janus pendant l'entraînement, réduisant ainsi efficacement l'effet multi-têtes. Des expériences approfondies sur une grande variété de jeux de données de référence démontrent que l'algorithme proposé surpasse les méthodes de pointe à la fois qualitativement et quantitativement, tout en offrant une efficacité nettement supérieure. La page du projet est disponible à l'adresse https://ming1993li.github.io/Instant3DProj.
Les récents progrès dans la génération d'objets 3D en monde ouvert sont remarquables, avec les méthodes image-à-3D offrant un contrôle plus fin que leurs homologues texte-à-3D. Cependant, la plupart des modèles existants peinent à fournir simultanément des vitesses de génération rapides et une fidélité élevée aux images d'entrée - deux caractéristiques essentielles pour les applications pratiques. Dans cet article, nous présentons One-2-3-45++, une méthode innovante qui transforme une seule image en un maillage 3D texturé détaillé en environ une minute. Notre approche vise à exploiter pleinement les connaissances approfondies intégrées dans les modèles de diffusion 2D et les a priori issus de données 3D précieuses mais limitées. Cela est réalisé en affinant d'abord un modèle de diffusion 2D pour une génération cohérente d'images multi-vues, puis en élevant ces images à la 3D à l'aide de modèles de diffusion natifs 3D conditionnés par plusieurs vues. Des évaluations expérimentales approfondies démontrent que notre méthode peut produire des actifs 3D de haute qualité et diversifiés qui reflètent étroitement l'image d'entrée originale. Notre page web de projet : https://sudo-ai-3d.github.io/One2345plus_page.
La fluidité et la créativité des grands modèles de langage pré-entraînés (LLM) ont conduit à leur utilisation généralisée, parfois même en remplacement des moteurs de recherche traditionnels. Cependant, les modèles de langage ont tendance à produire des affirmations convaincantes mais factuellement inexactes, souvent qualifiées d'« hallucinations ». Ces erreurs peuvent involontairement propager de la désinformation ou perpétuer de manière nuisible des idées fausses. De plus, la vérification manuelle des réponses des modèles est un processus chronophage, rendant l'acquisition d'étiquettes de factualité humaine coûteuse. Dans ce travail, nous affinons les modèles de langage pour qu'ils soient plus factuels, sans recourir à l'étiquetage humain et en ciblant des contextes de génération plus ouverts que les travaux précédents. Pour ce faire, nous exploitons deux innovations récentes clés en traitement automatique du langage (NLP). Premièrement, plusieurs travaux récents ont proposé des méthodes pour juger de la factualité de textes ouverts en mesurant leur cohérence avec une base de connaissances externe ou simplement en utilisant les scores de confiance d'un grand modèle. Deuxièmement, l'algorithme d'optimisation directe des préférences permet un affinage simple des modèles de langage sur des objectifs autres que l'imitation supervisée, en utilisant un classement des préférences parmi les réponses possibles du modèle. Nous montrons que l'apprentissage à partir de classements de préférence de factualité générés automatiquement, soit par des systèmes de recherche existants, soit par notre nouvelle approche sans recherche, améliore significativement la factualité (pourcentage d'affirmations générées correctes) de Llama-2 sur des sujets réservés par rapport à l'apprentissage par renforcement avec feedback humain (RLHF) ou aux stratégies de décodage ciblant la factualité. À l'échelle de 7 milliards de paramètres, par rapport à Llama-2-chat, nous observons une réduction de 58 % et 40 % du taux d'erreurs factuelles lors de la génération de biographies et de réponses à des questions médicales, respectivement.
Dans ce travail, nous passons en revue de manière systématique les avancées récentes dans le traitement du code avec des modèles de langage, couvrant plus de 50 modèles, 30 tâches d'évaluation et 500 travaux connexes. Nous classons les modèles de traitement du code en deux catégories : les modèles de langage généraux, représentés par la famille GPT, et les modèles spécialisés, pré-entraînés spécifiquement sur du code avec des objectifs adaptés. Nous discutons des relations et des différences entre ces modèles, et mettons en lumière la transition historique de la modélisation du code, passant des modèles statistiques et des RNN aux Transformers pré-entraînés et aux LLMs, un parcours identique à celui suivi par le domaine du NLP. Nous abordons également les caractéristiques spécifiques au code, telles que l'AST, le CFG et les tests unitaires, ainsi que leur application dans l'entraînement des modèles de langage pour le code. Nous identifions les défis majeurs et les directions futures potentielles dans ce domaine. Nous maintenons cette étude ouverte et mise à jour sur un dépôt GitHub à l'adresse suivante : https://github.com/codefuse-ai/Awesome-Code-LLM.
Une capacité fondamentale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, l'évaluation de ces capacités n'est pas standardisée : les évaluations humaines sont coûteuses, lentes et non reproductibles de manière objective, tandis que l'auto-évaluation basée sur des LLMs est potentiellement biaisée ou limitée par les capacités du LLM évaluateur. Pour surmonter ces problèmes, nous introduisons Instruction-Following Eval (IFEval) pour les grands modèles de langage. IFEval est un benchmark d'évaluation simple et facile à reproduire. Il se concentre sur un ensemble d'"instructions vérifiables" telles que "écrire en plus de 400 mots" et "mentionner le mot-clé IA au moins 3 fois". Nous avons identifié 25 types de ces instructions vérifiables et construit environ 500 prompts, chaque prompt contenant une ou plusieurs instructions vérifiables. Nous présentons les résultats d'évaluation de deux LLMs largement disponibles sur le marché. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/google-research/google-research/tree/master/instruction_following_eval.
Nous démontrons une situation dans laquelle les modèles de langage de grande taille, entraînés à être utiles, inoffensifs et honnêtes, peuvent manifester un comportement désaligné et tromper stratégiquement leurs utilisateurs à ce sujet sans en avoir reçu l'instruction. Concrètement, nous déployons GPT-4 en tant qu'agent dans un environnement simulé réaliste, où il assume le rôle d'un agent de trading boursier autonome. Dans cet environnement, le modèle obtient un tuyau d'initié concernant une transaction boursière lucrative et agit en conséquence, bien qu'il sache que le délit d'initié est désapprouvé par la direction de l'entreprise. Lorsqu'il rend compte à son manager, le modèle dissimule systématiquement les véritables raisons derrière sa décision de trading. Nous menons une brève investigation sur la manière dont ce comportement varie en fonction de modifications du contexte, telles que la suppression de l'accès du modèle à un bloc-notes de raisonnement, la tentative de prévenir le comportement désaligné en modifiant les instructions système, la variation de la pression exercée sur le modèle, le changement du risque perçu d'être découvert, et d'autres modifications simples de l'environnement. À notre connaissance, il s'agit de la première démonstration de modèles de langage de grande taille, entraînés à être utiles, inoffensifs et honnêtes, trompant stratégiquement leurs utilisateurs dans une situation réaliste sans instructions directes ou entraînement spécifique à la tromperie.
Dans ce travail, nous proposons FastCoT, un cadre modèle-agnostique basé sur un décodage parallèle sans nécessiter d'entraînement supplémentaire d'un modèle auxiliaire ou de modification du LLM lui-même. FastCoT utilise une fenêtre contextuelle de taille variable qui évolue en fonction de la position pour effectuer simultanément un décodage parallèle et un décodage auto-régressif, exploitant ainsi pleinement les ressources de calcul du GPU. Dans FastCoT, la partie de décodage parallèle offre au LLM un aperçu rapide du futur composé de tokens approximatifs, ce qui peut conduire à des réponses plus rapides par rapport au décodage auto-régressif classique utilisé par les transformers causals. Nous fournissons également une implémentation du décodage parallèle au sein du LLM, qui prend en charge la génération de KV-cache et le traitement par lots. À travers des expériences approfondies, nous démontrons que FastCoT réduit le temps d'inférence de près de 20 % avec seulement une baisse de performance négligeable par rapport à l'approche classique. De plus, nous montrons que la taille de la fenêtre contextuelle présente une robustesse considérable pour différentes tâches.
Les grands modèles de langage (LLM) sont devenus un composant essentiel dans de nombreuses applications d'apprentissage automatique. Cependant, les approches standard pour entraîner les LLM nécessitent un grand nombre d'accélérateurs étroitement interconnectés, avec des échanges de gradients et d'autres états intermédiaires à chaque étape d'optimisation. Bien qu'il soit difficile de construire et de maintenir un seul cluster de calcul hébergeant de nombreux accélérateurs, il pourrait être plus facile de trouver plusieurs clusters de calcul, chacun hébergeant un nombre réduit de dispositifs. Dans ce travail, nous proposons un algorithme d'optimisation distribué, Distributed Low-Communication (DiLoCo), qui permet l'entraînement de modèles de langage sur des îlots de dispositifs faiblement connectés. Cette approche est une variante de la moyenne fédérée, où le nombre d'étapes internes est élevé, l'optimiseur interne est AdamW, et l'optimiseur externe est la méthode de Nesterov. Sur le jeu de données C4 largement utilisé, nous montrons que DiLoCo sur 8 travailleurs performe aussi bien qu'une optimisation entièrement synchrone tout en communiquant 500 fois moins. DiLoCo présente une grande robustesse à la distribution des données de chaque travailleur. Il est également robuste à l'indisponibilité des ressources au fil du temps, et inversement, il peut exploiter de manière transparente les ressources qui deviennent disponibles pendant l'entraînement.
Ces dernières années, les modèles de langage de grande taille (LLMs) ont démontré des capacités génératives remarquables, mais peuvent-ils juger la qualité de leurs propres générations ? Un concept populaire, appelé auto-affinement, postule que les LLMs peuvent détecter et corriger les erreurs dans leurs générations lorsqu'ils y sont invités. Cependant, des preuves empiriques récentes vont dans le sens contraire, suggérant que les LLMs ont souvent du mal à identifier avec précision les erreurs lorsque le raisonnement est impliqué. Pour résoudre ce problème, nous proposons un objectif de raisonnement avec affinement appelé ART : Ask, Refine, and Trust (Demander, Affiner et Faire Confiance), qui pose les questions nécessaires pour décider quand un LLM doit affiner sa sortie, et soit confirmer soit retenir la confiance dans son affinement en classant l'affinement et la prédiction initiale. Sur deux tâches de raisonnement en plusieurs étapes, à savoir les problèmes mathématiques (GSM8K) et les questions-réponses (StrategyQA), ART obtient un gain de performance de +5 points par rapport aux bases d'auto-affinement, tout en utilisant un modèle beaucoup plus petit comme décideur. Nous démontrons également l'avantage d'utiliser des modèles plus petits pour prendre des décisions d'affinement comme une alternative rentable au fine-tuning d'un modèle plus grand.
Récemment, les modèles audio-langage capables de suivre des instructions ont suscité un intérêt considérable pour l'interaction audio avec les humains. Cependant, l'absence de modèles audio pré-entraînés capables de gérer divers types d'audio et tâches a freiné les progrès dans ce domaine. Par conséquent, la plupart des travaux existants n'ont pu supporter qu'un éventail limité de capacités d'interaction. Dans cet article, nous développons le modèle Qwen-Audio et surmontons cette limitation en élargissant le pré-entraînement audio-langage pour couvrir plus de 30 tâches et divers types d'audio, tels que la parole humaine, les sons naturels, la musique et les chansons, afin de faciliter des capacités universelles de compréhension audio. Cependant, un co-entraînement direct de toutes les tâches et jeux de données peut entraîner des problèmes d'interférence, car les étiquettes textuelles associées à différents jeux de données présentent des variations considérables dues aux différences de focus des tâches, de langues, de granularité d'annotation et de structure de texte. Pour surmonter l'interférence de type un-à-plusieurs, nous concevons soigneusement un cadre d'entraînement multi-tâches en conditionnant sur une séquence d'étiquettes hiérarchiques pour le décodeur, encourageant ainsi le partage des connaissances et évitant les interférences grâce à des étiquettes partagées et spécifiques respectivement. De manière remarquable, Qwen-Audio obtient des performances impressionnantes sur diverses tâches de référence sans nécessiter de réglage spécifique à la tâche, surpassant ses homologues. En nous appuyant sur les capacités de Qwen-Audio, nous développons en outre Qwen-Audio-Chat, qui permet des entrées à partir de divers audios et textes, permettant des dialogues multi-tours et supportant divers scénarios centrés sur l'audio.
Le red teaming est une pratique courante pour atténuer les comportements dangereux dans les grands modèles de langage (LLMs), qui consiste à évaluer minutieusement les LLMs afin d'identifier les failles potentielles et à y répondre de manière responsable et précise. Bien qu'efficace, le red teaming manuel est coûteux, et les méthodes automatiques existantes découvrent généralement les risques de sécurité sans les résoudre. Dans cet article, nous proposons une méthode de red teaming automatique multi-tours (MART), qui intègre à la fois la génération automatique de prompts adverses et la génération de réponses sûres, augmentant ainsi considérablement la scalabilité du red teaming et la sécurité du LLM cible. Plus précisément, un LLM adverse et un LLM cible interagissent de manière itérative, où le LLM adverse vise à générer des prompts difficiles qui suscitent des réponses dangereuses du LLM cible, tandis que ce dernier est affiné avec des données alignées sur la sécurité pour ces prompts adverses. À chaque tour, le LLM adverse conçoit de meilleures attaques sur le LLM cible mis à jour, tandis que le LLM cible s'améliore également grâce à l'affinage de sécurité. Sur des benchmarks de prompts adverses, le taux de violation d'un LLM avec un alignement de sécurité limité diminue jusqu'à 84,7 % après 4 tours de MART, atteignant des performances comparables à celles des LLMs avec une génération extensive de prompts adverses. Notamment, l'utilité du modèle sur les prompts non adverses reste stable tout au long des itérations, indiquant que le LLM cible maintient de solides performances dans le suivi des instructions.