Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'édition d'images guidée par texte est largement nécessaire dans la vie quotidienne, allant d'un usage personnel à des applications professionnelles telles que Photoshop. Cependant, les méthodes existantes sont soit zero-shot, soit entraînées sur un ensemble de données synthétisé automatiquement, qui contient un volume élevé de bruit. Ainsi, elles nécessitent encore beaucoup de réglages manuels pour produire des résultats souhaitables en pratique. Pour résoudre ce problème, nous introduisons MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), le premier ensemble de données à grande échelle annoté manuellement pour l'édition d'images réelles guidée par instructions, couvrant divers scénarios : édition en un seul tour, en plusieurs tours, avec masque fourni et sans masque. MagicBrush comprend plus de 10 000 triplets annotés manuellement (image source, instruction, image cible), ce qui permet d'entraîner des modèles d'édition d'images guidée par texte à grande échelle. Nous affinons InstructPix2Pix sur MagicBrush et montrons que le nouveau modèle peut produire des images bien meilleures selon l'évaluation humaine. Nous menons en outre des expériences approfondies pour évaluer les modèles de référence actuels en édition d'images sous plusieurs dimensions, notamment quantitatives, qualitatives et humaines. Les résultats révèlent la nature complexe de notre ensemble de données et l'écart entre les modèles de référence actuels et les besoins réels en matière d'édition.
Les modèles de langage de grande taille (LLMs) ont révolutionné le traitement du langage naturel (NLP) mais nécessitent d'importantes ressources GPU pour leur entraînement. Réduire le seuil d'accès à l'entraînement des LLMs encouragerait une plus grande participation des chercheurs, bénéficiant ainsi à la fois au monde académique et à la société. Bien que les approches existantes se soient concentrées sur le fine-tuning efficace en paramètres, qui ajuste ou ajoute un petit nombre de paramètres, peu ont abordé le défi de l'ajustement complet des paramètres des LLMs avec des ressources limitées. Dans ce travail, nous proposons un nouvel optimiseur, l'Optimisation à Faible Mémoire (LOMO), qui fusionne le calcul du gradient et la mise à jour des paramètres en une seule étape pour réduire l'utilisation de la mémoire. En intégrant LOMO avec des techniques existantes d'économie de mémoire, nous réduisons l'utilisation de la mémoire à 10,8 % par rapport à l'approche standard (solution DeepSpeed). Par conséquent, notre méthode permet le fine-tuning complet des paramètres d'un modèle de 65B sur une seule machine équipée de 8 RTX 3090, chacune disposant de 24 Go de mémoire.
Les grands modèles de langage (LLMs) ont démontré une aptitude remarquable en génération de code, mais peinent encore sur des tâches de programmation complexes. L'auto-réparation -- où le modèle débogue et corrige les erreurs dans son propre code -- est récemment devenue une méthode populaire pour améliorer les performances dans ces contextes. Cependant, la littérature ne contient que des études très limitées sur comment et quand l'auto-réparation fonctionne efficacement, et on peut se demander dans quelle mesure un modèle est réellement capable de fournir un retour d'information précis sur pourquoi le code est erroné lorsque ce code a été généré par le même modèle. Dans cet article, nous analysons la capacité de GPT-3.5 et GPT-4 à effectuer de l'auto-réparation sur APPS, un ensemble de données complexe composé de défis de codage variés. Pour ce faire, nous établissons d'abord une nouvelle stratégie d'évaluation appelée pass@t qui mesure le taux de réussite des tâches par rapport au nombre total de tokens échantillonnés à partir du modèle, permettant une comparaison équitable avec les approches basées uniquement sur l'échantillonnage. Avec cette stratégie d'évaluation, nous constatons que l'efficacité de l'auto-réparation n'est observée qu'avec GPT-4. Nous observons également que l'auto-réparation est limitée par l'étape de retour d'information ; en utilisant GPT-4 pour fournir un retour sur les programmes générés par GPT-3.5 et en utilisant des programmeurs humains experts pour fournir un retour sur les programmes générés par GPT-4, nous débloquons des gains de performance significatifs.
Nous présentons AvatarBooth, une méthode novatrice pour générer des avatars 3D de haute qualité à partir de prompts textuels ou d'images spécifiques. Contrairement aux approches précédentes qui ne peuvent synthétiser des avatars qu'à partir de descriptions textuelles simples, notre méthode permet la création d'avatars personnalisés à partir d'images de visage ou de corps capturées de manière informelle, tout en supportant la génération et l'édition de modèles basés sur du texte. Notre contribution principale réside dans le contrôle précis de la génération d'avatars grâce à l'utilisation de deux modèles de diffusion affinés séparément pour le visage et le corps humains. Cela nous permet de capturer des détails complexes de l'apparence faciale, des vêtements et des accessoires, aboutissant à des générations d'avatars hautement réalistes. De plus, nous introduisons une contrainte de cohérence de pose dans le processus d'optimisation pour améliorer la cohérence multi-vues des images de tête synthétisées par le modèle de diffusion, éliminant ainsi les interférences dues aux poses humaines non contrôlées. Par ailleurs, nous proposons une stratégie de rendu multi-résolution qui facilite une supervision grossière à fine de la génération d'avatars 3D, améliorant ainsi les performances du système proposé. Le modèle d'avatar résultant peut être ensuite édité à l'aide de descriptions textuelles supplémentaires et animé par des séquences de mouvement. Les expériences montrent qu'AvatarBooth surpasse les méthodes précédentes de texte-à-3D en termes de qualité de rendu et de géométrie, que ce soit à partir de prompts textuels ou d'images spécifiques. Veuillez consulter notre site web de projet à l'adresse https://zeng-yifei.github.io/avatarbooth_page/.
Nous présentons une approche de pré-entraînement sensorimoteur auto-supervisé pour la robotique. Notre modèle, appelé RPT, est un Transformer qui opère sur des séquences de tokens sensorimoteurs. Étant donné une séquence d'images de caméra, d'états proprioceptifs du robot et d'actions passées, nous encodons la séquence entrelacée en tokens, masquons un sous-ensemble aléatoire, et entraînons un modèle à prédire le contenu masqué. Nous émettons l'hypothèse que si le robot peut prédire le contenu manquant, il a acquis un bon modèle du monde physique qui peut lui permettre d'agir. RPT est conçu pour fonctionner sur des représentations visuelles latentes, ce qui rend la prédiction réalisable, permet de passer à des modèles 10 fois plus grands, et d'effectuer des inférences à 10 Hz sur un robot réel. Pour évaluer notre approche, nous collectons un ensemble de données de 20 000 trajectoires dans le monde réel sur 9 mois en utilisant une combinaison d'algorithmes de planification de mouvement et de préhension basés sur des modèles. Nous constatons que le pré-entraînement sur ces données surpasse systématiquement l'entraînement à partir de zéro, conduit à des améliorations de 2 fois dans la tâche d'empilage de blocs, et présente des propriétés d'échelle favorables.
La détection d'objets à vocabulaire ouvert a grandement bénéficié des modèles vision-langage pré-entraînés, mais reste limitée par la quantité de données d'entraînement disponibles pour la détection. Bien que les données d'entraînement pour la détection puissent être étendues en utilisant des paires image-texte du Web comme supervision faible, cela n'a pas été réalisé à des échelles comparables au pré-entraînement au niveau de l'image. Ici, nous augmentons les données de détection grâce à l'auto-apprentissage, qui utilise un détecteur existant pour générer des annotations de pseudo-boîtes sur des paires image-texte. Les principaux défis dans la mise à l'échelle de l'auto-apprentissage sont le choix de l'espace de labels, le filtrage des pseudo-annotations et l'efficacité de l'entraînement. Nous présentons le modèle OWLv2 et la méthode d'auto-apprentissage OWL-ST, qui répondent à ces défis. OWLv2 dépasse les performances des précédents détecteurs à vocabulaire ouvert de pointe déjà à des échelles d'entraînement comparables (~10M exemples). Cependant, avec OWL-ST, nous pouvons passer à plus de 1 milliard d'exemples, ce qui apporte une amélioration supplémentaire significative : avec une architecture L/14, OWL-ST améliore l'AP sur les classes rares de LVIS, pour lesquelles le modèle n'a vu aucune annotation de boîte humaine, de 31,2 % à 44,6 % (amélioration relative de 43 %). OWL-ST débloque l'entraînement à l'échelle du Web pour la localisation en monde ouvert, similaire à ce qui a été observé pour la classification d'images et la modélisation du langage.
Les modèles à espace d'états (SSMs) ont démontré des résultats impressionnants sur des tâches nécessitant la modélisation de dépendances à long terme et s'adaptent efficacement à des séquences longues grâce à leur complexité temporelle sous-quadratique. Initialement conçus pour les signaux continus, les SSMs ont montré des performances supérieures sur une multitude de tâches, notamment en vision et en audio ; cependant, les SSMs restent en retard par rapport aux Transformers dans les tâches de modélisation du langage. Dans ce travail, nous proposons une couche hybride nommée Block-State Transformer (BST), qui combine en interne une sous-couche SSM pour la contextualisation à long terme et une sous-couche Block Transformer pour la représentation à court terme des séquences. Nous étudions trois variantes différentes et entièrement parallélisables qui intègrent les SSMs et l'attention par blocs. Nous montrons que notre modèle surpasse les architectures basées sur les Transformers en termes de perplexité en modélisation du langage et généralise à des séquences plus longues. De plus, le Block-State Transformer démontre une augmentation de plus de dix fois en vitesse au niveau de la couche par rapport au Block-Recurrent Transformer lorsque la parallélisation du modèle est employée.
Les travaux sur les lois d'échelle ont montré que les grands modèles de langage (LMs) présentent des améliorations prévisibles de la perte globale avec une augmentation de l'échelle (taille du modèle, données d'entraînement et puissance de calcul). Ici, nous présentons des éléments de preuve soutenant l'affirmation selon laquelle les LMs pourraient montrer un phénomène d'échelle inverse, c'est-à-dire une performance dégradée sur certaines tâches avec l'augmentation de l'échelle, par exemple en raison de défauts dans l'objectif d'entraînement et les données. Nous présentons des preuves empiriques d'échelle inverse sur 11 ensembles de données collectés lors d'un concours public, le Prix d'Échelle Inverse, doté d'une importante récompense. À travers l'analyse de ces ensembles de données, ainsi que d'autres exemples trouvés dans la littérature, nous identifions quatre causes potentielles d'échelle inverse : (i) une préférence à répéter des séquences mémorisées plutôt qu'à suivre les instructions en contexte, (ii) l'imitation de modèles indésirables dans les données d'entraînement, (iii) des tâches contenant une tâche de distraction facile sur laquelle les LMs pourraient se concentrer, plutôt que la tâche réelle plus difficile, et (iv) des démonstrations few-shot correctes mais trompeuses de la tâche. Nous publions les ensembles de données gagnants sur https://inversescaling.com/data pour permettre une investigation plus approfondie de l'échelle inverse. Nos tâches ont contribué à la découverte de tendances d'échelle en forme de U et de U inversé, où une tendance initiale s'inverse, suggérant que les tendances d'échelle sont moins fiables pour prédire le comportement des modèles à plus grande échelle que ce qui était précédemment compris. Globalement, nos résultats suggèrent qu'il existe des tâches pour lesquelles l'augmentation de la taille du modèle seule pourrait ne pas conduire à des progrès, et qu'une réflexion plus approfondie est nécessaire concernant les données et les objectifs pour l'entraînement des modèles de langage.
Des travaux récents ont étudié la synthèse texte-audio en utilisant de grandes quantités de données texte-audio appariées. Cependant, les enregistrements audio accompagnés d'annotations textuelles de haute qualité peuvent être difficiles à acquérir. Dans ce travail, nous abordons la synthèse texte-audio en utilisant des vidéos non annotées et des modèles pré-entraînés de langage-vision. Nous proposons d'apprendre la correspondance texte-audio souhaitée en exploitant la modalité visuelle comme pont. Nous entraînons un modèle de diffusion conditionnel pour générer la piste audio d'une vidéo, étant donné une image de la vidéo encodée par un modèle pré-entraîné de préapprentissage contrastif langage-image (CLIP). Au moment du test, nous explorons d'abord un transfert de modalité zero-shot en conditionnant le modèle de diffusion avec une requête texte encodée par CLIP. Cependant, nous observons une baisse notable des performances par rapport aux requêtes d'images. Pour combler cet écart, nous adoptons en outre un modèle de diffusion prior pré-entraîné pour générer un embedding d'image CLIP à partir d'un embedding de texte CLIP. Nos résultats montrent l'efficacité de la méthode proposée, et que le modèle de diffusion prior pré-entraîné peut réduire l'écart de transfert de modalité. Bien que nous nous concentrions sur la synthèse texte-audio, le modèle proposé peut également générer de l'audio à partir de requêtes d'images, et il montre des performances compétitives par rapport à un modèle de pointe de synthèse image-audio dans un test d'écoute subjective. Cette étude offre une nouvelle direction pour aborder la synthèse texte-audio en exploitant la correspondance audio-visuelle naturellement présente dans les vidéos et la puissance des modèles pré-entraînés de langage-vision.
Le déploiement de grands modèles de langage (LLMs) peut présenter des risques liés à des sorties nuisibles, telles que des propos toxiques ou malhonnêtes. Les travaux antérieurs ont introduit des outils permettant de provoquer ces sorties nuisibles afin d'identifier et d'atténuer ces risques. Bien que cela constitue une étape précieuse pour sécuriser les modèles de langage, ces approches reposent généralement sur un classifieur préexistant pour les sorties indésirables. Cela limite leur application aux situations où le type de comportement nuisible est connu avec précision à l'avance. Cependant, cela ignore un défi central du red teaming : développer une compréhension contextuelle des comportements qu'un modèle peut manifester. De plus, lorsqu'un tel classifieur existe déjà, le red teaming a une valeur marginale limitée, car le classifieur pourrait simplement être utilisé pour filtrer les données d'entraînement ou les sorties du modèle. Dans ce travail, nous considérons le red teaming en supposant que l'adversaire travaille à partir d'une spécification abstraite et de haut niveau du comportement indésirable. L'équipe de red teaming est censée affiner/étendre cette spécification et identifier des méthodes pour provoquer ce comportement à partir du modèle. Notre cadre de red teaming se compose de trois étapes : 1) Explorer le comportement du modèle dans le contexte souhaité ; 2) Établir une mesure du comportement indésirable (par exemple, un classifieur entraîné pour refléter les évaluations humaines) ; et 3) Exploiter les failles du modèle en utilisant cette mesure et une méthodologie de red teaming établie. Nous appliquons cette approche pour red teamer les modèles GPT-2 et GPT-3 afin de découvrir systématiquement des classes d'invites qui provoquent des déclarations toxiques et malhonnêtes. Ce faisant, nous construisons et publions également le jeu de données CommonClaim de 20 000 déclarations qui ont été étiquetées par des sujets humains comme étant de notoriété publique vraie, de notoriété publique fausse, ou ni l'un ni l'autre. Le code est disponible à l'adresse https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim est disponible à l'adresse https://github.com/thestephencasper/common_claim.
Les humains possèdent la capacité cognitive de comprendre les scènes de manière compositionnelle. Pour doter les systèmes d'IA de capacités similaires, l'apprentissage de représentations centrées sur les objets vise à acquérir des représentations d'objets individuels à partir de scènes visuelles sans aucune supervision. Bien que les avancées récentes dans l'apprentissage de représentations centrées sur les objets aient permis des progrès remarquables sur des ensembles de données de synthèse complexes, leur application à des scènes réelles complexes reste un défi majeur. L'une des raisons essentielles est la rareté des ensembles de données du monde réel spécifiquement conçus pour les méthodes d'apprentissage de représentations centrées sur les objets. Pour résoudre ce problème, nous proposons un ensemble de données polyvalent de scènes de table pour l'apprentissage centré sur les objets, appelé OCTScenes, qui est méticuleusement conçu pour servir de référence pour comparer, évaluer et analyser les méthodes d'apprentissage de représentations centrées sur les objets. OCTScenes contient 5000 scènes de table avec un total de 15 objets du quotidien. Chaque scène est capturée en 60 images couvrant une perspective à 360 degrés. Par conséquent, OCTScenes est un ensemble de données de référence polyvalent qui peut simultanément satisfaire l'évaluation des méthodes d'apprentissage de représentations centrées sur les objets pour les tâches de scènes statiques, dynamiques et multi-vues. Des expériences approfondies des méthodes d'apprentissage de représentations centrées sur les objets pour les scènes statiques, dynamiques et multi-vues sont menées sur OCTScenes. Les résultats mettent en évidence les lacunes des méthodes de pointe pour apprendre des représentations significatives à partir de données du monde réel, malgré leurs performances impressionnantes sur des ensembles de données de synthèse complexes. De plus, OCTScenes peut servir de catalyseur pour faire progresser les méthodes de pointe existantes, en les incitant à s'adapter aux scènes du monde réel. L'ensemble de données et le code sont disponibles à l'adresse suivante : https://huggingface.co/datasets/Yinxuan/OCTScenes.
Nous présentons CAJun, un nouveau cadre hiérarchique d'apprentissage et de contrôle qui permet aux robots à pattes de sauter de manière continue avec des distances de saut adaptatives. CAJun se compose d'une politique de haut niveau centrée sur le centre de masse et d'un contrôleur de pattes de bas niveau. En particulier, nous utilisons l'apprentissage par renforcement (RL) pour entraîner la politique centrée sur le centre de masse, qui spécifie le timing de la démarche, la vitesse de la base et la position du pied oscillant pour le contrôleur de pattes. Le contrôleur de pattes optimise les commandes moteurs pour les pattes en oscillation et en appui en fonction du timing de la démarche pour suivre la cible du pied oscillant et les commandes de vitesse de la base en utilisant un contrôle optimal. De plus, nous reformulons l'optimiseur de la patte en appui dans le contrôleur de pattes pour accélérer l'entraînement de la politique d'un ordre de grandeur. Notre système combine la polyvalence de l'apprentissage avec la robustesse du contrôle optimal. En combinant l'apprentissage par renforcement avec des méthodes de contrôle optimal, notre système atteint la polyvalence de l'apprentissage tout en bénéficiant de la robustesse des méthodes de contrôle, le rendant facilement transférable à des robots réels. Nous montrons qu'après 20 minutes d'entraînement sur un seul GPU, CAJun peut réaliser des sauts continus et longs avec des distances adaptatives sur un robot Go1 avec de faibles écarts entre la simulation et la réalité. De plus, le robot peut sauter par-dessus des espaces d'une largeur maximale de 70 cm, ce qui est plus de 40 % plus large que les méthodes existantes.