Articles de recherche en IA sélectionnés quotidiennement avec traductions
Motivé par un pré-entraînement sur de grandes quantités de données, le modèle Segment Anything Model (SAM) s'est imposé comme un cadre puissant et adaptable, révolutionnant les modèles de segmentation. Malgré sa généralité, la personnalisation de SAM pour des concepts visuels spécifiques sans intervention humaine reste peu explorée, par exemple, segmenter automatiquement votre chien dans différentes images. Dans cet article, nous proposons une approche de personnalisation sans entraînement pour SAM, appelée PerSAM. Avec seulement une image et un masque de référence, PerSAM localise d'abord le concept cible grâce à une priorité de localisation, puis le segmente dans d'autres images ou vidéos via trois techniques : attention guidée par la cible, incitation sémantique ciblée et post-affinement en cascade. Ainsi, nous adaptons efficacement SAM à un usage privé sans aucun entraînement. Pour atténuer davantage l'ambiguïté des masques, nous présentons une variante efficace de réglage fin en une seule étape, PerSAM-F. En gelant l'intégralité de SAM, nous introduisons deux poids ajustables pour les masques multi-échelles, n'entraînant que 2 paramètres en 10 secondes pour une performance améliorée. Pour démontrer notre efficacité, nous construisons un nouveau jeu de données de segmentation, PerSeg, pour l'évaluation personnalisée, et testons nos méthodes sur la segmentation d'objets vidéo avec des performances compétitives. Par ailleurs, notre approche peut également améliorer DreamBooth pour personnaliser Stable Diffusion dans la génération d'images à partir de texte, éliminant les perturbations de fond pour un meilleur apprentissage de l'apparence cible. Le code est disponible à l'adresse https://github.com/ZrrSkywalker/Personalize-SAM.
Adapter les sorties des grands modèles de langage, tels que ChatGPT, aux besoins spécifiques des utilisateurs reste un défi malgré leur qualité de génération impressionnante. Dans cet article, nous proposons un pipeline de génération à trois agents composé d'un générateur, d'un instructeur et d'un éditeur pour améliorer la personnalisation des sorties générées. Le générateur produit une sortie initiale, l'instructeur spécifique à l'utilisateur génère des instructions de modification, et l'éditeur génère une sortie révisée alignée sur les préférences de l'utilisateur. Le grand modèle de langage en mode inférence uniquement (ChatGPT) sert à la fois de générateur et d'éditeur, tandis qu'un modèle plus petit agit comme instructeur spécifique à l'utilisateur pour guider le processus de génération vers les besoins de l'utilisateur. L'instructeur est entraîné à l'aide d'un apprentissage par renforcement piloté par l'éditeur, exploitant les retours du modèle éditeur à grande échelle pour optimiser la génération d'instructions. Les résultats expérimentaux sur deux ensembles de données de résumé abstrait démontrent l'efficacité de notre approche pour générer des sorties qui répondent mieux aux attentes des utilisateurs.
Nous présentons Shap-E, un modèle génératif conditionnel pour des actifs 3D. Contrairement aux travaux récents sur les modèles génératifs 3D qui produisent une seule représentation de sortie, Shap-E génère directement les paramètres de fonctions implicites qui peuvent être rendues à la fois sous forme de maillages texturés et de champs de radiance neuronaux. Nous entraînons Shap-E en deux étapes : d'abord, nous entraînons un encodeur qui mappe de manière déterministe des actifs 3D vers les paramètres d'une fonction implicite ; ensuite, nous entraînons un modèle de diffusion conditionnelle sur les sorties de l'encodeur. Lorsqu'il est entraîné sur un grand ensemble de données jumelées 3D et textuelles, nos modèles résultants sont capables de générer des actifs 3D complexes et diversifiés en quelques secondes. Comparé à Point-E, un modèle génératif explicite sur des nuages de points, Shap-E converge plus rapidement et atteint une qualité d'échantillon comparable ou supérieure, malgré la modélisation d'un espace de sortie multidimensionnel et multi-représentation. Nous publions les poids des modèles, le code d'inférence et des échantillons sur https://github.com/openai/shap-e.
Les agents d'assistance IA récents, tels que ChatGPT, reposent principalement sur un ajustement supervisé (SFT) avec des annotations humaines et un apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les sorties des grands modèles de langage (LLMs) avec les intentions humaines, garantissant ainsi qu'ils soient utiles, éthiques et fiables. Cependant, cette dépendance peut considérablement limiter le véritable potentiel des agents d'assistance IA en raison du coût élevé de l'obtention de la supervision humaine et des problèmes connexes liés à la qualité, la fiabilité, la diversité, la cohérence interne et les biais indésirables. Pour relever ces défis, nous proposons une nouvelle approche appelée SELF-ALIGN, qui combine un raisonnement fondé sur des principes et la puissance générative des LLMs pour l'auto-alignement des agents IA avec un minimum de supervision humaine. Notre approche comprend quatre étapes : premièrement, nous utilisons un LLM pour générer des invites synthétiques, et une méthode guidée par des thèmes pour augmenter la diversité des invites ; deuxièmement, nous utilisons un petit ensemble de principes rédigés par des humains pour que les modèles IA les suivent, et guidons le LLM à travers un apprentissage en contexte à partir de démonstrations (d'application des principes) pour produire des réponses utiles, éthiques et fiables aux requêtes des utilisateurs ; troisièmement, nous ajustons finement le LLM original avec les réponses auto-alignées de haute qualité afin que le modèle résultant puisse générer directement des réponses souhaitables pour chaque requête sans avoir besoin de l'ensemble de principes et des démonstrations ; et enfin, nous proposons une étape de raffinement pour résoudre les problèmes de réponses trop brèves ou indirectes. En appliquant SELF-ALIGN au modèle de langage de base LLaMA-65b, nous développons un assistant IA nommé Dromedary. Avec moins de 300 lignes d'annotations humaines (incluant < 200 invites initiales, 16 principes génériques et 5 exemples pour l'apprentissage en contexte), Dromedary surpasse significativement les performances de plusieurs systèmes IA de pointe, notamment Text-Davinci-003 et Alpaca, sur des ensembles de données de référence avec divers paramètres.