Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'optimisation est omniprésente. Bien que les algorithmes basés sur les dérivées aient été des outils puissants pour résoudre divers problèmes, l'absence de gradient pose des défis dans de nombreuses applications du monde réel. Dans ce travail, nous proposons l'Optimisation par PROmpting (OPRO), une approche simple et efficace pour exploiter les grands modèles de langage (LLMs) en tant qu'optimiseurs, où la tâche d'optimisation est décrite en langage naturel. À chaque étape d'optimisation, le LLM génère de nouvelles solutions à partir de l'invite (prompt) qui contient les solutions précédemment générées ainsi que leurs valeurs, puis ces nouvelles solutions sont évaluées et ajoutées à l'invite pour l'étape d'optimisation suivante. Nous illustrons d'abord OPRO sur des problèmes de régression linéaire et du voyageur de commerce, puis nous passons à l'optimisation d'invites où l'objectif est de trouver des instructions qui maximisent la précision de la tâche. Avec une variété de LLMs, nous démontrons que les meilleures invites optimisées par OPRO surpassent les invites conçues par des humains jusqu'à 8 % sur GSM8K, et jusqu'à 50 % sur les tâches de Big-Bench Hard.
Les grands modèles de langage (LLMs) ont obtenu un succès remarquable dans les tâches de traitement du langage naturel (NLP) et multimodales. Malgré ces succès, leur développement est confronté à deux défis majeurs : (i) le coût de calcul élevé ; et (ii) la difficulté à mener des évaluations équitables et objectives. Les LLMs sont extrêmement coûteux, ce qui rend leur entraînement réalisable uniquement pour quelques acteurs majeurs, limitant ainsi les opportunités de recherche et d'application. Cela souligne l'importance d'un entraînement des LLMs à moindre coût. Dans cet article, nous utilisons une stratégie de croissance pour réduire significativement le coût d'entraînement des LLMs. Nous démontrons qu'un LLM avec 101 milliards de paramètres et 0,31 téraoctets de tokens peut être entraîné avec un budget de 100 000 $. Nous adoptons également un paradigme d'évaluation systématique pour l'évaluation du QI des LLMs, en complément des évaluations existantes qui se concentrent davantage sur les capacités orientées vers la connaissance. Nous introduisons notre benchmark incluant des évaluations sur des aspects importants de l'intelligence, tels que la cartographie symbolique, la compréhension des règles, l'extraction de motifs et la résistance aux interférences. Ces évaluations minimisent l'impact potentiel de la mémorisation. Les résultats expérimentaux montrent que notre modèle FLM-101B, entraîné avec un budget de 100 000 $, atteint des performances comparables à des modèles puissants et bien connus, comme GPT-3 et GLM-130B, en particulier dans les évaluations de benchmark QI avec des contextes non vus dans les données d'entraînement. Le checkpoint de FLM-101B sera open-source sur https://huggingface.co/CofeAI/FLM-101B.
Malgré leurs capacités impressionnantes, les grands modèles de langage (LLMs) sont sujets à des hallucinations, c'est-à-dire à générer du contenu qui s'écarte des faits observés lors du pré-entraînement. Nous proposons une stratégie de décodage simple pour réduire les hallucinations avec des LLMs pré-entraînés, qui ne nécessite ni conditionnement sur des connaissances externes récupérées ni ajustement supplémentaire. Notre approche obtient la distribution du prochain jeton en contrastant les différences dans les logits obtenus en projetant les couches tardives par rapport aux couches précoces dans l'espace du vocabulaire, exploitant le fait que les connaissances factuelles dans un LLM ont généralement été localisées à des couches spécifiques du transformateur. Nous constatons que cette approche de Décodage par Contraste des Couches (DoLa) permet de mieux faire émerger les connaissances factuelles et de réduire la génération de faits incorrects. DoLa améliore systématiquement la véracité dans des tâches à choix multiples et des tâches de génération ouverte, par exemple en améliorant les performances des modèles de la famille LLaMA sur TruthfulQA de 12 à 17 points absolus, démontrant ainsi son potentiel à faire générer de manière fiable des faits véridiques par les LLMs.
Les données d'entraînement pour la segmentation vidéo sont coûteuses à annoter. Cela entrave l'extension des algorithmes end-to-end à de nouvelles tâches de segmentation vidéo, en particulier dans des contextes à vocabulaire étendu. Pour 'suivre n'importe quoi' sans entraînement sur des données vidéo pour chaque tâche individuelle, nous développons une approche de segmentation vidéo découplée (DEVA), composée d'une segmentation au niveau de l'image spécifique à la tâche et d'une propagation temporelle bidirectionnelle indépendante de la classe ou de la tâche. Grâce à cette conception, nous avons uniquement besoin d'un modèle au niveau de l'image pour la tâche cible (moins coûteux à entraîner) et d'un modèle de propagation temporelle universel qui est entraîné une fois et généralisable à travers les tâches. Pour combiner efficacement ces deux modules, nous utilisons une propagation bidirectionnelle pour la fusion (semi-)en ligne des hypothèses de segmentation provenant de différentes images afin de générer une segmentation cohérente. Nous montrons que cette formulation découplée se compare favorablement aux approches end-to-end dans plusieurs tâches où les données sont rares, y compris la segmentation panoptique vidéo à vocabulaire étendu, la segmentation vidéo en monde ouvert, la segmentation vidéo par référence et la segmentation vidéo non supervisée d'objets. Le code est disponible à l'adresse suivante : https://hkchengrex.github.io/Tracking-Anything-with-DEVA
La propagation basée sur le flux optique et le Transformer spatiotemporel sont deux mécanismes dominants en restauration vidéo (VI). Malgré l'efficacité de ces composants, ils présentent encore certaines limitations qui affectent leurs performances. Les approches précédentes basées sur la propagation sont réalisées séparément, soit dans le domaine de l'image, soit dans celui des caractéristiques. La propagation globale d'images isolée de l'apprentissage peut entraîner un désalignement spatial en raison d'un flux optique imprécis. De plus, les contraintes de mémoire ou de calcul limitent la portée temporelle de la propagation des caractéristiques et du Transformer vidéo, empêchant l'exploitation des informations de correspondance provenant de trames distantes. Pour résoudre ces problèmes, nous proposons un cadre amélioré, appelé ProPainter, qui intègre une propagation améliorée et un Transformer efficace. Plus précisément, nous introduisons une propagation en double domaine qui combine les avantages de la déformation d'images et de caractéristiques, exploitant de manière fiable les correspondances globales. Nous proposons également un Transformer vidéo parcimonieux guidé par un masque, qui atteint une haute efficacité en éliminant les tokens inutiles et redondants. Grâce à ces composants, ProPainter surpasse les méthodes précédentes avec une marge significative de 1,46 dB en PSNR tout en conservant une efficacité attrayante.
Nous présentons ImageBind-LLM, une méthode de réglage par instructions multi-modales pour les grands modèles de langage (LLMs) via ImageBind. Les travaux existants se concentrent principalement sur le réglage par instructions linguistiques et visuelles, contrairement à notre approche, ImageBind-LLM, qui peut répondre à des conditions multi-modales, incluant l'audio, les nuages de points 3D, la vidéo, et leur arithmétique dans l'espace d'embedding, grâce à un entraînement basé uniquement sur l'alignement image-texte. Durant l'entraînement, nous adoptons un réseau de liaison apprenable pour aligner l'espace d'embedding entre LLaMA et l'encodeur d'images d'ImageBind. Ensuite, les caractéristiques d'images transformées par ce réseau de liaison sont ajoutées aux tokens de mots de toutes les couches de LLaMA, injectant progressivement des instructions visuelles via un mécanisme de gating sans attention et initialisé à zéro. Grâce à l'embedding conjoint d'ImageBind, le simple entraînement image-texte permet à notre modèle d'exhiber des capacités supérieures de suivi d'instructions multi-modales. Durant l'inférence, les entrées multi-modales sont introduites dans les encodeurs correspondants d'ImageBind, puis traitées par un modèle de cache visuel proposé pour une amélioration supplémentaire de l'embedding inter-modal. Ce modèle de cache, sans nécessiter d'entraînement, effectue des recherches parmi trois millions de caractéristiques d'images extraites par ImageBind, atténuant efficacement la divergence de modalité entre l'entraînement et l'inférence. Notamment, avec notre approche, ImageBind-LLM peut répondre à des instructions de diverses modalités et démontrer une qualité de génération de langage significative. Le code est disponible à l'adresse suivante : https://github.com/OpenGVLab/LLaMA-Adapter.
Nous présentons InstructDiffusion, un cadre unificateur et générique pour aligner les tâches de vision par ordinateur avec des instructions humaines. Contrairement aux approches existantes qui intègrent des connaissances préalables et prédéfinissent l'espace de sortie (par exemple, catégories et coordonnées) pour chaque tâche de vision, nous transformons diverses tâches de vision en un processus intuitif de manipulation d'images dont l'espace de sortie est un espace de pixels flexible et interactif. Concrètement, le modèle est basé sur le processus de diffusion et est entraîné à prédire les pixels selon les instructions de l'utilisateur, comme encadrer en rouge l'épaule gauche de l'homme ou appliquer un masque bleu à la voiture de gauche. InstructDiffusion peut gérer une variété de tâches de vision, y compris des tâches de compréhension (telles que la segmentation et la détection de points clés) et des tâches génératives (telles que l'édition et l'amélioration). Il montre même une capacité à gérer des tâches inédites et surpasse les méthodes précédentes sur de nouveaux ensembles de données. Cela représente une avancée significative vers une interface de modélisation généraliste pour les tâches de vision, faisant progresser l'intelligence artificielle générale dans le domaine de la vision par ordinateur.
Dans cet article, nous présentons un nouveau modèle de diffusion appelé SyncDreamer, qui génère des images multivues cohérentes à partir d'une image monovue. En utilisant des modèles de diffusion 2D pré-entraînés à grande échelle, les travaux récents de Zero123 ont démontré la capacité à générer des vues plausibles d'un objet à partir d'une seule image. Cependant, maintenir la cohérence géométrique et chromatique des images générées reste un défi. Pour résoudre ce problème, nous proposons un modèle de diffusion multivue synchronisé qui modélise la distribution de probabilité conjointe des images multivues, permettant ainsi la génération d'images multivues cohérentes en un seul processus inverse. SyncDreamer synchronise les états intermédiaires de toutes les images générées à chaque étape du processus inverse grâce à un mécanisme d'attention de caractéristiques 3D qui corrèle les caractéristiques correspondantes à travers différentes vues. Les expériences montrent que SyncDreamer génère des images avec une grande cohérence entre les différentes vues, ce qui le rend particulièrement adapté à diverses tâches de génération 3D telles que la synthèse de nouvelles vues, le texte-à-3D et l'image-à-3D.
Les récents progrès des modèles de diffusion tels que ControlNet ont permis une génération d'images à partir de texte à haute fidélité et géométriquement contrôlable. Cependant, aucun de ces modèles n'aborde la question de l'ajout d'une telle contrôlabilité à la génération de texte vers la 3D. En réponse, nous proposons Text2Control3D, une méthode de génération d'avatars 3D à partir de texte dont les expressions faciales sont contrôlables à partir d'une vidéo monoscopique capturée de manière informelle avec une caméra portative. Notre stratégie principale consiste à construire l'avatar 3D dans des Champs de Radiance Neuronaux (NeRF) optimisés avec un ensemble d'images contrôlées et dépendantes du point de vue que nous générons à partir de ControlNet, dont l'entrée conditionnelle est la carte de profondeur extraite de la vidéo d'entrée. Lors de la génération des images dépendantes du point de vue, nous utilisons une attention croisée pour injecter des expressions faciales et des apparences bien contrôlées et référentielles via une attention croisée. Nous effectuons également un filtrage passe-bas du latent gaussien du modèle de diffusion afin d'améliorer le problème de texture indépendant du point de vue que nous avons observé dans notre analyse empirique, où les images dépendantes du point de vue contiennent des textures identiques sur des positions de pixels identiques qui sont incompréhensibles en 3D. Enfin, pour entraîner NeRF avec des images qui sont dépendantes du point de vue mais qui ne sont pas strictement cohérentes en géométrie, notre approche considère la variation géométrique par image comme une vue de déformation à partir d'un espace canonique 3D partagé. Par conséquent, nous construisons l'avatar 3D dans un espace canonique de NeRF déformable en apprenant un ensemble de déformations par image via une table de champ de déformation. Nous démontrons les résultats empiriques et discutons de l'efficacité de notre méthode.
Les modèles de langage de grande taille (LLMs) sont devenus omniprésents dans divers domaines, transformant notre manière d'interagir avec l'information et de mener des recherches. Cependant, la plupart des LLMs à hautes performances restent confinés derrière des barrières propriétaires, entravant ainsi les progrès scientifiques. D'un autre côté, la majorité des LLMs open source sont limités dans leur capacité à supporter des séquences de longue durée, une exigence clé pour de nombreuses tâches nécessitant une inférence sur un contexte d'entrée. Pour remédier à cela, nous avons entraîné XGen, une série de modèles à 7 milliards de paramètres sur des séquences allant jusqu'à 8 000 tokens, pour un total de 1,5 trillion de tokens. Nous avons également affiné les modèles XGen sur des données d'instruction du domaine public, créant ainsi leurs versions adaptées aux instructions (XGen-Inst). Nous rendons nos modèles open source à la fois pour les avancées de recherche et les applications commerciales. Notre évaluation sur des benchmarks standards montre que les modèles XGen obtiennent des résultats comparables ou supérieurs par rapport aux LLMs open source de pointe. Notre évaluation ciblée sur des tâches de modélisation de séquences longues met en évidence les avantages de nos modèles à 8 000 tokens par rapport aux LLMs open source à 2 000 tokens.
Nous présentons une analyse approfondie d'un système d'apprentissage robotique en conditions réelles qui, dans des travaux précédents, a démontré sa capacité à réaliser des centaines d'échanges au tennis de table avec un humain et à renvoyer la balle avec précision vers des cibles spécifiques. Ce système intègre un sous-système de perception hautement optimisé, un contrôleur robotique à haute vitesse et faible latence, un paradigme de simulation permettant d'éviter les dommages dans le monde réel tout en entraînant des politiques pour un transfert sans adaptation (zero-shot), ainsi que des réinitialisations automatisées de l'environnement réel qui permettent un entraînement et une évaluation autonomes sur des robots physiques. Nous complétons une description complète du système, incluant de nombreuses décisions de conception généralement peu divulguées, par une série d'études clarifiant l'importance de réduire diverses sources de latence, de prendre en compte les décalages entre les distributions d'entraînement et de déploiement, la robustesse du système de perception, la sensibilité aux hyperparamètres des politiques, et le choix de l'espace d'action. Une vidéo démontrant les composants du système et les détails des résultats expérimentaux est disponible à l'adresse suivante : https://youtu.be/uFcnWjB42I0.
Inspirés par le succès remarquable des modèles de diffusion latente (LDMs) pour la synthèse d'images, nous étudions l'application des LDMs à la génération de texte-à-vidéo, un défi de taille en raison des contraintes de calcul et de mémoire lors de l'entraînement et de l'inférence du modèle. Un seul LDM est généralement capable de générer un nombre très limité de trames vidéo. Certains travaux existants se concentrent sur des modèles de prédiction séparés pour générer davantage de trames vidéo, mais ceux-ci souffrent de coûts d'entraînement supplémentaires et de tremblements au niveau des trames. Dans cet article, nous proposons un cadre appelé "Reuse and Diffuse" (VidRD) pour produire plus de trames à partir des trames déjà générées par un LDM. Conditionné sur un clip vidéo initial contenant un petit nombre de trames, des trames supplémentaires sont générées de manière itérative en réutilisant les caractéristiques latentes originales et en suivant le processus de diffusion précédent. Par ailleurs, pour l'autoencodeur utilisé pour la traduction entre l'espace pixel et l'espace latent, nous injectons des couches temporelles dans son décodeur et affinons ces couches pour une meilleure cohérence temporelle. Nous proposons également un ensemble de stratégies pour composer des données vidéo-texte impliquant un contenu diversifié provenant de plusieurs ensembles de données existants, y compris des ensembles de données vidéo pour la reconnaissance d'actions et des ensembles de données image-texte. Des expériences approfondies montrent que notre méthode obtient de bons résultats dans les évaluations quantitatives et qualitatives. Notre page de projet est disponible {ici}.