Articles de recherche en IA sélectionnés quotidiennement avec traductions
La planification avec une observation partielle est un défi central en intelligence artificielle incarnée. La majorité des travaux antérieurs ont abordé ce défi en développant des agents qui explorent physiquement leur environnement pour mettre à jour leurs croyances sur l'état du monde. En revanche, les humains peuvent imaginer des parties invisibles du monde à travers une exploration mentale et réviser leurs croyances avec des observations imaginées. De telles croyances mises à jour peuvent leur permettre de prendre des décisions plus éclairées, sans nécessiter l'exploration physique du monde en permanence. Pour atteindre cette capacité semblable à celle des humains, nous introduisons le Générateur d'Exploration du Monde (Genex), un cadre d'exploration du monde égocentrique qui permet à un agent d'explorer mentalement un monde 3D à grande échelle (par exemple, des scènes urbaines) et d'acquérir des observations imaginées pour mettre à jour sa croyance. Cette croyance mise à jour aidera ensuite l'agent à prendre une décision plus éclairée à l'étape actuelle. Pour entraîner Genex, nous créons un ensemble de données de scènes urbaines synthétiques, Genex-DB. Nos résultats expérimentaux démontrent que (1) Genex peut générer des observations de haute qualité et cohérentes lors de l'exploration à long terme d'un grand monde physique virtuel et (2) les croyances mises à jour avec les observations générées peuvent informer un modèle de prise de décision existant (par exemple, un agent LLM) pour élaborer de meilleurs plans.
L'émergence et la popularité croissante des grands modèles de langage multimodaux (MLLM) ont un potentiel significatif pour améliorer divers aspects de la vie quotidienne, de la communication à l'apprentissage et à la résolution de problèmes. Les téléphones mobiles, compagnons quotidiens essentiels, représentent la plateforme de déploiement la plus efficace et accessible pour les MLLMs, permettant une intégration transparente dans les tâches quotidiennes. Cependant, le déploiement des MLLMs sur les téléphones mobiles présente des défis en raison des limitations de la taille de la mémoire et des capacités de calcul, rendant difficile l'obtention d'un traitement fluide et en temps réel sans une optimisation poussée. Dans cet article, nous présentons BlueLM-V-3B, une approche de co-conception d'algorithme et de système spécifiquement conçue pour le déploiement efficace des MLLMs sur des plateformes mobiles. Plus précisément, nous redessinons le schéma de résolution dynamique adopté par les MLLMs courants et mettons en œuvre une optimisation système pour un déploiement conscient du matériel afin d'optimiser l'inférence du modèle sur les téléphones mobiles. BlueLM-V-3B présente les points forts suivants : (1) Petite taille : BlueLM-V-3B propose un modèle de langage avec 2,7 milliards de paramètres et un encodeur de vision avec 400 millions de paramètres. (2) Vitesse rapide : BlueLM-V-3B atteint une vitesse de génération de 24,4 jetons/s sur le processeur MediaTek Dimensity 9300 avec une quantification des poids LLM sur 4 bits. (3) Performances élevées : BlueLM-V-3B a obtenu le score moyen le plus élevé de 66,1 sur le banc d'essai OpenCompass parmi les modèles avec moins de 4 milliards de paramètres et a surpassé une série de modèles avec des tailles de paramètres beaucoup plus grandes (par exemple, MiniCPM-V-2.6, InternVL2-8B).
Nous présentons une approche unifiée de génération de vidéos contrôlables, AnimateAnything, qui facilite la manipulation précise et cohérente de vidéos dans diverses conditions, y compris les trajectoires de caméra, les instructions textuelles et les annotations de mouvement utilisateur. Plus précisément, nous concevons soigneusement un réseau de fusion de caractéristiques de contrôle multi-échelle pour construire une représentation de mouvement commune pour différentes conditions. Il convertit explicitement toutes les informations de contrôle en flux optiques image par image. Ensuite, nous incorporons les flux optiques en tant que prédictions de mouvement pour guider la génération finale de la vidéo. De plus, pour réduire les problèmes de scintillement causés par les mouvements à grande échelle, nous proposons un module de stabilisation basé sur la fréquence. Il peut améliorer la cohérence temporelle en garantissant la cohérence de domaine fréquentiel de la vidéo. Les expériences démontrent que notre méthode surpasse les approches de pointe. Pour plus de détails et de vidéos, veuillez consulter la page web : https://yu-shaonian.github.io/Animate_Anything/.
L'évolution de l'apprentissage automatique a de plus en plus mis l'accent sur le développement de modèles puissants et de signaux de supervision plus évolutifs. Cependant, l'émergence des modèles fondamentaux pose des défis importants pour fournir des signaux de supervision efficaces nécessaires pour améliorer davantage leurs capacités. Par conséquent, il est urgent d'explorer de nouveaux signaux de supervision et des approches techniques. Dans cet article, nous proposons l'ingénierie de vérificateurs, un nouveau paradigme de post-entraînement spécifiquement conçu pour l'ère des modèles fondamentaux. Le cœur de l'ingénierie de vérificateurs implique l'utilisation d'une suite de vérificateurs automatisés pour effectuer des tâches de vérification et fournir des retours significatifs aux modèles fondamentaux. Nous catégorisons systématiquement le processus d'ingénierie de vérificateurs en trois étapes essentielles : recherche, vérification et retour, et fournissons une revue complète des développements de recherche de pointe dans chaque étape. Nous croyons que l'ingénierie de vérificateurs constitue une voie fondamentale vers la réalisation de l'Intelligence Artificielle Générale.
Les grands modèles de langage (LLM) utilisent généralement un décodage glouton ou un échantillonnage à basse température pour les tâches de raisonnement, reflétant un compromis perçu entre la diversité et la précision. Nous remettons en question cette convention en introduisant top-nsigma, une nouvelle méthode d'échantillonnage qui opère directement sur les logits pré-softmax en exploitant un seuil statistique. Notre insight clé est que les logits se séparent naturellement en une région bruyante distribuée selon une loi normale et une région informative distincte, permettant un filtrage efficace des jetons sans manipulations complexes de probabilités. Contrairement aux méthodes existantes (par ex. top-p, min-p) qui incluent involontairement plus de jetons de bruit à des températures plus élevées, top-nsigma maintient un espace d'échantillonnage stable indépendamment de l'échelle de température. Nous fournissons également une analyse théorique de top-nsigma pour mieux comprendre son comportement. Les résultats expérimentaux approfondis sur quatre ensembles de données axés sur le raisonnement démontrent que notre méthode surpasse non seulement les approches d'échantillonnage existantes, mais dépasse également le décodage glouton, tout en maintenant des performances cohérentes même à des températures élevées.
Les reclassificateurs, généralement des encodeurs croisés, sont souvent utilisés pour re-noter les documents récupérés par des systèmes RI initiaux moins coûteux. Cela est dû au fait que, bien que coûteux, on suppose que les reclassificateurs sont plus efficaces. Nous remettons en question cette hypothèse en mesurant les performances des reclassificateurs pour la récupération complète, et non seulement pour la re-notation de la récupération de la première étape. Nos expériences révèlent une tendance surprenante : les meilleurs reclassificateurs existants offrent des rendements décroissants lors de la notation de documents de manière progressive et dégradent en réalité la qualité au-delà d'une certaine limite. En fait, dans ce contexte, les reclassificateurs peuvent fréquemment attribuer des scores élevés à des documents sans chevauchement lexical ou sémantique avec la requête. Nous espérons que nos découvertes stimuleront la recherche future pour améliorer le reclassement.
Bien que l'essayage virtuel basé sur l'image ait fait des progrès considérables, les approches émergentes rencontrent encore des défis pour produire des images d'ajustement haute fidélité et robustes dans divers scénarios. Ces méthodes ont souvent du mal avec des problèmes tels que la maintenance consciente de la texture et l'ajustement conscient de la taille, ce qui entrave leur efficacité globale. Pour remédier à ces limitations, nous proposons une nouvelle technique d'amélioration de la perception des vêtements, appelée FitDiT, conçue pour l'essayage virtuel haute fidélité en utilisant des transformateurs de diffusion (DiT) allouant plus de paramètres et d'attention aux caractéristiques haute résolution. Tout d'abord, pour améliorer davantage la maintenance consciente de la texture, nous introduisons un extracteur de texture de vêtements qui intègre l'évolution des préférences des vêtements pour affiner la caractéristique des vêtements, facilitant la capture de détails riches tels que les rayures, les motifs et le texte. De plus, nous introduisons l'apprentissage dans le domaine de la fréquence en personnalisant une perte de distance de fréquence pour améliorer les détails de haute fréquence des vêtements. Pour résoudre le problème de l'ajustement conscient de la taille, nous utilisons une stratégie de masque dilaté-relâché qui s'adapte à la longueur correcte des vêtements, empêchant la génération de vêtements qui remplissent toute la zone du masque lors de l'essayage inter-catégories. Équipé de la conception ci-dessus, FitDiT surpasse toutes les références à la fois dans les évaluations qualitatives et quantitatives. Il excelle dans la production de vêtements bien ajustés avec des détails photoréalistes et complexes, tout en obtenant des temps d'inférence compétitifs de 4,57 secondes pour une seule image de 1024x768 après l'amincissement de la structure DiT, surpassant les méthodes existantes.
Alors que les petits modèles de langage (SLM) montrent des promesses pour le déploiement sur mobile, leur performance et leurs applications dans le monde réel sur les smartphones restent peu explorées. Nous présentons SlimLM, une série de SLM optimisés pour les tâches d'assistance documentaire sur les appareils mobiles. À travers des expériences approfondies sur un Samsung Galaxy S24, nous identifions les compromis optimaux entre la taille du modèle (allant de 125M à 7B paramètres), la longueur du contexte et le temps d'inférence pour un traitement efficace sur l'appareil. SlimLM est pré-entraîné sur SlimPajama-627B et affiné sur DocAssist, notre ensemble de données construit pour les tâches de résumé, de réponse aux questions et de suggestion. Notre plus petit modèle démontre des performances efficaces sur le S24, tandis que des variantes plus grandes offrent des capacités améliorées dans les contraintes mobiles. Nous évaluons SlimLM par rapport aux SLM existants, montrant des performances comparables ou supérieures et offrant une référence pour les futures recherches sur les modèles de langage sur appareil. Nous fournissons également une application Android, offrant des perspectives pratiques sur le déploiement des SLM. Nos résultats fournissent des informations précieuses et mettent en lumière les capacités de l'exécution de modèles de langage avancés sur des smartphones haut de gamme, réduisant potentiellement les coûts des serveurs et améliorant la confidentialité grâce au traitement sur l'appareil.
Les récents progrès de l'IA générative ont considérablement favorisé la création et l'édition de contenu, où des études prédominantes étendent davantage ce progrès passionnant à l'édition vidéo. Pour ce faire, ces études transfèrent principalement les motifs de mouvement inhérents des vidéos sources vers celles éditées, où des résultats avec une cohérence inférieure par rapport aux indications de l'utilisateur sont souvent observés, en raison du manque d'alignements particuliers entre les mouvements transmis et les contenus édités. Pour remédier à cette limitation, nous présentons dans cet article une méthode d'édition vidéo conforme à la forme, nommée StableV2V. Notre méthode décompose l'ensemble du pipeline d'édition en plusieurs procédures séquentielles, où elle édite le premier cadre vidéo, établit ensuite un alignement entre les mouvements transmis et les indications de l'utilisateur, et propage enfin les contenus édités à tous les autres cadres en fonction de cet alignement. De plus, nous avons élaboré un banc d'essai, nommé DAVIS-Edit, pour une évaluation complète de l'édition vidéo, en tenant compte de divers types d'indications et de difficultés. Les résultats expérimentaux et les analyses illustrent les performances supérieures, la cohérence visuelle et l'efficacité de l'inférence de notre méthode par rapport aux études étatiques de l'art existantes.
À mesure que la recherche sur les Modèles de Langage Multimodaux de Grande Taille (MLLM) devient populaire, un modèle MLLM avancé est généralement requis pour gérer simultanément diverses tâches textuelles et visuelles (par exemple, VQA, Détection, OCR et ChartQA) pour des applications du monde réel. Cependant, en raison des différences significatives de représentation et de distribution parmi les données provenant de différentes tâches, mélanger simplement les données de toutes les tâches ensemble conduit au problème bien connu de "conflit multi-tâches", entraînant une dégradation des performances dans diverses tâches. Pour résoudre ce problème, nous proposons Awaker2.5-VL, une architecture Mixture of Experts (MoE) adaptée aux MLLM, qui acquiert les capacités multi-tâches grâce à plusieurs experts activés de manière dispersée. Pour accélérer l'entraînement et l'inférence d'Awaker2.5-VL, chaque expert de notre modèle est conçu comme une structure d'adaptation à faible rang (LoRA). Des expériences approfondies sur plusieurs derniers bancs d'essai démontrent l'efficacité d'Awaker2.5-VL. Le code et le modèle pré-entraîné sont disponibles sur notre Page de Projet : https://github.com/MetabrainAGI/Awaker.
Pendant le décodage du modèle de langage, il est connu que l'utilisation d'un échantillonnage à température plus élevée donne des réponses plus créatives, tandis que des températures plus basses sont plus factuellement précises. Cependant, de tels modèles sont couramment appliqués à des instructions générales, impliquant à la fois des tâches créatives et factuelles, en utilisant une température fixe unique pour tous les exemples et tokens. Dans ce travail, nous introduisons le Décodage Adaptatif, une couche ajoutée au modèle pour sélectionner dynamiquement la température d'échantillonnage au moment de l'inférence, au niveau du token ou de l'exemple, afin d'optimiser les performances. Pour apprendre ses paramètres, nous introduisons l'Optimisation des Préférences Latentes (OPL), une approche générale pour entraîner des variables latentes discrètes telles que les choix de température. Notre méthode surpasse toutes les températures de décodage fixes à travers une gamme de tâches nécessitant des températures différentes, y compris UltraFeedback, Rédaction de Récits Créatifs et GSM8K.
Nous avons créé deux modèles de décodeur en allemand uniquement, LL\"aMmlein 120M et 1B, de manière transparente à partir de zéro et les avons publiés, ainsi que les données d'entraînement, pour que la communauté de recherche en traitement automatique du langage naturel en allemand puisse les utiliser. L'entraînement du modèle a impliqué plusieurs étapes clés, notamment un prétraitement intensif des données, la création d'un tokeniseur allemand personnalisé, l'entraînement proprement dit, ainsi que l'évaluation des modèles finaux sur divers benchmarks. Tout au long du processus d'entraînement, plusieurs points de contrôle ont été enregistrés et analysés en utilisant le benchmark SuperGLEBer pour surveiller la dynamique d'apprentissage des modèles. Comparés aux modèles de pointe sur le benchmark SuperGLEBer, les deux modèles LL\"aMmlein ont performé de manière compétitive, correspondant de manière constante ou surpassant des modèles avec des tailles de paramètres similaires. Les résultats montrent que la qualité des modèles évolue avec la taille comme prévu, mais les améliorations de performance sur certaines tâches ont atteint un plateau tôt, offrant des perspectives précieuses sur l'allocation des ressources pour le développement futur des modèles.
Les Transformateurs de Diffusion (DiT) se sont imposés comme des modèles génératifs puissants pour diverses tâches, notamment la synthèse d'images, de vidéos et de discours. Cependant, leur processus d'inférence reste coûteux en termes de calcul en raison de l'évaluation répétée des modules d'attention et de propagation avant gourmands en ressources. Pour remédier à cela, nous introduisons SmoothCache, une technique d'accélération de l'inférence indépendante du modèle pour les architectures DiT. SmoothCache exploite la haute similarité observée entre les sorties de couche à travers les pas de diffusion adjacents. En analysant les erreurs de représentation par couche à partir d'un petit ensemble de calibration, SmoothCache met en cache de manière adaptative et réutilise les caractéristiques clés lors de l'inférence. Nos expériences montrent que SmoothCache permet d'atteindre une accélération de 8 % à 71 % tout en maintenant voire en améliorant la qualité de génération à travers diverses modalités. Nous démontrons son efficacité sur DiT-XL pour la génération d'images, Open-Sora pour la conversion texte-vidéo, et Stable Audio Open pour la conversion texte-audio, mettant en lumière son potentiel pour permettre des applications en temps réel et élargir l'accessibilité des puissants modèles DiT.
La génération augmentée par récupération (RAG) a émergé comme une approche prometteuse pour améliorer les performances des grands modèles de langage (LLM) dans des tâches intensives en connaissances telles que celles du domaine médical. Cependant, la nature sensible du domaine médical nécessite un système entièrement précis et fiable. Alors que les référentiels RAG existants se concentrent principalement sur le cadre standard de récupération-réponse, ils négligent de nombreux scénarios pratiques qui mesurent des aspects cruciaux d'un système médical fiable. Cet article comble cette lacune en fournissant un cadre d'évaluation complet pour les systèmes de questions-réponses médicales dans un contexte RAG pour ces situations, comprenant la suffisance, l'intégration et la robustesse. Nous introduisons le Banc d'Essai de Génération Augmentée par Récupération Médicale (MedRGB) qui fournit divers éléments supplémentaires à quatre ensembles de données de questions-réponses médicales pour tester la capacité des LLM à gérer ces scénarios spécifiques. En utilisant MedRGB, nous menons des évaluations approfondies à la fois des LLM commerciaux de pointe et des modèles open-source dans différentes conditions de récupération. Nos résultats expérimentaux révèlent la capacité limitée des modèles actuels à gérer le bruit et les informations erronées dans les documents récupérés. Nous analysons en outre les processus de raisonnement des LLM pour fournir des informations précieuses et des orientations futures pour le développement de systèmes RAG dans ce domaine médical critique.
Les Représentations Neuronales Implicites (INRs) utilisent des réseaux neuronaux pour approximer des données discrètes sous forme de fonctions continues. Dans le contexte des données vidéo, de tels modèles peuvent être utilisés pour transformer les coordonnées des emplacements de pixels ainsi que les instants (ou indices) d'apparition des images en valeurs de couleur RVB. Bien que les INRs facilitent une compression efficace, ils ne sont pas adaptés à des fins d'édition. Une solution potentielle consiste à utiliser un modèle basé sur le 3D Gaussian Splatting (3DGS), tel que la Représentation Gaussienne Vidéo (VGR), capable de coder une vidéo sous la forme d'une multitude de Gaussiennes 3D et applicable à de nombreuses opérations de traitement vidéo, y compris l'édition. Néanmoins, dans ce cas, la capacité de modification est limitée à un ensemble restreint de transformations de base. Pour résoudre ce problème, nous introduisons le modèle Video Gaussian Splatting (VeGaS), qui permet des modifications réalistes des données vidéo. Pour construire VeGaS, nous proposons une nouvelle famille de distributions gaussiennes pliées conçues pour capturer les dynamiques non linéaires dans un flux vidéo et modéliser les images consécutives par des Gaussiennes 2D obtenues en tant que distributions conditionnelles respectives. Nos expériences démontrent que VeGaS surpasse les solutions de pointe dans les tâches de reconstruction d'images et permet des modifications réalistes des données vidéo. Le code est disponible sur : https://github.com/gmum/VeGaS.
Les capacités croissantes des grands modèles de langage (GML) ont conduit à leur utilisation en tant que substituts du retour humain pour l'entraînement et l'évaluation d'autres GML. Ces méthodes reposent souvent sur des "constitutions", des directives écrites qu'un modèle critique utilise pour fournir des retours et améliorer les générations. Nous examinons comment le choix de la constitution affecte la qualité des retours en utilisant quatre constitutions différentes pour améliorer la communication centrée sur le patient lors d'entretiens médicaux. Dans des comparaisons par paires réalisées par 215 évaluateurs humains, nous avons constaté que des constitutions détaillées ont conduit à de meilleurs résultats en ce qui concerne les qualités émotionnelles. Cependant, aucune des constitutions n'a surpassé la ligne de base dans l'apprentissage de compétences plus orientées vers la pratique liées à la collecte et à la fourniture d'informations. Nos résultats indiquent que bien que les constitutions détaillées devraient être privilégiées, il existe des limitations possibles quant à l'efficacité du retour d'IA en tant que signal de récompense dans certains domaines.