Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'alignement des préférences visuelles consiste à entraîner de grands modèles vision-langage (LVLM) à prédire les préférences humaines entre des entrées visuelles. Cela est généralement réalisé en utilisant des ensembles de données étiquetés de paires choisies/rejetées et en employant des algorithmes d'optimisation tels que l'optimisation directe des préférences (DPO). Les méthodes d'alignement visuel existantes, principalement conçues pour des scénarios d'image unique, ont du mal à gérer efficacement la complexité des tâches multi-images en raison de la rareté des données d'entraînement diverses et du coût élevé de l'annotation des paires choisies/rejetées. Nous présentons l'Optimisation Directe des Préférences Augmentée Multi-Images (MIA-DPO), une approche d'alignement des préférences visuelles qui gère efficacement les entrées multi-images. MIA-DPO atténue la rareté des données d'entraînement multi-images diverses en étendant les données d'image unique avec des images non apparentées disposées en collages de grilles ou en formats image dans l'image, réduisant significativement les coûts associés aux annotations de données multi-images. Notre observation révèle que les valeurs d'attention des LVLM varient considérablement d'une image à l'autre. Nous utilisons les valeurs d'attention pour identifier et filtrer les réponses rejetées sur lesquelles le modèle aurait pu se concentrer par erreur. Notre sélection consciente de l'attention pour construire les paires choisies/rejetées sans recourir à (i) une annotation humaine, (ii) des données supplémentaires, et (iii) des modèles ou API externes. MIA-DPO est compatible avec diverses architectures et surpasse les méthodes existantes sur cinq référentiels multi-images, obtenant une amélioration de performance moyenne de 3,0% sur LLaVA-v1.5 et de 4,3% sur le récent InternLM-XC2.5. De plus, MIA-DPO a un effet minimal sur la capacité du modèle à comprendre des images uniques.
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont montré des progrès prometteurs dans la compréhension et l'analyse du contenu vidéo. Cependant, le traitement de longues vidéos reste un défi significatif limité par la taille du contexte des MLLM. Pour pallier cette limitation, nous proposons LongVU, un mécanisme de compression adaptative spatiotemporelle qui réduit le nombre de jetons vidéo tout en préservant les détails visuels des longues vidéos. Notre idée repose sur l'exploitation de requêtes croisées multimodales et des dépendances inter-trames pour réduire de manière adaptative la redondance temporelle et spatiale dans les vidéos. Plus précisément, nous exploitons les caractéristiques de DINOv2 pour supprimer les trames redondantes présentant une similarité élevée. Ensuite, nous utilisons une requête croisée guidée par du texte pour une réduction sélective des caractéristiques des trames. De plus, nous effectuons une réduction des jetons spatiaux à travers les trames en fonction de leurs dépendances temporelles. Notre stratégie de compression adaptative traite efficacement un grand nombre de trames avec peu de perte d'informations visuelles dans la longueur de contexte donnée. Notre LongVU surpasse de manière constante les méthodes existantes sur une variété de bancs d'essai de compréhension vidéo, en particulier sur des tâches de compréhension vidéo d'une heure telles que VideoMME et MLVU. Étant donné un MLLM léger, notre LongVU s'étend également efficacement à une taille plus petite avec des performances de compréhension vidéo de pointe.
Les récents progrès dans les modèles prédictifs ont démontré des capacités exceptionnelles à prédire l'état futur des objets et des scènes. Cependant, le manque de catégorisation basée sur des caractéristiques inhérentes continue de freiner le développement des modèles prédictifs. De plus, les bancs d'essai existants ne parviennent pas à évaluer efficacement les modèles prédictifs à haute capacité et hautement incarnés d'un point de vue incarné. Dans ce travail, nous classifions les fonctionnalités des modèles prédictifs dans une hiérarchie et franchissons la première étape dans l'évaluation des simulateurs de monde en proposant un cadre d'évaluation double appelé WorldSimBench. WorldSimBench comprend une Évaluation Perceptive Explicite et une Évaluation Manipulative Implicite, englobant des évaluations de préférence humaine du point de vue visuel et des évaluations au niveau de l'action dans des tâches incarnées, couvrant trois scénarios incarnés représentatifs : Environnement Incarné à Ouverture Illimitée, Conduite Autonome et Manipulation de Robot. Dans l'Évaluation Perceptive Explicite, nous introduisons le jeu de données HF-Incarne, un jeu de données d'évaluation vidéo basé sur des retours humains détaillés, que nous utilisons pour entraîner un Évaluateur de Préférence Humaine qui se conforme à la perception humaine et évalue explicitement la fidélité visuelle des Simulateurs de Monde. Dans l'Évaluation Manipulative Implicite, nous évaluons la cohérence vidéo-action des Simulateurs de Monde en évaluant si la vidéo générée consciente de la situation peut être traduite avec précision en signaux de contrôle corrects dans des environnements dynamiques. Notre évaluation complète offre des informations clés qui peuvent stimuler davantage l'innovation dans les modèles de génération vidéo, positionnant les Simulateurs de Monde comme une avancée cruciale vers une intelligence artificielle incarnée.
Les Modèles de Langage par Diffusion (DLMs) ont émergé comme un nouveau paradigme prometteur pour la modélisation générative de texte, potentiellement en réponse aux limitations des modèles autorégressifs (AR). Cependant, les DLMs actuels ont été étudiés à une plus petite échelle par rapport à leurs homologues AR et manquent de comparaisons équitables sur les bancs d'essai de modélisation de langage. De plus, l'entraînement de modèles de diffusion à grande échelle à partir de zéro reste un défi. Étant donné la prévalence des modèles de langage AR en open source, nous proposons d'adapter ces modèles pour construire des modèles de diffusion de texte. Nous démontrons des liens entre les objectifs de modélisation AR et de diffusion et introduisons une approche simple de pré-entraînement continu pour l'entraînement de modèles de diffusion. À travers une évaluation systématique sur des bancs d'essai de modélisation de langage, de raisonnement et de bon sens, nous montrons que nous pouvons convertir des modèles AR allant de 127M à 7B de paramètres (GPT2 et LLaMA) en modèles de diffusion DiffuGPT et DiffuLLaMA, en utilisant moins de 200B de jetons pour l'entraînement. Nos résultats expérimentaux révèlent que ces modèles surpassent les DLMs antérieurs et sont compétitifs avec leurs homologues AR. Nous mettons à disposition une série de DLMs (avec 127M, 355M et 7B de paramètres) capables de générer un texte fluide, d'effectuer un apprentissage en contexte, de remplir le milieu sans réorganisation de la requête, et de suivre les instructions sur https://github.com/HKUNLP/DiffuLLaMA.
L'Optimisation Directe des Préférences (ODP) est apparue comme une approche puissante pour aligner les modèles texte-image (T2I) avec les retours humains. Malheureusement, l'application réussie de l'ODP aux modèles T2I nécessite une énorme quantité de ressources pour collecter et étiqueter des ensembles de données à grande échelle, par exemple, des millions d'images appariées générées annotées avec des préférences humaines. De plus, ces ensembles de données de préférences humaines peuvent rapidement devenir obsolètes à mesure que les améliorations rapides des modèles T2I conduisent à des images de meilleure qualité. Dans ce travail, nous étudions une approche évolutive pour la collecte de jeux de données entièrement synthétiques à grande échelle pour l'entraînement de l'ODP. Plus précisément, les préférences pour les images appariées sont générées en utilisant une fonction de récompense pré-entraînée, éliminant ainsi le besoin d'impliquer des humains dans le processus d'annotation, améliorant considérablement l'efficacité de la collecte des ensembles de données. De plus, nous démontrons que de tels ensembles de données permettent de moyenner les prédictions à travers plusieurs modèles et de collecter des préférences classées au lieu de préférences par paires. En outre, nous introduisons RankDPO pour améliorer les méthodes basées sur l'ODP en utilisant les retours de classement. L'application de RankDPO sur les modèles SDXL et SD3-Medium avec notre jeu de données de préférences généré de manière synthétique "Syn-Pic" améliore à la fois le suivi des instructions (sur des référentiels tels que T2I-Compbench, GenEval et DPG-Bench) et la qualité visuelle (à travers des études utilisateur). Ce processus présente une solution pratique et évolutive pour développer de meilleurs ensembles de données de préférences afin d'améliorer les performances des modèles texte-image.
La génération de scènes LiDAR a récemment connu un développement rapide. Cependant, les méthodes existantes se concentrent principalement sur la génération de scènes statiques et monoframes, négligeant la nature intrinsèquement dynamique des environnements de conduite du monde réel. Dans ce travail, nous présentons DynamicCity, un nouveau cadre de génération LiDAR 4D capable de produire des scènes LiDAR à grande échelle et de haute qualité qui capturent l'évolution temporelle des environnements dynamiques. DynamicCity se compose principalement de deux modèles clés. 1) Un modèle VAE pour apprendre HexPlane en tant que représentation 4D compacte. Au lieu d'utiliser des opérations d'average naïves, DynamicCity utilise un nouveau Module de Projection pour comprimer efficacement les caractéristiques LiDAR 4D en six cartes de caractéristiques 2D pour la construction de HexPlane, ce qui améliore significativement la qualité de l'ajustement de HexPlane (jusqu'à un gain de 12,56 mIoU). De plus, nous utilisons une Stratégie d'Expansion & Compression pour reconstruire des volumes de caractéristiques 3D en parallèle, ce qui améliore à la fois l'efficacité de l'entraînement du réseau et la précision de la reconstruction par rapport à une interrogation naïve de chaque point 3D (jusqu'à un gain de 7,05 mIoU, une accélération de l'entraînement de 2,06 fois et une réduction de la mémoire de 70,84%). 2) Un modèle de diffusion basé sur DiT pour la génération de HexPlane. Pour rendre HexPlane réalisable pour la génération DiT, une Opération de Déploiement Rembourrée est proposée pour réorganiser les six plans de caractéristiques de HexPlane en une carte de caractéristiques 2D carrée. En particulier, diverses conditions pourraient être introduites dans le processus de diffusion ou d'échantillonnage, soutenant des applications de génération 4D polyvalentes, telles que la génération basée sur la trajectoire et les commandes, l'inpainting et la génération conditionnée par la disposition. Des expériences approfondies sur les ensembles de données CarlaSC et Waymo démontrent que DynamicCity surpasse significativement les méthodes de génération LiDAR 4D de pointe existantes sur plusieurs métriques. Le code sera publié pour faciliter les recherches futures.
Les modèles de récompense (RMs) ont permis d'améliorer les performances de pointe des LLMs aujourd'hui en permettant l'intégration des retours humains dans le processus de modélisation linguistique. Cependant, les RMs sont principalement entraînés et évalués en anglais, et leurs capacités dans des environnements multilingues restent largement sous-étudiées. Dans ce travail, nous menons une évaluation systématique de plusieurs modèles de récompense dans des environnements multilingues. Nous construisons d'abord le premier banc d'essai d'évaluation de modèles de récompense multilingues, M-RewardBench, comprenant 2,87k instances de préférence pour 23 langues typologiquement diverses, qui teste les capacités de conversation, de sécurité, de raisonnement et de traduction des RMs. Nous évaluons ensuite rigoureusement un large éventail de modèles de récompense sur M-RewardBench, offrant de nouvelles perspectives sur leurs performances à travers diverses langues. Nous identifions un écart significatif dans les performances des RMs entre l'anglais et les langues non anglaises et montrons que les préférences des RMs peuvent changer considérablement d'une langue à une autre. Nous présentons également plusieurs conclusions sur la manière dont différents aspects multilingues impactent les performances des RMs. Plus précisément, nous montrons que les performances des RMs s'améliorent avec une meilleure qualité de traduction. De même, nous démontrons que les modèles présentent de meilleures performances pour les langues à ressources élevées. Nous mettons à disposition le jeu de données M-RewardBench et la base de code de cette étude pour faciliter une meilleure compréhension de l'évaluation des RMs dans des environnements multilingues.
Cet article présente une nouvelle architecture de contrôle de téléphone mobile, appelée "agents d'application", pour des interactions et des contrôles efficaces à travers différentes applications Android. Le contrôle d'application multi-modal léger proposé (LiMAC) prend en entrée un objectif textuel et une séquence d'observations mobiles passées, telles que des captures d'écran et des arbres d'interface utilisateur correspondants, pour générer des actions précises. Pour répondre aux contraintes computationnelles inhérentes aux smartphones, au sein de LiMAC, nous introduisons un petit Transformateur d'Action (AcT) intégré à un modèle vision-langage affiné (VLM) pour la prise de décision en temps réel et l'exécution des tâches. Nous évaluons LiMAC sur deux ensembles de données de contrôle mobile open-source, démontrant les performances supérieures de notre approche de petit facteur de forme par rapport aux versions affinées de VLM open-source, telles que Florence2 et Qwen2-VL. Il surpasse également de manière significative les lignes de base d'ingénierie de prompts utilisant des modèles de fondation propriétaires comme GPT-4o. Plus précisément, LiMAC augmente la précision globale des actions jusqu'à 19% par rapport aux VLM affinés, et jusqu'à 42% par rapport aux lignes de base d'ingénierie de prompts.
L'intégration des techniques des grands modèles de langage (LLM) dans le domaine de l'analyse médicale a entraîné des avancées significatives, mais la rareté des ensembles de données volumineux, diversifiés et bien annotés reste un défi majeur. Les données et tâches médicales, qui varient en format, taille et autres paramètres, nécessitent un prétraitement et une standardisation approfondis pour une utilisation efficace dans l'entraînement des LLM. Pour relever ces défis, nous présentons MedINST, le Méta Ensemble de Données d'Instructions Biomédicales, un nouveau méta-ensemble d'instructions multi-domaines et multi-tâches. MedINST comprend 133 tâches de PNL biomédicale et plus de 7 millions d'échantillons d'entraînement, ce qui en fait l'ensemble de données d'instructions biomédicales le plus complet à ce jour. En utilisant MedINST comme méta-ensemble de données, nous élaborons MedINST32, un banc d'essai exigeant avec différentes difficultés de tâches visant à évaluer la capacité de généralisation des LLM. Nous affinons plusieurs LLM sur MedINST et évaluons sur MedINST32, démontrant une amélioration de la généralisation inter-tâches.
Récemment, les grands modèles de langage multimodaux (MLLM) ont suscité beaucoup d'attention en raison de leurs capacités impressionnantes. L'évaluation des MLLM devient cruciale pour analyser les attributs des MLLM et fournir des informations précieuses. Cependant, les références actuelles négligent le problème de la sensibilité à la requête - de légères variations de requêtes peuvent entraîner des fluctuations de performance significatives. Ainsi, des requêtes inappropriées peuvent obscurcir les capacités des modèles, sous-estimant leurs performances. De plus, différents modèles ont des préférences différentes pour différentes requêtes, et donc, utiliser la même requête pour tous les modèles entraînera un biais d'évaluation. Ce document analyse cette lacune dans les références existantes et introduit un nouveau cadre d'évaluation appelé TP-Eval, qui propose une méthode de personnalisation de requête pour réduire les biais d'évaluation et exploiter le potentiel des modèles. TP-Eval réécrira les requêtes originales en différentes requêtes personnalisées pour différents modèles. En particulier, nous proposons quelques modules bien conçus pour la personnalisation de requête adaptés au scénario d'évaluation des MLLM. Des expériences approfondies démontrent l'efficacité de notre approche pour mettre en lumière les capacités des modèles, et TP-Eval devrait bénéficier à la communauté dans le développement de références d'évaluation des MLLM plus complètes et convaincantes.
Les performances des réseaux neuronaux augmentent à la fois avec leur taille et la quantité de données sur lesquelles ils ont été entraînés. Cela est démontré à la fois dans la génération de langage et d'images. Cependant, cela nécessite des architectures de réseau adaptées à la mise à l'échelle ainsi que des ensembles de données à grande échelle. Bien que des architectures adaptées à la mise à l'échelle comme les transformeurs aient émergé pour les tâches de vision 3D, le moment GPT de la vision 3D reste lointain en raison du manque de données d'entraînement. Dans cet article, nous présentons ARKit LabelMaker, le premier ensemble de données 3D à grande échelle du monde réel avec des annotations sémantiques denses. Plus précisément, nous complétons l'ensemble de données ARKitScenes avec des annotations sémantiques denses générées automatiquement à grande échelle. À cette fin, nous étendons LabelMaker, un pipeline d'annotation automatique récent, pour répondre aux besoins de la pré-formation à grande échelle. Cela implique d'étendre le pipeline avec des modèles de segmentation de pointe ainsi que de le rendre robuste aux défis du traitement à grande échelle. De plus, nous faisons progresser les performances de pointe sur les ensembles de données ScanNet et ScanNet200 avec des modèles prédominants de segmentation sémantique 3D, démontrant l'efficacité de notre ensemble de données généré.
Nous proposons le Modèle de Synthèse de Grandes Vues (LVSM), une approche novatrice basée sur les transformers pour une synthèse de nouvelles vues évolutive et généralisable à partir d'entrées de vues clairsemées. Nous introduisons deux architectures : (1) un LVSM encodeur-décodeur, qui encode les jetons d'image d'entrée en un nombre fixe de jetons latents 1D, fonctionnant comme une représentation de scène entièrement apprise, et décode les images de nouvelles vues à partir de ceux-ci ; et (2) un LVSM décodeur uniquement, qui mappe directement les images d'entrée vers des sorties de nouvelles vues, éliminant complètement les représentations de scène intermédiaires. Les deux modèles contournent les biais inductifs 3D utilisés dans les méthodes précédentes -- des représentations 3D (par ex., NeRF, 3DGS) aux conceptions de réseaux (par ex., projections épipolaires, balayages de plans) -- en abordant la synthèse de nouvelles vues avec une approche entièrement basée sur les données. Alors que le modèle encodeur-décodeur offre une inférence plus rapide en raison de sa représentation latente indépendante, le LVSM décodeur uniquement atteint une qualité, une évolutivité et une généralisation hors échantillon supérieures, surpassant les méthodes précédentes de pointe de 1,5 à 3,5 dB PSNR. Des évaluations approfondies sur plusieurs ensembles de données démontrent que les deux variantes de LVSM atteignent une qualité de synthèse de nouvelles vues de pointe. Notamment, nos modèles surpassent toutes les méthodes précédentes même avec des ressources computationnelles réduites (1-2 GPUs). Veuillez consulter notre site Web pour plus de détails : https://haian-jin.github.io/projects/LVSM/.
Les politiques robotiques générales à usage étendu, formées sur des ensembles de démonstrations divers, se sont révélées remarquablement efficaces à la fois pour contrôler divers robots dans une variété de scènes différentes et pour acquérir de vastes répertoires de compétences en manipulation. Cependant, les données sur lesquelles ces politiques sont formées sont généralement de qualité mixte - non seulement les démonstrations collectées par des humains sont peu susceptibles d'exécuter parfaitement la tâche, mais plus l'ensemble de données est grand, plus il est difficile de ne conserver que les exemples de la plus haute qualité. Il reste également incertain dans quelle mesure les données optimales d'une incarnation sont adaptées à la formation sur une autre incarnation. Dans cet article, nous présentons une approche générale et largement applicable qui améliore les performances de telles politiques robotiques généralistes au moment du déploiement en reclassant leurs actions selon une fonction de valeur apprise via l'apprentissage par renforcement hors ligne. Cette approche, que nous appelons Pilotage de Politique Guidé par la Valeur (V-GPS), est compatible avec un large éventail de politiques généralistes différentes, sans avoir besoin d'être affinée ou même d'accéder aux poids de la politique. Nous montrons que la même fonction de valeur peut améliorer les performances de cinq politiques de pointe différentes avec des architectures différentes, même si elles ont été formées sur des ensembles de données distincts, atteignant une amélioration de performance cohérente sur de multiples plateformes robotiques à travers un total de 12 tâches. Le code et les vidéos sont disponibles sur : https://nakamotoo.github.io/V-GPS