Articles de recherche en IA sélectionnés quotidiennement avec traductions
La cartographie canonique de surface généralise la détection de points clés en assignant à chaque pixel d'un objet un point correspondant dans un modèle 3D. Popularisée par DensePose pour l'analyse des humains, des auteurs ont depuis tenté d'appliquer ce concept à davantage de catégories, mais avec un succès limité en raison du coût élevé de la supervision manuelle. Dans ce travail, nous introduisons SHIC, une méthode pour apprendre des cartes canoniques sans supervision manuelle, qui obtient de meilleurs résultats que les méthodes supervisées pour la plupart des catégories. Notre idée est de tirer parti de modèles de vision par ordinateur de base tels que DINO et Stable Diffusion, qui sont ouverts et possèdent donc d'excellents a priori sur les catégories naturelles. SHIC réduit le problème de l'estimation des correspondances image-modèle à la prédiction de correspondances image-image en utilisant les caractéristiques des modèles de base. Cette réduction fonctionne en faisant correspondre des images de l'objet à des rendus non photoréalistes du modèle, ce qui simule le processus de collecte d'annotations manuelles pour cette tâche. Ces correspondances sont ensuite utilisées pour superviser des cartes canoniques de haute qualité pour tout objet d'intérêt. Nous montrons également que les générateurs d'images peuvent encore améliorer le réalisme des vues du modèle, fournissant ainsi une source supplémentaire de supervision pour le modèle.
Les agents autonomes qui s'occupent de tâches numériques quotidiennes (par exemple, commander des courses pour un foyer) doivent non seulement manipuler plusieurs applications (par exemple, notes, messagerie, application d'achats) via des API, mais aussi générer du code riche avec un flux de contrôle complexe de manière itérative, en fonction de leur interaction avec l'environnement. Cependant, les benchmarks existants pour l'utilisation d'outils sont insuffisants, car ils ne couvrent que des tâches nécessitant une simple séquence d'appels d'API. Pour combler cette lacune, nous avons développé AppWorld Engine, un environnement d'exécution de haute qualité (60 000 lignes de code) comprenant 9 applications quotidiennes opérables via 457 API et peuplé d'activités numériques réalistes simulant la vie d'environ 100 utilisateurs fictifs. Nous avons ensuite créé AppWorld Benchmark (40 000 lignes de code), une suite de 750 tâches naturelles, diversifiées et complexes pour les agents autonomes, nécessitant une génération de code riche et interactive. Il prend en charge une évaluation programmatique robuste avec des tests unitaires basés sur l'état, permettant différentes manières d'accomplir une tâche tout en vérifiant les changements inattendus, c'est-à-dire les dommages collatéraux. Le modèle de pointe, GPT-4o, ne résout qu'environ 49 % de nos tâches "normales" et environ 30 % des tâches "défi", tandis que les autres modèles en résolvent au moins 16 % de moins. Cela met en évidence la difficulté du benchmark et le potentiel d'AppWorld à repousser les frontières des agents de codage interactifs. Le site web du projet est disponible à l'adresse https://appworld.dev/.
Nous proposons Wolf, un cadre de synthèse WOrLd pour la génération précise de légendes vidéo. Wolf est un cadre automatisé de légendage qui adopte une approche de mélange d'experts, exploitant les forces complémentaires des modèles de langage visuel (VLMs). En utilisant à la fois des modèles d'image et de vidéo, notre cadre capture différents niveaux d'information et les résume efficacement. Notre approche peut être appliquée pour améliorer la compréhension vidéo, l'étiquetage automatique et la génération de légendes. Pour évaluer la qualité des légendes, nous introduisons CapScore, une métrique basée sur un modèle de langage (LLM) pour évaluer la similarité et la qualité des légendes générées par rapport aux légendes de référence. Nous construisons en outre quatre ensembles de données annotés manuellement dans trois domaines : conduite autonome, scènes générales et robotique, afin de faciliter des comparaisons exhaustives. Nous montrons que Wolf atteint des performances de légendage supérieures par rapport aux approches de pointe de la communauté de recherche (VILA1.5, CogAgent) et aux solutions commerciales (Gemini-Pro-1.5, GPT-4V). Par exemple, par rapport à GPT-4V, Wolf améliore CapScore en termes de qualité de 55,6 % et en termes de similarité de 77,4 % sur des vidéos de conduite difficiles. Enfin, nous établissons un benchmark pour la génération de légendes vidéo et introduisons un classement, dans le but d'accélérer les avancées dans la compréhension vidéo, la génération de légendes et l'alignement des données. Classement : https://wolfv0.github.io/leaderboard.html.
Nous présentons des efforts systématiques dans la construction d'un modèle de représentation de texte multilingue à contexte long (TRM) et d'un rerankeur à partir de zéro pour la recherche de texte. Nous introduisons d'abord un encodeur de texte (taille de base) amélioré avec RoPE et unpadding, pré-entraîné dans un contexte natif de 8192 tokens (plus long que les 512 tokens des encodeurs multilingues précédents). Ensuite, nous construisons un TRM hybride et un rerankeur cross-encoder par apprentissage contrastif. Les évaluations montrent que notre encodeur de texte surpasse le XLM-R de même taille, précédemment considéré comme l'état de l'art. Par ailleurs, notre TRM et rerankeur égalent les performances des modèles BGE-M3 de grande taille, considérés comme l'état de l'art, et obtiennent de meilleurs résultats sur les benchmarks de recherche à contexte long. Une analyse approfondie démontre que nos modèles proposés présentent une efficacité accrue lors de l'entraînement et de l'inférence. Nous croyons que leur efficacité et leur performance pourraient bénéficier à diverses recherches et applications industrielles.
La manipulation d'objets en forme de stylo dans la main est une compétence importante dans notre vie quotidienne, car de nombreux outils tels que les marteaux et les tournevis ont une forme similaire. Cependant, les méthodes actuelles basées sur l'apprentissage peinent à accomplir cette tâche en raison d'un manque de démonstrations de haute qualité et de l'écart significatif entre la simulation et le monde réel. Dans ce travail, nous repoussons les limites des systèmes de manipulation en main basés sur l'apprentissage en démontrant la capacité à faire tourner des objets en forme de stylo. Nous utilisons d'abord l'apprentissage par renforcement pour entraîner une politique oracle avec des informations privilégiées et générer un ensemble de données de trajectoires haute fidélité en simulation. Cela sert deux objectifs : 1) pré-entraîner une politique sensorimotrice en simulation ; 2) effectuer une relecture de trajectoire en boucle ouverte dans le monde réel. Nous affinons ensuite la politique sensorimotrice en utilisant ces trajectoires du monde réel pour l'adapter à la dynamique du monde réel. Avec moins de 50 trajectoires, notre politique apprend à faire tourner plus de dix objets en forme de stylo avec des propriétés physiques différentes pour plusieurs révolutions. Nous présentons une analyse approfondie de nos choix de conception et partageons les leçons apprises lors du développement.
Les vision transformers ont considérablement fait progresser le domaine de la vision par ordinateur, offrant des capacités de modélisation robustes et un champ réceptif global. Cependant, leurs exigences computationnelles élevées limitent leur applicabilité dans le traitement de longues séquences. Pour résoudre ce problème, les modèles d'état (State Space Models, SSMs) ont gagné en importance dans les tâches de vision, car ils offrent une complexité computationnelle linéaire. Récemment, la Dualité d'État (State Space Duality, SSD), une variante améliorée des SSMs, a été introduite dans Mamba2 pour améliorer les performances et l'efficacité du modèle. Cependant, la nature causale inhérente de SSD/SSMs limite leurs applications dans les tâches de vision non causales. Pour pallier cette limitation, nous introduisons le modèle de Dualité d'État Visuelle (Visual State Space Duality, VSSD), qui adopte un format non causal de SSD. Plus précisément, nous proposons de supprimer l'amplitude des interactions entre l'état caché et les tokens tout en préservant leurs poids relatifs, ce qui réduit les dépendances de la contribution des tokens sur les tokens précédents. Avec l'intégration de stratégies de balayage multiple, nous montrons que les résultats du balayage peuvent être combinés pour atteindre la non-causalité, ce qui améliore non seulement les performances de SSD dans les tâches de vision, mais aussi son efficacité. Nous menons des expériences approfondies sur divers benchmarks, incluant la classification d'images, la détection et la segmentation, où VSSD surpasse les modèles basés sur SSM existants de pointe. Le code et les poids sont disponibles à l'adresse https://github.com/YuHengsss/VSSD.
Les récents progrès dans la reconstruction d'objets 3D à partir d'images uniques se sont principalement concentrés sur l'amélioration de la précision des formes des objets. Cependant, ces techniques échouent souvent à capturer avec exactitude l'interrelation entre l'objet, le sol et la caméra. En conséquence, les objets reconstruits apparaissent fréquemment flottants ou inclinés lorsqu'ils sont placés sur des surfaces planes. Cette limitation affecte significativement les applications de retouche d'images 3D, telles que le rendu des ombres et la manipulation de la pose des objets. Pour résoudre ce problème, nous introduisons ORG (Object Reconstruction with Ground), une nouvelle tâche visant à reconstruire la géométrie 3D des objets en conjonction avec la surface du sol. Notre méthode utilise deux représentations compactes au niveau des pixels pour décrire la relation entre la caméra, l'objet et le sol. Les expériences montrent que le modèle ORG proposé peut reconstruire efficacement la géométrie objet-sol sur des données inédites, améliorant considérablement la qualité de la génération d'ombres et de la manipulation de la pose par rapport aux techniques conventionnelles de reconstruction 3D à partir d'une seule image.