papers.description
Les grands modèles de langage (LLMs) et les grands modèles de vision-langage (LVLMs) ont démontré des capacités impressionnantes de raisonnement langagier/vision, suscitant la récente tendance à construire des agents pour des applications ciblées telles que des assistants shopping ou des ingénieurs logiciels en IA. Récemment, de nombreux bancs d'essai en science des données ont été proposés pour étudier leurs performances dans le domaine de la science des données. Cependant, les bancs d'essai existants en science des données restent encore limités par rapport aux applications réelles de la science des données en raison de leurs paramètres simplifiés. Pour combler ce fossé, nous présentons DSBench, un banc d'essai complet conçu pour évaluer les agents de science des données avec des tâches réalistes. Ce banc d'essai comprend 466 tâches d'analyse de données et 74 tâches de modélisation de données, provenant des compétitions Eloquence et Kaggle. DSBench offre un cadre réaliste en englobant de longs contextes, des arrière-plans de tâches multimodaux, du raisonnement avec de grands fichiers de données et des structures multi-tables, ainsi que l'exécution de tâches de modélisation de données de bout en bout. Notre évaluation des LLMs, LVLMs et agents de pointe montre qu'ils rencontrent des difficultés avec la plupart des tâches, le meilleur agent ne résolvant que 34,12 % des tâches d'analyse de données et atteignant un Écart de Performance Relative (RPG) de 34,74 %. Ces résultats soulignent la nécessité de progresser davantage dans le développement d'agents de science des données plus pratiques, intelligents et autonomes.
Les grands modèles de langage (LLM) montrent un potentiel remarquable pour agir en tant qu'agents informatiques, améliorant la productivité humaine et l'accessibilité des logiciels dans des tâches multimodales nécessitant de la planification et du raisonnement. Cependant, mesurer les performances des agents dans des environnements réalistes reste un défi car : (i) la plupart des références sont limitées à des modalités ou domaines spécifiques (par exemple, uniquement du texte, navigation web, questions-réponses, codage) et (ii) les évaluations complètes des références sont lentes (de l'ordre de grandeur des jours) en raison de la nature séquentielle multi-étapes des tâches. Pour relever ces défis, nous introduisons l'Arena des Agents Windows : un environnement reproductible et général se concentrant exclusivement sur le système d'exploitation Windows où les agents peuvent opérer librement au sein d'un véritable système d'exploitation Windows et utiliser la même large gamme d'applications, d'outils et de navigateurs web disponibles pour les utilisateurs humains lors de la résolution de tâches. Nous adaptons le cadre OSWorld (Xie et al., 2024) pour créer plus de 150 tâches Windows diverses couvrant des domaines représentatifs nécessitant des capacités des agents en planification, compréhension de l'écran et utilisation d'outils. Notre référence est évolutive et peut être parallélisée de manière transparente dans Azure pour une évaluation complète de la référence en aussi peu que 20 minutes. Pour démontrer les capacités de l'Arena des Agents Windows, nous introduisons également un nouvel agent multimodal, Navi. Notre agent atteint un taux de réussite de 19,5 % dans le domaine Windows, comparé à une performance de 74,5 % d'un humain non assisté. Navi démontre également de bonnes performances sur une autre référence populaire basée sur le web, Mind2Web. Nous offrons une analyse quantitative et qualitative approfondie des performances de Navi, et fournissons des perspectives sur les opportunités de recherche future dans le développement des agents et la génération de données en utilisant l'Arena des Agents Windows. Page Web : https://microsoft.github.io/WindowsAgentArena Code : https://github.com/microsoft/WindowsAgentArena
Les récentes avancées dans les grands modèles de langage (GML) ont suscité de l'optimisme quant à leur potentiel pour accélérer la découverte scientifique, avec un nombre croissant d'œuvres proposant des agents de recherche qui génèrent et valident de manière autonome de nouvelles idées. Malgré cela, aucune évaluation n'a montré que les systèmes GML peuvent franchir le tout premier pas de la production d'idées nouvelles de niveau expert, encore moins réaliser l'ensemble du processus de recherche. Nous abordons cette question en établissant une conception expérimentale qui évalue la génération d'idées de recherche tout en contrôlant les variables parasites et en réalisant la première comparaison directe entre des chercheurs experts en TAL et un agent d'idéation GML. En recrutant plus de 100 chercheurs en TAL pour rédiger des idées nouvelles et des évaluations à l'aveugle des idées générées par les GML et les humains, nous obtenons la première conclusion statistiquement significative sur les capacités actuelles des GML en matière d'idéation de recherche : nous constatons que les idées générées par les GML sont jugées comme étant plus nouvelles (p < 0,05) que les idées d'experts humains tout en étant jugées légèrement moins réalisables. En étudiant de près nos bases d'agents, nous identifions des problèmes ouverts dans la construction et l'évaluation des agents de recherche, y compris les échecs d'auto-évaluation des GML et leur manque de diversité dans la génération. Enfin, nous reconnaissons que les jugements humains sur la nouveauté peuvent être difficiles, même pour des experts, et proposons une conception d'étude de bout en bout qui recrute des chercheurs pour concrétiser ces idées en projets complets, nous permettant d'étudier si ces jugements de nouveauté et de faisabilité entraînent des différences significatives dans les résultats de recherche.
Alors que les modèles de diffusion Texte-vers-Image (T2I) excellent dans la génération d'images visuellement attrayantes d'instances individuelles, ils ont du mal à positionner et contrôler avec précision la génération de caractéristiques de multiples instances. La tâche de Mise en Page-vers-Image (L2I) a été introduite pour résoudre les défis de positionnement en incorporant des boîtes englobantes en tant que signaux de contrôle spatial, mais elle reste insuffisante pour générer des caractéristiques d'instances précises. En réponse, nous proposons la tâche de Génération de Caractéristiques d'Instance (IFG), qui vise à garantir à la fois la précision de positionnement et la fidélité des caractéristiques des instances générées. Pour aborder la tâche IFG, nous introduisons l'Adaptateur de Caractéristiques d'Instance (IFAdapter). L'IFAdapter améliore la représentation des caractéristiques en incorporant des jetons d'apparence supplémentaires et en utilisant une Carte Sémantique d'Instance pour aligner les caractéristiques au niveau de l'instance avec les emplacements spatiaux. L'IFAdapter guide le processus de diffusion en tant que module plug-and-play, le rendant adaptable à divers modèles de la communauté. Pour l'évaluation, nous contribuons à un banc d'essai IFG et développons un pipeline de vérification pour comparer objectivement les capacités des modèles à générer des instances avec un positionnement et des caractéristiques précis. Les résultats expérimentaux démontrent que l'IFAdapter surpasse les autres modèles à la fois dans les évaluations quantitatives et qualitatives.
Les grands modèles de langage ont encore du mal dans des scénarios complexes qui exploitent des données structurées, un raisonnement complexe ou l'utilisation d'outils. Dans cet article, nous proposons Source2Synth : une nouvelle méthode qui peut être utilisée pour enseigner de nouvelles compétences aux GPT sans recourir à des annotations humaines coûteuses. Source2Synth prend en entrée une source de données personnalisée et produit des points de données synthétiques avec des étapes de raisonnement intermédiaires ancrées dans des sources du monde réel. Source2Synth améliore la qualité de l'ensemble de données en éliminant les générations de faible qualité en fonction de leur capacité à répondre. Nous démontrons la généralité de cette approche en l'appliquant à deux domaines difficiles : nous testons les capacités de raisonnement dans la réponse à des questions à sauts multiples (MHQA), et l'utilisation d'outils dans la réponse à des questions tabulaires (TQA). Notre méthode améliore les performances de 25,51 % pour TQA sur WikiSQL et de 22,57 % pour MHQA sur HotPotQA par rapport aux références finement ajustées.
Les récentes avancées dans les modèles de conversion texte-image ont ouvert des perspectives de recherche prometteuses dans la génération d'images personnalisées, permettant aux utilisateurs de créer des images variées sur un sujet spécifique en utilisant des instructions en langage naturel. Cependant, les méthodes existantes souffrent souvent d'une dégradation des performances lorsqu'elles ne reçoivent qu'une seule image de référence. Elles ont tendance à surajuster l'entrée, produisant des sorties très similaires indépendamment de l'instruction textuelle. Cet article aborde le défi de la personnalisation en un seul exemple en atténuant le surajustement, permettant la création d'images contrôlables à travers des instructions textuelles. Plus précisément, nous proposons une stratégie de fine-tuning sélectif qui se concentre sur l'encodeur de texte. De plus, nous introduisons trois techniques clés pour améliorer les performances de personnalisation : (1) des jetons d'augmentation pour encourager la désentrelacement des caractéristiques et atténuer le surajustement, (2) une perte de préservation des connaissances pour réduire la dérive linguistique et favoriser la généralisabilité à travers des instructions variées, et (3) un échantillonnage pondéré par SNR pour un entraînement efficace. Des expériences approfondies démontrent que notre approche génère efficacement des images diverses et de haute qualité en n'utilisant qu'une seule image de référence tout en réduisant significativement les besoins en mémoire et en stockage.
Nous présentons DreamHOI, une méthode novatrice pour la synthèse sans apprentissage des interactions humain-objet (HOI), permettant à un modèle humain 3D d'interagir de manière réaliste avec n'importe quel objet donné en se basant sur une description textuelle. Cette tâche est complexe en raison des catégories et des géométries variables des objets du monde réel et de la rareté des ensembles de données englobant des HOI diversifiées. Pour contourner le besoin de données étendues, nous exploitons des modèles de diffusion texte-image entraînés sur des milliards de paires image-légende. Nous optimisons l'articulation d'un maillage humain habillé en utilisant les gradients de Score Distillation Sampling (SDS) obtenus à partir de ces modèles, qui prédisent des modifications dans l'espace image. Cependant, la rétropropagation directe des gradients de l'espace image dans des paramètres d'articulation complexes est inefficace en raison de la nature locale de ces gradients. Pour surmonter cela, nous introduisons une représentation implicite-explicite double d'un maillage habillé, combinant les champs de radiance neurale (NeRFs) (implicites) avec l'articulation du maillage pilotée par un squelette (explicite). Pendant l'optimisation, nous transitionnons entre les formes implicites et explicites, ancrant la génération NeRF tout en affinant l'articulation du maillage. Nous validons notre approche à travers des expériences approfondies, démontrant son efficacité dans la génération d'HOI réalistes.
Alimentés par la vague des grands modèles de langage (LLMs), les grands modèles visuel-langage (LVLMs) ont émergé comme une avancée cruciale, comblant le fossé entre l'image et le texte. Cependant, les vidéos rendent difficile la performance adéquate des LVLMs en raison de la complexité de la relation entre le langage et la structure des données spatiales-temporelles. Les récents grands modèles vidéo-langage (LVidLMs) alignent les caractéristiques des données visuelles statiques telles que les images dans l'espace latent des caractéristiques linguistiques, en généralisant les tâches multimodales pour exploiter suffisamment les capacités des LLMs. Dans cet article, nous explorons une approche d'alignement détaillé via la trajectoire d'objets pour différentes modalités à la fois dans les dimensions spatiales et temporelles. Ainsi, nous proposons un nouveau LVidLM par alignement pixel-temporel guidé par trajectoire, baptisé PiTe, qui présente des propriétés de modèle applicable prometteuses. Pour atteindre un alignement vidéo-langage détaillé, nous constituons un ensemble de données de pré-entraînement multimodal PiTe-143k, fournissant des trajectoires en mouvement au niveau des pixels pour tous les objets individuels, apparaissant et mentionnés à la fois dans la vidéo et la légende, grâce à notre pipeline d'annotation automatique. Parallèlement, PiTe démontre des capacités impressionnantes sur de nombreuses tâches multimodales liées à la vidéo, en surpassant largement les méthodes de pointe.
Cette étude aborde le défi de segmenter de manière précise le Gaussian Splatting en 3D à partir de masques en 2D. Les méthodes conventionnelles s'appuient souvent sur une descente de gradient itérative pour attribuer à chaque Gaussian une étiquette unique, ce qui entraîne une optimisation longue et des solutions sous-optimales. Au lieu de cela, nous proposons un solveur simple mais globalement optimal pour la segmentation 3D-GS. L'idée centrale de notre méthode est que, avec une scène 3D-GS reconstruite, le rendu des masques en 2D est essentiellement une fonction linéaire par rapport aux étiquettes de chaque Gaussian. Ainsi, l'attribution d'étiquettes optimale peut être résolue via une programmation linéaire sous forme fermée. Cette solution tire parti de la caractéristique de fusion alpha du processus de splatting pour une optimisation en une seule étape. En incorporant le biais d'arrière-plan dans notre fonction objective, notre méthode montre une robustesse supérieure dans la segmentation 3D contre les bruits. Remarquablement, notre optimisation se termine en moins de 30 secondes, environ 50 fois plus rapidement que les meilleures méthodes existantes. Des expériences approfondies démontrent l'efficacité et la robustesse de notre méthode dans la segmentation de diverses scènes, ainsi que ses performances supérieures dans des tâches ultérieures telles que la suppression d'objets et l'inpainting. Des démonstrations et du code seront disponibles sur https://github.com/florinshen/FlashSplat.
La détection d'objets hors distribution (OOD) est une tâche complexe en raison de l'absence de données OOD en open-set. Inspirés par les récents progrès dans les modèles génératifs texte-image, tels que Stable Diffusion, nous étudions le potentiel des modèles génératifs entraînés sur des données open-set à grande échelle pour synthétiser des échantillons OOD, améliorant ainsi la détection d'objets OOD. Nous présentons SyncOOD, une méthode simple de curation des données qui tire parti des capacités des grands modèles de base pour extraire automatiquement des données OOD significatives des modèles génératifs texte-image. Cela offre au modèle l'accès aux connaissances du monde ouvert encapsulées dans les modèles de base prêts à l'emploi. Les échantillons OOD synthétiques sont ensuite utilisés pour augmenter l'entraînement d'un détecteur OOD léger et plug-and-play, optimisant ainsi efficacement les frontières de décision ID/OOD. Des expériences approfondies sur plusieurs référentiels démontrent que SyncOOD surpasse significativement les méthodes existantes, établissant de nouvelles performances de pointe avec une utilisation minimale de données synthétiques.