Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'automatisation web est une technique importante qui permet d'accomplir des tâches web complexes en automatisant les actions web courantes, améliorant ainsi l'efficacité opérationnelle et réduisant le besoin d'intervention manuelle. Les méthodes traditionnelles, telles que les wrappers, souffrent d'une adaptabilité et d'une évolutivité limitées face à un nouveau site web. D'un autre côté, les agents génératifs alimentés par des modèles de langage de grande taille (LLMs) montrent des performances et une réutilisabilité médiocres dans des scénarios en monde ouvert. Dans ce travail, nous introduisons une tâche de génération de crawlers pour les pages web d'information verticale et le paradigme de combinaison des LLMs avec les crawlers, ce qui aide ces derniers à gérer des environnements web divers et changeants de manière plus efficace. Nous proposons AutoCrawler, un framework en deux étapes qui exploite la structure hiérarchique du HTML pour une compréhension progressive. Grâce à des opérations de haut en bas et de retour en arrière, AutoCrawler peut apprendre de ses actions erronées et élaguer continuellement le HTML pour une meilleure génération d'actions. Nous menons des expériences approfondies avec plusieurs LLMs et démontrons l'efficacité de notre framework. Les ressources de cet article sont disponibles à l'adresse suivante : https://github.com/EZ-hwh/AutoCrawler.
Nous présentons Groma, un modèle de langage multimodal (MLLM) doté d'une capacité de perception visuelle ancrée et fine. Au-delà de la compréhension globale d'une image, Groma excelle dans des tâches au niveau des régions, telles que la description de régions et l'ancrage visuel. Ces capacités reposent sur un mécanisme de tokenisation visuelle localisée, où une image est décomposée en régions d'intérêt puis encodée en tokens de région. En intégrant ces tokens de région dans les instructions utilisateur et les réponses du modèle, nous permettons à Groma de comprendre les entrées régionales spécifiées par l'utilisateur et d'ancrer ses sorties textuelles aux images. Par ailleurs, pour renforcer la capacité de dialogue ancré de Groma, nous avons constitué un ensemble de données d'instructions visuellement ancrées en exploitant la puissance de GPT-4V et des techniques d'invite visuelle. Comparé aux MLLM qui s'appuient sur le modèle de langage ou un module externe pour la localisation, Groma démontre systématiquement des performances supérieures dans les benchmarks standards de référencement et d'ancrage, mettant en avant les avantages de l'intégration de la localisation dans la tokenisation d'images. Page du projet : https://groma-mllm.github.io/.
La réponse visuelle à des questions centrées sur le texte (VQA) a réalisé des progrès significatifs grâce au développement des modèles de langage multimodaux de grande envergure (MLLMs). Cependant, les modèles open source restent en retrait par rapport aux leaders comme GPT4V et Gemini, en partie à cause d'un manque de données d'ajustement par instruction étendues et de haute qualité. Pour pallier cela, nous introduisons une nouvelle approche pour créer un ensemble de données massif et de haute qualité pour l'ajustement par instruction, Square-10M, généré à l'aide de MLLMs propriétaires. Le processus de construction des données, appelé Square, se compose de quatre étapes : Auto-Questionnement, Réponse, Raisonnement et Évaluation. Nos expériences avec Square-10M ont conduit à trois conclusions majeures : 1) Notre modèle, TextSquare, surpasse considérablement les MLLMs centrés sur le texte open source précédents et établit un nouveau standard sur OCRBench (62,2%). Il dépasse même les modèles de premier plan comme GPT4V et Gemini dans 6 des 10 benchmarks centrés sur le texte. 2) De plus, nous démontrons le rôle crucial des données de raisonnement VQA en fournissant des insights contextuels complets pour des questions spécifiques. Cela améliore non seulement la précision, mais atténue également de manière significative les hallucinations. En particulier, TextSquare obtient une moyenne de 75,1% sur quatre ensembles de données d'évaluation générale VQA et d'hallucination, surpassant les modèles précédents de pointe. 3) Enfin, le phénomène observé dans la mise à l'échelle des ensembles de données VQA centrés sur le texte révèle un schéma clair : l'augmentation exponentielle du volume de données d'ajustement par instruction est directement proportionnelle à l'amélioration des performances du modèle, validant ainsi la nécessité de l'échelle des données et la haute qualité de Square-10M.
Les interactions réalistes avec les objets sont cruciales pour créer des expériences virtuelles immersives, mais la synthèse de dynamiques 3D réalistes en réponse à des interactions nouvelles reste un défi majeur. Contrairement à la génération de dynamiques inconditionnelles ou conditionnées par du texte, la génération de dynamiques conditionnées par des actions nécessite de percevoir les propriétés physiques des matériaux des objets et de fonder la prédiction du mouvement 3D sur ces propriétés, telles que la rigidité de l'objet. Cependant, l'estimation des propriétés physiques des matériaux est un problème ouvert en raison du manque de données de référence sur les matériaux, car mesurer ces propriétés pour des objets réels est extrêmement difficile. Nous présentons PhysDreamer, une approche basée sur la physique qui dote des objets 3D statiques de dynamiques interactives en exploitant les connaissances préalables sur les dynamiques d'objets apprises par des modèles de génération vidéo. En distillant ces connaissances, PhysDreamer permet la synthèse de réponses réalistes d'objets à des interactions nouvelles, telles que des forces externes ou des manipulations par un agent. Nous démontrons notre approche sur divers exemples d'objets élastiques et évaluons le réalisme des interactions synthétisées à travers une étude utilisateur. PhysDreamer fait un pas vers des expériences virtuelles plus engageantes et réalistes en permettant aux objets 3D statiques de répondre dynamiquement à des stimuli interactifs de manière physiquement plausible. Consultez notre page de projet à l'adresse https://physdreamer.github.io/.
La réécriture de requêtes, qui vise à générer des requêtes plus efficaces en modifiant la structure d'une requête SQL sans en altérer le résultat, constitue un problème de recherche important. Pour maintenir l'équivalence entre la requête réécrite et la requête originale lors de la réécriture, les méthodes traditionnelles de réécriture de requêtes suivent toujours certaines règles de réécriture. Cependant, certains problèmes persistent. Premièrement, les méthodes existantes pour trouver le choix ou la séquence optimale de règles de réécriture sont encore limitées, et le processus consomme souvent beaucoup de ressources. Les méthodes impliquant la découverte de nouvelles règles de réécriture nécessitent généralement des preuves complexes de logique structurelle ou des interactions utilisateur approfondies. Deuxièmement, les méthodes actuelles de réécriture de requêtes reposent fortement sur les estimateurs de coût des systèmes de gestion de bases de données (SGBD), qui sont souvent imprécis. Dans cet article, nous abordons ces problèmes en proposant une nouvelle méthode de réécriture de requêtes nommée LLM-R2, qui utilise un modèle de langage de grande taille (LLM) pour suggérer des règles de réécriture possibles à un système de réécriture de bases de données. Pour améliorer davantage la capacité d'inférence du LLM dans la recommandation de règles de réécriture, nous entraînons un modèle contrastif par curriculum afin d'apprendre les représentations de requêtes et de sélectionner des démonstrations de requêtes efficaces pour le LLM. Les résultats expérimentaux montrent que notre méthode peut significativement améliorer l'efficacité d'exécution des requêtes et surpasse les méthodes de référence. De plus, notre méthode présente une robustesse élevée sur différents jeux de données.
Le 3D Gaussian Splatting a récemment été adopté comme une méthode polyvalente et efficace pour la reconstruction de scènes et la synthèse de nouvelles vues, grâce à ses résultats de haute qualité et sa compatibilité avec le rasterisation matérielle. Malgré ses avantages, la dépendance du Gaussian Splatting à une initialisation de nuage de points de haute qualité par des algorithmes de Structure-from-Motion (SFM) constitue une limitation importante à surmonter. À cette fin, nous explorons diverses stratégies d'initialisation pour le Gaussian Splatting et examinons comment les reconstructions volumétriques issues des Neural Radiance Fields (NeRF) peuvent être utilisées pour contourner la dépendance aux données SFM. Nos résultats démontrent qu'une initialisation aléatoire peut être bien plus performante si elle est soigneusement conçue, et qu'en combinant des stratégies d'initialisation améliorées avec une distillation de structure à partir de modèles NeRF à faible coût, il est possible d'obtenir des résultats équivalents, voire parfois supérieurs, à ceux obtenus avec une initialisation SFM.
Récemment, plusieurs techniques de réparation automatique de programmes (APR) basées sur les grands modèles de langage (LLM) ont été proposées pour améliorer les performances de réparation. Bien que ces techniques se concentrent principalement sur la réparation au niveau d'une seule ligne ou d'un bloc de code, elles rencontrent des défis importants dans les applications réelles en raison de la portée limitée des tâches de réparation et de la localisation coûteuse des fautes au niveau des instructions. Cependant, l'APR au niveau des fonctions, plus pratique, qui élargit la portée des tâches de réparation pour corriger des fonctions entières et ne nécessite qu'une localisation des fautes au niveau des fonctions peu coûteuse, reste peu explorée. Dans cet article, nous menons la première étude exhaustive de l'APR au niveau des fonctions basée sur les LLM, en examinant notamment l'effet du mécanisme d'apprentissage en few-shot et des informations auxiliaires pertinentes pour la réparation. Plus précisément, nous adoptons six LLM largement étudiés et construisons un benchmark sur les ensembles de données Defects4J 1.2 et 2.0. Notre étude démontre que les LLM avec apprentissage en zero-shot sont déjà des techniques puissantes pour l'APR au niveau des fonctions, tandis que l'application du mécanisme d'apprentissage en few-shot conduit à des performances de réparation disparates. De plus, nous constatons que l'application directe des informations auxiliaires pertinentes pour la réparation aux LLM augmente significativement les performances de réparation au niveau des fonctions. Inspirés par nos résultats, nous proposons une technique d'APR au niveau des fonctions basée sur les LLM, nommée SRepair, qui adopte un cadre à double LLM pour exploiter la puissance des informations auxiliaires pertinentes pour la réparation afin d'améliorer les performances de réparation. Les résultats d'évaluation montrent que SRepair peut corriger correctement 300 bogues de fonctions uniques dans l'ensemble de données Defects4J, surpassant largement toutes les techniques APR précédentes d'au moins 85 %, sans nécessiter d'informations coûteuses sur la localisation des fautes au niveau des instructions. En outre, SRepair corrige avec succès 32 bogues multi-fonctions dans l'ensemble de données Defects4J, ce qui constitue une première pour toute technique APR à notre connaissance.