Articles de recherche en IA sélectionnés quotidiennement avec traductions
Une meilleure compréhension des capacités d'analyse juridique des modèles de langage de grande taille (LLMs) peut contribuer à améliorer l'efficacité des services juridiques, à encadrer l'intelligence artificielle, et à exploiter les LLMs pour identifier les incohérences dans la loi. Cet article explore les capacités des LLMs dans l'application du droit fiscal. Nous avons choisi ce domaine du droit car il possède une structure qui permet de mettre en place des pipelines de validation automatisés sur des milliers d'exemples, nécessite un raisonnement logique et des compétences en mathématiques, et nous permet de tester les capacités des LLMs d'une manière pertinente pour la vie économique réelle des citoyens et des entreprises. Nos expériences démontrent des capacités émergentes de compréhension juridique, avec une amélioration des performances à chaque nouvelle version des modèles OpenAI. Nous expérimentons la récupération et l'utilisation de l'autorité juridique pertinente pour évaluer l'impact de fournir un contexte juridique supplémentaire aux LLMs. Le prompting en few-shot, qui consiste à présenter des exemples de paires question-réponse, s'avère également significativement améliorer les performances du modèle le plus avancé, GPT-4. Les résultats indiquent que les LLMs, en particulier lorsqu'ils sont combinés avec des améliorations de prompting et les textes juridiques appropriés, peuvent atteindre des niveaux de précision élevés, mais pas encore au niveau d'un expert fiscaliste. À mesure que les LLMs continuent de progresser, leur capacité à raisonner de manière autonome sur le droit pourrait avoir des implications significatives pour la profession juridique et la gouvernance de l'IA.
Les modèles de diffusion ont démontré un excellent potentiel pour générer des images diversifiées. Cependant, leurs performances souffrent souvent d'une génération lente en raison du processus itératif de débruitage. La distillation de connaissances a récemment été proposée comme une solution permettant de réduire le nombre d'étapes d'inférence à une ou quelques-unes sans dégradation significative de la qualité. Cependant, les méthodes de distillation existantes nécessitent soit des calculs hors ligne importants pour générer des données d'entraînement synthétiques à partir du modèle enseignant, soit un apprentissage en ligne coûteux avec l'aide de données réelles. Dans ce travail, nous présentons une technique novatrice appelée BOOT, qui surmonte ces limitations grâce à un algorithme de distillation efficace sans données. L'idée centrale est d'apprendre un modèle conditionné par le temps qui prédit la sortie d'un modèle de diffusion pré-entraîné (le modèle enseignant) pour n'importe quel pas de temps. Un tel modèle peut être entraîné efficacement en s'appuyant sur un bootstrap à partir de deux pas d'échantillonnage consécutifs. De plus, notre méthode peut être facilement adaptée aux modèles de diffusion texte-à-image à grande échelle, qui posent des défis aux méthodes conventionnelles étant donné que les ensembles d'entraînement sont souvent volumineux et difficiles d'accès. Nous démontrons l'efficacité de notre approche sur plusieurs ensembles de données de référence dans le cadre DDIM, atteignant une qualité de génération comparable tout en étant des ordres de grandeur plus rapide que le modèle de diffusion enseignant. Les résultats texte-à-image montrent que l'approche proposée est capable de gérer des distributions hautement complexes, ouvrant la voie à une modélisation générative plus efficace.
Qu'est-ce qui constitue l'« ambiance » d'une scène particulière ? Que devrait-on trouver dans « une rue de ville animée et sale », « une campagne idyllique » ou « une scène de crime dans un salon abandonné » ? La traduction de descriptions de scènes abstraites en éléments de scène stylisés ne peut être réalisée avec généralité par les systèmes existants, entraînés sur des ensembles de données intérieures rigides et limités. Dans cet article, nous proposons d'exploiter les connaissances capturées par les modèles de fondation pour accomplir cette traduction. Nous présentons un système qui peut servir d'outil pour générer des éléments stylisés pour des scènes 3D décrites par une courte phrase, sans avoir besoin d'énumérer les objets à trouver dans la scène ou de donner des instructions sur leur apparence. De plus, il est robuste aux concepts du monde ouvert d'une manière que les méthodes traditionnelles entraînées sur des données limitées ne sont pas, offrant ainsi plus de liberté créative à l'artiste 3D. Notre système démontre cela en utilisant une « équipe » de modèles de fondation composée d'un grand modèle de langage, d'un modèle vision-langage et de plusieurs modèles de diffusion d'images, qui communiquent en utilisant une représentation intermédiaire interprétable et modifiable par l'utilisateur, permettant ainsi une génération d'éléments stylisés plus polyvalente et contrôlable pour les artistes 3D. Nous introduisons de nouvelles métriques pour cette tâche, et montrons à travers des évaluations humaines que dans 91 % des cas, les sorties de notre système sont jugées plus fidèles à la sémantique de la description de la scène d'entrée que la base de référence, mettant ainsi en évidence le potentiel de cette approche pour accélérer radicalement le processus de création de contenu 3D pour les artistes 3D.
Les systèmes d'IA générative couvrant diverses modalités, telles que le texte, l'image, l'audio et la vidéo, ont des impacts sociaux étendus, mais il n'existe aucune norme officielle pour évaluer ces impacts ni pour déterminer lesquels devraient être évalués. Nous proposons une approche standardisée pour évaluer un système d'IA générative, quelle que soit sa modalité, en deux catégories principales : ce qui peut être évalué dans un système de base sans application prédéfinie et ce qui peut être évalué dans la société. Nous décrivons des catégories spécifiques d'impacts sociaux et comment aborder et mener des évaluations dans le système technique de base, puis dans les individus et la société. Notre cadre pour un système de base définit sept catégories d'impacts sociaux : les biais, les stéréotypes et les préjudices représentationnels ; les valeurs culturelles et les contenus sensibles ; les performances disparates ; la protection de la vie privée et des données ; les coûts financiers ; les coûts environnementaux ; et les coûts liés à la modération des données et des contenus. Les méthodes suggérées pour l'évaluation s'appliquent à toutes les modalités, et les analyses des limites des évaluations existantes servent de point de départ pour les investissements nécessaires dans les évaluations futures. Nous proposons cinq catégories principales pour ce qui peut être évalué dans la société, chacune avec ses propres sous-catégories : la fiabilité et l'autonomie ; les inégalités, la marginalisation et la violence ; la concentration de l'autorité ; le travail et la créativité ; et l'écosystème et l'environnement. Chaque sous-catégorie inclut des recommandations pour atténuer les préjudices. Nous élaborons simultanément un référentiel d'évaluation pour que la communauté de recherche en IA puisse contribuer avec des évaluations existantes selon les catégories données. Cette version sera mise à jour suite à une session CRAFT lors de la conférence ACM FAccT 2023.
L'objectif de cet article est la détection d'objets à vocabulaire ouvert (OVOD) – la construction d'un modèle capable de détecter des objets au-delà des catégories observées lors de l'entraînement, permettant ainsi à l'utilisateur de spécifier des catégories d'intérêt lors de l'inférence sans nécessiter de réentraînement du modèle. Nous adoptons une architecture standard de détecteur d'objets en deux étapes et explorons trois méthodes pour spécifier de nouvelles catégories : via des descriptions textuelles, via des exemples d'images, ou via une combinaison des deux. Nous apportons trois contributions : premièrement, nous utilisons un modèle de langage de grande taille (LLM) pour générer des descriptions textuelles informatives pour les classes d'objets, et construisons des classificateurs textuels puissants ; deuxièmement, nous employons un agrégateur visuel sur des exemples d'images qui peut ingérer un nombre quelconque d'images en entrée, formant ainsi des classificateurs basés sur la vision ; et troisièmement, nous proposons une méthode simple pour fusionner les informations provenant des descriptions textuelles et des exemples d'images, produisant un classificateur multimodal. Lors de l'évaluation sur le benchmark exigeant LVIS pour la détection à vocabulaire ouvert, nous démontrons que : (i) nos classificateurs textuels surpassent tous les travaux précédents en OVOD ; (ii) nos classificateurs basés sur la vision performent aussi bien que les classificateurs textuels des travaux antérieurs ; (iii) l'utilisation de classificateurs multimodaux donne de meilleurs résultats que l'utilisation d'une seule modalité ; et enfin, (iv) nos classificateurs textuels et multimodaux offrent de meilleures performances qu'un détecteur entièrement supervisé.
Les opérations d'édition couramment effectuées par les photographes professionnels incluent les tâches de nettoyage : atténuer les éléments distrayants et mettre en valeur les sujets. Ces modifications sont complexes, nécessitant un équilibre délicat entre la manipulation de l'attention du spectateur et le maintien du réalisme de la photo. Bien que les approches récentes puissent se vanter d'exemples réussis d'atténuation ou d'amplification de l'attention, la plupart d'entre elles souffrent également de modifications fréquentes et irréalistes. Nous proposons une fonction de perte de réalisme pour l'amélioration d'images guidée par la saillance, afin de maintenir un haut niveau de réalisme pour différents types d'images, tout en atténuant les distracteurs et en amplifiant les objets d'intérêt. Les évaluations menées avec des photographes professionnels confirment que nous atteignons le double objectif de réalisme et d'efficacité, et surpassons les approches récentes sur leurs propres jeux de données, tout en nécessitant une empreinte mémoire et un temps d'exécution réduits. Nous offrons ainsi une solution viable pour automatiser les opérations d'amélioration d'images et de nettoyage de photos.
Les champs de radiance neuronaux (NeRF) ont démontré des résultats impressionnants en synthèse de nouvelles vues ; néanmoins, même des enregistrements approfondis présentent des imperfections dans les reconstructions, par exemple en raison de zones mal observées ou de légers changements d'éclairage. Notre objectif est d'atténuer ces imperfections provenant de diverses sources grâce à une solution conjointe : nous exploitons la capacité des réseaux antagonistes génératifs (GAN) à produire des images réalistes et les utilisons pour améliorer le réalisme dans la reconstruction de scènes 3D avec les NeRF. Pour ce faire, nous apprenons la distribution par patchs d'une scène à l'aide d'un discriminateur antagoniste, qui fournit un retour d'information à la reconstruction du champ de radiance, améliorant ainsi le réalisme de manière cohérente en 3D. Ainsi, les artefacts de rendu sont corrigés directement dans la représentation 3D sous-jacente en imposant des contraintes de rendu de chemin multi-vues. De plus, nous conditionnons un générateur avec des rendus NeRF à multi-résolution, qui est entraîné de manière antagoniste pour améliorer davantage la qualité du rendu. Nous démontrons que notre approche améliore significativement la qualité du rendu, par exemple en réduisant presque de moitié les scores LPIPS par rapport à Nerfacto tout en améliorant le PSNR de 1,4 dB sur les scènes intérieures avancées de Tanks and Temples.