Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous présentons SaulLM-54B et SaulLM-141B, deux grands modèles de langage (LLM) spécialement conçus pour le secteur juridique. Ces modèles, dotés respectivement d'architectures de 54 milliards et 141 milliards de paramètres, sont basés sur l'architecture Mixtral. Le développement de SaulLM-54B et SaulLM-141B est guidé par une adaptation à grande échelle au domaine, divisée en trois stratégies : (1) l'exploitation d'un pré-entraînement continu impliquant un corpus de base comprenant plus de 540 milliards de tokens juridiques, (2) la mise en œuvre d'un protocole spécialisé de suivi d'instructions juridiques, et (3) l'alignement des sorties du modèle avec les préférences humaines dans les interprétations juridiques. L'intégration de données synthétiquement générées dans les deuxième et troisième étapes améliore les capacités des modèles à interpréter et traiter les textes juridiques, atteignant ainsi des performances de pointe et surpassant les modèles open-source précédents sur LegalBench-Instruct. Ce travail explore les compromis impliqués dans l'adaptation spécifique à un domaine à cette échelle, offrant des insights qui pourraient éclairer les études futures sur l'adaptation de domaine utilisant des modèles décodeurs puissants. S'appuyant sur SaulLM-7B, cette étude affine l'approche pour produire un LLM mieux adapté aux tâches juridiques. Nous publions les versions de base, d'instruction et alignées de SaulLM-54B et SaulLM-141B sous licence MIT pour faciliter la réutilisation et la recherche collaborative.
Le trouble dépressif majeur (TDM) est une affection mentale répandue qui touche 300 millions de personnes dans le monde. Ce travail présente une architecture novatrice de fusion au niveau modèle, basée sur un BiLSTM, pour la classification binaire de la dépression à partir d'enregistrements d'entretiens cliniques. L'architecture proposée intègre les coefficients cepstraux sur la fréquence de Mel, les unités d'action faciale, et utilise un modèle GPT-4 basé sur l'apprentissage en deux étapes pour traiter les données textuelles. Il s'agit de la première étude à intégrer des modèles de langage de grande envergure dans une architecture multimodale pour cette tâche. Elle obtient des résultats impressionnants sur les partitions de validation croisée du défi DAIC-WOZ AVEC 2016 et de validation croisée Leave-One-Subject-Out, surpassant tous les modèles de référence ainsi que plusieurs modèles de pointe. Dans les tests Leave-One-Subject-Out, elle atteint une précision de 91,01 %, un score F1 de 85,95 %, une précision de 80 % et un rappel de 92,86 %.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans diverses tâches, mais leur développement s'est principalement concentré sur les langues à ressources élevées comme l'anglais et le chinois, laissant les langues à ressources limitées sous-représentées. Pour remédier à cette disparité, nous présentons SeaLLMs 3, la dernière itération de la famille de modèles SeaLLMs, conçue spécifiquement pour les langues d'Asie du Sud-Est. Cette région, caractérisée par une riche diversité linguistique, a longtemps manqué de soutien technologique adéquat en matière de langues. SeaLLMs 3 vise à combler cette lacune en couvrant un large éventail de langues parlées dans cette région, notamment l'anglais, le chinois, l'indonésien, le vietnamien, le thaï, le tagalog, le malais, le birman, le khmer, le lao, le tamoul et le javanais. En exploitant des techniques efficaces d'amélioration linguistique et un ensemble de données spécialement construit pour l'ajustement des instructions, SeaLLMs 3 réduit considérablement les coûts de formation tout en maintenant des performances élevées et une grande polyvalence. Notre modèle excelle dans des tâches telles que la connaissance du monde, le raisonnement mathématique, la traduction et le suivi des instructions, atteignant des performances de pointe parmi les modèles de taille similaire. De plus, nous avons accordé une priorité à la sécurité et à la fiabilité en abordant à la fois les considérations générales et spécifiques à la culture, et en intégrant des mécanismes pour réduire les hallucinations. Ce travail souligne l'importance d'une IA inclusive, montrant que les capacités avancées des LLMs peuvent bénéficier aux communautés linguistiques et culturelles sous-représentées.
Les modèles de diffusion vidéo ont réalisé des progrès substantiels dans diverses applications de génération vidéo. Cependant, l'entraînement de modèles pour des tâches de génération de vidéos longues nécessite des ressources computationnelles et des données importantes, ce qui pose un défi au développement de modèles de diffusion pour vidéos longues. Cet article explore une approche simple et sans entraînement pour étendre un modèle de diffusion vidéo courte existant (par exemple, pré-entraîné sur des vidéos de 16 images) à la génération cohérente de vidéos longues (par exemple, 128 images). Notre observation préliminaire a révélé qu'appliquer directement le modèle de diffusion vidéo courte pour générer des vidéos longues peut entraîner une dégradation sévère de la qualité vidéo. Une investigation plus approfondie montre que cette dégradation est principalement due à la distorsion des composantes haute fréquence dans les vidéos longues, caractérisée par une diminution des composantes haute fréquence spatiales et une augmentation des composantes haute fréquence temporelles. Motivés par cela, nous proposons une solution novatrice nommée FreeLong pour équilibrer la distribution de fréquence des caractéristiques des vidéos longues pendant le processus de débruîtage. FreeLong mélange les composantes basse fréquence des caractéristiques vidéo globales, qui encapsulent la séquence vidéo entière, avec les composantes haute fréquence des caractéristiques vidéo locales qui se concentrent sur des sous-séquences plus courtes d'images. Cette approche maintient une cohérence globale tout en incorporant des détails spatio-temporels diversifiés et de haute qualité provenant de vidéos locales, améliorant à la fois la cohérence et la fidélité de la génération de vidéos longues. Nous avons évalué FreeLong sur plusieurs modèles de base de diffusion vidéo et observé des améliorations significatives. De plus, notre méthode prend en charge la génération cohérente multi-prompt, assurant à la fois une cohérence visuelle et des transitions fluides entre les scènes.
L'apprentissage de politiques robotiques basé sur la vision, qui associe des entrées visuelles à des actions, nécessite une compréhension globale de diverses tâches visuelles, allant au-delà des besoins spécifiques comme la classification ou la segmentation. Inspirés par cela, nous présentons Theia, un modèle de fondation visuel pour l'apprentissage robotique, qui distille plusieurs modèles de fondation visuels préexistants entraînés sur des tâches visuelles variées. Les représentations visuelles riches de Theia encodent une connaissance visuelle diversifiée, améliorant ainsi l'apprentissage robotique en aval. Des expériences approfondies démontrent que Theia surpasse ses modèles enseignants et les modèles d'apprentissage robotique antérieurs, tout en utilisant moins de données d'entraînement et des tailles de modèle réduites. De plus, nous quantifions la qualité des représentations visuelles pré-entraînées et émettons l'hypothèse qu'une entropie plus élevée dans les distributions de normes de caractéristiques conduit à une meilleure performance d'apprentissage robotique. Le code et les modèles sont disponibles à l'adresse https://github.com/bdaiinstitute/theia.
La recherche et l'intégration d'informations constituent une tâche cognitive complexe qui consomme un temps et un effort considérables. Inspirés par les progrès remarquables des modèles de langage de grande taille (LLM), des travaux récents tentent de résoudre cette tâche en combinant les LLM et les moteurs de recherche. Cependant, ces méthodes obtiennent encore des performances insatisfaisantes en raison de trois défis : (1) les requêtes complexes ne peuvent souvent pas être récupérées de manière précise et complète par le moteur de recherche en une seule fois, (2) les informations correspondantes à intégrer sont dispersées sur plusieurs pages web avec un bruit massif, et (3) un grand nombre de pages web avec des contenus longs peuvent rapidement dépasser la longueur maximale de contexte des LLM. Inspirés par le processus cognitif humain pour résoudre ces problèmes, nous introduisons MindSearch pour imiter l'esprit humain dans la recherche et l'intégration d'informations sur le web, qui peut être instancié par un cadre multi-agent simple mais efficace basé sur les LLM. Le WebPlanner modélise l'esprit humain de recherche d'informations en plusieurs étapes comme un processus de construction de graphe dynamique : il décompose la requête de l'utilisateur en sous-questions atomiques comme des nœuds dans le graphe et étend progressivement le graphe en fonction des résultats de recherche du WebSearcher. Chargé de chaque sous-question, le WebSearcher effectue une récupération hiérarchique d'informations avec les moteurs de recherche et collecte des informations précieuses pour le WebPlanner. La conception multi-agent de MindSearch permet à l'ensemble du cadre de rechercher et d'intégrer des informations en parallèle à partir d'un plus grand nombre de pages web (par exemple, plus de 300) en 3 minutes, ce qui équivaut à 3 heures d'effort humain. MindSearch démontre une amélioration significative de la qualité des réponses en termes de profondeur et de largeur, sur des problèmes de questions-réponses (QA) à ensemble fermé et ouvert. De plus, les réponses de MindSearch basées sur InternLM2.5-7B sont préférées par les humains à celles des applications ChatGPT-Web et Perplexity.ai, ce qui implique que MindSearch peut déjà offrir une solution compétitive face aux moteurs de recherche IA propriétaires.
Les récents progrès des grands modèles de langage (LLMs) ont accru la demande pour des benchmarks complets afin d'évaluer leurs capacités en tant qu'agents humanoïdes. Les benchmarks existants, bien qu'utiles, se concentrent souvent sur des scénarios d'application spécifiques, mettant l'accent sur l'accomplissement de tâches mais échouant à disséquer les compétences sous-jacentes qui conduisent à ces résultats. Ce manque de granularité rend difficile l'identification précise des sources d'échecs. De plus, la mise en place de ces environnements nécessite un effort considérable, et des problèmes de fiabilité et de reproductibilité surviennent parfois, en particulier dans les tâches interactives. Pour répondre à ces limitations, nous introduisons le benchmark Massive Multitask Agent Understanding (MMAU), qui propose des tâches hors ligne complètes, éliminant ainsi le besoin de configurations d'environnement complexes. Il évalue les modèles à travers cinq domaines, incluant l'utilisation d'outils, les questions-réponses sur graphes acycliques dirigés (DAG), le codage en science des données et apprentissage automatique, la programmation de niveau concours et les mathématiques, et couvre cinq capacités essentielles : la compréhension, le raisonnement, la planification, la résolution de problèmes et l'auto-correction. Avec un total de 20 tâches méticuleusement conçues englobant plus de 3 000 prompts distincts, MMAU offre un cadre complet pour évaluer les forces et les limites des agents LLM. En testant 18 modèles représentatifs sur MMAU, nous fournissons des analyses approfondies et perspicaces. En fin de compte, MMAU non seulement éclaire les capacités et les limites des agents LLM, mais améliore également l'interprétabilité de leurs performances. Les jeux de données et les scripts d'évaluation de MMAU sont disponibles à l'adresse https://github.com/apple/axlearn/docs/research/mmau.
Le pré-entraînement contrastif langue-image (CLIP), qui excelle dans l'abstraction de représentations du monde ouvert à travers les domaines et les modalités, est devenu une base pour une variété de tâches visuelles et multimodales. Cependant, des études récentes révèlent que CLIP présente de graves lacunes visuelles, telles que la difficulté à distinguer l'orientation, la quantité, la couleur, la structure, etc. Ces lacunes visuelles limitent également les capacités de perception des modèles de langage multimodaux de grande taille (MLLMs) construits sur CLIP. La raison principale pourrait être que les paires image-texte utilisées pour entraîner CLIP sont intrinsèquement biaisées, en raison du manque de distinctivité du texte et de la diversité des images. Dans ce travail, nous présentons une approche simple de post-entraînement pour les modèles CLIP, qui surmonte largement ses lacunes visuelles via un processus de diffusion auto-supervisé. Nous introduisons DIVA, qui utilise le modèle de DIffusion comme Assistant Visuel pour CLIP. Plus précisément, DIVA exploite les retours génératifs des modèles de diffusion texte-image pour optimiser les représentations de CLIP, en utilisant uniquement des images (sans texte correspondant). Nous démontrons que DIVA améliore les performances de CLIP sur le benchmark MMVP-VLM, qui évalue de manière significative les capacités visuelles fines (par exemple, 3-7 %), et améliore les performances des MLLMs et des modèles visuels sur les tâches de compréhension multimodale et de segmentation. Une évaluation approfondie sur 29 benchmarks de classification et de recherche d'images confirme que notre framework préserve les solides capacités zero-shot de CLIP. Le code sera disponible à l'adresse https://github.com/baaivision/DIVA.
Le support visuel (images et vidéos) contient naturellement une grande quantité de redondance d'information, offrant ainsi une excellente opportunité pour optimiser l'efficacité du traitement. Bien que les modèles basés sur les Vision Transformers (ViT) s'adaptent efficacement à des régimes de données volumineux, ils ne parviennent pas à exploiter cette redondance inhérente, ce qui entraîne des coûts de calcul plus élevés. Les réseaux Mixture of Experts (MoE) démontrent une bonne scalabilité tout en maintenant des coûts d'inférence constants, mais ils nécessitent un nombre de paramètres plus important. Nous présentons Mixture of Nested Experts (MoNE), qui utilise une structure imbriquée pour les experts, où chaque expert se situe sur une courbe croissante de précision en fonction du calcul. Pour un budget de calcul donné, MoNE apprend à sélectionner dynamiquement les tokens par ordre de priorité, permettant ainsi aux tokens redondants d'être traités par des experts imbriqués moins coûteux. Grâce à ce cadre, nous obtenons des performances équivalentes aux modèles de référence, tout en réduisant le temps de calcul d'inférence de plus de moitié. Nous validons notre approche sur des ensembles de données standards pour les images et les vidéos - ImageNet-21K, Kinetics400 et Something-Something-v2. Nous mettons également en avant l'adaptabilité de MoNE en démontrant sa capacité à maintenir de solides performances pour différents budgets de calcul d'inférence sur les vidéos, en utilisant un seul modèle entraîné.
L'entraînement efficace de modèles de langage (LMs) pour des tâches de raisonnement mathématique nécessite des données de fine-tuning supervisé de haute qualité. Outre l'obtention d'annotations provenant d'experts humains, une alternative courante consiste à échantillonner à partir de LMs plus grands et plus puissants. Cependant, cette approche de distillation des connaissances peut être coûteuse et instable, en particulier lorsqu'elle repose sur des LMs propriétaires et fermés comme GPT-4, dont les comportements sont souvent imprévisibles. Dans ce travail, nous démontrons que les capacités de raisonnement des LMs à petite échelle peuvent être améliorées grâce à l'auto-apprentissage, un processus où les modèles apprennent à partir de leurs propres sorties. Nous montrons également que l'auto-apprentissage conventionnel peut être renforcé par un algorithme d'apprentissage par préférences appelé Direct Preference Optimization (DPO). En intégrant DPO dans l'auto-apprentissage, nous exploitons des données de préférences pour guider les LMs vers un raisonnement en chaîne de pensées plus précis et diversifié. Nous évaluons notre méthode sur diverses tâches de raisonnement mathématique en utilisant différents modèles de base. Nos expériences montrent que cette approche améliore non seulement les performances de raisonnement des LMs, mais offre également une solution plus économique et scalable par rapport à l'utilisation de grands LMs propriétaires.
Les modèles récents de reconstruction 3D à grande échelle utilisent généralement un processus en deux étapes, consistant d'abord à générer des images multi-vues via un modèle de diffusion multi-vues, puis à reconstruire ces images en contenu 3D à l'aide d'un modèle feed-forward. Cependant, les modèles de diffusion multi-vues produisent souvent des images de faible qualité et incohérentes, ce qui affecte négativement la qualité de la reconstruction 3D finale. Pour résoudre ce problème, nous proposons un cadre unifié de génération 3D appelé Cycle3D, qui utilise de manière cyclique un module de génération basé sur la diffusion 2D et un module de reconstruction 3D feed-forward pendant le processus de diffusion multi-étapes. Concrètement, le modèle de diffusion 2D est appliqué pour générer des textures de haute qualité, tandis que le modèle de reconstruction garantit la cohérence multi-vues. De plus, le modèle de diffusion 2D peut contrôler davantage le contenu généré et injecter des informations de vue de référence pour des vues non visibles, améliorant ainsi la diversité et la cohérence des textures lors du processus de débruîtage. Des expériences approfondies démontrent la capacité supérieure de notre méthode à créer du contenu 3D de haute qualité et cohérent par rapport aux meilleures méthodes de référence.
Imaginez observer quelqu'un se gratter le bras ; pour comprendre pourquoi, un contexte supplémentaire serait nécessaire. Cependant, repérer un moustique à proximité offrirait immédiatement une explication plausible à l'inconfort de la personne, réduisant ainsi le besoin d'informations supplémentaires. Cet exemple illustre comment des indices visuels subtils peuvent mettre à l'épreuve nos compétences cognitives et démontre la complexité de l'interprétation des scénarios visuels. Pour étudier ces compétences, nous présentons Visual Riddles, un benchmark conçu pour tester les modèles de vision et de langage sur des énigmes visuelles nécessitant du bon sens et des connaissances générales. Le benchmark comprend 400 énigmes visuelles, chacune accompagnée d'une image unique générée par divers modèles de texte à image, d'une question, d'une réponse de référence, d'un indice textuel et d'une attribution. L'évaluation humaine révèle que les modèles existants sont nettement en retard par rapport à la performance humaine, qui atteint 82 % de précision, avec Gemini-Pro-1.5 en tête avec 40 % de précision. Notre benchmark est accompagné de tâches d'évaluation automatique pour rendre l'évaluation scalable. Ces résultats soulignent le potentiel de Visual Riddles en tant que ressource précieuse pour améliorer les capacités des modèles de vision et de langage à interpréter des scénarios visuels complexes.
Le question-réponse multimodal en 3D (MQA) joue un rôle crucial dans la compréhension des scènes en permettant aux agents intelligents de comprendre leur environnement dans des contextes tridimensionnels. Bien que les recherches existantes se soient principalement concentrées sur les tâches domestiques en intérieur et les tâches de conduite autonome en extérieur, l'exploration des tâches de compréhension des scènes à l'échelle d'une ville reste limitée. De plus, les recherches actuelles rencontrent des difficultés dans la compréhension des scènes urbaines, en raison de l'absence d'informations sémantiques spatiales et d'informations sur les interactions humain-environnement à l'échelle de la ville. Pour relever ces défis, nous étudions le MQA 3D à la fois du point de vue des données et des méthodes. Du point de vue des données, nous introduisons un nouveau jeu de données MQA 3D nommé City-3DQA pour la compréhension des scènes à l'échelle de la ville, qui est le premier à intégrer des tâches sémantiques de scène et des tâches d'interaction humain-environnement dans un contexte urbain. Du point de vue des méthodes, nous proposons une méthode de compréhension urbaine améliorée par graphe de scène (Sg-CityU), qui utilise le graphe de scène pour introduire la sémantique spatiale. Un nouveau benchmark est rapporté, et notre méthode Sg-CityU atteint une précision de 63,94 % et 63,76 % dans différentes configurations de City-3DQA. Comparée aux méthodes MQA 3D en intérieur et à l'utilisation en zero-shot de modèles de langage avancés (LLMs), Sg-CityU démontre des performances de pointe (SOTA) en termes de robustesse et de généralisation.
L'arabe classique représente une ère significative, englobant l'âge d'or de la culture, de la philosophie et de la littérature scientifique arabes. Avec un large consensus sur l'importance de traduire ces œuvres pour enrichir la diffusion des connaissances à travers les communautés, l'avènement des grands modèles de langage (LLMs) et des systèmes de traduction offre des outils prometteurs pour faciliter cet objectif. Cependant, nous avons identifié une pénurie de jeux de données de traduction en arabe classique, souvent limités en portée et en sujets, ce qui entrave le développement de systèmes de traduction de haute qualité. En réponse, nous présentons le jeu de données ATHAR, comprenant 66 000 échantillons de traduction de haute qualité de l'arabe classique vers l'anglais, couvrant un large éventail de sujets incluant la science, la culture et la philosophie. De plus, nous évaluons les performances des LLMs actuels de pointe dans divers contextes, concluant qu'il existe un besoin pour de tels jeux de données dans les systèmes actuels. Nos résultats mettent en évidence comment les modèles peuvent bénéficier d'un ajustement fin ou de l'intégration de ce jeu de données dans leurs pipelines de pré-entraînement. Le jeu de données est disponible publiquement sur le HuggingFace Data Hub à l'adresse suivante : https://huggingface.co/datasets/mohamed-khalil/ATHAR.
Les grands modèles de langage (LLMs) surpassent rapidement les connaissances humaines dans de nombreux domaines. Alors que l'amélioration de ces modèles repose traditionnellement sur des données humaines coûteuses, des mécanismes d'auto-récompense récents (Yuan et al., 2024) ont montré que les LLMs peuvent s'améliorer en évaluant leurs propres réponses plutôt qu'en dépendant d'annotateurs humains. Cependant, les méthodes existantes se sont principalement concentrées sur l'amélioration des réponses du modèle plutôt que sur ses capacités de jugement, entraînant une saturation rapide lors de l'entraînement itératif. Pour résoudre ce problème, nous introduisons une nouvelle étape de Méta-Récompense dans le processus d'auto-amélioration, où le modèle évalue ses propres jugements et utilise ce retour pour affiner ses compétences d'évaluation. Étonnamment, cette approche non supervisée améliore la capacité du modèle à juger {\em et} à suivre les instructions, comme en témoigne une augmentation du taux de victoire de Llama-3-8B-Instruct de 22,9 % à 39,4 % sur AlpacaEval 2, et de 20,6 % à 29,1 % sur Arena-Hard. Ces résultats suggèrent fortement le potentiel des modèles auto-améliorants sans supervision humaine.
Les modèles génératifs, tels que les modèles de diffusion (DMs), les autoencodeurs variationnels (VAEs) et les réseaux antagonistes génératifs (GANs), produisent des images d'un niveau de réalisme qui les rend presque indiscernables des photos et œuvres d'art réelles. Bien que cette capacité soit bénéfique pour de nombreuses industries, la difficulté à identifier les images synthétiques expose les plateformes de médias en ligne à des tentatives d'usurpation et de désinformation. Pour soutenir le développement de méthodes défensives, nous présentons ImagiNet, un jeu de données haute résolution et équilibré pour la détection d'images synthétiques, conçu pour atténuer les biais potentiels des ressources existantes. Il contient 200 000 exemples, répartis en quatre catégories de contenu : photos, peintures, visages et non catégorisés. Les images synthétiques sont produites à l'aide de générateurs open-source et propriétaires, tandis que les images réelles correspondantes sont collectées à partir de jeux de données publics. La structure d'ImagiNet permet un système d'évaluation à deux volets : i) classification en tant que réel ou synthétique et ii) identification du modèle génératif. Pour établir une référence, nous entraînons un modèle ResNet-50 en utilisant un objectif contrastif auto-supervisé (SelfCon) pour chaque volet. Le modèle démontre des performances de pointe et une vitesse d'inférence élevée sur des benchmarks établis, atteignant une AUC allant jusqu'à 0,99 et une précision équilibrée comprise entre 86 % et 95 %, même dans des conditions de réseaux sociaux impliquant compression et redimensionnement. Nos données et code sont disponibles à l'adresse https://github.com/delyan-boychev/imaginet.
L'analyse de sentiments est un domaine largement étudié dans le traitement du langage naturel (NLP), suscitant un intérêt considérable en raison de l'émergence de solutions automatisées. Malgré cela, la tâche reste complexe en raison de la nature intrinsèquement complexe des langues et de la subjectivité des sentiments. Elle est encore plus difficile pour les langues moins étudiées et moins dotées en ressources, comme le lituanien. Notre revue des recherches existantes en NLP pour le lituanien révèle que les méthodes traditionnelles d'apprentissage automatique et les algorithmes de classification ont une efficacité limitée pour cette tâche. Dans ce travail, nous abordons l'analyse de sentiments des avis en ligne basés sur cinq étoiles en lituanien provenant de multiples domaines que nous collectons et nettoyons. Nous appliquons pour la première fois des modèles de type transformer à cette tâche, en explorant les capacités des grands modèles de langage multilingues (LLMs) pré-entraînés, en nous concentrant spécifiquement sur le fine-tuning des modèles BERT et T5. Compte tenu de la difficulté inhérente de la tâche, les modèles fine-tunés performent plutôt bien, en particulier lorsque les sentiments eux-mêmes sont moins ambigus : 80,74 % et 89,61 % de précision de reconnaissance en test pour les avis les plus populaires à une et cinq étoiles respectivement. Ils surpassent significativement le LLM polyvalent GPT-4, actuellement considéré comme l'état de l'art commercial. Nous partageons ouvertement nos LLMs fine-tunés en ligne.
La création d'avatars photoréalistes pour des individus nécessite traditionnellement des sessions de capture longues et complexes avec des dispositifs de studio coûteux, comme le système LightStage. Bien que les récents progrès dans les représentations neuronales aient permis la génération d'avatars 3D photoréalistes et animables à partir de scans rapides réalisés avec un téléphone, ces avatars intègrent l'éclairage au moment de la capture, manquent de détails faciaux et présentent des zones manquantes, comme à l'arrière des oreilles. Ainsi, leur qualité reste inférieure à celle des avatars capturés en studio. Dans cet article, nous proposons une méthode qui comble cet écart en générant des cartes de textures éclairées de manière similaire à un studio à partir de captures monoscopiques rapides réalisées avec un téléphone. Pour ce faire, nous paramétrisons les cartes de textures du téléphone en utilisant l'espace W^+ d'un StyleGAN2, permettant une reconstruction quasi parfaite. Ensuite, nous affinons un StyleGAN2 en échantillonnant dans l'espace paramétrisé W^+ en utilisant un très petit ensemble de textures capturées en studio comme signal d'entraînement adversarial. Pour améliorer encore le réalisme et la précision des détails faciaux, nous sur-résolvons la sortie du StyleGAN2 à l'aide d'un modèle de diffusion soigneusement conçu, guidé par les gradients d'image de la carte de texture capturée par le téléphone. Une fois entraînée, notre méthode excelle dans la production de cartes de textures faciales de qualité studio à partir de vidéos monoscopiques prises avec un smartphone. Pour démontrer ses capacités, nous présentons la génération d'avatars photoréalistes, uniformément éclairés et complets à partir de captures monoscopiques réalisées avec un téléphone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{La page du projet est disponible ici.}
Nous présentons une nouvelle approche pour comprendre la structure périodique et la sémantique des ensembles de données de mouvement, indépendamment de la morphologie et de la structure squelettique des personnages. Contrairement aux méthodes existantes qui utilisent un espace latent de haute dimension excessivement parcimonieux, nous proposons une variété de phase composée de multiples courbes fermées, chacune correspondant à une amplitude latente. Grâce à notre autoencodeur périodique à quantification vectorielle, nous apprenons une variété de phase partagée pour plusieurs personnages, tels qu'un humain et un chien, sans aucune supervision. Ceci est réalisé en exploitant la structure discrète et un réseau peu profond comme goulots d'étranglement, de sorte que les mouvements sémantiquement similaires soient regroupés dans la même courbe de la variété, et que les mouvements au sein de la même composante soient alignés temporellement par la variable de phase. En combinaison avec un cadre amélioré de correspondance de mouvement, nous démontrons la capacité de la variété à aligner le timing et la sémantique dans plusieurs applications, notamment la récupération, le transfert et la stylisation de mouvements. Le code et les modèles pré-entraînés pour cet article sont disponibles à l'adresse https://peizhuoli.github.io/walkthedog.
La généralisation inter-domaines est un aspect crucial d'un modèle d'apprentissage profond, car elle détermine la capacité du modèle à bien performer sur des données provenant de domaines non vus. Cependant, les recherches sur la généralisation inter-domaines des modèles d'apprentissage profond pour les tâches vision-langage restent limitées, principalement en raison du manque de jeux de données nécessaires. Pour relever ces défis, nous proposons VolDoGer : Vision-Language Dataset for Domain Generalization, un jeu de données dédié conçu pour la généralisation inter-domaines, qui aborde trois tâches vision-langage : la génération de légendes d'images, la réponse à des questions visuelles et l'implication visuelle. Nous avons construit VolDoGer en étendant les techniques d'annotation de données basées sur des modèles de langage de grande taille (LLM) aux tâches vision-langage, réduisant ainsi la nécessité de recruter des annotateurs humains. Nous avons évalué la généralisation inter-domaines de divers modèles, allant de modèles fine-tunés à un récent modèle de langage multimodal de grande taille, à travers VolDoGer.
Dans cet article, nous présentons TAPTRv2, une approche basée sur les Transformers, construite sur TAPTR pour résoudre la tâche de suivi de n'importe quel point (Tracking Any Point, TAP). TAPTR s'inspire des conceptions du DETR (DEtection TRansformer) et formule chaque point de suivi comme une requête de point, permettant ainsi d'exploiter des opérations bien étudiées dans les algorithmes de type DETR. TAPTRv2 améliore TAPTR en résolvant un problème critique lié à sa dépendance au volume de coût, qui contamine la caractéristique de contenu de la requête de point et affecte négativement à la fois la prédiction de visibilité et le calcul du volume de coût. Dans TAPTRv2, nous proposons une nouvelle opération de mise à jour de position basée sur l'attention (Attention-based Position Update, APU) et utilisons une attention déformable consciente des clés pour la réaliser. Pour chaque requête, cette opération utilise des poids d'attention conscients des clés pour combiner leurs positions d'échantillonnage déformables correspondantes afin de prédire une nouvelle position de requête. Cette conception est basée sur l'observation que l'attention locale est essentiellement la même que le volume de coût, les deux étant calculés par un produit scalaire entre une requête et ses caractéristiques environnantes. En introduisant cette nouvelle opération, TAPTRv2 non seulement supprime la charge supplémentaire du calcul du volume de coût, mais entraîne également une amélioration substantielle des performances. TAPTRv2 surpasse TAPTR et atteint des performances de pointe sur de nombreux ensembles de données difficiles, démontrant ainsi sa supériorité.