Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération de mouvements humains joue un rôle vital dans des applications telles que les humains numériques et le contrôle des robots humanoïdes. Cependant, la plupart des approches existantes négligent les contraintes physiques, ce qui conduit à la production fréquente de mouvements physiquement implausibles avec des artefacts prononcés tels que le flottement et le glissement des pieds. Dans cet article, nous proposons Morph, un cadre d'optimisation de la physique sans mouvement, comprenant un Générateur de Mouvement et un module de Raffinement de la Physique du Mouvement, pour améliorer la plausibilité physique sans recourir à des données de mouvement réelles coûteuses. Plus précisément, le Générateur de Mouvement est responsable de fournir des données de mouvement synthétiques à grande échelle, tandis que le Module de Raffinement de la Physique du Mouvement utilise ces données synthétiques pour entraîner un imitateur de mouvement dans un simulateur de physique, en imposant des contraintes physiques pour projeter les mouvements bruyants dans un espace physiquement plausible. Ces mouvements physiquement affinés sont ensuite utilisés pour peaufiner le Générateur de Mouvement, améliorant ainsi davantage sa capacité. Des expériences sur des tâches de génération de mouvement à partir de texte et de danse à partir de musique montrent que notre cadre atteint une qualité de génération de mouvement de pointe tout en améliorant considérablement la plausibilité physique.
Les modèles vision-langage (VLM) ont montré des avancées remarquables dans les tâches de raisonnement multimodal. Cependant, ils génèrent encore souvent des réponses inexactes ou non pertinentes en raison de problèmes tels que des compréhensions d'image hallucinées ou des chemins de raisonnement non affinés. Pour relever ces défis, nous introduisons Critic-V, un nouveau cadre inspiré du paradigme Acteur-Critique pour renforcer la capacité de raisonnement des VLM. Ce cadre dissocie le processus de raisonnement et le processus critique en intégrant deux composants indépendants : le Raisonneur, qui génère des chemins de raisonnement basés sur des entrées visuelles et textuelles, et le Critique, qui fournit une critique constructive pour affiner ces chemins. Dans cette approche, le Raisonneur génère des réponses de raisonnement selon des instructions textuelles, qui peuvent évoluer de manière itérative en tant que politique basée sur les retours du Critique. Ce processus d'interaction est théoriquement basé sur un cadre d'apprentissage par renforcement où le Critique offre des critiques en langage naturel au lieu de récompenses scalaires, permettant des retours plus nuancés pour renforcer la capacité du Raisonneur sur des tâches de raisonnement complexes. Le modèle Critique est entraîné en utilisant l'Optimisation de Préférence Directe (DPO), exploitant un ensemble de données de préférences de critiques classées par Récompense Basée sur des Règles (RBR) pour améliorer ses capacités critiques. Les résultats d'évaluation montrent que le cadre Critic-V surpasse significativement les méthodes existantes, y compris GPT-4V, sur 5 des 8 références, notamment en ce qui concerne la précision et l'efficacité du raisonnement. En combinant une politique textuelle dynamique pour le Raisonneur et des retours constructifs du Critique optimisé par préférences, cela permet un processus de raisonnement multimodal plus fiable et sensible au contexte. Notre approche offre une solution prometteuse pour améliorer la fiabilité des VLM, améliorant leurs performances dans des applications multimodales exigeant un raisonnement intensif en temps réel telles que la conduite autonome et l'intelligence incarnée.
Cet article présente Virtual Try-Off (VTOFF), une tâche novatrice axée sur la génération d'images de vêtements standardisées à partir de photos uniques d'individus habillés. Contrairement au traditionnel Virtual Try-On (VTON), qui habille numériquement des modèles, VTOFF vise à extraire une image de vêtement canonique, posant des défis uniques pour capturer la forme, la texture et les motifs complexes des vêtements. Cette cible bien définie rend VTOFF particulièrement efficace pour évaluer la fidélité de la reconstruction dans les modèles génératifs. Nous présentons TryOffDiff, un modèle qui adapte la Diffusion Stable avec un conditionnement visuel basé sur SigLIP pour garantir une haute fidélité et une rétention des détails. Des expériences menées sur un ensemble de données VITON-HD modifié montrent que notre approche surpasse les méthodes de base basées sur le transfert de pose et l'essayage virtuel avec moins d'étapes de pré et post-traitement. Notre analyse révèle que les métriques traditionnelles de génération d'images évaluent de manière inadéquate la qualité de la reconstruction, ce qui nous pousse à nous appuyer sur DISTS pour une évaluation plus précise. Nos résultats mettent en lumière le potentiel de VTOFF pour améliorer les images de produits dans les applications de commerce électronique, faire progresser l'évaluation des modèles génératifs et inspirer de futurs travaux sur la reconstruction haute fidélité. Une démonstration, le code et les modèles sont disponibles sur : https://rizavelioglu.github.io/tryoffdiff/
Malgré les avancées significatives dans les modèles génératifs de texte vers image (T2I), les utilisateurs sont souvent confrontés à un défi de tâtonnement dans des scénarios pratiques. Ce défi découle de la complexité et de l'incertitude des étapes fastidieuses telles que la création de prompts appropriés, la sélection de modèles adéquats et la configuration d'arguments spécifiques, amenant les utilisateurs à recourir à des tentatives intensives pour obtenir les images souhaitées. Cet article propose la génération automatique T2I, qui vise à automatiser ces étapes fastidieuses, permettant aux utilisateurs de simplement décrire leurs besoins de manière conversationnelle. Pour étudier systématiquement ce problème, nous introduisons d'abord ChatGenBench, un nouveau banc d'essai conçu pour la génération automatique T2I. Il présente des données appariées de haute qualité avec des entrées conversationnelles diverses, permettant une évaluation complète des modèles T2I automatiques à toutes les étapes. De plus, reconnaissant la génération automatique T2I comme une tâche de raisonnement complexe en plusieurs étapes, nous proposons ChatGen-Evo, une stratégie d'évolution multi-étapes qui dote progressivement les modèles de compétences d'automatisation essentielles. À travers une évaluation approfondie de la précision étape par étape et de la qualité de l'image, ChatGen-Evo améliore significativement les performances par rapport à diverses références. Notre évaluation révèle également des perspectives précieuses pour faire progresser la génération automatique T2I. Toutes nos données, notre code et nos modèles seront disponibles sur https://chengyou-jia.github.io/ChatGen-Home
Nous proposons SelfSplat, un nouveau modèle de Splatting Gaussien 3D conçu pour réaliser une reconstruction 3D généralisable sans pose et sans prior 3D à partir d'images multi-vues non posées. Ces paramètres sont intrinsèquement mal posés en raison du manque de données de vérité terrain, d'informations géométriques apprises, et de la nécessité d'obtenir une reconstruction 3D précise sans fine-tuning, rendant difficile pour les méthodes conventionnelles d'atteindre des résultats de haute qualité. Notre modèle relève ces défis en intégrant efficacement des représentations 3D explicites avec des techniques d'estimation de profondeur et de pose auto-supervisées, entraînant des améliorations réciproques à la fois dans la précision de la pose et la qualité de la reconstruction 3D. De plus, nous incorporons un réseau d'estimation de pose conscient de la correspondance et un module de raffinement de profondeur pour améliorer la cohérence géométrique entre les vues, garantissant des reconstructions 3D plus précises et stables. Pour présenter les performances de notre méthode, nous l'avons évaluée sur des ensembles de données réels à grande échelle, comprenant RealEstate10K, ACID et DL3DV. SelfSplat obtient des résultats supérieurs aux méthodes précédentes de pointe à la fois en termes de qualité d'apparence et de géométrie, démontrant également de solides capacités de généralisation entre ensembles de données. Des études d'ablation approfondies et des analyses valident également l'efficacité de nos méthodes proposées. Le code et les modèles pré-entraînés sont disponibles sur https://gynjn.github.io/selfsplat/
Les modèles de diffusion ont obtenu des résultats impressionnants dans des tâches génératives telles que la synthèse texte-image (T2I) et texte-vidéo (T2V). Cependant, parvenir à un alignement précis du texte dans la génération T2V reste difficile en raison de la complexité de la dépendance temporelle à travers les images. Les approches existantes basées sur l'apprentissage par renforcement (RL) pour améliorer l'alignement du texte nécessitent souvent des fonctions de récompense différenciables ou sont contraintes à des indications limitées, ce qui entrave leur extensibilité et leur applicabilité. Dans cet article, nous proposons Free^2Guide, un nouveau cadre sans gradient pour aligner les vidéos générées avec des indications textuelles sans nécessiter de formation supplémentaire du modèle. En exploitant les principes du contrôle intégral de chemin, Free^2Guide approxime le guidage pour les modèles de diffusion en utilisant des fonctions de récompense non différenciables, permettant ainsi l'intégration de puissants modèles de vision-langage en boîte noire (LVLMs) en tant que modèle de récompense. De plus, notre cadre prend en charge l'assemblage flexible de plusieurs modèles de récompense, y compris des modèles d'images à grande échelle, pour améliorer de manière synergique l'alignement sans entraîner de surcharge computationnelle substantielle. Nous démontrons que Free^2Guide améliore significativement l'alignement du texte sur divers aspects et améliore la qualité globale des vidéos générées.
À une époque de surcharge d'informations, annoter manuellement le vaste et croissant corpus de documents et d'articles savants devient de plus en plus impraticable. L'extraction automatisée de mots-clés aborde ce défi en identifiant les termes représentatifs au sein des textes. Cependant, la plupart des méthodes existantes se concentrent sur des documents courts (jusqu'à 512 tokens), laissant une lacune dans le traitement des documents à long contexte. Dans cet article, nous présentons LongKey, un nouveau cadre pour extraire des mots-clés de documents étendus, qui utilise un modèle de langage basé sur un encodeur pour capturer les subtilités du texte étendu. LongKey utilise un incrusteur de max-pooling pour améliorer la représentation des candidats mots-clés. Validé sur les ensembles de données LDKP complets et six ensembles de données divers et inédits, LongKey surpasse constamment les méthodes existantes d'extraction de mots-clés non supervisées et basées sur des modèles de langage. Nos résultats démontrent la polyvalence et les performances supérieures de LongKey, marquant une avancée dans l'extraction de mots-clés pour des longueurs de texte et des domaines variés.
Les récents progrès dans les performances des grands modèles de langage (LLM) sur les bancs d'essai de questions à choix multiples (QCM) médicales ont suscité un intérêt chez les prestataires de soins de santé et les patients du monde entier. Particulièrement dans les pays à revenu faible et intermédiaire (LMIC) confrontés à une pénurie aiguë de médecins et à un manque de spécialistes, les LLM offrent une voie potentiellement évolutive pour améliorer l'accès aux soins de santé et réduire les coûts. Cependant, leur efficacité dans le Sud global, notamment à travers le continent africain, reste à établir. Dans ce travail, nous présentons AfriMed-QA, le premier ensemble de données de questions-réponses médicales multi-spécialités en anglais pan-africain à grande échelle, comprenant 15 000 questions (ouvertes et à choix multiples) provenant de plus de 60 écoles de médecine dans 16 pays, couvrant 32 spécialités médicales. Nous évaluons en outre 30 LLM selon plusieurs axes, y compris la justesse et les biais démographiques. Nos résultats montrent une variation significative des performances selon les spécialités et les géographies, les performances en QCM étant nettement inférieures à l'USMLE (MedQA). Nous constatons que les LLM biomédicaux sont moins performants que les modèles généraux et que les LLM plus petits et adaptés aux ressources ont du mal à obtenir une note de passage. De manière intéressante, les évaluations humaines montrent une préférence constante des consommateurs pour les réponses et explications des LLM par rapport aux réponses des cliniciens.