Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce travail présente Depth Anything, une solution hautement pratique pour l'estimation robuste de la profondeur monoculaire. Sans chercher à développer de nouveaux modules techniques, nous visons à construire un modèle de base simple mais puissant capable de traiter n'importe quelle image dans n'importe quelle situation. Pour ce faire, nous augmentons l'échelle du jeu de données en concevant un moteur de données pour collecter et annoter automatiquement des données non labellisées à grande échelle (~62 millions), ce qui élargit considérablement la couverture des données et permet ainsi de réduire l'erreur de généralisation. Nous explorons deux stratégies simples mais efficaces qui rendent cette augmentation des données prometteuse. Premièrement, une cible d'optimisation plus exigeante est créée en exploitant des outils d'augmentation de données. Cela oblige le modèle à rechercher activement des connaissances visuelles supplémentaires et à acquérir des représentations robustes. Deuxièmement, une supervision auxiliaire est développée pour forcer le modèle à hériter de riches préconnaissances sémantiques à partir d'encodeurs pré-entraînés. Nous évaluons ses capacités de généralisation en mode zéro-shot de manière extensive, incluant six jeux de données publics et des photos capturées aléatoirement. Il démontre une impressionnante capacité de généralisation. De plus, en l'affinant avec des informations de profondeur métrique provenant de NYUv2 et KITTI, de nouveaux records de l'état de l'art (SOTA) sont établis. Notre meilleur modèle de profondeur conduit également à un meilleur ControlNet conditionné par la profondeur. Nos modèles sont disponibles à l'adresse suivante : https://github.com/LiheYoung/Depth-Anything.
Le parallélisme par pipeline est l'un des composants clés pour l'entraînement distribué à grande échelle, mais son efficacité est entravée par les bulles de pipeline, considérées jusqu'ici comme inévitables. Dans ce travail, nous introduisons une stratégie d'ordonnancement qui, à notre connaissance, est la première à réussir à éliminer complètement les bulles de pipeline dans le cadre d'une sémantique d'entraînement synchrone. L'idée centrale de cette amélioration consiste à diviser le calcul rétrograde en deux parties : l'une pour calculer le gradient des entrées, et l'autre pour celui des paramètres. Sur cette base, nous avons conçu manuellement des ordonnancements de pipeline novateurs qui surpassent significativement les méthodes de référence. Nous avons également développé un algorithme capable de trouver automatiquement un ordonnancement optimal en fonction de la configuration spécifique du modèle et de la limite de mémoire. Par ailleurs, pour véritablement atteindre zéro bulle, nous introduisons une technique innovante permettant de contourner les synchronisations lors de l'étape d'optimisation. Les évaluations expérimentales montrent que notre méthode surpasse l'ordonnancement 1F1B jusqu'à 23 % en termes de débit sous une limite de mémoire similaire. Ce chiffre peut être porté à 31 % lorsque la contrainte de mémoire est assouplie. Nous pensons que nos résultats représentent une avancée majeure dans l'exploitation du véritable potentiel du parallélisme par pipeline. Nous avons rendu notre implémentation open source, basée sur le dépôt populaire Megatron-LM, disponible sur https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
La génération d'arrière-plans vidéo adaptés au mouvement du sujet au premier plan constitue un problème important pour l'industrie cinématographique et la communauté des effets visuels. Cette tâche implique la synthèse d'un arrière-plan qui s'aligne sur le mouvement et l'apparence du sujet au premier plan, tout en respectant l'intention créative de l'artiste. Nous présentons ActAnywhere, un modèle génératif qui automatise ce processus traditionnellement laborieux et manuel. Notre modèle tire parti de la puissance des modèles de diffusion vidéo à grande échelle et est spécifiquement conçu pour cette tâche. ActAnywhere prend en entrée une séquence de segmentation du sujet au premier plan ainsi qu'une image décrivant la scène souhaitée comme condition, pour produire une vidéo cohérente avec des interactions réalistes entre le premier plan et l'arrière-plan, tout en respectant l'image de condition. Nous avons entraîné notre modèle sur un ensemble de données à grande échelle de vidéos d'interaction humain-scène. Des évaluations approfondies démontrent la performance supérieure de notre modèle, surpassant significativement les méthodes de référence. De plus, nous montrons qu'ActAnywhere généralise bien à des échantillons divers hors distribution, y compris des sujets non humains. Veuillez visiter notre page web du projet à l'adresse https://actanywhere.github.io.
Dans cet article, nous présentons un cadre basé sur un modèle de diffusion pour animer des personnes à partir d'une seule image en fonction d'une séquence de mouvements 3D cible. Notre approche repose sur deux composants principaux : a) l'apprentissage de connaissances a priori sur les parties invisibles du corps humain et des vêtements, et b) le rendu de nouvelles poses corporelles avec des vêtements et des textures appropriés. Pour la première partie, nous apprenons un modèle de diffusion de remplissage pour halluciner les parties non visibles d'une personne à partir d'une seule image. Nous entraînons ce modèle dans l'espace des cartes de textures, ce qui le rend plus efficace en termes d'échantillonnage car il est invariant à la pose et au point de vue. Ensuite, nous développons un pipeline de rendu basé sur la diffusion, contrôlé par des poses humaines 3D. Cela produit des rendus réalistes de nouvelles poses de la personne, incluant les vêtements, les cheveux et un remplissage plausible des régions non visibles. Cette approche désentrelacée permet à notre méthode de générer une séquence d'images fidèles au mouvement cible en termes de pose 3D et à l'image d'entrée en termes de similarité visuelle. De plus, le contrôle 3D permet d'utiliser diverses trajectoires de caméra synthétiques pour rendre une personne. Nos expériences montrent que notre méthode est robuste pour générer des mouvements prolongés et des poses variées, complexes et difficiles, par rapport aux méthodes antérieures. Pour plus de détails, consultez notre site web : https://boyiliee.github.io/3DHM.github.io/.
La dictée permet une saisie de texte efficace sur les appareils mobiles. Cependant, écrire avec la parole peut produire un texte hésitant, verbeux et incohérent, nécessitant ainsi un post-traitement important. Cet article présente Rambler, une interface graphique pilotée par un modèle de langage (LLM) qui permet une manipulation au niveau de l'essence du texte dicté grâce à deux ensembles de fonctions principales : l'extraction de l'essence et la révision macro. L'extraction de l'essence génère des mots-clés et des résumés servant de points d'ancrage pour faciliter la révision et l'interaction avec le texte parlé. Les révisions macro assistées par LLM permettent aux utilisateurs de redicter, diviser, fusionner et transformer le texte dicté sans avoir à spécifier des emplacements de modification précis. Ensemble, ces fonctionnalités ouvrent la voie à une dictée et une révision interactives qui aident à combler les écarts entre les mots parlés spontanés et un écrit bien structuré. Dans une étude comparative impliquant 12 participants effectuant des tâches de composition verbale, Rambler a surpassé la référence d'un éditeur de reconnaissance vocale + ChatGPT, car il facilite mieux les révisions itératives avec un contrôle utilisateur accru sur le contenu tout en soutenant des stratégies utilisateurs étonnamment variées.
Cet article étudie le problème de l'interprétabilité basée sur les concepts des représentations des transformeurs pour les vidéos. Concrètement, nous cherchons à expliquer le processus de prise de décision des transformeurs vidéo en nous appuyant sur des concepts spatio-temporels de haut niveau, découverts automatiquement. Les recherches antérieures sur l'interprétabilité basée sur les concepts se sont concentrées exclusivement sur des tâches au niveau de l'image. En comparaison, les modèles vidéo doivent gérer une dimension temporelle supplémentaire, ce qui accroît la complexité et pose des défis pour identifier des concepts dynamiques au fil du temps. Dans ce travail, nous abordons systématiquement ces défis en introduisant le premier algorithme de découverte de concepts pour transformeurs vidéo (VTCD). À cette fin, nous proposons une approche efficace pour l'identification non supervisée d'unités de représentations des transformeurs vidéo - les concepts - et pour classer leur importance par rapport à la sortie d'un modèle. Les concepts résultants sont hautement interprétables, révélant des mécanismes de raisonnement spatio-temporel et des représentations centrées sur les objets dans les modèles vidéo non structurés. En réalisant cette analyse conjointement sur un ensemble diversifié de représentations supervisées et auto-supervisées, nous découvrons que certains de ces mécanismes sont universels dans les transformeurs vidéo. Enfin, nous démontrons que VTCD peut être utilisé pour améliorer les performances des modèles dans des tâches fines et détaillées.