Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération d'images personnalisées à partir de texte est apparue comme un outil puissant et très recherché, permettant aux utilisateurs de créer des images sur mesure en fonction de leurs concepts et prompts spécifiques. Cependant, les approches existantes en matière de personnalisation rencontrent plusieurs défis, notamment des temps de réglage longs, des besoins de stockage importants, la nécessité de plusieurs images d'entrée par identité, et des limitations dans la préservation de l'identité et de l'éditabilité. Pour surmonter ces obstacles, nous présentons PhotoVerse, une méthodologie innovante qui intègre un mécanisme de conditionnement à double branche dans les domaines du texte et de l'image, offrant un contrôle efficace sur le processus de génération d'images. De plus, nous introduisons une perte d'identité faciale comme composant novateur pour améliorer la préservation de l'identité pendant l'entraînement. Remarquablement, notre PhotoVerse proposé élimine le besoin de réglage au moment du test et repose uniquement sur une seule photo faciale de l'identité cible, réduisant ainsi considérablement le coût en ressources associé à la génération d'images. Après une seule phase d'entraînement, notre approche permet de générer des images de haute qualité en seulement quelques secondes. En outre, notre méthode peut produire des images variées couvrant différentes scènes et styles. L'évaluation approfondie démontre la performance supérieure de notre approche, qui atteint les deux objectifs de préserver l'identité et de faciliter l'éditabilité. Page du projet : https://photoverse2d.github.io/
Les modèles de diffusion ont révolutionné la génération d'images à partir de texte grâce à leur qualité et créativité exceptionnelles. Cependant, leur processus d'échantillonnage en plusieurs étapes est réputé lent, nécessitant souvent des dizaines d'étapes d'inférence pour obtenir des résultats satisfaisants. Les tentatives précédentes visant à améliorer la vitesse d'échantillonnage et à réduire les coûts de calcul par distillation n'ont pas réussi à produire un modèle fonctionnel en une seule étape. Dans cet article, nous explorons une méthode récente appelée Rectified Flow, qui, jusqu'à présent, n'a été appliquée qu'à de petits ensembles de données. Le cœur de Rectified Flow réside dans sa procédure de reflow, qui redresse les trajectoires des flux de probabilité, affine le couplage entre les bruits et les images, et facilite le processus de distillation avec des modèles étudiants. Nous proposons un nouveau pipeline conditionné par le texte pour transformer Stable Diffusion (SD) en un modèle ultra-rapide en une seule étape, dans lequel nous constatons que le reflow joue un rôle crucial dans l'amélioration de l'association entre le bruit et les images. En exploitant notre nouveau pipeline, nous créons, à notre connaissance, le premier générateur d'images à partir de texte basé sur la diffusion en une seule étape avec une qualité d'image comparable à SD, atteignant un FID (Distance de Fréchet Inception) de 23,3 sur MS COCO 2017-5k, surpassant largement la technique précédente de pointe, la distillation progressive (37,2 → 23,3 en FID). En utilisant un réseau étendu avec 1,7 milliard de paramètres, nous améliorons encore le FID à 22,4. Nous appelons nos modèles en une seule étape InstaFlow. Sur MS COCO 2014-30k, InstaFlow produit un FID de 13,1 en seulement 0,09 seconde, le meilleur dans le régime ≤ 0,1 seconde, surpassant le récent StyleGAN-T (13,9 en 0,1 seconde). Notamment, l'entraînement d'InstaFlow ne coûte que 199 jours GPU A100. Page du projet : https://github.com/gnobitab/InstaFlow.
Le traitement à haut débit des grands modèles de langage (LLM) nécessite de regrouper un nombre suffisant de requêtes simultanément. Cependant, les systèmes existants rencontrent des difficultés car la mémoire du cache clé-valeur (KV cache) pour chaque requête est volumineuse et varie dynamiquement. Lorsqu'elle est gérée de manière inefficace, cette mémoire peut être considérablement gaspillée par la fragmentation et la duplication redondante, limitant ainsi la taille des lots. Pour résoudre ce problème, nous proposons PagedAttention, un algorithme d'attention inspiré des techniques classiques de mémoire virtuelle et de pagination des systèmes d'exploitation. Sur cette base, nous avons développé vLLM, un système de traitement des LLM qui permet (1) un gaspillage quasi nul de la mémoire du KV cache et (2) un partage flexible du KV cache au sein des requêtes et entre elles, afin de réduire davantage l'utilisation de la mémoire. Nos évaluations montrent que vLLM améliore le débit des LLM populaires de 2 à 4 fois avec le même niveau de latence par rapport aux systèmes de pointe, tels que FasterTransformer et Orca. L'amélioration est plus marquée avec des séquences plus longues, des modèles plus volumineux et des algorithmes de décodage plus complexes. Le code source de vLLM est disponible publiquement à l'adresse https://github.com/vllm-project/vllm.
Les grands modèles de langage excellent dans de nombreuses tâches linguistiques humaines, mais peinent souvent dans des domaines hautement spécialisés comme l'astronomie académique. Pour combler cette lacune, nous présentons AstroLLaMA, un modèle de 7 milliards de paramètres affiné à partir de LLaMA-2 en utilisant plus de 300 000 résumés d'articles d'astronomie provenant d'arXiv. Optimisé pour la modélisation causale traditionnelle du langage, AstroLLaMA atteint une perplexité 30 % inférieure à celle de LLaMA-2, démontrant une adaptation marquée au domaine. Notre modèle génère des complétions de texte plus perspicaces et scientifiquement pertinentes, ainsi que des extractions d'embeddings plus performantes que les modèles de base de pointe, malgré un nombre de paramètres significativement moindre. AstroLLaMA constitue un modèle robuste et spécifique au domaine, offrant un large potentiel d'affinage. Sa publication publique vise à stimuler la recherche axée sur l'astronomie, incluant la synthèse automatique d'articles et le développement d'agents conversationnels.
La manipulation dextre constitue un défi de longue date en robotique. Bien que les techniques d'apprentissage automatique aient montré un certain potentiel, les résultats se limitent actuellement principalement à la simulation. Cela peut être largement attribué au manque de matériel adapté. Dans cet article, nous présentons LEAP Hand, une main dextre et anthropomorphique à faible coût pour la recherche en apprentissage automatique. Contrairement aux mains précédentes, LEAP Hand possède une structure cinématique novatrice qui permet une dextérité maximale quelle que soit la position des doigts. LEAP Hand est peu coûteuse et peut être assemblée en 4 heures pour un coût de 2000 USD à partir de pièces facilement disponibles. Elle est capable d'exercer de manière constante des couples élevés sur de longues durées. Nous montrons que LEAP Hand peut être utilisée pour effectuer plusieurs tâches de manipulation dans le monde réel — allant de la téléopération visuelle à l'apprentissage à partir de données vidéo passives et du sim2real. LEAP Hand surpasse significativement son concurrent le plus proche, Allegro Hand, dans toutes nos expériences tout en étant 8 fois moins chère. Nous publions des instructions d'assemblage détaillées, le pipeline Sim2Real et une plateforme de développement avec des API utiles sur notre site web à l'adresse https://leap-hand.github.io/.
D'immenses efforts ont été déployés pour apprendre à créer des avatars humains animables et photoréalistes. Dans cette optique, les représentations 3D explicites et implicites sont largement étudiées pour une modélisation et une capture holistiques de l'être humain dans son ensemble (par exemple, le corps, les vêtements, le visage et les cheveux). Cependant, aucune de ces représentations ne constitue un choix optimal en termes d'efficacité de représentation, car les différentes parties de l'avatar humain ont des exigences de modélisation distinctes. Par exemple, les maillages ne sont généralement pas adaptés à la modélisation des vêtements et des cheveux. Motivés par cette observation, nous présentons Disentangled Avatars (DELTA), qui modélise les humains avec des représentations 3D hybrides explicites-implicites. DELTA prend en entrée une vidéo RGB monoculaire et produit un avatar humain avec des couches distinctes pour le corps et les vêtements/cheveux. Plus précisément, nous démontrons deux applications importantes pour DELTA. Pour la première, nous considérons la séparation du corps humain et des vêtements, et pour la seconde, nous séparons le visage et les cheveux. Pour ce faire, DELTA représente le corps ou le visage avec un modèle paramétrique 3D explicite basé sur un maillage, et les vêtements ou les cheveux avec un champ de radiance neural implicite. Pour rendre cela possible, nous concevons un rendu différentiable de bout en bout qui intègre les maillages dans le rendu volumétrique, permettant à DELTA d'apprendre directement à partir de vidéos monoculaires sans aucune supervision 3D. Enfin, nous montrons comment ces deux applications peuvent être facilement combinées pour modéliser des avatars complets, de sorte que les cheveux, le visage, le corps et les vêtements peuvent être entièrement séparés tout en étant rendus conjointement. Une telle séparation permet le transfert de cheveux et de vêtements à des formes corporelles arbitraires. Nous validons empiriquement l'efficacité de la séparation de DELTA en démontrant ses performances prometteuses en reconstruction séparée, essayage virtuel de vêtements et transfert de coiffure. Pour faciliter les recherches futures, nous publions également un pipeline open source pour l'étude de la modélisation hybride d'avatars humains.