Articles de recherche IA sélectionnés quotidiennement avec traductions
La génération de texte personnalisé est un domaine de recherche émergent qui a suscité beaucoup d'attention ces dernières années. La plupart des études dans ce domaine se concentrent sur un domaine particulier en concevant des caractéristiques ou des modèles sur mesure. Dans ce travail, nous proposons une approche générale pour la génération de texte personnalisé en utilisant des modèles de langage de grande taille (LLMs). Inspirés par les pratiques de l'enseignement de l'écriture, nous développons un cadre multistage et multitâche pour enseigner aux LLMs la génération personnalisée. Dans l'enseignement de l'écriture, la tâche d'écriture à partir de sources est souvent décomposée en plusieurs étapes qui impliquent la recherche, l'évaluation, la synthèse, la résumé et l'intégration d'informations. De manière analogue, notre approche de la génération de texte personnalisé consiste en plusieurs étapes : la récupération, le classement, la synthèse, la résumé et la génération. En outre, nous introduisons un cadre multitâche qui aide le modèle à améliorer davantage sa capacité de génération, inspiré par l'observation en éducation que la compétence en lecture et la capacité d'écriture d'un étudiant sont souvent corrélées. Nous évaluons notre approche sur trois ensembles de données publics, chacun couvrant un domaine différent et représentatif. Nos résultats montrent des améliorations significatives par rapport à une variété de bases de référence.
Avec l'émergence des modèles de diffusion, la génération de texte-à-vidéo a récemment suscité un intérêt croissant. Cependant, un goulot d'étranglement important réside dans le fait que les vidéos générées ont souvent tendance à présenter des scintillements et des artefacts. Dans ce travail, nous proposons un réseau de diffusion à double flux (DSDN) pour améliorer la cohérence des variations de contenu dans la génération de vidéos. Plus précisément, les deux flux de diffusion conçus, à savoir les branches de contenu vidéo et de mouvement, peuvent non seulement fonctionner séparément dans leurs espaces propres pour produire des variations vidéo personnalisées ainsi que du contenu, mais aussi être bien alignés entre les domaines de contenu et de mouvement grâce à l'exploitation de notre module d'interaction cross-transformer, ce qui favorise la fluidité des vidéos générées. Par ailleurs, nous introduisons également un décomposeur et un combinateur de mouvement pour faciliter les opérations sur le mouvement vidéo. Les expériences qualitatives et quantitatives démontrent que notre méthode peut produire des vidéos continues impressionnantes avec moins de scintillements.
La génération de vidéos contrôlables a suscité une attention considérable ces dernières années. Cependant, deux limitations principales persistent : Premièrement, la plupart des travaux existants se concentrent sur le contrôle basé soit sur le texte, soit sur l’image ou la trajectoire, ce qui entraîne une incapacité à obtenir un contrôle fin dans les vidéos. Deuxièmement, la recherche sur le contrôle des trajectoires en est encore à ses débuts, la majorité des expériences étant menées sur des ensembles de données simples comme Human3.6M. Cette contrainte limite la capacité des modèles à traiter des images de domaine ouvert et à gérer efficacement des trajectoires courbes complexes. Dans cet article, nous proposons DragNUWA, un modèle de génération de vidéos basé sur la diffusion et adapté aux domaines ouverts. Pour résoudre le problème de granularité de contrôle insuffisante dans les travaux existants, nous introduisons simultanément des informations textuelles, visuelles et de trajectoire afin de fournir un contrôle fin du contenu vidéo d’un point de vue sémantique, spatial et temporel. Pour résoudre le problème de contrôle limité des trajectoires en domaine ouvert dans la recherche actuelle, nous proposons une modélisation des trajectoires selon trois aspects : un Échantillonneur de Trajectoire (TS) pour permettre un contrôle en domaine ouvert de trajectoires arbitraires, une Fusion Multiscalaire (MF) pour contrôler les trajectoires à différentes granularités, et une stratégie d’Apprentissage Adaptatif (AT) pour générer des vidéos cohérentes suivant les trajectoires. Nos expériences valident l’efficacité de DragNUWA, démontrant ses performances supérieures en matière de contrôle fin dans la génération de vidéos. Le lien de la page d’accueil est https://www.microsoft.com/en-us/research/project/dragnuwa/.