Articles de recherche en IA sélectionnés quotidiennement avec traductions
La demande croissante pour la génération de vidéos haute fidélité à partir de descriptions textuelles a catalysé des recherches significatives dans ce domaine. Dans ce travail, nous présentons MagicVideo-V2, qui intègre un modèle de génération d'images à partir de texte, un générateur de mouvement vidéo, un module d'incorporation d'images de référence et un module d'interpolation d'images dans un pipeline de génération de vidéos de bout en bout. Grâce à ces conceptions architecturales, MagicVideo-V2 est capable de générer une vidéo esthétiquement plaisante, en haute résolution, avec une fidélité et une fluidité remarquables. Il démontre une performance supérieure par rapport aux systèmes de pointe de génération de texte à vidéo tels que Runway, Pika 1.0, Morph, Moon Valley et le modèle Stable Video Diffusion, selon des évaluations utilisateurs à grande échelle.
Nous présentons MAGNeT, une méthode de modélisation séquentielle générative masquée qui opère directement sur plusieurs flux de tokens audio. Contrairement aux travaux antérieurs, MAGNeT est composé d'un transformeur non-autorégressif en une seule étape. Pendant l'entraînement, nous prédisons des segments de tokens masqués obtenus à partir d'un planificateur de masquage, tandis que lors de l'inférence, nous construisons progressivement la séquence de sortie en utilisant plusieurs étapes de décodage. Pour améliorer davantage la qualité de l'audio généré, nous introduisons une nouvelle méthode de réévaluation dans laquelle nous exploitons un modèle pré-entraîné externe pour réévaluer et classer les prédictions de MAGNeT, qui seront ensuite utilisées pour les étapes de décodage ultérieures. Enfin, nous explorons une version hybride de MAGNeT, dans laquelle nous fusionnons des modèles autorégressifs et non-autorégressifs pour générer les premières secondes de manière autorégressive tandis que le reste de la séquence est décodé en parallèle. Nous démontrons l'efficacité de MAGNeT pour les tâches de génération de texte-à-musique et de texte-à-audio et menons une évaluation empirique approfondie, en considérant à la fois des métriques objectives et des études humaines. L'approche proposée est comparable aux bases de référence évaluées, tout en étant significativement plus rapide (x7 plus rapide que la base de référence autorégressive). Grâce à des études d'ablation et à des analyses, nous mettons en lumière l'importance de chacun des composants de MAGNeT, tout en soulignant les compromis entre la modélisation autorégressive et non-autorégressive, en considérant la latence, le débit et la qualité de génération. Des échantillons sont disponibles sur notre page de démonstration https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
L'attention linéaire est un mécanisme d'attention efficace qui a récemment émergé comme une alternative prometteuse à l'attention softmax conventionnelle. Grâce à sa capacité à traiter les tokens avec des complexités computationnelles linéaires, l'attention linéaire peut, en théorie, gérer des séquences de longueur illimitée sans sacrifier la vitesse, c'est-à-dire en maintenant une vitesse d'entraînement constante pour différentes longueurs de séquences avec une consommation de mémoire fixe. Cependant, en raison du problème lié à la sommation cumulative (cumsum), les algorithmes actuels d'attention linéaire ne peuvent pas démontrer leur avantage théorique dans un cadre causal. Dans cet article, nous présentons Lightning Attention-2, la première implémentation d'attention linéaire qui permet à l'attention linéaire de réaliser ses avantages computationnels théoriques. Pour y parvenir, nous exploitons l'idée de la division en tuiles, en traitant séparément les composants intra-blocs et inter-blocs dans le calcul de l'attention linéaire. Plus précisément, nous utilisons le mécanisme de calcul d'attention conventionnel pour les intra-blocs et appliquons des astuces de noyau d'attention linéaire pour les inter-blocs. Une technique de division en tuiles est adoptée à la fois dans les procédures avant et arrière pour tirer pleinement parti du matériel GPU. Nous implémentons notre algorithme dans Triton pour le rendre conscient des entrées-sorties (IO-aware) et adapté au matériel. Diverses expériences sont menées sur différentes tailles de modèles et longueurs de séquences. Lightning Attention-2 conserve une vitesse d'entraînement et d'inférence constante quelle que soit la longueur de la séquence d'entrée et est significativement plus rapide que les autres mécanismes d'attention. Le code source est disponible à l'adresse https://github.com/OpenNLPLab/lightning-attention.
Le raisonnement basé sur les tables avec les grands modèles de langage (LLMs) est une direction prometteuse pour aborder de nombreuses tâches de compréhension des tables, telles que la réponse à des questions basées sur des tables et la vérification de faits. Par rapport au raisonnement générique, le raisonnement basé sur les tables nécessite l'extraction de la sémantique sous-jacente à la fois à partir de questions en langage naturel et de données tabulaires semi-structurées. La méthode Chain-of-Thought et ses approches similaires intègrent la chaîne de raisonnement sous forme de contexte textuel, mais il reste une question ouverte de savoir comment exploiter efficacement les données tabulaires dans la chaîne de raisonnement. Nous proposons le cadre Chain-of-Table, où les données tabulaires sont explicitement utilisées dans la chaîne de raisonnement comme un proxy pour les pensées intermédiaires. Plus précisément, nous guidons les LLMs en utilisant l'apprentissage en contexte pour générer itérativement des opérations et mettre à jour la table afin de représenter une chaîne de raisonnement tabulaire. Les LLMs peuvent ainsi planifier dynamiquement la prochaine opération en fonction des résultats des précédentes. Cette évolution continue de la table forme une chaîne, montrant le processus de raisonnement pour un problème tabulaire donné. La chaîne porte des informations structurées sur les résultats intermédiaires, permettant des prédictions plus précises et fiables. Chain-of-Table atteint de nouvelles performances de pointe sur les benchmarks WikiTQ, FeTaQA et TabFact pour plusieurs choix de LLMs.
Un saut de montage introduit un changement abrupt, parfois indésirable, dans l'expérience visuelle. Nous présentons un nouveau cadre pour lisser ces sauts de montage, dans le contexte des vidéos de type "talking head". Nous exploitons l'apparence du sujet à partir des autres images sources de la vidéo, en la fusionnant avec une représentation de niveau intermédiaire guidée par les points clés DensePose et les repères faciaux. Pour obtenir un mouvement fluide, nous interpolons les points clés et les repères entre les images de fin autour du saut. Nous utilisons ensuite un réseau de traduction d'images à partir des points clés et des images sources pour synthétiser les pixels. Comme les points clés peuvent contenir des erreurs, nous proposons un mécanisme d'attention croisée pour sélectionner et choisir la source la plus appropriée parmi plusieurs options pour chaque point clé. En exploitant cette représentation de niveau intermédiaire, notre méthode permet d'obtenir des résultats supérieurs à une base solide d'interpolation vidéo. Nous démontrons notre méthode sur divers sauts de montage dans les vidéos de type "talking head", tels que la suppression de mots de remplissage, de pauses, et même de sauts aléatoires. Nos expériences montrent que nous pouvons réaliser des transitions fluides, même dans les cas difficiles où le sujet tourne ou se déplace de manière significative lors du saut de montage.
Les applications des réseaux de neuronaux dans les domaines de la vision et de la vision-langage, telles que la classification d'images et la génération de légendes, reposent sur des ensembles de données annotées à grande échelle qui nécessitent des processus de collecte de données complexes. Cette entreprise chronophage entrave l'émergence de jeux de données à grande échelle, limitant les chercheurs et les praticiens à un nombre restreint d'options. Par conséquent, nous cherchons des moyens plus efficaces de collecter et d'annoter des images. Des initiatives précédentes ont rassemblé des légendes à partir des textes alternatifs HTML et des publications sur les réseaux sociaux, mais ces sources de données souffrent de bruit, de rareté ou de subjectivité. Pour cette raison, nous nous tournons vers les sites de commerce en ligne dont les données répondent à trois critères : propreté, informativité et fluidité. Nous présentons le jeu de données Let's Go Shopping (LGS), un ensemble de données public à grande échelle comprenant 15 millions de paires image-légende provenant de sites de commerce en ligne accessibles au public. Comparé aux jeux de données généralistes existants, les images de LGS se concentrent sur l'objet au premier plan et présentent des arrière-plans moins complexes. Nos expériences sur LGS montrent que les classificateurs entraînés sur les ensembles de données de référence existants ne se généralisent pas facilement aux données de commerce en ligne, tandis que des extracteurs de caractéristiques visuelles auto-supervisés spécifiques peuvent mieux généraliser. De plus, la nature bimodale et la haute qualité des images axées sur le commerce en ligne de LGS en font un atout pour les tâches bimodales vision-langage : LGS permet aux modèles de génération de légendes d'images de produire des descriptions plus riches et aide les modèles de génération d'images à partir de texte à réaliser un transfert de style adapté au commerce en ligne.
Les questions factuelles peuvent généralement être répondues correctement à différents niveaux de granularité. Par exemple, « 4 août 1961 » et « 1961 » sont tous deux des réponses correctes à la question « Quand Barack Obama est-il né ? ». Cependant, les protocoles d'évaluation standard des systèmes de question-réponse (QA) ne prennent pas explicitement cela en compte et comparent une réponse prédite à des réponses d'un seul niveau de granularité. Dans ce travail, nous proposons GRANOLA QA, un nouveau cadre d'évaluation dans lequel une réponse prédite est évaluée en termes de précision et d'informativité par rapport à un ensemble de réponses multi-granularité. Nous présentons une méthodologie simple pour enrichir les jeux de données existants avec des réponses multi-granularité, et créons GRANOLA-EQ, une version multi-granularité du jeu de données EntityQuestions. Nous évaluons une gamme de méthodes de décodage sur GRANOLA-EQ, y compris un nouvel algorithme, appelé Décodage avec Agrégation de Réponses (DRAG), qui vise à aligner la granularité de la réponse avec l'incertitude du modèle. Nos expériences montrent que les grands modèles de langage avec un décodage standard ont tendance à générer des réponses spécifiques, qui sont souvent incorrectes. En revanche, lorsqu'ils sont évalués sur des réponses multi-granularité, DRAG permet une augmentation de près de 20 points en précision en moyenne, qui s'accroît encore pour les entités rares. Globalement, cela révèle que les schémas d'évaluation et de décodage standards peuvent sous-estimer de manière significative les connaissances encapsulées dans les modèles de langage.
Malgré le potentiel des modèles de diffusion dans l'amélioration de la parole, leur déploiement dans l'annulation d'écho acoustique (AEC) a été limité. Dans cet article, nous proposons DI-AEC, une approche pionnière de régénération stochastique basée sur la diffusion dédiée à l'AEC. De plus, nous proposons FADI-AEC, un cadre rapide d'annulation d'écho basé sur la diffusion et les scores, permettant de réduire les exigences computationnelles, ce qui le rend favorable pour les appareils périphériques. Il se distingue en exécutant le modèle de score une seule fois par trame, obtenant ainsi une augmentation significative de l'efficacité du traitement. Par ailleurs, nous introduisons une nouvelle technique de génération de bruit où les signaux distants sont utilisés, incorporant à la fois les signaux distants et proches pour affiner la précision du modèle de score. Nous testons notre méthode proposée sur le jeu de données d'évaluation du défi d'annulation d'écho profond Microsoft ICASSP2023, où notre méthode surpasse certaines des méthodes end-to-end et d'autres méthodes d'annulation d'écho basées sur la diffusion.