Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles autorégressifs se sont imposés comme une approche puissante pour la génération visuelle, mais souffrent d'une vitesse d'inférence lente en raison de leur processus de prédiction séquentielle token par token. Dans cet article, nous proposons une approche simple mais efficace pour la génération visuelle autorégressive parallélisée qui améliore l'efficacité de la génération tout en préservant les avantages de la modélisation autorégressive. Notre insight clé est que la génération parallèle dépend des dépendances entre tokens visuels - les tokens avec des faibles dépendances peuvent être générés en parallèle, tandis que les tokens adjacents fortement dépendants sont difficiles à générer ensemble, car leur échantillonnage indépendant peut entraîner des incohérences. Sur la base de cette observation, nous développons une stratégie de génération parallèle qui génère des tokens distants avec de faibles dépendances en parallèle tout en maintenant une génération séquentielle pour les tokens locaux fortement dépendants. Notre approche peut être intégrée de manière transparente dans des modèles autorégressifs standard sans modifier l'architecture ou le tokenizer. Les expériences sur ImageNet et UCF-101 montrent que notre méthode permet d'atteindre un gain de vitesse de 3,6 fois avec une qualité comparable et jusqu'à 9,5 fois avec une dégradation minimale de la qualité pour les tâches de génération d'images et de vidéos. Nous espérons que ce travail inspirera des recherches futures dans la génération visuelle efficace et la modélisation autorégressive unifiée. Page du projet : https://epiphqny.github.io/PAR-project.
Améliorer la capacité de raisonnement à plusieurs étapes des grands modèles de langage (LLM) avec l'apprentissage par renforcement hors ligne (RL) est essentiel pour les adapter rapidement à des tâches complexes. Bien que l'Optimisation des Préférences Directes (DPO) ait montré des promesses en alignant les LLM avec les préférences humaines, elle est moins adaptée aux tâches de raisonnement à plusieurs étapes car (1) le DPO repose sur des données de préférence appariées, qui ne sont pas facilement disponibles pour les tâches de raisonnement à plusieurs étapes, et (2) il traite tous les tokens de manière uniforme, ce qui le rend inefficace pour l'attribution de crédit dans les tâches de raisonnement à plusieurs étapes, qui sont souvent associées à une récompense clairsemée. Dans ce travail, nous proposons OREO (Optimisation du Raisonnement Hors Ligne), une méthode RL hors ligne pour améliorer le raisonnement à plusieurs étapes des LLM. S'appuyant sur les enseignements des travaux précédents en matière d'apprentissage par renforcement à entropie maximale, il apprend conjointement un modèle de politique et une fonction de valeur en optimisant l'Équation de Bellman douce. Nous montrons en principe qu'il réduit le besoin de collecter des données par paires et permet une meilleure attribution de crédit. Empiriquement, OREO dépasse les méthodes d'apprentissage hors ligne existantes sur des référentiels de raisonnement à plusieurs étapes, y compris des tâches de raisonnement mathématique (GSM8K, MATH) et le contrôle d'agents incarnés (ALFWorld). L'approche peut être étendue à un cadre multi-itérations lorsque des ressources supplémentaires sont disponibles. De plus, la fonction de valeur apprise peut être exploitée pour guider la recherche arborescente gratuitement, ce qui peut encore améliorer les performances lors des tests.
Les Transformateurs à Diffusion (DiT) sont devenus une architecture de premier plan dans la génération d'images. Cependant, la complexité quadratique des mécanismes d'attention, qui sont responsables de la modélisation des relations entre jetons, entraîne une latence significative lors de la génération d'images haute résolution. Pour résoudre ce problème, nous visons un mécanisme d'attention linéaire dans cet article qui réduit la complexité des DiTs pré-entraînés à linéaire. Nous commençons notre exploration par un résumé complet des mécanismes d'attention efficaces existants et identifions quatre facteurs clés cruciaux pour la linéarisation réussie des DiTs pré-entraînés : la localité, la cohérence de la formulation, les cartes d'attention de haut rang et l'intégrité des caractéristiques. Sur la base de ces informations, nous introduisons une stratégie d'attention locale de type convolution appelée CLEAR, qui limite les interactions entre caractéristiques à une fenêtre locale autour de chaque jeton de requête, et atteint ainsi une complexité linéaire. Nos expériences indiquent que, en affinant la couche d'attention sur seulement 10 000 échantillons auto-générés pendant 10 000 itérations, nous pouvons transférer efficacement les connaissances d'un DiT pré-entraîné à un modèle étudiant avec une complexité linéaire, donnant des résultats comparables au modèle enseignant. En même temps, cela réduit les calculs d'attention de 99,5 % et accélère la génération de 6,3 fois pour la génération d'images de résolution 8K. De plus, nous étudions les propriétés favorables dans les couches d'attention distillées, telles que la généralisation sans apprentissage croisé entre différents modèles et plugins, et un meilleur support pour l'inférence parallèle multi-GPU. Les modèles et les codes sont disponibles ici : https://github.com/Huage001/CLEAR.
Le cache clé-valeur (KV) est devenu un goulot d'étranglement pour les LLMs dans la génération de contexte long. Malgré les nombreux efforts dans ce domaine, l'optimisation de la phase de décodage est généralement ignorée. Cependant, nous croyons que cette optimisation est cruciale, en particulier pour les tâches de génération de sortie longue, sur la base des deux observations suivantes : (i) une compression excessive pendant la phase de préremplissage, qui nécessite un contexte complet spécifique, nuit à la compréhension de la tâche de raisonnement ; (ii) une déviation des éléments les plus importants se produit dans les tâches de raisonnement avec des sorties longues. Par conséquent, SCOPE, un cadre simple mais efficace qui effectue séparément l'optimisation du cache KV pendant les phases de préremplissage et de décodage, est introduit. Plus précisément, le cache KV pendant la phase de préremplissage est préservé pour maintenir les informations essentielles, tandis qu'une nouvelle stratégie basée sur le glissement est proposée pour sélectionner les éléments les plus importants essentiels pour la phase de décodage. L'utilisation de la mémoire et le transfert de mémoire sont en outre optimisés en utilisant des stratégies adaptatives et discontinues. Des expériences approfondies sur LongGenBench montrent l'efficacité et la généralisation de SCOPE ainsi que sa compatibilité en tant que module complémentaire à d'autres méthodes de compression KV uniquement pour le préremplissage.
Nous proposons de synthétiser de l'audio de haute qualité et synchronisé, à partir de vidéos et de conditions textuelles optionnelles, en utilisant un nouveau cadre d'entraînement conjoint multimodal, MMAudio. Contrairement à l'entraînement unimodal conditionné uniquement sur des données vidéo (limitées), MMAudio est entraîné conjointement avec des données texte-audio à plus grande échelle et facilement disponibles pour apprendre à générer des échantillons audio de haute qualité alignés sémantiquement. De plus, nous améliorons la synchronisation audio-visuelle avec un module de synchronisation conditionnelle qui aligne les conditions vidéo avec les latents audio au niveau des images. Entraîné avec un objectif d'ajustement de flux, MMAudio atteint un nouvel état de l'art de la vidéo vers l'audio parmi les modèles publics en termes de qualité audio, d'alignement sémantique et de synchronisation audio-visuelle, tout en ayant un faible temps d'inférence (1,23s pour générer un extrait de 8s) et seulement 157M de paramètres. MMAudio atteint également des performances étonnamment compétitives dans la génération de texte vers audio, montrant que l'entraînement conjoint ne nuit pas aux performances unimodales. Le code et la démonstration sont disponibles sur : https://hkchengrex.github.io/MMAudio
Les grands modèles de langage multimodaux (MLLM) excellent dans la génération de légendes très détaillées mais produisent souvent des hallucinations. Notre analyse révèle que les méthodes existantes de détection d'hallucinations ont du mal avec les légendes détaillées. Nous attribuons cela à la dépendance croissante des MLLMs à leur texte généré, plutôt qu'à l'image d'entrée, à mesure que la longueur de la séquence augmente. Pour résoudre ce problème, nous proposons une approche multi-agent qui exploite la collaboration LLM-MLLM pour corriger les légendes données. De plus, nous introduisons un cadre d'évaluation et un ensemble de données de référence pour faciliter l'analyse systématique des légendes détaillées. Nos expériences montrent que notre méthode d'évaluation proposée est mieux alignée avec les jugements humains de la factualité que les métriques existantes et que les approches actuelles pour améliorer la factualité des MLLM peuvent être insuffisantes dans les tâches de légendage d'images hyper-détaillées. En revanche, notre méthode proposée améliore significativement l'exactitude factuelle des légendes, améliorant même celles générées par GPT-4V. Enfin, nous soulignons une limitation de l'évaluation centrée sur VQA en démontrant que la performance d'un MLLM sur les référentiels VQA peut ne pas être corrélée avec sa capacité à générer des légendes d'images détaillées.
La quantification est devenue l'une des méthodologies les plus efficaces pour compresser les LLM en une taille plus petite. Cependant, les solutions de quantification existantes montrent encore des limitations, soit une baisse de précision non négligeable, soit une inefficacité du système. Dans cet article, nous effectuons une analyse approfondie des principes généraux de quantification sur leur effet sur le triangle de précision, de consommation de mémoire et d'efficacité du système. Nous proposons MixLLM qui explore le nouvel espace d'optimisation de la quantification à précision mixte entre les caractéristiques de sortie, en se basant sur l'idée que différentes caractéristiques de sortie ont une importance différente dans le modèle. MixLLM identifie les caractéristiques de sortie ayant une forte saillance dans la vue globale plutôt que dans chaque couche individuelle, attribuant efficacement une largeur de bits plus grande aux caractéristiques de sortie qui en ont le plus besoin pour obtenir une bonne précision avec une faible consommation de mémoire. Nous présentons le point optimal de configuration de quantification de la co-conception algorithme-système qui conduit à une haute précision et une efficacité du système. Pour relever le défi du système, nous concevons la déquantification en deux étapes pour utiliser facilement le Tensor Core int8 et la conversion rapide des types de données pour réduire significativement les surcoûts de déquantification, et présentons le pipeline logiciel pour superposer l'accès mémoire, la déquantification et le MatMul de la meilleure façon possible. Des expériences approfondies montrent qu'avec seulement 10% de bits supplémentaires, l'augmentation de PPL peut être réduite d'environ 0,5 dans l'état de l'art à environ 0,2 pour Llama 3.1 70B, tandis que en moyenne MMLU-Pro s'améliore de 0,93 par rapport à l'état de l'art de trois modèles populaires. En plus de sa précision supérieure, MixLLM atteint également une efficacité système de pointe.
Nous proposons un nouveau bloc pour la modélisation vidéo. Il repose sur une factorisation temps-espace-canal avec des blocs dédiés pour chaque dimension : des unités récurrentes linéaires à portes (LRUs) effectuent un mélange d'informations dans le temps, des couches d'auto-attention effectuent un mélange dans l'espace, et des MLPs dans les canaux. L'architecture résultante TRecViT donne de bons résultats sur des tâches clairsemées et denses, formées en régimes supervisés ou auto-supervisés. Notamment, notre modèle est causal et surpasse ou est au niveau d'un modèle d'attention pure ViViT-L sur des ensembles de données vidéo à grande échelle (SSv2, Kinetics400), tout en ayant 3 fois moins de paramètres, une empreinte mémoire 12 fois plus petite et un compte FLOPs 5 fois inférieur. Le code et les points de contrôle seront disponibles en ligne sur https://github.com/google-deepmind/trecvit.
La super-résolution 3D vise à reconstruire des modèles 3D haute fidélité à partir d'images multi-vues de basse résolution (LR). Les premières études se sont principalement concentrées sur les modèles de super-résolution d'image unique (SISR) pour augmenter la résolution des images LR en images haute résolution. Cependant, ces méthodes manquent souvent de cohérence de vue car elles opèrent de manière indépendante sur chaque image. Bien que diverses techniques de post-traitement aient été largement explorées pour atténuer ces incohérences, elles n'ont pas encore résolu pleinement les problèmes. Dans cet article, nous menons une étude approfondie de la super-résolution 3D en exploitant les modèles de super-résolution vidéo (VSR). En utilisant les modèles VSR, nous garantissons un plus haut degré de cohérence spatiale et pouvons faire référence à des informations spatiales environnantes, ce qui conduit à des reconstructions plus précises et détaillées. Nos résultats révèlent que les modèles VSR peuvent donner des performances remarquables même sur des séquences dépourvues d'alignement spatial précis. Sur la base de cette observation, nous proposons une approche simple mais pratique pour aligner les images LR sans impliquer de fine-tuning ou générer une trajectoire "lisse" à partir des modèles 3D entraînés sur les images LR. Les résultats expérimentaux montrent que des algorithmes étonnamment simples peuvent atteindre les meilleurs résultats de super-résolution 3D sur des ensembles de données de référence standard, tels que les ensembles de données NeRF-synthétiques et MipNeRF-360. Page du projet : https://ko-lani.github.io/Sequence-Matters
Dans ce travail, nous proposons un cadre de résumé Multi-LLM et étudions deux stratégies Multi-LLM différentes, à savoir centralisée et décentralisée. Notre cadre de résumé Multi-LLM comporte deux étapes fondamentales à chaque tour de conversation : la génération et l'évaluation. Ces étapes diffèrent selon que notre résumé Multi-LLM décentralisé ou centralisé est utilisé. Dans nos deux stratégies Multi-LLM décentralisée et centralisée, nous avons k LLM différents qui génèrent des résumés divers du texte. Cependant, lors de l'évaluation, notre approche de résumé Multi-LLM centralisé exploite un seul LLM pour évaluer les résumés et sélectionner le meilleur, tandis que k LLM sont utilisés pour le résumé Multi-LLM décentralisé. Dans l'ensemble, nous constatons que nos approches de résumé Multi-LLM surpassent significativement les références qui n'utilisent qu'un seul LLM, jusqu'à 3 fois. Ces résultats indiquent l'efficacité des approches Multi-LLM pour le résumé.
Créer un avatar 3D animable en corps entier à haute fidélité à partir d'une seule image est une tâche complexe en raison de l'apparence et des poses variées des humains, ainsi que de la disponibilité limitée de données d'entraînement de haute qualité. Pour parvenir à une reconstruction humaine rapide et de haute qualité, ce travail repense la tâche du point de vue de l'ensemble de données, du modèle et de la représentation. Tout d'abord, nous introduisons un ensemble de données généré centré sur l'humain à grande échelle, HuGe100K, composé de 100 000 ensembles divers d'images humaines photoréalistes. Chaque ensemble contient des images de 24 vues dans des poses humaines spécifiques, générées à l'aide d'un modèle d'image à plusieurs vues contrôlable par la pose. Ensuite, en exploitant la diversité des points de vue, des poses et des apparences au sein de HuGe100K, nous développons un modèle de transformateur feed-forward évolutif pour prédire une représentation humaine 3D gaussienne dans un espace uniforme à partir d'une image humaine donnée. Ce modèle est entraîné à démêler la pose humaine, la forme du corps, la géométrie des vêtements et la texture. Les gaussiennes estimées peuvent être animées sans post-traitement. Nous menons des expériences approfondies pour valider l'efficacité de l'ensemble de données et de la méthode proposée. Notre modèle démontre la capacité de reconstruire efficacement des humains photoréalistes en résolution 1K à partir d'une seule image d'entrée en utilisant une seule GPU instantanément. De plus, il prend en charge de manière transparente diverses applications, ainsi que des tâches d'édition de forme et de texture.
Cet article présente Fietje, une famille de petits modèles de langage (SLM) spécifiquement conçus pour la langue néerlandaise. Le modèle est basé sur Phi 2, un modèle centré sur l'anglais de 2,7 milliards de paramètres. Fietje a démontré des résultats compétitifs avec des modèles de langage plus grands dès sa sortie. Un accent central de ce travail est la transparence et la reproductibilité : Fietje est entièrement open-source, avec les poids du modèle, les ensembles de données, l'entraînement et le code d'évaluation tous accessibles au public. L'article discute des performances de Fietje et de nombreux autres modèles sur une suite d'évaluations étendue de benchmarks sur le raisonnement, l'analyse de sentiment, la connaissance du monde, l'acceptabilité linguistique et la désambiguïsation des sens des mots. Les résultats d'évaluation illustrent les progrès rapides dans le domaine des LLM, où les récents petits modèles surpassent les anciens modèles plus grands qui étaient affinés pour le néerlandais. Cette tendance annonce un avenir passionnant pour le traitement de la langue néerlandaise, suggérant que même les LLM compacts deviennent de plus en plus performants. De plus, les efforts actuels et futurs pour adapter les LLM au néerlandais sont prêts à améliorer encore davantage ces modèles, élargissant leur applicabilité et leur accessibilité. Fietje n'est qu'une étape intermédiaire dans l'amélioration de l'accessibilité à la technologie linguistique pour les utilisateurs de la langue néerlandaise.
La création de Large Language Models (LLMs) sûrs dans plusieurs langues est essentielle pour garantir à la fois un accès sécurisé et une diversité linguistique. À cette fin, nous présentons M-ALERT, un banc d'essai multilingue qui évalue la sécurité des LLMs dans cinq langues : anglais, français, allemand, italien et espagnol. M-ALERT comprend 15 000 exemples de haute qualité par langue, totalisant 75 000, suivant la taxonomie détaillée ALERT. Nos expériences approfondies sur 10 LLMs de pointe soulignent l'importance de l'analyse de sécurité spécifique à chaque langue, révélant que les modèles présentent souvent des incohérences significatives en matière de sécurité entre les langues et les catégories. Par exemple, Llama3.2 montre une unsécurité élevée dans la catégorie crime_tax pour l'italien mais reste sûr dans les autres langues. Des différences similaires peuvent être observées sur l'ensemble des modèles. En revanche, certaines catégories, telles que substance_cannabis et crime_propaganda, déclenchent systématiquement des réponses non sécurisées dans tous les modèles et langues. Ces résultats soulignent la nécessité de pratiques de sécurité multilingues robustes dans les LLMs pour garantir une utilisation sûre et responsable au sein de diverses communautés d'utilisateurs.