Articles de recherche en IA sélectionnés quotidiennement avec traductions
Amphion est une boîte à outils dédiée à la génération audio, musicale et vocale. Son objectif est de soutenir la recherche reproductible et d'aider les chercheurs et ingénieurs débutants à s'initier au domaine de la recherche et du développement en génération audio, musicale et vocale. Amphion propose une fonctionnalité unique : des visualisations de modèles ou architectures classiques. Nous pensons que ces visualisations sont bénéfiques pour les chercheurs et ingénieurs débutants souhaitant mieux comprendre les modèles. L'objectif principal d'Amphion est d'offrir une plateforme pour étudier la conversion de n'importe quelles entrées en audio général. Amphion est conçu pour prendre en charge des tâches de génération individuelles. En plus des tâches de génération spécifiques, Amphion inclut également plusieurs vocodeurs et métriques d'évaluation. Un vocodeur est un module essentiel pour produire des signaux audio de haute qualité, tandis que les métriques d'évaluation sont cruciales pour garantir des mesures cohérentes dans les tâches de génération. Dans cet article, nous fournissons une vue d'ensemble de haut niveau d'Amphion.
Répondre à des questions complexes en langage naturel nécessite souvent un raisonnement en plusieurs étapes et l'intégration d'informations externes. Plusieurs systèmes ont combiné la récupération de connaissances avec un modèle de langage de grande taille (LLM) pour répondre à de telles questions. Cependant, ces systèmes souffrent de divers cas d'échec, et nous ne pouvons pas les entraîner directement de bout en bout pour corriger ces échecs, car l'interaction avec des connaissances externes est non différentiable. Pour remédier à ces lacunes, nous définissons un agent LLM de style ReAct capable de raisonner et d'agir sur des connaissances externes. Nous affinons ensuite cet agent grâce à une méthode de type ReST qui entraîne itérativement sur les trajectoires précédentes, en utilisant un apprentissage par renforcement par lots croissants avec un retour d'information de l'IA pour une amélioration et une auto-distillation continues. En partant d'un grand modèle amorcé et après seulement deux itérations de l'algorithme, nous pouvons produire un petit modèle affiné qui atteint des performances comparables sur des benchmarks exigeants de question-réponse compositionnelle avec deux ordres de grandeur de paramètres en moins.
Les modèles de diffusion ont démontré un succès remarquable dans une variété de tâches génératives en aval, mais restent peu explorés dans le domaine important et complexe de la génération expressive de têtes parlantes. Dans ce travail, nous proposons un framework nommé DreamTalk pour combler cette lacune, qui utilise une conception minutieuse pour exploiter le potentiel des modèles de diffusion dans la génération de têtes parlantes expressives. Plus précisément, DreamTalk se compose de trois composants cruciaux : un réseau de débruitage, un expert labial sensible au style, et un prédicteur de style. Le réseau de débruitage basé sur la diffusion est capable de synthétiser de manière cohérente des mouvements faciaux de haute qualité pilotés par l'audio, couvrant une diversité d'expressions. Pour améliorer l'expressivité et la précision des mouvements labiaux, nous introduisons un expert labial sensible au style qui peut guider la synchronisation labiale tout en tenant compte des styles de parole. Pour éliminer le besoin d'une vidéo ou d'un texte de référence pour l'expression, un prédicteur de style supplémentaire basé sur la diffusion est utilisé pour prédire directement l'expression cible à partir de l'audio. De cette manière, DreamTalk peut exploiter les puissants modèles de diffusion pour générer efficacement des visages expressifs et réduire la dépendance aux références de style coûteuses. Les résultats expérimentaux démontrent que DreamTalk est capable de générer des visages parlants photo-réalistes avec divers styles de parole et d'atteindre des mouvements labiaux précis, surpassant les contreparties existantes de l'état de l'art.
Le modèle Segment Anything (SAM) aborde deux tâches de segmentation pratiques mais complexes : Segment Anything (SegAny), qui utilise un point spécifique pour prédire le masque d'un seul objet d'intérêt, et Segment Everything (SegEvery), qui prédit les masques de tous les objets présents dans l'image. Ce qui rend SegAny lent pour SAM est son encodeur d'image lourd, un problème résolu par MobileSAM via une distillation de connaissances découplée. Cependant, le goulot d'étranglement en termes d'efficacité pour SegEvery avec SAM réside dans son décodeur de masques, car il doit d'abord générer de nombreux masques avec des invites de recherche en grille redondantes, puis effectuer un filtrage pour obtenir les masques valides finaux. Nous proposons d'améliorer son efficacité en générant directement les masques finaux avec uniquement des invites valides, qui peuvent être obtenues via la découverte d'objets. Notre approche proposée permet non seulement de réduire le temps total sur le décodeur de masques d'au moins 16 fois, mais elle atteint également des performances supérieures. Plus précisément, notre approche offre une amélioration moyenne de 3,6 % (42,5 % contre 38,9 %) pour la proposition d'objets zero-shot sur le jeu de données LVIS avec la métrique AR@K des masques. Les résultats qualitatifs montrent que notre approche génère des masques à granularité fine tout en évitant la sur-segmentation. Ce projet visant un SegEvery plus rapide que le SAM original est nommé MobileSAMv2 pour le différencier de MobileSAM qui cible un SegAny plus rapide. De plus, nous démontrons que notre nouvel échantillonnage d'invites est également compatible avec les encodeurs d'image distillés dans MobileSAM, contribuant à un cadre unifié pour un SegAny et SegEvery efficaces. Le code est disponible au même lien que le projet MobileSAM : https://github.com/ChaoningZhang/MobileSAM.
Cet article ne vise pas à innover au sein du mécanisme d'attention. Il se concentre plutôt sur la résolution des compromis existants entre précision et efficacité dans le contexte du traitement de nuages de points, en exploitant la puissance de l'échelle. S'inspirant des récentes avancées en apprentissage de représentations 3D à grande échelle, nous reconnaissons que la performance des modèles est davantage influencée par l'échelle que par une conception complexe. Par conséquent, nous présentons Point Transformer V3 (PTv3), qui privilégie la simplicité et l'efficacité plutôt que la précision de certains mécanismes mineurs pour la performance globale après mise à l'échelle, comme le remplacement de la recherche précise de voisins par KNN par un mappage efficace et sérialisé des voisins de nuages de points organisés selon des motifs spécifiques. Ce principe permet une mise à l'échelle significative, étendant le champ réceptif de 16 à 1024 points tout en restant efficace (une augmentation de 3x de la vitesse de traitement et une amélioration de 10x de l'efficacité mémoire par rapport à son prédécesseur, PTv2). PTv3 obtient des résultats de pointe sur plus de 20 tâches en aval couvrant à la fois des scénarios intérieurs et extérieurs. Enrichi par un entraînement conjoint sur plusieurs jeux de données, PTv3 pousse ces résultats à un niveau supérieur.
L'un des composants clés des modèles de diffusion est l'UNet pour la prédiction du bruit. Bien que plusieurs travaux aient exploré les propriétés de base du décodeur de l'UNet, son encodeur reste largement inexploré. Dans ce travail, nous menons la première étude approfondie de l'encodeur de l'UNet. Nous analysons empiriquement les caractéristiques de l'encodeur et apportons des éclairages sur des questions importantes concernant leurs évolutions lors du processus d'inférence. En particulier, nous constatons que les caractéristiques de l'encodeur changent doucement, tandis que celles du décodeur présentent des variations substantielles à travers les différentes étapes temporelles. Cette observation nous a inspirés à omettre l'encodeur à certaines étapes temporelles adjacentes et à réutiliser cycliquement les caractéristiques de l'encodeur des étapes précédentes pour le décodeur. Sur la base de cette observation, nous introduisons un schéma de propagation de l'encodeur simple mais efficace pour accélérer l'échantillonnage de diffusion pour un ensemble diversifié de tâches. En tirant parti de notre schéma de propagation, nous sommes en mesure d'exécuter en parallèle le décodeur à certaines étapes temporelles adjacentes. De plus, nous introduisons une méthode d'injection de bruit a priori pour améliorer les détails texturaux dans l'image générée. Outre la tâche standard de génération texte-à-image, nous validons également notre approche sur d'autres tâches : texte-à-vidéo, génération personnalisée et génération guidée par référence. Sans utiliser aucune technique de distillation de connaissances, notre approche accélère l'échantillonnage des modèles Stable Diffusion (SD) et DeepFloyd-IF respectivement de 41 % et 24 %, tout en maintenant une performance de génération de haute qualité. Notre code est disponible sur https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer imposent souvent des limitations sur la longueur des textes en entrée afin de garantir la génération de réponses fluides et pertinentes. Cette contrainte restreint leur applicabilité dans des scénarios impliquant des textes longs. Nous proposons une nouvelle méthode de compression sémantique qui permet une généralisation à des textes 6 à 8 fois plus longs, sans engendrer de coûts computationnels significatifs ni nécessiter de réentraînement. Notre cadre proposé s'inspire du codage de source en théorie de l'information et utilise un modèle pré-entraîné pour réduire la redondance sémantique des entrées longues avant de les transmettre aux LLMs pour des tâches en aval. Les résultats expérimentaux montrent que notre méthode étend efficacement la fenêtre contextuelle des LLMs pour une gamme de tâches incluant la réponse à des questions, la synthèse, l'apprentissage en few-shot et la recherche d'information. De plus, la méthode de compression sémantique proposée maintient une fluidité constante dans la génération de texte tout en réduisant la surcharge computationnelle associée.
Nous démontrons que les méthodes non supervisées existantes appliquées aux activations des grands modèles de langage (LLM) ne permettent pas de découvrir des connaissances — elles semblent plutôt identifier la caractéristique la plus saillante des activations. L'idée sous-jacente à l'extraction non supervisée de connaissances est que celles-ci satisfont une structure de cohérence, qui peut être exploitée pour les découvrir. Nous prouvons d'abord théoriquement que des caractéristiques arbitraires (pas seulement les connaissances) satisfont la structure de cohérence d'une méthode d'extraction non supervisée de connaissances largement utilisée, la recherche contrastive cohérente (Burns et al. - arXiv:2212.03827). Nous présentons ensuite une série d'expériences montrant des contextes dans lesquels les méthodes non supervisées produisent des classificateurs qui ne prédisent pas des connaissances, mais plutôt une autre caractéristique saillante. Nous concluons que les méthodes non supervisées existantes pour découvrir des connaissances latentes sont insuffisantes, et nous proposons des vérifications de bon sens à appliquer pour évaluer les futures méthodes d'extraction de connaissances. Sur le plan conceptuel, nous émettons l'hypothèse que les problèmes d'identification explorés ici, par exemple distinguer les connaissances d'un modèle de celles d'un personnage simulé, persisteront pour les futures méthodes non supervisées.
Le Score Distillation Sampling (SDS) a démontré des performances remarquables dans la génération conditionnelle de contenu 3D. Cependant, une compréhension approfondie de la formulation du SDS fait encore défaut, ce qui entrave le développement de la génération 3D. Dans ce travail, nous proposons une interprétation du SDS comme une combinaison de trois composants fonctionnels : des termes de désengagement de mode, de recherche de mode et de réduction de variance, et nous analysons les propriétés de chacun. Nous montrons que des problèmes tels que le lissage excessif et la saturation des couleurs résultent de lacunes intrinsèques des termes de supervision, et nous révélons que le terme de réduction de variance introduit par le SDS est sous-optimal. De plus, nous éclairons l'adoption d'une échelle élevée de Classifier-Free Guidance (CFG) pour la génération 3D. Sur la base de cette analyse, nous proposons une approche simple mais efficace, nommée Stable Score Distillation (SSD), qui orchestre stratégiquement chaque terme pour une génération 3D de haute qualité. Des expériences approfondies valident l'efficacité de notre approche, démontrant sa capacité à générer du contenu 3D de haute fidélité sans succomber à des problèmes tels que le lissage excessif et la sursaturation, même dans des conditions de faible CFG avec la représentation NeRF la plus exigeante.
Le Neural Radiance Field (NeRF) et ses variantes ont récemment émergé comme des méthodes efficaces pour la synthèse de nouvelles vues et la reconstruction de scènes 3D. Cependant, la plupart des modèles NeRF actuels atteignent soit une grande précision en utilisant des tailles de modèles importantes, soit une efficacité mémoire élevée en sacrifiant la précision. Cela limite la portée applicable de tout modèle unique, car les modèles à haute précision pourraient ne pas tenir dans des dispositifs à mémoire limitée, et les modèles à efficacité mémoire pourraient ne pas répondre aux exigences de haute qualité. À cette fin, nous présentons SlimmeRF, un modèle qui permet des compromis instantanés au moment du test entre la taille du modèle et la précision grâce à un amincissement, rendant ainsi le modèle simultanément adapté à des scénarios avec différents budgets de calcul. Nous y parvenons grâce à un nouvel algorithme proposé, appelé Tensorial Rank Incrementation (TRaIn), qui augmente progressivement le rang de la représentation tensorielle du modèle pendant l'entraînement. Nous observons également que notre modèle permet des compromis plus efficaces dans des scénarios de vues éparses, atteignant parfois une précision plus élevée après avoir été aminci. Nous attribuons cela au fait que des informations erronées, telles que des artefacts flottants, ont tendance à être stockées dans les composants correspondant à des rangs plus élevés. Notre implémentation est disponible à l'adresse https://github.com/Shiran-Yuan/SlimmeRF.
Les ensembles de données conversationnelles de haute qualité sont essentiels pour développer des modèles d'IA capables de communiquer avec les utilisateurs. Une manière de favoriser des interactions plus profondes entre un chatbot et son utilisateur est d'utiliser des personas, des aspects du caractère de l'utilisateur qui fournissent des insights sur leur personnalité, motivations et comportements. L'entraînement de modèles de traitement du langage naturel (NLP) sur un ensemble de données diversifié et complet basé sur des personas peut conduire à des modèles conversationnels qui créent un lien plus profond avec l'utilisateur et maintiennent son engagement. Dans cet article, nous exploitons la puissance des modèles de langage de grande taille (LLMs) pour créer un vaste ensemble de données conversationnelles de haute qualité à partir d'un ensemble de données initial. Nous proposons un cadre d'architecture Générateur-Critique pour étendre l'ensemble de données initial tout en améliorant la qualité de ses conversations. Le Générateur est un LLM incité à produire des conversations. Le Critique consiste en un mélange de LLMs experts qui contrôlent la qualité des conversations générées. Ces experts sélectionnent les meilleures conversations générées, que nous utilisons ensuite pour améliorer le Générateur. Nous publions Synthetic-Persona-Chat, composé de 20 000 conversations issues de Persona-Chat. Nous évaluons la qualité de Synthetic-Persona-Chat et de notre cadre de génération sur différentes dimensions à travers des expériences approfondies, et observons que le taux de perte de Synthetic-Persona-Chat contre Persona-Chat lors d'un test de Turing diminue de 17,2 % à 8,8 % sur trois itérations.
L'objectif de cette série est de documenter les opinions et les problématiques dans le domaine de l'apprentissage automatique telles qu'elles se présentent aujourd'hui et telles qu'elles évoluent au fil du temps. L'idée est de réaliser cette enquête périodiquement jusqu'à l'apocalypse hypothétique de la singularité IA, alimentée par une frénésie de trombones, en maintenant une liste actualisée de questions d'actualité et en interviewant de nouveaux membres de la communauté pour chaque édition. Dans ce numéro, nous avons sondé les opinions sur l'IA interprétable, la valeur des benchmarks dans le traitement du langage naturel moderne, l'état des progrès dans la compréhension de l'apprentissage profond, et l'avenir du monde académique.