Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLM) ont révolutionné le traitement du langage naturel (NLP), améliorant l'état de l'art sur de nombreuses tâches existantes et démontrant des capacités émergentes. Cependant, les LLM n'ont pas encore été appliqués avec succès à l'extraction d'informations à partir de documents semi-structurés, une tâche centrale dans de nombreux flux de traitement de documents qui consiste à extraire des entités clés d'un document visuellement riche (VRD) selon un schéma cible prédéfini. Les principaux obstacles à l'adoption des LLM pour cette tâche sont l'absence d'encodage de la mise en page dans les LLM, essentiel pour une extraction de haute qualité, et le manque d'un mécanisme d'ancrage garantissant que la réponse n'est pas hallucinée. Dans cet article, nous présentons LMDX (Language Model-based Document Information Extraction and Localization), une méthodologie pour adapter des LLM arbitraires à l'extraction d'informations documentaires. LMDX permet l'extraction d'entités singulières, répétées et hiérarchiques, avec ou sans données d'entraînement, tout en fournissant des garanties d'ancrage et en localisant les entités dans le document. En particulier, nous appliquons LMDX au LLM PaLM 2-S et l'évaluons sur les benchmarks VRDU et CORD, établissant un nouvel état de l'art et montrant comment LMDX permet la création d'analyseurs de haute qualité et efficaces en termes de données.
Dans cet article, nous révélons le potentiel inexploité du U-Net de diffusion, qui sert de "repas gratuit" améliorant considérablement la qualité de génération à la volée. Nous étudions d'abord les contributions clés de l'architecture U-Net au processus de débruitage et identifions que son squelette principal contribue principalement au débruitage, tandis que ses connexions skip introduisent principalement des caractéristiques haute fréquence dans le module de décodeur, ce qui amène le réseau à négliger la sémantique du squelette. En capitalisant sur cette découverte, nous proposons une méthode simple mais efficace, appelée "FreeU", qui améliore la qualité de génération sans nécessiter d'entraînement ou de réglage supplémentaire. Notre idée clé est de rééquilibrer stratégiquement les contributions provenant des connexions skip et des cartes de caractéristiques du squelette du U-Net, afin de tirer parti des forces des deux composants de l'architecture U-Net. Des résultats prometteurs sur les tâches de génération d'images et de vidéos démontrent que notre FreeU peut être facilement intégré aux modèles de diffusion existants, tels que Stable Diffusion, DreamBooth, ModelScope, Rerender et ReVersion, pour améliorer la qualité de génération avec seulement quelques lignes de code. Tout ce dont vous avez besoin est d'ajuster deux facteurs d'échelle lors de l'inférence. Page du projet : https://chenyangsi.top/FreeU/.
Cet article présente DreamLLM, un cadre d'apprentissage qui réalise pour la première fois des modèles de langage multimodaux (MLLMs) polyvalents, renforcés par la synergie souvent négligée entre la compréhension et la création multimodales. DreamLLM repose sur deux principes fondamentaux. Le premier se concentre sur la modélisation générative des distributions a posteriori du langage et des images par échantillonnage direct dans l'espace multimodal brut. Cette approche contourne les limitations et la perte d'information inhérentes aux extracteurs de caractéristiques externes comme CLIP, permettant ainsi une compréhension multimodale plus approfondie. Deuxièmement, DreamLLM favorise la génération de documents bruts entrelacés, modélisant à la fois les contenus textuels et visuels, ainsi que les mises en page non structurées. Cela permet à DreamLLM d'apprendre efficacement toutes les distributions multimodales conditionnelles, marginales et conjointes. En conséquence, DreamLLM est le premier MLLM capable de générer du contenu entrelacé libre. Des expériences approfondies mettent en évidence les performances supérieures de DreamLLM en tant que généraliste multimodal zero-shot, bénéficiant de la synergie d'apprentissage améliorée.
Nous présentons Kosmos-2.5, un modèle lettré multimodal pour la lecture automatique d'images riches en texte. Pré-entraîné sur un large corpus d'images textuellement denses, Kosmos-2.5 excelle dans deux tâches de transcription distinctes mais complémentaires : (1) la génération de blocs de texte spatialement conscients, où chaque bloc se voit attribuer ses coordonnées spatiales au sein de l'image, et (2) la production de sorties textuelles structurées qui captent les styles et les structures au format markdown. Cette capacité lettrée multimodale unifiée est obtenue grâce à une architecture Transformer partagée, des prompts spécifiques aux tâches et des représentations textuelles flexibles. Nous évaluons Kosmos-2.5 sur la reconnaissance de texte au niveau du document et la génération de texte image-vers-markdown. De plus, le modèle peut être facilement adapté à toute tâche de compréhension d'images riches en texte avec différents prompts via un réglage fin supervisé, en faisant un outil polyvalent pour les applications réelles impliquant des images textuellement denses. Ce travail ouvre également la voie à un futur passage à l'échelle des grands modèles de langage multimodaux.
La génération d'informations factuelles plausibles mais incorrectes, appelée hallucination, constitue un problème non résolu dans les grands modèles de langage. Nous étudions la capacité des modèles de langage à réfléchir sur les réponses qu'ils donnent afin de corriger leurs erreurs. Nous développons la méthode Chain-of-Verification (CoVe) dans laquelle le modèle (i) rédige d'abord une réponse initiale ; puis (ii) planifie des questions de vérification pour valider son projet de réponse ; (iii) répond à ces questions de manière indépendante afin que les réponses ne soient pas biaisées par d'autres éléments ; et (iv) génère sa réponse finale vérifiée. Dans les expériences, nous montrons que CoVe réduit les hallucinations dans une variété de tâches, allant des questions basées sur des listes issues de Wikidata, au MultiSpanQA en mode fermé, jusqu'à la génération de textes longs.
La communauté de l'IA a réalisé des progrès significatifs dans le développement de modèles de base puissants, alimentés par des ensembles de données multimodales à grande échelle. Cependant, dans le domaine de l'apprentissage de représentations audio, les ensembles de données audio-langage actuels souffrent de limitations telles qu'un volume insuffisant, un contenu simpliste et des procédures de collecte laborieuses. Pour relever ces défis, nous présentons un pipeline innovant et automatique de génération de légendes audio basé sur une série d'outils publics ou d'API, et construisons un ensemble de données audio-langage à grande échelle et de haute qualité, nommé Auto-ACD, comprenant plus de 1,9 million de paires audio-texte. Pour démontrer l'efficacité de l'ensemble de données proposé, nous entraînons des modèles populaires sur notre ensemble de données et montrons une amélioration des performances sur diverses tâches en aval, à savoir la recherche audio-langage, la génération de légendes audio et la classification de l'environnement. En outre, nous établissons un nouvel ensemble de test et fournissons un benchmark pour les tâches audio-texte. L'ensemble de données proposé sera disponible à l'adresse https://auto-acd.github.io/.
Ces dernières années, les modèles de langage de grande taille (LLMs) ont suscité un intérêt considérable de la part de la communauté de recherche en raison de leurs performances exceptionnelles et de leurs capacités de généralisation. Dans cet article, nous présentons une nouvelle méthode pour contextualiser les modèles de reconnaissance vocale en intégrant des LLMs. Notre approche reformule la reconnaissance vocale comme une tâche de modélisation du langage multimodale basée sur un LLM pré-entraîné. Nous fournissons des caractéristiques audio, ainsi que des tokens textuels optionnels pour le contexte, afin d'entraîner le système à compléter les transcriptions de manière décodage uniquement. Par conséquent, le système est implicitement incité à apprendre à exploiter des informations contextuelles non structurées pendant l'entraînement. Nos résultats empiriques montrent une amélioration significative des performances, avec une réduction de 6 % du taux d'erreur de mots (WER) lorsque du contexte textuel supplémentaire est fourni. De plus, nous constatons que notre méthode se comporte de manière compétitive et améliore de 7,5 % le WER global et de 17 % le WER sur les mots rares par rapport à un système RNN-T contextualisé de référence qui a été entraîné sur un ensemble de données vocales plus de vingt-cinq fois plus volumineux. Globalement, nous démontrons qu'en ajoutant seulement un petit nombre de paramètres entraînables via des adaptateurs, nous pouvons débloquer la capacité de reconnaissance vocale contextualisée pour le LLM pré-entraîné tout en conservant la même fonctionnalité d'entrée textuelle uniquement.
La Languini Kitchen fonctionne à la fois comme un collectif de recherche et une base de code, conçue pour permettre aux chercheurs disposant de ressources computationnelles limitées de contribuer de manière significative au domaine de la modélisation du langage. Nous introduisons un protocole expérimental qui permet de comparer les modèles sur la base d'une quantité équivalente de calcul, mesurée en heures d'accélérateur. Le nombre de tokens sur lesquels un modèle est entraîné est déterminé par le débit du modèle et la classe de calcul choisie. Notamment, cette approche évite les contraintes sur les hyperparamètres critiques qui affectent le nombre total de paramètres ou les opérations en virgule flottante. Pour l'évaluation, nous prétraitons un ensemble de données existant, vaste, diversifié et de haute qualité, composé de livres, qui surpasse les benchmarks académiques actuels en termes de qualité, diversité et longueur des documents. Sur cet ensemble, nous comparons les méthodes en fonction de leurs tendances d'échelle empiriques, estimées à travers des expériences à différents niveaux de calcul. Ce travail propose également deux modèles de référence : un modèle feed-forward dérivé de l'architecture GPT-2 et un modèle récurrent sous la forme d'un nouveau LSTM avec un débit dix fois supérieur. Bien que le modèle de référence GPT obtienne une meilleure perplexité à tous nos niveaux de calcul, notre modèle de référence LSTM présente une loi d'échelle prévisible et plus favorable. Cela est dû à l'amélioration du débit et à la nécessité de moins de tokens d'entraînement pour atteindre la même diminution de la perplexité de test. L'extrapolation des lois d'échelle des deux modèles aboutit à une intersection à environ 50 000 heures d'accélérateur. Nous espérons que ce travail pourra servir de fondement à une recherche en modélisation du langage significative et reproductible.
Les récents progrès dans les champs de radiance neuronaux (NeRFs) ont permis de reconstruire et de réanimer des scènes de portraits dynamiques avec un contrôle sur la pose de la tête, les expressions faciales et la direction de vue. Cependant, l'entraînement de tels modèles suppose une cohérence photométrique sur la région déformée, par exemple, le visage doit être uniformément éclairé lorsqu'il se déforme avec les changements de pose de tête et d'expression faciale. Une telle cohérence photométrique entre les images d'une vidéo est difficile à maintenir, même dans des environnements de studio, rendant ainsi les portraits neuronaux réanimables sujets à des artefacts lors de la réanimation. Dans ce travail, nous proposons CoDyNeRF, un système qui permet la création de portraits 3D entièrement contrôlables dans des conditions de capture du monde réel. CoDyNeRF apprend à approximer les effets dépendants de l'éclairage via un modèle d'apparence dynamique dans l'espace canonique, conditionné par les normales de surface prédites et les déformations des expressions faciales et de la pose de la tête. La prédiction des normales de surface est guidée par les normales 3DMM qui servent de prior grossier pour les normales de la tête humaine, où la prédiction directe des normales est difficile en raison des déformations rigides et non rigides induites par les changements de pose de tête et d'expression faciale. En utilisant uniquement une courte vidéo capturée par smartphone d'un sujet pour l'entraînement, nous démontrons l'efficacité de notre méthode sur la synthèse de vue libre d'une scène de portrait avec des contrôles explicites de pose de tête et d'expression, et des effets d'éclairage réalistes. La page du projet peut être trouvée ici : http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html