Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons LayerSkip, une solution de bout en bout pour accélérer l'inférence des grands modèles de langage (LLM). Premièrement, lors de l'entraînement, nous appliquons un dropout par couche, avec des taux de dropout faibles pour les premières couches et plus élevés pour les dernières couches, ainsi qu'une perte de sortie précoce où toutes les couches du transformateur partagent la même sortie. Deuxièmement, lors de l'inférence, nous montrons que cette méthode d'entraînement augmente la précision des sorties précoces dans les premières couches, sans ajouter de couches ou modules auxiliaires au modèle. Troisièmement, nous proposons une nouvelle solution de décodage auto-spéculatif où nous sortons aux premières couches et vérifions et corrigons avec les couches restantes du modèle. Notre approche de décodage auto-spéculatif a une empreinte mémoire plus faible que les autres méthodes de décodage spéculatif et bénéficie du partage des calculs et des activations entre les étapes de brouillon et de vérification. Nous menons des expériences sur différentes tailles de modèles Llama avec différents types d'entraînement : pré-entraînement à partir de zéro, pré-entraînement continu, fine-tuning sur un domaine de données spécifique, et fine-tuning sur une tâche spécifique. Nous implémentons notre solution d'inférence et montrons des accélérations allant jusqu'à 2,16x sur la tâche de résumé de documents CNN/DM, 1,82x sur le codage, et 2,0x sur la tâche d'analyse sémantique TOPv2. Nous mettons notre code et nos checkpoints en open source à l'adresse https://github.com/facebookresearch/LayerSkip.
Dans ce rapport, nous présentons InternVL 1.5, un modèle de langage multimodal (MLLM) open-source visant à combler l'écart de capacités entre les modèles open-source et les modèles commerciaux propriétaires en compréhension multimodale. Nous introduisons trois améliorations simples : (1) Un encodeur visuel puissant : nous avons exploré une stratégie d'apprentissage continu pour le modèle de fondation visuelle à grande échelle -- InternViT-6B, renforçant ses capacités de compréhension visuelle et permettant son transfert et sa réutilisation dans différents LLMs. (2) Résolution dynamique élevée : nous divisons les images en tuiles allant de 1 à 40 de 448×448 pixels en fonction du rapport d'aspect et de la résolution des images d'entrée, ce qui prend en charge des entrées jusqu'à une résolution 4K. (3) Un jeu de données bilingue de haute qualité : nous avons soigneusement collecté un jeu de données bilingue de haute qualité couvrant des scènes courantes, des images de documents, et les avons annotées avec des paires de questions-réponses en anglais et en chinois, améliorant significativement les performances dans les tâches liées à l'OCR et au chinois. Nous évaluons InternVL 1.5 à travers une série de benchmarks et d'études comparatives. Par rapport aux modèles open-source et propriétaires, InternVL 1.5 montre des performances compétitives, atteignant des résultats de pointe dans 8 des 18 benchmarks. Le code a été publié à l'adresse suivante : https://github.com/OpenGVLab/InternVL.
Bien que de nombreux grands modèles de langage (LLM) contemporains puissent traiter des entrées longues, ils peinent encore à exploiter pleinement les informations contenues dans un contexte étendu, un défi connu sous le nom de "lost-in-the-middle" (perte au milieu). Nous émettons l'hypothèse que cela découle d'une supervision explicite insuffisante lors de l'entraînement sur des contextes longs, qui ne met pas suffisamment l'accent sur le fait que toute position dans un contexte étendu peut contenir des informations cruciales. Sur la base de cette intuition, notre étude propose un entraînement intensif en information (IN2), une solution purement basée sur les données pour surmonter le problème de "lost-in-the-middle". Concrètement, l'entraînement IN2 s'appuie sur un ensemble de données synthétiques de questions-réponses en contexte long, où la réponse nécessite (1) une conscience fine des informations sur un segment court (~128 tokens) au sein d'un contexte long synthétique (4K-32K tokens), et (2) l'intégration et le raisonnement à partir d'informations provenant de deux segments courts ou plus. En appliquant cet entraînement intensif en information à Mistral-7B, nous présentons FILM-7B (FILl-in-the-Middle). Pour évaluer de manière approfondie la capacité de FILM-7B à exploiter des contextes longs, nous concevons trois tâches de sondage qui couvrent divers styles de contexte (document, code et contexte de données structurées) et modèles de récupération d'informations (récupération avant, arrière et bidirectionnelle). Les résultats de ces sondages montrent que FILM-7B peut récupérer de manière robuste des informations à différentes positions dans sa fenêtre de contexte de 32K. Au-delà de ces tâches de sondage, FILM-7B améliore significativement les performances sur des tâches réelles en contexte long (par exemple, un score F1 passant de 23,5 à 26,9 sur NarrativeQA), tout en maintenant des performances comparables sur des tâches en contexte court (par exemple, une précision de 59,3 à 59,2 sur MMLU). Lien Github : https://github.com/microsoft/FILM.
La génération d'objets 3D a connu des avancées significatives, produisant des résultats de haute qualité. Cependant, elle peine à offrir un contrôle précis à l'utilisateur, aboutissant souvent à des résultats qui ne correspondent pas aux attentes, limitant ainsi son applicabilité. La génération d'objets 3D selon la vision de l'utilisateur rencontre des défis majeurs pour concrétiser ses concepts avec les modèles génératifs actuels, en raison de capacités d'interaction limitées. Les méthodes existantes proposent principalement deux approches : (i) interpréter des instructions textuelles avec une contrôlabilité restreinte, ou (ii) reconstruire des objets 3D à partir d'images 2D. Ces deux approches limitent la personnalisation aux contraintes de la référence 2D et peuvent introduire des artefacts indésirables lors du processus de conversion en 3D, restreignant ainsi la possibilité de modifications 3D directes et polyvalentes. Dans ce travail, nous présentons Interactive3D, un cadre innovant pour la génération interactive 3D qui offre aux utilisateurs un contrôle précis sur le processus génératif grâce à des capacités d'interaction 3D étendues. Interactive3D est construit en deux étapes en cascade, utilisant des représentations 3D distinctes. La première étape emploie le Gaussian Splatting pour permettre une interaction directe avec l'utilisateur, autorisant des modifications et l'orientation de la direction générative à n'importe quelle étape intermédiaire via (i) l'ajout et la suppression de composants, (ii) le déplacement déformable et rigide, (iii) les transformations géométriques, et (iv) l'édition sémantique. Ensuite, les splats gaussiens sont transformés en InstantNGP. Nous introduisons un nouveau module de (v) Raffinement Interactif par Hachage pour ajouter davantage de détails et extraire la géométrie dans la deuxième étape. Nos expériences démontrent qu'Interactive3D améliore notablement la contrôlabilité et la qualité de la génération 3D. Notre page web de projet est disponible à l'adresse https://interactive-3d.github.io/.
Les technologies basées sur la diffusion ont réalisé des avancées significatives, notamment dans la génération de visages personnalisés et sur mesure. Cependant, les méthodes existantes rencontrent des difficultés à atteindre une fidélité élevée et une cohérence détaillée de l'identité (ID), principalement en raison d'un contrôle insuffisant sur les zones faciales à un niveau granulaire et de l'absence d'une stratégie globale pour la préservation de l'ID qui prendrait pleinement en compte les détails faciaux complexes ainsi que l'ensemble du visage. Pour surmonter ces limitations, nous introduisons ConsistentID, une méthode innovante conçue pour la génération de portraits préservant l'identité sous des prompts faciaux multimodaux granulaires, en utilisant une seule image de référence. ConsistentID se compose de deux éléments clés : un générateur de prompts faciaux multimodaux qui combine les caractéristiques faciales, les descriptions faciales correspondantes et le contexte facial global pour améliorer la précision des détails faciaux, ainsi qu'un réseau de préservation de l'ID optimisé grâce à une stratégie de localisation de l'attention faciale, visant à maintenir la cohérence de l'ID dans les régions faciales. Ensemble, ces composants améliorent significativement la précision de la préservation de l'ID en intégrant des informations multimodales granulaires sur l'ID provenant des régions faciales. Pour faciliter l'entraînement de ConsistentID, nous présentons un ensemble de données de portraits granulaires, FGID, comprenant plus de 500 000 images faciales, offrant une diversité et une exhaustivité supérieures aux ensembles de données faciaux publics existants. Les résultats expérimentaux confirment que notre ConsistentID atteint une précision et une diversité exceptionnelles dans la génération de visages personnalisés, surpassant les méthodes existantes sur le jeu de données MyStyle. De plus, bien que ConsistentID introduise davantage d'informations multimodales sur l'ID, il maintient une vitesse d'inférence rapide lors de la génération.
Les grands modèles de langage (LLM) ont démontré des capacités profondes en compréhension et génération du langage, facilitant une large gamme d'applications. Cependant, il existe une pénurie notable de méthodologies détaillées et open-source pour mettre à l'échelle efficacement les LLM au-delà de 50 milliards de paramètres avec un coût d'essais et erreurs et des ressources de calcul minimaux. Dans ce rapport, nous présentons Tele-FLM (alias FLM-2), un modèle de langage multilingue open-source de 52 milliards de paramètres qui propose un paradigme d'entraînement stable et efficace ainsi que des capacités améliorées de jugement factuel. Tele-FLM démontre des capacités supérieures en modélisation du langage multilingue, mesurées par le BPB sur des corpus textuels. De plus, dans les évaluations de modèles de base en anglais et en chinois, il est comparable à des modèles open-source puissants impliquant un plus grand nombre de FLOPs d'entraînement, tels que Llama2-70B et DeepSeek-67B. En plus des poids du modèle, nous partageons les conceptions principales, les pratiques d'ingénierie et les détails de l'entraînement, que nous espérons bénéfiques pour les communautés académiques et industrielles.
Le "Set-of-Mark" (SoM) Prompting libère la capacité d'ancrage visuel de GPT-4V en permettant au modèle d'associer des objets visuels à des étiquettes insérées sur l'image. Ces étiquettes, marquées par des caractères alphanumériques, peuvent être indexées via des tokens textuels pour une référence facile. Malgré les performances exceptionnelles de GPT-4V, nous observons que d'autres modèles de langage multimodaux de grande taille (MLLMs) peinent à comprendre ces étiquettes visuelles. Pour favoriser l'apprentissage du SoM prompting pour les modèles open-source, nous proposons un nouveau paradigme d'apprentissage : "énumérer les éléments un par un", qui demande au modèle de lister et de décrire toutes les étiquettes visuelles placées sur l'image en suivant l'ordre alphanumérique des étiquettes. En intégrant notre jeu de données soigneusement sélectionné avec d'autres ensembles de données de réglage d'instructions visuelles, nous parvenons à doter les MLLMs existants de la capacité de SoM prompting. De plus, nous évaluons nos modèles SoM affinés sur cinq benchmarks de MLLMs. Nous constatons que ce nouveau jeu de données, même de taille relativement modeste (10k-30k images avec étiquettes), améliore significativement les capacités de raisonnement visuel et réduit les hallucinations pour les MLLMs. Fait peut-être surprenant, ces améliorations persistent même lorsque les étiquettes visuelles sont omises des images d'entrée lors de l'inférence. Cela suggère le potentiel de "énumérer les éléments un par un" comme un nouveau paradigme pour l'entraînement des MLLMs, qui renforce l'alignement objet-texte grâce à l'utilisation d'étiquettes visuelles lors de la phase d'entraînement. Enfin, nous menons des analyses en sondant les modèles entraînés pour comprendre le mécanisme de fonctionnement du SoM. Notre code et nos données sont disponibles à l'adresse https://github.com/zzxslp/SoM-LLaVA.
Alors que les modèles génératifs texte-à-image (T2I) sont devenus omniprésents, ils ne génèrent pas nécessairement des images alignées avec un prompt donné. Bien que des travaux antérieurs aient évalué l'alignement des T2I en proposant des métriques, des benchmarks et des modèles pour collecter des jugements humains, la qualité de ces composants n'est pas systématiquement mesurée. Les ensembles de prompts évalués par des humains sont généralement de petite taille, et la fiabilité des évaluations — et par conséquent celle des ensembles de prompts utilisés pour comparer les modèles — n'est pas évaluée. Nous comblons cette lacune en menant une étude approfondie évaluant les métriques d'auto-évaluation et les modèles de jugements humains. Nous apportons trois contributions principales : (1) Nous introduisons un benchmark complet basé sur des compétences, capable de discriminer les modèles selon différents modèles de jugements humains. Ce benchmark basé sur les compétences catégorise les prompts en sous-compétences, permettant à un praticien d'identifier non seulement quelles compétences sont difficiles, mais aussi à quel niveau de complexité une compéquence devient difficile. (2) Nous collectons des évaluations humaines pour quatre modèles de jugements et quatre modèles T2I, totalisant plus de 100 000 annotations. Cela nous permet de comprendre où les différences surviennent en raison de l'ambiguïté inhérente au prompt et où elles surviennent en raison des différences de qualité des métriques et des modèles. (3) Enfin, nous introduisons une nouvelle métrique d'auto-évaluation basée sur des questions-réponses, mieux corrélée avec les évaluations humaines que les métriques existantes pour notre nouveau jeu de données, sur différents modèles de jugements humains, et sur TIFA160.
Nous présentons NeRF-XL, une méthode structurée pour distribuer les Champs de Radiance Neuronaux (NeRFs) sur plusieurs GPU, permettant ainsi l'entraînement et le rendu de NeRFs avec une capacité arbitrairement grande. Nous commençons par revisiter les approches multi-GPU existantes, qui décomposent les grandes scènes en plusieurs NeRFs entraînés indépendamment, et identifions plusieurs problèmes fondamentaux avec ces méthodes qui entravent l'amélioration de la qualité de reconstruction lorsque des ressources de calcul supplémentaires (GPU) sont utilisées lors de l'entraînement. NeRF-XL remédie à ces problèmes et permet l'entraînement et le rendu de NeRFs avec un nombre arbitraire de paramètres simplement en utilisant plus de matériel. Au cœur de notre méthode se trouve une nouvelle formulation d'entraînement et de rendu distribués, qui est mathématiquement équivalente au cas classique mono-GPU et minimise la communication entre les GPU. En débloquant les NeRFs avec un nombre de paramètres arbitrairement élevé, notre approche est la première à révéler les lois d'échelle multi-GPU pour les NeRFs, montrant des améliorations dans la qualité de reconstruction avec des nombres de paramètres plus importants et des gains de vitesse avec plus de GPU. Nous démontrons l'efficacité de NeRF-XL sur une grande variété de jeux de données, y compris le plus grand jeu de données open-source à ce jour, MatrixCity, contenant 258K images couvrant une zone urbaine de 25km².
Comprendre le contenu visuel riche en texte est primordial pour l'application pratique des Modèles de Langage Multimodaux de Grande Taille (MLLMs), car les scénarios riches en texte sont omniprésents dans le monde réel, caractérisés par la présence de textes étendus intégrés dans des images. Récemment, l'avènement des MLLMs dotés d'une polyvalence impressionnante a élevé les attentes quant à leurs capacités. Cependant, leur compétence dans les scénarios riches en texte n'a pas encore été évaluée de manière exhaustive et objective, car les benchmarks actuels des MLLMs se concentrent principalement sur l'évaluation de la compréhension visuelle générale. Dans ce travail, nous présentons SEED-Bench-2-Plus, un benchmark spécifiquement conçu pour évaluer la compréhension visuelle riche en texte des MLLMs. Notre benchmark comprend 2,3K questions à choix multiples avec des annotations humaines précises, couvrant trois grandes catégories : Graphiques, Cartes et Pages Web, chacune englobant un large éventail de scénarios riches en texte dans le monde réel. Ces catégories, en raison de leur complexité et diversité inhérentes, simulent efficacement des environnements réels riches en texte. Nous menons ensuite une évaluation approfondie impliquant 34 MLLMs de premier plan (y compris GPT-4V, Gemini-Pro-Vision et Claude-3-Opus) et mettons en lumière les limitations actuelles des MLLMs dans la compréhension visuelle riche en texte. Nous espérons que notre travail pourra servir de complément précieux aux benchmarks existants des MLLMs, offrant des observations perspicaces et inspirant des recherches supplémentaires dans le domaine de la compréhension visuelle riche en texte avec les MLLMs. Le jeu de données et le code d'évaluation sont accessibles à l'adresse suivante : https://github.com/AILab-CVC/SEED-Bench.