Articles de recherche en IA sélectionnés quotidiennement avec traductions
La Génération Augmentée par Récupération (RAG) a été démontrée comme améliorant les capacités de connaissance et atténuant le problème d'hallucination des LLM. Le Web est une source majeure de connaissances externes utilisée dans les systèmes RAG, et de nombreux systèmes commerciaux tels que ChatGPT et Perplexity ont utilisé des moteurs de recherche Web comme principaux systèmes de récupération. Typiquement, de tels systèmes RAG récupèrent les résultats de recherche, téléchargent les sources HTML des résultats, puis extraient des textes bruts des sources HTML. Les documents ou fragments de texte brut sont ensuite introduits dans les LLM pour augmenter la génération. Cependant, une grande partie des informations structurelles et sémantiques inhérentes à HTML, telles que les en-têtes et les structures de table, sont perdues lors de ce processus RAG basé sur du texte brut. Pour atténuer ce problème, nous proposons HtmlRAG, qui utilise HTML au lieu de texte brut comme format de connaissances récupérées en RAG. Nous pensons qu'HTML est meilleur que le texte brut pour modéliser les connaissances dans les documents externes, et la plupart des LLM possèdent des capacités robustes pour comprendre HTML. Cependant, l'utilisation d'HTML présente de nouveaux défis. HTML contient du contenu supplémentaire tel que des balises, du JavaScript et des spécifications CSS, qui ajoutent des jetons d'entrée supplémentaires et du bruit au système RAG. Pour résoudre ce problème, nous proposons des stratégies de nettoyage, de compression et d'élagage d'HTML, pour raccourcir l'HTML tout en minimisant la perte d'informations. Plus précisément, nous concevons une méthode d'élagage en deux étapes basée sur des blocs d'arbres qui élimine les blocs HTML inutiles et ne conserve que la partie pertinente de l'HTML. Des expériences sur six ensembles de données de questions-réponses confirment la supériorité de l'utilisation d'HTML dans les systèmes RAG.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables de généralisation et de suivi d'instructions avec un réglage des instructions. Les progrès réalisés dans les LLM et le réglage des instructions ont conduit au développement de grands modèles de vision-langage (LVLM). Cependant, la compétence des LLM et du réglage des instructions a été moins explorée dans le domaine moléculaire. Ainsi, nous proposons LLaMo : un assistant de graphe moléculaire basé sur un grand modèle de langage, qui est un modèle de langage de graphe moléculaire large entraîné de bout en bout. Pour combler l'écart entre les modalités de langage et de graphe, nous présentons le projecteur de graphe multi-niveaux qui transforme les représentations de graphe en jetons de graphe en abstrayant les représentations de sortie de chaque couche de GNN et les représentations de motif avec le mécanisme d'attention croisée. Nous introduisons également des données d'instructions de graphe moléculaire générées par machine pour régler les instructions du grand modèle de langage de graphe moléculaire pour la compréhension générale des molécules et du langage. Nos expériences approfondies démontrent que LLaMo présente les meilleures performances sur diverses tâches, telles que la génération de descriptions moléculaires, la prédiction de propriétés et la prédiction de noms IUPAC. Le code de LLaMo est disponible sur https://github.com/mlvlab/LLaMo.
Les capacités croissantes des grands modèles génératifs et leur déploiement de plus en plus répandu ont soulevé des préoccupations concernant leur fiabilité, leur sécurité et leur potentiel de mauvais usage. Pour répondre à ces problématiques, des travaux récents ont proposé de contrôler la génération de modèle en orientant les activations du modèle afin d'induire ou de prévenir efficacement l'émergence de concepts ou de comportements dans la sortie générée. Dans cet article, nous introduisons Activation Transport (AcT), un cadre général pour orienter les activations guidé par la théorie du transport optimal qui généralise de nombreux travaux antérieurs d'orientation des activations. AcT est agnostique à la modalité et offre un contrôle précis sur le comportement du modèle avec une surcharge computationnelle négligeable, tout en impactant minimalement les capacités du modèle. Nous montrons expérimentalement l'efficacité et la polyvalence de notre approche en relevant des défis clés dans les grands modèles de langage (LLMs) et les modèles de diffusion texte-image (T2Is). Pour les LLMs, nous montrons qu'AcT peut atténuer efficacement la toxicité, induire des concepts arbitraires et augmenter leur véracité. Pour les T2Is, nous montrons comment AcT permet un contrôle de style précis et la négation de concepts.
Les systèmes de vision actuels attribuent généralement des représentations de longueur fixe aux images, indépendamment de leur contenu informationnel. Cela contraste avec l'intelligence humaine - et même avec de grands modèles de langage - qui allouent des capacités représentationnelles variables en fonction de l'entropie, du contexte et de la familiarité. Inspirés par cela, nous proposons une approche pour apprendre des représentations de jetons de longueur variable pour les images 2D. Notre architecture encodeur-décodeur traite de manière récursive les jetons d'image 2D, les distillant en jetons latents 1D sur plusieurs itérations de déploiements récurrents. Chaque itération affine les jetons 2D, met à jour les jetons latents 1D existants et augmente de manière adaptative la capacité représentationnelle en ajoutant de nouveaux jetons. Cela permet la compression des images en un nombre variable de jetons, allant de 32 à 256. Nous validons notre tokenizer en utilisant la perte de reconstruction et les métriques FID, démontrant que le nombre de jetons est en accord avec l'entropie de l'image, la familiarité et les exigences des tâches en aval. Le traitement récurrent des jetons avec une capacité représentationnelle croissante à chaque itération montre des signes de spécialisation des jetons, révélant un potentiel pour la découverte d'objets / parties.
Les MLLMs ont démontré des capacités remarquables en compréhension et en raisonnement avec des données linguistiques et visuelles complexes. Ces avancées ont suscité la vision d'établir un robot généraliste MLLM compétent pour comprendre des instructions humaines complexes et accomplir diverses tâches incarnées. Cependant, le développement de MLLMs pour des robots réels est un défi en raison des capacités de calcul et de mémoire généralement limitées disponibles sur les plateformes robotiques. En revanche, l'inférence des MLLMs implique le stockage de milliards de paramètres et l'exécution de calculs considérables, imposant des exigences matérielles significatives. Dans notre article, nous proposons un Cadre de Sortie Anticipée Dynamique pour le Modèle Vision-Langage-Action Robotique (DeeR-VLA, ou simplement DeeR) qui ajuste automatiquement la taille du MLLM activé en fonction de chaque situation. Cette approche exploite une architecture à sorties multiples dans les MLLMs, ce qui permet au modèle de mettre fin au traitement une fois qu'une taille appropriée du modèle a été activée pour une situation spécifique, évitant ainsi des calculs redondants supplémentaires. De plus, nous développons de nouveaux algorithmes qui établissent des critères de sortie anticipée pour DeeR, conditionnés par des exigences prédéfinies telles que le coût computationnel moyen (c'est-à-dire la consommation d'énergie), ainsi que la consommation computationnelle maximale (c'est-à-dire la latence) et l'utilisation de la mémoire GPU. Ces améliorations garantissent que DeeR fonctionne efficacement sous des contraintes de ressources variables tout en maintenant des performances compétitives. Sur le banc d'essai de manipulation de robot CALVIN, DeeR démontre des réductions significatives des coûts computationnels du MLLM de 5,2 à 6,5 fois et de la mémoire GPU du MLLM de 2 à 6 fois sans compromettre les performances. Le code et les points de contrôle sont disponibles sur https://github.com/yueyang130/DeeR-VLA.
Nous étudions des méthodes pour aligner efficacement de grands modèles de langage (LLM) avec les préférences humaines en tenant compte des retours en ligne budgétisés. Nous formulons d'abord le problème d'alignement des LLM dans le cadre des bandits duel contextuels. Cette formulation, englobant des paradigmes récents tels que RLHF en ligne et DPO en ligne, recherche intrinsèquement des algorithmes efficaces en termes d'échantillonnage qui intègrent une exploration active en ligne. En tirant parti des connaissances de la théorie des bandits, nous introduisons un algorithme unifié basé sur l'échantillonnage de Thompson et mettons en avant ses applications dans deux scénarios d'alignement de LLM distincts. L'agent pratique qui met en œuvre efficacement cet algorithme, nommé SEA (Alignement Économe en Échantillons), est validé empiriquement à travers des expériences approfondies sur trois échelles de modèles (1B, 2,8B, 6,9B) et trois algorithmes d'apprentissage de préférences (DPO, IPO, SLiC). Les résultats démontrent que SEA parvient à un alignement très efficace en termes d'échantillonnage avec les préférences de l'oracle, surpassant les méthodes récentes d'exploration active pour les LLM. De plus, nous mettons à disposition l'implémentation de SEA ainsi qu'une base de code efficace conçue pour l'alignement en ligne des LLM, dans le but d'accélérer les futures recherches dans ce domaine.
Nous présentons DreamPolish, un modèle de génération de texte en 3D qui excelle dans la production de géométrie raffinée et de textures de haute qualité. Dans la phase de construction de la géométrie, notre approche exploite plusieurs représentations neuronales pour améliorer la stabilité du processus de synthèse. Au lieu de se fier uniquement à une diffusion conditionnée par la vue dans les nouvelles vues échantillonnées, ce qui entraîne souvent des artefacts indésirables sur la surface géométrique, nous incorporons un estimateur normal supplémentaire pour peaufiner les détails de la géométrie, conditionné par des points de vue avec des champs de vision variables. Nous proposons d'ajouter une étape de polissage de surface avec seulement quelques étapes d'entraînement, qui peut affiner efficacement les artefacts attribués à un guidage limité des étapes précédentes et produire des objets 3D avec une géométrie plus souhaitable. Le sujet clé de la génération de textures en utilisant des modèles texte-image pré-entraînés est de trouver un domaine adapté dans la vaste distribution latente de ces modèles qui contient des rendus photoréalistes et cohérents. Dans la phase de génération de textures, nous introduisons un nouvel objectif de distillation de score, à savoir la distillation de score de domaine (DSD), pour guider les représentations neuronales vers un tel domaine. Nous nous inspirons du guidage sans classificateur (CFG) dans les tâches de génération d'images conditionnées par du texte et montrons que le CFG et le guidage de distribution variationnelle représentent des aspects distincts dans le guidage de gradient et sont tous deux des domaines impératifs pour l'amélioration de la qualité des textures. Des expériences approfondies montrent que notre modèle proposé peut produire des actifs 3D avec des surfaces polies et des textures photoréalistes, surpassant les méthodes existantes de pointe.
Les fonctions implicites neuronales ont apporté des avancées impressionnantes à l'état de l'art de la numérisation des humains vêtus à partir de plusieurs ou même d'une seule image. Cependant, malgré les progrès réalisés, les méthodes actuelles ont encore du mal à généraliser à des images inconnues présentant des déformations de vêtements complexes et des poses corporelles variées. Dans ce travail, nous présentons GarVerseLOD, un nouveau jeu de données et cadre conceptuel qui ouvre la voie à une robustesse sans précédent dans la reconstruction de vêtements 3D haute fidélité à partir d'une seule image non contrainte. Inspirés par le récent succès des grands modèles génératifs, nous pensons qu'une clé pour relever le défi de la généralisation réside dans la quantité et la qualité des données de vêtements 3D. Dans cette optique, GarVerseLOD rassemble 6 000 modèles de vêtements de haute qualité avec des détails géométriques fins créés manuellement par des artistes professionnels. En plus de l'échelle des données d'entraînement, nous observons que la présence de granularités géométriques désenchevêtrées peut jouer un rôle important dans l'amélioration de la capacité de généralisation et de l'exactitude de l'inférence du modèle appris. Nous concevons donc GarVerseLOD comme un jeu de données hiérarchique avec des niveaux de détails (LOD), allant de formes stylisées sans détail à des vêtements mélangés à la pose avec des détails alignés sur les pixels. Cela nous permet de rendre ce problème hautement sous-contraint gérable en factorisant l'inférence en tâches plus simples, chacune étant réduite avec un espace de recherche plus restreint. Pour garantir que GarVerseLOD puisse bien généraliser aux images réelles, nous proposons un nouveau paradigme d'étiquetage basé sur des modèles de diffusion conditionnelle pour générer des paires d'images étendues pour chaque modèle de vêtement avec un haut degré de réalisme photographique. Nous évaluons notre méthode sur une quantité massive d'images réelles. Les résultats expérimentaux démontrent que GarVerseLOD peut générer des pièces de vêtement autonomes avec une qualité significativement meilleure que les approches précédentes. Page du projet : https://garverselod.github.io/
Les Modèles de Langage Vision (VLM) ont démontré de solides capacités dans diverses tâches de compréhension et de raisonnement visuel. Cependant, leur déploiement dans le monde réel est souvent limité par une latence élevée lors de l'inférence en raison du calcul substantiel nécessaire pour traiter le grand nombre de jetons d'entrée (principalement issus de l'image) par le LLM. Pour réduire les coûts d'inférence, on peut soit réduire la taille du LLM, soit réduire le nombre de jetons d'image en entrée, cette dernière option étant au cœur de nombreux travaux récents sur la compression de jetons. Cependant, il n'est pas clair quel est le compromis optimal, car ces deux facteurs affectent directement les performances du VLM. Nous caractérisons d'abord ce compromis optimal entre le nombre de jetons visuels et les paramètres du LLM en établissant des lois d'échelle qui capturent les variations de performance avec ces deux facteurs. Nos résultats révèlent une tendance surprenante : pour les tâches de raisonnement visuel, le comportement optimal en termes d'inférence dans les VLM, c'est-à-dire une erreur minimale en aval pour un calcul d'inférence fixe donné, est atteint en utilisant le plus grand LLM qui rentre dans le budget d'inférence tout en minimisant le nombre de jetons visuels - souvent à un seul jeton. Alors que la littérature sur la réduction des jetons s'est principalement concentrée sur le maintien des performances du modèle de base en réduisant modestement le nombre de jetons (par exemple, 5 à 10 fois), nos résultats indiquent que le régime d'inférence optimal en termes de calcul nécessite d'opérer sous des ratios de compression de jetons encore plus élevés. Sur la base de ces observations, nous entreprenons quelques premières étapes vers le développement d'approches adaptées aux paramètres de compression de jetons élevés. Le code est disponible sur https://github.com/locuslab/llava-token-compression.
Les maladies rares présentent des défis uniques dans le domaine de la santé, souffrant souvent de diagnostics tardifs et de paysages d'informations fragmentés. La rareté des connaissances fiables dans ces conditions pose un défi distinct pour les Grands Modèles de Langage (GML) dans le soutien à la gestion clinique et la fourniture d'informations précises aux patients, soulignant le besoin d'une formation ciblée sur ces cas "zebra". Nous présentons Zebra-Llama, un modèle de langage spécialisé, contextuel, doté d'une capacité de Génération Améliorée par Récupération (GAR) de haute précision, se concentrant sur le Syndrome d'Ehlers-Danlos (SED) comme étude de cas. Le SED, affectant 1 individu sur 5 000, illustre les complexités des maladies rares avec ses symptômes divers, ses multiples sous-types et ses critères diagnostiques évolutifs. En mettant en œuvre une méthodologie novatrice de fine-tuning contextuel formée sur des questions tirées de la littérature médicale, des expériences de patients et des ressources cliniques, ainsi que des réponses expertement sélectionnées, Zebra-Llama démontre des capacités sans précédent dans le traitement des requêtes liées au SED. Sur un ensemble de questions du monde réel collectées auprès de patients atteints de SED et de cliniciens, des experts médicaux ont évalué les réponses générées par les deux modèles, révélant les améliorations substantielles de Zebra-Llama par rapport au modèle de base (Llama 3.1-8B-Instruct) en termes d'exhaustivité (77,5 % contre 70,1 %), de précision (83,0 % contre 78,8 %), de clarté (74,7 % contre 72,0 %) et de fiabilité des citations (70,6 % contre 52,3 %). Mis à disposition en open source, Zebra-Llama fournit non seulement des informations plus accessibles et fiables sur le SED, mais établit également un cadre pour le développement de solutions d'IA spécialisées pour d'autres conditions rares. Ce travail représente une étape cruciale vers la démocratisation des connaissances de niveau expert dans la gestion des maladies rares, potentiellement transformant la manière dont les prestataires de soins de santé et les patients naviguent dans le paysage complexe des maladies rares.
À mesure que les techniques de détection d'objets continuent d'évoluer, comprendre leurs relations avec des tâches visuelles complémentaires devient crucial pour optimiser les architectures de modèles et les ressources computationnelles. Ce document examine les corrélations entre la précision de la détection d'objets et deux tâches visuelles fondamentales : la prédiction de profondeur et la prédiction de saillance visuelle. À travers des expériences approfondies utilisant des modèles de pointe (DeepGaze IIE, Depth Anything, DPT-Large et le modèle d'Itti) sur les ensembles de données COCO et Pascal VOC, nous constatons que la saillance visuelle montre des corrélations plus fortes de manière constante avec la précision de la détection d'objets (mArho jusqu'à 0,459 sur Pascal VOC) par rapport à la prédiction de profondeur (mArho jusqu'à 0,283). Notre analyse révèle des variations significatives dans ces corrélations selon les catégories d'objets, les objets plus grands montrant des valeurs de corrélation jusqu'à trois fois plus élevées que les objets plus petits. Ces résultats suggèrent que l'incorporation des caractéristiques de saillance visuelle dans les architectures de détection d'objets pourrait être plus bénéfique que les informations de profondeur, en particulier pour des catégories d'objets spécifiques. Les variations spécifiques aux catégories observées fournissent également des informations pour l'ingénierie de fonctionnalités ciblées et l'amélioration de la conception des ensembles de données, conduisant potentiellement à des systèmes de détection d'objets plus efficaces et précis.