Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les Modèles de Cohérence Latente (Latent Consistency Models, LCMs) ont démontré des performances impressionnantes dans l'accélération des tâches de génération texte-image, produisant des images de haute qualité avec un nombre minimal d'étapes d'inférence. Les LCMs sont distillés à partir de modèles de diffusion latente pré-entraînés (Latent Diffusion Models, LDMs), nécessitant seulement environ 32 heures d'entraînement sur GPU A100. Ce rapport étend le potentiel des LCMs dans deux aspects : Premièrement, en appliquant la distillation LoRA aux modèles Stable-Diffusion, notamment SD-V1.5, SSD-1B et SDXL, nous avons élargi la portée des LCMs à des modèles plus grands avec une consommation mémoire significativement réduite, tout en obtenant une qualité d'image supérieure. Deuxièmement, nous identifions les paramètres LoRA obtenus par distillation LCM comme un module universel d'accélération pour Stable-Diffusion, nommé LCM-LoRA. LCM-LoRA peut être directement intégré dans divers modèles Stable-Diffusion fine-tunés ou LoRAs sans nécessiter d'entraînement supplémentaire, représentant ainsi un accélérateur universellement applicable pour diverses tâches de génération d'images. Comparé aux solveurs numériques précédents d'équations différentielles ordinaires à champ de potentiel (PF-ODE) tels que DDIM et DPM-Solver, LCM-LoRA peut être considéré comme un solveur neuronal plug-in de PF-ODE doté de fortes capacités de généralisation. Page du projet : https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus est un assistant multimodal à usage général qui étend les capacités des grands modèles multimodaux. Il maintient un répertoire de compétences composé de modèles pré-entraînés pour la vision et le langage visuel, et peut activer des outils pertinents en fonction des entrées des utilisateurs pour accomplir des tâches du monde réel. LLaVA-Plus est entraîné sur des données d'instruction multimodales pour acquérir la capacité d'utiliser des outils, couvrant la compréhension visuelle, la génération, la récupération de connaissances externes et les compositions. Les résultats empiriques montrent que LLaVA-Plus surpasse LLaVA dans les capacités existantes et en présente de nouvelles. Il se distingue par le fait que la requête visuelle est directement ancrée et activement engagée tout au long des sessions d'interaction humain-IA, améliorant significativement l'utilisation des outils et permettant de nouveaux scénarios.
Nous présentons Prompt Cache, une approche visant à accélérer l'inférence des grands modèles de langage (LLM) en réutilisant les états d'attention entre différents prompts de LLM. De nombreuses entrées de prompts contiennent des segments de texte qui se chevauchent, tels que des messages système, des modèles de prompts et des documents fournis comme contexte. Notre idée clé est qu'en précalculant et en stockant les états d'attention de ces segments de texte fréquemment rencontrés sur le serveur d'inférence, nous pouvons les réutiliser efficacement lorsque ces segments apparaissent dans les prompts des utilisateurs. Prompt Cache utilise un schéma pour définir explicitement ces segments de texte réutilisables, appelés modules de prompts. Le schéma garantit la précision positionnelle lors de la réutilisation des états d'attention et fournit aux utilisateurs une interface pour accéder aux états mis en cache dans leur prompt. En utilisant une implémentation prototype, nous évaluons Prompt Cache sur plusieurs LLM. Nous montrons que Prompt Cache réduit considérablement la latence du temps jusqu'au premier token, en particulier pour les prompts plus longs tels que les réponses à des questions basées sur des documents et les recommandations. Les améliorations vont de 8x pour l'inférence basée sur GPU à 60x pour l'inférence basée sur CPU, tout en maintenant la précision des sorties et sans nécessiter de modifications des paramètres du modèle.
Les grands modèles de langage (LLM) ont récemment atteint des performances comparables à celles des humains sur une gamme de référentiels professionnels et académiques. Cependant, l'accessibilité de ces modèles a pris du retard par rapport à leurs performances. Les LLM de pointe nécessitent une infrastructure coûteuse ; ne sont accessibles que via des interfaces web soumises à des limitations de débit, des restrictions géographiques et de la censure ; et manquent de code et de rapports techniques disponibles publiquement. Dans cet article, nous racontons l'histoire de GPT4All, un dépôt open source populaire qui vise à démocratiser l'accès aux LLM. Nous décrivons les détails techniques de la famille de modèles originaux GPT4All, ainsi que l'évolution du projet GPT4All, passant d'un modèle unique à un écosystème open source complet. Nous espérons que cet article servira à la fois de vue d'ensemble technique des modèles GPT4All originaux et d'étude de cas sur la croissance ultérieure de l'écosystème open source GPT4All.
Les récentes avancées telles que LLaVA et Mini-GPT4 ont réussi à intégrer des informations visuelles dans les LLM, produisant des résultats inspirants et donnant naissance à une nouvelle génération de LLM multi-modaux, ou MLLM. Cependant, ces méthodes rencontrent des difficultés avec les hallucinations et les interférences mutuelles entre les tâches. Pour résoudre ces problèmes, nous proposons une approche efficace et précise pour s'adapter aux tâches en aval en utilisant le LLM comme pont pour connecter plusieurs modèles experts, nommément u-LLaVA. Premièrement, nous intégrons le module d'alignement des modalités et les modules multi-tâches dans le LLM. Ensuite, nous réorganisons ou reconstruisons des ensembles de données publics de différents types pour permettre un alignement efficace des modalités et un suivi des instructions. Enfin, les informations spécifiques à chaque tâche sont extraites du LLM entraîné et fournies à différents modules pour résoudre les tâches en aval. Le cadre global est simple, efficace, et atteint des performances de pointe sur plusieurs benchmarks. Nous rendons également notre modèle, les données générées et la base de code publiquement disponibles.
La quête de la technologie de conduite autonome repose sur l'intégration sophistiquée des systèmes de perception, de prise de décision et de contrôle. Les approches traditionnelles, qu'elles soient basées sur les données ou sur des règles, ont été entravées par leur incapacité à saisir les nuances des environnements de conduite complexes et les intentions des autres usagers de la route. Cela a constitué un goulot d'étranglement majeur, en particulier dans le développement du raisonnement de bon sens et de la compréhension nuancée des scènes nécessaires à une conduite autonome sûre et fiable. L'avènement des modèles de langage visuel (VLM) représente une nouvelle frontière dans la réalisation de la conduite entièrement autonome des véhicules. Ce rapport propose une évaluation exhaustive du dernier modèle VLM de pointe, \modelnamefull, et de son application dans des scénarios de conduite autonome. Nous explorons les capacités du modèle à comprendre et à raisonner sur les scènes de conduite, à prendre des décisions et, finalement, à agir en tant que conducteur. Nos tests complets couvrent tout, de la reconnaissance de base des scènes au raisonnement causal complexe et à la prise de décision en temps réel dans diverses conditions. Nos résultats révèlent que \modelname démontre une performance supérieure dans la compréhension des scènes et le raisonnement causal par rapport aux systèmes autonomes existants. Il montre un potentiel pour gérer des scénarios hors distribution, reconnaître les intentions et prendre des décisions éclairées dans des contextes de conduite réels. Cependant, des défis subsistent, en particulier dans la discernement de direction, la reconnaissance des feux de circulation, l'ancrage visuel et les tâches de raisonnement spatial. Ces limites soulignent la nécessité de poursuivre les recherches et le développement. Le projet est désormais disponible sur GitHub pour les parties intéressées à y accéder et à l'utiliser : https://github.com/PJLab-ADG/GPT4V-AD-Exploration