Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons phi-3-mini, un modèle de langage de 3,8 milliards de paramètres entraîné sur 3,3 billions de tokens, dont les performances globales, mesurées à la fois par des benchmarks académiques et des tests internes, rivalisent avec celles de modèles tels que Mixtral 8x7B et GPT-3.5 (par exemple, phi-3-mini atteint 69 % sur MMLU et 8,38 sur MT-bench), malgré une taille suffisamment réduite pour être déployé sur un téléphone. L'innovation réside entièrement dans notre jeu de données d'entraînement, une version augmentée de celui utilisé pour phi-2, composé de données web fortement filtrées et de données synthétiques. Le modèle est également davantage aligné pour la robustesse, la sécurité et le format de conversation. Nous fournissons également quelques résultats préliminaires de mise à l'échelle des paramètres avec des modèles de 7B et 14B entraînés sur 4,8T tokens, appelés phi-3-small et phi-3-medium, tous deux nettement plus performants que phi-3-mini (par exemple, respectivement 75 % et 78 % sur MMLU, et 8,7 et 8,9 sur MT-bench).
La famille LLaMA de Meta est devenue l'une des séries de modèles de langage de grande taille (LLM) open-source les plus puissantes. Notamment, les modèles LLaMA3 ont récemment été publiés et atteignent des performances impressionnantes grâce à un pré-entraînement à très grande échelle sur plus de 15 000 milliards de tokens. Compte tenu de l'application généralisée de la quantification en basse précision pour les LLM dans des scénarios à ressources limitées, nous explorons les capacités de LLaMA3 lorsqu'il est quantifié en basse précision. Cette exploration a le potentiel de révéler de nouvelles perspectives et défis pour la quantification en basse précision de LLaMA3 et d'autres LLM à venir, en particulier pour résoudre les problèmes de dégradation des performances rencontrés dans la compression des LLM. Plus précisément, nous évaluons les 10 méthodes existantes de quantification post-entraînement et de fine-tuning LoRA de LLaMA3 sur des précisions de 1 à 8 bits et sur divers ensembles de données pour révéler de manière exhaustive les performances de quantification en basse précision de LLaMA3. Nos résultats expérimentaux indiquent que LLaMA3 subit toujours une dégradation non négligeable dans ces scénarios, en particulier en très basse précision. Cela met en évidence un écart de performance significatif en basse précision qui doit être comblé dans les développements futurs. Nous espérons que cette étude empirique s'avérera précieuse pour faire progresser les modèles futurs, en poussant les LLM vers des précisions plus basses avec une plus grande précision pour une utilisation pratique. Notre projet est disponible sur https://github.com/Macaronlin/LLaMA3-Quantization et les modèles quantifiés de LLaMA3 sont publiés sur https://huggingface.co/LLMQ.
Les LLM actuels sont vulnérables aux injections de prompts, aux jailbreaks et à d'autres attaques qui permettent à des adversaires de remplacer les instructions originales d'un modèle par leurs propres prompts malveillants. Dans ce travail, nous soutenons que l'une des principales vulnérabilités sous-jacentes à ces attaques est que les LLM considèrent souvent les prompts système (par exemple, le texte d'un développeur d'application) comme ayant la même priorité que le texte provenant d'utilisateurs non fiables et de tiers. Pour remédier à cela, nous proposons une hiérarchie d'instructions qui définit explicitement comment les modèles doivent se comporter lorsque des instructions de priorités différentes entrent en conflit. Nous proposons ensuite une méthode de génération de données pour démontrer ce comportement de suivi hiérarchique des instructions, qui enseigne aux LLM à ignorer sélectivement les instructions de moindre privilège. Nous appliquons cette méthode à GPT-3.5, montrant qu'elle augmente considérablement la robustesse — même pour des types d'attaques non rencontrés pendant l'entraînement — tout en imposant des dégradations minimales sur les capacités standards.
Le domaine en pleine évolution de l'automatisation des processus robotiques (RPA) a réalisé des progrès significatifs dans l'automatisation des tâches répétitives, mais son efficacité diminue dans les scénarios nécessitant des tâches spontanées ou imprévisibles demandées par les utilisateurs. Cet article présente une nouvelle approche, FlowMind, qui exploite les capacités des modèles de langage à grande échelle (LLMs) tels que le Generative Pretrained Transformer (GPT), pour surmonter cette limitation et créer un système de génération automatique de workflows. Dans FlowMind, nous proposons une recette générique de prompt pour une "lecture" qui permet d'ancrer le raisonnement des LLMs avec des interfaces de programmation d'applications (APIs) fiables. Ainsi, FlowMind non seulement atténue le problème courant des hallucinations dans les LLMs, mais élimine également l'interaction directe entre les LLMs et les données ou codes propriétaires, garantissant ainsi l'intégrité et la confidentialité des informations - un pilier essentiel dans les services financiers. FlowMind simplifie en outre l'interaction utilisateur en présentant des descriptions de haut niveau des workflows générés automatiquement, permettant aux utilisateurs de les inspecter et de fournir des retours d'information de manière efficace. Nous introduisons également NCEN-QA, un nouveau jeu de données dans le domaine financier pour évaluer les tâches de question-réponse à partir des rapports N-CEN sur les fonds. Nous avons utilisé NCEN-QA pour évaluer la performance des workflows générés par FlowMind par rapport à des variantes de référence et d'ablation de FlowMind. Nous démontrons le succès de FlowMind, l'importance de chaque composant dans la recette de "lecture" proposée, ainsi que l'efficacité de l'interaction utilisateur et des retours d'information dans FlowMind.
Récemment, une série d'algorithmes de distillation prenant en compte la diffusion ont émergé pour atténuer la surcharge computationnelle associée au processus d'inférence multi-étapes des Modèles de Diffusion (DMs). Les techniques de distillation actuelles se divisent souvent en deux aspects distincts : i) la Préservation de la Trajectoire ODE ; et ii) la Reformulation de la Trajectoire ODE. Cependant, ces approches souffrent d'une dégradation sévère des performances ou de décalages de domaine. Pour pallier ces limitations, nous proposons Hyper-SD, un nouveau cadre qui combine de manière synergique les avantages de la Préservation et de la Reformulation de la Trajectoire ODE, tout en maintenant une performance quasi-sans perte lors de la compression des étapes. Premièrement, nous introduisons la Distillation de Cohérence Segmentée de Trajectoire pour effectuer progressivement une distillation cohérente dans des segments d'étapes de temps prédéfinis, ce qui facilite la préservation de la trajectoire ODE originale d'un point de vue d'ordre supérieur. Deuxièmement, nous intégrons l'apprentissage par feedback humain pour améliorer les performances du modèle dans un régime à faible nombre d'étapes et atténuer la perte de performance engendrée par le processus de distillation. Troisièmement, nous intégrons la distillation de score pour améliorer davantage la capacité de génération à faible nombre d'étapes du modèle et proposons la première tentative d'utiliser un LoRA unifié pour supporter le processus d'inférence à toutes les étapes. Des expériences approfondies et des études utilisateurs démontrent qu'Hyper-SD atteint des performances de pointe (SOTA) de 1 à 8 étapes d'inférence pour SDXL et SD1.5. Par exemple, Hyper-SDXL surpasse SDXL-Lightning de +0,68 en CLIP Score et +0,51 en Aes Score lors de l'inférence en 1 étape.
Cet article présente MAIA, un Agent Multimodal Automatisé d'Interprétabilité. MAIA est un système qui utilise des modèles neuronaux pour automatiser des tâches de compréhension de modèles neuronaux, telles que l'interprétation des caractéristiques et la découverte des modes de défaillance. Il équipe un modèle vision-langage pré-entraîné d'un ensemble d'outils qui soutiennent l'expérimentation itérative sur les sous-composants d'autres modèles afin d'expliquer leur comportement. Ces outils incluent ceux couramment utilisés par les chercheurs en interprétabilité humaine : pour synthétiser et modifier des entrées, calculer des exemples d'activation maximale à partir de jeux de données réels, et résumer et décrire les résultats expérimentaux. Les expériences d'interprétabilité proposées par MAIA combinent ces outils pour décrire et expliquer le comportement du système. Nous évaluons les applications de MAIA aux modèles de vision par ordinateur. Nous caractérisons d'abord la capacité de MAIA à décrire les caractéristiques (au niveau des neurones) dans les représentations apprises des images. Sur plusieurs modèles entraînés et un nouveau jeu de données de neurones de vision synthétiques avec des descriptions de référence appariées, MAIA produit des descriptions comparables à celles générées par des expérimentateurs humains experts. Nous montrons ensuite que MAIA peut aider dans deux tâches supplémentaires d'interprétabilité : réduire la sensibilité aux caractéristiques fallacieuses, et identifier automatiquement les entrées susceptibles d'être mal classées.
L'évolution rapide des modèles de base multimodaux a démontré des progrès significatifs dans la compréhension et la génération visuo-linguistique, comme en témoigne notre précédent travail, SEED-LLaMA. Cependant, un écart persiste entre ses capacités et leur applicabilité dans le monde réel, principalement en raison de la capacité limitée du modèle à répondre efficacement à diverses instructions utilisateur et à interagir avec des données visuelles variées. Dans ce travail, nous nous concentrons sur la réduction de cet écart en intégrant deux fonctionnalités améliorées : (1) la compréhension d'images de tailles et de ratios arbitraires, et (2) la génération d'images à granularité multiple. Nous présentons un modèle de base unifié et polyvalent, nommé SEED-X, capable de modéliser la sémantique visuelle à granularité multiple pour des tâches de compréhension et de génération. Outre des résultats compétitifs sur des benchmarks publics, SEED-X démontre son efficacité dans la gestion d'applications réelles à travers divers domaines après un ajustement par instruction. Nous espérons que notre travail inspirera des recherches futures sur ce que les modèles de base multimodaux polyvalents peuvent accomplir dans des applications réelles. Les modèles, codes et jeux de données seront disponibles sur https://github.com/AILab-CVC/SEED-X.
Les modèles de cohérence ont démontré des capacités remarquables pour faciliter la génération efficace d'images et de vidéos, permettant une synthèse avec un nombre minimal d'étapes d'échantillonnage. Ils se sont avérés avantageux pour atténuer les charges de calcul associées aux modèles de diffusion. Cependant, l'application des modèles de cohérence à la génération musicale reste largement inexplorée. Pour combler cette lacune, nous présentons les Music Consistency Models (MusicCM), qui exploitent le concept des modèles de cohérence pour synthétiser efficacement des mél-spectrogrammes pour des extraits musicaux, tout en maintenant une qualité élevée et en minimisant le nombre d'étapes d'échantillonnage. S'appuyant sur les modèles de diffusion existants pour la génération de musique à partir de texte, le modèle MusicCM intègre une distillation de cohérence et un entraînement par discriminateur adversarial. De plus, nous trouvons bénéfique de générer de la musique cohérente et étendue en incorporant plusieurs processus de diffusion avec des contraintes partagées. Les résultats expérimentaux révèlent l'efficacité de notre modèle en termes d'efficacité computationnelle, de fidélité et de naturel. Notamment, MusicCM réalise une synthèse musicale fluide avec seulement quatre étapes d'échantillonnage, par exemple, une seule seconde par minute d'extrait musical, démontrant ainsi un potentiel pour des applications en temps réel.
Cet article présente MultiBooth, une technique novatrice et efficace pour la personnalisation multi-concepts dans la génération d'images à partir de texte. Malgré les avancées significatives des méthodes de génération personnalisée, en particulier avec le succès des modèles de diffusion, les méthodes existantes peinent souvent dans les scénarios multi-concepts en raison d'une faible fidélité conceptuelle et d'un coût d'inférence élevé. MultiBooth résout ces problèmes en divisant le processus de génération multi-concepts en deux phases : une phase d'apprentissage mono-concept et une phase d'intégration multi-concepts. Durant la phase d'apprentissage mono-concept, nous utilisons un encodeur d'images multi-modal et une technique d'encodage de concept efficace pour apprendre une représentation concise et discriminante pour chaque concept. Dans la phase d'intégration multi-concepts, nous utilisons des boîtes englobantes pour définir la zone de génération de chaque concept au sein de la carte d'attention croisée. Cette méthode permet la création de concepts individuels dans leurs régions spécifiées, facilitant ainsi la formation d'images multi-concepts. Cette stratégie améliore non seulement la fidélité conceptuelle, mais réduit également le coût d'inférence supplémentaire. MultiBooth surpasse diverses méthodes de référence dans les évaluations qualitatives et quantitatives, démontrant ses performances supérieures et son efficacité computationnelle. Page du projet : https://multibooth.github.io/
La locomotion stable dans des environnements escarpés est une capacité essentielle pour les robots quadrupèdes, nécessitant la capacité à résister à diverses perturbations externes. Cependant, les politiques récentes basées sur l'apprentissage n'utilisent qu'une randomisation de domaine basique pour améliorer la robustesse des politiques apprises, ce qui ne garantit pas que le robot possède des capacités de résistance aux perturbations adéquates. Dans cet article, nous proposons de modéliser le processus d'apprentissage comme une interaction antagoniste entre l'acteur et un perturbateur nouvellement introduit, et d'assurer leur optimisation avec une contrainte H_{infty}. Contrairement à l'acteur qui maximise la récompense globale actualisée, le perturbateur est chargé de générer des forces externes efficaces et est optimisé en maximisant l'erreur entre la récompense de la tâche et son oracle, c'est-à-dire le "coût" à chaque itération. Pour maintenir l'optimisation conjointe entre l'acteur et le perturbateur stable, notre contrainte H_{infty} impose une limite au rapport entre le coût et l'intensité des forces externes. Grâce à une interaction réciproque tout au long de la phase d'entraînement, l'acteur peut acquérir la capacité à naviguer face à des perturbations physiques de plus en plus complexes. Nous vérifions la robustesse de notre approche sur des tâches de locomotion quadrupède avec le robot Unitree Aliengo, ainsi qu'une tâche plus difficile avec le robot Unitree A1, où le quadrupède est censé effectuer une locomotion uniquement sur ses pattes arrière comme s'il s'agissait d'un robot bipède. Les résultats quantitatifs simulés montrent une amélioration par rapport aux bases de référence, démontrant l'efficacité de la méthode et de chaque choix de conception. D'autre part, les expériences sur robot réel montrent qualitativement à quel point la politique est robuste face à diverses perturbations sur différents terrains, y compris des escaliers, des plateformes élevées, des pentes et des terrains glissants. Tous les codes, points de contrôle et guides de déploiement en conditions réelles seront rendus publics.
Nous abordons la tâche d'estimation des paramètres de caméra à partir d'un ensemble d'images représentant une scène. Les outils populaires de structure-from-motion (SfM) basés sur les caractéristiques résolvent cette tâche par reconstruction incrémentale : ils répètent la triangulation de points 3D épars et l'enregistrement de nouvelles vues de caméra dans le nuage de points épars. Nous réinterprétons la structure-from-motion incrémentale comme une application itérative et un raffinement d'un relocalisateur visuel, c'est-à-dire d'une méthode qui enregistre de nouvelles vues dans l'état actuel de la reconstruction. Cette perspective nous permet d'explorer des relocalisateurs visuels alternatifs qui ne reposent pas sur la correspondance de caractéristiques locales. Nous montrons que la régression des coordonnées de scène, une approche de relocalisation basée sur l'apprentissage, nous permet de construire des représentations de scène neurales implicites à partir d'images non positionnées. Contrairement à d'autres méthodes de reconstruction basées sur l'apprentissage, nous n'avons pas besoin de priors de pose ni d'entrées séquentielles, et nous optimisons efficacement sur des milliers d'images. Notre méthode, ACE0 (ACE Zero), estime les poses de caméra avec une précision comparable à celle du SfM basé sur les caractéristiques, comme le démontre la synthèse de nouvelles vues. Page du projet : https://nianticlabs.github.io/acezero/