Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les systèmes d'Intelligence Artificielle Générative (GenAI) sont de plus en plus déployés dans tous les secteurs de l'industrie et dans les milieux de recherche. Les développeurs et les utilisateurs finaux interagissent avec ces systèmes par le biais de l'utilisation de l'incitation ou de l'ingénierie des incitations. Bien que l'incitation soit un concept largement répandu et très étudié, il existe une terminologie conflictuelle et une compréhension ontologique insuffisante de ce qui constitue une incitation en raison de la jeunesse de ce domaine. Cet article établit une compréhension structurée des incitations, en assemblant une taxonomie des techniques d'incitation et en analysant leur utilisation. Nous présentons un vocabulaire complet de 33 termes, une taxonomie de 58 techniques d'incitation textuelles uniquement, et 40 techniques pour d'autres modalités. Nous proposons également une méta-analyse de l'ensemble de la littérature sur l'incitation par préfixe en langage naturel.
Les récents progrès dans les modèles génératifs ont mis en lumière le rôle crucial de la tokenisation d'images dans la synthèse efficace d'images haute résolution. La tokenisation, qui transforme les images en représentations latentes, réduit les exigences computationnelles par rapport au traitement direct des pixels et améliore l'efficacité et l'efficience du processus de génération. Les méthodes précédentes, comme VQGAN, utilisent généralement des grilles latentes 2D avec des facteurs de sous-échantillonnage fixes. Cependant, ces tokenisations 2D rencontrent des difficultés à gérer les redondances inhérentes aux images, où les régions adjacentes présentent fréquemment des similitudes. Pour surmonter ce problème, nous introduisons le Transformer-based 1-Dimensional Tokenizer (TiTok), une approche innovante qui tokenise les images en séquences latentes 1D. TiTok fournit une représentation latente plus compacte, offrant des représentations nettement plus efficaces et efficientes que les techniques conventionnelles. Par exemple, une image de 256 x 256 x 3 peut être réduite à seulement 32 tokens discrets, une réduction significative par rapport aux 256 ou 1024 tokens obtenus par les méthodes précédentes. Malgré sa nature compacte, TiTok atteint des performances compétitives par rapport aux approches de pointe. Plus précisément, en utilisant le même cadre de générateur, TiTok atteint un gFID de 1,97, surpassant significativement le modèle de référence MaskGIT de 4,21 au benchmark ImageNet 256 x 256. Les avantages de TiTok deviennent encore plus significatifs lorsqu'il s'agit de résolutions plus élevées. Au benchmark ImageNet 512 x 512, TiTok non seulement surpasse le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également les tokens d'image par un facteur de 64, conduisant à un processus de génération 410 fois plus rapide. Notre variante la plus performante peut surpasser significativement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité 74 fois plus rapidement.
Les modèles de langage de grande taille (LLM) spécialisés dans le code ont démontré des avancées remarquables dans les tâches de compréhension, de complétion et de génération de code. Les benchmarks de programmation, composés d'une sélection de défis de code et de leurs cas de test correspondants, servent de norme pour évaluer les capacités des différents LLM dans ces tâches. Cependant, la plupart des benchmarks existants se concentrent principalement sur Python et restent limités à un nombre restreint de langages, où d'autres langages sont traduits à partir des échantillons Python (par exemple, MultiPL-E), ce qui réduit la diversité des données. Pour faciliter davantage la recherche sur les LLM de code, nous proposons un benchmark massivement multilingue couvrant 40 langages de programmation (McEval) avec 16 000 échantillons de test, repoussant ainsi considérablement les limites des LLM de code dans des scénarios multilingues. Ce benchmark comprend des tâches d'évaluation exigeantes en complétion, compréhension et génération de code, accompagnées d'un corpus d'instructions massivement multilingue soigneusement élaboré, McEval-Instruct. De plus, nous introduisons un codeur multilingue efficace, mCoder, entraîné sur McEval-Instruct, pour soutenir la génération de code dans plusieurs langages de programmation. Les résultats expérimentaux approfondis sur McEval montrent qu'il existe encore un chemin difficile entre les modèles open-source et les LLM propriétaires (par exemple, les modèles de la série GPT) dans de nombreux langages. Le corpus d'instructions, le benchmark d'évaluation et le classement sont disponibles à l'adresse https://mceval.github.io/.
L'édition d'images constitue une tâche pratique mais complexe, compte tenu des demandes variées des utilisateurs, où l'un des aspects les plus difficiles est de décrire précisément à quoi devrait ressembler l'image modifiée. Dans ce travail, nous présentons une nouvelle forme d'édition, appelée édition imitative, pour aider les utilisateurs à exercer leur créativité plus facilement. Concrètement, pour modifier une région d'intérêt d'une image, les utilisateurs peuvent s'inspirer directement de références trouvées dans la nature (par exemple, des images rencontrées en ligne), sans avoir à se soucier de la compatibilité entre la référence et la source. Une telle conception nécessite que le système détermine automatiquement ce qu'il faut attendre de la référence pour effectuer l'édition. À cette fin, nous proposons un cadre d'apprentissage génératif, baptisé MimicBrush, qui sélectionne aléatoirement deux images d'une séquence vidéo, masque certaines régions d'une image et apprend à reconstituer les régions masquées en utilisant les informations de l'autre image. Ainsi, notre modèle, développé à partir d'un prior de diffusion, est capable de capturer la correspondance sémantique entre des images distinctes de manière auto-supervisée. Nous démontrons expérimentalement l'efficacité de notre méthode dans divers cas de test ainsi que sa supériorité par rapport aux alternatives existantes. Nous construisons également un benchmark pour faciliter les recherches futures.
L'IA est en train de vivre un changement de paradigme, avec des avancées majeures réalisées par des systèmes orchestrant plusieurs grands modèles de langage (LLMs) et d'autres composants complexes. Par conséquent, développer des méthodes d'optimisation automatisées et fondées sur des principes pour les systèmes d'IA composites représente l'un des nouveaux défis les plus importants. Les réseaux de neurones ont fait face à un défi similaire à leurs débuts, jusqu'à ce que la rétropropagation et la différenciation automatique transforment le domaine en rendant l'optimisation accessible. Inspirés par cela, nous introduisons TextGrad, un cadre puissant effectuant une « différenciation » automatique via le texte. TextGrad rétropropage les retours textuels fournis par les LLMs pour améliorer les composants individuels d'un système d'IA composite. Dans notre cadre, les LLMs fournissent des suggestions riches, générales et en langage naturel pour optimiser les variables dans les graphes de calcul, allant des extraits de code aux structures moléculaires. TextGrad suit la syntaxe et l'abstraction de PyTorch, et est flexible et facile à utiliser. Il fonctionne immédiatement pour une variété de tâches, où les utilisateurs ne fournissent que la fonction objectif sans avoir à ajuster les composants ou les prompts du cadre. Nous démontrons l'efficacité et la généralité de TextGrad à travers une gamme variée d'applications, allant de la réponse à des questions et l'optimisation de molécules à la planification de traitements de radiothérapie. Sans modifier le cadre, TextGrad améliore la précision en zero-shot de GPT-4o dans la réponse à des questions Google-Proof de 51% à 55%, obtient un gain de performance relatif de 20% dans l'optimisation de solutions à des problèmes de codage LeetCode-Hard, améliore les prompts pour le raisonnement, conçoit de nouvelles petites molécules semblables à des médicaments avec une liaison in silico souhaitable, et conçoit des plans de traitement en oncologie radiologique avec une haute spécificité. TextGrad pose les bases pour accélérer le développement de la prochaine génération de systèmes d'IA.
Les tâches complexes de raisonnement en plusieurs étapes, telles que la résolution de problèmes mathématiques ou la génération de code, restent un défi majeur même pour les modèles de langage les plus avancés (LLMs). La vérification des sorties des LLMs à l'aide d'un modèle de récompense basé sur les résultats (ORM) est une technique standard au moment de l'inférence visant à améliorer les performances de raisonnement des LLMs. Cependant, cela s'avère encore insuffisant pour les tâches de raisonnement impliquant une chaîne de raisonnement longue ou multi-étapes, où les résultats intermédiaires ne sont ni correctement récompensés ni pénalisés. La supervision de processus répond à cette limitation en attribuant des récompenses intermédiaires pendant le processus de raisonnement. Jusqu'à présent, les méthodes utilisées pour collecter les données de supervision de processus reposaient soit sur l'annotation humaine, soit sur l'estimation Monte Carlo par étape, toutes deux prohibitivement coûteuses à grande échelle, entravant ainsi l'application généralisée de cette technique. Face à ce défi, nous proposons un nouvel algorithme de recherche arborescente Monte Carlo (MCTS) de style diviser-pour-régner, nommé OmegaPRM, pour la collecte efficace de données de supervision de processus de haute qualité. Cet algorithme identifie rapidement la première erreur dans la Chaîne de Pensée (CoT) grâce à une recherche binaire et équilibre les exemples positifs et négatifs, assurant ainsi à la fois efficacité et qualité. En conséquence, nous avons pu collecter plus de 1,5 million d'annotations de supervision de processus pour entraîner un modèle de récompense de processus (PRM). En utilisant cette supervision de processus entièrement automatisée conjointement avec l'algorithme de cohérence auto-pondérée, nous avons amélioré les performances de raisonnement mathématique du modèle Gemini Pro ajusté par instruction, atteignant un taux de réussite de 69,4 % sur le benchmark MATH, soit une amélioration relative de 36 % par rapport aux 51 % de performance du modèle de base. De plus, l'ensemble du processus fonctionne sans aucune intervention humaine, rendant notre méthode à la fois financièrement et computationnellement rentable par rapport aux méthodes existantes.
Cet article présente l'algorithme MCT Self-Refine (MCTSr), une intégration innovante des modèles de langage à grande échelle (LLMs) avec la recherche arborescente de Monte Carlo (MCTS), conçue pour améliorer les performances dans les tâches complexes de raisonnement mathématique. En abordant les défis de précision et de fiabilité des LLMs, en particulier dans le raisonnement stratégique et mathématique, MCTSr exploite une exploration systématique et des mécanismes d'auto-affinement heuristiques pour améliorer les cadres de prise de décision au sein des LLMs. L'algorithme construit un arbre de recherche de Monte Carlo à travers des processus itératifs de Sélection, auto-affinement, auto-évaluation et Rétropropagation, en utilisant une formule améliorée de la borne supérieure de confiance (UCB) pour optimiser l'équilibre entre exploration et exploitation. Des expériences approfondies démontrent l'efficacité de MCTSr dans la résolution de problèmes mathématiques de niveau olympique, améliorant significativement les taux de réussite sur plusieurs ensembles de données, notamment GSM8K, GSM Hard, MATH, et des benchmarks de niveau olympique, tels que Math Odyssey, AIME et OlympiadBench. Cette étude fait progresser l'application des LLMs dans les tâches de raisonnement complexe et pose les bases pour une future intégration de l'IA, améliorant la précision et la fiabilité de la prise de décision dans les applications pilotées par les LLMs.
Dans ce rapport technique, nous présentons les méthodologies d'entraînement mises en œuvre dans le développement de Skywork-MoE, un modèle de langage de grande taille (LLM) de type mixture-of-experts (MoE) haute performance, comportant 146 milliards de paramètres et 16 experts. Ce modèle est initialisé à partir des points de contrôle denses préexistants de notre modèle Skywork-13B. Nous explorons l'efficacité comparative entre le recyclage (upcycling) et l'entraînement à partir d'initialisations vierges. Nos résultats suggèrent que le choix entre ces deux approches devrait prendre en compte à la fois la performance des points de contrôle denses existants et le budget d'entraînement MoE. Nous mettons en avant deux techniques innovantes : la normalisation des logits de gating, qui améliore la diversification des experts, et les coefficients de perte auxiliaire adaptatifs, permettant un ajustement spécifique à chaque couche des coefficients de perte auxiliaire. Nos résultats expérimentaux valident l'efficacité de ces méthodes. En tirant parti de ces techniques et insights, nous avons entraîné notre modèle Skywork-MoE recyclé sur un sous-ensemble condensé de notre corpus SkyPile. Les résultats d'évaluation démontrent que notre modèle offre une performance solide sur un large éventail de benchmarks.
La génération d'expériences sensorielles combinant visuel et auditif est essentielle pour la consommation de contenus immersifs. Les récents progrès des modèles génératifs neuronaux ont permis la création de contenus haute résolution couvrant plusieurs modalités telles que les images, le texte, la parole et les vidéos. Malgré ces succès, il subsiste un écart important dans la génération d'audio spatial de haute qualité qui complète le contenu visuel généré. De plus, les modèles actuels de génération audio excellent soit dans la production d'audio naturel, de parole ou de musique, mais peinent à intégrer les indices audio spatiaux nécessaires pour des expériences immersives. Dans ce travail, nous présentons SEE-2-SOUND, une approche zero-shot qui décompose la tâche en (1) l'identification des régions visuelles d'intérêt ; (2) leur localisation dans l'espace 3D ; (3) la génération d'audio mono pour chacune ; et (4) leur intégration en audio spatial. Grâce à notre cadre, nous démontrons des résultats convaincants pour la génération d'audio spatial à partir de vidéos haute qualité, d'images, d'images dynamiques provenant d'internet, ainsi que de médias générés par des approches apprises.
Les méthodes existantes de génération de scènes dynamiques reposent principalement sur la distillation de connaissances à partir de modèles génératifs 3D pré-entraînés, généralement affinés sur des ensembles de données d'objets synthétiques. En conséquence, les scènes générées sont souvent centrées sur des objets et manquent de photoréalisme. Pour surmonter ces limitations, nous proposons une nouvelle pipeline conçue pour la génération photoréaliste de scènes 4D à partir de texte, abandonnant la dépendance aux modèles génératifs multi-vues et exploitant pleinement des modèles génératifs vidéo entraînés sur des ensembles de données variés issus du monde réel. Notre méthode commence par générer une vidéo de référence à l'aide du modèle de génération vidéo. Nous apprenons ensuite la représentation 3D canonique de la vidéo en utilisant une vidéo "temps figé", générée avec soin à partir de la vidéo de référence. Pour gérer les incohérences dans la vidéo temps figé, nous apprenons conjointement une déformation par image pour modéliser ces imperfections. Nous apprenons ensuite la déformation temporelle basée sur la représentation canonique pour capturer les interactions dynamiques dans la vidéo de référence. Cette pipeline facilite la génération de scènes dynamiques avec un photoréalisme accru et une intégrité structurelle, visibles sous plusieurs angles, établissant ainsi un nouveau standard dans la génération de scènes 4D.
Les modèles de diffusion ont suscité un intérêt considérable de la part de la communauté en raison de leur grande capacité générative dans diverses applications. Cependant, leur nature typique de débruitage séquentiel en plusieurs étapes entraîne une latence cumulative élevée, empêchant ainsi les possibilités de calcul parallèle. Pour remédier à cela, nous introduisons AsyncDiff, un schéma d'accélération universel et plug-and-play qui permet le parallélisme de modèle sur plusieurs appareils. Notre approche divise le modèle de prédiction de bruit encombrant en plusieurs composants, en attribuant chacun à un appareil différent. Pour rompre la chaîne de dépendance entre ces composants, elle transforme le débruitage séquentiel conventionnel en un processus asynchrone en exploitant la forte similarité entre les états cachés dans les étapes de diffusion consécutives. Par conséquent, chaque composant est facilité à calculer en parallèle sur des appareils distincts. La stratégie proposée réduit considérablement la latence d'inférence tout en impactant minimalement la qualité générative. Plus précisément, pour le Stable Diffusion v2.1, AsyncDiff atteint une accélération de 2,7x avec une dégradation négligeable et une accélération de 4,0x avec seulement une légère réduction de 0,38 dans le score CLIP, sur quatre GPU NVIDIA A5000. Nos expériences démontrent également qu'AsyncDiff peut être facilement appliqué aux modèles de diffusion vidéo avec des performances encourageantes. Le code est disponible à l'adresse https://github.com/czg1225/AsyncDiff.
Bien que les modèles de diffusion excellent dans la génération d'images de haute qualité, les travaux antérieurs rapportent un écart de performance significatif entre les méthodes de diffusion et les méthodes autorégressives (AR) en modélisation du langage. Dans ce travail, nous montrons que la diffusion discrète masquée simple est plus performante qu'on ne le pensait auparavant. Nous appliquons une recette d'entraînement efficace qui améliore les performances des modèles de diffusion masquée et dérivons un objectif simplifié et rao-blackwellisé qui entraîne des améliorations supplémentaires. Notre objectif a une forme simple — il s'agit d'un mélange de pertes classiques de modélisation du langage masqué — et peut être utilisé pour entraîner des modèles de langage à encodeur uniquement qui admettent des échantillonneurs efficaces, y compris ceux capables de générer des textes de longueur arbitraire de manière semi-autorégressive, comme un modèle de langage traditionnel. Sur les benchmarks de modélisation du langage, une gamme de modèles de diffusion masquée entraînés avec des pratiques d'ingénierie modernes atteint un nouvel état de l'art parmi les modèles de diffusion et s'approche de la perplexité des modèles AR. Nous publions notre code à l'adresse suivante : https://github.com/kuleshov-group/mdlm
Les grands modèles de langage (LLM) ont obtenu des performances impressionnantes sur les benchmarks de questions-réponses médicales. Cependant, une précision élevée sur ces benchmarks ne signifie pas que les performances se généralisent aux contextes cliniques réels. Les benchmarks de questions-réponses médicales reposent sur des hypothèses cohérentes avec la quantification des performances des LLM, mais qui peuvent ne pas tenir dans le monde ouvert de la clinique. Pourtant, les LLM acquièrent des connaissances étendues qui peuvent les aider à généraliser à des conditions pratiques, indépendamment des hypothèses irréalistes des benchmarks célèbres. Nous cherchons à quantifier dans quelle mesure les performances des LLM sur les benchmarks de questions-réponses médicales se généralisent lorsque les hypothèses des benchmarks sont violées. Plus précisément, nous présentons une méthode antagoniste que nous appelons MedFuzz (pour "medical fuzzing"). MedFuzz tente de modifier les questions des benchmarks de manière à dérouter le LLM. Nous démontrons cette approche en ciblant les hypothèses fortes sur les caractéristiques des patients présentées dans le benchmark MedQA. Les "attaques" réussies modifient un élément du benchmark de manière à ne pas tromper un expert médical, mais à "piéger" le LLM pour qu'il passe d'une réponse correcte à une réponse incorrecte. De plus, nous présentons une technique de test de permutation qui peut garantir qu'une attaque réussie est statistiquement significative. Nous montrons comment utiliser les performances sur un benchmark "MedFuzzé", ainsi que les attaques individuelles réussies. Ces méthodes promettent de fournir des insights sur la capacité d'un LLM à fonctionner de manière robuste dans des contextes plus réalistes.
Nous présentons DenseAV, une nouvelle architecture d'encodage dual qui apprend des caractéristiques à haute résolution, sémantiquement significatives et alignées audio-visuellement uniquement en visionnant des vidéos. Nous démontrons que DenseAV peut découvrir la « signification » des mots et la « localisation » des sons sans supervision explicite de localisation. De plus, il découvre et distingue automatiquement entre ces deux types d'associations sans supervision. Nous montrons que les capacités de localisation de DenseAV découlent d'un nouvel opérateur d'agrégation de caractéristiques multi-têtes qui compare directement les représentations denses d'images et d'audio pour l'apprentissage contrastif. En revanche, de nombreux autres systèmes qui apprennent des représentations « globales » de l'audio et de la vidéo ne peuvent pas localiser les mots et les sons. Enfin, nous contribuons deux nouveaux jeux de données pour améliorer l'évaluation des représentations audio-visuelles à travers la segmentation sémantique guidée par la parole et le son. Sur ces jeux de données et d'autres, nous montrons que DenseAV surpasse de manière significative l'état de l'art précédent en matière de segmentation sémantique guidée par la parole et le son. DenseAV surpasse l'état de l'art précédent, ImageBind, en récupération cross-modale en utilisant moins de la moitié des paramètres. Page du projet : https://aka.ms/denseav{https://aka.ms/denseav}
La relocalisation d'éclairage à partir d'une seule image est une tâche complexe qui nécessite de raisonner sur l'interaction complexe entre la géométrie, les matériaux et l'éclairage. De nombreuses méthodes antérieures se limitent à des catégories spécifiques d'images, comme les portraits, ou nécessitent des conditions de capture particulières, comme l'utilisation d'une lampe torche. D'autres méthodes décomposent explicitement une scène en composants intrinsèques, tels que les normales et les BRDF, ce qui peut s'avérer imprécis ou insuffisamment expressif. Dans ce travail, nous proposons un nouveau modèle de diffusion 2D de relocalisation d'éclairage de bout en bout, appelé Neural Gaffer, qui prend une seule image de n'importe quel objet et peut synthétiser une image relocalisée précise et de haute qualité sous n'importe quelle nouvelle condition d'éclairage environnemental, simplement en conditionnant un générateur d'images sur une carte d'environnement cible, sans décomposition explicite de la scène. Notre méthode s'appuie sur un modèle de diffusion pré-entraîné, et l'affine sur un ensemble de données synthétiques de relocalisation d'éclairage, révélant et exploitant la compréhension inhérente de l'éclairage présente dans le modèle de diffusion. Nous évaluons notre modèle à la fois sur des images synthétiques et sur des images réelles provenant d'Internet, et démontrons ses avantages en termes de généralisation et de précision. De plus, en combinant avec d'autres méthodes génératives, notre modèle permet de nombreuses tâches 2D en aval, comme la relocalisation d'éclairage basée sur du texte et l'insertion d'objets. Notre modèle peut également fonctionner comme un fort a priori de relocalisation d'éclairage pour des tâches 3D, comme la relocalisation d'un champ de radiance.
La robustesse des grands modèles de langage (LLM) face aux manipulations adverses, telles que les attaques de jailbreak, reste un défi majeur. Dans ce travail, nous proposons une approche qui améliore la capacité d'auto-critique du LLM et l'affine davantage sur des données synthétiques assainies. Cela est réalisé grâce à l'ajout d'un modèle critique externe qui peut être fusionné avec le modèle original, renforçant ainsi les capacités d'auto-critique et améliorant la robustesse des réponses du LLM face aux incitations adverses. Nos résultats démontrent que la combinaison de la fusion et de l'auto-critique peut réduire significativement le taux de réussite des attaques adverses, offrant ainsi un mécanisme de défense prometteur contre les attaques de jailbreak. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/vicgalle/merging-self-critique-jailbreaks.