Articles de recherche en IA sélectionnés quotidiennement avec traductions
Aujourd'hui, les grands modèles de langage (LLMs) apprennent à utiliser de nouveaux outils en leur fournissant quelques démonstrations de leur utilisation. Malheureusement, les démonstrations sont difficiles à obtenir et peuvent entraîner une utilisation biaisée indésirable si la mauvaise démonstration est choisie. Même dans le rare scénario où les démonstrations sont facilement disponibles, il n'existe pas de protocole de sélection rigoureux pour déterminer combien et lesquelles fournir. À mesure que les tâches deviennent plus complexes, la recherche de sélection croît de manière combinatoire et devient invariablement insoluble. Notre travail propose une alternative aux démonstrations : la documentation des outils. Nous préconisons l'utilisation de la documentation des outils, c'est-à-dire des descriptions de l'utilisation individuelle des outils, plutôt que des démonstrations. Nous étayons notre affirmation par trois principales découvertes empiriques sur 6 tâches couvrant à la fois les modalités visuelles et linguistiques. Premièrement, sur les benchmarks existants, des prompts en zero-shot avec uniquement la documentation des outils suffisent pour susciter une utilisation appropriée des outils, atteignant des performances comparables à celles des prompts en few-shot. Deuxièmement, sur un nouvel ensemble de données réalistes d'utilisation d'outils avec des centaines d'API disponibles, nous montrons que la documentation des outils est nettement plus précieuse que les démonstrations, avec une documentation en zero-shot surpassant significativement le few-shot sans documentation. Troisièmement, nous mettons en évidence les avantages de la documentation des outils en abordant la génération d'images et le suivi vidéo en utilisant des modèles de pointe récemment publiés et inconnus comme outils. Enfin, nous soulignons la possibilité d'utiliser la documentation des outils pour activer automatiquement de nouvelles applications : en utilisant rien de plus que la documentation de GroundingDino, Stable Diffusion, XMem et SAM, les LLMs peuvent réinventer les fonctionnalités des modèles Grounded-SAM et Track Anything, récemment publiés.
Les récents progrès des grands modèles de langage (LLMs), en particulier l'invention de l'incitation par chaîne de pensées (CoT), permettent de résoudre des problèmes de raisonnement. Cependant, même les LLMs les plus puissants peinent encore à traiter des problèmes plus complexes nécessitant une pensée non linéaire et un raisonnement en plusieurs étapes. Dans ce travail, nous explorons si les LLMs ont la capacité de reconnaître leurs propres erreurs sans recourir à des ressources externes. Plus précisément, nous étudions s'ils peuvent être utilisés pour identifier des erreurs individuelles dans un raisonnement étape par étape. À cette fin, nous proposons un schéma de vérification zero-shot pour reconnaître de telles erreurs. Nous utilisons ensuite ce schéma de vérification pour améliorer les performances en question-réponse, en l'employant pour effectuer un vote pondéré sur différentes réponses générées. Nous testons la méthode sur trois ensembles de données mathématiques—GSM8K, MathQA et MATH—et constatons qu'elle reconnaît avec succès les erreurs et, par conséquent, améliore les performances prédictives finales.
Nous examinons le problème de l'élicitation des capacités de généralisation compositionnelle dans les grands modèles de langage (LLMs) grâce à une nouvelle stratégie de prompting. La généralisation compositionnelle permet aux LLMs de résoudre des problèmes plus complexes que ceux qu'ils ont rencontrés (c'est-à-dire une généralisation du facile au difficile), une capacité de raisonnement essentielle pour une intelligence de type humain. Cependant, même les LLMs les plus avancés actuels peinent encore avec cette forme de raisonnement. Pour combler cette lacune, nous proposons le prompting "skills-in-context" (SKiC), qui guide les LLMs sur la manière de composer des compétences de base pour résoudre des problèmes plus complexes. Nous constatons qu'il est crucial de démontrer à la fois les compétences et les exemples compositionnels dans le même contexte de prompting. Avec seulement deux exemples, notre prompting SKiC initie des synergies fortes entre les compétences et leurs capacités de composition. Notamment, il permet aux LLMs de résoudre des problèmes inédits nécessitant des compositions innovantes de compétences, atteignant une généralisation quasi parfaite sur un large éventail de tâches de compositionnalité difficiles. Fait intriguant, le prompting SKiC débloque le potentiel latent des LLMs, leur permettant de tirer parti de compétences internes préexistantes acquises lors des étapes de pré-entraînement, même lorsque ces compétences ne sont pas explicitement présentées dans le contexte de prompting. Cela se traduit par la capacité des LLMs à résoudre des problèmes complexes inédits en activant et en composant des compétences internes. Grâce à ces caractéristiques marquantes, le prompting SKiC parvient à atteindre des performances de pointe sur des benchmarks de raisonnement mathématique difficiles (par exemple, MATH).
L'apprentissage auto-supervisé est un paradigme prometteur en apprentissage profond qui permet d'apprendre à partir de données non étiquetées en construisant des tâches prétextes nécessitant l'apprentissage de représentations utiles. En traitement du langage naturel, la tâche prétexte dominante a été la modélisation de langage masqué (MLM), tandis qu'en vision par ordinateur, il existe un équivalent appelé modélisation d'image masquée (MIM). Cependant, la MIM est un défi car elle nécessite de prédire un contenu sémantique à des emplacements précis. Par exemple, étant donné une image incomplète d'un chien, nous pouvons deviner qu'il y a une queue, mais nous ne pouvons pas déterminer sa position exacte. Dans ce travail, nous proposons FlexPredict, un modèle stochastique qui relève ce défi en intégrant l'incertitude de localisation dans le modèle. Plus précisément, nous conditionnons le modèle sur des positions de tokens masqués stochastiques pour guider le modèle vers l'apprentissage de caractéristiques plus robustes face aux incertitudes de localisation. Notre approche améliore les performances en aval sur une gamme de tâches. Par exemple, par rapport aux modèles de référence en MIM, FlexPredict améliore le sondage linéaire sur ImageNet de 1,6 % avec ViT-B et de 2,5 % pour la segmentation vidéo semi-supervisée utilisant ViT-L.
La tâche consistant à distinguer les textes générés des textes naturels devient de plus en plus complexe. Dans ce contexte, le tatouage numérique émerge comme une technique prometteuse pour attribuer un texte généré à un modèle spécifique. Il modifie le processus de génération par échantillonnage afin de laisser une trace invisible dans le texte généré, facilitant ainsi sa détection ultérieure. Cette recherche consolide les méthodes de tatouage numérique pour les grands modèles de langage en s'appuyant sur trois considérations théoriques et empiriques. Premièrement, nous introduisons de nouveaux tests statistiques offrant des garanties théoriques robustes qui restent valables même à des taux de faux positifs très faibles (inférieurs à 10^{-6}). Deuxièmement, nous comparons l'efficacité des tatouages numériques en utilisant des benchmarks classiques dans le domaine du traitement automatique du langage naturel, ce qui nous permet de mieux comprendre leur applicabilité dans des contextes réels. Troisièmement, nous développons des schémas de détection avancés pour des scénarios où l'accès au grand modèle de langage est disponible, ainsi que des techniques de tatouage multi-bits.