Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) sont apparus comme une technologie révolutionnaire grâce à leurs capacités inégalées de génération de texte dans diverses applications. Cependant, des préoccupations persistent quant à l'exactitude et à la pertinence de leur contenu généré. Une méthodologie contemporaine, l'auto-correction, a été proposée comme solution à ces problèmes. Sur la base de cette prémisse, cet article examine de manière critique le rôle et l'efficacité de l'auto-correction au sein des LLMs, mettant en lumière son véritable potentiel et ses limites. Au cœur de notre investigation se trouve la notion d'auto-correction intrinsèque, par laquelle un LLM tente de corriger ses réponses initiales en s'appuyant uniquement sur ses capacités inhérentes, sans le soutien de retours externes. Dans le contexte du raisonnement, notre recherche indique que les LLMs peinent à auto-corriger leurs réponses sans retour externe, et que, dans certains cas, leurs performances pourraient même se dégrader après auto-correction. À partir de ces observations, nous proposons des suggestions pour les recherches futures et les applications pratiques dans ce domaine.
Récemment, une multitude de modèles de génération et d'édition d'images conditionnelles ont été développés pour répondre à différentes tâches en aval, notamment la génération d'images à partir de texte, l'édition d'images guidée par texte, la génération d'images pilotée par un sujet, la génération d'images guidée par des contrôles, etc. Cependant, nous observons d'importantes incohérences dans les conditions expérimentales : jeux de données, inférence et métriques d'évaluation, ce qui rend les comparaisons équitables difficiles. Ce papier propose ImagenHub, une bibliothèque tout-en-un pour standardiser l'inférence et l'évaluation de tous les modèles de génération d'images conditionnelles. Premièrement, nous définissons sept tâches majeures et constituons des jeux de données d'évaluation de haute qualité pour celles-ci. Deuxièmement, nous avons construit un pipeline d'inférence unifié pour garantir des comparaisons équitables. Troisièmement, nous concevons deux scores d'évaluation humaine, à savoir la Cohérence Sémantique et la Qualité Perceptive, ainsi que des directives complètes pour évaluer les images générées. Nous formons des évaluateurs experts pour juger les sorties des modèles selon les métriques proposées. Notre évaluation humaine atteint un accord inter-évaluateurs élevé, avec un alpha de Krippendorff supérieur à 0,4 pour 76 % des modèles. Nous avons évalué de manière exhaustive un total d'environ 30 modèles et observé trois conclusions clés : (1) les performances des modèles existants sont généralement insatisfaisantes, à l'exception de la Génération d'Images Guidée par Texte et de la Génération d'Images Pilotée par un Sujet, avec 74 % des modèles obtenant un score global inférieur à 0,5. (2) Nous avons examiné les affirmations des articles publiés et constaté que 83 % d'entre elles tiennent, à quelques exceptions près. (3) Aucune des métriques automatiques existantes n'a une corrélation de Spearman supérieure à 0,2, sauf pour la génération d'images pilotée par un sujet. À l'avenir, nous continuerons nos efforts pour évaluer les nouveaux modèles publiés et mettre à jour notre classement afin de suivre les progrès dans le domaine de la génération d'images conditionnelles.
L'incitation par chaîne de pensée (Chain-of-thought, CoT) pour les modèles de langage démontre des performances impressionnantes dans les tâches de raisonnement, mais nécessite généralement des exemples étiquetés du processus de raisonnement. Dans ce travail, nous introduisons une nouvelle approche d'incitation, l'Incitation Analogique, conçue pour guider automatiquement le processus de raisonnement des grands modèles de langage. Inspirée par le raisonnement analogique, un processus cognitif dans lequel les humains s'appuient sur des expériences passées pertinentes pour résoudre de nouveaux problèmes, notre approche incite les modèles de langage à générer eux-mêmes des exemples ou des connaissances pertinents dans le contexte, avant de procéder à la résolution du problème donné. Cette méthode présente plusieurs avantages : elle élimine le besoin d'étiqueter ou de récupérer des exemples, offrant ainsi généralité et commodité ; elle peut également adapter les exemples et les connaissances générés à chaque problème, offrant ainsi une grande adaptabilité. Les résultats expérimentaux montrent que notre approche surpasse la CoT à zéro-shot (0-shot CoT) et la CoT manuelle à quelques exemples (manual few-shot CoT) dans une variété de tâches de raisonnement, y compris la résolution de problèmes mathématiques dans GSM8K et MATH, la génération de code dans Codeforces, et d'autres tâches de raisonnement dans BIG-Bench.
Les grands modèles de langage (LLM) récents ont démontré un potentiel considérable pour les agents intelligents et l'automatisation de nouvelle génération, mais il manque actuellement un benchmark systématique pour évaluer les capacités des LLM en tant qu'agents. Nous présentons SmartPlay : à la fois un benchmark exigeant et une méthodologie pour évaluer les LLM en tant qu'agents. SmartPlay se compose de 6 jeux différents, incluant Pierre-Papier-Ciseaux, la Tour de Hanoï et Minecraft. Chaque jeu propose un cadre unique, offrant jusqu'à 20 scénarios d'évaluation et des variations infinies de l'environnement. Chaque jeu dans SmartPlay met spécifiquement à l'épreuve un sous-ensemble de 9 capacités essentielles d'un agent LLM intelligent, incluant le raisonnement avec des dépendances d'objets, la planification à l'avance, le raisonnement spatial, l'apprentissage à partir de l'historique et la compréhension de l'aléatoire. La distinction entre les ensembles de capacités testés par chaque jeu nous permet d'analyser chaque capacité séparément. SmartPlay sert non seulement de terrain d'essai rigoureux pour évaluer la performance globale des agents LLM, mais aussi de feuille de route pour identifier les lacunes dans les méthodologies actuelles. Nous publions notre benchmark sur github.com/LLMsmartplay/SmartPlay.