Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) ayant démontré leurs puissantes capacités dans de nombreux domaines et tâches, notamment la compréhension contextuelle, la génération de code, la génération de langage, la narration de données, etc., de nombreux analystes de données peuvent s’interroger sur le risque que leurs emplois soient remplacés par l’IA. Ce sujet controversé a suscité une attention considérable dans le débat public. Cependant, nous en sommes encore à un stade où les opinions divergent sans qu’aucune conclusion définitive ne soit établie. Motivés par cette question, nous posons dans ce travail la question de recherche suivante : « GPT-4 est-il un bon analyste de données ? » et visons à y répondre en menant des études comparatives directes. Plus précisément, nous considérons GPT-4 comme un analyste de données chargé de réaliser des analyses de données de bout en bout sur des bases de données issues de divers domaines. Nous proposons un cadre pour aborder ces problèmes en concevant soigneusement les prompts destinés à GPT-4 pour mener les expériences. Nous concevons également plusieurs métriques d’évaluation spécifiques aux tâches afin de comparer systématiquement les performances entre plusieurs analystes de données humains professionnels et GPT-4. Les résultats expérimentaux montrent que GPT-4 peut atteindre des performances comparables à celles des humains. Nous fournissons également des discussions approfondies sur nos résultats pour éclairer les études futures avant de conclure que GPT-4 peut remplacer les analystes de données.
Avec l'émergence récente des LLM dans des contextes pratiques, il est crucial de disposer de méthodes capables de détecter efficacement les incohérences factuelles afin de réduire la propagation de la désinformation et d'améliorer la confiance dans les sorties des modèles. Lors des tests sur les benchmarks existants de cohérence factuelle, nous constatons que quelques grands modèles de langage (LLM) obtiennent des performances compétitives sur les benchmarks de classification pour la détection d'incohérences factuelles par rapport aux méthodes traditionnelles non-LLM. Cependant, une analyse plus approfondie révèle que la plupart des LLM échouent sur des formulations plus complexes de la tâche et met en lumière des problèmes avec les benchmarks d'évaluation existants, affectant la précision de l'évaluation. Pour remédier à cela, nous proposons un nouveau protocole pour la création de benchmarks de détection d'incohérences et l'implémentons dans un benchmark de 10 domaines appelé SummEdits. Ce nouveau benchmark est 20 fois plus rentable par échantillon que les benchmarks précédents et hautement reproductible, avec un accord inter-annotateurs estimé à environ 0,9. La plupart des LLM rencontrent des difficultés sur SummEdits, avec des performances proches du hasard. Le modèle le plus performant, GPT-4, reste encore 8 % en dessous des performances humaines estimées, soulignant les lacunes des LLM dans leur capacité à raisonner sur les faits et à détecter les incohérences lorsqu'elles se produisent.
Les jeux de survie en monde ouvert posent des défis significatifs pour les algorithmes d'IA en raison de leurs exigences en matière de multitâche, d'exploration approfondie et de hiérarchisation des objectifs. Bien que l'apprentissage par renforcement (RL) soit populaire pour résoudre des jeux, sa complexité d'échantillonnage élevée limite son efficacité dans des jeux en monde ouvert complexes comme Crafter ou Minecraft. Nous proposons une nouvelle approche, SPRING, qui consiste à lire le document académique original du jeu et à utiliser les connaissances acquises pour raisonner et jouer au jeu via un grand modèle de langage (LLM). En utilisant le code source LaTeX comme contexte du jeu et une description de l'observation actuelle de l'agent, notre cadre SPRING emploie un graphe acyclique dirigé (DAG) avec des questions liées au jeu comme nœuds et des dépendances comme arêtes. Nous identifions l'action optimale à entreprendre dans l'environnement en parcourant le DAG et en calculant les réponses du LLM pour chaque nœud dans l'ordre topologique, la réponse du LLM au nœud final se traduisant directement en actions dans l'environnement. Dans nos expériences, nous étudions la qualité du "raisonnement" en contexte induit par différentes formes d'invites dans le cadre de l'environnement en monde ouvert de Crafter. Nos expériences suggèrent que les LLM, lorsqu'ils sont sollicités avec une chaîne de pensée cohérente, ont un grand potentiel pour accomplir des trajectoires sophistiquées de haut niveau. Quantitativement, SPRING avec GPT-4 surpasse toutes les méthodes de RL de pointe, entraînées pendant 1 million d'étapes, sans aucun entraînement. Enfin, nous montrons le potentiel des jeux comme banc d'essai pour les LLM.
Bien que la traduction automatique neuronale (NMT) représente l'approche dominante en traduction automatique (MT), les sorties des modèles NMT nécessitent encore une post-édition pour corriger les erreurs et améliorer la qualité, en particulier dans des contextes critiques. Dans ce travail, nous formalisons la tâche de post-édition de traduction avec des modèles de langage de grande taille (LLMs) et explorons l'utilisation de GPT-4 pour post-éditer automatiquement les sorties NMT sur plusieurs paires de langues. Nos résultats démontrent que GPT-4 est compétent en post-édition de traduction et produit des modifications significatives même lorsque la langue cible n'est pas l'anglais. Notamment, nous atteignons des performances de pointe sur les paires de langues WMT-22 anglais-chinois, anglais-allemand, chinois-anglais et allemand-anglais en utilisant la post-édition basée sur GPT-4, telles qu'évaluées par les métriques de qualité de traduction automatique les plus avancées.
Les stratégies telles que l'incitation en chaîne de pensée améliorent les performances des grands modèles de langage (LLMs) sur des tâches de raisonnement complexe en décomposant les exemples d'entrée en étapes intermédiaires. Cependant, il reste incertain comment appliquer de telles méthodes pour raisonner sur des documents d'entrée longs, où à la fois la décomposition et le résultat de chaque étape intermédiaire sont non triviaux à obtenir. Dans ce travail, nous proposons PEARL, un cadre d'incitation pour améliorer le raisonnement sur des documents longs, qui se compose de trois étapes : l'extraction d'actions, la formulation de plan et l'exécution de plan. Plus précisément, étant donné une question sur un document long, PEARL décompose la question en une séquence d'actions (par exemple, RÉSUMER, TROUVER_ÉVÉNEMENT, TROUVER_RELATION) puis les exécute sur le document pour obtenir la réponse. Chaque étape de PEARL est mise en œuvre via une incitation zero-shot ou few-shot des LLMs (dans notre travail, GPT-4) avec un apport humain minimal. Nous évaluons PEARL sur un sous-ensemble difficile du jeu de données QuALITY, qui contient des questions nécessitant un raisonnement complexe sur des textes narratifs longs. PEARL surpasse les incitations zero-shot et en chaîne de pensée sur ce jeu de données, et les expériences d'ablation montrent que chaque étape de PEARL est cruciale pour sa performance. Dans l'ensemble, PEARL représente une première étape vers l'exploitation des LLMs pour raisonner sur des documents longs.