Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès des grands modèles de langage (LLMs) démontrent des capacités substantielles dans les tâches de compréhension et de génération du langage naturel. Avec l'augmentation du nombre de LLMs, la manière d'exploiter l'expertise collective de plusieurs LLMs constitue une direction de recherche prometteuse. Dans cette optique, nous proposons une nouvelle approche qui tire parti des forces collectives de plusieurs LLMs grâce à une méthodologie de Mélange-d'Agents (Mixture-of-Agents, MoA). Dans notre approche, nous construisons une architecture MoA en couches où chaque couche comprend plusieurs agents LLM. Chaque agent utilise toutes les sorties des agents de la couche précédente comme informations auxiliaires pour générer sa réponse. Les modèles MoA atteignent des performances de pointe sur AlpacaEval 2.0, MT-Bench et FLASK, surpassant GPT-4 Omni. Par exemple, notre MoA utilisant uniquement des LLMs open source est en tête d'AlpacaEval 2.0 avec un écart significatif, obtenant un score de 65,1 % contre 57,5 % pour GPT-4 Omni.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) a récemment émergé comme une solution prometteuse pour pallier le manque de connaissances des grands modèles de langage (Large Language Models, LLM). Cependant, les ensembles de données RAG existants ne représentent pas adéquatement la nature diverse et dynamique des tâches réelles de Question-Réponse (Question Answering, QA). Pour combler cette lacune, nous introduisons le Benchmark Complet RAG (Comprehensive RAG Benchmark, CRAG), un benchmark de question-réponse factuelle comprenant 4 409 paires question-réponse et des API simulées pour reproduire la recherche sur le web et dans les graphes de connaissances (Knowledge Graph, KG). CRAG est conçu pour englober une diversité de questions couvrant cinq domaines et huit catégories de questions, reflétant une popularité variée des entités, allant des plus populaires aux plus marginales, ainsi que des dynamiques temporelles allant de plusieurs années à quelques secondes. Notre évaluation sur ce benchmark met en lumière l'écart par rapport à une QA entièrement fiable. Alors que la plupart des LLM avancés atteignent une précision <= 34 % sur CRAG, l'ajout de RAG de manière simple n'améliore la précision qu'à 44 %. Les solutions RAG industrielles de pointe ne répondent correctement qu'à 63 % des questions sans aucune hallucination. CRAG révèle également une précision bien plus faible pour les questions portant sur des faits plus dynamiques, moins populaires ou plus complexes, suggérant ainsi des directions de recherche futures. Le benchmark CRAG a posé les bases d'un défi KDD Cup 2024, attirant des milliers de participants et de soumissions dans les 50 premiers jours de la compétition. Nous nous engageons à maintenir CRAG pour servir les communautés de recherche dans l'avancement des solutions RAG et des solutions générales de QA.
Nous présentons WildBench, un cadre d'évaluation automatisé conçu pour comparer les grands modèles de langage (LLM) à l'aide de requêtes utilisateurs complexes et réalistes. WildBench comprend 1 024 tâches soigneusement sélectionnées parmi plus d'un million de logs de conversations humain-chatbot. Pour l'évaluation automatisée avec WildBench, nous avons développé deux métriques, WB-Reward et WB-Score, qui peuvent être calculées à l'aide de LLM avancés tels que GPT-4-turbo. L'évaluation WildBench utilise des listes de contrôle spécifiques aux tâches pour évaluer systématiquement les sorties des modèles et fournit des explications structurées justifiant les scores et les comparaisons, ce qui permet d'obtenir des jugements automatiques plus fiables et interprétables. WB-Reward emploie des comparaisons par paires fines entre les réponses des modèles, générant cinq résultats possibles : bien meilleur, légèrement meilleur, légèrement pire, bien pire ou égal. Contrairement aux évaluations précédentes qui utilisaient un seul modèle de référence, nous avons sélectionné trois modèles de référence à différents niveaux de performance pour garantir une évaluation par paires exhaustive. De plus, nous proposons une méthode simple pour atténuer le biais de longueur, en convertissant les résultats de « légèrement meilleur/pire » en « égal » si la réponse gagnante dépasse la réponse perdante de plus de K caractères. WB-Score évalue la qualité des sorties des modèles individuellement, ce qui en fait une métrique d'évaluation rapide et économique. Les résultats de WildBench démontrent une forte corrélation avec les évaluations Elo votées par des humains provenant de Chatbot Arena sur des tâches difficiles. Plus précisément, WB-Reward atteint une corrélation de Pearson de 0,98 avec les modèles les mieux classés. Par ailleurs, WB-Score atteint 0,95, surpassant à la fois les 0,91 d'ArenaHard et les 0,89 d'AlpacaEval2.0 pour les taux de victoire contrôlés par la longueur, ainsi que les 0,87 pour les taux de victoire réguliers.
L'IA générative a réalisé des progrès remarquables, révolutionnant des domaines tels que la génération d'images et de vidéos. Ces avancées sont portées par des algorithmes, des architectures et des données innovants. Cependant, la prolifération rapide des modèles génératifs a mis en lumière un manque critique : l'absence de métriques d'évaluation fiables. Les évaluations automatiques actuelles, telles que FID, CLIP, FVD, etc., échouent souvent à capturer la qualité nuancée et la satisfaction des utilisateurs associées aux sorties génératives. Ce papier propose une plateforme ouverte, GenAI-Arena, pour évaluer différents modèles génératifs d'images et de vidéos, où les utilisateurs peuvent participer activement à l'évaluation de ces modèles. En s'appuyant sur les retours et les votes collectifs des utilisateurs, GenAI-Arena vise à fournir une mesure plus démocratique et précise de la performance des modèles. Elle couvre trois arènes respectivement dédiées à la génération texte-image, texte-vidéo et à l'édition d'images. Actuellement, nous couvrons un total de 27 modèles génératifs open-source. GenAI-Arena fonctionne depuis quatre mois, accumulant plus de 6000 votes de la communauté. Nous décrivons notre plateforme, analysons les données et expliquons les méthodes statistiques pour classer les modèles. Pour promouvoir davantage la recherche sur les métriques d'évaluation basées sur des modèles, nous publions une version nettoyée de nos données de préférence pour les trois tâches, nommée GenAI-Bench. Nous incitons les modèles multimodaux existants comme Gemini et GPT-4o à imiter le vote humain. Nous calculons la corrélation entre les votes des modèles et les votes humains pour comprendre leurs capacités de jugement. Nos résultats montrent que les modèles multimodaux existants sont encore à la traîne dans l'évaluation du contenu visuel généré, même le meilleur modèle, GPT-4o, n'atteint qu'une corrélation de Pearson de 0,22 pour le sous-score de qualité, et se comporte comme un choix aléatoire dans les autres.
L'estimation de l'incertitude ou de la confiance dans les réponses d'un modèle peut être cruciale pour évaluer la fiabilité non seulement des réponses, mais aussi du modèle dans son ensemble. Dans cet article, nous explorons le problème de l'estimation de la confiance pour les réponses des grands modèles de langage (LLMs) avec un accès simple en boîte noire ou par requête. Nous proposons un cadre simple et extensible dans lequel nous concevons de nouvelles caractéristiques et entraînons un modèle interprétable (à savoir, une régression logistique) sur ces caractéristiques pour estimer la confiance. Nous démontrons empiriquement que notre cadre simple est efficace pour estimer la confiance de flan-ul2, llama-13b et mistral-7b, surpassant systématiquement les approches existantes d'estimation de la confiance en boîte noire sur des ensembles de données de référence tels que TriviaQA, SQuAD, CoQA et Natural Questions, parfois avec une amélioration de plus de 10 % (en termes d'AUROC). De plus, notre approche interprétable fournit des insights sur les caractéristiques prédictives de la confiance, conduisant à la découverte intéressante et utile que nos modèles de confiance construits pour un LLM se généralisent en zero-shot à d'autres modèles sur un ensemble de données donné.
Les capacités impressionnantes des modèles de langage de grande taille (LLMs) offrent une approche puissante pour repenser l'expérience de saisie des utilisateurs. Cet article présente Proofread, une nouvelle fonctionnalité de Gboard alimentée par un LLM côté serveur, permettant des corrections fluides au niveau de la phrase et du paragraphe en un seul clic. Nous décrivons ici le système complet, de la génération de données à la conception des métriques, en passant par le réglage du modèle et son déploiement. Pour obtenir des modèles de qualité suffisante, nous avons mis en place un pipeline de synthèse de données minutieusement adapté aux cas d'utilisation en ligne, conçu des métriques multidimensionnelles, et employé une approche de réglage en deux étapes pour acquérir le LLM dédié à cette fonctionnalité : le réglage par apprentissage supervisé (SFT) pour la qualité de base, suivi par le réglage par apprentissage par renforcement (RL) pour un affinement ciblé. Plus précisément, nous avons constaté qu'un réglage séquentiel sur les tâches de réécriture et de relecture donne les meilleurs résultats lors de l'étape SFT, et nous proposons des récompenses globales et directes lors de l'étape RL pour obtenir des améliorations supplémentaires. Des expériences approfondies sur un ensemble de référence annoté par des humains ont montré que notre modèle PaLM2-XS réglé atteint un taux de réussite de 85,56 %. Nous avons lancé cette fonctionnalité sur les appareils Pixel 8 en servant le modèle sur des TPU v5 dans Google Cloud, avec des milliers d'utilisateurs actifs quotidiens. La latence de service a été significativement réduite grâce à la quantification, l'inférence par compartiments, la segmentation de texte et le décodage spéculatif. Notre démonstration est disponible sur https://youtu.be/4ZdcuiwFU7I{Youtube}.
Nous présentons NATURAL PLAN, un benchmark réaliste de planification en langage naturel comprenant trois tâches clés : la planification de voyage, la planification de réunion et la planification d'agenda. Nous concentrons notre évaluation sur les capacités de planification des LLM avec une information complète sur la tâche, en fournissant les sorties d'outils tels que Google Flights, Google Maps et Google Calendar comme contextes aux modèles. Cela élimine le besoin d'un environnement d'utilisation d'outils pour évaluer les LLM sur la planification. Nous observons que NATURAL PLAN est un benchmark difficile pour les modèles de pointe. Par exemple, dans la planification de voyage, GPT-4 et Gemini 1.5 Pro n'ont pu atteindre que des taux de résolution de 31,1 % et 34,8 % respectivement. Nous constatons que les performances des modèles chutent considérablement à mesure que la complexité du problème augmente : tous les modèles obtiennent des résultats inférieurs à 5 % lorsqu'il y a 10 villes, ce qui met en évidence un écart significatif dans la planification en langage naturel pour les LLM de pointe. Nous menons également des études d'ablation approfondies sur NATURAL PLAN pour mieux comprendre l'(in)efficacité des approches telles que l'auto-correction, la généralisation en few-shot et la planification en contexte avec des contextes longs pour améliorer la planisation des LLM.
Un comportement prévisible lors de la mise à l'échelle des systèmes d'IA avancés est une propriété extrêmement souhaitable. Bien qu'une littérature bien établie existe sur la manière dont les performances en pré-entraînement évoluent avec l'échelle, la littérature sur l'évolution des capacités spécifiques en aval est nettement plus floue. Dans ce travail, nous prenons du recul et posons la question suivante : pourquoi la prédiction de capacités spécifiques en aval avec l'échelle reste-t-elle insaisissable ? Bien que de nombreux facteurs soient certainement en cause, nous identifions un nouveau facteur qui rend difficile la modélisation du comportement de mise à l'échelle sur des benchmarks largement utilisés de questions à choix multiples. En utilisant cinq familles de modèles et douze benchmarks bien établis de questions à choix multiples, nous montrons que les performances en aval sont calculées à partir des log-vraisemblances négatives via une séquence de transformations qui dégradent progressivement la relation statistique entre les performances et l'échelle. Nous révélons ensuite le mécanisme à l'origine de cette dégradation : les métriques en aval nécessitent de comparer le choix correct à un petit nombre de choix incorrects spécifiques, ce qui signifie que prédire avec précision les capacités en aval nécessite non seulement de prédire comment la masse de probabilité se concentre sur le choix correct avec l'échelle, mais aussi comment la masse de probabilité fluctue sur des choix incorrects spécifiques avec l'échelle. Nous étudions empiriquement comment la masse de probabilité sur le choix correct co-varie avec la masse de probabilité sur les choix incorrects avec l'augmentation de la puissance de calcul, suggérant que des lois de mise à l'échelle pour les choix incorrects pourraient être réalisables. Notre travail explique également pourquoi les lois de mise à l'échelle en pré-entraînement sont généralement considérées comme plus prévisibles que les capacités en aval et contribue à établir des évaluations prévisibles avec l'échelle pour les modèles d'IA de pointe.
L'émergence des modèles de langage à grande échelle (LLMs) a nécessité l'adoption de techniques d'entraînement parallèle, impliquant le déploiement de milliers de GPU pour entraîner un seul modèle. Malheureusement, nous avons constaté que l'efficacité de l'entraînement parallèle actuel est souvent sous-optimale, principalement en raison de deux problèmes majeurs. Premièrement, les défaillances matérielles sont inévitables, entraînant des interruptions dans les tâches d'entraînement. L'incapacité à identifier rapidement les composants défectueux entraîne un gaspillage substantiel des ressources GPU. Deuxièmement, puisque les GPU doivent attendre que la synchronisation des paramètres soit terminée avant de passer au prochain cycle de calcul, les congestions réseau peuvent considérablement augmenter le temps d'attente des GPU. Pour relever ces défis, cet article propose une solution axée sur la communication, nommée C4. Les idées clés de C4 sont doubles. Premièrement, dans l'entraînement parallèle, la communication collective présente des caractéristiques périodiques et homogènes, de sorte que toute anomalie est certainement due à une forme de défaillance matérielle. En exploitant cette caractéristique, C4 peut identifier rapidement les composants défectueux, isoler rapidement l'anomalie et redémarrer la tâche, évitant ainsi le gaspillage de ressources causé par les retards dans la détection des anomalies. Deuxièmement, le modèle de communication prévisible de la communication collective, impliquant peu de flux de grande taille, permet à C4 d'exécuter efficacement la planification du trafic, réduisant considérablement la congestion réseau. C4 a été largement déployé dans nos systèmes de production, réduisant les surcoûts induits par les erreurs d'environ 30 % et améliorant les performances d'exécution d'environ 15 % pour certaines applications avec des coûts de communication modérés.