Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'évaluation des modèles de langage à grande échelle (LLMs) dans des scénarios ouverts est un défi, car les benchmarks et métriques existants ne permettent pas de les mesurer de manière exhaustive. Pour résoudre ce problème, nous proposons de fine-tuner des LLMs en tant que juges scalables (JudgeLM) afin d'évaluer efficacement et efficacement les LLMs dans des benchmarks ouverts. Nous proposons d'abord un ensemble de données complet, à grande échelle et de haute qualité contenant des amorces de tâches, des réponses générées par des LLMs et des jugements générés par GPT-4 pour le fine-tuning de juges performants, ainsi qu'un nouveau benchmark pour évaluer ces juges. Nous entraînons JudgeLM à différentes échelles, de 7B, 13B à 33B paramètres, et menons une analyse systématique de ses capacités et comportements. Nous analysons ensuite les principaux biais lors du fine-tuning d'un LLM en tant que juge, en les catégorisant comme biais de position, biais de connaissance et biais de format. Pour résoudre ces problèmes, JudgeLM introduit un ensemble de techniques incluant l'augmentation par échange, le support de référence et l'abandon de référence, qui améliorent clairement les performances du juge. JudgeLM obtient des performances de juge de pointe à la fois sur le benchmark existant PandaLM et sur notre nouveau benchmark proposé. Notre JudgeLM est efficace, et le JudgeLM-7B ne nécessite que 3 minutes pour juger 5 000 échantillons avec 8 GPU A100. JudgeLM atteint un accord élevé avec le juge enseignant, dépassant 90 %, ce qui surpasse même l'accord interhumain. JudgeLM démontre également des capacités étendues en tant que juge pour une réponse unique, des modèles multimodaux, des réponses multiples et des conversations multi-tours.
Nous présentons HyperFields, une méthode pour générer des champs de rayonnement neuronaux (NeRFs) conditionnés par du texte avec une seule passe avant et (optionnellement) un ajustement fin. Les éléments clés de notre approche sont : (i) un hyper-réseau dynamique, qui apprend une correspondance fluide entre les embeddings de tokens textuels et l'espace des NeRFs ; (ii) un entraînement par distillation de NeRF, qui distille les scènes encodées dans des NeRFs individuels en un seul hyper-réseau dynamique. Ces techniques permettent à un seul réseau de s'adapter à plus d'une centaine de scènes uniques. Nous démontrons en outre qu'HyperFields apprend une correspondance plus générale entre le texte et les NeRFs, et est par conséquent capable de prédire des scènes nouvelles, qu'elles soient dans la distribution ou hors distribution — soit de manière zero-shot, soit avec quelques étapes d'ajustement fin. L'ajustement fin d'HyperFields bénéficie d'une convergence accélérée grâce à la correspondance générale apprise, et est capable de synthétiser des scènes nouvelles 5 à 10 fois plus rapidement que les méthodes existantes basées sur l'optimisation neuronale. Nos expériences d'ablation montrent que l'architecture dynamique et la distillation de NeRF sont toutes deux essentielles à l'expressivité d'HyperFields.
Nous proposons le décodage contrôlé (CD), une nouvelle méthode d'apprentissage par renforcement hors politique pour contrôler la génération autoregressive des modèles de langage vers des résultats à haut rendement. CD résout un problème d'apprentissage par renforcement hors politique à travers une fonction de valeur pour le rendement, que nous appelons un évaluateur de préfixe. L'évaluateur de préfixe est utilisé au moment de l'inférence pour orienter la génération vers des résultats à plus haut rendement. Nous montrons que l'évaluateur de préfixe peut être entraîné sur des données (potentiellement) hors politique pour prédire le rendement attendu lorsque le décodage est poursuivi à partir d'une réponse partiellement décodée. Nous démontrons empiriquement que CD est efficace comme mécanisme de contrôle sur un corpus de conversations Reddit. Nous montrons également que la modularité de la conception de CD permet de contrôler pour plusieurs rendements, résolvant efficacement un problème d'apprentissage par renforcement multi-objectif sans complexité supplémentaire. Enfin, nous montrons que CD peut être appliqué de manière novatrice par blocs au moment de l'inférence, là encore sans nécessiter de modifications au moment de l'entraînement, comblant ainsi l'écart entre la stratégie populaire du meilleur-de-K et l'apprentissage par renforcement au niveau des tokens. Cela fait de CD une approche prometteuse pour l'alignement des modèles de langage.
Les grands modèles de langage (LLM) avec des centaines de milliards de paramètres ont suscité une nouvelle vague d'applications passionnantes en IA. Cependant, ils sont coûteux en calcul au moment de l'inférence. La parcimonie est une approche naturelle pour réduire ce coût, mais les méthodes existantes nécessitent soit un réentraînement coûteux, soit renoncent à la capacité d'apprentissage en contexte des LLM, soit ne permettent pas d'accélérer le temps réel sur le matériel moderne. Nous émettons l'hypothèse que la parcimonie contextuelle, qui consiste en de petits ensembles de têtes d'attention et de paramètres MLP dépendants de l'entrée et produisant approximativement la même sortie que le modèle dense pour une entrée donnée, peut résoudre ces problèmes. Nous montrons que la parcimonie contextuelle existe, qu'elle peut être prédite avec précision, et que nous pouvons l'exploiter pour accélérer l'inférence des LLM en temps réel sans compromettre la qualité du modèle ou sa capacité d'apprentissage en contexte. Sur la base de ces observations, nous proposons DejaVu, un système qui utilise un algorithme peu coûteux pour prédire la parcimonie contextuelle à la volée en fonction des entrées de chaque couche, ainsi qu'une implémentation asynchrone et adaptée au matériel qui accélère l'inférence des LLM. Nous validons que DejaVu peut réduire la latence d'inférence d'OPT-175B de plus de 2 fois par rapport à FasterTransformer, l'état de l'art, et de plus de 6 fois par rapport à l'implémentation largement utilisée de Hugging Face, sans compromettre la qualité du modèle. Le code est disponible à l'adresse https://github.com/FMInference/DejaVu.