Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) ont démontré un grand potentiel dans l'intégration de modèles experts diversifiés pour aborder des tâches complexes en langage et vision. Malgré leur importance dans l'avancement du domaine du contenu généré par intelligence artificielle (AIGC), leur potentiel dans la création intelligente de contenu audio reste inexploré. Dans ce travail, nous abordons le problème de la création de contenu audio avec des scénarios englobant la parole, la musique et les effets sonores, guidés par des instructions textuelles. Nous présentons WavJourney, un système qui exploite les LLMs pour connecter divers modèles audio afin de générer du contenu audio. Étant donné une description textuelle d'une scène auditive, WavJourney invite d'abord les LLMs à générer un script structuré dédié à la narration audio. Le script audio intègre divers éléments audio, organisés en fonction de leurs relations spatio-temporelles. En tant que représentation conceptuelle de l'audio, le script audio fournit une justification interactive et interprétable pour l'engagement humain. Ensuite, le script audio est introduit dans un compilateur de script, le convertissant en un programme informatique. Chaque ligne du programme appelle un modèle de génération audio spécifique à une tâche ou une fonction d'opération computationnelle (par exemple, concaténer, mixer). Le programme informatique est ensuite exécuté pour obtenir une solution explicable pour la génération audio. Nous démontrons la praticabilité de WavJourney dans divers scénarios réels, incluant la science-fiction, l'éducation et le théâtre radiophonique. La conception explicable et interactive de WavJourney favorise la co-création homme-machine dans des dialogues multi-tours, améliorant le contrôle créatif et l'adaptabilité dans la production audio. WavJourney audio-lise l'imagination humaine, ouvrant de nouvelles voies pour la créativité dans la création de contenu multimédia.
Les adaptations de faible rang (LoRA) sont souvent utilisées pour affiner les grands modèles de langage (LLMs) pour de nouvelles tâches. Cet article explore la composabilité des LoRA pour la généralisation inter-tâches et présente LoraHub, un cadre stratégique conçu pour l'assemblage intentionnel de modules LoRA entraînés sur diverses tâches données, dans le but d'obtenir des performances adaptables sur des tâches inédites. Avec seulement quelques exemples d'une nouvelle tâche, LoraHub permet la combinaison fluide de plusieurs modules LoRA, éliminant ainsi le besoin d'expertise humaine. Notamment, la composition ne nécessite ni paramètres supplémentaires du modèle ni gradients. Nos résultats empiriques, issus du benchmark Big-Bench Hard (BBH), suggèrent que LoraHub peut efficacement imiter les performances de l'apprentissage en contexte dans des scénarios à faible échantillon, sans nécessiter d'exemples en contexte à côté de chaque entrée d'inférence. Une contribution significative de notre recherche est la promotion d'une communauté pour LoRA, où les utilisateurs peuvent partager leurs modules LoRA entraînés, facilitant ainsi leur application à de nouvelles tâches. Nous anticipons que cette ressource élargira l'accès et stimulera les avancées en intelligence générale ainsi que dans les LLMs en production. Le code sera disponible à l'adresse https://github.com/sail-sg/lorahub.
Les grands modèles de langage (LLM) obtiennent de meilleures performances lorsqu'ils produisent un raisonnement étape par étape, appelé "Chaîne de Pensée" (CoT), avant de répondre à une question. Cependant, il n'est pas clair si ce raisonnement énoncé constitue une explication fidèle du raisonnement réel du modèle (c'est-à-dire son processus pour répondre à la question). Nous examinons des hypothèses sur la manière dont le raisonnement CoT pourrait ne pas être fidèle, en étudiant comment les prédictions du modèle changent lorsque nous intervenons sur la CoT (par exemple, en ajoutant des erreurs ou en la reformulant). Les modèles montrent une grande variabilité selon les tâches dans la mesure où ils s'appuient sur la CoT pour prédire leur réponse, parfois en dépendant fortement de la CoT et d'autres fois en l'ignorant principalement. L'amélioration des performances apportée par la CoT ne semble pas provenir uniquement du calcul supplémentaire au moment du test ou de l'information encodée via la formulation spécifique de la CoT. À mesure que les modèles deviennent plus grands et plus performants, ils produisent un raisonnement moins fidèle sur la plupart des tâches étudiées. Globalement, nos résultats suggèrent que la CoT peut être fidèle si des circonstances telles que la taille du modèle et la tâche sont soigneusement choisies.
Avec les avancées de l'IA générative, le potentiel excitant pour des agents autonomes de gérer des tâches quotidiennes via des commandes en langage naturel a émergé. Cependant, les agents actuels sont principalement créés et testés dans des environnements synthétiques simplifiés, limitant considérablement la représentation des scénarios réels. Dans cet article, nous construisons un environnement pour le commandement et le contrôle d'agents qui est hautement réaliste et reproductible. Plus précisément, nous nous concentrons sur des agents qui exécutent des tâches sur des sites web, et nous créons un environnement avec des sites web entièrement fonctionnels dans quatre domaines courants : le commerce électronique, les discussions sur les forums sociaux, le développement collaboratif de logiciels et la gestion de contenu. Notre environnement est enrichi d'outils (par exemple, une carte) et de bases de connaissances externes (par exemple, des manuels utilisateur) pour encourager une résolution de tâches semblable à celle des humains. Sur la base de notre environnement, nous publions un ensemble de tâches de référence axées sur l'évaluation de l'exactitude fonctionnelle des accomplissements de tâches. Les tâches de notre référence sont variées, à long terme, et conçues pour imiter les tâches que les humains effectuent couramment sur Internet. Nous concevons et implémentons plusieurs agents autonomes, intégrant des techniques récentes telles que le raisonnement avant l'action. Les résultats démontrent que la résolution de tâches complexes est difficile : notre meilleur agent basé sur GPT-4 n'atteint qu'un taux de réussite de tâche de bout en bout de 10,59 %. Ces résultats soulignent la nécessité de développer davantage des agents robustes, que les modèles de langage actuels les plus avancés sont loin d'une performance parfaite dans ces tâches de la vie réelle, et que WebArena peut être utilisé pour mesurer un tel progrès. Notre code, données, ressources de reproduction de l'environnement et démonstrations vidéo sont disponibles publiquement à l'adresse https://webarena.dev/.
Les modèles de langage à grande échelle (LLMs) ont démontré des performances remarquables sur divers benchmarks de raisonnement quantitatif et de connaissances. Cependant, de nombreux de ces benchmarks perdent de leur utilité à mesure que les LLMs obtiennent des scores de plus en plus élevés, bien qu'ils n'atteignent pas encore des performances expertes dans ces domaines. Nous introduisons ARB, un nouveau benchmark composé de problèmes de raisonnement avancé dans plusieurs domaines. ARB présente un test plus difficile que les benchmarks précédents, avec des problèmes en mathématiques, physique, biologie, chimie et droit. En tant que sous-ensemble d'ARB, nous introduisons un ensemble complexe de problèmes de mathématiques et de physique qui nécessitent un raisonnement symbolique avancé et des connaissances approfondies du domaine. Nous évaluons des modèles récents tels que GPT-4 et Claude sur ARB et démontrons que les modèles actuels obtiennent des scores bien inférieurs à 50 % sur les tâches les plus exigeantes. Afin d'améliorer les capacités d'évaluation automatique et assistée, nous introduisons une approche d'évaluation basée sur une grille, permettant à GPT-4 de noter ses propres étapes de raisonnement intermédiaires. De plus, nous menons une évaluation humaine du sous-ensemble symbolique d'ARB, constatant un accord prometteur entre les annotateurs et les scores d'évaluation de GPT-4 basés sur la grille.
Les systèmes de recommandation traditionnels exploitent l'historique des préférences des utilisateurs pour les articles afin de recommander de nouveaux contenus susceptibles de leur plaire. Cependant, les interfaces de dialogue modernes, qui permettent aux utilisateurs d'exprimer des préférences basées sur le langage, offrent une modalité fondamentalement différente pour la saisie des préférences. Inspirés par les récents succès des paradigmes de prompting pour les grands modèles de langage (LLMs), nous étudions leur utilisation pour formuler des recommandations à partir de préférences basées sur les articles et sur le langage, en comparaison avec les méthodes de filtrage collaboratif (CF) basées sur les articles les plus avancées. Pour soutenir cette investigation, nous collectons un nouveau jeu de données comprenant à la fois des préférences basées sur les articles et sur le langage, recueillies auprès des utilisateurs, ainsi que leurs évaluations sur une variété d'articles recommandés (biaisés) et d'articles aléatoires (non biaisés). Parmi de nombreux résultats expérimentaux, nous constatons que les LLMs offrent une performance compétitive en matière de recommandation pour des préférences purement basées sur le langage (sans préférences d'articles) dans le cas quasi de démarrage à froid, en comparaison avec les méthodes de CF basées sur les articles, et ce malgré l'absence de formation supervisée pour cette tâche spécifique (zero-shot) ou seulement quelques étiquettes (few-shot). Cela est particulièrement prometteur, car les représentations des préférences basées sur le langage sont plus explicables et scrutables que les représentations basées sur les articles ou sur des vecteurs.
La couverture de code est une métrique largement utilisée pour quantifier l'étendue à laquelle les éléments d'un programme, tels que les instructions ou les branches, sont exécutés lors des tests. Le calcul de la couverture de code est gourmand en ressources, nécessitant la compilation et l'exécution du code avec un surcoût supplémentaire pour l'instrumentation. De plus, le calcul de la couverture pour n'importe quel extrait de code nécessite le contexte complet du programme. L'utilisation de l'apprentissage automatique pour amortir ce processus coûteux pourrait réduire le coût de la couverture de code en ne nécessitant que le contexte du code source, et la tâche de prédiction de la couverture de code pourrait constituer un nouveau benchmark pour évaluer la capacité des modèles à comprendre le code. Nous proposons une nouvelle tâche de benchmark appelée Prédiction de Couverture de Code pour les Modèles de Langage à Grande Échelle (LLMs). Nous formalisons cette tâche pour évaluer la capacité des LLMs à comprendre l'exécution du code en déterminant quelles lignes d'une méthode sont exécutées par un cas de test et des entrées donnés. Nous constituons et publions un ensemble de données que nous appelons COVERAGEEVAL en exécutant des tests et du code issus du dataset HumanEval et en collectant les informations de couverture de code. Nous rapportons les performances de quatre LLMs de pointe utilisés pour des tâches liées au code, incluant GPT-4 et GPT-3.5-Turbo d'OpenAI, BARD de Google, et Claude d'Anthropic, sur la tâche de Prédiction de Couverture de Code. Enfin, nous argumentons que la couverture de code en tant que métrique et source de données de pré-entraînement est précieuse pour la performance globale des LLMs sur les tâches d'ingénierie logicielle.
Nous proposons Strivec, une nouvelle représentation neuronale qui modélise une scène 3D comme un champ de radiance avec des grilles de tenseurs locaux distribués de manière éparse et factorisés de manière compacte. Notre approche exploite la décomposition tensorielle, suivant les travaux récents de TensoRF, pour modéliser les grilles de tenseurs. Contrairement à TensoRF qui utilise un tenseur global et se concentre sur leur décomposition vecteur-matrice, nous proposons d'utiliser un nuage de tenseurs locaux et d'appliquer la décomposition classique CANDECOMP/PARAFAC (CP) pour factoriser chaque tenseur en triplets de vecteurs qui expriment les distributions de caractéristiques locales le long des axes spatiaux et encodent de manière compacte un champ neuronal local. Nous appliquons également des grilles de tenseurs multi-échelles pour découvrir les similitudes géométriques et d'apparence, et exploitons la cohérence spatiale avec la factorisation en triplets de vecteurs à plusieurs échelles locales. Les propriétés finales du champ de radiance sont régressées en agrégeant les caractéristiques neuronales de plusieurs tenseurs locaux à travers toutes les échelles. Nos tenseurs en triplets de vecteurs sont distribués de manière éparse autour de la surface réelle de la scène, découverte par une reconstruction grossière rapide, tirant parti de la parcimonie d'une scène 3D. Nous démontrons que notre modèle peut atteindre une meilleure qualité de rendu tout en utilisant significativement moins de paramètres que les méthodes précédentes, y compris TensoRF et Instant-NGP.
Bien que de nombreux problèmes du monde réel pourraient bénéficier de l'apprentissage par renforcement, ces problèmes s'intègrent rarement dans le cadre des processus de décision markoviens (MDP) : interagir avec l'environnement est souvent coûteux et la spécification des fonctions de récompense est complexe. Motivés par ces défis, des travaux antérieurs ont développé des approches basées sur les données qui apprennent entièrement à partir d'échantillons des dynamiques de transition et d'exemples d'états à haut rendement. Ces méthodes apprennent généralement une fonction de récompense à partir des états à haut rendement, utilisent cette fonction pour étiqueter les transitions, puis appliquent un algorithme d'apprentissage par renforcement hors ligne à ces transitions. Bien que ces méthodes puissent obtenir de bons résultats sur de nombreuses tâches, elles peuvent être complexes, nécessitant souvent une régularisation et des mises à jour par différences temporelles. Dans cet article, nous proposons une méthode pour le contrôle hors ligne basé sur des exemples qui apprend un modèle implicite des transitions multi-étapes, plutôt qu'une fonction de récompense. Nous montrons que ce modèle implicite peut représenter les valeurs Q pour le problème de contrôle basé sur des exemples. Sur une gamme de tâches de contrôle hors ligne basées sur l'état et sur des images, notre méthode surpasse les méthodes de référence utilisant des fonctions de récompense apprises ; des expériences supplémentaires démontrent une amélioration de la robustesse et de la scalabilité avec la taille du jeu de données.