Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage se sont imposés comme des outils polyvalents, mais leur application à des tâches nécessitant des budgets d'inférence réduits et des ensembles d'entraînement limités dans le domaine cible reste problématique. Ce travail formalise ces contraintes et distingue quatre variables importantes : le budget de pré-entraînement (pour l'entraînement avant que le domaine cible ne soit connu), le budget de spécialisation (pour l'entraînement après que le domaine cible est connu), le budget d'inférence et la taille de l'ensemble d'entraînement dans le domaine. À travers ces configurations, nous comparons différentes approches issues de la littérature en apprentissage automatique. Limités par le coût de l'inférence, nous identifions des alternatives supérieures à la pratique standard consistant à entraîner des modèles de transformateurs très grands et non spécialisés. En particulier, nous montrons que les hyper-réseaux et les mélanges d'experts offrent une meilleure perplexité pour les budgets de pré-entraînement élevés, tandis que les petits modèles entraînés sur des ensembles de données échantillonnés par importance sont avantageux pour les budgets de spécialisation importants.
L'avancée des modèles de langage de grande taille (LLMs) a considérablement propulsé le domaine de la génération de code. Les travaux précédents ont intégré l'apprentissage par renforcement (RL) avec des retours de compilateur pour explorer l'espace de sortie des LLMs afin d'améliorer la qualité de la génération de code. Cependant, le code long généré par les LLMs en réponse à des exigences humaines complexes rend l'exploration par RL difficile. De plus, comme les tests unitaires peuvent ne pas couvrir le code complexe, l'optimisation des LLMs en utilisant ces extraits de code non exécutés est inefficace. Pour relever ces défis, nous introduisons StepCoder, un nouveau cadre RL pour la génération de code, composé de deux éléments principaux : CCCS aborde le défi de l'exploration en divisant la tâche de génération de code en longues séquences en un Curriculum de Sous-tâches de Complétion de Code, tandis que FGO optimise uniquement le modèle en masquant les segments de code non exécutés pour fournir une Optimisation Fine-Grained. En outre, nous construisons également le jeu de données APPS+ pour l'entraînement RL, qui est vérifié manuellement pour garantir l'exactitude des tests unitaires. Les résultats expérimentaux montrent que notre méthode améliore la capacité à explorer l'espace de sortie et surpasse les approches de pointe dans les benchmarks correspondants.
La planification fait partie des objectifs fondamentaux de l'intelligence artificielle depuis sa conception, mais les premiers agents d'IA se concentraient principalement sur des environnements contraints, car de nombreux substrats cognitifs nécessaires à une planification de niveau humain faisaient défaut. Récemment, les agents linguistiques alimentés par des modèles de langage de grande taille (LLMs) ont démontré des capacités intéressantes, telles que l'utilisation d'outils et le raisonnement. Ces agents linguistiques sont-ils capables de planifier dans des environnements plus complexes, hors de portée des agents d'IA précédents ? Pour approfondir cette question, nous proposons TravelPlanner, un nouveau benchmark de planification axé sur la planification de voyages, un scénario de planification courant dans le monde réel. Il offre un environnement sandbox riche, divers outils pour accéder à près de quatre millions d'enregistrements de données, ainsi que 1 225 intentions de planification et plans de référence soigneusement élaborés. Les évaluations approfondies montrent que les agents linguistiques actuels ne sont pas encore capables de gérer des tâches de planification aussi complexes - même GPT-4 n'atteint qu'un taux de réussite de 0,6 %. Les agents linguistiques ont du mal à rester concentrés sur la tâche, à utiliser les bons outils pour collecter des informations ou à suivre plusieurs contraintes simultanément. Cependant, nous soulignons que la simple possibilité pour les agents linguistiques de s'attaquer à un problème aussi complexe représente en soi un progrès non négligeable. TravelPlanner offre un banc d'essai à la fois stimulant et significatif pour les futurs agents linguistiques.
Nous présentons Pok\'eLLMon, le premier agent incarné par un LLM (Large Language Model) qui atteint des performances comparables à celles des humains dans les jeux de bataille tactiques, comme démontré dans les combats Pok\'emon. La conception de Pok\'eLLMon intègre trois stratégies clés : (i) Un apprentissage par renforcement en contexte qui consomme instantanément les retours textuels issus des batailles pour affiner itérativement la politique ; (ii) Une génération augmentée par la connaissance qui récupère des informations externes pour contrer les hallucinations et permet à l'agissant d'agir de manière opportune et appropriée ; (iii) Une génération d'actions cohérentes pour atténuer le phénomène de changement paniqué lorsque l'agent est confronté à un adversaire puissant et souhaite fuir le combat. Nous montrons que les batailles en ligne contre des humains démontrent les stratégies de combat semblables à celles des humains et la prise de décision en temps réel de Pok\'eLLMon, atteignant un taux de victoire de 49 % dans les compétitions Ladder et de 56 % dans les batailles sur invitation. Notre implémentation et les journaux de batailles jouables sont disponibles à l'adresse suivante : https://github.com/git-disl/PokeLLMon.
La génération de mouvements riches et contrôlables constitue un défi majeur dans la synthèse vidéo. Nous proposons Boximator, une nouvelle approche pour le contrôle fin des mouvements. Boximator introduit deux types de contraintes : la boîte rigide (hard box) et la boîte souple (soft box). Les utilisateurs sélectionnent des objets dans l'image conditionnelle à l'aide de boîtes rigides, puis utilisent l'un ou l'autre type de boîtes pour définir de manière approximative ou précise la position, la forme ou la trajectoire de l'objet dans les images futures. Boximator fonctionne comme un module complémentaire pour les modèles de diffusion vidéo existants. Son processus d'apprentissage préserve les connaissances du modèle de base en gelant les poids originaux et en entraînant uniquement le module de contrôle. Pour relever les défis de l'apprentissage, nous introduisons une technique innovante d'auto-suivi qui simplifie grandement l'apprentissage des corrélations entre les boîtes et les objets. Empiriquement, Boximator atteint des scores de qualité vidéo (FVD) à la pointe de l'état de l'art, surpassant deux modèles de base, et s'améliore encore après l'incorporation des contraintes de boîtes. Sa robuste contrôlabilité des mouvements est validée par une augmentation significative de la métrique d'alignement des boîtes englobantes. L'évaluation humaine montre également que les utilisateurs préfèrent les résultats générés par Boximator à ceux du modèle de base.
Les Transformers constituent l'architecture dominante pour la modélisation de séquences, mais il existe un intérêt croissant pour les modèles utilisant un état latent de taille fixe qui ne dépend pas de la longueur de la séquence, que nous appelons « modèles d’espace d’état généralisés » (GSSMs). Dans cet article, nous montrons que bien que les GSSMs soient prometteurs en termes d’efficacité lors de l’inférence, ils sont limités par rapport aux modèles de type Transformer pour les tâches nécessitant la copie du contexte d’entrée. Nous commençons par une analyse théorique de la tâche simple de copie de chaînes de caractères et prouvons qu’un Transformer à deux couches peut copier des chaînes de longueur exponentielle, tandis que les GSSMs sont fondamentalement limités par leur état latent de taille fixe. Empiriquement, nous constatons que les Transformers surpassent les GSSMs en termes d’efficacité et de généralisation sur des tâches synthétiques nécessitant la copie du contexte. Enfin, nous évaluons des modèles de langage pré-entraînés de grande taille et observons que les modèles de type Transformer surpassent de manière significative les modèles d’espace d’état pour la copie et la récupération d’informations à partir du contexte. Pris ensemble, ces résultats suggèrent un écart fondamental entre les Transformers et les GSSMs pour des tâches d’intérêt pratique.
Bien que les modèles de langage de grande taille (LLMs) aient démontré leur compétence dans des tâches de raisonnement complexe, leurs performances dans des scénarios dynamiques, interactifs et compétitifs – tels que la stratégie d'entreprise et l'analyse des marchés boursiers – restent peu explorées. Pour combler cette lacune, nous explorons formellement les capacités de raisonnement dynamique des LLMs pour la prise de décision dans des environnements en évolution rapide. Nous introduisons deux défis pilotes basés sur la théorie des jeux qui reflètent les complexités de la prise de décision dynamique dans le monde réel. Ces défis sont bien définis, permettant une évaluation claire, contrôlable et précise des capacités de raisonnement dynamique des LLMs. À travers des expériences approfondies, nous constatons que les méthodes de raisonnement existantes tendent à faiblir dans des contextes dynamiques nécessitant une pensée de niveau k – un concept clé non abordé par les travaux précédents. Pour remédier à cela, nous proposons une nouvelle approche de raisonnement pour les LLMs, nommée « Raisonnement de Niveau K ». Cette approche adopte la perspective des rivaux pour appliquer de manière récursive une pensée de niveau k basée sur les informations historiques disponibles, ce qui améliore significativement la précision de la prédiction des mouvements ultérieurs des rivaux et éclaire une prise de décision plus stratégique. Cette recherche établit non seulement un benchmark quantitatif robuste pour l'évaluation du raisonnement dynamique, mais améliore également de manière notable la compétence des LLMs dans des contextes dynamiques.
Ce rapport technique décrit l'entraînement de nomic-embed-text-v1, le premier modèle d'encodage de texte en anglais entièrement reproductible, open-source, avec des poids ouverts, des données ouvertes et une longueur de contexte de 8192, surpassant à la fois OpenAI Ada-002 et OpenAI text-embedding-3-small sur des tâches à contexte court et long. Nous publions le code d'entraînement et les poids du modèle sous licence Apache 2. Contrairement à d'autres modèles open-source, nous fournissons un chargeur de données d'entraînement contenant 235 millions de paires de texte soigneusement sélectionnées, permettant la réplication complète de nomic-embed-text-v1. Vous pouvez trouver le code et les données pour reproduire le modèle à l'adresse suivante : https://github.com/nomic-ai/contrastors.
L'avènement des grands modèles marque une nouvelle ère dans l'apprentissage automatique, surpassant de manière significative les modèles plus petits en exploitant de vastes ensembles de données pour capturer et synthétiser des motifs complexes. Malgré ces avancées, l'exploration de la mise à l'échelle, en particulier dans le domaine de la génération audio, reste limitée, les efforts précédents ne s'étendant pas au domaine haute-fidélité (HiFi) de 44,1 kHz et souffrant à la fois de discontinuités spectrales et de flou dans le domaine des hautes fréquences, ainsi que d'un manque de robustesse face aux données hors domaine. Ces limitations restreignent l'applicabilité des modèles à divers cas d'utilisation, y compris la génération de musique et de chant. Notre travail introduit Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), qui apporte des améliorations significatives par rapport à l'état de l'art précédent en matière de reconstruction spectrale et des hautes fréquences, ainsi que de robustesse face aux données hors domaine, permettant la génération d'audios HiFi en utilisant un vaste ensemble de données de 36 000 heures d'audio à 44,1 kHz, un module contextuel, un kit de mesure des artefacts Human-In-The-Loop, et en étendant le modèle à environ 200 millions de paramètres. Des démonstrations de notre travail sont disponibles à l'adresse https://double-blind-eva-gan.cc.