Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article étudie le post-entraînement des grands modèles de langage (LLMs) en utilisant des retours de préférence provenant d'un oracle puissant pour aider un modèle à s'améliorer de manière itérative. L'approche typique pour le post-entraînement des LLMs implique l'apprentissage par renforcement à partir de retours humains (RLHF), qui sépare traditionnellement l'apprentissage de la récompense et l'optimisation ultérieure de la politique. Cependant, une telle approche de maximisation de la récompense est limitée par la nature des récompenses "ponctuelles" (comme le modèle de Bradley-Terry), qui ne parviennent pas à exprimer des relations de préférence complexes, intransitives ou cycliques. Bien que les avancées en RLHF montrent que l'apprentissage de la récompense et l'optimisation de la politique peuvent être fusionnés en un objectif contrastif unique pour plus de stabilité, elles restent néanmoins ancrées dans le cadre de la maximisation de la récompense. Récemment, une nouvelle vague de recherche contourne les présomptions de maximisation de la récompense en faveur d'une optimisation directe sur des préférences "par paires" ou générales. Dans cet article, nous introduisons l'Optimisation Directe de Nash (DNO), un algorithme prouvable et scalable qui combine la simplicité et la stabilité de l'apprentissage contrastif avec la généralité théorique de l'optimisation des préférences générales. Comme DNO est un algorithme par lots sur politique utilisant un objectif basé sur la régression, son implémentation est simple et efficace. De plus, DNO bénéficie d'une amélioration monotone au fil des itérations, ce qui l'aide à s'améliorer même par rapport à un enseignant puissant (comme GPT-4). Dans nos expériences, un modèle Orca-2.5 de 7 milliards de paramètres aligné par DNO atteint un taux de victoire de pointe de 33 % contre GPT-4-Turbo sur AlpacaEval 2.0 (même après contrôle de la longueur des réponses), un gain absolu de 26 % (de 7 % à 33 %) par rapport au modèle initial. Il surpasse des modèles avec bien plus de paramètres, notamment Mistral Large, Self-Rewarding LM (70 milliards de paramètres) et les versions antérieures de GPT-4.
Les modèles de langage sont rarement exposés à des erreurs productives pendant leur entraînement. Ils ont ensuite du mal à voir au-delà du prochain jeton, souffrant d'un effet boule de neige des erreurs et peinant à prédire les conséquences de leurs actions plusieurs étapes à l'avance. Dans cet article, nous montrons comment les modèles de langage peuvent être enseignés à effectuer des recherches en représentant le processus de recherche dans le langage, sous forme de chaîne aplatie - un flux de recherche (Stream of Search, SoS). Nous proposons un langage unifié pour la recherche qui capture un éventail de différentes stratégies de recherche symboliques. Nous démontrons notre approche en utilisant le jeu simple mais difficile de Countdown, où l'objectif est de combiner des nombres d'entrée avec des opérations arithmétiques pour atteindre un nombre cible. Nous pré-entraînons un modèle de langage basé sur les transformateurs à partir de zéro sur un ensemble de données de flux de recherche générés par des solveurs heuristiques. Nous constatons que le pré-entraînement SoS augmente la précision de la recherche de 25 % par rapport aux modèles entraînés à prédire uniquement la trajectoire de recherche optimale. Nous affinons ensuite ce modèle avec deux méthodes d'amélioration de la politique : l'Alignement de Politique Induit par l'Avantage (Advantage-Induced Policy Alignment, APA) et le Raisonneur Auto-Enseigné (Self-Taught Reasoner, STaR). Les modèles SoS affinés résolvent 36 % des problèmes précédemment non résolus, y compris des problèmes qui ne peuvent être résolus par aucun des solveurs heuristiques. Nos résultats indiquent que les modèles de langage peuvent apprendre à résoudre des problèmes via la recherche, s'améliorer de manière autonome pour utiliser de manière flexible différentes stratégies de recherche, et potentiellement en découvrir de nouvelles.
Les ensembles de données de pré-entraînement obtenus par exploration web sous-tendent les performances impressionnantes en évaluation "zero-shot" des modèles multimodaux, tels que CLIP pour la classification/la recherche et Stable-Diffusion pour la génération d'images. Cependant, il n'est pas clair à quel point la notion de généralisation "zero-shot" est significative pour ces modèles multimodaux, car on ne sait pas dans quelle mesure leurs ensembles de données de pré-entraînement englobent les concepts ciblés lors de l'évaluation "zero-shot". Dans ce travail, nous posons la question suivante : Comment la performance des modèles multimodaux sur les concepts en aval est-elle influencée par la fréquence de ces concepts dans leurs ensembles de données de pré-entraînement ? Nous examinons cette question de manière exhaustive à travers 34 modèles et cinq ensembles de données de pré-entraînement standard (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), générant plus de 300 Go d'artefacts de données. Nous constatons systématiquement que, loin d'exhiber une généralisation "zero-shot", les modèles multimodaux nécessitent exponentiellement plus de données pour obtenir des améliorations linéaires de leurs performances "zero-shot" en aval, suivant une tendance d'échelle log-linéaire peu efficace en termes d'échantillons. Cette tendance persiste même en contrôlant la similarité au niveau des échantillons entre les ensembles de données de pré-entraînement et ceux en aval, et en testant sur des distributions de données purement synthétiques. De plus, en évaluant les modèles sur des données à longue traîne échantillonnées sur la base de notre analyse, nous démontrons que les modèles multimodaux dans leur ensemble performent mal. Nous contribuons cet ensemble de test à longue traîne sous le nom de benchmark "Let it Wag!" pour approfondir la recherche dans cette direction. Pris ensemble, notre étude révèle un besoin exponentiel en données d'entraînement, ce qui implique que la clé des capacités de généralisation "zero-shot" sous les paradigmes d'entraînement à grande échelle reste à découvrir.
Les grands modèles de langage (LLMs) ont alimenté de nombreuses tâches d'agents intelligents, telles que la navigation sur le web. Cependant, la plupart des agents existants sont loin d'être satisfaisants sur les pages web réelles en raison de trois facteurs : (1) la polyvalence des actions sur les pages web, (2) le texte HTML dépassant la capacité de traitement des modèles, et (3) la complexité de la prise de décision due à la nature ouverte du web. Face à ce défi, nous avons développé AutoWebGLM, un agent automatisé de navigation web surpassant GPT-4, basé sur ChatGLM3-6B. Inspirés par les habitudes de navigation humaine, nous avons conçu un algorithme de simplification HTML pour représenter les pages web, en conservant les informations essentielles de manière concise. Nous utilisons une méthode hybride humain-IA pour construire des données de navigation web destinées à un entraînement progressif. Ensuite, nous améliorons le modèle par apprentissage par renforcement et échantillonnage par rejet pour faciliter la compréhension des pages web, les opérations de navigation et la décomposition efficace des tâches par lui-même. Pour les tests, nous avons établi un benchmark bilingue -- AutoWebBench -- pour les tâches de navigation web réelles. Nous évaluons AutoWebGLM sur divers benchmarks de navigation web, révélant ses améliorations mais aussi les défis sous-jacents à relever pour s'adapter aux environnements réels. Le code, le modèle et les données associés seront publiés sur https://github.com/THUDM/AutoWebGLM.
Les avancées récentes dans les ensembles de données pour le réglage par instruction se sont principalement concentrées sur des tâches spécifiques comme le raisonnement mathématique ou logique. On observe un manque notable de données conçues pour aligner les modèles de langage afin de maintenir la pertinence thématique dans les conversations - un aspect crucial pour le déploiement de chatbots en production. Nous présentons l'ensemble de données CantTalkAboutThis pour aider les modèles de langage à rester concentrés sur le sujet en cours lors d'interactions orientées tâche. Il se compose de dialogues synthétiques couvrant un large éventail de sujets de conversation issus de différents domaines. Ces dialogues sont entrecoupés de tours de distraction qui détournent intentionnellement le chatbot du sujet prédéfini. Le réglage fin des modèles de langage sur cet ensemble de données les rend plus résistants aux déviations par rapport au rôle assigné et améliore leur capacité à maintenir la cohérence thématique par rapport aux modèles de langage à usage général réglés par instruction comme GPT-4-turbo et Mixtral-Instruct. De plus, des observations préliminaires suggèrent que l'entraînement des modèles sur cet ensemble de données améliore également leur performance sur des tâches de suivi d'instructions fines.
Les individus s'appuient sur des compétences sociales comme la résolution de conflits pour communiquer efficacement et s'épanouir tant dans leur vie professionnelle que personnelle. Cependant, les environnements de pratique pour ces compétences sociales sont généralement inaccessibles pour la plupart des gens. Comment pouvons-nous rendre la formation aux compétences sociales plus disponible, accessible et attrayante ? S'appuyant sur des recherches interdisciplinaires en communication et en psychologie, cet article de perspective identifie les obstacles liés aux compétences sociales pour accéder à des domaines spécialisés. Nous présentons ensuite une solution qui exploite les modèles de langage de grande envergure pour la formation aux compétences sociales via un cadre générique. Notre cadre AI Partner, AI Mentor, combine l'apprentissage expérientiel avec une pratique réaliste et des retours personnalisés. Ce travail appelle finalement à une innovation interdisciplinaire pour aborder les implications plus larges en matière de développement de la main-d'œuvre et d'égalité sociale.
L'apprentissage par renforcement (Reinforcement Learning, RL) a amélioré la génération d'images guidée avec des modèles de diffusion en optimisant directement des récompenses qui capturent la qualité de l'image, l'esthétique et la capacité à suivre des instructions. Cependant, les politiques génératives résultantes héritent du même processus d'échantillonnage itératif des modèles de diffusion, ce qui entraîne une génération lente. Pour surmonter cette limitation, les modèles de cohérence ont proposé d'apprendre une nouvelle classe de modèles génératifs qui mappent directement le bruit aux données, aboutissant à un modèle capable de générer une image en aussi peu qu'une seule itération d'échantillonnage. Dans ce travail, afin d'optimiser les modèles de génération texte-à-image pour des récompenses spécifiques à une tâche et de permettre un entraînement et une inférence rapides, nous proposons un cadre pour le réglage fin des modèles de cohérence via l'apprentissage par renforcement. Notre cadre, appelé Reinforcement Learning for Consistency Model (RLCM), formalise le processus d'inférence itératif d'un modèle de cohérence comme une procédure d'apprentissage par renforcement. RLCM améliore les capacités de génération texte-à-image par rapport aux modèles de diffusion réglés finement par RL et échange du temps de calcul pendant l'inférence contre la qualité des échantillons. Expérimentalement, nous montrons que RLCM peut adapter des modèles de cohérence texte-à-image à des objectifs difficiles à exprimer par des invites, tels que la compressibilité de l'image, et ceux dérivés de retours humains, comme la qualité esthétique. Comparé aux modèles de diffusion réglés finement par RL, RLCM s'entraîne significativement plus vite, améliore la qualité de la génération mesurée sous les objectifs de récompense, et accélère la procédure d'inférence en générant des images de haute qualité en aussi peu que deux étapes d'inférence. Notre code est disponible à l'adresse https://rlcm.owenoertell.com.
Dans cette étude, nous présentons CT-LLM, un grand modèle de langage (LLM) de 2 milliards de paramètres qui illustre un tournant décisif vers la priorisation de la langue chinoise dans le développement des LLM. Initié de manière unique à partir de zéro, CT-LLM se distingue de la méthodologie conventionnelle en incorporant principalement des données textuelles chinoises, utilisant un vaste corpus de 1 200 milliards de tokens, comprenant 800 milliards de tokens chinois, 300 milliards de tokens anglais et 100 milliards de tokens de code. Cette composition stratégique facilite la maîtrise exceptionnelle du modèle dans la compréhension et le traitement du chinois, une capacité encore renforcée par des techniques d'alignement. Démontrant des performances remarquables sur le CHC-Bench, CT-LLM excelle dans les tâches linguistiques chinoises et montre son aptitude en anglais grâce au SFT. Cette recherche remet en question le paradigme dominant consistant à entraîner les LLM principalement sur des corpus anglais avant de les adapter à d'autres langues, élargissant ainsi les horizons des méthodologies d'entraînement des LLM. En ouvrant l'accès à l'ensemble du processus d'entraînement d'un LLM chinois, y compris une procédure détaillée de traitement des données avec le Massive Appropriate Pretraining Chinese Corpus (MAP-CC), un benchmark multidisciplinaire bien choisi de cas difficiles en chinois (CHC-Bench), et le Chinese Tiny LLM (CT-LLM) de taille 2 milliards de paramètres, nous visons à favoriser une exploration et une innovation accrues dans les milieux académiques et industriels, ouvrant la voie à des modèles de langage plus inclusifs et polyvalents.
Dans cet article, nous abordons les sources d'erreur courantes pour le lissage gaussien 3D (3DGS), notamment le flou, les poses de caméra imparfaites et les incohérences de couleur, dans le but d'améliorer sa robustesse pour des applications pratiques telles que les reconstructions à partir de captures réalisées avec un téléphone portable. Notre principale contribution consiste à modéliser le flou de mouvement comme une distribution gaussienne sur les poses de caméra, ce qui nous permet de traiter à la fois le raffinement des poses de caméra et la correction du flou de mouvement de manière unifiée. De plus, nous proposons des mécanismes pour compenser le flou de défocalisation et pour résoudre les incohérences de couleur causées par la lumière ambiante, les ombres, ou des facteurs liés à la caméra tels que les réglages variables de la balance des blancs. Nos solutions proposées s'intègrent de manière fluide à la formulation du 3DGS tout en conservant ses avantages en termes d'efficacité d'entraînement et de vitesse de rendu. Nous validons expérimentalement nos contributions sur des ensembles de données de référence pertinents, notamment Scannet++ et Deblur-NeRF, obtenant des résultats de pointe et donc des améliorations constantes par rapport aux bases de référence pertinentes.
La segmentation sémantique multi-modale améliore significativement la perception et la compréhension des scènes par les agents d'IA, en particulier dans des conditions difficiles comme les environnements à faible luminosité ou surexposés. L'utilisation de modalités supplémentaires (X-modalité) telles que l'imagerie thermique et la profondeur, en complément des traditionnelles images RGB, fournit des informations complémentaires, permettant une segmentation plus robuste et fiable. Dans ce travail, nous présentons Sigma, un réseau Siamese Mamba pour la segmentation sémantique multi-modale, exploitant le modèle d'espace d'état structuré sélectif, Mamba. Contrairement aux méthodes conventionnelles qui reposent sur les réseaux de neurones convolutifs (CNN), avec leurs champs récepteurs locaux limités, ou les Vision Transformers (ViTs), qui offrent des champs récepteurs globaux au prix d'une complexité quadratique, notre modèle atteint une couverture globale des champs récepteurs avec une complexité linéaire. En utilisant un encodeur Siamese et en innovant avec un mécanisme de fusion Mamba, nous sélectionnons efficacement les informations essentielles provenant de différentes modalités. Un décodeur est ensuite développé pour améliorer la capacité de modélisation canal par canal du modèle. Notre méthode, Sigma, est rigoureusement évaluée sur des tâches de segmentation RGB-Thermique et RGB-Profondeur, démontrant sa supériorité et marquant la première application réussie des modèles d'espace d'état (SSMs) dans les tâches de perception multi-modale. Le code est disponible à l'adresse suivante : https://github.com/zifuwan/Sigma.