papers.description
Les grands modèles de langage (LLMs) présentent des capacités remarquablement puissantes. L'un des facteurs cruciaux pour atteindre le succès est d'aligner la production du LLM sur les préférences humaines. Ce processus d'alignement nécessite souvent seulement une petite quantité de données pour améliorer efficacement les performances du LLM. Bien que efficace, la recherche dans ce domaine couvre plusieurs domaines et les méthodes impliquées sont relativement complexes à comprendre. Les relations entre les différentes méthodes ont été peu explorées, limitant le développement de l'alignement des préférences. Dans cette optique, nous décomposons les stratégies d'alignement populaires existantes en différents composants et proposons un cadre unifié pour étudier les stratégies d'alignement actuelles, établissant ainsi des liens entre elles. Dans cette étude, nous décomposons toutes les stratégies d'apprentissage des préférences en quatre composants : modèle, données, rétroaction et algorithme. Cette vue unifiée offre une compréhension approfondie des algorithmes d'alignement existants et ouvre également des possibilités de synergies entre les forces des différentes stratégies. De plus, nous présentons des exemples de travail détaillés des algorithmes existants prédominants pour faciliter la compréhension complète des lecteurs. Enfin, sur la base de notre perspective unifiée, nous explorons les défis et les orientations de recherche futures pour aligner les grands modèles de langage sur les préférences humaines.
Le développement des Modèles de Langage Multimodaux à Grande Échelle (MLLM) a connu des avancées significatives. Cependant, la quantité et la qualité des données d'instructions multimodales sont devenues des obstacles majeurs à leur progression. La création manuelle de données d'instructions multimodales est à la fois chronophage et inefficace, posant des défis pour produire des instructions de haute complexité. De plus, extraire des données d'instructions à partir de modèles commerciaux boîte noire (par exemple, GPT-4o, GPT-4V) conduit souvent à des données d'instructions simplistes, limitant les performances à celles de ces modèles. Le défi de la création de données d'instructions diverses et complexes reste important. Nous proposons MMEvol, un nouveau cadre d'évolution de données d'instructions multimodales qui combine l'évolution de la perception fine, l'évolution du raisonnement cognitif et l'évolution de l'interaction. Cette approche itérative permet de surmonter les obstacles liés à la qualité des données pour générer un ensemble d'instructions image-texte complexe et diversifié, renforçant ainsi les capacités des MLLM. En partant d'un ensemble initial d'instructions, SEED-163K, nous utilisons MMEvol pour élargir systématiquement la diversité des types d'instructions, intégrer des étapes de raisonnement pour améliorer les capacités cognitives, et extraire des informations détaillées des images pour améliorer la compréhension visuelle et la robustesse. Pour évaluer de manière exhaustive l'efficacité de nos données, nous entraînons LLaVA-NeXT en utilisant les données évoluées et menons des expériences sur 13 tâches vision-langage. Comparé à la référence entraînée avec les données de départ, notre approche obtient une amélioration moyenne de précision de 3,1 points et atteint des performances de pointe (SOTA) sur 9 de ces tâches.
Malgré les récents progrès des Grands Modèles de Langage (GML), qui ont considérablement amélioré les capacités génératives pour diverses tâches de TAL, les GML restent confrontés à des limitations dans le traitement direct des tâches de recherche. Cependant, de nombreuses applications pratiques exigent l'intégration transparente à la fois de la recherche et de la génération. Cet article présente un cadre novateur et efficace de génération et de recherche en une seule passe (OneGen), conçu pour améliorer les performances des GML sur des tâches nécessitant à la fois la génération et la recherche. Le cadre proposé comble les approches d'entraînement traditionnellement séparées pour la génération et la recherche en incorporant des jetons de recherche générés de manière autorégressive. Cela permet à un seul GML de gérer simultanément les deux tâches dans une seule passe unifiée. Nous menons des expériences sur deux types distincts de tâches composites, RAG et Liaison d'Entités, pour valider la plugabilité, l'efficacité et l'efficience de OneGen dans l'entraînement et l'inférence. De plus, nos résultats montrent qu'intégrer la génération et la recherche dans le même contexte préserve les capacités génératives des GML tout en améliorant les performances de recherche. À notre connaissance, OneGen est le premier à permettre aux GML d'effectuer une recherche vectorielle pendant la génération.
La Génération Augmentée par Récupération (RAG) exploite des outils de récupération pour accéder à des bases de données externes, améliorant ainsi la qualité de génération des grands modèles de langage (LLMs) grâce à un contexte optimisé. Cependant, les méthodes de récupération existantes sont intrinsèquement limitées, car elles ne peuvent effectuer que des correspondances de pertinence entre des requêtes explicitement formulées et des connaissances bien structurées, mais ne peuvent pas gérer les tâches impliquant des besoins en informations ambigus ou des connaissances non structurées. Par conséquent, les systèmes RAG existants sont principalement efficaces pour les tâches de question-réponse simples. Dans ce travail, nous proposons MemoRAG, un nouveau paradigme de génération augmentée par récupération renforcé par une mémoire à long terme. MemoRAG adopte une architecture à double système. D'une part, il utilise un LLM léger mais à longue portée pour former la mémoire globale de la base de données. Une fois une tâche présentée, il génère des réponses préliminaires, indiquant aux outils de récupération où trouver des informations utiles dans la base de données. D'autre part, il exploite un LLM coûteux mais expressif, qui génère la réponse finale en fonction des informations récupérées. En s'appuyant sur ce cadre général, nous optimisons davantage les performances de MemoRAG en améliorant son mécanisme d'indication et sa capacité de mémorisation. Dans notre expérience, MemoRAG obtient des performances supérieures dans une variété de tâches d'évaluation, y compris des tâches complexes où les RAG conventionnels échouent et des tâches simples où les RAG sont couramment appliqués.
Avec la prolifération de la recherche scientifique, les chercheurs sont confrontés à la tâche redoutable de naviguer et de lire de vastes quantités de littérature. Les solutions existantes, telles que la recherche de documents, ne parviennent pas à fournir efficacement des informations personnalisées et à jour. Nous présentons Paper Copilot, un système LLM auto-évolutif et efficace conçu pour aider les chercheurs, basé sur la récupération de pensées, le profil utilisateur et l'optimisation de haute performance. Plus précisément, Paper Copilot peut offrir des services de recherche personnalisés, en maintenant une base de données mise à jour en temps réel. Une évaluation quantitative démontre que Paper Copilot permet d'économiser 69,92\% de temps après un déploiement efficace. Cet article détaille la conception et la mise en œuvre de Paper Copilot, mettant en avant ses contributions au soutien académique personnalisé et son potentiel pour rationaliser le processus de recherche.
Ces dernières années, les modèles vision-langage ont fait des progrès significatifs, excellant dans des tâches telles que la reconnaissance optique de caractères et la résolution de problèmes géométriques. Cependant, plusieurs problèmes critiques subsistent : 1) Les modèles propriétaires manquent souvent de transparence concernant leurs architectures, tandis que les modèles open-source nécessitent des ablations plus détaillées de leurs stratégies d'entraînement. 2) Les données de pré-entraînement dans les travaux open-source sont peu explorées, les ensembles de données étant ajoutés de manière empirique, rendant le processus fastidieux. 3) Le fine-tuning se concentre souvent sur l'ajout de jeux de données, entraînant des rendements décroissants. Pour résoudre ces problèmes, nous proposons les contributions suivantes : 1) Nous avons entraîné un modèle de base robuste en utilisant les dernières avancées dans les modèles vision-langage, introduisant des améliorations efficaces et menant des ablations et validations complètes pour chaque technique. 2) Inspirés par des travaux récents sur de grands modèles de langage, nous avons filtré les données de pré-entraînement en utilisant la perplexité, sélectionnant les données ayant la perplexité la plus faible pour l'entraînement. Cette approche nous a permis de nous entraîner sur un ensemble de données de 1M soigneusement sélectionné, atteignant des performances compétitives. 3) Lors du réglage des instructions visuelles, nous avons utilisé un mélange de modèles sur différents ensembles de données lorsque l'ajout de plus de jeux de données n'apportait que des améliorations marginales. Ces innovations ont abouti à un modèle de 9B paramètres qui se comporte de manière compétitive avec les modèles de pointe. Nos stratégies sont efficaces et légères, les rendant facilement adoptables par la communauté.
Les modèles de robots, en particulier ceux entraînés avec de grandes quantités de données, ont récemment montré une multitude de capacités de manipulation et de navigation dans le monde réel. Plusieurs efforts indépendants ont montré que, avec suffisamment de données d'entraînement dans un environnement, les politiques des robots peuvent généraliser aux variations démontrées dans cet environnement. Cependant, la nécessité de peaufiner les modèles de robots pour chaque nouvel environnement contraste fortement avec les modèles en langage ou en vision qui peuvent être déployés sans entraînement pour des problèmes ouverts. Dans ce travail, nous présentons les Modèles d'Utilité Robotique (RUMs), un cadre pour l'entraînement et le déploiement de politiques de robots sans entraînement qui peuvent généraliser directement à de nouveaux environnements sans aucune peaufinage. Pour créer efficacement des RUMs, nous développons de nouveaux outils pour collecter rapidement des données pour des tâches de manipulation mobile, intégrer ces données dans une politique avec un apprentissage par imitation multimodal, et déployer des politiques sur l'appareil sur le robot bon marché Hello Robot Stretch, avec un vérificateur externe mLLM pour les tentatives de réessai. Nous entraînons cinq de ces modèles d'utilité pour ouvrir des portes de placard, ouvrir des tiroirs, ramasser des serviettes en papier, ramasser des sacs en papier, et réorienter des objets tombés. Notre système, en moyenne, atteint un taux de réussite de 90% dans des environnements inconnus, interagissant avec des objets inconnus. De plus, les modèles d'utilité peuvent également réussir dans des configurations de robots et de caméras différentes sans données supplémentaires, entraînement ou peaufinage. Parmi nos principales leçons, l'importance des données d'entraînement par rapport à l'algorithme d'entraînement et à la classe de politique, des conseils sur l'échelle des données, la nécessité de démonstrations diverses mais de haute qualité, et une recette pour l'introspection et les réessais des robots afin d'améliorer les performances dans des environnements individuels. Notre code, nos données, nos modèles, nos conceptions matérielles, ainsi que nos vidéos d'expérience et de déploiement sont en open source et peuvent être trouvés sur notre site web du projet : https://robotutilitymodels.com
Bien que les grands modèles de langage (LLMs) présentent des capacités génératives remarquables, ils ne sont pas sans défauts, en particulier sous forme d'hallucinations. Ce problème est encore plus prononcé lorsque les LLMs sont appliqués à des langues et domaines spécifiques. Par exemple, les LLMs peuvent générer des informations sans signification lorsqu'ils manipulent des poèmes anciens chinois, des proverbes ou des idiomes, en raison du manque de connaissances spécifiques. À cette fin, cet article présente un référentiel pour rectifier les connaissances chinoises dans les LLMs via l'édition de connaissances. Plus précisément, nous introduisons un nouveau jeu de données chinois, CKnowEdit, en collectant sept types de connaissances à partir de diverses sources, y compris des textes classiques, des idiomes et du contenu de Baidu Tieba Ruozhiba, tenant ainsi compte de la polyphonie, de l'antithèse et des constructions logiques inhérentes à la langue chinoise. À travers l'analyse de ce jeu de données, nous mettons en lumière les défis auxquels sont confrontés les LLMs actuels pour maîtriser le chinois. De plus, notre évaluation des techniques d'édition de connaissances de pointe sur ce jeu de données révèle l'ampleur substantielle des progrès possibles dans la rectification des connaissances chinoises. Le code et le jeu de données sont disponibles sur https://github.com/zjunlp/EasyEdit.
Nous introduisons un banc d'essai pour évaluer directement l'alignement entre les observateurs humains et les modèles de vision sur une tâche d'inférence de forme en 3D. Nous exploitons un design expérimental des sciences cognitives qui nécessite des inférences visuelles sans entraînement sur la forme des objets : étant donné un ensemble d'images, les participants doivent identifier celles qui contiennent des objets identiques/différents, malgré une variation considérable des points de vue. Nous utilisons une gamme diversifiée d'images comprenant des objets courants (par exemple, des chaises) ainsi que des formes abstraites (c'est-à-dire des objets générés de manière procédurale qualifiés de "nonsense"). Après avoir construit plus de 2000 ensembles d'images uniques, nous soumettons ces tâches à des participants humains, recueillant 35 000 essais de données comportementales auprès de plus de 500 participants. Cela inclut des comportements de choix explicites ainsi que des mesures intermédiaires telles que le temps de réaction et les données de regard. Nous évaluons ensuite les performances des modèles de vision courants (par exemple, DINOv2, MAE, CLIP). Nous constatons que les humains surpassent de loin tous les modèles. En utilisant une approche d'évaluation multi-échelle, nous identifions les similarités et les différences sous-jacentes entre les modèles et les humains : bien que les performances humaines et des modèles soient corrélées, les humains consacrent plus de temps/de traitement aux essais difficiles. Toutes les images, données et code sont accessibles via notre page de projet.
Cette étude présente plusieurs contributions pour la langue karakalpak : un ensemble de données FLORES+ devtest traduit en karakalpak, des corpus parallèles pour les paires ouzbek-karakalpak, russe-karakalpak et anglais-karakalpak de 100 000 chacun, ainsi que des modèles neuronaux affinés et open source pour la traduction entre ces langues. Nos expériences comparent différentes variantes de modèles et approches d'entraînement, démontrant des améliorations par rapport aux références existantes. Ce travail, mené dans le cadre de l'initiative de données linguistiques ouvertes (OLDI), vise à faire progresser les capacités de traduction automatique pour le karakalpak et à contribuer à l'expansion de la diversité linguistique dans les technologies de traitement automatique du langage naturel (TALN).
La demande croissante des clients pour des solutions intelligentes en robotique et en réalité augmentée a attiré une attention considérable sur la détection d'objets 3D à partir de nuages de points. Cependant, les ensembles de données intérieurs existants pris individuellement sont trop petits et insuffisamment diversifiés pour entraîner un modèle de détection d'objets 3D puissant et général. Entre-temps, les approches plus générales utilisant des modèles de base restent de qualité inférieure à celles basées sur un entraînement supervisé pour une tâche spécifique. Dans ce travail, nous proposons un modèle simple mais efficace de détection d'objets 3D, qui est entraîné sur un mélange d'ensembles de données intérieurs et capable de fonctionner dans divers environnements intérieurs. En unifiant différents espaces d'étiquettes, notre modèle permet d'apprendre une représentation solide à travers plusieurs ensembles de données grâce à un schéma d'entraînement conjoint supervisé. L'architecture réseau proposée repose sur un encodeur transformateur vanille, ce qui facilite l'exécution, la personnalisation et l'extension du pipeline de prédiction pour un usage pratique. Des expériences approfondies démontrent que notre modèle obtient des gains significatifs par rapport aux méthodes existantes de détection d'objets 3D dans 6 référentiels intérieurs : ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) et ScanNet++ (+2,7 mAP50). Le code est disponible sur https://github.com/filapro/unidet3d.
Cet article présente les enseignements tirés de l'évaluation de 16 modèles de langage de grande envergure (LLM) de pointe sur le banc d'essai WebApp1K, une suite de tests conçue pour évaluer la capacité des LLM à générer du code d'application web. Les résultats révèlent que bien que tous les modèles possèdent des connaissances sous-jacentes similaires, leur performance est différenciée par la fréquence des erreurs qu'ils commettent. En analysant les lignes de code (LOC) et les distributions d'échecs, nous constatons que l'écriture de code correct est plus complexe que la génération de code incorrect. De plus, l'ingénierie des invitations montre une efficacité limitée dans la réduction des erreurs au-delà de cas spécifiques. Ces résultats suggèrent que les avancées supplémentaires dans les LLM de codage devraient mettre l'accent sur la fiabilité du modèle et la minimisation des erreurs.