Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons MM1.5, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) conçus pour améliorer les capacités dans la compréhension d'images riches en texte, la référence visuelle et l'ancrage, ainsi que le raisonnement multi-images. En s'appuyant sur l'architecture MM1, MM1.5 adopte une approche centrée sur les données pour l'entraînement du modèle, explorant systématiquement l'impact de mélanges de données diversifiés tout au long du cycle de vie de l'entraînement du modèle. Cela inclut des données OCR de haute qualité et des légendes synthétiques pour un pré-entraînement continu, ainsi qu'un mélange de données d'instructions visuelles optimisé pour un accordage fin supervisé. Nos modèles vont de 1 milliard à 30 milliards de paramètres, englobant à la fois des variantes denses et des variantes de mélange d'experts (MoE), et démontrent que la curation minutieuse des données et les stratégies d'entraînement peuvent produire de bonnes performances même à petite échelle (1 milliard et 3 milliards). De plus, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension des vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. À travers des études empiriques approfondies et des ablations, nous fournissons des aperçus détaillés des processus d'entraînement et des décisions qui ont guidé nos conceptions finales, offrant des orientations précieuses pour les futures recherches dans le développement des MLLMs.
La capacité des grands modèles de langage à suivre des instructions permet aux humains d'interagir avec des agents d'IA de manière naturelle. Cependant, lorsqu'ils doivent générer des réponses d'une longueur spécifique, les grands modèles de langage ont souvent du mal à répondre aux besoins des utilisateurs en raison de leur difficulté inhérente à percevoir avec précision les contraintes numériques. Pour explorer la capacité des grands modèles de langage à contrôler la longueur des réponses générées, nous proposons la Tâche de Génération de Longueur Cible (TLG) et concevons deux métriques, Correspondance Précise (PM) et Correspondance Flexible (FM) pour évaluer la performance du modèle à respecter les longueurs de réponse spécifiées. De plus, nous introduisons une approche novatrice, indépendante du modèle, appelée Ruler, qui utilise des Jetons de Longueur Méta (MLTs) pour améliorer la capacité des grands modèles de langage à suivre les instructions sous contrainte de longueur. Plus précisément, Ruler dote les LLMs de la capacité de générer des réponses d'une longueur spécifiée en fonction des contraintes de longueur présentes dans les instructions. De plus, Ruler peut générer automatiquement un MLT approprié lorsque les contraintes de longueur ne sont pas explicitement fournies, démontrant ainsi une excellente polyvalence et généralisation. Des expériences complètes montrent l'efficacité de Ruler sur différentes LLMs dans la Tâche de Génération de Longueur Cible, par exemple, un gain moyen de 27,97 en PM et 29,57 en FM. De plus, nous menons des expériences d'ablation approfondies pour étayer davantage l'efficacité et la généralisation de Ruler. Notre code et nos données sont disponibles sur https://github.com/Geaming2002/Ruler.
Nous présentons les hyper-connexions, une méthode simple mais efficace qui peut servir comme une alternative aux connexions résiduelles. Cette approche adresse spécifiquement les inconvénients courants observés dans les variantes de connexions résiduelles, tels que l'effet de balancier entre la disparition du gradient et l'effondrement de la représentation. Théoriquement, les hyper-connexions permettent au réseau d'ajuster la force des connexions entre les caractéristiques à différentes profondeurs et de réarranger dynamiquement les couches. Nous menons des expériences en mettant l'accent sur la pré-formation de grands modèles de langage, y compris des modèles denses et épars, où les hyper-connexions montrent des améliorations de performance significatives par rapport aux connexions résiduelles. Des expériences supplémentaires menées sur des tâches de vision démontrent également des améliorations similaires. Nous anticipons que cette méthode sera largement applicable et bénéfique dans un large éventail de problèmes en IA.
La rareté des ensembles de données de dialogue spécifiques au domaine dans divers domaines, des sujets académiques aux conversations quotidiennes, limite le développement des systèmes de dialogue pour diverses applications. Les recherches existantes sont souvent contraintes soit par des ensembles de données de dialogue trop généraux, soit par des ensembles de données de dialogue de niche dont l'échelle ne correspond pas à l'échelle requise pour l'entraînement des systèmes de dialogue. Pour combler cette lacune, nous introduisons DiaSynth - un cadre de génération de dialogue synthétique capable de produire des dialogues de haute qualité, riches en contexte, dans une large gamme de domaines. Notre approche se distingue des cadres existants en générant dynamiquement des dialogues qui intègrent des personnages simulés, des sous-thèmes et des caractéristiques conversationnelles diverses, en utilisant un Grand Modèle de Langue (GML) avec un raisonnement en Chaîne de Pensée (CoT) pour créer des dialogues spécifiques au domaine, riches en contexte, qui imitent étroitement les interactions humaines naturelles. DiaSynth produit des dialogues sur mesure qui imitent des conversations réalistes. Nous menons nos expériences en générant des données synthétiques en utilisant différents GMLs et quelques exemples à tir rapide de DialogSum et SAMSum. Les modèles de langue pré-entraînés affinés sur les données synthétiques surpassent les modèles de base de 16,47%, tandis que la comparaison entre les modèles affinés sur des données dans le domaine et des données synthétiques montre que les données synthétiques sont capables de capturer 90,48% de la distribution des données dans le domaine. La qualité des données générées évolue également avec la taille des GMLs. Ces résultats valident le potentiel de DiaSynth en tant qu'alternative robuste aux méthodes traditionnelles de collecte de données.
Les mécanismes d'attention, en particulier l'attention softmax, ont été essentiels dans le succès des modèles basés sur les transformers tels que GPT. Cependant, la complexité quadratique de la mémoire de l'attention softmax par rapport à la longueur de la séquence pose des défis significatifs pour le traitement de séquences plus longues. Nous introduisons Cottention, un nouveau mécanisme d'attention qui remplace l'opération softmax par la similarité cosinus. En exploitant les propriétés de la similarité cosinus et en réarrangeant l'équation d'attention, Cottention atteint une complexité de mémoire linéaire native par rapport à la longueur de la séquence, le rendant intrinsèquement plus efficace en mémoire que l'attention softmax. Nous démontrons que Cottention peut être reformulé en un réseau de neurones récurrent (RNN) avec un état caché fini, permettant une utilisation de mémoire constante lors de l'inférence. Nous évaluons Cottention sur les tâches bidirectionnelles BERT et causales GPT, démontrant des performances comparables à l'attention softmax tout en réduisant significativement les besoins en mémoire. Pour assurer un calcul efficace, nous développons un noyau CUDA personnalisé pour Cottention. Nos résultats montrent que Cottention est une alternative prometteuse à l'attention softmax, permettant le traitement de séquences plus longues sans sacrifier les performances, grâce à sa complexité de mémoire linéaire native et à sa capacité à maintenir une empreinte mémoire constante lors de l'inférence.
Les études précédentes sur la manipulation robotique sont basées sur une compréhension limitée des contraintes de mouvement 3D sous-jacentes et des affordances. Pour relever ces défis, nous proposons un paradigme complet, appelé UniAff, qui intègre la manipulation centrée sur les objets en 3D et la compréhension des tâches dans une formulation unifiée. Plus précisément, nous avons construit un ensemble de données étiqueté avec des attributs clés liés à la manipulation, comprenant 900 objets articulés de 19 catégories et 600 outils de 12 catégories. De plus, nous exploitons des MLLM pour inférer des représentations centrées sur les objets pour les tâches de manipulation, y compris la reconnaissance des affordances et la réflexion sur les contraintes de mouvement 3D. Des expériences complètes dans des environnements de simulation et du monde réel indiquent qu'UniAff améliore significativement la généralisation de la manipulation robotique pour les outils et les objets articulés. Nous espérons qu'UniAff servira de référence générale pour les tâches de manipulation robotique unifiées à l'avenir. Les images, vidéos, l'ensemble de données et le code sont publiés sur le site web du projet à l'adresse : https://sites.google.com/view/uni-aff/home
Un des obstacles à la formation des modèles robotiques généralistes aujourd'hui est l'hétérogénéité. Les méthodes d'apprentissage des robots précédentes collectaient souvent des données pour former un modèle avec une seule incarnation spécifique pour une tâche, ce qui est coûteux et sujet au surajustement. Ce travail étudie le problème de l'apprentissage des représentations de politiques à travers une préformation hétérogène sur des données robotiques provenant de différentes incarnations et tâches à grande échelle. Nous proposons des Transformateurs Pré-entraînés Hétérogènes (HPT), qui préforment un tronc de réseau neuronal de politique partageable et de grande taille pour apprendre une représentation partagée agnostique de la tâche et de l'incarnation. Cette architecture générale aligne les entrées spécifiques de proprioception et de vision provenant d'incarnations distinctes sur une courte séquence de jetons, puis traite ces jetons pour les mapper afin de contrôler des robots pour différentes tâches. En exploitant les récentes bases de données robotiques du monde réel à grande échelle multi-incarnations ainsi que la simulation, les robots déployés et les bases de données vidéo humaines, nous étudions la préformation des politiques à travers l'hétérogénéité. Nous menons des expériences pour étudier les comportements d'échelle des objectifs d'entraînement, jusqu'à 52 bases de données. Les HPT surpassent plusieurs lignes de base et améliorent les performances des politiques affinées de plus de 20 % sur des tâches non vues dans plusieurs benchmarks de simulateurs et paramètres du monde réel. Consultez le site du projet (https://liruiw.github.io/hpt/) pour le code et les vidéos.
Les images produites par les modèles de diffusion sont de plus en plus populaires dans les œuvres d'art numériques et le marketing visuel. Cependant, de telles images générées pourraient reproduire du contenu provenant d'images existantes et poser le défi de l'originalité du contenu. Les modèles existants de Détection de Copie d'Image (DCI), bien qu'efficaces pour détecter les répliques artisanales, négligent le défi posé par les modèles de diffusion. Cela nous motive à introduire ICDiff, le premier DCI spécialisé pour les modèles de diffusion. À cette fin, nous construisons un ensemble de données de Réplication de Diffusion (D-Rep) et proposons en conséquence une nouvelle méthode d'incorporation profonde. D-Rep utilise un modèle de diffusion de pointe (Diffusion Stable V1.5) pour générer 40 000 paires image-réplique, qui sont annotées manuellement en 6 niveaux de réplication allant de 0 (aucune réplication) à 5 (réplication totale). Notre méthode, PDF-Incorporation, transforme le niveau de réplication de chaque paire image-réplique en une fonction de densité de probabilité (PDF) en tant que signal de supervision. L'intuition est que la probabilité des niveaux de réplication voisins devrait être continue et régulière. Les résultats expérimentaux montrent que PDF-Incorporation surpasse les méthodes basées sur des protocoles et les choix non-PDF sur l'ensemble de test D-Rep. De plus, en utilisant PDF-Incorporation, nous constatons que les taux de réplication des modèles de diffusion bien connus par rapport à une galerie open-source varient de 10 % à 20 %.
Cet article présente Coffee-Gym, un environnement RL complet pour l'entraînement de modèles fournissant des retours sur l'édition de code. Coffee-Gym comprend deux composants majeurs : (1) Coffee, un ensemble de données contenant les traces d'édition de code des humains pour des questions de codage et des retours écrits par machine pour l'édition de code erroné ; (2) CoffeeEval, une fonction de récompense reflétant fidèlement l'utilité des retours en évaluant les performances du code révisé dans des tests unitaires. Avec ceux-ci, Coffee-Gym répond au manque de jeux de données de haute qualité pour l'entraînement de modèles de retours avec RL, et fournit des récompenses plus précises que le modèle de récompense SOTA (c'est-à-dire GPT-4). En appliquant Coffee-Gym, nous obtenons des modèles de retours qui surpassent les références dans l'amélioration de l'édition de code des LLMs de code open-source, les rendant comparables aux LLMs de code closed-source. Nous mettons l'ensemble de données et le point de contrôle du modèle à disposition du public.
À mesure que les grands modèles de langage (LLMs) deviennent de plus en plus avancés, leur capacité à manifester une généralisation compositionnelle - la capacité à combiner des compétences apprises de manière nouvelle et non rencontrée lors de l'entraînement - a suscité une attention significative. Ce type de généralisation, en particulier dans des scénarios au-delà des données d'entraînement, suscite également un grand intérêt dans l'étude de la sécurité et de l'alignement de l'IA. Une étude récente a introduit l'évaluation SKILL-MIX, où les modèles sont chargés de composer un court paragraphe démontrant l'utilisation d'un k-uplet spécifié de compétences linguistiques. Alors que les petits modèles avaient du mal à composer même avec k=3, les plus grands modèles comme GPT-4 se sont bien comportés avec k=5 et 6. Dans cet article, nous utilisons une configuration similaire à SKILL-MIX pour évaluer la capacité des plus petits modèles à apprendre la généralisation compositionnelle à partir d'exemples. En utilisant un ensemble diversifié de compétences linguistiques - y compris rhétoriques, littéraires, de raisonnement, de théorie de l'esprit et de bon sens - GPT-4 a été utilisé pour générer des échantillons de texte présentant des sous-ensembles aléatoires de k compétences. Le réglage fin ultérieur des modèles à 7B et 13B paramètres sur ces textes de compétences combinées, pour des valeurs croissantes de k, a révélé les conclusions suivantes : (1) L'entraînement sur des combinaisons de k=2 et 3 compétences entraîne des améliorations notables dans la capacité à composer des textes avec k=4 et 5 compétences, bien que les modèles n'aient jamais vu de tels exemples lors de l'entraînement. (2) Lorsque les catégories de compétences sont divisées en groupes d'entraînement et de rétention, les modèles s'améliorent significativement dans la composition de textes avec des compétences de rétention lors des tests, bien qu'ils n'aient vu que des compétences d'entraînement lors du réglage fin, illustrant l'efficacité de l'approche d'entraînement même avec des compétences jamais vues auparavant. Cette étude suggère également qu'incorporer du texte riche en compétences (potentiellement synthétique) dans l'entraînement peut considérablement améliorer les capacités compositionnelles des modèles.
La décomposition des questions a émergé comme une stratégie efficace pour inciter les Grands Modèles de Langage (GML) à répondre à des questions complexes. Cependant, tandis que les méthodes existantes se concentrent principalement sur les modèles de langage unimodaux, la capacité de décomposition des questions des Grands Modèles de Langage Multimodaux (GMLM) reste à explorer. À cette fin, cet article explore la décomposition visuelle des questions sur les GMLM. Plus précisément, nous introduisons un cadre d'évaluation systématique comprenant un ensemble de données et plusieurs critères d'évaluation pour évaluer la qualité des sous-questions décomposées, révélant que les GMLM existants ont du mal à produire des sous-questions de haute qualité. Pour remédier à cette limitation, nous proposons un ensemble de données de finetuning spécifique, DecoVQA+, pour améliorer la capacité de décomposition des questions du modèle. Dans le but de permettre aux modèles d'effectuer une décomposition sélective appropriée, nous proposons un pipeline de finetuning efficace. Le pipeline de finetuning se compose de notre ensemble de données proposé et d'un objectif d'entraînement pour la décomposition sélective. Les GMLM finetunés démontrent des améliorations significatives dans la qualité des sous-questions et la politique de décomposition sélective des questions. De plus, les modèles atteignent également une précision plus élevée avec une décomposition sélective sur les ensembles de données de référence VQA.
La technique de watermarking audio incorpore des messages dans l'audio et extrait avec précision des messages de l'audio watermarké. Les méthodes traditionnelles développent des algorithmes basés sur l'expérience d'experts pour incorporer des watermarks dans le domaine temporel ou le domaine de transformation des signaux. Avec le développement des réseaux neuronaux profonds, le watermarking audio neuronal basé sur l'apprentissage profond a émergé. Comparé aux algorithmes traditionnels, le watermarking audio neuronal atteint une meilleure robustesse en considérant diverses attaques lors de l'entraînement. Cependant, les méthodes actuelles de watermarking neuronal souffrent d'une faible capacité et d'une imperceptibilité insatisfaisante. De plus, la question de la localisation du watermark, qui est extrêmement importante et encore plus prononcée dans le watermarking audio neuronal, n'a pas été étudiée de manière adéquate. Dans cet article, nous concevons un modèle de watermarking à double incorporation pour une localisation efficace. Nous considérons également l'impact de la couche d'attaque sur le réseau neuronal inversible dans l'entraînement à la robustesse, améliorant le modèle pour renforcer à la fois sa cohérence et sa stabilité. Les expériences montrent que le modèle proposé, IDEAW, peut résister à diverses attaques avec une capacité plus élevée et une capacité de localisation plus efficace par rapport aux méthodes existantes.