Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les autoencodeurs parcimonieux (SAEs) sont devenus un ingrédient essentiel dans l'ingénierie inverse des grands modèles de langage (LLMs). Pour les LLMs, ils ont été démontrés pour décomposer des représentations intermédiaires souvent non interprétables directement en sommes parcimonieuses de caractéristiques interprétables, facilitant un meilleur contrôle et une analyse ultérieure. Cependant, des analyses et approches similaires ont fait défaut pour les modèles texte-image. Nous avons étudié la possibilité d'utiliser des SAEs pour apprendre des caractéristiques interprétables pour des modèles de diffusion texte-image à quelques étapes, tels que SDXL Turbo. À cette fin, nous entraînons des SAEs sur les mises à jour effectuées par les blocs transformateurs au sein du U-net de débruitage de SDXL Turbo. Nous constatons que leurs caractéristiques apprises sont interprétables, influencent de manière causale le processus de génération et révèlent une spécialisation parmi les blocs. En particulier, nous identifions un bloc qui traite principalement de la composition d'image, un autre responsable principalement de l'ajout de détails locaux, et un autre pour la couleur, l'illumination et le style. Par conséquent, notre travail est une première étape importante vers une meilleure compréhension des aspects internes des modèles génératifs texte-image tels que SDXL Turbo et met en valeur le potentiel des caractéristiques apprises par les SAEs pour le domaine visuel. Le code est disponible sur https://github.com/surkovv/sdxl-unbox
Qu'est-ce qui fait la différence dans la post-formation des LLMs ? Nous examinons les schémas de formation des différentes couches dans les grands modèles de langage (LLMs), à travers le prisme du gradient, lors de la formation avec différentes réponses et modèles initiaux. Nous nous intéressons spécifiquement à l'impact de la pensée rapide par rapport à la pensée lente sur les gradients par couche, étant donné la popularité récente de la formation des LLMs sur des chemins de raisonnement tels que la chaîne de pensées (CoT) et les récompenses de processus. Dans notre étude, la pensée rapide sans CoT entraîne des gradients plus importants et des différences de gradients plus marquées entre les couches que la pensée lente (CoT détaillée), indiquant la stabilité d'apprentissage apportée par cette dernière. De plus, les LLMs pré-entraînés sont moins affectés par l'instabilité de la pensée rapide que les LLMs réglés par instruction. De plus, nous étudions si les schémas de gradient peuvent refléter la justesse des réponses lors de la formation de différents LLMs en utilisant des chemins de pensée lents par rapport à rapides. Les résultats montrent que les gradients de la pensée lente peuvent distinguer les chemins de raisonnement corrects des non pertinents. En comparaison, nous menons des analyses de gradient similaires sur des tâches d'apprentissage de connaissances non liées au raisonnement, sur lesquelles, cependant, augmenter trivialement la longueur de la réponse ne conduit pas à des comportements similaires à ceux de la pensée lente. Notre étude renforce la compréhension fondamentale de la formation des LLMs et apporte de nouvelles perspectives sur son efficacité et sa stabilité, ouvrant la voie à la construction d'un agent System-2 généralisable. Notre code, nos données et nos statistiques de gradient peuvent être trouvés sur : https://github.com/MingLiiii/Layer_Gradient.
Dans les systèmes de dialogue orientés tâches, la détection d'intention est cruciale pour interpréter les requêtes des utilisateurs et fournir des réponses appropriées. Les recherches existantes abordent principalement les requêtes simples avec une seule intention, en manquant de systèmes efficaces pour traiter les requêtes complexes avec plusieurs intentions et extraire différentes étendues d'intentions. De plus, il existe une absence notable de jeux de données multilingues et multi-intentions. Cette étude aborde trois tâches critiques : l'extraction de multiples étendues d'intentions à partir des requêtes, la détection de multiples intentions et le développement d'un jeu de données d'intentions multilingue et multi-étiquettes. Nous introduisons un nouveau jeu de données de détection d'intentions multi-étiquettes et multi-classes (jeu de données MLMCID) élaboré à partir de jeux de données de référence existants. Nous proposons également une architecture basée sur un réseau de pointeurs (MLMCID) pour extraire les étendues d'intentions et détecter plusieurs intentions avec des étiquettes grossières et fines sous forme de sextuplets. Une analyse approfondie démontre la supériorité de notre système basé sur un réseau de pointeurs par rapport aux approches de base en termes de précision et de score F1 sur divers jeux de données.
L'ajustement des instructions est une approche de fine-tuning supervisée qui améliore significativement la capacité des grands modèles de langage (LLM) à suivre les instructions humaines. Nous proposons SelfCodeAlign, le premier pipeline entièrement transparent et permissif pour l'auto-alignement des LLM de code sans annotations humaines étendues ou distillation. SelfCodeAlign utilise le même modèle de base pour l'inférence tout au long du processus de génération de données. Il extrait d'abord des concepts de codage divers à partir de snippets de départ de haute qualité pour générer de nouvelles tâches. Ensuite, il échantillonne plusieurs réponses par tâche, les associe à des cas de test, et les valide dans un environnement sandbox. Enfin, les exemples réussis sont sélectionnés pour l'ajustement des instructions. Dans nos expériences principales, nous utilisons SelfCodeAlign avec CodeQwen1.5-7B pour générer un ensemble de données de 74k paires instruction-réponse. Le fine-tuning sur cet ensemble de données conduit à un modèle qui atteint un score de 67.1 pass@1 sur HumanEval+, dépassant CodeLlama-70B-Instruct malgré sa taille dix fois plus petite. Sur tous les benchmarks, ce modèle finetuned surpasse de manière constante la version originale entraînée avec OctoPack, la méthode précédente de pointe pour l'ajustement des instructions sans annotations humaines ou distillation. De plus, nous montrons que SelfCodeAlign est efficace sur des LLM de différentes tailles, de 3B à 33B, et que les modèles de base peuvent bénéficier davantage de l'alignement avec leur propre distribution de données. Nous validons en outre l'efficacité de chaque composant de notre pipeline, montrant que SelfCodeAlign surpasse à la fois la distillation directe de GPT-4o et les méthodes de distillation basées sur GPT-3.5, telles que OSS-Instruct et Evol-Instruct. SelfCodeAlign a également conduit à la création de StarCoder2-Instruct, le premier LLM de code entièrement transparent, sous licence permissive et auto-aligné qui atteint des performances de codage de pointe.
Les grands modèles de langage (LLM) ont révolutionné de nombreuses applications, mais leur déploiement reste entravé par les contraintes de mémoire sur les appareils locaux. Alors que les lois d'échelle ont amélioré les capacités des LLM, le principal goulot d'étranglement s'est déplacé de la capacité à la disponibilité, soulignant le besoin d'une gestion efficace de la mémoire. Les méthodes de compression traditionnelles, telles que la quantification, nécessitent souvent des ratios de compression prédéfinis et des processus de compression distincts pour chaque configuration, ce qui complique le déploiement dans des environnements mémoire variables. Dans cet article, nous présentons BitStack, une approche novatrice de compression de poids sans entraînement qui permet des compromis au niveau des mégaoctets entre l'utilisation de la mémoire et les performances du modèle. En exploitant la décomposition des poids, BitStack peut ajuster dynamiquement la taille du modèle avec un minimum de transmission entre la mémoire en cours d'exécution et les dispositifs de stockage. Notre approche décompose de manière itérative les matrices de poids en tenant compte de la signification de chaque paramètre, ce qui donne un bloc résiduel d'environ 1 bit par paramètre dans chaque itération de décomposition. Ces blocs sont triés et empilés dans le stockage en tant qu'unités de transmission de base, avec des quantités différentes chargées en fonction de la disponibilité mémoire actuelle. Des expériences approfondies sur un large éventail de tâches démontrent que, malgré le contrôle granulaire de la taille qu'elle offre, BitStack correspond systématiquement ou dépasse les références de quantification solides, en particulier à des ratios de compression extrêmes. À notre connaissance, il s'agit de la première méthode basée sur la décomposition qui comble efficacement l'écart avec des techniques de compression pratiques comme la quantification. Le code est disponible sur https://github.com/xinghaow99/BitStack.
Les grands modèles de langage (LLM) ont du mal à suivre les instructions avec des contraintes complexes en termes de format, de longueur, etc. Suivant la pratique conventionnelle d'ajustement des instructions, les travaux précédents effectuent un post-entraînement sur des paires instruction-réponse complexes générées en soumettant des instructions complexes à des LLM avancés. Cependant, même les LLM avancés ne parviennent pas bien à suivre les instructions complexes, limitant ainsi la qualité des données générées. Dans ce travail, nous constatons que les ensembles de données existants contiennent intrinsèquement des contraintes complexes implicites et proposons une nouvelle technique de génération de données, la rétrotraduction de contraintes. Plus précisément, nous prenons les paires instruction-réponse de haute qualité des ensembles de données existants et utilisons uniquement des LLM avancés pour ajouter des contraintes complexes déjà respectées par les réponses aux instructions, ce qui réduit naturellement les coûts et le bruit des données. Dans les expériences, nous utilisons Llama3-70B-Instruct pour rétrotraduire les contraintes et créer un ensemble de données instruction-réponse complexe de haute qualité, nommé CRAB. Nous montrons que le post-entraînement sur CRAB améliore la capacité à suivre des instructions complexes de plusieurs LLM de base, évaluée sur des bancs d'essai étendus de suivi d'instructions. Nous constatons en outre que la rétrotraduction de contraintes sert également d'objectif d'entraînement auxiliaire utile dans le post-entraînement. Notre code, nos données et nos modèles seront publiés pour faciliter les recherches futures.
Les récents progrès dans les Modèles de Langage de Grande Taille (MLGT) ont considérablement amélioré leur capacité à traiter de longs contextes, cependant un écart notable persiste dans la génération de sorties longues et alignées. Cette limitation découle d'un déficit d'entraînement où la pré-formation manque d'instructions efficaces pour la génération de longs textes, et les données post-formation se composent principalement de paires de courtes requêtes-réponses. Les approches actuelles, telles que la rétrotraduction d'instructions et l'imitation de comportement, rencontrent des défis liés à la qualité des données, aux problèmes de droits d'auteur et aux contraintes d'utilisation de modèles propriétaires. Dans cet article, nous introduisons un cadre d'entraînement itératif innovant appelé Auto-Allongement qui exploite uniquement les connaissances et compétences intrinsèques des MLGT sans avoir besoin de données auxiliaires ou de modèles propriétaires. Le cadre se compose de deux rôles : le Générateur et l'Allongeur. Le Générateur produit la réponse initiale, qui est ensuite divisée et étendue par l'Allongeur. Ce processus donne une nouvelle réponse plus longue, qui est utilisée pour entraîner à la fois le Générateur et l'Allongeur de manière itérative. À travers ce processus, les modèles sont progressivement entraînés à gérer des réponses de plus en plus longues. Des expériences sur des référentiels et des évaluations humaines montrent que l'Auto-Allongement surpasse les méthodes existantes dans la génération de longs textes, lorsqu'il est appliqué aux principaux MLGT open-source tels que Qwen2 et LLaMA3. Notre code est publiquement disponible sur https://github.com/QwenLM/Self-Lengthen.
Les performances des réseaux neuronaux s'améliorent lorsque davantage de paramètres sont utilisés. Cependant, les tailles des modèles sont limitées par la mémoire disponible sur l'appareil pendant l'entraînement et l'inférence. Bien que l'application de techniques telles que la quantification puisse atténuer cette contrainte, elles souffrent d'une dégradation des performances. Dans ce travail, nous présentons NeuZip, un nouveau schéma de compression des poids basé sur l'entropie des nombres en virgule flottante dans les réseaux neuronaux. Avec NeuZip, nous parvenons à obtenir un entraînement et une inférence efficaces en termes de mémoire sans sacrifier les performances. Notamment, nous réduisons de manière significative l'empreinte mémoire de l'entraînement d'un modèle Llama-3 8B de 31 Go à moins de 16 Go, tout en conservant pleinement la dynamique d'entraînement inchangée. En inférence, notre méthode peut réduire l'utilisation de la mémoire de plus de la moitié tout en maintenant des performances quasi sans perte. Notre code est disponible publiquement.
Dans cet article, nous montrons que des représentations vidéo utiles peuvent être apprises à partir de vidéos synthétiques et d'images naturelles, sans intégrer de vidéos naturelles dans l'apprentissage. Nous proposons une progression de jeux de données vidéo synthétisés par des processus génératifs simples, qui modélisent un ensemble croissant de propriétés de vidéos naturelles (par exemple, le mouvement, l'accélération et les transformations de forme). Les performances ultérieures des modèles vidéo pré-entraînés sur ces jeux de données générés augmentent progressivement avec la progression du jeu de données. Un modèle VideoMAE pré-entraîné sur nos vidéos synthétiques comble 97,2 % de l'écart de performance sur la classification des actions UCF101 entre l'apprentissage à partir de zéro et la pré-formation auto-supervisée à partir de vidéos naturelles, et surpasse le modèle pré-entraîné sur HMDB51. L'introduction de découpes d'images statiques à l'étape de pré-entraînement donne des performances similaires à l'entraînement préalable sur UCF101 et surpasse le modèle pré-entraîné sur UCF101 sur 11 des 14 jeux de données hors distribution de UCF101-P. En analysant les propriétés de bas niveau des jeux de données, nous identifions des corrélations entre la diversité des images, la similarité des images aux données naturelles et les performances ultérieures. Notre approche offre une alternative plus contrôlable et transparente aux processus de curation des données vidéo pour le pré-entraînement.
De nombreuses études ont évalué la compétence des systèmes d'IA, en particulier des grands modèles de langage (LLM), dans la facilitation des tâches quotidiennes telles que la rédaction d'e-mails, la réponse aux questions et la génération de contenu créatif. Cependant, les chercheurs sont confrontés à des défis et des opportunités uniques dans l'utilisation des LLM pour leur propre travail, comme la génération d'idées de recherche, la conception d'expériences et la rédaction ou la révision d'articles. Dans cette étude, nous présentons AAAR-1.0, un ensemble de données de référence conçu pour évaluer les performances des LLM dans trois tâches de recherche fondamentales et intensives en expertise : (i) Inférence d'équations, évaluant la justesse des équations en fonction des informations contextuelles dans les soumissions d'articles ; (ii) Conception d'expériences, concevant des expériences pour valider des idées et des solutions de recherche ; (iii) Faiblesses de l'article, identifiant les faiblesses dans les soumissions d'articles ; et (iv) CRITIQUE DE REVISION, identifiant si chaque segment dans les revues humaines est déficient ou non. AAAR-1.0 se distingue des ensembles de données de référence précédents de deux manières clés : premièrement, il est explicitement orienté vers la recherche, avec des tâches nécessitant une expertise approfondie dans le domaine ; deuxièmement, il est orienté vers les chercheurs, reflétant les activités principales auxquelles les chercheurs participent quotidiennement. Une évaluation des LLM open source et propriétaires révèle leur potentiel ainsi que leurs limites dans la réalisation de tâches de recherche sophistiquées. Nous continuerons à itérer AAAR-1.0 vers de nouvelles versions.
L'avènement des grands modèles de langage (LLM) a révolutionné les interactions des utilisateurs avec les systèmes basés sur la connaissance, permettant aux chatbots de synthétiser de vastes quantités d'informations et d'aider dans des tâches complexes et exploratoires. Cependant, les chatbots basés sur les LLM ont souvent du mal à fournir un support personnalisé, notamment lorsque les utilisateurs commencent par des requêtes vagues ou manquent d'informations contextuelles suffisantes. Cet article présente le Collaborative Assistant for Personalized Exploration (CARE), un système conçu pour améliorer la personnalisation dans les tâches exploratoires en combinant un cadre LLM multi-agent avec une interface utilisateur structurée. L'interface de CARE se compose d'un Panneau de Chat, d'un Panneau de Solutions et d'un Panneau de Besoins, permettant un affinement itératif des requêtes et une génération dynamique de solutions. Le cadre multi-agent collabore pour identifier à la fois les besoins explicites et implicites de l'utilisateur, fournissant des solutions adaptées et actionnables. Dans une étude utilisateur intra-sujet avec 22 participants, CARE a été systématiquement préféré à un chatbot LLM de référence, les utilisateurs saluant sa capacité à réduire la charge cognitive, à inspirer la créativité et à fournir des solutions plus adaptées. Nos résultats mettent en lumière le potentiel de CARE pour transformer les systèmes basés sur les LLM, passant de simples récupérateurs d'informations à des partenaires proactifs dans la résolution de problèmes personnalisée et l'exploration.
La Pré-entraînement Vision-Language Médicale (MedVLP) montre des promesses dans l'apprentissage de représentations visuelles généralisables et transférables à partir d'images médicales et de rapports appariés et non appariés. MedVLP peut fournir des caractéristiques utiles pour les tâches en aval et faciliter l'adaptation de modèles spécifiques à la tâche à de nouvelles configurations en utilisant moins d'exemples. Cependant, les méthodes MedVLP existantes diffèrent souvent en termes de jeux de données, de prétraitement et d'implémentations de finetuning. Cela pose de grands défis pour évaluer dans quelle mesure une méthode MedVLP généralise à diverses tâches cliniquement pertinentes en raison du manque de référentiel unifié, normalisé et complet. Pour combler cette lacune, nous proposons BenchX, un cadre de référence unifié qui permet la comparaison directe et l'analyse systématique entre les méthodes MedVLP en utilisant des ensembles de données de radiographies pulmonaires publics. Plus précisément, BenchX se compose de trois composantes : 1) Des ensembles de données complets couvrant neuf ensembles de données et quatre tâches médicales ; 2) Des suites de référence pour standardiser le prétraitement des données, les divisions entraînement-test et la sélection des paramètres ; 3) Des protocoles de finetuning unifiés qui accueillent des méthodes MedVLP hétérogènes pour une adaptation cohérente à la tâche en classification, segmentation et génération de rapports, respectivement. En utilisant BenchX, nous établissons des lignes directrices pour neuf méthodes MedVLP de pointe et avons constaté que les performances de certaines premières méthodes MedVLP peuvent être améliorées pour surpasser des méthodes plus récentes, incitant à reconsidérer les développements et conclusions des travaux antérieurs en MedVLP. Notre code est disponible sur https://github.com/yangzhou12/BenchX.
Le suivi de mouvements 3D denses à partir de vidéos monoculaires reste un défi, en particulier lorsqu'il s'agit d'atteindre une précision au niveau du pixel sur de longues séquences. Nous introduisons \Approach, une méthode novatrice qui suit efficacement chaque pixel dans l'espace 3D, permettant une estimation précise du mouvement sur l'ensemble des vidéos. Notre approche exploite un mécanisme d'attention global-local conjoint pour le suivi à basse résolution, suivi d'un suréchantillonneur basé sur un transformateur pour obtenir des prédictions haute résolution. Contrairement aux méthodes existantes, limitées par une inefficacité computationnelle ou un suivi clairsemé, \Approach offre un suivi 3D dense à grande échelle, fonctionnant plus de 8 fois plus rapidement que les méthodes précédentes tout en atteignant une précision de pointe. De plus, nous explorons l'impact de la représentation de la profondeur sur les performances de suivi et identifions la profondeur logarithmique comme le choix optimal. Des expériences approfondies démontrent la supériorité de \Approach sur plusieurs benchmarks, obtenant de nouveaux résultats de pointe dans les tâches de suivi dense 2D et 3D. Notre méthode offre une solution robuste pour les applications nécessitant un suivi de mouvement fin et à long terme dans l'espace 3D.
Dans des scénarios du monde réel, il est souhaitable que les agents incarnés aient la capacité d'utiliser le langage humain pour acquérir des connaissances explicites ou implicites dans le cadre de tâches d'apprentissage. Malgré les progrès récents, la plupart des approches antérieures adoptent des instructions simples de bas niveau en tant qu'entrées linguistiques, qui peuvent ne pas refléter la communication humaine naturelle. Il n'est pas clair comment incorporer un usage riche du langage pour faciliter l'apprentissage des tâches. Pour répondre à cette question, cet article étudie différents types d'entrées linguistiques pour faciliter l'apprentissage par renforcement des agents incarnés. Plus précisément, nous examinons comment différents niveaux d'informativité du langage (c'est-à-dire, rétroaction sur les comportements passés et guidance future) et de diversité (c'est-à-dire, variation des expressions linguistiques) impactent l'apprentissage et l'inférence des agents. Nos résultats empiriques basés sur quatre référentiels d'apprentissage par renforcement démontrent que les agents formés avec une rétroaction linguistique diversifiée et informative peuvent atteindre une généralisation améliorée et une adaptation rapide à de nouvelles tâches. Ces découvertes mettent en lumière le rôle crucial de l'usage du langage dans l'enseignement de nouvelles tâches aux agents incarnés dans un monde ouvert. Site du projet : https://github.com/sled-group/Teachable_RL
Cet article explore un nouveau cadre de compression avec perte fonctionnant sous une perte logarithmique, conçu pour gérer les situations où la distribution de reconstruction diverge de la distribution source. Ce cadre est particulièrement pertinent pour les applications nécessitant une compression et une récupération conjointes, et dans les scénarios impliquant des changements distributionnels dus au traitement. Nous montrons que la formulation proposée étend le cadre classique de couplage d'entropie minimale en intégrant un goulot d'étranglement, permettant un degré contrôlé de stochasticité dans le couplage. Nous explorons la décomposition du Couplage d'Entropie Minimale avec Goulot d'Étranglement (MEC-B) en deux problèmes d'optimisation distincts : la Maximisation de l'Information Bornée par l'Entropie (EBIM) pour l'encodeur, et le Couplage d'Entropie Minimale (MEC) pour le décodeur. À travers une analyse approfondie, nous proposons un algorithme glouton pour l'EBIM avec des performances garanties, et caractérisons la solution optimale près des mappings fonctionnels, offrant des insights théoriques significatifs sur la complexité structurelle de ce problème. De plus, nous illustrons l'application pratique du MEC-B à travers des expériences dans les Jeux de Codage Markoviens (MCG) sous contraintes de taux. Ces jeux simulent un scénario de communication au sein d'un Processus de Décision Markovien, où un agent doit transmettre un message compressé d'un émetteur à un récepteur à travers ses actions. Nos expériences mettent en évidence les compromis entre les récompenses du MDP et la précision du récepteur à travers divers taux de compression, démontrant l'efficacité de notre méthode par rapport à la ligne de base de compression conventionnelle.
Le besoin de grands corpus textuels a augmenté avec l'avènement des modèles de langage pré-entraînés et, en particulier, la découverte des lois d'échelle pour ces modèles. La plupart des corpus disponibles ont suffisamment de données uniquement pour les langues avec de grandes communautés dominantes. Cependant, il n'existe aucun corpus disponible qui (i) couvre un large éventail de langues minoritaires ; (ii) est généré par un pipeline reproductible open-source ; et (iii) est rigoureusement nettoyé du bruit, le rendant fiable à utiliser. Nous présentons GlotCC, un corpus général de 2 To, propre et au niveau du document, dérivé de CommonCrawl, couvrant plus de 1000 langues. Nous mettons GlotCC et le système utilisé pour le générer - y compris le pipeline, le modèle d'identification de langue et les filtres - à la disposition de la communauté de recherche. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.