Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le Désapprentissage Automatique (DA) est essentiel pour améliorer la confidentialité et la sécurité dans les modèles d'apprentissage profond, en particulier dans les grands modèles de langage multimodaux (MLLMs), en supprimant des informations spécifiques privées ou dangereuses. Alors que le DA a réalisé des progrès significatifs dans les modalités textuelles et visuelles, le désapprentissage multimodal (DMM) reste largement inexploré, en partie en raison de l'absence d'un banc d'essai open source adapté. Pour remédier à cela, nous introduisons CLEAR, un nouveau banc d'essai conçu pour évaluer les méthodes de DMM. CLEAR contient 200 individus fictifs et 3 700 images liées à des paires question-réponse correspondantes, permettant une évaluation approfondie à travers les modalités. Nous évaluons 10 méthodes de DA, en les adaptant pour le DMM, et mettons en évidence de nouveaux défis spécifiques à l'oubli multimodal. Nous démontrons également que la simple régularisation ell_1 sur les poids LoRA atténue significativement l'oubli catastrophique, préservant les performances du modèle sur les données conservées. Le jeu de données est disponible sur https://huggingface.co/datasets/therem/CLEAR
Les tâches de science des données impliquant des données tabulaires présentent des défis complexes qui nécessitent des approches sophistiquées de résolution de problèmes. Nous proposons AutoKaggle, un cadre puissant et centré sur l'utilisateur qui assiste les data scientists dans l'achèvement des pipelines de données quotidiens grâce à un système multi-agent collaboratif. AutoKaggle met en œuvre un processus de développement itératif qui combine l'exécution de code, le débogage et des tests unitaires complets pour garantir la correction du code et la cohérence logique. Le cadre offre des flux de travail hautement personnalisables, permettant aux utilisateurs d'intervenir à chaque phase, intégrant ainsi l'intelligence automatisée avec l'expertise humaine. Notre boîte à outils universelle de science des données, comprenant des fonctions validées pour le nettoyage des données, l'ingénierie des fonctionnalités et la modélisation, constitue la base de cette solution, améliorant la productivité en rationalisant les tâches courantes. Nous avons sélectionné 8 compétitions Kaggle pour simuler des flux de traitement de données dans des scénarios d'application du monde réel. Les résultats d'évaluation démontrent qu'AutoKaggle atteint un taux de soumission de validation de 0,85 et un score global de 0,82 dans les pipelines typiques de science des données, prouvant pleinement son efficacité et sa praticité dans la gestion des tâches complexes de science des données.
La raison sociale vise à identifier des catégories de relations telles que les amis, les conjoints et les collègues à partir d'images. Alors que les méthodes actuelles adoptent le paradigme de l'entraînement d'un réseau dédié de bout en bout en utilisant des données d'images étiquetées, elles sont limitées en termes de généralisabilité et d'interprétabilité. Pour résoudre ces problèmes, nous présentons d'abord un cadre simple mais bien conçu nommé {\name}, qui combine la capacité de perception des Modèles Fondamentaux de Vision (VFMs) et la capacité de raisonnement des Grands Modèles de Langage (LLMs) au sein d'un cadre modulaire, offrant une base solide pour la reconnaissance des relations sociales. Plus précisément, nous instruisons les VFMs pour traduire le contenu de l'image en une histoire sociale textuelle, puis utilisons les LLMs pour le raisonnement basé sur le texte. {\name} introduit des principes de conception systématiques pour adapter les VFMs et les LLMs séparément et combler leurs écarts. Sans entraînement supplémentaire du modèle, il obtient des résultats compétitifs en zéro-shot sur deux bases de données tout en offrant des réponses interprétables, car les LLMs peuvent générer des explications basées sur le langage pour les décisions. Le processus de conception manuelle des invites pour les LLMs à la phase de raisonnement est fastidieux et une méthode d'optimisation automatique des invites est souhaitée. Comme nous convertissons essentiellement une tâche de classification visuelle en une tâche générative des LLMs, l'optimisation automatique des invites rencontre un problème unique d'optimisation de longues invites. Pour résoudre ce problème, nous proposons en outre l'Optimisation d'Invite de Segment Avide (GSPO), qui effectue une recherche avide en utilisant les informations de gradient au niveau du segment. Les résultats expérimentaux montrent que le GSPO améliore significativement les performances, et notre méthode se généralise également à différents styles d'images. Le code est disponible sur https://github.com/Mengzibin/SocialGPT.
Le raisonnement mathématique est une capacité cruciale pour les Grands Modèles de Langage (GML), cependant la génération de traces de raisonnement détaillées et précises reste un défi significatif. Cet article présente une nouvelle approche pour produire des traces de raisonnement de haute qualité pour le fine-tuning des GML en utilisant des Flows d'apprentissage en ligne. Notre méthode utilise un Flow de production de sortie incrémentiel, où des GML de composants construisent collaborativement des solutions grâce à une communication itérative. Nous entraînons le Flow en utilisant un apprentissage en ligne d'Optimisation de Préférence Directe (OPD) avec des rollouts, générant des paires OPD pour chaque exemple d'entraînement et mettant à jour les modèles en temps réel. Nous comparons directement la qualité des traces de raisonnement générées par notre méthode avec celles produites par inférence directe de modèle, démontrant l'efficacité de notre approche pour améliorer les performances des GML dans les tâches de raisonnement mathématique.
Le développement rapide de grands modèles de langage et multimodaux a suscité un intérêt significatif pour l'utilisation de modèles propriétaires, tels que GPT-4o, pour développer des agents autonomes capables de gérer des scénarios du monde réel tels que la navigation web. Bien que des efforts récents en open source aient tenté de doter les agents de la capacité d'explorer des environnements et de s'améliorer continuellement avec le temps, ils construisent des agents textuels uniquement dans des environnements synthétiques où les signaux de récompense sont clairement définis. Ces agents ont du mal à généraliser à des paramètres réalistes qui nécessitent des capacités de perception multimodale et qui manquent de signaux de vérité terrain. Dans cet article, nous présentons un cadre open source conçu pour faciliter le développement d'un agent web multimodal capable de mener des explorations du monde réel de manière autonome et de s'améliorer. Nous entraînons d'abord le modèle de base avec l'apprentissage par imitation pour acquérir les compétences de base. Ensuite, nous laissons l'agent explorer le web ouvert et recueillir des retours sur ses trajectoires. Ensuite, il améliore davantage sa politique en apprenant à partir de trajectoires performantes jugées par un autre modèle polyvalent. Ce cycle exploration-retour d'information-optimisation peut se poursuivre pendant plusieurs itérations. Les résultats expérimentaux montrent que notre agent web s'améliore avec succès après chaque itération, démontrant de solides performances sur plusieurs ensembles de tests.
Les grands modèles de langage (LLM) ont montré une capacité remarquable en génération de code avec plus de 90 pass@1 pour résoudre des problèmes de codage Python dans HumanEval et MBPP. Une telle précision élevée soulève la question : les LLM peuvent-ils remplacer les programmeurs humains ? Les benchmarks de génération de code existants, manuellement conçus, simples ou d'une seule ligne, ne peuvent pas répondre à cette question en raison de leur écart par rapport au développement logiciel réel. Pour répondre à cette question, nous proposons REPOCOD, un benchmark de génération de code avec 980 problèmes collectés auprès de 11 projets réels populaires, dont plus de 58 % nécessitent des informations contextuelles au niveau du fichier ou du dépôt. De plus, REPOCOD présente la plus longue longueur moyenne de solution canonique (331,6 tokens) et la plus haute complexité cyclomatique moyenne (9,00) par rapport aux benchmarks existants. Dans nos évaluations sur dix LLM, aucun des modèles ne peut atteindre plus de 30 pass@1 sur REPOCOD, révélant la nécessité de développer des LLM plus performants pouvant aider les développeurs dans le développement logiciel réel.
L'apprentissage par renforcement (RL) offre de grandes promesses pour permettre l'acquisition autonome de compétences complexes en manipulation robotique, mais concrétiser ce potentiel dans des environnements réels a été un défi. Nous présentons un système RL basé sur la vision avec interaction humaine qui démontre des performances impressionnantes sur un ensemble diversifié de tâches de manipulation habile, incluant la manipulation dynamique, l'assemblage de précision et la coordination à deux bras. Notre approche intègre des démonstrations et des corrections humaines, des algorithmes RL efficaces, et d'autres choix de conception au niveau du système pour apprendre des politiques qui atteignent des taux de réussite presque parfaits et des temps de cycle rapides en seulement 1 à 2,5 heures d'entraînement. Nous montrons que notre méthode surpasse significativement les bases d'apprentissage par imitation et les approches RL antérieures, avec une amélioration moyenne de 2x du taux de réussite et une exécution 1,8x plus rapide. À travers des expériences approfondies et des analyses, nous fournissons des perspectives sur l'efficacité de notre approche, démontrant comment elle apprend des politiques robustes et adaptatives pour des stratégies de contrôle réactives et prédictives. Nos résultats suggèrent que le RL peut en effet apprendre une large gamme de politiques complexes de manipulation basées sur la vision directement dans le monde réel en des temps d'entraînement pratiques. Nous espérons que ce travail inspirera une nouvelle génération de techniques de manipulation robotique apprises, bénéficiant à la fois aux applications industrielles et aux avancées de la recherche. Des vidéos et du code sont disponibles sur notre site web de projet https://hil-serl.github.io/.
La technique de suggestion en chaîne de pensées (CoT) est devenue une stratégie largement utilisée pour travailler avec de grands modèles de langage et multimodaux. Bien que le CoT ait été démontré pour améliorer les performances dans de nombreuses tâches, déterminer les paramètres dans lesquels il est efficace reste un effort continu. En particulier, il reste une question ouverte dans quels paramètres le CoT réduit systématiquement les performances du modèle. Dans cet article, nous cherchons à identifier les caractéristiques des tâches où le CoT diminue les performances en nous inspirant de la psychologie cognitive, en examinant les cas où (i) la pensée verbale ou la délibération nuit aux performances chez les humains, et (ii) les contraintes régissant les performances humaines se généralisent aux modèles de langage. Trois de ces cas sont l'apprentissage statistique implicite, la reconnaissance visuelle et la classification avec des motifs contenant des exceptions. Dans des expériences approfondies dans ces trois paramètres, nous constatons qu'une collection diversifiée de modèles de pointe montrent des baisses significatives de performances (par exemple, jusqu'à 36,3 % de précision absolue pour OpenAI o1-preview par rapport à GPT-4o) lors de l'utilisation du raisonnement au moment de l'inférence par rapport aux modèles sans entraînement spécifique. Nous identifions également trois tâches satisfaisant la condition (i) mais pas (ii), et constatons que tandis que la pensée verbale réduit les performances humaines dans ces tâches, le CoT maintient ou augmente les performances du modèle. Dans l'ensemble, nos résultats montrent qu'il n'existe pas de parallèle exact entre les processus cognitifs des modèles et ceux des humains, mais considérer les cas où la réflexion a des conséquences négatives sur les performances humaines peut nous aider à identifier les paramètres où elle impacte négativement les modèles. En reliant la littérature sur la délibération humaine aux évaluations du CoT, nous proposons un nouvel outil qui peut être utilisé pour comprendre l'impact des choix de suggestions et du raisonnement au moment de l'inférence.
Nous étudions les représentations internes des modèles vision-langage (VLM) et comment ils encodent les représentations de tâches. Nous considérons des tâches spécifiées à travers des exemples ou des instructions, utilisant soit des entrées textuelles soit des images. De manière surprenante, nous constatons que des tâches conceptuellement similaires sont cartographiées vers des représentations vectorielles de tâches similaires, indépendamment de leur spécification. Nos résultats suggèrent que pour produire des réponses, les jetons dans les VLM passent par trois phases distinctes : entrée, tâche et réponse, un processus qui est cohérent à travers différentes modalités et spécifications. Les vecteurs de tâches que nous identifions dans les VLM sont suffisamment généraux pour être dérivés dans une modalité (par exemple, le texte) et transférés vers une autre (par exemple, l'image). De plus, nous constatons que l'assemblage de vecteurs de tâches basés sur des exemples et des instructions produit de meilleures représentations de tâches. Dans l'ensemble, ces observations éclairent les mécanismes sous-jacents des VLM, en particulier leur capacité à représenter les tâches de manière partagée à travers différentes modalités et spécifications de tâches. Page du projet : https://task-vectors-are-cross-modal.github.io.
Avec le déploiement généralisé des grands modèles de langage à contexte long (LLM), il y a une demande croissante pour un support efficace de l'inférence à haut débit. Cependant, à mesure que le cache clé-valeur (KV) s'étend avec la longueur de la séquence, l'empreinte mémoire croissante et la nécessité d'y accéder pour chaque génération de jeton entraînent une faible capacité de traitement lors du service des LLM à contexte long. Alors que diverses méthodes d'attention dynamique et éparses ont été proposées pour accélérer l'inférence tout en maintenant la qualité de génération, elles échouent soit à réduire de manière suffisante la consommation de mémoire GPU, soit introduisent une latence de décodage significative en déchargeant le cache KV vers le CPU. Nous présentons ShadowKV, un système d'inférence LLM à contexte long à haut débit qui stocke le cache clé de rang faible et décharge le cache de valeur pour réduire l'empreinte mémoire pour des tailles de lots plus importantes et des séquences plus longues. Pour minimiser la latence de décodage, ShadowKV utilise une stratégie précise de sélection KV qui reconstruit de manière minimale des paires KV éparses à la volée. En évaluant ShadowKV sur un large éventail de référentiels, y compris RULER, LongBench et Needle In A Haystack, et des modèles tels que Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K et Qwen2-7B-128K, nous démontrons qu'il peut prendre en charge des tailles de lots jusqu'à 6 fois plus grandes et augmenter le débit jusqu'à 3,04 fois sur un GPU A100 sans sacrifier la précision, dépassant même les performances réalisables avec une taille de lot infinie en supposant une mémoire GPU infinie. Le code est disponible sur https://github.com/bytedance/ShadowKV.
La pré-formation des représentations visuelles a amélioré l'efficacité de l'apprentissage des robots. En raison du manque de grands ensembles de données robotiques de domaine, les travaux antérieurs utilisent des vidéos humaines "in-the-wild" pour préformer la représentation visuelle des robots. Malgré leurs résultats prometteurs, les représentations issues des vidéos humaines sont inévitablement soumises à des décalages de distribution et manquent d'informations dynamiques cruciales pour l'achèvement des tâches. Nous évaluons d'abord diverses représentations pré-entraînées en termes de leur corrélation avec les tâches de manipulation robotique en aval (c'est-à-dire la centralité de la manipulation). Fait intéressant, nous constatons que la "centralité de la manipulation" est un indicateur fort des taux de réussite lorsqu'elle est appliquée aux tâches en aval. S'appuyant sur ces résultats, nous proposons la Représentation Centrée sur la Manipulation (MCR), un cadre d'apprentissage de représentation fondamental capturant à la fois les caractéristiques visuelles et les informations dynamiques telles que les actions et les proprioceptions des tâches de manipulation pour améliorer la centralité de la manipulation. Plus précisément, nous pré-entraînons un codeur visuel sur l'ensemble de données robotiques DROID et exploitons des données pertinentes pour le mouvement telles que les états proprioceptifs du robot et les actions. Nous introduisons une nouvelle perte contrastive qui aligne les observations visuelles avec la dynamique état-action proprioceptive du robot, combinée avec une perte d'acteur de type clonage de comportement (BC) pour prédire les actions lors de la pré-formation, ainsi qu'une perte contrastive temporelle. Les résultats empiriques sur 4 domaines de simulation avec 20 tâches confirment que MCR surpasse la méthode de référence la plus forte de 14,8%. De plus, MCR améliore les performances de l'apprentissage efficace des données avec un bras UR5e sur 3 tâches réelles de 76,9%. Site Web du projet : https://robots-pretrain-robots.github.io/.
La construction de systèmes de recherche dense efficaces reste difficile lorsque la supervision de la pertinence n'est pas disponible. Des travaux récents ont cherché à surmonter ce défi en utilisant un Grand Modèle de Langue (GML) pour générer des documents hypothétiques pouvant être utilisés pour trouver le document réel le plus proche. Cependant, cette approche repose uniquement sur le GML pour avoir des connaissances spécifiques au domaine pertinent à la requête, ce qui peut ne pas être pratique. De plus, la génération de documents hypothétiques peut être inefficace car elle nécessite que le GML génère un grand nombre de jetons pour chaque requête. Pour relever ces défis, nous introduisons les Incrustations de Documents Réels à partir de la Rétroaction de Pertinence (ReDE-RF). Inspiré par la rétroaction de pertinence, ReDE-RF propose de reformuler la génération de documents hypothétiques comme une tâche d'estimation de pertinence, en utilisant un GML pour sélectionner quels documents doivent être utilisés pour la recherche des voisins les plus proches. Grâce à cette reformulation, le GML n'a plus besoin de connaissances spécifiques au domaine mais doit simplement juger ce qui est pertinent. De plus, l'estimation de pertinence ne nécessite que le GML produise un seul jeton, améliorant ainsi la latence de la recherche. Nos expériences montrent que ReDE-RF surpasse de manière constante les méthodes de recherche dense à zéro tirage au sort de pointe sur une large gamme d'ensembles de données de recherche à faibles ressources tout en apportant également des améliorations significatives en termes de latence par requête.
Les algorithmes d'optimisation des préférences appariées hors ligne sont devenus une approche populaire pour le réglage fin sur des données de préférence, surpassant le réglage fin supervisé traditionnel dans diverses tâches. Cependant, les implémentations traditionnelles impliquent souvent des calculs redondants, en particulier pour les tâches avec de longs prompts partagés. Nous introduisons le partage de préfixes pour l'optimisation des préférences, une nouvelle technique qui traite les réponses choisies et rejetées comme une seule séquence avec un préfixe partagé. Pour éviter la contamination entre les réponses, nous utilisons un masque d'attention personnalisé à blocs épars. Notre méthode permet d'améliorer de 1,1 à 1,5 fois le débit d'entraînement sur des ensembles de données DPO populaires, sans aucun impact sur la convergence. Lorsqu'elle est combinée avec l'emballage de séquences, nous observons des accélérations constantes de 1,3 à 1,6 fois, bénéficiant même aux ensembles de données avec de plus petites longueurs de séquence. Bien que nous nous concentrions sur l'Optimisation Directe des Préférences (DPO), notre approche est applicable à d'autres méthodes d'optimisation des préférences appariées. En améliorant l'efficacité computationnelle, notre travail contribue à rendre le réglage fin basé sur les préférences plus accessible pour une gamme plus large d'applications et de tailles de modèle. Nous rendons notre code open source disponible sur https://github.com/frankxwang/dpo-prefix-sharing.
Nous étudions si les exemples en contexte, largement utilisés dans les modèles de langage à décodeur uniquement (LLM), peuvent améliorer les performances des modèles d'incorporation dans les tâches de recherche. Contrairement aux LLM, le fait d'ajouter naïvement des exemples en contexte (paires requête-document) à la requête cible au moment de l'inférence ne fonctionne pas immédiatement. Nous introduisons une approche simple pour permettre aux systèmes de recherche d'utiliser des exemples en contexte. Notre approche, RARe, affine un modèle pré-entraîné avec des exemples en contexte dont la requête est sémantiquement similaire à la requête cible. Cela peut être appliqué pour adapter diverses architectures de base (c'est-à-dire, les modèles de langage à décodeur uniquement, les modèles de recherche) et atteint systématiquement des améliorations de performances allant jusqu'à +2,72% nDCG sur divers ensembles de données de recherche en domaine ouvert (BeIR, RAR-b). En particulier, nous constatons que RARe présente une meilleure généralisation hors domaine par rapport aux modèles utilisant des requêtes sans exemples en contexte, similaire à ce qui est observé pour l'apprentissage en contexte dans les LLM. Nous fournissons en outre une analyse des choix de conception de l'augmentation des exemples en contexte et posons les bases pour les travaux futurs dans ce domaine.
Les grands modèles de langage (LLM) sont susceptibles de mémoriser les données d'entraînement, soulevant des préoccupations en raison du risque d'extraction d'informations sensibles. Les méthodes actuelles pour mesurer les taux de mémorisation des LLM, principalement l'extraction découvrable (Carlini et al., 2022), reposent sur un échantillonnage avide de séquences uniques, sous-estimant potentiellement l'étendue réelle de la mémorisation. Cet article introduit une relaxation probabiliste de l'extraction découvrable qui quantifie la probabilité d'extraire une séquence cible parmi un ensemble d'échantillons générés, en tenant compte de divers schémas d'échantillonnage et de multiples tentatives. Cette approche aborde les limites de la déclaration des taux de mémorisation par l'extraction découvrable en tenant compte de la nature probabiliste des LLM et des schémas d'interaction des utilisateurs. Nos expériences démontrent que cette mesure probabiliste peut révéler des cas de taux de mémorisation plus élevés par rapport aux taux trouvés par l'extraction découvrable. Nous étudions également l'impact des différents schémas d'échantillonnage sur l'extractibilité, offrant une évaluation plus complète et réaliste de la mémorisation des LLM et de ses risques associés. Nos contributions comprennent une nouvelle définition probabiliste de la mémorisation, des preuves empiriques de son efficacité, et une évaluation approfondie à travers différents modèles, tailles, schémas d'échantillonnage et répétitions des données d'entraînement.