Articles de recherche en IA sélectionnés quotidiennement avec traductions
La perte contrastive est une approche puissante pour l'apprentissage de représentations, où des tailles de lots plus grandes améliorent les performances en fournissant plus d'échantillons négatifs pour mieux distinguer les données similaires et différentes. Cependant, l'augmentation des tailles de lots est limitée par la croissance quadratique de la consommation de mémoire GPU, principalement due à l'instanciation complète de la matrice de similarité. Pour remédier à cela, nous proposons une stratégie de calcul basée sur des tuiles qui partitionne le calcul de la perte contrastive en petits blocs arbitraires, évitant la matérialisation complète de la matrice de similarité. De plus, nous introduisons une stratégie de tuilage multi-niveaux pour exploiter la structure hiérarchique des systèmes distribués, en utilisant une communication basée sur des anneaux au niveau du GPU pour optimiser la synchronisation et des noyaux fusionnés au niveau du cœur CUDA pour réduire les surcharges d'E/S. Les résultats expérimentaux montrent que la méthode proposée permet de faire évoluer les tailles de lots à des niveaux sans précédent. Par exemple, elle permet l'entraînement contrastif d'un modèle CLIP-ViT-L/14 avec une taille de lot de 4M ou 12M en utilisant 8 ou 32 A800 80GB sans sacrifier la précision. Comparé aux solutions efficaces en mémoire de l'état de l'art, elle permet une réduction de deux ordres de grandeur de la mémoire tout en maintenant une vitesse comparable. Le code sera rendu publiquement disponible.
Les grands modèles de langage (LLM) souffrent d'hallucinations, faisant référence aux informations non factuelles dans le contenu généré, malgré leurs capacités supérieures dans diverses tâches. Pendant ce temps, l'édition de connaissances a été développée comme un nouveau paradigme populaire pour corriger les connaissances factuelles erronées encodées dans les LLM, avec l'avantage d'éviter une réinitialisation complète. Cependant, un problème courant des ensembles de données d'évaluation existants pour l'édition de connaissances est qu'ils ne garantissent pas que les LLM génèrent effectivement des réponses hallucinées aux questions d'évaluation avant l'édition. Lorsque les LLM sont évalués sur de tels ensembles de données après avoir été édités par différentes techniques, il est difficile d'adopter directement les performances pour évaluer l'efficacité des différentes méthodes d'édition de connaissances dans la correction des hallucinations. Ainsi, la question fondamentale reste insuffisamment validée : l'édition de connaissances peut-elle vraiment corriger les hallucinations dans les LLM ? Nous avons proposé HalluEditBench pour évaluer de manière holistique les méthodes d'édition de connaissances dans la correction des hallucinations du monde réel. Tout d'abord, nous construisons rigoureusement un vaste ensemble de données d'hallucinations avec 9 domaines, 26 sujets et plus de 6 000 hallucinations. Ensuite, nous évaluons les performances des méthodes d'édition de connaissances de manière holistique sur cinq dimensions, notamment l'efficacité, la généralisation, la portabilité, la localité et la robustesse. Grâce à HalluEditBench, nous avons fourni de nouvelles perspectives sur les potentiels et les limites des différentes méthodes d'édition de connaissances dans la correction des hallucinations, ce qui pourrait inspirer des améliorations futures et faciliter les progrès dans le domaine de l'édition de connaissances.
Les modèles à long contexte (LCMs) ont montré un grand potentiel dans le traitement pratique et efficace de longues séquences d'entrée (même plus de 100 millions de jetons). Avec des progrès significatifs, des recherches récentes ont souligné que les LCMs peuvent localiser avec précision les informations saillantes au niveau du jeton dans le contexte. Cependant, les performances de génération de ces LCMs sont loin d'être satisfaisantes et pourraient entraîner des réponses mal alignées, telles que des hallucinations. Pour améliorer la capacité de génération des LCMs, des travaux existants ont étudié les effets de la taille et de la qualité des données pour la pré-formation et l'ajustement de l'instruction. Bien qu'ils aient obtenu des améliorations significatives, les méthodes précédentes pèchent soit par leur efficacité, soit par leur efficience. Dans cet article, nous présentons LOGO (Alignement à long contexte via une optimisation efficace des préférences), une stratégie de formation qui introduit d'abord une optimisation des préférences pour l'alignement à long contexte. Pour surmonter le problème de limitation de la mémoire GPU causé par la longue séquence, LOGO utilise une stratégie d'optimisation des préférences sans référence et adopte une méthode de synthèse de position pour construire les données d'entraînement. En s'entraînant avec seulement 0,3 milliard de données sur une seule machine GPU 8xA800 pendant 16 heures, LOGO permet au modèle Llama-3-8B-Instruct-80K d'atteindre des performances comparables à celles de GPT-4 dans des tâches réelles à long contexte tout en préservant les capacités originales du modèle dans d'autres tâches, telles que la modélisation du langage et MMLU. De plus, LOGO peut étendre la taille de la fenêtre de contexte du modèle tout en améliorant ses performances de génération.
La disponibilité de données de haute qualité est l'un des facteurs les plus importants pour améliorer la capacité de raisonnement des LLMs. Les travaux existants ont démontré l'efficacité de la création de données d'instruction supplémentaires à partir de questions de départ ou de bases de connaissances. Des recherches récentes indiquent que l'augmentation continue de la synthèse de données à partir de modèles puissants (par exemple, GPT-4) peut encore stimuler les performances de raisonnement. Bien que prometteuse, la communauté open source manque encore de données de haute qualité à grande échelle et de méthodes de synthèse de données évolutives à coûts abordables. Pour remédier à cela, nous présentons ScaleQuest, une méthode de synthèse de données évolutive et novatrice qui utilise des modèles open source de "petite taille" (par exemple, 7B) pour générer des questions à partir de zéro sans avoir besoin de données de départ avec des contraintes d'augmentation complexes. Avec l'efficacité de ScaleQuest, nous avons automatiquement construit un ensemble de données de raisonnement mathématique composé d'un million de paires problème-solution, qui sont plus efficaces que les ensembles de données open source existants. Cela peut augmenter de manière universelle les performances des modèles open source principaux (c'est-à-dire Mistral, Llama3, DeepSeekMath et Qwen2-Math) en réalisant des gains de 29,2 % à 46,4 % sur MATH. Notamment, simplement en affinant le modèle Qwen2-Math-7B-Base avec notre ensemble de données, il peut même surpasser Qwen2-Math-7B-Instruct, un modèle solide et bien aligné sur des données propriétaires, ainsi que des modèles tels que GPT-4-Turbo et Claude-3.5 Sonnet.
Nous proposons Framer pour l'interpolation interactive de cadres, qui vise à produire des images en transition en douceur entre deux images selon la créativité de l'utilisateur. Concrètement, en plus de prendre les images de départ et d'arrivée en entrée, notre approche permet de personnaliser le processus de transition en adaptant la trajectoire de certains points clés sélectionnés. Un tel design présente deux avantages clairs. Premièrement, l'incorporation de l'interaction humaine atténue le problème découlant des nombreuses possibilités de transformer une image en une autre, et permet ainsi un contrôle plus précis des mouvements locaux. Deuxièmement, en tant que forme la plus basique d'interaction, les points clés aident à établir la correspondance entre les cadres, améliorant le modèle pour gérer des cas complexes (par exemple, des objets sur les images de départ et d'arrivée ont des formes et styles différents). Il est à noter que notre système propose également un mode "autopilote", où nous introduisons un module pour estimer les points clés et affiner automatiquement la trajectoire, afin de simplifier l'utilisation en pratique. Des résultats expérimentaux approfondis démontrent les performances attrayantes de Framer sur diverses applications, telles que la morphing d'images, la génération de vidéos en accéléré, l'interpolation de dessins animés, etc. Le code, le modèle et l'interface seront publiés pour faciliter de futures recherches.
Nous introduisons le concept d'un jeu vidéo génératif infini, un jeu vidéo qui transcende les limites traditionnelles des systèmes finis et codés en dur en utilisant des modèles génératifs. Inspirés par la distinction de James P. Carse entre les jeux finis et infinis, nous exploitons les récents progrès en IA générative pour créer Unbounded : un jeu de simulation de vie de personnage entièrement encapsulé dans des modèles génératifs. Plus précisément, Unbounded s'inspire des simulations de vie sandbox et vous permet d'interagir avec votre personnage virtuel autonome dans un monde virtuel en le nourrissant, en jouant avec lui et en le guidant - avec des mécaniques ouvertes générées par un LLM, dont certaines peuvent être émergentes. Afin de développer Unbounded, nous proposons des innovations techniques à la fois dans les domaines de la génération de langage et de la génération visuelle. Plus précisément, nous présentons : (1) un modèle de langage de grande taille (LLM) spécialisé et distillé qui génère dynamiquement des mécaniques de jeu, des récits et des interactions de personnages en temps réel, et (2) un nouvel Adaptateur d'indice d'image régional dynamique (IP-Adapter) pour les modèles de vision qui garantit une génération visuelle cohérente mais flexible d'un personnage à travers plusieurs environnements. Nous évaluons notre système à la fois par une analyse qualitative et quantitative, montrant des améliorations significatives dans la simulation de vie de personnage, le suivi des instructions des utilisateurs, la cohérence narrative et la cohérence visuelle pour les personnages et les environnements par rapport aux approches traditionnelles connexes.
Résoudre des tâches complexes de questions-réponses basées sur des graphiques nécessite des capacités avancées de raisonnement visuel dans les grands modèles de langage multimodaux (MLLM). Des études récentes mettent en évidence que ces capacités se composent de deux parties principales : la reconnaissance des informations clés à partir des entrées visuelles et la réalisation de raisonnements dessus. Ainsi, une approche prometteuse pour améliorer les MLLMs est de construire des données d'entraînement pertinentes en se concentrant sur ces deux aspects. Cependant, la collecte et l'annotation de graphiques complexes et de questions sont coûteuses et chronophages, et garantir la qualité des réponses annotées reste un défi. Dans cet article, nous proposons la Traduction par Code comme Intermédiaire (CIT), une méthode de synthèse de données rentable, efficace et facilement scalable pour extraire les capacités de raisonnement visuel des LLMs vers les MLLMs. Le code sert d'intermédiaire qui traduit les représentations visuelles des graphiques en représentations textuelles, permettant aux LLMs de comprendre les informations cross-modales. Plus précisément, nous utilisons des techniques de synthèse basées sur du texte pour construire du code de traçage de graphiques et produire ReachQA, un ensemble de données contenant 3k graphiques intensifs en raisonnement et 20k paires de questions-réponses pour améliorer à la fois les capacités de reconnaissance et de raisonnement. Les expériences montrent que lorsqu'ils sont affinés avec nos données, les modèles non seulement performent bien sur des référentiels liés aux graphiques, mais démontrent également des capacités de raisonnement multimodal améliorées sur des référentiels mathématiques généraux comme MathVista. Le code et l'ensemble de données sont disponibles publiquement sur https://github.com/hewei2001/ReachQA.
Dans ce rapport, nous présentons une série de méthodes visant à améliorer la modélisation des récompenses pour les LLM, en mettant l'accent particulièrement sur les techniques centrées sur les données. Nous proposons des stratégies efficaces de sélection et de filtrage des données pour la création de jeux de données de préférences open-source de haute qualité, aboutissant à la collection de données Skywork-Reward, qui ne contient que 80 000 paires de préférences - significativement plus petite que les jeux de données existants. En utilisant ce jeu de données sélectionné, nous avons développé la série de modèles Skywork-Reward - Skywork-Reward-Gemma-27B et Skywork-Reward-Llama-3.1-8B - le premier occupant actuellement la première position du classement RewardBench. Notamment, nos techniques et jeux de données ont directement amélioré les performances de nombreux modèles bien classés sur RewardBench, mettant en lumière l'impact pratique de nos contributions dans les applications réelles d'apprentissage des préférences.
Les grands modèles de langage (LLM) peuvent stocker une quantité significative de connaissances factuelles dans leurs paramètres. Cependant, leurs connaissances paramétriques peuvent entrer en conflit avec les informations fournies dans le contexte -- ce phénomène, connu sous le nom de conflits de connaissances entre mémoire et contexte, peut entraîner un comportement indésirable du modèle, tel que la dépendance à des informations obsolètes ou incorrectes. En analysant les activations internes des LLM, nous constatons qu'ils peuvent enregistrer internement les signaux de conflit de connaissances au niveau des couches intermédiaires. Ces signaux nous permettent de détecter si un conflit de connaissances se produit et d'utiliser des stratégies d'intervention au moment de l'inférence pour le résoudre. Dans ce travail, nous proposons SpARE, une méthode d'ingénierie de représentation sans entraînement qui utilise des auto-encodeurs clairsemés (SAE) pré-entraînés pour contrôler le comportement de sélection des connaissances des LLM. SpARE identifie les caractéristiques fonctionnelles qui contrôlent les comportements de sélection des connaissances et les applique pour éditer les activations internes des LLM au moment de l'inférence. Nos résultats expérimentaux montrent que SpARE peut contrôler efficacement l'utilisation de l'une ou l'autre source de connaissances pour résoudre les conflits de connaissances dans des tâches de questions-réponses en domaine ouvert, dépassant les méthodes d'ingénierie de représentation existantes (+10%) ainsi que les méthodes de décodage contrastif (+15%).
Les avancées dans l'entraînement distribué et les mécanismes d'attention efficaces ont considérablement élargi les tailles de fenêtre de contexte des grands modèles de langage (LLM). Cependant, des travaux récents révèlent que les longueurs de contexte effectives des LLM open-source tombent souvent court, ne dépassant généralement pas la moitié de leurs longueurs d'entraînement. Dans ce travail, nous attribuons cette limitation à la distribution de fréquence biaisée à gauche des positions relatives formées dans les étapes de pré-entraînement et de post-entraînement des LLM, ce qui entrave leur capacité à rassembler efficacement des informations distantes. Pour relever ce défi, nous introduisons l'incorporation de position ShifTed Rotray (STRING). STRING déplace les positions bien entraînées pour écraser les positions originales inefficaces lors de l'inférence, améliorant les performances dans leurs longueurs d'entraînement existantes. Les résultats expérimentaux montrent qu'avec STRING, sans entraînement supplémentaire, les performances des derniers modèles à grande échelle, tels que Llama3.1 70B et Qwen2 72B, s'améliorent de plus de 10 points sur les bancs d'essai de contexte long populaires RULER et InfiniteBench, établissant de nouveaux résultats de pointe pour les LLM open-source. Comparé aux modèles commerciaux, Llama 3.1 70B avec STRING atteint même de meilleures performances que GPT-4-128K et dépasse clairement Claude 2 et Kimi-chat.
La modélisation efficace du langage sur de longs contextes reste un défi majeur en Traitement Automatique du Langage Naturel (TALN). Bien que les Transformers dominent les tâches linguistiques, ils rencontrent des difficultés avec les séquences longues en raison de la complexité computationnelle quadratique lors de l'entraînement et des coûts de mémoire qui augmentent linéairement lors de l'inférence. Les Modèles d'Espace d'État (SSM) récents tels que Mamba offrent des alternatives avec une utilisation de mémoire constante, mais ils sont moins performants dans les tâches nécessitant une récupération approfondie en contexte. Nous présentons Taipan, une nouvelle architecture hybride qui combine Mamba-2 avec des Couches d'Attention Sélective (CAS). Ces CAS identifient les jetons nécessitant des interactions à longue portée, éliminent les caractéristiques moins importantes, puis augmentent leurs représentations en utilisant le module d'attention. Cette approche équilibre l'efficacité de Mamba avec des performances similaires à celles des Transformers dans les tâches intensives en mémoire. En limitant le budget d'attention, Taipan étend les prédictions précises à des longueurs de contexte allant jusqu'à 1 million de jetons tout en préservant l'efficacité computationnelle. Nos expériences démontrent la performance supérieure de Taipan à différentes échelles et dans diverses tâches, offrant une solution prometteuse pour une modélisation efficace du langage sur de longs contextes.
Segmenter un objet dans une vidéo présente des défis significatifs. Chaque pixel doit être étiqueté avec précision, et ces étiquettes doivent rester cohérentes à travers les images. La difficulté augmente lorsque la segmentation est effectuée avec une granularité arbitraire, ce qui signifie que le nombre de segments peut varier de manière arbitraire, et les masques sont définis sur la base d'une seule ou de quelques images d'échantillon. Dans cet article, nous abordons ce problème en utilisant un modèle de diffusion texte vers image pré-entraîné complété par un mécanisme de suivi supplémentaire. Nous démontrons que notre approche peut gérer efficacement divers scénarios de segmentation et surpasser les alternatives de pointe.
Cette recherche aborde le problème de l'édition interactive de la génération de mouvements humains. Les modèles de diffusion de mouvement précédents manquent d'une modélisation explicite de la correspondance texte-mouvement au niveau des mots et d'une bonne explicabilité, limitant ainsi leur capacité d'édition fine. Pour résoudre ce problème, nous proposons un modèle de diffusion de mouvement basé sur l'attention, nommé MotionCLR, avec une modélisation CLeaR des mécanismes d'attention. Techniquement, MotionCLR modélise les interactions intra-modalité et inter-modalité avec une auto-attention et une attention croisée, respectivement. Plus précisément, le mécanisme d'auto-attention vise à mesurer la similarité séquentielle entre les images et impacte l'ordre des caractéristiques de mouvement. En revanche, le mécanisme d'attention croisée vise à trouver la correspondance fine entre les séquences de mots et à activer les pas de temps correspondants dans la séquence de mouvement. Sur la base de ces propriétés clés, nous développons un ensemble polyvalent de méthodes d'édition de mouvement simples mais efficaces en manipulant les cartes d'attention, telles que l'accentuation ou la réduction du mouvement, le remplacement du mouvement sur place et la génération de mouvement basée sur des exemples, etc. Pour une vérification supplémentaire de l'explicabilité du mécanisme d'attention, nous explorons également le potentiel du décompte d'actions et de la capacité de génération de mouvement ancrée via les cartes d'attention. Nos résultats expérimentaux montrent que notre méthode bénéficie d'une bonne capacité de génération et d'édition avec une bonne explicabilité.
Le développement web consiste à transformer des conceptions d'interface utilisateur en pages web fonctionnelles, ce qui peut être difficile aussi bien pour les débutants que pour les développeurs expérimentés en raison de la complexité des structures hiérarchiques et des styles du HTML. Bien que les grands modèles de langage (LLMs) aient montré des promesses dans la génération de code source, deux défis majeurs persistent dans la génération de code UI-vers-HTML : (1) représenter efficacement la structure hiérarchique du HTML pour les LLMs, et (2) combler l'écart entre la nature visuelle des conceptions d'interface utilisateur et le format textuel du code HTML. Pour relever ces défis, nous introduisons Waffle, une nouvelle stratégie de fine-tuning qui utilise un mécanisme d'attention conscient de la structure pour améliorer la compréhension des LLMs de la structure du HTML et une approche de fine-tuning contrastive pour aligner la compréhension des LLMs des images d'interface utilisateur et du code HTML. Les modèles fine-tunés avec Waffle présentent jusqu'à 9,00 pp (point de pourcentage) de correspondance HTML supérieure, 0,0982 de CW-SSIM supérieur, 32,99 de CLIP supérieur, et 27,12 pp de LLEM supérieur sur notre nouveau banc d'essai WebSight-Test et un banc d'essai existant Design2Code, surpassant les méthodes actuelles de fine-tuning.
Les dernières années ont vu un intérêt significatif pour le développement de grands modèles multimodaux (LMM) capables d'effectuer diverses tâches de raisonnement visuel et de compréhension. Cela a conduit à l'introduction de plusieurs bancs d'essai LMM pour évaluer les LMM sur différentes tâches. Cependant, la plupart des bancs d'essai d'évaluation LMM existants sont principalement centrés sur l'anglais. Dans ce travail, nous développons un banc d'essai d'évaluation LMM complet pour la langue arabe afin de représenter une grande population de plus de 400 millions de locuteurs. Le banc d'essai proposé, nommé CAMEL-Bench, comprend huit domaines divers et 38 sous-domaines, notamment la compréhension multi-images, la perception visuelle complexe, la compréhension des documents manuscrits, la compréhension des vidéos, l'imagerie médicale, les maladies des plantes et la compréhension de l'utilisation des terres basée sur la télédétection pour évaluer la généralisabilité des scénarios larges. Notre CAMEL-Bench comprend environ 29 036 questions qui sont filtrées à partir d'un plus grand ensemble d'échantillons, dont la qualité est vérifiée manuellement par des locuteurs natifs pour garantir une évaluation fiable des modèles. Nous menons des évaluations à la fois sur des modèles propriétaires, y compris la série GPT-4, et sur des LMM open-source. Notre analyse révèle la nécessité d'une amélioration substantielle, en particulier parmi les meilleurs modèles open-source, même si le modèle propriétaire GPT-4o atteint un score global de 62%. Notre banc d'essai et nos scripts d'évaluation sont open-source.
Les grands modèles de langage (LLM) hallucinent souvent, produisant des sorties non fidèles ou incorrectes sur le plan factuel en déformant le contexte fourni ou en rappelant incorrectement des connaissances internes. Des études récentes ont identifié des têtes d'attention spécifiques au sein de l'architecture Transformer, appelées têtes de récupération, responsables de l'extraction d'informations contextuelles pertinentes. Nous émettons l'hypothèse que le masquage de ces têtes de récupération peut induire des hallucinations et que la comparaison des sorties du LLM de base et du LLM masqué peut réduire les hallucinations. À cette fin, nous proposons Décodage par Contraste des Têtes de Récupération (DeCoRe), une nouvelle stratégie de décodage sans entraînement qui amplifie les informations trouvées dans le contexte et les paramètres du modèle. DeCoRe atténue les réponses potentiellement hallucinées en contrastant dynamiquement les sorties du LLM de base et du LLM masqué, en utilisant l'entropie conditionnelle comme guide. Nos expériences approfondies confirment que DeCoRe améliore significativement les performances sur des tâches nécessitant une fidélité contextuelle élevée, telles que la résumé (XSum de 18,6 %), le suivi des instructions (MemoTrap de 10,9 %) et la réponse à des questions ouvertes (NQ-Open de 2,4 % et NQ-Swap de 5,5 %).
Nous présentons CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), un sous-ensemble de haute qualité de 500 Go du Corpus Internet Chinois 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), développé à l'aide d'un nouveau pipeline hybride à deux étapes qui améliore significativement la qualité des données. Pour évaluer son efficacité, nous avons entraîné un modèle de 0,5 milliard de paramètres à partir de zéro sur 100 milliards de jetons à travers divers ensembles de données, obtenant des performances supérieures sur 10 benchmarks dans un cadre de zéro-shot par rapport à CCI3.0, SkyPile et WanjuanV1. Le processus de filtrage de haute qualité distille efficacement les capacités du modèle Qwen2-72B-instruct dans un modèle compact de 0,5 milliard, atteignant des scores F1 optimaux pour la classification des données web chinoises. Nous pensons que ce jeu de données en libre accès facilitera un accès plus large aux modèles linguistiques de haute qualité.
Les modèles de diffusion parviennent à une qualité de génération supérieure mais souffrent d'une lenteur de génération en raison de la nature itérative du débruitage. En revanche, les modèles de cohérence, une nouvelle famille générative, obtiennent des performances compétitives avec une vitesse d'échantillonnage significativement plus rapide. Ces modèles sont entraînés soit par distillation de cohérence, qui exploite des modèles de diffusion pré-entraînés, soit par entraînement/ajustement de cohérence directement à partir des données brutes. Dans ce travail, nous proposons un nouveau cadre pour comprendre les modèles de cohérence en modélisant le processus de débruitage du modèle de diffusion comme un Processus de Décision Markovien (MDP) et en encadrant l'entraînement du modèle de cohérence comme l'estimation de la valeur par l'Apprentissage Temporel de Différence (TD). Plus important encore, ce cadre nous permet d'analyser les limitations des stratégies actuelles d'entraînement/ajustement de cohérence. Basé sur l'Accord de Cohérence Facile (ECT), nous proposons l'Accord de Cohérence Stable (SCT), qui intègre un apprentissage à variance réduite en utilisant l'identité de score. SCT conduit à des améliorations significatives des performances sur des références telles que CIFAR-10 et ImageNet-64. Sur ImageNet-64, SCT atteint un FID en 1 étape de 2,42 et un FID en 2 étapes de 1,55, un nouveau record pour les modèles de cohérence.
Les méthodes actuelles de tatouage d'images sont vulnérables aux techniques avancées de retouche d'images permises par les modèles texte-image à grande échelle. Ces modèles peuvent déformer les tatouages intégrés lors de la retouche, posant des défis significatifs à la protection des droits d'auteur. Dans ce travail, nous introduisons W-Bench, le premier banc d'essai complet conçu pour évaluer la robustesse des méthodes de tatouage contre une large gamme de techniques de retouche d'images, incluant la régénération d'images, la retouche globale, la retouche locale et la génération d'images vers vidéo. À travers des évaluations approfondies de onze méthodes de tatouage représentatives contre des techniques de retouche prévalentes, nous démontrons que la plupart des méthodes échouent à détecter les tatouages après de telles retouches. Pour remédier à cette limitation, nous proposons VINE, une méthode de tatouage qui améliore significativement la robustesse contre diverses techniques de retouche d'images tout en maintenant une haute qualité d'image. Notre approche implique deux innovations clés : (1) nous analysons les caractéristiques fréquentielles de la retouche d'images et identifions que les distorsions de flou présentent des propriétés fréquentielles similaires, ce qui nous permet de les utiliser comme attaques de substitution lors de l'entraînement pour renforcer la robustesse du tatouage ; (2) nous exploitons un modèle de diffusion pré-entraîné à grande échelle, SDXL-Turbo, en l'adaptant à la tâche de tatouage pour obtenir un tatouage plus imperceptible et robuste. Les résultats expérimentaux montrent que notre méthode atteint une performance de tatouage exceptionnelle sous diverses techniques de retouche d'images, surpassant les méthodes existantes à la fois en qualité d'image et en robustesse. Le code est disponible sur https://github.com/Shilin-LU/VINE.
Les Transformers peuvent capturer les dépendances à longue distance en utilisant l'auto-attention, permettant aux jetons d'assister directement à tous les autres. Cependant, empiler plusieurs couches d'attention conduit à une concentration de l'attention. Une façon naturelle de résoudre ce problème est d'utiliser une attention entre les couches, permettant aux informations des couches antérieures d'être directement accessibles aux couches ultérieures. Cependant, cette approche est coûteuse en termes de calcul. Pour résoudre ce problème, nous proposons le Transformer avec une valeur résiduelle (ResFormer) qui approxime l'attention entre les couches en ajoutant une connexion résiduelle des valeurs de la première couche à toutes les couches suivantes. Sur la base de cette méthode, une variante est le Transformer avec une seule couche de valeur (SVFormer), où toutes les couches partagent le même plongement de valeur de la première couche, réduisant le cache KV de près de 50%. Des preuves empiriques complètes démontrent que ResFormer atténue le problème de concentration de l'attention dans les couches plus profondes et améliore la représentation à travers la plupart des couches, surpassant le Transformer classique, DenseFormer et NeuTRENO en termes d'erreur d'entraînement ainsi que de tâches ultérieures. SVFormer s'entraîne significativement plus rapidement que le Transformer classique et performe mieux que d'autres méthodes comme GQA et CLA, la performance étant influencée par la longueur de la séquence et le taux d'apprentissage cumulatif.
Les récents progrès en matière de fusion multimodale ont vu le remarquable succès des modèles vision-langage (VL), qui excellent dans diverses applications multimodales telles que la légende d'images et la réponse à des questions visuelles. Cependant, la construction de modèles VL nécessite des ressources matérielles substantielles, où l'efficacité est limitée par deux facteurs clés : la séquence d'entrée étendue du modèle de langage avec des caractéristiques visuelles exige plus d'opérations computationnelles, et un grand nombre de paramètres apprenables supplémentaires accroît la complexité de la mémoire. Ces défis restreignent significativement la plus large applicabilité de ces modèles. Pour combler cet écart, nous proposons ADEM-VL, une méthode vision-langage efficace qui accorde les modèles VL en se basant sur des modèles de langage pré-entraînés de grande taille (LLM) en adoptant un mécanisme d'attention croisée sans paramètre pour les mesures de similarité dans la fusion multimodale. Cette approche nécessite uniquement l'incorporation des caractéristiques visuelles dans l'espace de langage, réduisant significativement le nombre de paramètres entraînables et accélérant à la fois l'entraînement et la vitesse d'inférence. Pour améliorer l'apprentissage de représentation dans le module de fusion, nous introduisons un schéma efficace de génération de caractéristiques multi-échelles qui ne nécessite qu'un seul passage avant à travers l'encodeur visuel. De plus, nous proposons un schéma de fusion adaptatif qui élimine dynamiquement les informations visuelles moins pertinentes pour chaque jeton de texte en fonction de son score d'attention. Cela garantit que le processus de fusion donne la priorité aux caractéristiques visuelles les plus pertinentes. Avec des expériences sur diverses tâches incluant la réponse à des questions visuelles, la légende d'images et le suivi d'instructions, nous démontrons que notre cadre surpasse les approches existantes. Plus précisément, notre méthode dépasse les méthodes existantes avec une précision moyenne de 0,77 % sur l'ensemble de données ScienceQA, avec une réduction de la latence d'entraînement et d'inférence, démontrant la supériorité de notre cadre. Le code est disponible sur https://github.com/Hao840/ADEM-VL.
Les grands modèles de langage (LLM) sont réputés avoir des difficultés en apprentissage arithmétique en raison des différences inhérentes entre la modélisation linguistique et le calcul numérique, mais des preuves concrètes ont fait défaut. Ce travail répond à cette affirmation à travers une expérience à deux volets. Nous examinons d'abord si les LLM exploitent les produits partiels lors de l'apprentissage arithmétique. Nous constatons que bien que les LLM puissent identifier certains produits partiels après l'apprentissage, ils échouent à les exploiter pour les tâches arithmétiques, au contraire. Ensuite, nous explorons comment les LLM abordent l'arithmétique de manière symbolique en décomposant les tâches en sous-groupes, en émettant l'hypothèse que les difficultés proviennent de la complexité et de la sélection des sous-groupes. Nos résultats montrent que lorsque la complexité des sous-groupes est fixée, les LLM traitent une collection d'opérations arithmétiques différentes de manière similaire. En analysant la précision au niveau de la position pour différentes tailles d'entraînement, nous observons en outre qu'elle suit un schéma en forme de U : les LLM apprennent rapidement les motifs les plus simples aux premières et dernières positions, tout en apprenant progressivement les motifs plus difficiles aux positions intermédiaires. Cela suggère que les LLM sélectionnent les sous-groupes en suivant un paradigme du facile au difficile pendant l'apprentissage. Notre travail confirme que les LLM sont des apprenants purement symboliques dans les tâches arithmétiques et souligne l'importance de les comprendre en profondeur à travers une quantification au niveau des sous-groupes.
La modification de modèles est devenue une alternative de plus en plus populaire pour mettre à jour efficacement les connaissances au sein des modèles de langage. Les méthodes actuelles se concentrent principalement sur la fiabilité, la généralisation et la localité, de nombreuses méthodes excellant dans ces critères. Certains travaux récents révèlent les écueils de ces méthodes de modification tels que la distorsion ou les conflits de connaissances. Cependant, les capacités générales des modèles de langage post-édités restent inexplorées. Dans cet article, nous réalisons une évaluation complète de diverses méthodes de modification et de différents modèles de langage, et avons les résultats suivants. (1) Les méthodes de modification existantes entraînent inévitablement une détérioration des performances sur des benchmarks généraux, ce qui indique que les méthodes de modification existantes maintiennent les capacités générales du modèle après seulement quelques dizaines de modifications. Lorsque le nombre de modifications est légèrement plus élevé, la structure de connaissance intrinsèque du modèle est perturbée, voire complètement endommagée. (2) Les modèles ajustés aux instructions sont plus robustes à la modification, montrant une baisse moins importante des performances en matière de connaissances générales après la modification. (3) Les modèles de langage à grande échelle sont plus résistants à la modification par rapport aux petits modèles. (4) La sécurité du modèle modifié est significativement affaiblie, même pour les modèles alignés sur la sécurité. Nos résultats indiquent que les méthodes de modification actuelles conviennent uniquement aux mises à jour de connaissances à petite échelle au sein des modèles de langage, ce qui incite à poursuivre la recherche sur des méthodes de modification plus pratiques et fiables. Les détails du code et de la reproduction sont disponibles sur https://github.com/lqinfdim/EditingEvaluation.
Dans cet article, nous proposons une analyse approfondie des formulations de problèmes mathématiques et des explorations d'optimisation probabiliste pour certains des composants clés du modèle Transformer [33] dans le domaine de l'IA générative. Nous explorons et discutons des améliorations potentielles pour les méthodes de pointe actuelles concernant certaines technologies sous-jacentes clés des modèles d'IA générative du point de vue de l'algorithmique et de l'optimisation probabiliste. En particulier, nous présentons une solution optimale pour le codage de sous-mots (SWE) basée sur des paramètres initiaux similaires à ceux de l'algorithme d'encodage de paires de bytes (BPE) dans [9] avec des objectifs similaires à ceux de l'approche WordPiece dans [28, 31] pour maximiser la vraisemblance des données d'entraînement. Nous présentons également une méthode d'optimisation de l'entropie croisée pour optimiser les hyperparamètres du modèle word2vec [17]. De plus, nous proposons une combinaison factorisée du codage positionnel rotatif (RoPE) [32] et de l'attention avec des biais linéaires (ALiBi) [23] avec une série harmonique. Nous présentons également une méthode d'attention FlashAttention probabiliste [6, 7] (PrFlashAttention) avec une distribution de probabilité sur les distances de blocs dans la matrice pour décider quel bloc est susceptible de participer à un tour donné de calcul d'attention tout en maintenant la forme de triangle inférieur du tenseur pour les modèles de langage autorégressifs en remodelant les tenseurs. Enfin, nous présentons une quantification adaptative en escalier (SAQ) du cache clé-valeur (KV) pour l'attention multi-requête (MQA) basée sur le cadre présenté dans [16] pour avoir une dégradation progressive de la quantification tout en obtenant une qualité de modèle raisonnable et des économies de coûts.
Le paradigme dominant pour l'apprentissage par renforcement à fonctionnement hiérarchique (RLHF) est l'apprentissage en ligne et sur politique : générer de manière synchrone à partir du grand modèle de langage (LLM), étiqueter avec un modèle de récompense, et apprendre en utilisant des retours sur les sorties du LLM lui-même. Bien que performant, ce paradigme est inefficace du point de vue computationnel. Inspirés par la littérature classique de l'apprentissage par renforcement profond, nous proposons de séparer la génération et l'apprentissage dans le RLHF. Cela permet une génération asynchrone de nouveaux échantillons tout en entraînant simultanément sur d'anciens échantillons, ce qui conduit à une formation plus rapide et à une mise à l'échelle plus optimale en termes de calcul. Cependant, l'entraînement asynchrone repose sur un régime peu exploré, en ligne mais hors politique, dans le RLHF : apprendre sur des échantillons des itérations précédentes de notre modèle. Pour comprendre les défis de ce régime, nous examinons une question fondamentale : dans quelle mesure pouvons-nous tolérer le hors-politique pour accélérer l'apprentissage tout en maintenant les performances ? Parmi plusieurs algorithmes de RLHF que nous avons testés, nous constatons que le DPO en ligne est le plus robuste aux données hors politique, et que la robustesse augmente avec l'échelle du modèle de politique. Nous étudions d'autres optimisations de calcul pour le RLHF asynchrone, mais constatons qu'elles entraînent un coût en performances, créant ainsi un compromis. Enfin, nous vérifions la scalabilité du RLHF asynchrone en formant LLaMA 3.1 8B sur une tâche de suivi d'instructions 40% plus rapidement qu'une exécution synchrone tout en conservant les performances finales.
La mise à l'échelle des données a révolutionné des domaines tels que le traitement du langage naturel et la vision par ordinateur, offrant aux modèles des capacités de généralisation remarquables. Dans cet article, nous examinons si des lois similaires de mise à l'échelle des données existent en robotique, en particulier dans la manipulation robotique, et si une mise à l'échelle appropriée des données peut permettre d'obtenir des politiques de robot à tâche unique pouvant être déployées sans entraînement pour n'importe quel objet de la même catégorie dans n'importe quel environnement. À cette fin, nous menons une étude empirique approfondie sur la mise à l'échelle des données en apprentissage par imitation. En collectant des données dans de nombreux environnements et avec divers objets, nous étudions comment les performances de généralisation d'une politique évoluent avec le nombre d'environnements d'entraînement, d'objets et de démonstrations. Tout au long de notre recherche, nous collectons plus de 40 000 démonstrations et réalisons plus de 15 000 exécutions de robots dans le monde réel selon un protocole d'évaluation rigoureux. Nos résultats révèlent plusieurs conclusions intrigantes : les performances de généralisation de la politique suivent approximativement une relation de loi de puissance avec le nombre d'environnements et d'objets. La diversité des environnements et des objets est bien plus importante que le nombre absolu de démonstrations ; une fois que le nombre de démonstrations par environnement ou objet atteint un certain seuil, des démonstrations supplémentaires ont un effet minimal. Sur la base de ces observations, nous proposons une stratégie efficace de collecte de données. Avec quatre collecteurs de données travaillant pendant une après-midi, nous collectons suffisamment de données pour permettre aux politiques de réaliser environ 90 % de réussite pour deux tâches dans des environnements nouveaux avec des objets inconnus.
La sélection des données est cruciale pour optimiser les performances des modèles de langage (LM) sur des tâches spécifiques, cependant la plupart des méthodes existantes échouent à considérer efficacement la distribution de la tâche cible. Les approches actuelles ignorent soit complètement les exigences spécifiques de la tâche, soit se basent sur des approximations qui ne capturent pas les motifs nuancés nécessaires pour des tâches telles que l'autoformalisation ou la génération de code. Les méthodes qui prennent en compte la distribution cible reposent souvent sur des représentations simplistes, parfois bruitées, comme les caractéristiques d'hashed n-grammes, qui peuvent entraîner des collisions et introduire du bruit. Nous introduisons ZIP-FIT, un cadre de sélection de données qui utilise la compression gzip pour mesurer directement l'alignement entre les données d'entraînement potentielles et la distribution de la tâche cible. Lors d'évaluations approfondies sur l'autoformalisation et la génération de code Python, ZIP-FIT surpasse significativement les références principales comme DSIR et D4. Les modèles entraînés sur des données sélectionnées par ZIP-FIT atteignent leur plus basse perte d'entropie croisée jusqu'à 85,1\% plus rapidement que les références, démontrant qu'un meilleur alignement de la tâche conduit à un apprentissage plus efficace. De plus, ZIP-FIT effectue la sélection jusqu'à 65,8\% plus rapidement que DSIR et deux ordres de grandeur plus rapidement que D4. Notamment, ZIP-FIT montre que des ensembles de données plus petits et bien alignés surpassent souvent des ensembles plus grands mais moins ciblés, démontrant qu'une petite quantité de données de meilleure qualité est supérieure à une grande quantité de données de moindre qualité. Nos résultats impliquent que la sélection de données consciente de la tâche est cruciale pour une adaptation de domaine efficace, et que la compression offre une manière fondée de mesurer l'alignement de la tâche. En montrant que la sélection de données ciblée peut améliorer considérablement les performances spécifiques à la tâche, notre travail apporte de nouvelles perspectives sur la relation entre la qualité des données, l'alignement de la tâche et l'efficacité de l'apprentissage du modèle.
Nous considérons l'échantillonnage spéculatif multi-brouillon, où les séquences de propositions sont échantillonnées indépendamment à partir de différents modèles de brouillon. À chaque étape, un schéma de sélection de brouillon au niveau du jeton prend une liste de jetons valides en entrée et produit un jeton de sortie dont la distribution correspond à celle du modèle cible. Des travaux antérieurs ont démontré que le schéma optimal (qui maximise la probabilité d'accepter l'un des jetons en entrée) peut être formulé comme une solution à un programme linéaire. Dans ce travail, nous montrons que le schéma optimal peut être décomposé en une solution en deux étapes : dans la première étape, un schéma de type échantillonnage d'importance (IS) est utilisé pour sélectionner un jeton intermédiaire ; dans la deuxième étape, un échantillonnage spéculatif (à un seul brouillon) est appliqué pour générer le jeton de sortie. Dans le cas de deux modèles de brouillon identiques, nous établissons en outre 1) une condition nécessaire et suffisante sur les distributions des modèles cible et de brouillon pour que la probabilité d'acceptation soit égale à un et 2) fournissons une expression explicite pour la probabilité d'acceptation optimale. Notre analyse théorique motive également une nouvelle classe de schéma de sélection au niveau du jeton basée sur l'échantillonnage d'importance pondéré. Nos résultats expérimentaux démontrent des améliorations cohérentes dans l'efficacité des blocs réalisables et les taux de jetons par rapport aux schémas de base dans plusieurs scénarios.
La preuve de théorèmes assistée par machine fait référence au processus de mener un raisonnement structuré pour générer automatiquement des preuves pour des théorèmes mathématiques. Récemment, il y a eu un regain d'intérêt pour l'utilisation de modèles d'apprentissage automatique en conjonction avec des assistants de preuve pour effectuer cette tâche. Dans cet article, nous présentons Pantograph, un outil qui fournit une interface polyvalente à l'assistant de preuve Lean 4 et permet une recherche de preuves efficace via des algorithmes de recherche puissants tels que la recherche arborescente Monte Carlo. De plus, Pantograph permet un raisonnement de haut niveau en permettant une gestion plus robuste des étapes d'inférence de Lean 4. Nous donnons un aperçu de l'architecture et des fonctionnalités de Pantograph. Nous rendons également compte d'un cas d'utilisation illustratif : utiliser des modèles d'apprentissage automatique et des croquis de preuve pour prouver des théorèmes Lean 4. Les fonctionnalités innovantes de Pantograph ouvrent la voie à des modèles d'apprentissage automatique plus avancés pour effectuer des recherches de preuves complexes et un raisonnement de haut niveau, permettant aux futurs chercheurs de concevoir des prouveurs de théorèmes plus polyvalents et puissants.