Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ces dernières années, les Grands Modèles de Langage (GML) ont démontré des capacités remarquables dans diverses tâches (par exemple, la compréhension de longs contextes), et de nombreux benchmarks ont été proposés. Cependant, nous constatons que les capacités de génération de longs textes ne sont pas bien explorées. Par conséquent, nous introduisons le Benchmark de Génération de Longs Textes Hiérarchique (HelloBench), un benchmark complet, en conditions réelles et ouvert, pour évaluer les performances des GML dans la génération de longs textes. Basé sur la Taxonomie de Bloom, HelloBench catégorise les tâches de génération de longs textes en cinq sous-tâches : questions ouvertes, résumés, chat, complétion de texte et génération de texte heuristique. De plus, nous proposons l'Évaluation de Longs Textes Hiérarchique (HelloEval), une méthode d'évaluation alignée sur l'humain qui réduit significativement le temps et les efforts nécessaires à l'évaluation humaine tout en maintenant une forte corrélation avec l'évaluation humaine. Nous avons mené de vastes expériences sur environ 30 GMLs populaires et observé que les GMLs actuels manquent de capacités de génération de longs textes. Plus précisément, tout d'abord, que les instructions incluent des contraintes de longueur explicites ou implicites, nous constatons que la plupart des GMLs ne peuvent pas générer de texte de plus de 4000 mots. Deuxièmement, nous observons que bien que certains GMLs puissent générer des textes plus longs, de nombreux problèmes existent (par exemple, des répétitions sévères et une dégradation de la qualité). Troisièmement, pour démontrer l'efficacité de HelloEval, nous comparons HelloEval avec des métriques traditionnelles (par exemple, ROUGE, BLEU, etc.) et des méthodes de GML-comme-juge, qui montrent que HelloEval a la plus forte corrélation avec l'évaluation humaine. Nous mettons notre code à disposition sur https://github.com/Quehry/HelloBench.
La synthèse vidéo de personnages vise à produire des vidéos réalistes de personnages animables au sein de scènes réalistes. En tant que problème fondamental dans la communauté de la vision par ordinateur et des graphiques, les travaux en 3D nécessitent généralement des captures multi-vues pour un entraînement par cas, ce qui limite considérablement leur applicabilité pour la modélisation de personnages arbitraires en peu de temps. Les méthodes récentes en 2D brisent cette limitation via des modèles de diffusion pré-entraînés, mais elles rencontrent des difficultés en termes de généralité de pose et d'interaction de scène. À cet effet, nous proposons MIMO, un nouveau cadre qui peut non seulement synthétiser des vidéos de personnages avec des attributs contrôlables (c'est-à-dire, personnage, mouvement et scène) fournis par des entrées simples d'utilisateur, mais qui peut également simultanément atteindre une scalabilité avancée pour des personnages arbitraires, une généralité pour des mouvements 3D nouveaux, et une applicabilité aux scènes interactives du monde réel dans un cadre unifié. L'idée principale est d'encoder la vidéo 2D en codes spatiaux compacts, en tenant compte de la nature 3D inhérente à l'occurrence vidéo. Concrètement, nous élevons les pixels du cadre 2D en 3D en utilisant des estimateurs de profondeur monoculaire, et décomposons le clip vidéo en trois composantes spatiales (c'est-à-dire, humain principal, scène sous-jacente, et occlusion flottante) en couches hiérarchiques basées sur la profondeur 3D. Ces composantes sont ensuite encodées en code d'identité canonique, code de mouvement structuré et code de scène complet, qui sont utilisés comme signaux de contrôle du processus de synthèse. La conception de la modélisation spatiale décomposée permet un contrôle flexible de l'utilisateur, une expression de mouvement complexe, ainsi qu'une synthèse consciente de la 3D pour les interactions de scène. Les résultats expérimentaux démontrent l'efficacité et la robustesse de la méthode proposée.
Les grands modèles de langage (LLM) avec des architectures à décodeur seul démontrent des capacités remarquables d'apprentissage en contexte (ICL). Cette caractéristique leur permet de gérer efficacement à la fois des tâches familières et nouvelles en utilisant des exemples fournis dans leur contexte d'entrée. Reconnaissant le potentiel de cette capacité, nous proposons d'exploiter la fonction ICL dans les LLM pour améliorer le processus de génération d'encodage de texte. À cette fin, nous introduisons un modèle novateur bge-en-icl, qui utilise des exemples à quelques coups pour produire des encodages de texte de haute qualité. Notre approche intègre directement des exemples liés à la tâche du côté de la requête, ce qui se traduit par des améliorations significatives sur diverses tâches. De plus, nous avons étudié comment utiliser efficacement les LLM en tant que modèles d'encodage, y compris divers mécanismes d'attention, méthodes de regroupement, etc. Nos résultats suggèrent que le maintien du cadre original donne souvent les meilleurs résultats, soulignant que la simplicité est préférable. Les résultats expérimentaux sur les référentiels MTEB et AIR-Bench montrent que notre approche établit de nouvelles performances de pointe (SOTA). Notre modèle, code et ensemble de données sont disponibles gratuitement sur https://github.com/FlagOpen/FlagEmbedding.
Les récents progrès dans les grands modèles de langage multimodal (MLLM) visent à intégrer et interpréter des données provenant de diverses modalités. Cependant, la capacité de ces modèles à traiter et raisonner simultanément sur plusieurs modalités reste insuffisamment explorée, en partie en raison du manque de bancs d'essai complets par modalité. Nous présentons OmniBench, un nouveau banc d'essai conçu pour évaluer rigoureusement la capacité des modèles à reconnaître, interpréter et raisonner à travers des entrées visuelles, acoustiques et textuelles simultanément. Nous définissons les modèles capables d'un tel traitement tri-modal comme des modèles de langage omni (OLM). OmniBench se distingue par des annotations humaines de haute qualité, garantissant que des réponses précises nécessitent une compréhension intégrée et un raisonnement à travers les trois modalités. Nos principales conclusions révèlent que : i) les OLM open-source présentent des limitations critiques dans le suivi des instructions et les capacités de raisonnement dans des contextes tri-modaux ; et ii) les modèles de base ont de faibles performances (moins de 50 % de précision) même lorsqu'ils sont fournis avec des représentations textuelles alternatives d'images et de sons. Ces résultats suggèrent que la capacité à construire un contexte cohérent à partir de texte, d'image et de son est souvent négligée dans les paradigmes d'entraînement MLLM existants. Nous plaidons en faveur de futures recherches axées sur le développement de techniques d'intégration tri-modale plus robustes et de stratégies d'entraînement pour améliorer les performances des OLM à travers diverses modalités. Les codes et le classement en direct peuvent être trouvés sur https://m-a-p.ai/OmniBench.
La qualité des LLM à poids ouvert a connu une amélioration significative, mais ils restent principalement axés sur l'anglais. Dans cet article, nous présentons le projet EuroLLM, visant à développer une série de LLM multilingues à poids ouvert capables de comprendre et de générer du texte dans toutes les langues officielles de l'Union européenne, ainsi que dans plusieurs autres langues pertinentes. Nous décrivons les progrès réalisés à ce jour, en détaillant notre processus de collecte et de filtrage des données, le développement des lois d'échelle, la création de notre tokeniseur multilingue, ainsi que les configurations de mélange de données et de modélisation. De plus, nous publions nos modèles initiaux : EuroLLM-1.7B et EuroLLM-1.7B-Instruct et rapportons leurs performances sur des benchmarks généraux multilingues et en traduction automatique.
La sortie continue de nouveaux et meilleurs modèles de génération d'images accroît la demande de détecteurs d'images synthétiques. Dans un domaine aussi dynamique, les détecteurs doivent être capables de généraliser largement et de résister aux altérations non contrôlées. Ce travail est motivé par ce contexte, en examinant le rôle du temps, des transformations d'images et des sources de données, pour la généralisation des détecteurs. Dans ces expériences, aucun des détecteurs évalués n'est trouvé universel, mais les résultats indiquent qu'un ensemble pourrait l'être. Les expériences sur des données collectées dans la nature montrent que cette tâche est plus difficile que celle définie par des ensembles de données à grande échelle, soulignant un écart entre l'expérimentation et la pratique réelle. Enfin, nous observons un effet d'équilibre de course, où de meilleurs générateurs conduisent à de meilleurs détecteurs, et vice versa. Nous émettons l'hypothèse que cela pousse le domaine vers une course perpétuellement serrée entre les générateurs et les détecteurs.
La plupart des méthodes de multimodalité existantes utilisent des colonnes vertébrales distinctes pour la génération de texte discrète basée sur l'autorégression et la génération visuelle continue basée sur la diffusion, ou la même colonne vertébrale en discrétisant les données visuelles pour utiliser l'autorégression à la fois pour le texte et la génération visuelle. Dans cet article, nous proposons d'étudier une idée simple : partager un transformateur pour à la fois l'autorégression et la diffusion. La faisabilité découle de deux aspects principaux : (i) Le transformateur est appliqué avec succès à la diffusion pour la génération visuelle, et (ii) l'entraînement du transformateur pour l'autorégression et la diffusion est très similaire, la différence réside simplement dans le fait que la diffusion utilise un masque d'attention bidirectionnel et l'autorégression utilise un masque d'attention causale. Les résultats expérimentaux montrent que notre approche atteint des performances de génération d'images comparables aux méthodes de pointe actuelles tout en maintenant la capacité de génération de texte. Le projet est disponible publiquement sur https://monoformer.github.io/.
Les modèles de transformateurs masqués pour la génération d'images conditionnelles de classe sont devenus une alternative convaincante aux modèles de diffusion. Typiquement composés de deux étapes - un modèle VQGAN initial pour la transition entre l'espace latent et l'espace image, et un modèle de transformateur ultérieur pour la génération d'images dans l'espace latent - ces cadres offrent des voies prometteuses pour la synthèse d'images. Dans cette étude, nous présentons deux contributions principales : Premièrement, un examen empirique et systématique des VQGANs, conduisant à un VQGAN modernisé. Deuxièmement, un réseau de génération novateur sans incorporation opérant directement sur des jetons binaires - une représentation quantifiée binaire des jetons avec une sémantique riche. La première contribution fournit un modèle VQGAN transparent, reproductible et performant, améliorant l'accessibilité et correspondant aux performances des méthodes de pointe actuelles tout en révélant des détails auparavant non divulgués. La deuxième contribution démontre que la génération d'images sans incorporation en utilisant des jetons binaires atteint un nouveau FID de pointe de 1,52 sur le banc d'essai ImageNet 256x256, avec un modèle de générateur compact de seulement 305 millions de paramètres.
Le système visuel humain est bien adapté pour détecter des visages de toutes formes et tailles. Bien que cela confère des avantages évidents en termes de survie, tels qu'une meilleure chance de repérer des prédateurs inconnus dans la brousse, cela conduit également à des détections de visages erronées. La "pareidolie faciale" décrit la perception de structures ressemblant à des visages parmi des stimuli autrement aléatoires : voir des visages dans des taches de café ou des nuages dans le ciel. Dans cet article, nous étudions la pareidolie faciale d'un point de vue de la vision par ordinateur. Nous présentons un ensemble de données d'images de "Visages dans les Choses", composé de cinq mille images web avec des visages pareidoliques annotés par des humains. En utilisant cet ensemble de données, nous examinons dans quelle mesure un détecteur de visages humains de pointe manifeste de la pareidolie, et constatons un écart comportemental significatif entre les humains et les machines. Nous constatons que le besoin évolutif pour les humains de détecter les visages d'animaux, ainsi que les visages humains, pourrait expliquer une partie de cet écart. Enfin, nous proposons un modèle statistique simple de la pareidolie dans les images. À travers des études sur des sujets humains et nos détecteurs de visages pareidoliques, nous confirmons une prédiction clé de notre modèle concernant les conditions d'image les plus susceptibles d'induire la pareidolie. Ensemble de données et site Web : https://aka.ms/faces-in-things
L'apprentissage profond pour la prévision de séries temporelles a connu des avancées significatives au cours des dernières décennies. Cependant, malgré le succès de l'apprentissage préalable à grande échelle dans les domaines du langage et de la vision, les modèles pré-entraînés pour les séries temporelles restent limités en termes d'échelle et fonctionnent à un coût élevé, entravant le développement de modèles de prévision plus grands et plus performants dans des applications du monde réel. En réponse, nous présentons Time-MoE, une architecture évolutive et unifiée conçue pour pré-entraîner des modèles de base de prévision plus grands et plus performants tout en réduisant les coûts d'inférence. En exploitant une conception de mélange d'experts épars (MoE), Time-MoE améliore l'efficacité computationnelle en activant uniquement un sous-ensemble de réseaux pour chaque prédiction, réduisant la charge computationnelle tout en maintenant une capacité de modèle élevée. Cela permet à Time-MoE de s'étendre efficacement sans augmentation correspondante des coûts d'inférence. Time-MoE comprend une famille de modèles transformateurs à décodeur uniquement qui fonctionnent de manière autorégressive et prennent en charge des horizons de prévision flexibles avec des longueurs de contexte d'entrée variables. Nous avons pré-entraîné ces modèles sur nos nouvelles données à grande échelle Time-300B, qui couvrent 9 domaines et englobent plus de 300 milliards de points temporels. Pour la première fois, nous avons augmenté la taille d'un modèle de base de séries temporelles à 2,4 milliards de paramètres, obtenant une précision de prévision nettement améliorée. Nos résultats valident l'applicabilité des lois d'échelle pour l'entraînement de jetons et la taille du modèle dans le contexte de la prévision de séries temporelles. Comparés aux modèles denses avec le même nombre de paramètres activés ou des budgets de calcul équivalents, nos modèles les surpassent systématiquement de loin. Ces avancées placent Time-MoE comme une solution de pointe pour relever les défis de prévision de séries temporelles du monde réel avec une capacité, une efficacité et une flexibilité supérieures.
Dans ce rapport technique, nous documentons les modifications apportées à SDXL lors du processus d'entraînement de NovelAI Diffusion V3, notre modèle de génération d'images d'anime de pointe.
Comment les politiques de manipulation des robots peuvent-elles se généraliser à de nouvelles tâches impliquant des types d'objets inconnus et de nouveaux mouvements ? Dans cet article, nous proposons une solution basée sur la prédiction des informations de mouvement à partir de données web grâce à la génération de vidéos humaines et à la condition d'une politique robotique sur la vidéo générée. Au lieu de tenter de mettre à l'échelle la collecte de données des robots, qui est coûteuse, nous montrons comment nous pouvons exploiter des modèles de génération de vidéos entraînés sur des données web facilement disponibles, pour permettre la généralisation. Notre approche Gen2Act considère la manipulation conditionnée par le langage comme une génération de vidéos humaines à zéro-shot suivie d'une exécution avec une seule politique conditionnée par la vidéo générée. Pour entraîner la politique, nous utilisons un ordre de grandeur de données d'interaction robotique inférieur à celui sur lequel le modèle de prédiction vidéo a été formé. Gen2Act ne nécessite aucun ajustement fin du modèle vidéo et nous utilisons directement un modèle pré-entraîné pour générer des vidéos humaines. Nos résultats sur divers scénarios du monde réel montrent comment Gen2Act permet de manipuler des types d'objets inconnus et d'effectuer de nouveaux mouvements pour des tâches non présentes dans les données des robots. Les vidéos sont disponibles sur https://homangab.github.io/gen2act/
Comparés aux grands modèles de langage (LLMs), les grands modèles vision-langage (LVLMs) peuvent également accepter des images en entrée, mettant ainsi en valeur des capacités émergentes plus intéressantes et démontrant des performances impressionnantes sur diverses tâches vision-langage. Motivée par la génération de texte dans les LLMs, la génération visuelle a été explorée pour améliorer les capacités des LVLMs à percevoir l'information visuelle. Cependant, les techniques précédentes de génération visuelle traitaient uniquement les entrées visuelles sans tenir compte des requêtes textuelles, limitant la capacité des modèles à suivre les instructions textuelles pour accomplir des tâches. Pour combler cette lacune, dans ce travail, nous proposons une nouvelle technique de génération nommée Attention Prompting on Image, qui superpose simplement une carte de chaleur d'attention guidée par la requête textuelle sur l'image d'entrée d'origine et améliore efficacement les LVLM sur diverses tâches. Plus précisément, nous générons une carte de chaleur d'attention pour l'image d'entrée en fonction de la requête textuelle avec un modèle auxiliaire comme CLIP. Ensuite, la carte de chaleur multiplie simplement les valeurs de pixels de l'image d'origine pour obtenir l'image d'entrée réelle pour le LVLM. Des expériences approfondies sur divers bancs d'essai vision-langage confirment l'efficacité de notre technique. Par exemple, l'Attention Prompting on Image améliore le LLaVA-1.5 de 3,8 % et de 2,9 % sur les bancs d'essai MM-Vet et LLaVA-Wild, respectivement.
Alors que les Modèles de Langage de Grande Taille (LLMs) continuent de progresser vers des formes plus avancées d'intelligence, l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) est de plus en plus considéré comme une voie clé pour atteindre l'Intelligence Artificielle Générale (AGI). Cependant, la dépendance aux méthodes d'alignement basées sur les modèles de récompense (RM) introduit des défis significatifs en raison de l'instabilité inhérente et des imperfections des Modèles de Récompense (RMs), pouvant entraîner des problèmes critiques tels que le piratage de récompenses et la désalignement avec les intentions humaines. Dans cet article, nous présentons un cadre RLHF robuste aux récompenses visant à relever ces défis fondamentaux, ouvrant la voie à un apprentissage plus fiable et résilient dans les LLMs. Notre approche introduit un objectif d'optimisation novateur qui équilibre soigneusement la performance et la robustesse en incorporant des Ensembles de Modèles de Récompense Bayésiens (BRME) pour modéliser l'ensemble d'incertitude des fonctions de récompense. Cela permet au cadre d'intégrer à la fois la performance nominale et les signaux de récompense minimum, garantissant un apprentissage plus stable même avec des modèles de récompense imparfaits. Les résultats empiriques montrent que notre cadre surpasse de manière constante le RLHF traditionnel à travers divers benchmarks, démontrant une précision améliorée et une stabilité à long terme. Nous fournissons également une analyse théorique, démontrant que l'approche RLHF robuste aux récompenses se rapproche de la stabilité des paramètres de récompense constants, ce qui s'avère efficace dans une analyse de cas stochastique. Ensemble, ces contributions mettent en lumière le potentiel du cadre à améliorer à la fois la performance et la stabilité de l'alignement des LLMs avec le RLHF.
Les approches traditionnelles de la Reconnaissance d'Entités Nommées (NER) encadrent la tâche dans un problème d'étiquetage de séquence BIO. Bien que ces systèmes excellent souvent dans la tâche en aval, ils nécessitent des données annotées étendues et ont du mal à généraliser à des domaines d'entrée hors distribution et à des types d'entités non vus. Au contraire, les Grands Modèles de Langage (LLMs) ont démontré de fortes capacités de zéro-shot. Alors que plusieurs travaux abordent le NER Zéro-Shot en anglais, peu ont été réalisés dans d'autres langues. Dans cet article, nous définissons un cadre d'évaluation pour le NER Zéro-Shot, en l'appliquant à la langue italienne. De plus, nous introduisons SLIMER-IT, la version italienne de SLIMER, une approche d'accord d'instructions pour le NER zéro-shot exploitant des invites enrichies de définitions et de directives. Des comparaisons avec d'autres modèles de pointe démontrent la supériorité de SLIMER-IT sur des balises d'entités jamais vues auparavant.
Les modèles de récompense (RMs) jouent un rôle essentiel dans l'alignement des grands modèles de langage (LLMs) sur les préférences humaines. Cependant, l'entraînement traditionnel des RM, qui repose sur des paires de réponses liées à des prompts spécifiques, peine à démêler les préférences induites par le prompt des artefacts indépendants du prompt, tels que la longueur et le format des réponses. Dans ce travail, nous mettons en lumière une limitation fondamentale des méthodes actuelles d'entraînement des RM, où les RM échouent à distinguer efficacement les signaux contextuels des artefacts non pertinents lors de la détermination des préférences. Pour remédier à cela, nous introduisons un cadre causal qui apprend les préférences indépendamment de ces artefacts et proposons une nouvelle technique d'augmentation des données conçue pour les éliminer. Des expériences approfondies montrent que notre approche filtre avec succès les artefacts indésirables, produisant un modèle de récompense plus robuste (RRM). Notre RRM améliore les performances d'un modèle de récompense par paires entraîné sur Gemma-2-9b-it, sur RewardBench, augmentant la précision de 80,61% à 84,15%. De plus, nous entraînons deux politiques DPO en utilisant à la fois le RM et le RRM, démontrant que le RRM améliore significativement les politiques alignées sur le DPO, améliorant les scores MT-Bench de 7,27 à 8,31 et les taux de victoires contrôlés en longueur dans AlpacaEval-2 de 33,46% à 52,49%.
L'apprentissage par imitation s'est révélé être un outil puissant pour entraîner des politiques visuomotrices complexes. Cependant, les méthodes actuelles nécessitent souvent des centaines à des milliers de démonstrations d'experts pour gérer des observations visuelles de haute dimensionnalité. Une raison clé de cette faible efficacité des données est que les représentations visuelles sont principalement soit pré-entraînées sur des données hors domaine, soit entraînées directement via un objectif de clonage de comportement. Dans ce travail, nous présentons DynaMo, une nouvelle méthode auto-supervisée en domaine pour apprendre des représentations visuelles. En utilisant un ensemble de démonstrations d'experts, nous apprenons conjointement un modèle de dynamique inverse latente et un modèle de dynamique directe sur une séquence d'encodages d'images, en prédisant le prochain cadre dans l'espace latent, sans augmentations, échantillonnage contrastif, ou accès aux actions de vérité terrain. Importamment, DynaMo ne nécessite aucune donnée hors domaine telle que des ensembles de données Internet ou des ensembles de données inter-corporés. Sur une série de six environnements simulés et réels, nous montrons que les représentations apprises avec DynaMo améliorent significativement les performances d'apprentissage par imitation en aval par rapport aux objectifs d'apprentissage auto-supervisés antérieurs et aux représentations pré-entraînées. Les avantages de l'utilisation de DynaMo sont observés à travers différentes classes de politiques telles que le Transformateur de Comportement, la Politique de Diffusion, MLP et les plus proches voisins. Enfin, nous faisons des ablations sur les composants clés de DynaMo et mesurons leur impact sur les performances des politiques en aval. Les vidéos de robots sont mieux visualisées sur https://dynamo-ssl.github.io
La génération de données tabulaires synthétiques est cruciale en apprentissage automatique, surtout lorsque les données réelles sont limitées ou sensibles. Les modèles génératifs traditionnels sont souvent confrontés à des défis en raison des caractéristiques uniques des données tabulaires, telles que les types de données mixtes et les distributions variées, et nécessitent un prétraitement complexe ou de grands modèles pré-entraînés. Dans cet article, nous présentons une nouvelle méthode de transformation binaire sans perte qui convertit n'importe quelle donnée tabulaire en représentations binaires de taille fixe, ainsi qu'un nouveau modèle génératif correspondant appelé Diffusion Binaire, spécifiquement conçu pour les données binaires. Diffusion Binaire exploite la simplicité des opérations XOR pour l'ajout et la suppression de bruit, et utilise une perte binaire de cross-entropie pour l'entraînement. Notre approche élimine le besoin de prétraitement approfondi, d'un réglage complexe des paramètres de bruit et d'une préformation sur de grands ensembles de données. Nous évaluons notre modèle sur plusieurs ensembles de données tabulaires de référence populaires, démontrant que la Diffusion Binaire surpasse les modèles existants de pointe sur les ensembles de données Travel, Adult Income et Diabetes tout en étant significativement plus petit en taille.