Articles de recherche en IA sélectionnés quotidiennement avec traductions
Pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), les recherches antérieures se concentrent principalement sur des techniques d'incitation spécifiques telles que l'incitation en chaîne de pensée (CoT) en few-shot ou zero-shot. Bien que ces méthodes soient efficaces, elles impliquent souvent une ingénierie d'incitation manuellement intensive. Notre étude adopte une approche novatrice en posant la question suivante : Les LLMs peuvent-ils raisonner efficacement sans incitation ? Nos résultats révèlent, de manière intrigante, que les chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés simplement en modifiant le processus de décodage. Plutôt que d'utiliser le décodage glouton conventionnel, nous examinons les k meilleurs tokens alternatifs, découvrant que les chemins CoT sont fréquemment inhérents à ces séquences. Cette approche permet non seulement de contourner les biais liés à l'incitation, mais aussi d'évaluer les capacités de raisonnement intrinsèques des LLMs. De plus, nous observons que la présence d'un CoT dans le chemin de décodage est corrélée à une confiance accrue dans la réponse décodée par le modèle. Cette métrique de confiance permet de différencier efficacement les chemins CoT des chemins non-CoT. Des études empiriques approfondies sur divers benchmarks de raisonnement montrent que le décodage CoT proposé surpasse substantiellement le décodage glouton standard.
Tous les problèmes linguistiques basés sur le texte peuvent être réduits soit à la génération, soit à l'incorporation (embedding). Les modèles actuels ne performent bien que dans l'un ou l'autre de ces domaines. Nous introduisons le réglage d'instructions de représentation générative (Generative Representational Instruction Tuning, GRIT), où un grand modèle de langage est entraîné à gérer à la fois les tâches de génération et d'incorporation en les distinguant via des instructions. Comparé à d'autres modèles ouverts, notre modèle résultant, GritLM 7B, établit un nouvel état de l'art sur le Massive Text Embedding Benchmark (MTEB) et surpasse tous les modèles de sa taille sur une série de tâches génératives. En augmentant encore l'échelle, GritLM 8x7B surpasse tous les modèles de langage génératifs ouverts que nous avons testés tout en restant parmi les meilleurs modèles d'incorporation. Notamment, nous constatons que GRIT correspond à un entraînement sur des données uniquement génératives ou d'incorporation, permettant ainsi d'unifier les deux sans perte de performance. Parmi les autres avantages, l'unification via GRIT accélère la Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) de plus de 60 % pour les documents longs, en ne nécessitant plus de modèles distincts pour la récupération et la génération. Les modèles, le code, etc. sont librement disponibles à l'adresse https://github.com/ContextualAI/gritlm.
L'entraînement des grands modèles de langage (LLMs) est coûteux. Dans cet article, nous étudions des approches efficaces en termes de données pour le pré-entraînement des LLMs, c'est-à-dire des techniques visant à optimiser la frontière de Pareto entre la qualité du modèle et la consommation de ressources/données d'entraînement. Nous cherchons à comprendre les compromis associés aux routines de sélection de données basées sur (i) des estimations coûteuses à calculer de la qualité des données, et (ii) la maximisation de mesures de couverture et de diversité dans l'espace des caractéristiques. Notre première technique, Ask-LLM, exploite les capacités de raisonnement en zero-shot des LLMs ajustés par instruction pour évaluer directement la qualité d'un exemple d'entraînement. Pour cibler la couverture, nous proposons l'échantillonnage par densité (Density), qui modélise la distribution des données pour sélectionner un échantillon diversifié. Dans notre comparaison de 19 méthodes d'échantillonnage, impliquant des centaines de tâches d'évaluation et de runs de pré-entraînement, nous constatons qu'Ask-LLM et Density sont les meilleures méthodes dans leurs catégories respectives. L'échantillonnage par couverture peut retrouver les performances des données complètes, tandis que les modèles entraînés sur les données d'Ask-LLM surpassent systématiquement l'entraînement sur l'ensemble des données — même lorsque nous rejetons 90 % du jeu de données original, tout en convergeant jusqu'à 70 % plus rapidement.
Les modèles de langage de grande taille (LLM) actuels ne sont pas seulement limités par une longueur de contexte maximale, mais ils sont également incapables de traiter de manière robuste des entrées longues. Pour surmonter ces limitations, nous proposons ReadAgent, un système d’agent LLM qui augmente la longueur de contexte effective jusqu’à 20 fois dans nos expériences. Inspiré par la manière dont les humains lisent interactivement des documents longs, nous implémentons ReadAgent comme un système d’invite simple qui utilise les capacités linguistiques avancées des LLM pour (1) décider quels contenus stocker ensemble dans un épisode de mémoire, (2) compresser ces épisodes de mémoire en souvenirs épisodiques courts appelés souvenirs essentiels (gist memories), et (3) prendre des actions pour rechercher des passages dans le texte original si ReadAgent a besoin de se rappeler des détails pertinents pour accomplir une tâche. Nous évaluons ReadAgent par rapport à des méthodes de référence utilisant des techniques de récupération, les contextes longs originaux et les souvenirs essentiels. Ces évaluations sont réalisées sur trois tâches de compréhension de lecture de documents longs : QuALITY, NarrativeQA et QMSum. ReadAgent surpasse les méthodes de référence sur les trois tâches tout en étendant la fenêtre de contexte effective de 3 à 20 fois.
Les travaux récents ont démontré le potentiel immense des ensembles de données générés de manière synthétique pour l'entraînement de grands modèles de langage (LLMs), en particulier pour l'acquisition de compétences ciblées. Les ensembles de données actuels à grande échelle pour le réglage d'instructions mathématiques, tels que MetaMathQA (Yu et al., 2024) et MAmmoTH (Yue et al., 2024), sont construits à partir des sorties de LLMs propriétaires soumis à des licences commerciales restrictives. Une raison majeure limitant l'utilisation de LLMs open-source dans ces pipelines de génération de données est l'écart important entre les compétences mathématiques des meilleurs LLMs propriétaires, comme GPT-4, et celles des meilleurs LLMs open-source. En nous appuyant sur les progrès récents des LLMs open-source, notre nouveauté en matière de prompts, et un certain scaling par force brute, nous avons construit OpenMathInstruct-1, un ensemble de données pour le réglage d'instructions mathématiques contenant 1,8 million de paires problème-solution. Cet ensemble de données est construit en synthétisant des solutions basées sur un interpréteur de code pour GSM8K et MATH, deux benchmarks populaires en raisonnement mathématique, en utilisant le modèle Mixtral récemment publié et sous licence permissive. Notre meilleur modèle, OpenMath-CodeLlama-70B, entraîné sur un sous-ensemble d'OpenMathInstruct-1, atteint un score de 84,6 % sur GSM8K et de 50,7 % sur MATH, ce qui est compétitif avec les meilleurs modèles distillés de GPT. Nous publions notre code, nos modèles et l'ensemble de données OpenMathInstruct-1 sous une licence commerciale permissive.
Le fine-tuning des modèles de diffusion reste une frontière peu explorée dans l'intelligence artificielle générative (GenAI), surtout en comparaison avec les progrès remarquables réalisés dans le fine-tuning des grands modèles de langage (LLMs). Bien que les modèles de diffusion de pointe tels que Stable Diffusion (SD) et SDXL reposent sur un fine-tuning supervisé, leurs performances atteignent inévitablement un plateau après avoir été exposés à un certain volume de données. Récemment, l'apprentissage par renforcement (RL) a été utilisé pour affiner ces modèles avec des données de préférences humaines, mais cela nécessite au moins deux images (une "gagnante" et une "perdante") pour chaque prompt texte. Dans cet article, nous introduisons une technique innovante appelée fine-tuning par auto-confrontation pour les modèles de diffusion (SPIN-Diffusion), où le modèle de diffusion entre en compétition avec ses versions antérieures, facilitant ainsi un processus d'amélioration itérative. Notre approche offre une alternative aux stratégies traditionnelles de fine-tuning supervisé et par RL, améliorant significativement à la fois les performances du modèle et son alignement. Nos expériences sur le jeu de données Pick-a-Pic révèlent que SPIN-Diffusion surpasse la méthode de fine-tuning supervisé existante en termes d'alignement avec les préférences humaines et d'attrait visuel dès sa première itération. Dès la deuxième itération, il dépasse les performances des méthodes basées sur RLHF sur tous les indicateurs, atteignant ces résultats avec moins de données.
Nous étudions la méthode de pré-entraînement continu pour étendre la longueur de contexte des modèles de langage à 128K, en nous concentrant sur l'ingénierie des données. Nous émettons l'hypothèse que la modélisation de contextes longs, en particulier la capacité à utiliser des informations à des emplacements arbitraires de l'entrée, est une compétence principalement acquise lors d'un pré-entraînement à grande échelle, et que cette compétence peut être facilement étendue à des contextes nettement plus longs que ceux rencontrés pendant l'entraînement (par exemple, de 4K à 128K) grâce à un pré-entraînement continu léger sur un mélange de données approprié. Nous examinons la quantité et la qualité des données pour le pré-entraînement continu : (1) en termes de quantité, nous montrons que 500 millions à 5 milliards de tokens suffisent pour permettre au modèle de récupérer des informations n'importe où dans le contexte de 128K ; (2) en termes de qualité, nos résultats mettent également l'accent sur l'équilibre des domaines et le suréchantillonnage de la longueur. Concrètement, nous constatons que le suréchantillonnage naïf de données plus longues dans certains domaines comme les livres, une pratique courante des travaux existants, donne des performances sous-optimales, et qu'un mélange équilibré de domaines est important. Nous démontrons que le pré-entraînement continu du modèle complet sur 1 à 5 milliards de tokens de telles données est une stratégie efficace et abordable pour étendre la longueur de contexte des modèles de langage à 128K. Notre méthode surpasse les modèles open-source à contexte long performants et réduit l'écart avec les modèles de pointe comme GPT-4 128K.
Les modèles de langage de grande taille (LLMs) sont généralement entraînés en deux phases : un pré-entraînement sur des ensembles de données massives à l'échelle d'Internet, puis un ajustement fin pour des tâches spécifiques. Étant donné la demande computationnelle plus élevée du pré-entraînement, il est intuitif de supposer que l'ajustement fin ajoute moins de nouvelles informations au modèle, et est donc plus compressible. Nous explorons cette hypothèse en décomposant les poids des modèles ajustés finement en leurs composants pré-entraînés et un delta supplémentaire. Nous introduisons une méthode simple, BitDelta, qui quantifie avec succès ce delta jusqu'à 1 bit sans compromettre les performances. Cette découverte intéressante met non seulement en évidence la redondance potentielle des informations ajoutées lors de l'ajustement fin, mais a également des implications significatives pour le service multi-locataire et le stockage multi-locataire des modèles ajustés finement. En permettant l'utilisation d'un seul modèle de base de haute précision accompagné de plusieurs deltas de 1 bit, BitDelta réduit considérablement les besoins en mémoire GPU de plus de 10 fois, ce qui peut également se traduire par une latence de génération améliorée dans des configurations multi-locataires. Nous validons BitDelta à travers des expériences sur les familles de modèles Llama-2 et Mistral, et sur des modèles allant jusqu'à 70 milliards de paramètres, démontrant une dégradation minimale des performances dans tous les contextes testés.
L'édition de signaux à l'aide de grands modèles pré-entraînés, de manière zero-shot, a récemment connu des avancées rapides dans le domaine de l'image. Cependant, cette vague n'a pas encore atteint le domaine audio. Dans cet article, nous explorons deux techniques d'édition zero-shot pour les signaux audio, qui utilisent l'inversion DDPM sur des modèles de diffusion pré-entraînés. La première, adaptée du domaine de l'image, permet une édition basée sur le texte. La seconde est une approche novatrice pour découvrir des directions d'édition sémantiquement significatives sans supervision. Appliquée aux signaux musicaux, cette méthode révèle une gamme de modifications musicalement intéressantes, allant du contrôle de la participation d'instruments spécifiques à des improvisations sur la mélodie. Des échantillons peuvent être trouvés sur notre page d'exemples à l'adresse https://hilamanor.github.io/AudioEditing/ et le code est disponible à l'adresse https://github.com/hilamanor/AudioEditing/.
Les avancées dans le domaine du *3D Gaussian Splatting* ont considérablement accéléré la reconstruction et la génération 3D. Cependant, cette méthode peut nécessiter un grand nombre de Gaussiennes, ce qui engendre une empreinte mémoire importante. Cet article présente le GES (*Generalized Exponential Splatting*), une nouvelle représentation qui utilise la *Generalized Exponential Function* (GEF) pour modéliser des scènes 3D, nécessitant bien moins de particules pour représenter une scène et surpassant ainsi significativement les méthodes de *Gaussian Splatting* en termes d'efficacité, tout en offrant une capacité de remplacement *plug-and-play* pour les utilitaires basés sur les Gaussiennes. Le GES est validé théoriquement et empiriquement, à la fois dans un cadre 1D structuré et dans des scènes 3D réalistes. Il est démontré que le GES représente plus précisément les signaux aux contours nets, qui sont généralement difficiles à modéliser avec des Gaussiennes en raison de leurs caractéristiques inhérentes de filtrage passe-bas. Notre analyse empirique montre que la GEF surpasse les Gaussiennes dans l'ajustement des signaux naturels (par exemple, des carrés, des triangles et des signaux paraboliques), réduisant ainsi le besoin d'opérations de division étendues qui augmentent l'empreinte mémoire du *Gaussian Splatting*. Grâce à une fonction de perte modulée en fréquence, le GES atteint des performances compétitives dans les benchmarks de synthèse de nouvelles vues, tout en nécessitant moins de la moitié de la mémoire de stockage du *Gaussian Splatting* et en augmentant la vitesse de rendu jusqu'à 39 %. Le code est disponible sur le site du projet : https://abdullahamdi.com/ges.
L'objectif de la personnalisation texte-image (T2I) est d'adapter un modèle de diffusion à un concept de référence fourni par l'utilisateur, en générant des images variées du concept alignées avec les prompts cibles. Les méthodes conventionnelles, qui représentent les concepts de référence à l'aide d'embeddings textuels uniques, échouent souvent à reproduire fidèlement l'apparence de la référence. Pour remédier à cela, une solution consiste à conditionner explicitement les images de référence dans le processus de débruitage cible, une approche connue sous le nom de remplacement clé-valeur. Cependant, les travaux précédents se limitent à des modifications locales car ils perturbent le chemin structurel du modèle T2I pré-entraîné. Pour surmonter cette limitation, nous proposons une nouvelle méthode plug-in, appelée DreamMatcher, qui reformule la personnalisation T2I en tant que correspondance sémantique. Concrètement, DreamMatcher remplace les valeurs cibles par des valeurs de référence alignées via une correspondance sémantique, tout en laissant le chemin structurel inchangé afin de préserver la capacité polyvalente des modèles T2I pré-entraînés à générer des structures variées. Nous introduisons également une stratégie de masquage sémantiquement cohérente pour isoler le concept personnalisé des régions non pertinentes introduites par les prompts cibles. Compatible avec les modèles T2I existants, DreamMatcher montre des améliorations significatives dans des scénarios complexes. Des analyses approfondies démontrent l'efficacité de notre approche.
Le raisonnement à partir de séquences de données sensorielles brutes est un problème omniprésent dans des domaines allant des dispositifs médicaux à la robotique. Ces problèmes impliquent souvent l'utilisation de longues séquences de données brutes provenant de capteurs (par exemple, magnétomètres, piézorésistances) pour prédire des séquences de grandeurs physiques souhaitables (par exemple, force, mesures inertielles). Bien que les approches classiques soient puissantes pour les problèmes de prédiction localement linéaires, elles échouent souvent avec les capteurs du monde réel. Ces capteurs sont généralement non linéaires, influencés par des variables extérieures (par exemple, les vibrations) et présentent une dérive dépendante des données. Pour de nombreux problèmes, la tâche de prédiction est exacerbée par des ensembles de données étiquetés de petite taille, car l'obtention de labels de référence nécessite un équipement coûteux. Dans ce travail, nous présentons les modèles hiérarchiques à espace d'états (HiSS), une nouvelle technique conceptuellement simple pour la prédiction séquentielle continue. HiSS empile des modèles à espace d'états structurés les uns sur les autres pour créer une hiérarchie temporelle. Sur six ensembles de données de capteurs réels, allant de la prédiction d'état basée sur le tactile aux mesures inertielles basées sur l'accéléromètre, HiSS surpasse les modèles de séquence de pointe tels que les Transformers causaux, les LSTMs, S4 et Mamba d'au moins 23 % en termes d'erreur quadratique moyenne (MSE). Nos expériences indiquent en outre que HiSS montre une mise à l'échelle efficace pour les petits ensembles de données et est compatible avec les techniques de filtrage de données existantes. Le code, les ensembles de données et les vidéos sont disponibles sur https://hiss-csp.github.io.
Les modèles de diffusion ont récemment été de plus en plus appliqués aux données temporelles telles que la vidéo, les simulations de mécanique des fluides ou les données climatiques. Ces méthodes traitent généralement les images successives de manière égale en ce qui concerne la quantité de bruit dans le processus de diffusion. Cet article explore la **Diffusion Glissante** : une nouvelle approche qui utilise un processus de débruitage par fenêtre glissante. Elle garantit que le processus de diffusion corrompt progressivement les données dans le temps en attribuant plus de bruit aux images qui apparaissent plus tard dans une séquence, reflétant ainsi une incertitude croissante concernant l'avenir au fur et à mesure que le processus de génération se déroule. Empiriquement, nous montrons que lorsque les dynamiques temporelles sont complexes, la Diffusion Glissante est supérieure à la diffusion standard. Ce résultat est notamment démontré dans une tâche de prédiction vidéo utilisant le jeu de données vidéo Kinetics-600 et dans une expérience de prévision de dynamique des fluides chaotique.