Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage dotés de capacités visuelles (VLMs), tels que GPT-4o et Gemini 1.5 Pro, alimentent d'innombrables applications combinant texte et image et obtiennent des scores élevés sur de nombreux benchmarks de compréhension visuelle. Pourtant, nous constatons que les VLMs échouent sur 7 tâches visuelles absurdement simples pour les humains, telles que : (a) déterminer si deux cercles se chevauchent ; (b) vérifier si deux lignes se croisent ; (c) identifier quelle lettre est entourée dans un mot ; et (d) compter le nombre de cercles dans un logo de type olympique. La performance étonnamment faible de quatre VLMs de pointe suggère que leur vision est, au mieux, comparable à celle d'une personne myope percevant les détails fins comme flous, et au pire, à celle d'une personne intelligente mais aveugle faisant des suppositions éclairées. Le code est disponible à l'adresse : https://vlmsareblind.github.io/
Les données synthétiques prennent une importance croissante pour accélérer le développement des modèles de langage, qu'ils soient de grande ou de petite taille. Malgré plusieurs cas d'utilisation réussis, les chercheurs ont également soulevé des préoccupations concernant l'effondrement des modèles et les inconvénients de l'imitation d'autres modèles. Cette divergence peut être attribuée au fait que les données synthétiques varient en qualité et en diversité. Une utilisation efficace des données synthétiques nécessite généralement un effort humain important pour leur curation. Nous nous concentrons sur l'utilisation des données synthétiques pour le post-entraînement, en créant spécifiquement des données à l'aide de modèles puissants pour enseigner une nouvelle compétence ou un nouveau comportement à un autre modèle, une approche que nous appelons "Enseignement Génératif". Nous présentons AgentInstruct, un cadre agentique extensible pour créer automatiquement de grandes quantités de données synthétiques diversifiées et de haute qualité. AgentInstruct peut générer à la fois les prompts et les réponses, en utilisant uniquement des sources de données brutes comme des documents texte et des fichiers de code comme point de départ. Nous démontrons l'utilité d'AgentInstruct en créant un ensemble de données de post-entraînement de 25 millions de paires pour enseigner aux modèles de langage différentes compétences, telles que l'édition de texte, l'écriture créative, l'utilisation d'outils, le codage, la compréhension de lecture, etc. Cet ensemble de données peut être utilisé pour le réglage par instruction de tout modèle de base. Nous avons post-entraîné Mistral-7b avec ces données. En comparant le modèle résultant, Orca-3, à Mistral-7b-Instruct (qui utilise le même modèle de base), nous observons des améliorations significatives sur de nombreux benchmarks. Par exemple, une amélioration de 40 % sur AGIEval, de 19 % sur MMLU, de 54 % sur GSM8K, de 38 % sur BBH et de 45 % sur AlpacaEval. De plus, il surpasse systématiquement d'autres modèles tels que LLAMA-8B-instruct et GPT-3.5-turbo.
L'avancée rapide des grands modèles de langage (LLMs) a ouvert la voie au développement d'agents autonomes hautement performants. Cependant, les cadres multi-agents existants rencontrent souvent des difficultés pour intégrer des agents tiers diversifiés et compétents en raison de leur dépendance à des agents définis au sein de leurs propres écosystèmes. Ils sont également confrontés à des défis dans la simulation d'environnements distribués, car la plupart des cadres sont limités à des configurations sur un seul appareil. De plus, ces cadres reposent souvent sur des pipelines de communication prédéfinis, ce qui limite leur adaptabilité aux exigences dynamiques des tâches. Inspirés par le concept de l'Internet, nous proposons l'Internet des Agents (IoA), un cadre novateur qui surmonte ces limitations en offrant une plateforme flexible et évolutive pour la collaboration multi-agents basée sur les LLMs. IoA introduit un protocole d'intégration d'agents, une conception architecturale similaire à la messagerie instantanée, et des mécanismes dynamiques pour la formation d'équipes d'agents et le contrôle des flux de conversation. À travers des expériences approfondies sur des tâches d'assistance générale, des tâches d'IA incarnée et des benchmarks de génération augmentée par la recherche, nous démontrons qu'IoA surpasse systématiquement les références de pointe, mettant en évidence sa capacité à faciliter une collaboration efficace entre des agents hétérogènes. IoA représente une étape vers la connexion d'agents diversifiés dans un environnement semblable à l'Internet, où les agents peuvent collaborer de manière transparente pour atteindre une intelligence et des capacités accrues. Notre codebase a été publiée à l'adresse https://github.com/OpenBMB/IoA.
La performance des grands modèles de vision et langage (LVLMs) dépend de la taille et de la qualité de leurs ensembles de données d'entraînement. Les ensembles de données existants pour le réglage par instructions vidéo manquent de diversité, car ils sont générés en incitant des modèles de langage volumineux avec des légendes vidéo pour produire des paires question-réponse, et sont donc principalement descriptifs. Par ailleurs, de nombreux ensembles de données vidéo annotés avec des étiquettes et des supervisions variées existent - cependant, nous constatons que leur intégration dans les LVLMs n'est pas triviale. Nous présentons ici Video Self-Training with augmented Reasoning (Video-STaR), la première approche d'auto-apprentissage pour la vidéo. Video-STaR permet l'utilisation de tout ensemble de données vidéo annoté pour le réglage par instructions vidéo. Dans Video-STaR, un LVLM alterne entre la génération d'instructions et le réglage fin, ce qui, comme nous le montrons, (I) améliore la compréhension générale des vidéos et (II) adapte les LVLMs à de nouvelles tâches en aval avec la supervision existante. Pendant la génération, un LVLM est incité à proposer une réponse. Les réponses sont ensuite filtrées pour ne conserver que celles qui contiennent les étiquettes vidéo originales, et le LVLM est ensuite ré-entraîné sur l'ensemble de données généré. En n'entraînant que sur les réponses générées qui contiennent les étiquettes vidéo correctes, Video-STaR utilise ces étiquettes vidéo existantes comme une supervision faible pour le réglage par instructions vidéo. Nos résultats démontrent que les LVLMs améliorés par Video-STaR présentent une performance accrue dans (I) les questions-réponses générales sur les vidéos, où la performance de TempCompass s'est améliorée de 10%, et (II) sur les tâches en aval, où Video-STaR a amélioré la précision de Kinetics700-QA de 20% et l'évaluation de la qualité des actions sur FineDiving de 15%.
Nous présentons RodinHD, un modèle capable de générer des avatars 3D haute fidélité à partir d'une image portrait. Les méthodes existantes échouent à capturer des détails complexes tels que les coiffures, un défi que nous abordons dans cet article. Nous identifions d'abord un problème négligé d'oubli catastrophique qui survient lors de l'ajustement séquentiel de triplans sur de nombreux avatars, causé par le partage du décodeur MLP. Pour surmonter cette limitation, nous proposons une nouvelle stratégie de planification des données ainsi qu'un terme de régularisation par consolidation des poids, améliorant ainsi la capacité du décodeur à restituer des détails plus nets. Par ailleurs, nous optimisons l'effet de guidage de l'image portrait en calculant une représentation hiérarchique plus fine qui capture des indices texturaux 2D riches, et en les injectant dans le modèle de diffusion 3D à travers plusieurs couches via une attention croisée. Entraîné sur 46 000 avatars avec un plan de bruit optimisé pour les triplans, le modèle résultant peut générer des avatars 3D avec des détails nettement supérieurs aux méthodes précédentes et généraliser à des portraits en conditions réelles.
L'entraînement de grands modèles de langage (LLMs) pour des langues à ressources limitées comme l'hébreu présente des défis uniques. Dans cet article, nous présentons DictaLM2.0 et DictaLM2.0-Instruct, deux LLMs dérivés du modèle Mistral, entraînés sur un corpus substantiel d'environ 200 milliards de tokens en hébreu et en anglais. L'adaptation d'un modèle pré-entraîné à une nouvelle langue implique des techniques spécialisées qui diffèrent significativement de l'entraînement d'un modèle à partir de zéro ou de l'amélioration de modèles existants pour des langues bien dotées en ressources comme l'anglais. Nous décrivons ces nouvelles méthodologies d'entraînement, qui facilitent un apprentissage et une adaptation efficaces aux propriétés linguistiques de l'hébreu. De plus, nous avons affiné DictaLM2.0-Instruct sur un ensemble de données d'instructions complet pour améliorer ses performances sur des instructions spécifiques à des tâches. Pour évaluer rigoureusement nos modèles, nous introduisons une nouvelle suite de benchmarks pour l'évaluation des LLMs en hébreu, couvrant un ensemble diversifié de tâches incluant la réponse à des questions, l'analyse de sentiments, le défi de schéma Winograd, la traduction et la synthèse. Notre travail aborde non seulement les complexités de l'entraînement des LLMs pour des langues à ressources limitées, mais propose également un cadre qui peut être exploité pour adapter d'autres LLMs à diverses langues non anglaises, contribuant ainsi au domaine plus large du traitement automatique des langues multilingues.
Les vidéos de Sora, caractérisées par une intensité de mouvement élevée et une cohérence temporelle prolongée, ont eu un impact significatif sur le domaine de la génération vidéo, attirant une attention sans précédent. Cependant, les ensembles de données actuellement disponibles publiquement sont insuffisants pour produire des vidéos similaires à celles de Sora, car ils contiennent principalement des vidéos courtes avec une faible intensité de mouvement et des descriptions textuelles brèves. Pour résoudre ces problèmes, nous proposons MiraData, un ensemble de données vidéo de haute qualité qui surpasse les précédents en termes de durée des vidéos, de détail des descriptions, d'intensité de mouvement et de qualité visuelle. Nous avons constitué MiraData à partir de sources variées et soigneusement sélectionnées manuellement, et avons méticuleusement traité les données pour obtenir des clips sémantiquement cohérents. GPT-4V est utilisé pour annoter des descriptions structurées, fournissant des détails approfondis sous quatre perspectives différentes ainsi qu'une description dense résumée. Pour mieux évaluer la cohérence temporelle et l'intensité de mouvement dans la génération vidéo, nous introduisons MiraBench, qui améliore les benchmarks existants en ajoutant des métriques de cohérence 3D et d'intensité de mouvement basées sur le suivi. MiraBench comprend 150 prompts d'évaluation et 17 métriques couvrant la cohérence temporelle, l'intensité de mouvement, la cohérence 3D, la qualité visuelle, l'alignement texte-vidéo et la similarité de distribution. Pour démontrer l'utilité et l'efficacité de MiraData, nous menons des expériences en utilisant notre modèle de génération vidéo basé sur DiT, MiraDiT. Les résultats expérimentaux sur MiraBench montrent la supériorité de MiraData, en particulier en termes d'intensité de mouvement.
Nous présentons BM25S, une implémentation efficace de BM25 basée sur Python qui ne dépend que de Numpy et Scipy. BM25S atteint une accélération allant jusqu'à 500x par rapport au framework Python le plus populaire, en calculant de manière proactive les scores BM25 lors de l'indexation et en les stockant dans des matrices creuses. Il obtient également des accélérations significatives par rapport aux implémentations hautement optimisées basées sur Java, utilisées par des produits commerciaux populaires. Enfin, BM25S reproduit l'implémentation exacte de cinq variantes de BM25 basées sur Kamphuis et al. (2020) en étendant le calcul proactif des scores aux variantes non creuses grâce à une nouvelle méthode de décalage des scores. Le code est disponible à l'adresse suivante : https://github.com/xhluca/bm25s.
Lorsqu'on leur demande de résumer des articles ou de répondre à des questions à partir d'un passage, les grands modèles de langage (LLMs) peuvent inventer des détails et fournir des réponses non fondées qui sont inexactes par rapport au contexte fourni. Cet article décrit une approche simple pour détecter de telles hallucinations contextuelles. Nous émettons l'hypothèse que les hallucinations contextuelles sont liées à la mesure dans laquelle un LLM prête attention aux informations du contexte fourni par rapport à ses propres générations. Sur la base de cette intuition, nous proposons un modèle simple de détection des hallucinations dont les caractéristiques d'entrée sont données par le rapport des poids d'attention sur le contexte par rapport aux nouveaux tokens générés (pour chaque tête d'attention). Nous constatons qu'un classifieur linéaire basé sur ces caractéristiques de rapport de rétrospection est aussi efficace qu'un détecteur plus sophistiqué qui utilise l'ensemble des états cachés d'un LLM ou un modèle d'inférence textuelle. Le détecteur basé sur le rapport de rétrospection -- appelé Lookback Lens -- s'avère transférable entre les tâches et même entre les modèles, permettant à un détecteur entraîné sur un modèle de 7B d'être appliqué (sans réentraînement) à un modèle plus grand de 13B. Nous appliquons ensuite ce détecteur pour atténuer les hallucinations contextuelles, et constatons qu'une approche simple de décodage guidé par classifieur permet de réduire la quantité d'hallucinations, par exemple de 9,6 % dans la tâche de résumé XSum.
La démonstration de théorèmes mathématiques à l'aide de langages formels vérifiables par ordinateur comme Lean a un impact significatif sur le raisonnement mathématique. Une approche pour la démonstration formelle de théorèmes consiste à générer des preuves complètes en utilisant des modèles de langage de grande taille (LLMs) basés sur des preuves en langage naturel (NL). Des méthodes similaires ont montré des résultats prometteurs dans la génération de code. Cependant, la plupart des LLMs modernes présentent des performances sous-optimales en raison de la rareté des données alignées entre le NL et le langage formel (FL) pour la démonstration de théorèmes. Cette rareté entraîne un manque de méthodologies pour entraîner les LLMs et de techniques pour exploiter pleinement leurs capacités dans la composition de preuves formelles. Pour relever ces défis, cet article propose **TheoremLlama**, un cadre de bout en bout pour entraîner un LLM à usage général à devenir un expert en Lean4. Ce cadre englobe des méthodes de génération de jeux de données alignés NL-FL, des approches d'entraînement pour le démonstrateur de théorèmes formels basé sur LLM, et des techniques pour la rédaction de preuves Lean4 par LLM. En utilisant la méthode de génération de jeux de données, nous fournissons *Open Bootstrapped Theorems* (OBT), un jeu de données aligné NL-FL et bootstrapé. Une innovation clé de ce cadre est la méthode de bootstrap NL-FL, où les preuves NL sont intégrées dans le code Lean4 pour les jeux de données d'entraînement, exploitant ainsi la capacité de raisonnement NL des LLMs pour le raisonnement formel. Le cadre **TheoremLlama** atteint des précisions cumulatives de 36,48 % et 33,61 % sur les jeux de données MiniF2F-Valid et Test respectivement, surpassant les performances de référence de GPT-4 à 22,95 % et 25,41 %. Nous avons également rendu publics nos points de contrôle de modèle et le jeu de données généré, et nous rendrons bientôt tout le code disponible publiquement.
Les modèles pré-entraînés produisent des représentations génériques robustes qui peuvent être adaptées via un ajustement fin. La différence de poids apprise par rapport au modèle pré-entraîné, connue sous le nom de vecteur de tâche, caractérise la direction et l'amplitude de l'ajustement fin. L'importance des vecteurs de tâche est telle que des opérations arithmétiques simples sur eux peuvent être utilisées pour combiner des représentations variées provenant de différents domaines. Cet article s'appuie sur ces propriétés des vecteurs de tâche et vise à répondre à (1) si les composantes des vecteurs de tâche, en particulier les blocs de paramètres, présentent des caractéristiques similaires, et (2) comment de tels blocs peuvent être utilisés pour améliorer la composition et le transfert de connaissances. À cette fin, nous introduisons aTLAS, un algorithme qui combine linéairement des blocs de paramètres avec différents coefficients appris, résultant en une mise à l'échelle anisotrope au niveau du vecteur de tâche. Nous montrons que de telles combinaisons linéaires exploitent explicitement la faible dimensionnalité intrinsèque des modèles pré-entraînés, avec seulement quelques coefficients étant les paramètres apprenables. De plus, la composition des blocs de paramètres tire parti des représentations déjà apprises, réduisant ainsi la dépendance à de grandes quantités de données. Nous démontrons l'efficacité de notre méthode dans l'arithmétique des tâches, la reconnaissance en peu de coups et l'adaptation au moment du test, avec des objectifs supervisés ou non supervisés. En particulier, nous montrons que (1) la mise à l'échelle anisotrope apprise permet aux vecteurs de tâche d'être plus désenchevêtrés, causant moins d'interférence dans la composition ; (2) la composition des vecteurs de tâche excelle avec peu ou pas de données étiquetées et est moins sujette au décalage de domaine, conduisant ainsi à une meilleure généralisabilité ; (3) mélanger les blocs de paramètres les plus informatifs à travers différents vecteurs de tâche avant l'entraînement peut réduire l'empreinte mémoire et améliorer la flexibilité du transfert de connaissances. De plus, nous montrons le potentiel d'aTLAS en tant que méthode PEFT, en particulier avec moins de données, et démontrons sa scalabilité.
Les humains décrivent des scènes complexes avec une approche compositionnelle, utilisant des descriptions textuelles simples enrichies de liens et de relations. Bien que la recherche en vision-langage vise à développer des modèles dotés de capacités de compréhension compositionnelle, cela ne se reflète pas encore dans les jeux de données existants qui, pour la plupart, utilisent encore du texte brut pour décrire les images. Dans ce travail, nous proposons une nouvelle stratégie d'annotation, la légende basée sur des graphes (GBC), qui décrit une image en utilisant une structure de graphe étiquetée, avec des nœuds de différents types. Les nœuds dans GBC sont créés en utilisant, dans un premier temps, des outils de détection d'objets et de légendage dense imbriqués de manière récursive pour découvrir et décrire les nœuds d'entités, puis reliés ensemble dans un second temps en mettant en évidence, à l'aide de nouveaux types de nœuds, les compositions et les relations entre les entités. Comme tous les nœuds GBC contiennent des descriptions en texte brut, GBC conserve la flexibilité du langage naturel, mais peut également encoder des informations hiérarchiques dans ses arêtes. Nous démontrons que GBC peut être produit automatiquement, en utilisant des modèles LLM multimodaux prêts à l'emploi et des modèles de détection à vocabulaire ouvert, en construisant un nouveau jeu de données, GBC10M, rassemblant des annotations GBC pour environ 10 millions d'images du jeu de données CC12M. Nous utilisons GBC10M pour illustrer la richesse des légendes de nœuds découvertes par GBC, mesurée avec l'entraînement CLIP. Nous montrons que l'utilisation des annotations des nœuds GBC -- notamment celles stockées dans les nœuds de composition et de relation -- entraîne une amélioration significative des performances des modèles en aval par rapport à d'autres formats de jeux de données. Pour explorer davantage les opportunités offertes par GBC, nous proposons également un nouveau mécanisme d'attention qui peut exploiter l'intégralité du graphe GBC, avec des résultats expérimentaux encourageants qui montrent les avantages supplémentaires de l'incorporation de la structure de graphe. Nos jeux de données sont disponibles à l'adresse https://huggingface.co/graph-based-captions.
Les modèles de diffusion texte-vidéo existants reposent exclusivement sur des encodeurs textuels pour leur pré-entraînement. Cette limitation découle de l'absence de jeux de données vidéo à grande échelle avec invites multimodales, entraînant un manque d'ancrage visuel et restreignant leur polyvalence et leur application dans l'intégration multimodale. Pour remédier à cela, nous construisons un jeu de données d'invites multimodales à grande échelle en utilisant des méthodes de recherche pour associer des exemples contextuels aux invites textuelles données, puis nous utilisons une stratégie d'entraînement en deux étapes pour permettre diverses tâches de génération vidéo au sein du même modèle. Dans la première étape, nous proposons un cadre de génération vidéo conditionnelle multimodale pour le pré-entraînement sur ces jeux de données augmentés, établissant un modèle de base pour la génération vidéo ancrée. Ensuite, nous affinons le modèle de la première étape sur trois tâches de génération vidéo, en incorporant des instructions multimodales. Ce processus affine davantage la capacité du modèle à gérer des entrées et des tâches variées, assurant une intégration fluide des informations multimodales. Après ce processus d'entraînement en deux étapes, VIMI démontre des capacités de compréhension multimodale, produisant des vidéos contextuellement riches et personnalisées ancrées dans les entrées fournies, comme illustré dans la Figure 1. Par rapport aux méthodes précédentes de génération vidéo ancrée visuellement, VIMI peut synthétiser des vidéos cohérentes et temporellement cohérentes avec des mouvements importants tout en conservant le contrôle sémantique. Enfin, VIMI atteint également des résultats de pointe en génération texte-vidéo sur le benchmark UCF101.
Les grands modèles de langage (LLMs) manifestent souvent des comportements indésirables, tels que des hallucinations et des répétitions de séquences. Nous proposons de considérer ces comportements comme des mécanismes de repli que les modèles adoptent face à l'incertitude, et d'étudier les liens entre eux. Nous catégorisons les comportements de repli — répétitions de séquences, textes dégénérés et hallucinations — et les analysons de manière approfondie dans des modèles d'une même famille qui diffèrent par le nombre de tokens de pré-entraînement, la quantité de paramètres ou l'inclusion d'un entraînement à l'obéissance d'instructions. Nos expériences révèlent un ordre clair et cohérent des comportements de repli, quelle que soit l'axe considéré : plus un LLM est avancé (c'est-à-dire entraîné sur plus de tokens, doté de plus de paramètres ou ajusté pour suivre des instructions), plus son comportement de repli évolue des répétitions de séquences vers des textes dégénérés, puis vers des hallucinations. De plus, le même ordre est observé tout au long d'une seule génération, même pour les modèles les plus performants ; à mesure que l'incertitude augmente, les modèles passent de la génération d'hallucinations à la production de textes dégénérés, puis à des répétitions de séquences. Enfin, nous montrons que si les techniques de décodage courantes, comme l'échantillonnage aléatoire, peuvent atténuer certains comportements indésirables comme les répétitions de séquences, elles augmentent les hallucinations, plus difficiles à détecter.
Les grands modèles de langage (LLM) sont récemment devenus la principale source de réponses aux questions des utilisateurs en ligne. Malgré leur capacité à fournir des réponses éloquentes, leur précision et leur fiabilité peuvent poser un défi significatif. Cela est particulièrement vrai dans des domaines sensibles comme la biomédecine, où le besoin de réponses factuellement correctes est plus élevé. Cet article présente un système de génération augmentée par récupération (RAG) biomédical conçu pour améliorer la fiabilité des réponses générées. Le système repose sur un LLM affiné pour le question-réponse référencé, où les résumés pertinents récupérés de PubMed sont transmis au contexte du LLM via une invite. Sa sortie est une réponse basée sur les résumés de PubMed, où chaque déclaration est référencée en conséquence, permettant aux utilisateurs de vérifier la réponse. Notre système de récupération obtient une amélioration absolue de 23 % par rapport au moteur de recherche PubMed. Sur la base de l'évaluation manuelle d'un petit échantillon, notre composant LLM affiné obtient des résultats comparables à GPT-4 Turbo en matière de référencement des résumés pertinents. Nous rendons publics le jeu de données utilisé pour affiner les modèles ainsi que les modèles affinés basés sur Mistral-7B-instruct-v0.1 et v0.2.
Les récents progrès en modélisation du langage ont montré des résultats prometteurs lorsqu'ils sont appliqués aux données de séries temporelles. En particulier, le fine-tuning de grands modèles de langage pré-entraînés (LLMs) pour des tâches de classification de séries temporelles a atteint des performances de pointe (SOTA) sur des benchmarks standard. Cependant, ces modèles basés sur des LLMs présentent un inconvénient majeur dû à leur taille importante, avec un nombre de paramètres entraînables se comptant en millions. Dans cet article, nous proposons une approche alternative pour exploiter le succès de la modélisation du langage dans le domaine des séries temporelles. Au lieu de procéder au fine-tuning des LLMs, nous utilisons un modèle d'embedding de langage pour encoder les séries temporelles, puis nous associons ces embeddings à une tête de classification simple composée de réseaux de neurones convolutifs (CNN) et de perceptrons multicouches (MLP). Nous avons mené des expériences approfondies sur des ensembles de données de référence bien établis pour la classification de séries temporelles. Nous avons démontré que LETS-C non seulement surpasse l'état de l'art actuel en termes de précision de classification, mais offre également une solution légère, utilisant en moyenne seulement 14,5 % des paramètres entraînables par rapport au modèle SOTA. Nos résultats suggèrent que l'utilisation d'encodeurs de langage pour encoder les données de séries temporelles, combinée à une tête de classification simple mais efficace, ouvre une voie prometteuse pour atteindre des performances élevées en classification de séries temporelles tout en maintenant une architecture de modèle légère.