Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les informations proviennent de diverses modalités. Les modèles IA multimodaux natifs sont essentiels pour intégrer des informations du monde réel et fournir une compréhension globale. Bien que des modèles multimodaux natifs propriétaires existent, leur manque d'ouverture pose des obstacles à leur adoption, sans parler de leur adaptation. Pour combler ce vide, nous présentons Aria, un modèle natif multimodal ouvert offrant des performances de premier ordre sur une large gamme de tâches multimodales, linguistiques et de codage. Aria est un modèle de mélange d'experts avec 3,9 milliards et 3,5 milliards de paramètres activés par jeton visuel et jeton textuel, respectivement. Il surpasse Pixtral-12B et Llama3.2-11B, et est compétitif face aux meilleurs modèles propriétaires sur diverses tâches multimodales. Nous pré-entraînons Aria à partir de zéro en suivant un pipeline en 4 étapes, qui dote progressivement le modèle de solides capacités en compréhension du langage, compréhension multimodale, fenêtre de contexte longue et suivi des instructions. Nous mettons en open source les poids du modèle ainsi qu'une base de code facilitant l'adoption et l'adaptation aisées d'Aria dans des applications du monde réel.
Les grands modèles de langage (LLM) montrent un potentiel significatif dans les interactions économiques et stratégiques, où la communication via le langage naturel est souvent prédominante. Cela soulève des questions clés : Les LLM se comportent-ils de manière rationnelle ? Peuvent-ils imiter le comportement humain ? Tendent-ils vers un résultat efficace et équitable ? Quel est le rôle du langage naturel dans l'interaction stratégique ? Comment les caractéristiques de l'environnement économique influencent-elles ces dynamiques ? Ces questions deviennent cruciales en ce qui concerne les implications économiques et sociétales de l'intégration d'agents basés sur des LLM dans des systèmes réels pilotés par les données, tels que des plateformes de vente en ligne et des systèmes de recommandation. Alors que la communauté de l'apprentissage automatique explore le potentiel des LLM dans de tels environnements multi-agents, des hypothèses variables, des choix de conception et des critères d'évaluation à travers les études rendent difficile l'obtention de conclusions robustes et significatives. Pour remédier à cela, nous introduisons un banc d'essai pour standardiser la recherche sur les jeux basés sur le langage à deux joueurs et séquentiels. Inspirés par la littérature économique, nous définissons trois familles de jeux de base avec une paramétrisation cohérente, des degrés de liberté et des mesures économiques pour évaluer la performance des agents (gain personnel), ainsi que le résultat du jeu (efficacité et équité). Nous développons un cadre open-source pour la simulation et l'analyse des interactions, et l'utilisons pour collecter un ensemble de données d'interactions LLM contre LLM à travers de nombreuses configurations de jeu et un ensemble de données supplémentaire d'interactions humain contre LLM. À travers une expérimentation approfondie, nous démontrons comment notre cadre et notre ensemble de données peuvent être utilisés pour : (i) comparer le comportement des agents basés sur des LLM à celui des joueurs humains dans divers contextes économiques ; (ii) évaluer les agents selon des mesures de performance individuelles et collectives ; et (iii) quantifier l'effet des caractéristiques économiques des environnements sur le comportement des agents.
Les récentes avancées dans les grands modèles de langage multimodaux (MLLM) ont démontré des progrès significatifs ; cependant, ces modèles présentent une limitation notable que nous appelons "aveuglement aux visages". Plus précisément, ils peuvent participer à des conversations générales mais échouent à mener des dialogues personnalisés ciblant des individus spécifiques. Cette lacune entrave l'application des MLLMs dans des contextes personnalisés, tels que des assistants visuels adaptés sur des appareils mobiles ou des robots domestiques devant reconnaître les membres de la famille. Dans cet article, nous présentons Personalized Visual Instruction Tuning (PVIT), un nouveau cadre de curation de données et d'entraînement conçu pour permettre aux MLLMs d'identifier des individus cibles dans une image et de participer à des dialogues personnalisés et cohérents. Notre approche implique le développement d'un pipeline sophistiqué qui génère de manière autonome des données d'entraînement contenant des conversations personnalisées. Ce pipeline tire parti des capacités de divers experts visuels, de modèles de génération d'images et de grands modèles de langage (multimodaux). Pour évaluer le potentiel personnalisé des MLLMs, nous présentons une référence appelée P-Bench, qui englobe divers types de questions avec différents niveaux de difficulté. Les expériences démontrent une amélioration substantielle des performances personnalisées après un ajustement fin avec notre ensemble de données élaboré.
Nous présentons Pixtral-12B, un modèle de langage multimodal de 12 milliards de paramètres. Pixtral-12B est entraîné pour comprendre à la fois les images naturelles et les documents, atteignant des performances de premier plan sur divers benchmarks multimodaux, dépassant un certain nombre de modèles plus grands. Contrairement à de nombreux modèles open source, Pixtral est également un modèle de texte de pointe pour sa taille, et ne compromet pas les performances en langage naturel pour exceller dans les tâches multimodales. Pixtral utilise un nouvel encodeur vision entraîné à partir de zéro, ce qui lui permet d'ingérer des images à leur résolution et ratio d'aspect naturels. Cela donne aux utilisateurs une flexibilité sur le nombre de jetons utilisés pour traiter une image. Pixtral est également capable de traiter n'importe quel nombre d'images dans sa fenêtre de contexte longue de 128 000 jetons. Pixtral 12B surpasse considérablement d'autres modèles ouverts de tailles similaires (Llama-3.2 11B \& Qwen-2-VL 7B). Il surpasse également des modèles ouverts beaucoup plus grands comme Llama-3.2 90B tout en étant 7 fois plus petit. Nous contribuons en outre à un benchmark open source, MM-MT-Bench, pour évaluer les modèles vision-langage dans des scénarios pratiques, et fournissons une analyse détaillée et du code pour des protocoles d'évaluation normalisés pour les LLMs multimodaux. Pixtral-12B est publié sous licence Apache 2.0.
Cet article présente F5-TTS, un système entièrement non-autorégressif de synthèse vocale basé sur la correspondance de flux avec le Transformateur de Diffusion (DiT). Sans nécessiter de conceptions complexes telles qu'un modèle de durée, un codeur de texte et un alignement de phonèmes, l'entrée de texte est simplement complétée avec des jetons de remplissage pour atteindre la même longueur que l'entrée vocale, puis le débruitage est effectué pour la génération de la parole, ce qui a été initialement prouvé réalisable par E2 TTS. Cependant, la conception originale de E2 TTS rend difficile à suivre en raison de sa convergence lente et de sa faible robustesse. Pour résoudre ces problèmes, nous modélisons d'abord l'entrée avec ConvNeXt pour affiner la représentation du texte, facilitant ainsi son alignement avec la parole. Nous proposons en outre une stratégie d'échantillonnage Sway au moment de l'inférence, qui améliore significativement les performances et l'efficacité de notre modèle. Cette stratégie d'échantillonnage pour l'étape de flux peut être facilement appliquée aux modèles existants basés sur la correspondance de flux sans nécessiter de nouvelle formation. Notre conception permet une formation plus rapide et atteint un RTF d'inférence de 0,15, ce qui est nettement amélioré par rapport aux modèles de synthèse vocale basés sur la diffusion de pointe. Entraîné sur un ensemble de données multilingue public de 100 000 heures, notre système Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) présente une capacité naturelle et expressive hors pair, une capacité de changement de code fluide et une efficacité de contrôle de vitesse. Des échantillons de démonstration sont disponibles sur https://SWivid.github.io/F5-TTS. Nous publions l'ensemble du code et des points de contrôle pour promouvoir le développement communautaire.
Les modèles de texte-à-vidéo (T2V) tels que Sora ont réalisé des avancées significatives dans la visualisation de consignes complexes, ce qui est de plus en plus considéré comme une voie prometteuse vers la construction du simulateur universel du monde. Les psychologues cognitifs estiment que la base pour atteindre cet objectif est la capacité à comprendre la physique intuitive. Cependant, la capacité de ces modèles à représenter avec précision la physique intuitive reste largement inexplorée. Pour combler cette lacune, nous introduisons PhyGenBench, un banc d'essai complet de génération de physique conçu pour évaluer la justesse du bon sens physique dans la génération T2V. PhyGenBench comprend 160 consignes soigneusement élaborées couvrant 27 lois physiques distinctes, s'étendant sur quatre domaines fondamentaux, ce qui pourrait évaluer de manière exhaustive la compréhension du bon sens physique par les modèles. En parallèle à PhyGenBench, nous proposons un nouveau cadre d'évaluation appelé PhyGenEval. Ce cadre utilise une structure d'évaluation hiérarchique en utilisant des modèles vision-langage avancés appropriés et de grands modèles de langage pour évaluer le bon sens physique. Grâce à PhyGenBench et PhyGenEval, nous pouvons réaliser des évaluations automatisées à grande échelle de la compréhension du bon sens physique par les modèles T2V, qui sont étroitement alignées sur les retours humains. Nos résultats d'évaluation et notre analyse approfondie démontrent que les modèles actuels ont du mal à générer des vidéos conformes au bon sens physique. De plus, simplement augmenter la taille des modèles ou utiliser des techniques d'ingénierie de consignes est insuffisant pour relever pleinement les défis posés par PhyGenBench (par exemple, les scénarios dynamiques). Nous espérons que cette étude inspirera la communauté à donner la priorité à l'apprentissage du bon sens physique dans ces modèles au-delà des applications de divertissement. Nous publierons les données et les codes sur https://github.com/OpenGVLab/PhyGenBench.
Des modèles de diffusion avancés tels que RPG, Stable Diffusion 3 et FLUX ont réalisé des avancées notables dans la génération de texte vers image compositionnelle. Cependant, ces méthodes présentent généralement des forces distinctes pour la génération compositionnelle, certaines excellant dans la gestion de la liaison d'attributs et d'autres dans les relations spatiales. Cette disparité souligne la nécessité d'une approche capable de tirer parti des forces complémentaires de différents modèles pour améliorer de manière exhaustive la capacité de composition. À cette fin, nous introduisons IterComp, un nouveau cadre qui agrège les préférences des modèles conscients de la composition de plusieurs modèles et utilise une approche d'apprentissage par rétroaction itérative pour améliorer la génération compositionnelle. Plus précisément, nous constituons une galerie de six puissants modèles de diffusion open-source et évaluons leurs trois principales mesures compositionnelles : la liaison d'attributs, les relations spatiales et les relations non spatiales. Sur la base de ces mesures, nous développons un ensemble de données de préférences de modèles conscients de la composition comprenant de nombreux paires image-classement pour entraîner des modèles de récompense conscients de la composition. Ensuite, nous proposons une méthode d'apprentissage par rétroaction itérative pour améliorer la composition de manière bouclée, permettant l'auto-affinement progressif à la fois du modèle de diffusion de base et des modèles de récompense sur plusieurs itérations. Une preuve théorique démontre l'efficacité et des expériences approfondies montrent notre nette supériorité par rapport aux méthodes SOTA précédentes (par exemple, Omost et FLUX), en particulier dans la composition d'objets multi-catégories et l'alignement sémantique complexe. IterComp ouvre de nouvelles voies de recherche dans l'apprentissage par rétroaction de récompense pour les modèles de diffusion et la génération compositionnelle. Code : https://github.com/YangLing0818/IterComp
La génération de vidéos nécessite de modéliser un vaste espace spatiotemporel, ce qui demande des ressources informatiques et une utilisation de données significatives. Pour réduire la complexité, les approches prédominantes utilisent une architecture en cascade pour éviter l'entraînement direct avec une résolution complète. Malgré la réduction des exigences en termes de calcul, l'optimisation séparée de chaque sous-étape entrave le partage des connaissances et sacrifie la flexibilité. Ce travail présente un algorithme unifié de correspondance de flux pyramidal. Il réinterprète la trajectoire de débruitage d'origine comme une série d'étapes pyramidales, où seule la dernière étape fonctionne à pleine résolution, permettant ainsi une modélisation générative de vidéos plus efficace. Grâce à notre conception sophistiquée, les flux des différentes étapes pyramidales peuvent être interconnectés pour maintenir la continuité. De plus, nous élaborons une génération de vidéos autorégressive avec une pyramide temporelle pour compresser l'historique à pleine résolution. L'ensemble du cadre peut être optimisé de manière bout en bout et avec un seul Transformer de Diffusion unifié (DiT). Des expériences approfondies démontrent que notre méthode prend en charge la génération de vidéos de haute qualité de 5 secondes (jusqu'à 10 secondes) en résolution 768p et 24 FPS en 20,7k heures d'entraînement sur GPU A100. Tout le code et les modèles seront disponibles en open source sur https://pyramid-flow.github.io.
Nous présentons le Taux d'Intégration des Modalités (MIR), une mesure efficace, robuste et généralisée pour indiquer la qualité de pré-entraînement multi-modale des Grands Modèles Langage-Vision (LVLM). Le pré-entraînement à grande échelle joue un rôle critique dans la construction de LVLM capables, tandis que l'évaluation de sa qualité d'entraînement sans la coûteuse étape de fine-tuning supervisé est peu explorée. La perte, la perplexité et les résultats d'évaluation en contexte sont des mesures couramment utilisées pour les Grands Modèles de Langage (LLMs), alors que nous avons observé que ces mesures sont moins indicatives lors de l'alignement d'un LLM bien entraîné avec une nouvelle modalité. En raison du manque de mesures appropriées, la recherche sur les LVLMs dans l'étape critique de pré-entraînement est grandement entravée, y compris le choix des données d'entraînement, la conception efficace des modules, etc. Dans cet article, nous proposons d'évaluer la qualité de pré-entraînement du point de vue de la distance de distribution inter-modale et présentons le MIR, le Taux d'Intégration des Modalités, qui est 1) Efficace pour représenter la qualité de pré-entraînement et montrer une relation positive avec les performances de référence après le fine-tuning supervisé. 2) Robuste face à différentes données d'entraînement/évaluation. 3) Généralisable à travers différentes configurations d'entraînement et choix d'architecture. Nous menons une série d'expériences de pré-entraînement pour explorer l'efficacité du MIR et observons des résultats satisfaisants indiquant que le MIR est informatif sur la sélection des données d'entraînement, la planification de la stratégie d'entraînement et la conception de l'architecture du modèle pour obtenir de meilleurs résultats de pré-entraînement. Nous espérons que le MIR pourrait être une mesure utile pour la construction de LVLM capables et inspirer les recherches ultérieures sur l'alignement des modalités dans différents domaines. Notre code est disponible sur : https://github.com/shikiw/Modality-Integration-Rate.
Dans ce rapport technique, nous présentons Falcon Mamba 7B, un nouveau modèle de langue de base basé sur la nouvelle architecture Mamba. Falcon Mamba 7B est entraîné sur 5,8 billions de tokens avec des mélanges de données soigneusement sélectionnés. En tant que modèle basé uniquement sur Mamba, Falcon Mamba 7B surpasse les principaux modèles open-weight basés sur les Transformers, tels que Mistral 7B, Llama3.1 8B et Falcon2 11B. Il est à la hauteur de Gemma 7B et surpasse les modèles avec des conceptions architecturales différentes, tels que RecurrentGemma 9B et RWKV-v6 Finch 7B/14B. Actuellement, Falcon Mamba 7B est le modèle Mamba le plus performant dans la littérature à cette échelle, surpassant à la fois les modèles Mamba existants et les modèles hybrides Mamba-Transformer, selon le Open LLM Leaderboard. En raison de son architecture, Falcon Mamba 7B est significativement plus rapide en inférence et nécessite substantiellement moins de mémoire pour la génération de séquences longues. Malgré des études récentes suggérant que les modèles hybrides Mamba-Transformer surpassent les conceptions architecturales pures, nous démontrons que même la conception pure de Mamba peut atteindre des résultats similaires, voire supérieurs, par rapport aux conceptions Transformer et hybrides. Nous mettons les poids de notre implémentation de Falcon Mamba 7B publiquement disponibles sur https://huggingface.co/tiiuae/falcon-mamba-7b, sous une licence permissive.
Cet article explore l'interaction entre les structures de vision et les optimiseurs, révélant un phénomène interdépendant appelé \textbf{biais de couplage structure-optimiseur} (BCSO). Nous observons que les CNN canoniques, tels que VGG et ResNet, présentent une forte corrélation avec les familles de SGD, tandis que les architectures récentes comme ViTs et ConvNeXt partagent un couplage étroit avec ceux utilisant un taux d'apprentissage adaptatif. Nous montrons en outre que le BCSO peut être introduit à la fois par les optimiseurs et certains designs de structures, et peut avoir un impact significatif sur la pré-formation et l'ajustement fin ultérieur des modèles de vision. À travers une analyse empirique approfondie, nous résumons les conclusions sur les optimiseurs recommandés et les perspectives concernant les architectures robustes de structures de vision. Nous espérons que ce travail pourra inspirer la communauté à remettre en question les hypothèses de longue date sur les structures et les optimiseurs, stimuler de nouvelles explorations, et ainsi contribuer à des systèmes de vision plus robustes. Le code source et les modèles sont disponibles publiquement sur https://bocb-ai.github.io/.
Cette recherche vise à explorer de manière exhaustive la construction d'un modèle fondamental multimodal pour la compréhension des vidéos égocentriques. Pour atteindre cet objectif, nous travaillons sur trois fronts. Tout d'abord, étant donné le manque de données de questions-réponses pour la compréhension des vidéos égocentriques, nous développons un moteur de données qui génère efficacement 7 millions d'échantillons de questions-réponses de haute qualité pour des vidéos égocentriques d'une durée de 30 secondes à une heure, basé sur des données annotées par des humains. Il s'agit actuellement du plus grand ensemble de données de questions-réponses égocentriques. Deuxièmement, nous contribuons à un banc d'essai de questions-réponses égocentriques exigeant, comprenant 629 vidéos et 7 026 questions pour évaluer la capacité des modèles à reconnaître et mémoriser les détails visuels à travers des vidéos de longueurs variables. Nous introduisons une nouvelle méthode d'évaluation de débiaisage pour aider à atténuer le biais linguistique inévitable présent dans les modèles évalués. Troisièmement, nous proposons une architecture multimodale spécialisée comprenant un mécanisme novateur de "Pointeur de Mémoire Incitatif". Cette conception inclut une étape de vision globale pour obtenir une compréhension globale de la vidéo entière et identifier les informations visuelles clés, suivie d'une étape de secours qui utilise les informations visuelles clés pour générer des réponses. Cela permet au modèle de comprendre plus efficacement le contenu vidéo étendu. Avec les données, le banc d'essai et le modèle, nous construisons avec succès MM-Ego, un LLM multimodal égocentrique qui affiche des performances puissantes en matière de compréhension des vidéos égocentriques.
La visualisation d'histoires, la tâche de générer des images cohérentes basées sur un récit, a connu des avancées significatives avec l'émergence de modèles texte-image, en particulier les modèles de diffusion. Cependant, maintenir la cohérence sémantique, générer des interactions de haute qualité et assurer la faisabilité computationnelle restent des défis, en particulier dans la visualisation d'histoires longues (c'est-à-dire jusqu'à 100 images). Dans ce travail, nous proposons un cadre sans entraînement et efficace sur le plan computationnel, appelé Story-Adapter, pour améliorer la capacité générative des histoires longues. Plus précisément, nous proposons un paradigme itératif pour affiner chaque image générée, en exploitant à la fois le texte d'incitation et toutes les images générées de l'itération précédente. Au cœur de notre cadre se trouve un module d'attention croisée globale sans entraînement, qui agrège toutes les images générées de l'itération précédente pour préserver la cohérence sémantique sur l'ensemble de l'histoire, tout en minimisant les coûts computationnels avec des plongements globaux. Ce processus itératif optimise progressivement la génération d'images en incorporant à plusieurs reprises des contraintes textuelles, ce qui se traduit par des interactions plus précises et plus détaillées. Des expériences approfondies valident la supériorité de Story-Adapter dans l'amélioration à la fois de la cohérence sémantique et de la capacité générative pour des interactions plus détaillées, en particulier dans des scénarios d'histoires longues. La page du projet et le code associé sont accessibles via https://jwmao1.github.io/storyadapter.
En s'alignant sur les préférences humaines, les grands modèles de langage (LLM) ont considérablement progressé dans la génération de réponses honnêtes, inoffensives et utiles. Cependant, la collecte de données de préférence de haute qualité est un processus intensif en ressources et exigeant en créativité, notamment pour l'amélioration continue des LLM. Nous introduisons SynPO, un paradigme d'auto-amélioration qui exploite des données de préférence synthétiques pour l'alignement du modèle. SynPO utilise un mécanisme itératif où un générateur d'auto-incitation crée des incitations diverses, et un améliorateur de réponse affine progressivement les réponses du modèle. Cette approche permet aux LLM d'apprendre de manière autonome les récompenses génératives pour leurs propres sorties et élimine le besoin d'une annotation à grande échelle des incitations et des préférences humaines. Après quatre itérations de SynPO, Llama3-8B et Mistral-7B montrent des améliorations significatives dans leurs capacités à suivre les instructions, avec des améliorations de plus de 22,1 % du taux de réussite sur AlpacaEval 2.0 et ArenaHard. Simultanément, SynPO améliore les performances générales des LLM sur diverses tâches, validées par une augmentation moyenne de 3,2 à 5,0 points sur le tableau de classement Open LLM bien connu.
Les modèles fondamentaux (FMs) sont pré-entraînés sur des ensembles de données à grande échelle, puis affinés pour une tâche spécifique dans une application donnée. La méthode d'affinage la plus réussie et la plus couramment utilisée consiste à mettre à jour les poids pré-entraînés via une adaptation à faible rang (LoRA). LoRA introduit de nouvelles matrices de poids généralement initialisées de manière aléatoire avec une distribution de rang uniforme à travers les poids du modèle. Les travaux récents se concentrent sur l'initialisation des poids ou l'apprentissage des rangs adaptatifs pendant l'entraînement. Les deux approches n'ont été étudiées qu'isolément, ce qui entraîne une convergence lente ou une distribution de rang uniforme, conduisant ainsi à des performances sous-optimales. Nous proposons d'améliorer LoRA en initialisant les nouveaux poids de manière basée sur les données en calculant la décomposition en valeurs singulières sur des mini-lots de vecteurs d'activation. Ensuite, nous initialisons les matrices LoRA avec les vecteurs singuliers droits obtenus et redistribuons les rangs parmi toutes les matrices de poids pour expliquer la quantité maximale de variance et poursuivre la procédure d'affinage standard de LoRA. Cela donne lieu à notre nouvelle méthode d'Adaptation de la Variance Expliquée (EVA). Nous appliquons EVA à diverses tâches d'affinage allant de la génération et la compréhension de langage à la classification d'images et à l'apprentissage par renforcement. EVA présente une convergence plus rapide que ses concurrents et obtient le score moyen le plus élevé sur une multitude de tâches par domaine.
Dans ce document, nous nous concentrons sur l'amélioration d'un modèle texte-vidéo (T2V) basé sur la diffusion lors de la phase de post-entraînement en distillant un modèle de cohérence hautement performant à partir d'un modèle T2V pré-entraîné. Notre méthode proposée, T2V-Turbo-v2, introduit une avancée significative en intégrant divers signaux de supervision, y compris des données d'entraînement de haute qualité, des retours de modèle de récompense et des guidances conditionnelles, dans le processus de distillation de la cohérence. À travers des études d'ablation complètes, nous mettons en évidence l'importance cruciale de l'adaptation des ensembles de données à des objectifs d'apprentissage spécifiques et l'efficacité de l'apprentissage à partir de divers modèles de récompense pour améliorer à la fois la qualité visuelle et l'alignement texte-vidéo. De plus, nous soulignons l'immense espace de conception des stratégies de guidage conditionnel, qui se concentre sur la conception d'une fonction d'énergie efficace pour augmenter le solveur ODE enseignant. Nous démontrons le potentiel de cette approche en extrayant des guidances de mouvement des ensembles de données d'entraînement et en les incorporant dans le solveur ODE, en montrant son efficacité pour améliorer la qualité du mouvement des vidéos générées avec les métriques améliorées liées au mouvement de VBench et T2V-CompBench. Empiriquement, notre T2V-Turbo-v2 établit un nouveau résultat de pointe sur VBench, avec un score total de 85,13, dépassant les systèmes propriétaires tels que Gen-3 et Kling.
Les grands modèles de langage ont été appliqués avec succès aux tâches d'assistance à la programmation, telles que l'auto-complétion du code, l'insertion de code et l'édition de code instructif. Cependant, ces applications restent insuffisamment automatisées et peinent à intégrer efficacement divers types d'informations lors du processus de programmation, y compris l'historique du code, le code actuel et les instructions de l'utilisateur. Dans ce travail, nous proposons un nouveau cadre conversationnel qui intègre de manière exhaustive ces sources d'informations, collectons des données pour entraîner nos modèles et évaluons leurs performances. Tout d'abord, pour évaluer minutieusement l'alignement des modèles avec différents types d'informations et la qualité de leurs sorties, nous introduisons un nouveau banc d'essai, APEval (Assist Programming Eval), pour évaluer de manière exhaustive les performances des modèles dans les tâches d'assistance à la programmation. Ensuite, pour la collecte de données, nous développons un pipeline de génération de données, Programming-Instruct, qui synthétise des données d'entraînement à partir de sources diverses, telles que GitHub et des plateformes de juges en ligne. Ce pipeline peut générer automatiquement divers types de messages tout au long du processus de programmation. Enfin, en utilisant ce pipeline, nous générons 219 000 échantillons, affinons plusieurs modèles et développons la série CursorCore. Nous montrons que CursorCore surpasse les autres modèles de taille comparable. Ce cadre unifie des applications telles que le chat en ligne et l'édition automatisée, contribuant ainsi à l'avancement des assistants de codage. Le code, les modèles et les données sont disponibles gratuitement sur https://github.com/TechxGenus/CursorCore.
Les Modèles de Langage à Grande Échelle pour les Vidéos (Video LLMs) ont montré des capacités prometteuses en matière de compréhension vidéo, mais ils rencontrent des difficultés à suivre les changements temporels et à raisonner sur les relations temporelles. Alors que des recherches antérieures attribuaient cette limitation à un encodage temporel inefficace des entrées visuelles, notre étude diagnostique révèle que les représentations vidéo contiennent suffisamment d'informations pour que même de petits classificateurs de sondage atteignent une précision parfaite. De manière surprenante, nous constatons que le principal goulot d'étranglement dans la capacité de raisonnement temporel des Video LLMs découle de la difficulté inhérente des LLMs sous-jacents avec les concepts temporels, comme en témoigne leurs mauvaises performances sur des tâches de questions-réponses temporelles textuelles. S'appuyant sur cette découverte, nous introduisons le Transfert de Raisonnement Temporel Textuel (T3). Le T3 synthétise diverses tâches de raisonnement temporel au format texte pur à partir de jeux de données image-texte existants, répondant à la rareté des échantillons vidéo présentant des scénarios temporels complexes. De manière remarquable, sans utiliser de données vidéo, le T3 améliore la compréhension temporelle du LongVA-7B, entraînant une amélioration de précision absolue de 5,3 sur le difficile banc d'essai TempCompass, ce qui permet à notre modèle de surpasser le ShareGPT4Video-8B entraîné sur 28 000 échantillons vidéo. De plus, le modèle amélioré LongVA-7B obtient des performances compétitives sur des bancs d'essai vidéo complets. Par exemple, il atteint une précision de 49,7 sur la tâche de Raisonnement Temporel de Video-MME, dépassant des modèles à grande échelle puissants tels que InternVL-Chat-V1.5-20B et VILA1.5-40B. Une analyse supplémentaire révèle une forte corrélation entre les performances des tâches temporelles textuelles et vidéo, validant l'efficacité du transfert des capacités de raisonnement temporel du texte aux domaines vidéo.
Les progrès récents dans les modèles de diffusion de texte-vidéo (T2V) et d'image-vidéo (I2V) à grande échelle ont considérablement amélioré la génération de vidéos, notamment en termes d'interpolation de trames clés. Cependant, les modèles de diffusion d'image-vidéo actuels, bien qu'efficaces pour générer des vidéos à partir d'une seule trame de conditionnement, nécessitent une adaptation pour la génération conditionnée à deux trames (début et fin), essentielle pour une interpolation bornée efficace. Malheureusement, les approches existantes qui fusionnent les chemins temporels avant et arrière en parallèle souffrent souvent de problèmes hors de la variété, entraînant des artefacts ou nécessitant plusieurs étapes itératives de ré-bruitage. Dans ce travail, nous introduisons une nouvelle stratégie d'échantillonnage bidirectionnelle pour résoudre ces problèmes hors de la variété sans nécessiter de ré-bruitage étendu ou de fine-tuning. Notre méthode utilise un échantillonnage séquentiel le long des deux chemins avant et arrière, conditionné par les trames de début et de fin respectivement, garantissant une génération plus cohérente et sur la variété des trames intermédiaires. De plus, nous incorporons des techniques avancées de guidage, CFG++ et DDS, pour améliorer davantage le processus d'interpolation. En intégrant ceux-ci, notre méthode atteint des performances de pointe, générant efficacement des vidéos de haute qualité et fluides entre les trames clés. Sur un seul GPU 3090, notre méthode peut interpoler 25 trames à une résolution de 1024 x 576 en seulement 195 secondes, ce qui en fait une solution de premier plan pour l'interpolation de trames clés.
Malgré les avancées significatives dans la personnalisation des modèles de génération de texte en image et en vidéo, la génération d'images et de vidéos intégrant efficacement plusieurs concepts personnalisés demeure une tâche complexe. Pour remédier à cela, nous présentons TweedieMix, une méthode novatrice pour composer des modèles de diffusion personnalisés lors de la phase d'inférence. En analysant les propriétés de l'échantillonnage par diffusion inverse, notre approche divise le processus d'échantillonnage en deux étapes. Au cours des premières étapes, nous appliquons une technique d'échantillonnage consciente de plusieurs objets pour garantir l'inclusion des objets cibles souhaités. Dans les étapes ultérieures, nous fusionnons les apparences des concepts personnalisés dans l'espace d'image débruitée en utilisant la formule de Tweedie. Nos résultats démontrent que TweedieMix peut générer plusieurs concepts personnalisés avec une fidélité supérieure aux méthodes existantes. De plus, notre cadre peut être facilement étendu aux modèles de diffusion d'image en vidéo, permettant la génération de vidéos présentant plusieurs concepts personnalisés. Les résultats et le code source sont disponibles sur notre page de projet anonyme.
L'optimisation des instructions - le réglage supervisé en utilisant des paires instruction-réponse - est une étape fondamentale dans la transition des Modèles de Langage de Grande Taille (LLM) pré-entraînés en assistants de discussion utiles et sûrs. Notre hypothèse est que l'établissement d'un espace de sortie adéquat peut permettre une telle transition compte tenu des capacités inhérentes aux LLM pré-entraînés. Pour vérifier cela, nous proposons l'Ajustement des Réponses (RT), qui élimine l'étape de conditionnement par instruction dans l'optimisation des instructions et se concentre uniquement sur la supervision de l'espace des réponses. Nos expériences montrent que les modèles RT, entraînés uniquement à l'aide de réponses, peuvent répondre efficacement à un large éventail d'instructions et présenter une utilité comparable à celle de leurs homologues optimisés par instruction. De plus, nous observons que le contrôle de la distribution des réponses d'entraînement peut améliorer significativement leur préférence utilisateur ou susciter des comportements cibles tels que le refus d'aide pour des requêtes non sécurisées. Nos résultats mettent en lumière le rôle de l'établissement d'un espace de sortie adéquat en alignement, soulignant le potentiel des vastes capacités inhérentes des LLM pré-entraînés.
Dans cet article, nous proposons AutoDAN-Turbo, une méthode de jailbreak en boîte noire qui peut découvrir automatiquement autant de stratégies de jailbreak que possible à partir de zéro, sans aucune intervention humaine ou portées prédéfinies (par exemple, des stratégies de candidats spécifiées), et les utiliser pour des tests d'intrusion. En conséquence, AutoDAN-Turbo peut surpasser significativement les méthodes de référence, atteignant un taux de réussite moyen d'attaque 74,3% plus élevé sur des benchmarks publics. Notamment, AutoDAN-Turbo atteint un taux de réussite d'attaque de 88,5% sur GPT-4-1106-turbo. De plus, AutoDAN-Turbo est un cadre unifié qui peut incorporer des stratégies de jailbreak existantes conçues par des humains de manière plug-and-play. En intégrant des stratégies conçues par des humains, AutoDAN-Turbo peut même atteindre un taux de réussite d'attaque plus élevé de 93,4% sur GPT-4-1106-turbo.
Les récents progrès dans les modèles de diffusion ont démontré des capacités exceptionnelles en matière de génération d'images et de vidéos, améliorant encore l'efficacité de la synthèse 4D. Les méthodes de génération 4D existantes peuvent produire des objets ou des scènes 4D de haute qualité en fonction de conditions conviviales, bénéficiant ainsi aux industries du jeu et de la vidéo. Cependant, ces méthodes peinent à synthétiser des déformations significatives d'objets dans des transitions 4D complexes et des interactions au sein des scènes. Pour relever ce défi, nous proposons Trans4D, un nouveau cadre de synthèse texte-vers-4D qui permet des transitions de scènes complexes et réalistes. Plus précisément, nous utilisons d'abord des modèles de langage multimodaux de grande taille (MLLMs) pour produire une description de scène consciente de la physique pour l'initialisation de la scène 4D et la planification efficace du timing des transitions. Ensuite, nous proposons un réseau de transition 4D conscient de la géométrie pour réaliser une transition 4D au niveau de la scène complexe basée sur le plan, impliquant une déformation d'objet géométrique expressive. Des expériences approfondies démontrent que Trans4D surpasse de manière constante les méthodes existantes de pointe en matière de génération de scènes 4D avec des transitions précises et de haute qualité, validant ainsi son efficacité. Code : https://github.com/YangLing0818/Trans4D
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) évoluent rapidement, démontrant des capacités impressionnantes en tant qu'assistants multimodaux interagissant à la fois avec les humains et leur environnement. Cependant, cette sophistication accrue soulève des préoccupations importantes en matière de sécurité. Dans cet article, nous présentons la première évaluation et analyse d'un nouveau défi de sécurité appelé Sécurité Situationnelle Multimodale, qui explore comment les considérations de sécurité varient en fonction de la situation spécifique dans laquelle l'utilisateur ou l'agent est impliqué. Nous soutenons que pour qu'un MLLM réponde de manière sécurisée, que ce soit par le langage ou par l'action, il doit souvent évaluer les implications de sécurité d'une requête linguistique dans son contexte visuel correspondant. Pour évaluer cette capacité, nous développons le banc d'essai de Sécurité Situationnelle Multimodale (MSSBench) afin d'évaluer les performances de sécurité situationnelle des MLLM actuels. Le jeu de données comprend 1 820 paires de requêtes linguistiques et d'images, dont la moitié présente un contexte d'image sûr et l'autre moitié est dangereuse. Nous développons également un cadre d'évaluation qui analyse les aspects clés de sécurité, y compris le raisonnement explicite sur la sécurité, la compréhension visuelle et, surtout, le raisonnement sur la sécurité situationnelle. Nos résultats révèlent que les MLLM actuels rencontrent des difficultés avec ce problème de sécurité nuancé dans le cadre de suivi des instructions et ont du mal à relever ces défis de sécurité situationnelle tous en même temps, mettant en évidence un domaine clé pour les futures recherches. De plus, nous développons des pipelines multi-agents pour résoudre de manière coordonnée les défis de sécurité, ce qui montre une amélioration constante de la sécurité par rapport à la réponse initiale du MLLM. Code et données : mssbench.github.io.
Les modèles de génération texte-vidéo (T2V), offrant une création visuelle pratique, ont récemment suscité un intérêt croissant. Malgré leur potentiel substantiel, les vidéos générées peuvent présenter des artefacts, tels qu'une implausibilité structurelle, une incohérence temporelle et un manque de mouvement, entraînant souvent une vidéo quasi statique. Dans ce travail, nous avons identifié une corrélation entre la disparité des cartes d'attention temporelle à travers différents blocs et l'apparition d'incohérences temporelles. De plus, nous avons observé que l'énergie contenue dans les cartes d'attention temporelle est directement liée à l'amplitude du mouvement dans les vidéos générées. Sur la base de ces observations, nous présentons BroadWay, une méthode sans entraînement visant à améliorer la qualité de la génération texte-vidéo sans introduire de paramètres supplémentaires, augmenter la mémoire ou le temps d'échantillonnage. Plus précisément, BroadWay se compose de deux composants principaux : 1) l'Auto-guidage temporel améliore la plausibilité structurelle et la cohérence temporelle des vidéos générées en réduisant la disparité entre les cartes d'attention temporelle à travers différents blocs de décodeur. 2) L'Amélioration du mouvement basée sur Fourier renforce l'amplitude et la richesse du mouvement en amplifiant l'énergie de la carte. Des expériences approfondies démontrent que BroadWay améliore significativement la qualité de la génération texte-vidéo avec un coût supplémentaire négligeable.
Les modèles génératifs transforment des domaines créatifs tels que la génération de musique, avec des stratégies de guidage au moment de l'inférence comme le Guidage sans Classificateur (CFG) jouant un rôle crucial. Cependant, le CFG double le coût de l'inférence tout en limitant l'originalité et la diversité des contenus générés. Dans cet article, nous introduisons la distillation CFG récompensée par la diversité, une nouvelle procédure de fine-tuning qui distille les forces du CFG tout en abordant ses limitations. Notre approche optimise deux objectifs d'entraînement : (1) un objectif de distillation, encourageant le modèle seul (sans CFG) à imiter les prédictions augmentées par le CFG, et (2) un objectif de RL avec une récompense de diversité, favorisant la génération de sorties diverses pour une instruction donnée. En affinant, nous apprenons les poids du modèle avec la capacité de générer des sorties de haute qualité et diversifiées, sans surcoût d'inférence. Cela débloque également le potentiel des stratégies de fusion de modèles basées sur les poids : en interpolant entre les poids de deux modèles (le premier se concentrant sur la qualité, le second sur la diversité), nous pouvons contrôler le compromis qualité-diversité au moment du déploiement, et même améliorer encore les performances. Nous menons des expériences approfondies sur le modèle génératif de texte à musique MusicLM (Agostinelli et al., 2023), où notre approche surpasse le CFG en termes d'optimalité de Pareto qualité-diversité. Selon les évaluateurs humains, notre modèle affiné puis fusionné génère des échantillons avec une qualité-diversité plus élevée que le modèle de base augmenté avec le CFG. Explorez nos générations sur https://google-research.github.io/seanet/musiclm/diverse_music/.
Ce travail étudie la sélection de données de pré-entraînement de haute qualité à partir de corpus massifs pour améliorer les capacités des Modèles de Langage (LM) pour une utilisation ultérieure. Nous formulons la sélection des données comme un problème de Contrôle Optimal généralisé, qui peut être résolu théoriquement par le Principe du Maximum de Pontryagin (PMP), donnant un ensemble de conditions nécessaires qui caractérisent la relation entre la sélection optimale des données et la dynamique de l'entraînement du LM. Sur la base de ces résultats théoriques, nous introduisons la Sélection de Données basée sur le PMP (PDS), un cadre qui approxime la sélection optimale des données en résolvant les conditions du PMP. Dans nos expériences, nous adoptons PDS pour sélectionner des données à partir de CommmonCrawl et montrons que le corpus sélectionné par PDS accélère l'apprentissage des LMs et améliore constamment leurs performances sur une large gamme de tâches ultérieures à travers diverses tailles de modèles. De plus, les avantages de PDS s'étendent aux modèles de ~400B entraînés sur ~10T jetons, comme en témoigne l'extrapolation des courbes de perte de test selon les Lois d'Échelle. PDS améliore également l'utilisation des données lorsque les données de pré-entraînement sont limitées, en réduisant la demande de données de 1,8 fois, ce qui atténue l'épuisement rapide des corpus disponibles issus du web. Notre code, nos données et nos points de contrôle de modèle peuvent être trouvés sur https://github.com/microsoft/LMOps/tree/main/data_selection.
La localisation temporelle des vidéos (VTG) est une capacité cruciale pour les modèles de compréhension vidéo et joue un rôle vital dans les tâches ultérieures telles que la navigation et l'édition vidéo. Pour gérer efficacement diverses tâches simultanément et permettre la prédiction sans entraînement, il y a une tendance croissante à utiliser des LLM vidéo pour les tâches VTG. Cependant, les méthodes actuelles basées sur les LLM vidéo reposent exclusivement sur la génération de langage naturel, sans la capacité de modéliser la structure claire inhérente aux vidéos, ce qui limite leur efficacité dans le traitement des tâches VTG. Pour résoudre ce problème, cet article introduit d'abord formellement un cadre de modélisation d'événements causaux, qui représente les vidéos comme des séquences d'événements, et prédit l'événement actuel en utilisant les événements précédents, les entrées vidéo et les instructions textuelles. Chaque événement se compose de trois composantes : des horodatages, des scores saillants et des légendes textuelles. Nous proposons ensuite un nouveau LLM vidéo intercalé de tâches appelé TRACE pour mettre en œuvre efficacement le cadre de modélisation d'événements causaux en pratique. TRACE traite les trames visuelles, les horodatages, les scores saillants et le texte comme des tâches distinctes, en utilisant divers encodeurs et têtes de décodage pour chacune. Les jetons de tâche sont disposés dans une séquence entrelacée selon la formulation du cadre de modélisation d'événements causaux. Des expériences approfondies sur diverses tâches et ensembles de données VTG démontrent les performances supérieures de TRACE par rapport aux LLM vidéo de pointe. Notre modèle et code sont disponibles sur https://github.com/gyxxyg/TRACE.
Alors que les grands modèles de langage multimodaux (MLLMs) continuent de démontrer des performances de plus en plus compétitives dans un large éventail de tâches, des benchmarks plus complexes et complets ont été développés pour évaluer ces modèles de pointe. Ces benchmarks introduisent de nouveaux défis aux capacités fondamentales telles que la perception, le raisonnement et la planification. Cependant, les benchmarks multimodaux existants ne parviennent pas à fournir une évaluation ciblée de la planification multi-étapes basée sur les relations spatiales dans les images. Pour combler cette lacune, nous présentons ING-VP, le premier benchmark INteractif de Vision Planning basé sur des jeux, spécifiquement conçu pour évaluer l'imagination spatiale et les capacités de raisonnement multi-étapes des MLLMs. ING-VP propose 6 jeux distincts, comprenant 300 niveaux, chacun avec 6 configurations uniques. Un seul modèle participe à plus de 60 000 manches d'interaction. Le cadre du benchmark permet plusieurs paramètres de comparaison, incluant des entrées image-texte vs texte seul, un raisonnement à étape unique vs multi-étapes, et des conditions avec historique vs sans historique, offrant des aperçus précieux des capacités du modèle. Nous avons évalué de nombreux MLLMs de pointe, avec le modèle le plus performant, Claude-3.5 Sonnet, atteignant une précision moyenne de seulement 3,37 %, bien en dessous de la norme anticipée. Ce travail vise à fournir un cadre d'évaluation spécialisé pour stimuler les progrès de la capacité des MLLMs en matière de raisonnement spatial complexe et de planification. Le code est disponible publiquement sur https://github.com/Thisisus7/ING-VP.git.
La capacité à suivre des instructions est une compétence clé pour les LLM. Cependant, des études récentes ont montré que les LLM ont souvent du mal avec des instructions contenant plusieurs contraintes (par exemple, une demande de créer une publication sur les réseaux sociaux "avec un ton humoristique" sans "aucun hashtag"). Malgré cela, la plupart des évaluations se concentrent uniquement sur des données synthétiques. Pour remédier à cela, nous introduisons RealInstruct, le premier banc d'essai conçu pour évaluer la capacité des LLM à suivre des instructions du monde réel multi-contraintes en exploitant les requêtes posées par de vrais utilisateurs aux assistants IA. Nous étudions également l'évaluation basée sur le modèle en tant qu'alternative rentable à l'annotation humaine pour cette tâche. Nos résultats révèlent que même le modèle GPT-4 propriétaire ne parvient pas à respecter au moins une contrainte pour plus de 21% des instructions, mettant en évidence les limites des modèles de pointe. Pour combler l'écart de performance entre les modèles open-source et propriétaires, nous proposons le pipeline d'auto-correction Décomposer, Critiquer et Affiner (DeCRIM), qui améliore la capacité des LLM à suivre les contraintes. DeCRIM fonctionne en décomposant l'instruction d'origine en une liste de contraintes et en utilisant un modèle Critique pour décider quand et où la réponse du LLM nécessite un affinement. Nos résultats montrent que DeCRIM améliore les performances de Mistral de 7,3% sur RealInstruct et de 8,0% sur IFEval même avec un faible retour d'information. De plus, nous démontrons qu'avec un retour d'information fort, les LLM open-source avec DeCRIM peuvent surpasser GPT-4 sur les deux bancs d'essai.
À mesure que les modèles de diffusion texte-image deviennent suffisamment avancés pour des applications commerciales, il y a également une préoccupation croissante concernant leur potentiel d'utilisation malveillante et nuisible. Le désapprentissage du modèle a été proposé pour atténuer ces préoccupations en supprimant les informations indésirables et potentiellement nocives du modèle pré-entraîné. Jusqu'à présent, le succès du désapprentissage est principalement mesuré par la capacité du modèle désappris à générer un concept cible tout en maintenant la qualité de l'image. Cependant, le désapprentissage est généralement testé dans des scénarios limités, et les effets secondaires du désapprentissage ont à peine été étudiés dans la littérature actuelle. Dans ce travail, nous analysons en profondeur le désapprentissage dans divers scénarios avec cinq aspects clés. Notre enquête révèle que chaque méthode a des effets secondaires ou des limitations, surtout dans des situations plus complexes et réalistes. En publiant notre cadre d'évaluation complet avec les codes sources et les artefacts, nous espérons inspirer de nouvelles recherches dans ce domaine, menant à des méthodes de désapprentissage plus fiables et efficaces.
Alors que les grands modèles de langage (LLM) ont intégré des images, les adapter aux graphes reste un défi, limitant leurs applications dans la conception de matériaux et de médicaments. Cette difficulté découle de la nécessité d'une génération autoregressive cohérente à travers les textes et les graphes. Pour y remédier, nous présentons Llamole, le premier LLM multimodal capable de générer de manière entrelacée du texte et des graphes, permettant la conception inverse moléculaire avec une planification rétrosynthétique. Llamole intègre un LLM de base avec le Transformateur de Diffusion de Graphe et les Réseaux Neuronaux de Graphe pour une génération moléculaire multi-conditionnelle et une inférence de réaction au sein des textes, tandis que le LLM, avec une compréhension moléculaire améliorée, contrôle de manière flexible l'activation parmi les différents modules de graphe. De plus, Llamole intègre une recherche A* avec des fonctions de coût basées sur le LLM pour une planification rétrosynthétique efficace. Nous créons des ensembles de données de référence et menons des expériences approfondies pour évaluer Llamole par rapport à l'apprentissage en contexte et au fine-tuning supervisé. Llamole surpasse significativement 14 LLM adaptés sur 12 métriques pour la conception moléculaire contrôlable et la planification rétrosynthétique.
Les systèmes de dialogue récemment introduits ont démontré une grande convivialité. Cependant, ils restent en deçà de refléter les scénarios de conversation du monde réel. Les systèmes de dialogue actuels présentent une incapacité à reproduire les interactions dynamiques, continues et à long terme impliquant plusieurs partenaires. Cette lacune survient car il y a eu peu d'efforts pour tenir compte des deux aspects des dialogues du monde réel : les interactions profondément stratifiées sur le long terme et les réseaux de conversation largement étendus impliquant de multiples participants. En combinant les efforts pour intégrer ces aspects, nous introduisons une Conversation en Sessions Mixtes, un système de dialogue conçu pour construire des conversations avec divers partenaires dans un cadre de dialogue multi-session. Nous proposons un nouvel ensemble de données appelé MiSC pour mettre en œuvre ce système. Les épisodes de dialogue de MiSC se composent de 6 sessions consécutives, avec quatre locuteurs (un locuteur principal et trois partenaires) apparaissant dans chaque épisode. De plus, nous proposons un nouveau modèle de dialogue avec un mécanisme de gestion de la mémoire novateur, appelé Agent de Conversation en Sessions Mixtes Amélioré par une Mémoire Égocentrique (EMMA). EMMA collecte et conserve les souvenirs du point de vue du locuteur principal lors des conversations avec les partenaires, permettant une continuité sans faille dans les interactions ultérieures. Des évaluations humaines approfondies valident que les dialogues dans MiSC démontrent un flux conversationnel fluide, même lorsque les partenaires de conversation changent à chaque session. EMMA formé avec MiSC est également évalué pour maintenir une haute mémorabilité sans contradiction tout au long de la conversation.
Générer une longue histoire de plusieurs milliers de mots avec une cohérence narrative en utilisant les Grands Modèles de Langage (GML) a été une tâche difficile. Les recherches précédentes ont abordé ce défi en proposant différents cadres qui créent un plan de l'histoire et génèrent une longue histoire basée sur ce plan. Cependant, ces cadres se sont principalement concentrés sur le maintien de la cohérence narrative dans les histoires, en négligeant souvent la créativité dans la planification de l'histoire et l'expressivité des histoires générées à partir de ces plans, qui sont des propriétés souhaitables pour captiver l'intérêt des lecteurs. Dans cet article, nous proposons le cadre des Critiques Collectives pour la Génération Créative d'Histoires (CritiCS), qui est composé d'une étape de raffinement du plan (CrPlan) et d'une étape de génération d'histoire (CrText), afin d'intégrer un mécanisme de révision collective qui favorise ces propriétés dans le processus de génération d'histoires longues. Plus précisément, à chaque étape, un groupe de critiques de GML et un leader collaborent pour affiner de manière incrémentielle les brouillons du plan et de l'histoire à travers plusieurs tours. Une évaluation humaine approfondie montre que le CritiCS peut améliorer significativement la créativité des histoires et l'engagement des lecteurs, tout en maintenant la cohérence narrative. De plus, la conception du cadre permet une participation active des écrivains humains dans n'importe quel rôle au sein du processus de critique, permettant une collaboration humain-machine interactive dans l'écriture d'histoires.
Nous proposons TextToon, une méthode pour générer un avatar toonifié pilotable. En utilisant une courte séquence vidéo monoculaire et des instructions écrites sur le style de l'avatar, notre modèle peut générer un avatar toonifié de haute fidélité qui peut être piloté en temps réel par une autre vidéo avec des identités arbitraires. Les travaux connexes existants s'appuient fortement sur la modélisation multi-vue pour récupérer la géométrie via des plongements de texture, présentés de manière statique, ce qui entraîne des limitations de contrôle. L'entrée vidéo multi-vue rend également difficile le déploiement de ces modèles dans des applications du monde réel. Pour résoudre ces problèmes, nous adoptons un Tri-plan d'incorporation conditionnelle pour apprendre des représentations faciales réalistes et stylisées dans un champ de déformation gaussien. De plus, nous étendons les capacités de stylisation du Splatting gaussien 3D en introduisant un réseau neuronal d'adaptation de translation de pixel et en exploitant l'apprentissage contrastif conscient des patchs pour obtenir des images de haute qualité. Pour faire avancer notre travail dans les applications grand public, nous développons un système en temps réel qui peut fonctionner à 48 images par seconde sur une machine GPU et à 15-18 images par seconde sur une machine mobile. Des expériences approfondies démontrent l'efficacité de notre approche dans la génération d'avatars textuels par rapport aux méthodes existantes en termes de qualité et d'animation en temps réel. Veuillez vous référer à notre page de projet pour plus de détails: https://songluchuan.github.io/TextToon/.
L'apprentissage en contexte (ICL) est la capacité d'un modèle à apprendre une nouvelle tâche en observant quelques exemples dans son contexte. Bien que courante en TAL, cette capacité a récemment été observée dans des environnements d'Apprentissage par Renforcement (RL). Cependant, les méthodes précédentes d'RL en contexte nécessitent des épisodes entiers dans le contexte de l'agent. Étant donné que les environnements complexes entraînent généralement des épisodes longs avec des récompenses rares, ces méthodes sont limitées aux environnements simples avec des épisodes courts. Pour relever ces défis, nous introduisons le Transformateur de Décision Augmenté par Récupération (RA-DT). RA-DT utilise un mécanisme de mémoire externe pour stocker les expériences passées à partir desquelles il récupère uniquement les sous-trajectoires pertinentes pour la situation actuelle. Le composant de récupération dans RA-DT ne nécessite pas d'entraînement et peut être entièrement indépendant du domaine. Nous évaluons les capacités de RA-DT sur des environnements de grille, des simulations robotiques et des jeux vidéo générés de manière procédurale. Sur les grilles, RA-DT surpasse les références, tout en n'utilisant qu'une fraction de leur longueur de contexte. De plus, nous mettons en lumière les limites des méthodes actuelles d'RL en contexte sur des environnements complexes et discutons des orientations futures. Pour faciliter la recherche future, nous mettons à disposition des ensembles de données pour quatre des environnements considérés.
La recherche construit et évalue le potentiel adversarial d'introduire du code copié ou des recommandations d'IA hallucinées pour du code malveillant dans des dépôts de code populaires. Alors que les modèles de langage larges (LLM) fondamentaux d'OpenAI, Google et Anthropic se protègent à la fois contre les comportements nuisibles et les chaînes toxiques, des travaux antérieurs sur des solutions mathématiques intégrant des instructions nocives montrent que les garde-fous peuvent différer selon les contextes d'experts. Ces failles apparaîtraient dans un mélange de modèles d'experts lorsque le contexte de la question change et pourraient offrir moins d'exemples d'entraînement malveillants pour filtrer les commentaires toxiques ou les actions offensantes recommandées. Ce travail actuel démontre que les modèles fondamentaux peuvent refuser de proposer correctement des actions destructrices lorsqu'ils sont sollicités de manière explicite, mais peuvent malheureusement baisser leur garde lorsqu'ils sont confrontés à un changement soudain de contexte, comme résoudre un défi de programmation informatique. Nous montrons des exemples empiriques avec des dépôts hébergeant des chevaux de Troie comme GitHub, NPM, NuGet, et des réseaux de diffusion de contenu populaires (CDN) comme jsDelivr qui amplifient la surface d'attaque. Dans les directives des LLM pour être utiles, des recommandations d'exemple proposent des points de terminaison d'interface de programmation d'application (API) qu'un squatteur de domaine déterminé pourrait acquérir et configurer une infrastructure mobile d'attaque déclenchée à partir du code naïvement copié. Nous comparons cette attaque à des travaux antérieurs sur le changement de contexte et contrastons la surface d'attaque comme une nouvelle version des attaques "living off the land" dans la littérature sur les logiciels malveillants. Dans ce dernier cas, les modèles de langage fondamentaux peuvent détourner des instructions d'utilisateur par ailleurs innocentes pour recommander des actions qui violent les politiques de sécurité de leurs propriétaires lorsqu'elles sont posées directement sans la demande de support de codage accompagnante.
La pratique du piano nécessite un contrôle agile, précis et coordonné des mains qui repousse les limites de la dextérité. Les modèles de mouvement des mains capables de recréer de manière précise la pratique du piano ont de nombreuses applications dans l'animation de personnages, l'IA incarnée, la biomécanique et la RV/RA. Dans cet article, nous avons construit un ensemble de données à grande échelle unique en son genre contenant environ 10 heures de mouvements tridimensionnels des mains et d'audio de 15 pianistes de niveau élite interprétant 153 morceaux de musique classique. Pour capturer des performances naturelles, nous avons conçu une configuration sans marqueurs dans laquelle les mouvements sont reconstruits à partir de vidéos multi-vues à l'aide de modèles d'estimation de pose de pointe. Les données de mouvement sont ensuite affinées via une cinématique inverse en utilisant les données de frappe de touches MIDI haute résolution obtenues à partir de capteurs dans un piano spécialisé Yamaha Disklavier. En exploitant l'ensemble de données collecté, nous avons développé un processus qui peut synthétiser des mouvements des mains physiquement plausibles pour des partitions musicales qui ne font pas partie de l'ensemble de données. Notre approche combine l'apprentissage par imitation et l'apprentissage par renforcement pour obtenir des politiques de contrôle bimanuel basées sur la physique impliquant l'interaction entre les mains et les touches du piano. Pour résoudre le problème d'efficacité d'échantillonnage avec le grand ensemble de données de mouvement, nous utilisons un modèle de diffusion pour générer des mouvements de référence naturels, qui fournissent des informations de trajectoire de haut niveau et de doigté (ordre et placement des doigts). Cependant, le mouvement de référence généré seul ne fournit pas une précision suffisante pour la modélisation des performances pianistiques. Nous avons ensuite enrichi les données en utilisant la similarité musicale pour récupérer des mouvements similaires dans l'ensemble de données capturé afin d'améliorer la précision de la politique de renforcement. Avec la méthode proposée, notre modèle génère des mouvements naturels et habiles qui se généralisent à la musique en dehors de l'ensemble de données d'entraînement.
Nous présentons MLE-bench, un banc d'essai pour mesurer la performance des agents d'IA en ingénierie de l'apprentissage automatique. À cette fin, nous sélectionnons avec soin 75 compétitions liées à l'ingénierie de l'apprentissage automatique sur Kaggle, créant un ensemble diversifié de tâches stimulantes qui évaluent les compétences en ingénierie de l'apprentissage automatique du monde réel telles que l'entraînement de modèles, la préparation de jeux de données et l'exécution d'expériences. Nous établissons des références humaines pour chaque compétition en utilisant les tableaux de classement publiquement disponibles de Kaggle. Nous utilisons des échafaudages d'agents open-source pour évaluer plusieurs modèles de langage de pointe sur notre banc d'essai, constatant que la configuration la plus performante - OpenAI's o1-preview avec l'échafaudage AIDE - atteint au moins le niveau d'une médaille de bronze Kaggle dans 16,9 % des compétitions. En plus de nos principaux résultats, nous examinons diverses formes de mise à l'échelle des ressources pour les agents d'IA et l'impact de la contamination par le pré-entraînement. Nous mettons notre code de banc d'essai en open-source (github.com/openai/mle-bench/) pour faciliter les futures recherches visant à comprendre les capacités en ingénierie de l'apprentissage automatique des agents d'IA.
Dans le développement de logiciels du monde réel, une gestion incorrecte ou absente des exceptions peut avoir un impact grave sur la robustesse et la fiabilité du code. Les mécanismes de gestion des exceptions exigent des développeurs qu'ils détectent, capturent et gèrent les exceptions selon des normes élevées, mais de nombreux développeurs éprouvent des difficultés avec ces tâches, ce qui conduit à un code fragile. Ce problème est particulièrement visible dans les projets open source et affecte la qualité globale de l'écosystème logiciel. Pour relever ce défi, nous explorons l'utilisation de grands modèles de langage (GML) pour améliorer la gestion des exceptions dans le code. À travers une analyse approfondie, nous identifions trois problèmes clés : Détection insensible du code fragile, Capture inexacte des types d'exceptions, et Solutions de gestion déformées. Ces problèmes sont répandus dans les dépôts du monde réel, suggérant que les bonnes pratiques de gestion des exceptions sont souvent négligées ou mal gérées. En réponse, nous proposons Seeker, un cadre multi-agent inspiré des stratégies de développeurs experts pour la gestion des exceptions. Seeker utilise des agents : Scanner, Détecteur, Prédateur, Classeur et Gestionnaire pour aider les GML à détecter, capturer et résoudre les exceptions de manière plus efficace. Notre travail est la première étude systématique sur l'exploitation des GML pour améliorer les pratiques de gestion des exceptions, fournissant des perspectives précieuses pour les améliorations futures de la fiabilité du code.
La cohérence multi-vues reste un défi pour les modèles de diffusion d'images. Même dans le cadre du problème Texte-vers-Texture, où les correspondances géométriques parfaites sont connues a priori, de nombreuses méthodes échouent à produire des prédictions alignées à travers les vues, nécessitant des méthodes de fusion non triviales pour incorporer les résultats sur le maillage d'origine. Nous explorons cette problématique pour un flux de travail de Contrôle Collaboratif spécifiquement dans le contexte PBR Texte-vers-Texture. Le Contrôle Collaboratif modélise directement les distributions de probabilité d'images PBR, y compris les cartes de relief normales ; à notre connaissance, le seul modèle de diffusion à produire directement des piles PBR complètes en sortie. Nous discutons des décisions de conception impliquées dans la réalisation de la cohérence multi-vues de ce modèle, et démontrons l'efficacité de notre approche dans des études d'ablation, ainsi que dans des applications pratiques.
Les troubles de santé mentale sont parmi les maladies les plus graves dans le monde. La plupart des personnes atteintes de ces troubles n'ont pas accès à des soins adéquats, ce qui souligne l'importance de former des modèles pour le diagnostic et le traitement des troubles de santé mentale. Cependant, dans le domaine de la santé mentale, les préoccupations liées à la confidentialité limitent l'accessibilité des données de traitement personnalisées, rendant ainsi difficile la construction de modèles puissants. Dans cet article, nous présentons MentalArena, un cadre d'auto-apprentissage pour former des modèles de langage en générant des données personnalisées spécifiques au domaine, grâce auquel nous obtenons un meilleur modèle capable d'établir un diagnostic et un traitement personnalisés (en tant que thérapeute) et de fournir des informations (en tant que patient). Pour modéliser de manière précise des patients atteints de troubles de santé mentale de manière semblable à l'humain, nous concevons un Encodeur de Symptômes, qui simule un vrai patient du point de vue de la cognition et du comportement. Pour résoudre les biais d'intention lors des interactions patient-thérapeute, nous proposons un Décodage de Symptômes pour comparer les symptômes diagnostiqués aux symptômes encodés, et gérer dynamiquement le dialogue entre le patient et le thérapeute en fonction des écarts identifiés. Nous avons évalué MentalArena par rapport à 6 références, y compris des tâches de questions-réponses biomédicales et de santé mentale, par rapport à 6 modèles avancés. Nos modèles, affinés à la fois sur GPT-3.5 et Llama-3-8b, surpassent significativement leurs homologues, y compris GPT-4o. Nous espérons que notre travail pourra inspirer des recherches futures sur les soins personnalisés. Le code est disponible sur https://github.com/Scarelette/MentalArena/tree/main
Cet article présente TinyEmo, une famille de petits modèles de langage multimodaux pour le raisonnement et la classification émotionnels. Notre approche se caractérise par : (1) un ensemble de données d'instructions émotionnelles synthétiques pour les étapes de pré-entraînement et de fine-tuning, (2) un projecteur métrique qui délègue la classification du modèle de langage permettant un entraînement et une inférence plus efficaces, (3) un grand modèle de langage multimodal (MM-LLM) pour le raisonnement émotionnel, et (4) un cadre semi-automatisé pour la détection de biais. TinyEmo est capable d'effectuer la classification des émotions et le raisonnement émotionnel, tout en utilisant substantiellement moins de paramètres que des modèles comparables. Cette efficacité nous permet d'incorporer librement des ensembles de données émotionnelles plus diversifiés, permettant des performances solides sur les tâches de classification, notre plus petit modèle (700M paramètres) surpassant des modèles plus grands de pointe basés sur des MM-LLMs polyvalents avec plus de 7 milliards de paramètres. De plus, le projecteur métrique permet l'interprétabilité et la détection indirecte de biais dans les grands modèles sans formation supplémentaire, offrant une approche pour comprendre et améliorer les systèmes d'IA. Nous mettons à disposition le code, les modèles et l'ensemble de données sur https://github.com/ggcr/TinyEmo.
Les récents progrès des grands modèles de langage (LLM) ont conduit à des affirmations selon lesquelles l'IA surpasserait les humains dans les tâches de traitement du langage naturel (NLP) telles que la compréhension textuelle et le raisonnement. Ce travail examine ces assertions en introduisant CAIMIRA, un nouveau cadre enraciné dans la théorie de la réponse à l'item (IRT) qui permet une évaluation quantitative et une comparaison des capacités de résolution de problèmes des agents de question-réponse (QA) : humains et systèmes d'IA. À travers l'analyse de plus de 300 000 réponses provenant d'environ 70 systèmes d'IA et 155 humains sur des milliers de questions de quiz, CAIMIRA met en lumière des modèles de compétence distincts dans les domaines de connaissance et les compétences de raisonnement. Les humains surpassent les systèmes d'IA dans le raisonnement abductif et conceptuel ancré dans la connaissance, tandis que les LLM de pointe tels que GPT-4 et LLaMA montrent des performances supérieures dans la recherche d'informations ciblées et le raisonnement basé sur les faits, notamment lorsque les lacunes d'information sont bien définies et peuvent être traitées par des correspondances de motifs ou des récupérations de données. Ces résultats soulignent la nécessité pour les futures tâches de QA de se concentrer sur des questions qui mettent au défi non seulement le raisonnement de haut niveau et la pensée scientifique, mais qui exigent également une interprétation linguistique nuancée et une application de connaissances inter-contextuelles, contribuant à faire progresser les développements en IA qui émulent ou complètent mieux les capacités cognitives humaines dans la résolution de problèmes du monde réel.
Les modèles d'incorporation ont été cruciaux pour permettre diverses tâches en aval telles que la similarité sémantique, la recherche d'informations et le regroupement. Récemment, il y a eu un regain d'intérêt pour le développement de modèles universels d'incorporation de texte capables de généraliser à travers les tâches (par exemple, MTEB). Cependant, les progrès dans l'apprentissage de modèles universels d'incorporation multimodale ont été relativement lents malgré leur importance. Dans ce travail, nous visons à explorer le potentiel de construction d'incorporations universelles capables de gérer une large gamme de tâches en aval. Nos contributions sont doubles : (1) MMEB (Banc d'essai d'incorporation multimodale massive), qui couvre 4 méta-tâches (c'est-à-dire classification, réponse à des questions visuelles, recherche multimodale et ancrage visuel) et 36 ensembles de données, comprenant 20 ensembles de données d'entraînement et 16 ensembles de données d'évaluation, et (2) VLM2Vec (Modèle Vision-Langage -> Vecteur), un cadre d'entraînement contrastif qui convertit tout modèle vision-langage de pointe en un modèle d'incorporation via l'entraînement sur MMEB. Contrairement aux modèles précédents tels que CLIP et BLIP, VLM2Vec peut traiter n'importe quelle combinaison d'images et de texte pour générer un vecteur de dimension fixe en fonction des instructions de la tâche. Nous construisons une série de modèles VLM2Vec sur Phi-3.5-V et les évaluons sur la division d'évaluation de MMEB. Nos résultats montrent que le modèle obtient une amélioration moyenne absolue de 10 % à 20 % par rapport aux modèles d'incorporation multimodaux existants, à la fois sur les ensembles de données en distribution et hors distribution de MMEB.
Les benchmarks actuels pour évaluer les modèles vision-langage (VLM) se concentrent souvent sur leurs capacités de perception ou de résolution de problèmes et négligent d'autres aspects critiques tels que l'équité, la multilinguisme ou la toxicité. De plus, ils diffèrent dans leurs procédures d'évaluation et la portée de l'évaluation, ce qui rend difficile la comparaison des modèles. Pour résoudre ces problèmes, nous étendons le cadre HELM aux VLM pour présenter l'Évaluation Holistique des Modèles Vision Langage (VHELM). VHELM agrège divers ensembles de données pour couvrir un ou plusieurs des 9 aspects : perception visuelle, connaissance, raisonnement, biais, équité, multilinguisme, robustesse, toxicité et sécurité. Ce faisant, nous produisons une vue complète et multidimensionnelle des capacités des VLM à travers ces facteurs importants. De plus, nous standardisons les paramètres d'inférence standard, les méthodes de sollicitation et les métriques d'évaluation pour permettre des comparaisons équitables entre les modèles. Notre cadre est conçu pour être léger et automatique afin que les exécutions d'évaluation soient économiques et rapides. Notre première exécution évalue 22 VLM sur 21 ensembles de données existants pour fournir un instantané holistique des modèles. Nous découvrons de nouvelles conclusions clés, telles que le fait que les modèles axés sur l'efficacité (par exemple, Claude 3 Haiku ou Gemini 1.5 Flash) se comportent significativement moins bien que leurs modèles complets (par exemple, Claude 3 Opus ou Gemini 1.5 Pro) sur le benchmark du biais mais pas lorsqu'ils sont évalués sur les autres aspects. Pour la transparence, nous publions les générations de modèles bruts et les résultats complets sur notre site web (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM est destiné à être un benchmark évolutif, et nous espérons continuer à ajouter de nouveaux ensembles de données et modèles au fil du temps.
Les modèles de langage larges (LLMs) centrés sur l'anglais montrent souvent de fortes capacités multilingues. Cependant, les performances multilingues de ces modèles restent floues et ne sont pas pleinement évaluées pour de nombreuses langues. La plupart des référentiels pour la multilinguisme se concentrent sur des tâches classiques de TAL, ou couvrent un nombre minimal de langues. Nous introduisons MEXA, une méthode pour évaluer les capacités multilingues des LLMs pré-entraînés centrés sur l'anglais en utilisant des phrases parallèles, disponibles pour plus de langues que les tâches ultérieures existantes. MEXA exploite le fait que les LLMs centrés sur l'anglais utilisent l'anglais comme une sorte de langue pivot dans leurs couches intermédiaires. Il calcule l'alignement entre l'anglais et les langues non anglaises en utilisant des phrases parallèles pour évaluer le transfert de la compréhension linguistique de l'anglais vers d'autres langues. Cet alignement peut être utilisé pour estimer les performances du modèle dans d'autres langues. Nous menons des études en utilisant divers ensembles de données parallèles (FLORES-200 et Bible), des modèles (famille Llama, famille Gemma, Mistral et OLMo) et des tâches ultérieures établies (Belebele, m-MMLU et m-ARC). Nous explorons différentes méthodes pour calculer les plongements dans les modèles à décodeur uniquement. Nos résultats montrent que MEXA, dans ses paramètres par défaut, atteint une corrélation de Pearson moyenne statistiquement significative de 0,90 avec trois tâches ultérieures établies sur neuf modèles et deux ensembles de données parallèles. Cela suggère que MEXA est une méthode fiable pour estimer les capacités multilingues des LLMs centrés sur l'anglais, offrant une compréhension plus claire de leur potentiel multilingue et du fonctionnement interne des LLMs. Tableau de classement : https://huggingface.co/spaces/cis-lmu/Mexa, Code : https://github.com/cisnlp/Mexa.
Un avantage essentiel des réseaux neuronaux récurrents (RNN) par rapport aux modèles de langage basés sur les transformateurs est leur complexité computationnelle linéaire en ce qui concerne la longueur de la séquence, ce qui les rend beaucoup plus rapides pour traiter de longues séquences lors de l'inférence. Cependant, la plupart des RNN disponibles publiquement (par exemple, Mamba et RWKV) sont entraînés sur des séquences de moins de 10 000 jetons, et leur efficacité dans des contextes plus longs reste largement insatisfaisante jusqu'à présent. Dans cet article, nous étudions la cause de l'incapacité des RNN à traiter de longs contextes et suggérons des atténuations critiques. Nous examinons deux préoccupations pratiques lors de l'application des RNN de pointe à de longs contextes : (1) l'incapacité d'extrapoler vers des entrées plus longues que la longueur d'entraînement et (2) la limite supérieure de la capacité mémoire. Pour répondre à la première préoccupation, nous étudions d'abord l'effondrement de l'état (SC), un phénomène qui entraîne une dégradation importante des performances sur des longueurs de séquence non rencontrées lors de l'entraînement. À l'aide d'expériences contrôlées, nous attribuons cela à un surajustement dû à la surparamétrisation de l'état récurrent pour la longueur d'entraînement. Pour la deuxième préoccupation, nous entraînons une série de modèles Mamba-2 sur de longs documents pour estimer empiriquement la capacité de l'état récurrent dans la modélisation du langage et la récupération de clés. Ensuite, trois méthodes d'atténuation de SC sont proposées pour améliorer la capacité de généralisation de la longueur de Mamba-2, permettant au modèle de traiter plus d'1 million de jetons sans SC. Nous constatons également que la capacité de l'état récurrent dans la récupération de clés évolue de manière exponentielle avec la taille de l'état, et nous entraînons empiriquement un Mamba-2 370M avec une précision de récupération de clés quasi parfaite sur une longueur de contexte de 256 000. Cela laisse entrevoir un avenir prometteur pour la modélisation de longs contextes basée sur les RNN.
Pas encore. Nous présentons SPACE, un banc d'essai qui évalue systématiquement la cognition spatiale dans les modèles de pointe. Notre banc d'essai s'appuie sur des décennies de recherche en sciences cognitives. Il évalue les capacités de cartographie à grande échelle mises en œuvre lorsque qu'un organisme traverse des environnements physiques, la capacité de raisonnement à plus petite échelle sur les formes et agencements d'objets, ainsi que l'infrastructure cognitive telle que l'attention spatiale et la mémoire. Pour de nombreuses tâches, nous instancions des présentations parallèles via du texte et des images, ce qui nous permet d'évaluer à la fois de grands modèles de langage et de grands modèles multimodaux. Les résultats suggèrent que les modèles de pointe contemporains sont en deçà de l'intelligence spatiale des animaux, obtenant des performances proches du hasard sur un certain nombre de tests classiques de la cognition animale.