Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles autorégressifs (ARMs) sont largement considérés comme la pierre angulaire des grands modèles de langage (LLMs). Nous remettons en question cette notion en introduisant LLaDA, un modèle de diffusion entraîné à partir de zéro selon le paradigme de pré-entraînement et de fine-tuning supervisé (SFT). LLaDA modélise les distributions à travers un processus de masquage de données en avant et un processus inverse, paramétré par un Transformer standard pour prédire les tokens masqués. En optimisant une borne de vraisemblance, il offre une approche générative fondée pour l'inférence probabiliste. Sur une vaste gamme de benchmarks, LLaDA démontre une forte scalabilité, surpassant nos bases de référence ARM construites en interne. De manière remarquable, LLaDA 8B est compétitif avec des LLMs puissants comme LLaMA3 8B en apprentissage en contexte et, après SFT, montre des capacités impressionnantes à suivre des instructions dans des études de cas telles que les dialogues multi-tours. De plus, LLaDA résout le problème de la malédiction de l'inversion, surpassant GPT-4o dans une tâche de complétion de poème inversé. Nos résultats établissent les modèles de diffusion comme une alternative viable et prometteuse aux ARMs, remettant en question l'hypothèse selon laquelle les capacités clés des LLMs discutées ci-dessus sont intrinsèquement liées aux ARMs.
Les grands modèles de raisonnement (LRM) représentent une avancée dans les capacités de résolution de problèmes en intelligence artificielle, mais leur efficacité dans des environnements interactifs peut être limitée. Cet article introduit et analyse la surréflexion dans les LRM, un phénomène où les modèles privilégient des chaînes de raisonnement interne prolongées par rapport à l'interaction environnementale. À travers des expériences sur des tâches d'ingénierie logicielle utilisant SWE Bench Verified, nous observons trois schémas récurrents : Paralysie de l'analyse, Actions rebelles et Désengagement prématuré. Nous proposons un cadre pour étudier ces comportements, qui corrobore les évaluations d'experts humains, et analysons 4018 trajectoires. Nous constatons que des scores plus élevés de surréflexion sont corrélés à des performances réduites, les modèles de raisonnement montrant des tendances plus marquées à la surréflexion par rapport aux modèles non raisonnants. Notre analyse révèle que des efforts simples pour atténuer la surréflexion dans des environnements agentic, tels que choisir la solution avec le score de surréflexion le plus bas, peuvent améliorer les performances du modèle de près de 30 % tout en réduisant les coûts de calcul de 43 %. Ces résultats suggèrent que l'atténuation de la surréflexion a de fortes implications pratiques. Nous suggérons que l'utilisation des capacités d'appel de fonction natives et de l'apprentissage par renforcement sélectif pourrait atténuer les tendances à la surréflexion. Nous mettons également en open source notre cadre d'évaluation et notre ensemble de données pour faciliter la recherche dans cette direction sur https://github.com/AlexCuadron/Overthinking.
Nous présentons Step-Video-T2V, un modèle pré-entraîné de pointe pour la génération de vidéos à partir de texte, doté de 30 milliards de paramètres et capable de produire des vidéos allant jusqu'à 204 images. Un Variational Autoencoder (VAE) à compression profonde, Video-VAE, a été conçu pour les tâches de génération vidéo, atteignant des taux de compression spatiale de 16x16 et temporelle de 8x, tout en conservant une qualité de reconstruction vidéo exceptionnelle. Les instructions utilisateur sont encodées à l'aide de deux encodeurs de texte bilingues pour gérer à la fois l'anglais et le chinois. Un DiT (Diffusion Transformer) avec attention 3D complète est entraîné via Flow Matching et est utilisé pour débruiter le bruit d'entrée en images latentes. Une approche basée sur la vidéo, Video-DPO, est appliquée pour réduire les artefacts et améliorer la qualité visuelle des vidéos générées. Nous détaillons également nos stratégies d'entraînement et partageons des observations et insights clés. La performance de Step-Video-T2V est évaluée sur un nouveau benchmark de génération vidéo, Step-Video-T2V-Eval, démontrant sa qualité de pointe en génération vidéo à partir de texte par rapport à des moteurs open-source et commerciaux. Par ailleurs, nous discutons des limites du paradigme actuel des modèles basés sur la diffusion et esquissons des directions futures pour les modèles fondateurs vidéo. Nous rendons Step-Video-T2V et Step-Video-T2V-Eval disponibles à l'adresse https://github.com/stepfun-ai/Step-Video-T2V. La version en ligne est également accessible via https://yuewen.cn/videos. Notre objectif est d'accélérer l'innovation des modèles fondateurs vidéo et d'habiliter les créateurs de contenu vidéo.
Les modèles de diffusion (DMs) sont devenus le choix privilégié pour les tâches génératives dans divers domaines. Cependant, leur dépendance à de multiples passes avant séquentielles limite considérablement les performances en temps réel. Les méthodes d'accélération précédentes se sont principalement concentrées sur la réduction du nombre d'étapes d'échantillonnage ou la réutilisation des résultats intermédiaires, ne parvenant pas à exploiter les variations entre les régions spatiales de l'image en raison des contraintes des structures convolutives U-Net. En tirant parti de la flexibilité des Transformers de Diffusion (DiTs) dans la gestion d'un nombre variable de tokens, nous introduisons RAS, une nouvelle stratégie d'échantillonnage sans entraînement qui attribue dynamiquement des ratios d'échantillonnage différents aux régions d'une image en fonction de l'attention du modèle DiT. Notre observation clé est qu'à chaque étape d'échantillonnage, le modèle se concentre sur des régions sémantiquement significatives, et ces zones d'attention présentent une forte continuité entre les étapes consécutives. En exploitant cette intuition, RAS met à jour uniquement les régions actuellement en focus, tandis que les autres régions sont mises à jour en utilisant le bruit mis en cache de l'étape précédente. L'attention du modèle est déterminée en fonction de la sortie de l'étape précédente, en capitalisant sur la cohérence temporelle que nous avons observée. Nous évaluons RAS sur Stable Diffusion 3 et Lumina-Next-T2I, obtenant des accélérations allant jusqu'à 2,36x et 2,51x respectivement, avec une dégradation minimale de la qualité de génération. De plus, une étude utilisateur révèle que RAS offre des qualités comparables sous évaluation humaine tout en atteignant une accélération de 1,6x. Notre approche représente une avancée significative vers des transformers de diffusion plus efficaces, renforçant leur potentiel pour des applications en temps réel.
Les grands modèles multimodaux (LMMs) présentent des lacunes majeures dans l'interprétation des images et, selon certaines mesures, possèdent une cognition spatiale inférieure à celle de jeunes enfants ou d'animaux. Malgré cela, ils obtiennent des scores élevés sur de nombreux benchmarks visuels populaires, avec une marge de progression rapidement réduite par une vague continue de progrès des modèles. Pour remédier à cela, il est urgent de disposer de benchmarks difficiles qui restent pertinents plus longtemps. Nous poussons cette idée à son extrême en introduisant ZeroBench, un benchmark léger de raisonnement visuel totalement impossible pour les LMMs de pointe actuels. Notre benchmark se compose de 100 questions soigneusement sélectionnées et de 334 sous-questions moins difficiles. Nous évaluons 20 LMMs sur ZeroBench, tous obtenant un score de 0,0 %, et analysons rigoureusement les erreurs. Pour encourager les progrès dans la compréhension visuelle, nous rendons ZeroBench accessible au public.
Malgré des avancées notables dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs), la plupart des modèles de pointe n'ont pas été rigoureusement alignés avec les préférences humaines. Cet écart persiste car la recherche actuelle sur l'alignement a principalement progressé dans des domaines spécifiques (par exemple, la réduction des hallucinations), tandis que la question plus large de savoir si l'alignement des modèles avec les préférences humaines peut systématiquement améliorer les capacités des MLLMs reste largement inexplorée. À cette fin, nous introduisons MM-RLHF, un ensemble de données contenant 120 000 paires de comparaison de préférences annotées de manière fine par des humains. Cet ensemble de données représente une avancée substantielle par rapport aux ressources existantes, offrant une taille, une diversité, une granularité d'annotation et une qualité supérieures. En exploitant cet ensemble de données, nous proposons plusieurs innovations clés pour améliorer à la fois la qualité des modèles de récompense et l'efficacité des algorithmes d'alignement. Notamment, nous introduisons un Modèle de Récompense Basé sur la Critique, qui génère des critiques des sorties du modèle avant d'attribuer des scores, offrant une interprétabilité accrue et un retour d'information plus informatif par rapport aux mécanismes de récompense scalaire traditionnels. De plus, nous proposons une Mise à l'Échelle Dynamique des Récompenses, une méthode qui ajuste le poids de la perte de chaque échantillon en fonction du signal de récompense, optimisant ainsi l'utilisation des paires de comparaison de haute qualité. Notre approche est rigoureusement évaluée sur 10 dimensions distinctes et 27 benchmarks, avec des résultats démontrant des améliorations significatives et cohérentes des performances du modèle. Plus précisément, le fine-tuning de LLaVA-ov-7B avec MM-RLHF et notre algorithme d'alignement entraîne une augmentation de 19,5 % des capacités conversationnelles et une amélioration de 60 % en matière de sécurité. Nous avons ouvert l'accès à l'ensemble de données de préférences, au modèle de récompense, au code d'entraînement et d'évaluation, ainsi qu'aux benchmarks de modélisation des récompenses et de sécurité. Pour plus de détails, veuillez visiter notre page de projet : https://mm-rlhf.github.io.
Les modèles de diffusion permettent une synthèse de contenu visuel de haute qualité et diversifié. Cependant, ils peinent à générer des concepts rares ou inédits. Pour relever ce défi, nous explorons l'utilisation de la Génération Augmentée par Récupération (RAG) avec des modèles de génération d'images. Nous proposons ImageRAG, une méthode qui récupère dynamiquement des images pertinentes en fonction d'une invite textuelle donnée, et les utilise comme contexte pour guider le processus de génération. Les approches antérieures qui utilisaient des images récupérées pour améliorer la génération formaient des modèles spécifiquement pour la génération basée sur la récupération. En revanche, ImageRAG exploite les capacités des modèles de conditionnement d'images existants et ne nécessite pas d'entraînement spécifique à la RAG. Notre approche est hautement adaptable et peut être appliquée à différents types de modèles, montrant une amélioration significative dans la génération de concepts rares et fins avec différents modèles de base. Notre page de projet est disponible à l'adresse : https://rotem-shalev.github.io/ImageRAG
Les modèles de langage à raisonnement tels qu'OpenAI o1, o3 et DeepSeek R1 ont réalisé des progrès significatifs en mathématiques et en programmation, mais rencontrent des difficultés face à des tâches avancées telles que les problèmes de combinatoire des Olympiades Internationales de Mathématiques (IMO), les énigmes du Corpus d'Abstraction et de Raisonnement (ARC) et les questions de l'examen final de l'humanité (HLE). Nous utilisons une approche d'inférence diversifiée qui combine plusieurs modèles et méthodes au moment du test. Nous constatons que la vérification des problèmes de mathématiques et de code, ainsi que l'échantillonnage par rejet pour d'autres problèmes, sont simples et efficaces. Nous vérifions automatiquement l'exactitude des solutions aux problèmes IMO avec Lean, et les énigmes ARC par du code, et constatons que la méthode du meilleur parmi N répond efficacement aux questions HLE. Notre approche augmente la précision des réponses aux problèmes de combinatoire IMO de 33,3 % à 77,8 %, la précision des questions HLE de 8 % à 37 %, et résout 80 % des énigmes ARC que 948 humains n'ont pas pu résoudre et 26,5 % des énigmes ARC que o3 avec une forte puissance de calcul ne résout pas. Les simulations au moment du test, l'apprentissage par renforcement et le méta-apprentissage avec retour d'inférence améliorent la généralisation en adaptant les représentations graphiques des agents et en variant les invites, le code et les ensembles de données. Notre approche est fiable, robuste et évolutive, et dans l'esprit de la recherche reproductible, nous la rendrons publique dès sa publication.
Les grands modèles de langage (LLMs) ont obtenu un succès significatif dans diverses tâches de traitement du langage naturel (NLP). Cependant, leurs coûts de calcul massifs limitent leur utilisation généralisée, en particulier dans les applications en temps réel. L'élagage structuré offre une solution efficace en compressant les modèles et en fournissant directement des améliorations de vitesse de bout en bout, indépendamment de l'environnement matériel. Par ailleurs, les différents composants du modèle présentent des sensibilités variables à l'égard de l'élagage, nécessitant une compression non uniforme du modèle. Cependant, une méthode d'élagage ne doit pas seulement identifier une sous-structure capable, mais aussi prendre en compte l'entraînement post-compression. À cette fin, nous proposons \sysname, une méthode d'élagage structuré prenant en compte l'entraînement. \sysname s'appuie sur un processus de recherche évolutive, générant plusieurs modèles descendants à chaque génération par mutation, et sélectionnant les plus aptes pour survivre. Pour évaluer l'effet de l'entraînement postérieur, nous intégrons un processus d'entraînement léger et multi-étapes au sein de la population de descendants, augmentant progressivement le nombre de tokens et éliminant les modèles peu performants à chaque étape de sélection. Nous validons notre méthode par des expériences approfondies sur Llama-2-7B, Llama-3.1-8B et Qwen-2.5-14B-Instruct, atteignant des performances de pointe pour l'élagage structuré. Par exemple, \sysname surpasse ShearedLlama tout en nécessitant 5 fois moins de données d'entraînement lors de l'entraînement post-compression.
Les modèles de langage de grande taille (LLMs) représentent généralement les nombres à l'aide de plusieurs tokens, ce qui oblige le modèle à agréger ces tokens pour interpréter les valeurs numériques. Cette fragmentation rend à la fois l'entraînement et l'inférence moins efficaces et affecte négativement les performances du modèle sur les tâches liées aux nombres. Inspirés par l'observation que les LLMs pré-entraînés apprennent en interne des caractéristiques de type Fourier pour les tokens numériques, nous proposons Fourier Number Embedding (FoNE), une méthode novatrice qui mappe directement les nombres dans l'espace d'embedding avec leurs caractéristiques de Fourier. FoNE encode chaque nombre en un seul token avec seulement deux dimensions d'embedding par chiffre, capturant ainsi efficacement les valeurs numériques sans fragmentation. Cette représentation compacte accélère à la fois l'entraînement et l'inférence. Par rapport aux embeddings traditionnels basés sur les sous-mots et les chiffres individuels, FoNE réduit non seulement la surcharge computationnelle, mais atteint également une précision plus élevée sur diverses tâches numériques, y compris l'addition, la soustraction et la multiplication. Pour l'addition de nombres décimaux à 6 chiffres, FoNE nécessite 64 fois moins de données pour atteindre une précision de 99 % par rapport aux embeddings basés sur les sous-mots et les chiffres individuels, tout en utilisant respectivement 3 fois et 6 fois moins de tokens par nombre. De plus, FoNE est la seule méthode qui atteint une précision de 100 % sur plus de 100 000 exemples de test pour l'addition, la soustraction et la multiplication. Les codes et les visualisations sont disponibles à l'adresse https://fouriernumber.github.io/.
Les nouveaux modèles de diffusion peuvent synthétiser des images photo-réalistes intégrant du texte de haute qualité. Étonnamment, nous démontrons, grâce à l'analyse des activations d'attention, que moins de 1 % des paramètres des modèles de diffusion, tous contenus dans les couches d'attention, influencent la génération de contenu textuel dans les images. En nous appuyant sur cette observation, nous améliorons l'efficacité et les performances de la génération textuelle en ciblant les couches d'attention croisée et conjointe des modèles de diffusion. Nous introduisons plusieurs applications qui bénéficient de la localisation des couches responsables de la génération de contenu textuel. Nous montrons d'abord qu'un ajustement fin basé sur LoRA, appliqué uniquement aux couches localisées, améliore encore davantage les capacités générales de génération de texte des grands modèles de diffusion tout en préservant la qualité et la diversité des générations de ces modèles. Ensuite, nous démontrons comment nous pouvons utiliser les couches localisées pour éditer le contenu textuel dans les images générées. Enfin, nous étendons cette idée à un cas d'utilisation pratique consistant à empêcher la génération de texte toxique de manière gratuite. Contrairement aux travaux précédents, notre approche de localisation est largement applicable à diverses architectures de modèles de diffusion, y compris U-Net (par exemple, LDM et SDXL) et celles basées sur des transformateurs (par exemple, DeepFloyd IF et Stable Diffusion 3), utilisant divers encodeurs de texte (par exemple, de CLIP aux grands modèles de langage comme T5). Page du projet disponible à l'adresse suivante : https://t2i-text-loc.github.io/.
Ce document de position soutient que, pour comprendre l'IA, nous ne pouvons pas nous appuyer sur notre vocabulaire existant de mots humains. Au lieu de cela, nous devrions nous efforcer de développer des néologismes : de nouveaux mots qui représentent des concepts humains précis que nous souhaitons enseigner aux machines, ou des concepts machines que nous devons apprendre. Nous partons du postulat que les humains et les machines ont des concepts différents. Cela signifie que l'interprétabilité peut être envisagée comme un problème de communication : les humains doivent être capables de référencer et de contrôler les concepts machines, et de communiquer des concepts humains aux machines. Nous croyons que la création d'un langage partagé entre humains et machines, grâce au développement de néologismes, pourrait résoudre ce problème de communication. Les néologismes réussis atteignent un niveau d'abstraction utile : pas trop détaillés, afin d'être réutilisables dans de nombreux contextes, et pas trop généraux, afin de transmettre des informations précises. À titre de preuve de concept, nous démontrons comment un "néologisme de longueur" permet de contrôler la longueur des réponses des LLM, tandis qu'un "néologisme de diversité" permet d'échantillonner des réponses plus variées. En somme, nous soutenons que nous ne pouvons pas comprendre l'IA en utilisant notre vocabulaire existant, et que son expansion par le biais de néologismes crée des opportunités pour mieux contrôler et comprendre les machines.
Les modèles de base pré-entraînés (FMs) ont démontré des performances exceptionnelles dans les tâches de prévision de séries temporelles univariées. Cependant, plusieurs défis pratiques persistent, notamment la gestion des dépendances complexes entre les caractéristiques et la quantification de l'incertitude dans les prédictions. Cette étude vise à surmonter ces limitations critiques en introduisant des adaptateurs ; des transformations de l'espace des caractéristiques qui facilitent l'utilisation efficace des FMs pré-entraînés pour les séries temporelles univariées dans des tâches multivariées. Les adaptateurs fonctionnent en projetant les entrées multivariées dans un espace latent approprié et en appliquant le FM indépendamment à chaque dimension. Inspirés par la littérature sur l'apprentissage de représentations et les réseaux de neurones bayésiens partiellement stochastiques, nous présentons une gamme d'adaptateurs et de stratégies d'optimisation/d'inférence. Les expériences menées sur des ensembles de données synthétiques et réels confirment l'efficacité des adaptateurs, démontrant des améliorations substantielles dans la précision de la prévision et la quantification de l'incertitude par rapport aux méthodes de référence. Notre cadre, AdaPTS, positionne les adaptateurs comme une solution modulaire, évolutive et efficace pour exploiter les FMs de séries temporelles dans des contextes multivariés, favorisant ainsi leur adoption plus large dans des applications réelles. Nous publions le code à l'adresse https://github.com/abenechehab/AdaPTS.
Les langues à ressources limitées (LRL) rencontrent d'importants défis en traitement automatique du langage naturel (TALN) en raison de données limitées. Alors que les modèles de langage de grande taille (LLM) à la pointe de la technologie actuelle peinent encore avec les LRL, des modèles multilingues plus petits (mLM) tels que mBERT et XLM-R offrent de meilleures perspectives en raison d'une meilleure adaptation de leur capacité aux tailles réduites des données d'entraînement. Cette étude examine systématiquement les méthodes d'adaptation basées sur des adaptateurs efficaces en termes de paramètres pour adapter les mLM aux LRL, évaluant trois architectures : Séquentielle à Bouchon, Inversible à Bouchon, et Adaptation à Rang Faible. En utilisant du texte non structuré de GlotCC et des connaissances structurées de ConceptNet, nous montrons que de petits ensembles de données d'adaptation (par exemple, jusqu'à 1 Go de texte libre ou quelques Mo de données de graphe de connaissances) produisent des gains dans les tâches intrinsèques (modélisation de langage masqué) et extrinsèques (classification de sujets, analyse de sentiments et reconnaissance d'entités nommées). Nous constatons que les adaptateurs à Bouchon Séquentielle excellent dans la modélisation de langage, tandis que les adaptateurs à Bouchon Inversible surpassent légèrement les autres méthodes sur les tâches ultérieures en raison d'un meilleur alignement des plongements et d'un plus grand nombre de paramètres. Les méthodes basées sur des adaptateurs égalent ou surpassent le fine-tuning complet tout en utilisant beaucoup moins de paramètres, et les mLM plus petits se révèlent plus efficaces pour les LRL que les LLM massifs tels que les modèles distillés basés sur LLaMA-3, GPT-4 et DeepSeek-R1. Alors que l'adaptation améliore les performances, la taille des données de pré-entraînement reste le facteur dominant, en particulier pour les langues bénéficiant d'une couverture de pré-entraînement étendue.
L'ajustement fin des grands modèles de langage (LLM) sur des ensembles de données spécifiques est une pratique courante pour améliorer les performances sur des tâches cibles. Cependant, ce gain de performance conduit souvent à un surajustement, où le modèle devient trop spécialisé soit dans la tâche, soit dans les caractéristiques des données d'entraînement, entraînant une perte de généralisation. Cet article présente l'approche d'Ajustement Fin Sélectif Auto-vers-Supervisé (S3FT), qui obtient de meilleures performances que l'ajustement fin supervisé standard (SFT) tout en améliorant la généralisation. S3FT tire parti de l'existence de multiples réponses valides à une requête. En utilisant les réponses correctes du modèle, S3FT réduit la spécialisation du modèle lors de l'étape d'ajustement fin. S3FT identifie d'abord les réponses correctes du modèle à partir de l'ensemble d'entraînement en déployant un juge approprié. Ensuite, il ajuste finalement le modèle en utilisant les réponses correctes du modèle et la réponse de référence (ou sa paraphrase) pour les échantillons restants. L'efficacité de S3FT est démontrée à travers des expériences sur des tâches de raisonnement mathématique, de programmation Python et de compréhension de lecture. Les résultats montrent que le SFT standard peut entraîner une baisse de performance moyenne allant jusqu'à 4,4 sur plusieurs références, telles que MMLU et TruthfulQA. En revanche, S3FT réduit cette baisse de moitié, c'est-à-dire 2,5, indiquant de meilleures capacités de généralisation que le SFT tout en obtenant des performances significativement meilleures sur les tâches d'ajustement fin.
Dans cet article, nous proposons une architecture de convolution multi-niveaux efficace pour l'ancrage visuel 3D. Les méthodes conventionnelles peinent à répondre aux exigences de l'inférence en temps réel en raison de leur architecture en deux étapes ou basée sur des points. Inspirés par le succès de l'architecture de convolution entièrement creuse multi-niveaux dans la détection d'objets 3D, nous visons à construire un nouveau cadre d'ancrage visuel 3D suivant cette voie technique. Cependant, dans la tâche d'ancrage visuel 3D, la représentation de la scène 3D doit interagir profondément avec les caractéristiques textuelles, ce qui rend l'architecture basée sur la convolution creuse inefficace pour cette interaction en raison de la grande quantité de caractéristiques voxel. Pour cela, nous proposons l'élagage guidé par le texte (TGP) et l'ajout basé sur la complétion (CBA) pour fusionner de manière efficace la représentation de la scène 3D et les caractéristiques textuelles par un élagage progressif des régions et une complétion ciblée. Plus précisément, le TGP itère pour sparsifier la représentation de la scène 3D et interagit ainsi efficacement les caractéristiques voxel avec les caractéristiques textuelles par attention croisée. Pour atténuer l'effet de l'élagage sur les informations géométriques délicates, le CBA corrige de manière adaptative la région sur-élaguée par complétion voxel avec une surcharge de calcul négligeable. Comparée aux méthodes à une seule étape précédentes, notre méthode atteint une vitesse d'inférence maximale et surpasse la méthode la plus rapide précédente de 100\% en FPS. Notre méthode atteint également une précision de pointe, même comparée aux méthodes en deux étapes, avec une avance de +1,13 en Acc@0,5 sur ScanRefer, et des avances de +2,6 et +3,2 sur NR3D et SR3D respectivement. Le code est disponible à l'adresse https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
Un objectif clé de l'intelligence incarnée est de permettre aux agents d'exécuter des tâches à long terme dans des environnements dynamiques tout en maintenant une prise de décision robuste et une capacité d'adaptation. Pour atteindre cet objectif, nous proposons l'Agent à Mémoire Spatio-Temporelle (STMA), un cadre novateur conçu pour améliorer la planification et l'exécution des tâches grâce à l'intégration d'une mémoire spatio-temporelle. STMA repose sur trois composants essentiels : (1) un module de mémoire spatio-temporelle qui capture en temps réel les changements historiques et environnementaux, (2) un graphe de connaissances dynamique qui facilite le raisonnement spatial adaptatif, et (3) un mécanisme planificateur-critique qui affine itérativement les stratégies de tâches. Nous évaluons STMA dans l'environnement TextWorld sur 32 tâches, impliquant une planification et une exploration en plusieurs étapes avec différents niveaux de complexité. Les résultats expérimentaux montrent que STMA obtient une amélioration de 31,25 % du taux de réussite et une augmentation de 24,7 % du score moyen par rapport au modèle de pointe. Ces résultats soulignent l'efficacité de la mémoire spatio-temporelle pour faire progresser les capacités mémorielles des agents incarnés.
La modélisation d'images masquées (MIM) propose une approche prometteuse pour l'apprentissage de représentations auto-supervisées, cependant les modèles MIM existants restent en retrait par rapport à l'état de l'art. Dans cet article, nous analysons systématiquement les représentations cibles, les fonctions de perte et les architectures, pour introduire CAPI - un nouveau cadre purement MIM qui repose sur la prédiction de regroupements latents. Notre approche exploite une fonction de perte basée sur le clustering, qui est stable à entraîner, et présente des propriétés de mise à l'échelle prometteuses. Notre architecture ViT-L, CAPI, atteint une précision de 83,8 % sur ImageNet et un mIoU de 32,1 % sur ADE20K avec de simples sondes linéaires, surpassant nettement les méthodes MIM précédentes et s'approchant des performances de l'état de l'art actuel, DINOv2. Nous mettons à disposition l'intégralité de notre code et de nos modèles.
Dans les applications des modèles de diffusion, la génération contrôlée revêt une importance pratique, mais reste un défi. Les méthodes actuelles pour la génération contrôlée se concentrent principalement sur la modification de la fonction de score des modèles de diffusion, tandis que la diffusion à réversion vers la moyenne (Mean Reverting, MR) modifie directement la structure de l'équation différentielle stochastique (EDS), rendant l'incorporation de conditions d'image plus simple et plus naturelle. Cependant, les échantillonneurs rapides actuels, sans nécessité d'entraînement, ne sont pas directement applicables à la diffusion MR. Ainsi, la diffusion MR nécessite des centaines d'évaluations de fonctions (NFEs) pour obtenir des échantillons de haute qualité. Dans cet article, nous proposons un nouvel algorithme nommé MRS (MR Sampler) pour réduire les NFEs d'échantillonnage de la diffusion MR. Nous résolvons l'EDS en temps inverse et l'équation différentielle ordinaire de flux de probabilité (PF-ODE) associées à la diffusion MR, et dérivons des solutions semi-analytiques. Ces solutions consistent en une fonction analytique et une intégrale paramétrée par un réseau de neurones. Sur la base de cette solution, nous pouvons générer des échantillons de haute qualité en moins d'étapes. Notre approche ne nécessite pas d'entraînement et prend en charge toutes les paramétrisations principales, y compris la prédiction de bruit, la prédiction de données et la prédiction de vitesse. Des expériences approfondies démontrent que le MR Sampler maintient une qualité d'échantillonnage élevée avec une accélération de 10 à 20 fois sur dix tâches différentes de restauration d'images. Notre algorithme accélère la procédure d'échantillonnage de la diffusion MR, la rendant plus pratique pour la génération contrôlée.
CLaMP 3 est un cadre unifié développé pour relever les défis de généralisation croisée modale et linguistique en recherche d'informations musicales. En utilisant l'apprentissage contrastif, il aligne toutes les principales modalités musicales - y compris la partition, les signaux de performance et les enregistrements audio - avec du texte multilingue dans un espace de représentation partagé, permettant la recherche à travers des modalités non alignées avec le texte comme pont. Il présente un encodeur de texte multilingue adaptable à des langues non vues, montrant une forte généralisation croisée linguistique. En exploitant la génération augmentée par recherche, nous avons créé M4-RAG, un ensemble de données à grande échelle sur le web composé de 2,31 millions de paires musique-texte. Cet ensemble de données est enrichi de métadonnées détaillées représentant un large éventail de traditions musicales mondiales. Pour faire avancer la recherche future, nous publions WikiMT-X, un banc d'essai comprenant 1 000 triplets de partition, audio et descriptions textuelles variées et riches. Les expériences montrent que CLaMP 3 atteint des performances de pointe sur plusieurs tâches de recherche d'informations musicales, dépassant significativement les baselines solides précédentes et démontrant une excellente généralisation dans des contextes musicaux multimodaux et multilingues.
Les véhicules autonomes actuels s'appuient principalement sur leurs capteurs individuels pour comprendre les scènes environnantes et planifier les trajectoires futures, ce qui peut s'avérer peu fiable en cas de défaillance ou d'occlusion des capteurs. Pour résoudre ce problème, des méthodes de perception coopérative via la communication véhicule à véhicule (V2V) ont été proposées, mais elles ont tendance à se concentrer sur la détection et le suivi. La manière dont ces approches contribuent à la performance globale de la planification coopérative reste encore peu explorée. Inspirés par les récents progrès utilisant les modèles de langage de grande taille (LLM) pour construire des systèmes de conduite autonome, nous proposons un nouveau cadre de problème qui intègre un LLM dans la conduite autonome coopérative, avec le jeu de données et le benchmark Vehicle-to-Vehicle Question-Answering (V2V-QA). Nous proposons également notre méthode de base Vehicle-to-Vehicle Large Language Model (V2V-LLM), qui utilise un LLM pour fusionner les informations de perception provenant de plusieurs véhicules autonomes connectés (CAV) et répondre à des questions liées à la conduite : ancrage, identification d'objets remarquables et planification. Les résultats expérimentaux montrent que notre V2V-LLM proposé peut être une architecture de modèle unifiée prometteuse pour effectuer diverses tâches dans la conduite autonome coopérative, et surpasse d'autres méthodes de base utilisant différentes approches de fusion. Notre travail ouvre également une nouvelle direction de recherche qui peut améliorer la sécurité des futurs systèmes de conduite autonome. Notre site web de projet : https://eddyhkchiu.github.io/v2vllm.github.io/ .
L'entraînement au refus sur les modèles de langage de grande taille (LLMs) empêche les sorties nuisibles, mais cette défense reste vulnérable aux contournements automatisés et conçus par des humains. Nous présentons une nouvelle approche LLM-comme-red-teamer dans laquelle un humain contourne un LLM entraîné au refus pour le rendre disposé à contourner lui-même ou d'autres LLMs. Nous appelons les LLMs contournés des attaquants J_2, qui peuvent évaluer systématiquement les modèles cibles en utilisant diverses stratégies de red teaming et améliorer leurs performances via l'apprentissage en contexte à partir des échecs précédents. Nos expériences montrent que Sonnet 3.5 et Gemini 1.5 pro surpassent les autres LLMs en tant que J_2, atteignant respectivement des taux de réussite d'attaque (ASR) de 93,0 % et 91,0 % contre GPT-4o (et des résultats similaires sur d'autres LLMs performants) sur Harmbench. Notre travail introduit non seulement une approche évolutive au red teaming stratégique, s'inspirant des red teamers humains, mais met également en lumière le contournement-pour-contournement comme un mode d'échec négligé des protections. Plus précisément, un LLM peut contourner ses propres protections en utilisant une version contournée de lui-même qui est disposée à aider à un contournement supplémentaire. Pour prévenir tout usage abusif direct avec J_2, tout en faisant progresser la recherche en sécurité de l'IA, nous partageons publiquement notre méthodologie tout en gardant privés les détails spécifiques des incitations.
Les protéines sont des machines moléculaires dynamiques dont les fonctions biologiques, englobant la catalyse enzymatique, la transduction de signaux et l'adaptation structurelle, sont intrinsèquement liées à leurs mouvements. Cependant, concevoir des protéines avec des propriétés dynamiques ciblées reste un défi en raison des relations complexes et dégénérées entre la séquence, la structure et le mouvement moléculaire. Nous présentons ici VibeGen, un cadre d'IA générative permettant la conception de novo de protéines de bout en bout, conditionnée par les vibrations des modes normaux. VibeGen utilise une architecture duale agentique, comprenant un concepteur de protéines qui génère des candidats de séquences basés sur des modes vibratoires spécifiés, et un prédicteur de protéines qui évalue leur précision dynamique. Cette approche combine diversité, précision et nouveauté durant le processus de conception. Grâce à des simulations moléculaires à l'échelle atomique comme validation directe, nous démontrons que les protéines conçues reproduisent fidèlement les amplitudes des modes normaux prescrits le long du squelette, tout en adoptant diverses structures stables et fonctionnellement pertinentes. Notamment, les séquences générées sont de novo, ne présentant aucune similarité significative avec les protéines naturelles, élargissant ainsi l'espace des protéines accessibles au-delà des contraintes évolutives. Notre travail intègre la dynamique des protéines dans la conception générative de protéines, et établit un lien direct et bidirectionnel entre la séquence et le comportement vibratoire, ouvrant de nouvelles voies pour l'ingénierie de biomolécules aux propriétés dynamiques et fonctionnelles sur mesure. Ce cadre a des implications vastes pour la conception rationnelle d'enzymes flexibles, d'échafaudages dynamiques et de biomatériaux, ouvrant la voie à une ingénierie des protéines pilotée par l'IA et informée par la dynamique.