Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles de diffusion ont considérablement amélioré les capacités de génération et d'édition vidéo. Cependant, l'édition vidéo multi-granulaire, qui englobe des modifications au niveau de la classe, de l'instance et des parties, reste un défi majeur. Les principales difficultés de l'édition multi-granulaire incluent le désalignement sémantique du contrôle texte-région et le couplage des caractéristiques au sein du modèle de diffusion. Pour résoudre ces difficultés, nous présentons VideoGrain, une approche zero-shot qui module les mécanismes d'attention spatio-temporelle (croisée et auto-attention) pour obtenir un contrôle fin du contenu vidéo. Nous améliorons le contrôle texte-région en amplifiant l'attention de chaque prompt local sur sa région spatialement dissociée correspondante tout en minimisant les interactions avec les zones non pertinentes dans l'attention croisée. De plus, nous améliorons la séparation des caractéristiques en augmentant la conscience intra-région et en réduisant les interférences inter-régions dans l'auto-attention. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans des scénarios réels. Notre code, données et démonstrations sont disponibles à l'adresse suivante : https://knightyxp.github.io/VideoGrain_project_page/
Le contexte long est un sujet important en traitement automatique des langues (NLP), traversant l'évolution des architectures NLP, et offre des opportunités immenses pour les modèles de langage à grande échelle (LLMs), leur conférant un potentiel d'apprentissage continu semblable à celui des humains. Malheureusement, la quête d'un contexte long s'accompagne de nombreux obstacles. Néanmoins, le contexte long reste un avantage concurrentiel essentiel pour les LLMs. Au cours des deux dernières années, la longueur de contexte des LLMs a connu une extension révolutionnaire atteignant des millions de tokens. De plus, la recherche sur les LLMs à contexte long s'est élargie, passant de l'extrapolation de longueur à une attention globale sur les architectures, les infrastructures, les méthodes d'entraînement et les technologies d'évaluation. Inspirés par le poème symphonique *Ainsi parlait Zarathoustra*, nous établissons une analogie entre le parcours d'extension du contexte des LLMs et les tentatives humaines de transcender leur mortalité. Dans cette étude, nous illustrerons comment les LLMs oscillent entre le besoin immense d'un contexte plus long et la nécessité tout aussi grande d'accepter le fait qu'il est finalement limité. Pour y parvenir, nous dressons un panorama global du cycle de vie des LLMs à contexte long selon quatre perspectives : architecture, infrastructure, entraînement et évaluation, mettant en lumière l'ensemble des technologies liées au contexte long. À la fin de cette étude, nous présenterons 10 questions sans réponse auxquelles sont actuellement confrontés les LLMs à contexte long. Nous espérons que cette étude pourra servir d'introduction systématique à la recherche sur les LLMs à contexte long.
Nous présentons Slam, une méthode pour entraîner des modèles de langage vocal (SLM) de haute qualité sur un seul GPU académique en 24 heures. Cela est rendu possible grâce à une analyse empirique de l'initialisation et de l'architecture du modèle, des données d'entraînement synthétiques, de l'optimisation des préférences avec des données synthétiques et de l'ajustement de tous les autres composants. Nous démontrons empiriquement que cette méthode d'entraînement s'adapte également bien à des ressources de calcul plus importantes, obtenant des résultats comparables aux meilleurs SLM pour une fraction du coût de calcul. Nous espérons que ces insights rendront l'entraînement et la recherche sur les SLM plus accessibles. Dans le contexte des lois d'échelle des SLM, nos résultats surpassent largement les performances optimales prédites en termes de calcul, offrant une perspective optimiste quant à la faisabilité des SLM. Consultez le code, les données, les modèles et les échantillons sur https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Notre objectif principal ici est de créer un modèle de perception généraliste performant, capable de traiter plusieurs tâches tout en respectant des contraintes en termes de ressources computationnelles et de données d'entraînement. Pour y parvenir, nous avons recours à des modèles de diffusion texte-image pré-entraînés sur des milliards d'images. Nos métriques d'évaluation exhaustives démontrent que DICEPTION aborde efficacement plusieurs tâches de perception, atteignant des performances comparables aux modèles de pointe. Nous obtenons des résultats équivalents à ceux de SAM-vit-h en utilisant seulement 0,06 % de leurs données (par exemple, 600 000 contre 1 milliard d'images annotées au niveau des pixels). Inspiré par Wang et al., DICEPTION formule les sorties de diverses tâches de perception en utilisant un encodage couleur ; et nous montrons que la stratégie consistant à attribuer des couleurs aléatoires à différentes instances est très efficace à la fois pour la segmentation d'entités et la segmentation sémantique. L'unification de diverses tâches de perception en tant que génération d'images conditionnelles nous permet de tirer pleinement parti des modèles texte-image pré-entraînés. Ainsi, DICEPTION peut être entraîné de manière efficace à un coût plusieurs ordres de grandeur inférieur, par rapport aux modèles conventionnels entraînés à partir de zéro. Lors de l'adaptation de notre modèle à d'autres tâches, il ne nécessite qu'un ajustement fin sur aussi peu que 50 images et 1 % de ses paramètres. DICEPTION offre des perspectives précieuses et une solution plus prometteuse pour les modèles visuels généralistes.
Les récents progrès en matière de tokenisation audio ont considérablement amélioré l'intégration des capacités audio dans les grands modèles de langage (LLMs). Cependant, la compréhension et la génération audio sont souvent traitées comme des tâches distinctes, ce qui entrave le développement de modèles audio-langage véritablement unifiés. Bien que l'ajustement par instruction ait démontré un succès remarquable dans l'amélioration de la généralisation et de l'apprentissage zero-shot pour le texte et la vision, son application à l'audio reste largement inexplorée. Un obstacle majeur est le manque de jeux de données complets unifiant la compréhension et la génération audio. Pour remédier à cela, nous présentons Audio-FLAN, un jeu de données d'ajustement par instruction à grande échelle couvrant 80 tâches diverses dans les domaines de la parole, de la musique et des sons, avec plus de 100 millions d'instances. Audio-FLAN pose les bases de modèles audio-langage unifiés capables de gérer de manière fluide à la fois les tâches de compréhension (par exemple, transcription, compréhension) et de génération (par exemple, parole, musique, sons) dans un large éventail de domaines audio de manière zero-shot. Le jeu de données Audio-FLAN est disponible sur HuggingFace et GitHub et sera continuellement mis à jour.
Bien que l'adaptation à faible rang (LoRA) permette un réglage fin efficace en termes de paramètres pour les grands modèles de langage (LLMs), ses performances restent souvent inférieures à celles du réglage fin complet (Full FT). Les méthodes actuelles optimisent LoRA en initialisant avec des sous-ensembles statiques de décomposition en valeurs singulières (SVD), ce qui conduit à une exploitation sous-optimale des connaissances pré-entraînées. Une autre voie pour améliorer LoRA consiste à intégrer une architecture de mélange d'experts (MoE). Cependant, le désalignement des poids et la dynamique complexe des gradients rendent difficile l'adoption de la SVD avant l'architecture LoRA MoE. Pour atténuer ces problèmes, nous proposons Great LoRA Mixture-of-Expert (GOAT), un cadre qui (1) intègre de manière adaptative des connaissances préalables pertinentes en utilisant un MoE structuré par SVD, et (2) aligne l'optimisation avec un MoE entièrement réglé en dérivant un facteur d'échelle théorique. Nous démontrons qu'une mise à l'échelle appropriée, sans modifier l'architecture ou les algorithmes d'entraînement, améliore l'efficacité et les performances de LoRA MoE. Des expériences menées sur 25 ensembles de données, comprenant la compréhension du langage naturel, le raisonnement de bon sens, la classification d'images et la génération de langage naturel, montrent que GOAT atteint des performances de pointe, réduisant ainsi l'écart avec Full FT.
Les méthodes de constance des couleurs peinent souvent à généraliser leur performance à travers différents capteurs d'appareils photo en raison de leurs sensibilités spectrales variables. Nous présentons GCC, qui exploite des modèles de diffusion pour intégrer des mires colorimétriques dans les images afin d'estimer l'éclairage. Nos innovations clés incluent : (1) une approche d'inférence déterministe en une seule étape qui intègre des mires reflétant l'éclairage de la scène, (2) une technique de décomposition Laplacienne qui préserve la structure des mires tout en permettant une adaptation des couleurs dépendante de l'éclairage, et (3) une stratégie d'augmentation de données basée sur des masques pour gérer les annotations imprécises des mires colorimétriques. GCC démontre une robustesse supérieure dans des scénarios multi-capteurs, atteignant des taux d'erreur dans les pires 25% de 5,15{\deg} et 4,32{\deg} lors d'évaluations bidirectionnelles, établissant ainsi un nouvel état de l'art. Ces résultats mettent en évidence la stabilité et la capacité de généralisation de notre méthode face à différentes caractéristiques de capteurs, sans nécessiter d'entraînement spécifique à chaque capteur, en faisant une solution polyvalente pour des applications réelles.
La capacité de critique des modèles de langage de grande taille (LLMs) est essentielle pour les capacités de raisonnement, qui peuvent fournir des suggestions nécessaires (par exemple, des analyses détaillées et des retours constructifs). Par conséquent, la manière d'évaluer la capacité de critique des LLMs a suscité une grande attention, et plusieurs benchmarks de critique ont été proposés. Cependant, les benchmarks de critique existants présentent généralement les limitations suivantes : (1) Ils se concentrent sur des tâches de raisonnement diversifiées dans des domaines généraux et offrent une évaluation insuffisante des tâches de code (par exemple, ne couvrant que la tâche de génération de code), où la difficulté des requêtes est relativement faible (par exemple, les requêtes de code de CriticBench proviennent de Humaneval et MBPP). (2) Ils manquent d'une évaluation complète sous différentes dimensions. Pour répondre à ces limitations, nous introduisons un benchmark holistique de critique de code pour les LLMs, appelé CodeCriticBench. Plus précisément, notre CodeCriticBench inclut deux tâches de code principales (à savoir, la génération de code et les questions-réponses sur le code) avec des difficultés variées. En outre, les protocoles d'évaluation incluent une évaluation de critique de base et une évaluation de critique avancée pour différentes caractéristiques, où des listes de contrôle d'évaluation fines sont bien conçues pour les paramètres avancés. Enfin, nous menons des résultats expérimentaux approfondis sur les LLMs existants, qui démontrent l'efficacité de CodeCriticBench.
L'augmentation des ressources de calcul lors du pré-entraînement s'est avérée efficace pour atteindre le multilinguisme, mais en est-il de même pour l'augmentation des ressources au moment du test ? Dans ce travail, nous introduisons MCLM, un benchmark multilingue de mathématiques comprenant des problèmes de niveau compétition dans 55 langues. Nous testons trois méthodes d'augmentation des ressources au moment du test - la modélisation de récompense par résultat (ORM), la modélisation de récompense par processus (ORM), et le forçage budgétaire (BF) - sur Qwen2.5-1.5B Math et MR1-1.5B, un modèle de langage multilingue que nous avons entraîné pour le raisonnement étendu. Nos expériences montrent que l'utilisation de Qwen2.5-1.5B Math avec ORM atteint un score de 35,8 sur MCLM, tandis que BF sur MR1-1.5B obtient 35,2. Bien que les "modèles de langage pensants" aient récemment attiré une attention considérable, nous constatons que leurs performances sont comparables aux méthodes traditionnelles d'augmentation des ressources comme best-of-N lorsqu'elles sont contraintes à des niveaux similaires de FLOPs d'inférence. De plus, bien que BF apporte une amélioration de 20 points sur l'AIME en anglais, il ne fournit qu'un gain moyen de 1,94 point sur les autres langues - un schéma cohérent avec les autres méthodes d'augmentation des ressources au moment du test que nous avons étudiées - soulignant que l'augmentation des ressources au moment du test peut ne pas se généraliser aussi efficacement aux tâches multilingues. Pour encourager des recherches ultérieures, nous publions MCLM, MR1-1.5B, et les résultats d'évaluation.
Les récents progrès dans la génération vidéo ont permis aux modèles de synthétiser des vidéos de haute qualité d'une durée d'une minute. Cependant, la génération de vidéos encore plus longues avec une cohérence temporelle reste un défi majeur, et les méthodes existantes d'extrapolation de longueur entraînent souvent des répétitions temporelles ou un ralentissement des mouvements. Dans ce travail, nous analysons systématiquement le rôle des composantes fréquentielles dans les embeddings positionnels et identifions une fréquence intrinsèque qui régit principalement le comportement d'extrapolation. Sur la base de cette observation, nous proposons RIFLEx, une approche minimale mais efficace qui réduit la fréquence intrinsèque pour supprimer les répétitions tout en préservant la cohérence des mouvements, sans nécessiter de modifications supplémentaires. RIFLEx offre un véritable "free lunch" en permettant une extrapolation de haute qualité à 2 fois la longueur originale sur des transformateurs de diffusion vidéo de pointe, de manière totalement exempte d'entraînement. De plus, il améliore la qualité et permet une extrapolation à 3 fois la longueur par un ajustement minimal, sans nécessiter de longues vidéos. Page du projet et codes : https://riflex-video.github.io/{https://riflex-video.github.io/.}
Cet article évalue de manière exhaustive plusieurs optimiseurs récemment proposés pour l'entraînement en 4 bits, révélant que la faible précision amplifie la sensibilité aux taux d'apprentissage et provoque souvent une instabilité des normes de gradient, conduisant à une divergence à des taux d'apprentissage plus élevés. Parmi ceux-ci, SPAM, un optimiseur récent intégrant une réinitialisation de l'impulsion et un découpage de gradient prenant en compte les pics, obtient les meilleures performances à différents niveaux de bits, mais peine à stabiliser les normes de gradient, nécessitant un réglage minutieux du taux d'apprentissage. Pour pallier ces limitations, nous proposons Stable-SPAM, qui intègre des techniques améliorées de normalisation et de découpage du gradient. Plus précisément, Stable-SPAM (1) met à jour de manière adaptative le seuil de découpage pour les gradients en pic en suivant leurs maxima historiques ; (2) normalise l'ensemble de la matrice de gradient en fonction de ses statistiques historiques de norme l_2 ; et (3) hérite de la réinitialisation de l'impulsion de SPAM pour réinitialiser périodiquement les premier et second moments d'Adam, atténuant ainsi l'accumulation de gradients en pic. Des expériences approfondies montrent que Stable-SPAM stabilise efficacement les normes de gradient lors de l'entraînement de modèles de langage en 4 bits, offrant des performances supérieures à celles d'Adam et de SPAM. Notamment, notre modèle LLaMA-1B en 4 bits entraîné avec Stable-SPAM surpasse le LLaMA-1B en BF16 entraîné avec Adam jusqu'à 2 points de perplexité. De plus, lorsque les deux modèles sont entraînés en 4 bits, Stable-SPAM atteint la même perte qu'Adam tout en nécessitant environ la moitié des étapes d'entraînement. Le code est disponible à l'adresse https://github.com/TianjinYellow/StableSPAM.git.
Les modèles de langage multimodaux de grande envergure (MLLMs) existants sont principalement entraînés et testés sur des entrées visuelles-textuelles cohérentes, laissant ouverte la question de leur capacité à gérer les incohérences dans des contenus réels riches en mise en page. Pour combler cette lacune, nous proposons le benchmark de raisonnement sur les incohérences multimodales (MMIR) afin d'évaluer la capacité des MLLMs à détecter et à raisonner sur les discordances sémantiques dans des artefacts tels que les pages web, les diapositives de présentation et les affiches. MMIR comprend 534 échantillons complexes, chacun contenant des erreurs injectées de manière synthétique réparties dans cinq catégories exigeantes en raisonnement : contradiction factuelle, attribution erronée d'identité, discordance contextuelle, divergence quantitative et incohérence temporelle/spatiale. Nous évaluons six MLLMs de pointe, montrant que les modèles dotés de capacités dédiées au raisonnement multimodal, tels que o1, surpassent largement leurs homologues, tandis que les modèles open source restent particulièrement vulnérables aux erreurs d'incohérence. Des analyses détaillées des erreurs révèlent en outre que les modèles excellent dans la détection des incohérences limitées à une seule modalité, en particulier dans le texte, mais peinent à gérer les conflits intermodaux et les mises en page complexes. Des expériences de sondage montrent que l'incitation à une modalité unique, incluant les méthodes de chaîne de pensée (CoT) et d'ensemble de marques (SoM), apporte des gains marginaux, révélant un goulot d'étranglement majeur dans le raisonnement intermodal. Nos résultats soulignent la nécessité d'un raisonnement multimodal avancé et orientent les recherches futures sur les incohérences multimodales.
Les décisions de publication des systèmes d'IA générative déterminent si les composants du système sont rendus disponibles, mais la publication ne traite pas de nombreux autres éléments qui influencent la manière dont les utilisateurs et les parties prenantes interagissent avec un système. Au-delà de la publication, l'accès aux composants du système informe sur les risques et les bénéfices potentiels. L'accès fait référence aux besoins pratiques, qu'ils soient infrastructurels, techniques ou sociétaux, nécessaires pour utiliser les composants disponibles d'une certaine manière. Nous décomposons l'accès selon trois axes : les ressources, l'utilisabilité technique et l'utilité. Dans chaque catégorie, un ensemble de variables par composant du système clarifie les compromis. Par exemple, les ressources nécessitent un accès à l'infrastructure informatique pour servir les poids du modèle. Nous comparons également l'accessibilité de quatre modèles de langage à haute performance, deux à poids ouverts et deux à poids fermés, en montrant des considérations similaires pour tous basées sur les variables d'accès. Les variables d'accès établissent les fondements pour pouvoir étendre ou augmenter l'accès aux utilisateurs ; nous examinons l'échelle de l'accès et comment cette échelle affecte la capacité à gérer et à intervenir sur les risques. Ce cadre englobe mieux le paysage et les compromis risques-bénéfices des publications de systèmes, afin d'éclairer les décisions de publication, la recherche et les politiques.
L'augmentation rapide de l'utilisation des appareils mobiles nécessite une automatisation améliorée pour une gestion fluide des tâches. Cependant, de nombreux frameworks pilotés par l'IA peinent en raison d'une connaissance opérationnelle insuffisante. Les connaissances écrites manuellement aident, mais sont laborieuses et inefficaces. Pour relever ces défis, nous présentons Mobile-Agent-V, un framework qui exploite le guidage vidéo pour fournir une connaissance opérationnelle riche et économique pour l'automatisation mobile. Mobile-Agent-V améliore les capacités d'exécution des tâches en utilisant des entrées vidéo sans nécessiter d'échantillonnage ou de prétraitement spécialisé. Mobile-Agent-V intègre une stratégie de fenêtre glissante et incorpore un agent vidéo et un agent de réflexion profonde pour s'assurer que les actions correspondent aux instructions de l'utilisateur. Grâce à cette approche innovante, les utilisateurs peuvent enregistrer des processus de tâches avec guidage, permettant au système d'apprendre et d'exécuter les tâches de manière autonome et efficace. Les résultats expérimentaux montrent que Mobile-Agent-V obtient une amélioration de performance de 30 % par rapport aux frameworks existants.
La résolution de problèmes complexes de manipulation robotique à long terme nécessite des capacités de planification de haut niveau sophistiquées, la capacité à raisonner sur le monde physique et à choisir de manière réactive les compétences motrices appropriées. Les modèles vision-langage (VLMs) pré-entraînés sur des données provenant d'Internet pourraient en principe offrir un cadre pour aborder de tels problèmes. Cependant, dans leur forme actuelle, les VLMs manquent à la fois d'une compréhension nuancée de la physique complexe requise pour la manipulation robotique et de la capacité à raisonner sur de longues périodes pour résoudre les problèmes d'accumulation d'erreurs. Dans cet article, nous introduisons un nouveau cadre de calcul au moment du test qui améliore les capacités de raisonnement physique des VLMs pour les tâches de manipulation en plusieurs étapes. Au cœur de notre approche, nous améliorons itérativement un VLM pré-entraîné avec un mécanisme de "réflexion" - il utilise un modèle génératif pour imaginer les états futurs du monde, exploite ces prédictions pour guider la sélection des actions, et réfléchit de manière critique aux éventuelles sous-optimalités pour affiner son raisonnement. Les résultats expérimentaux démontrent que notre méthode surpasse significativement plusieurs VLMs commerciaux de pointe ainsi que d'autres approches post-entraînement telles que la recherche arborescente Monte Carlo (MCTS). Les vidéos sont disponibles à l'adresse https://reflect-vlm.github.io.
Nous présentons X-Dancer, un nouveau pipeline d'animation d'images piloté par la musique en mode zero-shot, capable de créer des vidéos de danse humaine réalistes, diversifiées et de longue durée à partir d'une seule image statique. Au cœur de ce système, nous introduisons un cadre unifié basé sur des transformers et de la diffusion, mettant en avant un modèle transformer autorégressif qui synthétise des séquences de tokens étendues et synchronisées avec la musique pour les poses 2D du corps, de la tête et des mains. Ces séquences guident ensuite un modèle de diffusion pour produire des images de danse cohérentes et réalistes. Contrairement aux méthodes traditionnelles qui génèrent principalement des mouvements humains en 3D, X-Dancer surmonte les limitations de données et améliore l'évolutivité en modélisant un large spectre de mouvements de danse en 2D, capturant leur alignement nuancé avec les rythmes musicaux grâce à des vidéos monoculaires facilement accessibles. Pour y parvenir, nous construisons d'abord une représentation tokenisée spatialement compositionnelle à partir d'étiquettes de poses humaines 2D associées à des scores de confiance de points clés, encodant à la fois les grands mouvements articulés du corps (par exemple, le haut et le bas du corps) et les mouvements fins (par exemple, la tête et les mains). Nous concevons ensuite un modèle transformer musique-vers-mouvement qui génère de manière autorégressive des séquences de tokens de poses de danse alignées sur la musique, intégrant une attention globale à la fois au style musical et au contexte des mouvements précédents. Enfin, nous exploitons un modèle de diffusion pour animer l'image de référence avec ces tokens de poses synthétisés via AdaIN, formant ainsi un cadre end-to-end entièrement différentiable. Les résultats expérimentaux démontrent que X-Dancer est capable de produire des vidéos de danse à la fois diversifiées et caractérisées, surpassant largement les méthodes de pointe en termes de diversité, d'expressivité et de réalisme. Le code et le modèle seront disponibles à des fins de recherche.
Cet article développe un cadre agentique qui utilise des modèles de langage de grande taille (LLM) pour automatiser la génération de contenu marketing persuasif et fondé, en prenant les descriptions de biens immobiliers comme domaine d'application central. Notre méthode est conçue pour aligner le contenu généré avec les préférences des utilisateurs tout en mettant en avant des attributs factuels utiles. Cet agent se compose de trois modules clés : (1) le module de fondation, qui imite le comportement d'experts humains pour prédire les caractéristiques commercialisables ; (2) le module de personnalisation, qui aligne le contenu avec les préférences des utilisateurs ; (3) le module de marketing, qui garantit l'exactitude factuelle et l'inclusion de caractéristiques localisées. Nous menons des expériences systématiques avec des sujets humains dans le domaine du marketing immobilier, en ciblant un groupe de potentiels acheteurs de maisons. Les résultats montrent que les descriptions marketing générées par notre approche sont préférées à celles rédigées par des experts humains avec une marge significative. Nos résultats suggèrent un cadre agentique prometteur basé sur les LLM pour automatiser le marketing ciblé à grande échelle tout en assurant une génération responsable basée uniquement sur des faits.
Alors que le paysage des modèles d'IA à poids ouverts continue de se développer - avec l'évolution des modèles, des investissements significatifs et l'intérêt croissant des utilisateurs - il devient de plus en plus crucial de prédire quels modèles finiront par stimuler l'innovation et façonner les écosystèmes de l'IA. En nous appuyant sur des parallèles avec la dynamique des citations dans la littérature scientifique, nous proposons un cadre pour quantifier l'évolution de l'influence d'un modèle à poids ouvert. Plus précisément, nous adaptons le modèle introduit par Wang et al. pour les citations scientifiques, en utilisant trois paramètres clés - l'immédiateté, la longévité et la fitness relative - pour suivre le nombre cumulé de modèles affinés dérivés d'un modèle à poids ouvert. Nos résultats révèlent que cette approche inspirée des citations peut capturer efficacement les trajectoires variées de l'adoption des modèles à poids ouverts, la plupart des modèles s'ajustant bien, tandis que les valeurs aberrantes indiquent des schémas uniques ou des sauts abrupts dans leur utilisation.
L'organisation hiérarchique est fondamentale pour les systèmes biologiques et les sociétés humaines, mais les systèmes d'intelligence artificielle reposent souvent sur des architectures monolithiques qui limitent l'adaptabilité et l'évolutivité. Les approches actuelles d'apprentissage par renforcement hiérarchique (HRL) restreignent généralement les hiérarchies à deux niveaux ou nécessitent un entraînement centralisé, ce qui limite leur applicabilité pratique. Nous présentons le TAME Agent Framework (TAG), un cadre pour construire des systèmes multi-agents hiérarchiques entièrement décentralisés. TAG permet des hiérarchies de profondeur arbitraire grâce à un nouveau concept appelé LevelEnv, qui abstrait chaque niveau de hiérarchie comme l'environnement des agents situés au-dessus. Cette approche standardise le flux d'information entre les niveaux tout en préservant un couplage lâche, permettant une intégration transparente de divers types d'agents. Nous démontrons l'efficacité de TAG en implémentant des architectures hiérarchiques qui combinent différents agents d'apprentissage par renforcement à travers plusieurs niveaux, obtenant ainsi des performances supérieures aux approches classiques de multi-agents sur des benchmarks standards. Nos résultats montrent que l'organisation hiérarchique décentralisée améliore à la fois la vitesse d'apprentissage et les performances finales, positionnant TAG comme une direction prometteuse pour les systèmes multi-agents évolutifs.
Le raisonnement temporel est fondamental pour la cognition humaine et est crucial pour diverses applications dans le monde réel. Bien que les progrès récents des modèles de langage de grande envergure aient démontré des capacités prometteuses en matière de raisonnement temporel, les benchmarks existants reposent principalement sur une construction basée sur des règles, manquent de profondeur contextuelle et impliquent un éventail limité d'entités temporelles. Pour remédier à ces limitations, nous introduisons Chinese Time Reasoning (CTM), un benchmark conçu pour évaluer les modèles de langage de grande envergure sur le raisonnement temporel dans le cadre étendu de la chronologie dynastique chinoise. CTM met l'accent sur les relations inter-entités, l'alignement temporel par paires, ainsi que le raisonnement contextualisé et ancré culturellement, offrant ainsi une évaluation complète. Les résultats expérimentaux approfondis révèlent les défis posés par CTM et mettent en lumière des pistes potentielles d'amélioration.
Les grands modèles de langage (LLMs) ont montré des améliorations remarquables en matière de raisonnement, et de nombreux benchmarks existants ont été résolus, en totalité ou en partie, par des modèles tels que o1 et o3. Cependant, la majorité de ces benchmarks mettent l'accent sur le raisonnement déductif, incluant des tâches mathématiques et de programmation où les règles, telles que les axiomes mathématiques ou la syntaxe de programmation, sont clairement définies, permettant aux LLMs de planifier et d'appliquer ces règles pour parvenir à une solution. En revanche, le raisonnement inductif, où l'on infère les règles sous-jacentes à partir de données observées, reste moins exploré. Ces processus inductifs sont au cœur de la découverte scientifique, car ils permettent aux chercheurs d'extraire des principes généraux à partir d'observations empiriques. Pour évaluer si les LLMs possèdent cette capacité, nous introduisons InductionBench, un nouveau benchmark conçu pour évaluer la capacité de raisonnement inductif des LLMs. Nos résultats expérimentaux révèlent que même les modèles les plus avancés disponibles peinent à maîtriser les classes de complexité les plus simples au sein de la hiérarchie sous-régulière des fonctions, mettant en évidence une lacune notable dans les capacités de raisonnement inductif des LLMs actuels. Le code et les données sont disponibles à l'adresse suivante : https://github.com/Wenyueh/inductive_reasoning_benchmark.
Les grands modèles de langage (LLMs) sont apparus comme des outils puissants pour relever les défis modernes et permettre des applications pratiques. Cependant, leur coût computationnel reste un obstacle majeur à leur adoption généralisée. La quantification s'est imposée comme une technique prometteuse pour démocratiser l'accès et permettre un déploiement sur des appareils à ressources limitées. Malgré ces avancées, la sécurité et la fiabilité des modèles quantifiés restent peu explorées, car les études antérieures négligent souvent les architectures contemporaines et s'appuient sur des benchmarks et des évaluations trop simplistes. Pour combler cette lacune, nous présentons OpenSafetyMini, un nouveau jeu de données ouvert sur la sécurité conçu pour mieux distinguer les modèles. Nous évaluons 4 techniques de quantification de pointe sur les modèles LLaMA et Mistral en utilisant 4 benchmarks, y compris des évaluations humaines. Nos résultats révèlent que la méthode de quantification optimale varie pour une précision de 4 bits, tandis que les techniques de quantification vectorielle offrent les meilleures performances en matière de sécurité et de fiabilité à une précision de 2 bits, jetant ainsi les bases pour de futures recherches.
Ce rapport présente un cadre complet pour la génération de formes 3D et de textures de haute qualité à partir de diverses entrées, incluant des images uniques, des images multi-vues et des descriptions textuelles. Le cadre se compose de deux parties principales : la génération de formes 3D et la génération de textures. (1) Le pipeline de génération de formes 3D utilise un Autoencodeur Variationnel (VAE) pour encoder des géométries 3D implicites dans un espace latent, ainsi qu'un réseau de diffusion pour générer des latents conditionnés par les entrées, avec des modifications pour améliorer la capacité du modèle. Une approche alternative de génération de maillages créés par des artistes (AM) est également explorée, donnant des résultats prometteurs pour des géométries plus simples. (2) La génération de textures implique un processus en plusieurs étapes, commençant par la génération d'images frontales, suivie de la génération d'images multi-vues, de la conversion de textures RGB en PBR, et du raffinement de textures multi-vues en haute résolution. Un planificateur de cohérence est intégré à chaque étape pour assurer une cohérence pixel à pixel entre les textures multi-vues lors de l'inférence, garantissant une intégration fluide. Le pipeline démontre une gestion efficace de divers formats d'entrée, exploitant des architectures neuronales avancées et des méthodologies novatrices pour produire du contenu 3D de haute qualité. Ce rapport détaille l'architecture du système, les résultats expérimentaux, et les directions futures potentielles pour améliorer et étendre le cadre. Le code source et les poids pré-entraînés sont disponibles à l'adresse suivante : https://github.com/Tencent/Tencent-XR-3DGen.
Deux stratégies couramment employées pour lutter contre la montée de la désinformation sur les réseaux sociaux sont (i) la vérification des faits par des organisations professionnelles et (ii) la modération communautaire par les utilisateurs des plateformes. Les changements de politique de Twitter/X et, plus récemment, de Meta, indiquent un éloignement des partenariats avec les organisations de vérification des faits au profit d'une dépendance accrue aux notes communautaires crowdsourcées. Cependant, l'étendue et la nature des dépendances entre la vérification des faits et les notes communautaires utiles restent floues. Pour répondre à ces questions, nous utilisons des modèles de langage pour annoter un large corpus de notes communautaires de Twitter/X avec des attributs tels que le sujet, les sources citées et si elles réfutent des affirmations liées à des récits de désinformation plus larges. Notre analyse révèle que les notes communautaires citent des sources de vérification des faits jusqu'à cinq fois plus que ce qui était précédemment rapporté. La vérification des faits est particulièrement cruciale pour les notes sur des publications liées à des récits plus larges, qui sont deux fois plus susceptibles de faire référence à des sources de vérification des faits par rapport à d'autres sources. En conclusion, nos résultats montrent que la modération communautaire réussie repose fortement sur la vérification des faits professionnelle.
Lorsqu'un humain demande à un LLM de réaliser une tâche de codage en utilisant des fonctionnalités issues d'un vaste dépôt de code, comment fournir le contexte du dépôt au LLM ? Une approche consiste à ajouter l'intégralité du dépôt dans la fenêtre de contexte du LLM. Cependant, la plupart des tâches n'impliquent qu'une fraction des symboles d'un dépôt, des contextes plus longs nuisent aux capacités de raisonnement du LLM, et les fenêtres de contexte ne sont pas illimitées. Alternativement, nous pourrions imiter la capacité humaine à naviguer dans un grand dépôt, sélectionner les bonnes fonctionnalités et élaborer un plan pour résoudre la tâche. Nous proposons MutaGReP (Mutation-guided Grounded Repository Plan Search), une approche pour rechercher des plans qui décomposent une requête utilisateur en étapes en langage naturel ancrées dans la base de code. MutaGReP effectue une recherche arborescente neuronale dans l'espace des plans, explorant en mutant des plans et en utilisant un récupérateur de symboles pour l'ancrage. Sur le benchmark exigeant LongCodeArena, nos plans utilisent moins de 5 % de la fenêtre de contexte de 128K pour GPT-4o mais rivalisent avec les performances de codage de GPT-4o avec une fenêtre de contexte remplie du dépôt. Les plans produits par MutaGReP permettent à Qwen 2.5 Coder 32B et 72B de correspondre aux performances de GPT-4o avec le contexte complet du dépôt et permettent des progrès sur les tâches les plus difficiles de LongCodeArena. Page du projet : zaidkhan.me/MutaGReP
Alors que les chatbots IA deviennent omniprésents, l'interaction vocale représente une approche convaincante pour permettre une communication rapide et à haut débit, tant pour les signaux sémantiques que sociaux. Cela a stimulé la recherche sur les Modèles Audio de Grande Taille (LAMs) pour alimenter des expériences natives de la voix. Cependant, aligner le développement des LAMs sur les objectifs des utilisateurs nécessite une compréhension claire de leurs besoins et préférences afin d'établir des métriques de progression fiables. Cette étude aborde ces défis en introduisant une approche interactive pour évaluer les LAMs et en collectant 7 500 interactions LAM auprès de 484 participants. Grâce à la modélisation thématique des requêtes des utilisateurs, nous identifions les principaux cas d'utilisation pour les interfaces audio. Nous analysons ensuite les classements de préférence des utilisateurs et les retours qualitatifs pour déterminer quels modèles correspondent le mieux à leurs besoins. Enfin, nous évaluons dans quelle mesure les benchmarks statiques prédisent la performance interactive - notre analyse révèle qu'aucun benchmark individuel ne corrèle fortement avec les résultats interactifs (tau ≤ 0,33 pour tous les benchmarks). Bien que la combinaison de multiples caractéristiques grossières offre un pouvoir prédictif modeste (R²=0,30), seuls deux des vingt jeux de données sur la réponse à des questions orales et la prédiction d'âge montrent des corrélations significativement positives. Cela souligne un besoin clair de développer des évaluations de LAMs qui corrèlent mieux avec les préférences des utilisateurs.
L'estimation de la qualité est omniprésente en traduction automatique, tant pour l'évaluation que pour la génération. Malheureusement, les modèles d'estimation de la qualité sont souvent opaques et coûteux en termes de calcul, ce qui les rend peu pratiques pour être intégrés dans des pipelines à grande échelle. Dans ce travail, nous abordons deux défis interconnectés : (1) réduire le coût de l'estimation de la qualité à grande échelle, et (2) développer une méthode peu coûteuse d'estimation de l'incertitude pour l'estimation de la qualité. Pour répondre au second défi, nous introduisons Instant Confidence COMET, un modèle d'estimation de la qualité prenant en compte l'incertitude, qui atteint des performances comparables aux approches précédentes pour une fraction de leur coût. Nous étendons cela à Early-Exit COMET, un modèle d'estimation de la qualité capable de calculer des scores de qualité et les confiances associées dès les premières couches du modèle, nous permettant ainsi de sortir précocement des calculs et de réduire les coûts d'évaluation. Nous appliquons également notre modèle au réordonnancement de la traduction automatique. Nous combinons Early-Exit COMET avec un algorithme de bandit à limite de confiance supérieure pour trouver le meilleur candidat parmi un grand ensemble sans avoir à exécuter le modèle d'évaluation complet sur tous les candidats. Dans les deux cas (évaluation et réordonnancement), nos méthodes réduisent le calcul requis de 50 % avec une très faible dégradation des performances.
La récupération d'images provenant du même emplacement qu'une requête donnée est un élément important de plusieurs tâches en vision par ordinateur, telles que la reconnaissance visuelle de lieux (Visual Place Recognition), la recherche de points d'intérêt (Landmark Retrieval), la localisation visuelle (Visual Localization), la reconstruction 3D et la localisation et cartographie simultanées (SLAM). Cependant, les solutions existantes sont conçues pour fonctionner spécifiquement pour l'une de ces tâches et sont connues pour échouer lorsque les exigences changent légèrement ou lorsqu'elles rencontrent des données hors distribution. Dans cet article, nous combinons une variété de méthodes existantes, de techniques d'entraînement et de jeux de données pour entraîner un modèle de récupération, appelé MegaLoc, qui est performant sur plusieurs tâches. Nous constatons que MegaLoc (1) atteint l'état de l'art sur un grand nombre de jeux de données de reconnaissance visuelle de lieux, (2) obtient des résultats impressionnants sur les jeux de données courants de recherche de points d'intérêt, et (3) établit un nouvel état de l'art pour la localisation visuelle sur les jeux de données LaMAR, où nous avons uniquement modifié la méthode de récupération dans le pipeline de localisation existant. Le code de MegaLoc est disponible à l'adresse suivante : https://github.com/gmberton/MegaLoc.
Répondre à des questions complexes et nécessitant un contexte étendu reste un défi majeur pour les grands modèles de langage (LLMs), car cela exige des clarifications efficaces des questions et une récupération pertinente du contexte. Nous proposons Agentic Long-Context Understanding (AgenticLU), un cadre conçu pour améliorer la compréhension des LLMs face à de telles requêtes en intégrant une auto-clarification ciblée avec un ancrage contextuel au sein d'un flux de travail agentique. Au cœur d'AgenticLU se trouve la Chaîne de Clarifications (CoC), où les modèles affinent leur compréhension grâce à des questions de clarification auto-générées et à des ancrages contextuels correspondants. En échelonnant l'inférence sous forme de recherche arborescente, où chaque nœud représente une étape de la CoC, nous obtenons un rappel de réponse de 97,8 % sur NarrativeQA avec une profondeur de recherche allant jusqu'à trois et un facteur de branchement de huit. Pour amortir le coût élevé de ce processus de recherche lors de l'entraînement, nous exploitons les paires de préférences obtenues à chaque étape par le flux de travail CoC et effectuons un affinage du modèle en deux étapes : (1) un affinage supervisé pour apprendre des stratégies de décomposition efficaces, et (2) une optimisation directe des préférences pour améliorer la qualité du raisonnement. Cela permet aux modèles AgenticLU de générer des clarifications et de récupérer le contexte pertinent de manière efficace et efficiente en une seule passe d'inférence. Des expériences approfondies sur sept tâches nécessitant un contexte étendu montrent qu'AgenticLU surpasse significativement les méthodes d'invocation d'état de l'art et les LLMs spécialisés dans les contextes longs, en réalisant un raisonnement multi-saut robuste tout en maintenant une performance constante à mesure que la longueur du contexte augmente.
Nous présentons MONSTER - le MONash Scalable Time Series Evaluation Repository - une collection de grands ensembles de données pour la classification de séries temporelles. Le domaine de la classification des séries temporelles a bénéficié des références communes établies par les dépôts de classification de séries temporelles UCR et UEA. Cependant, les ensembles de données de ces références sont de petite taille, avec des tailles médianes de 217 et 255 exemples, respectivement. Par conséquent, ils favorisent un sous-espace étroit de modèles optimisés pour atteindre une faible erreur de classification sur une grande variété de petits ensembles de données, c'est-à-dire des modèles qui minimisent la variance et accordent peu d'importance aux problèmes de calcul tels que l'évolutivité. Notre espoir est de diversifier le domaine en introduisant des références utilisant des ensembles de données plus volumineux. Nous croyons qu'il existe un énorme potentiel pour de nouveaux progrès dans le domaine en relevant les défis théoriques et pratiques de l'apprentissage efficace à partir de quantités plus importantes de données.
La pandémie de COVID-19 a mis à rude épreuve les ressources de santé et a suscité des discussions sur la manière dont l'apprentissage automatique pourrait alléger la charge des médecins et contribuer au diagnostic. Les radiographies pulmonaires (CXR) sont utilisées pour le diagnostic de la COVID-19, mais peu d'études prédisent la gravité de l'état d'un patient à partir de ces images. Dans cette étude, nous créons un vaste ensemble de données sur la gravité de la COVID-19 en fusionnant trois sources et nous examinons l'efficacité du transfert d'apprentissage en utilisant des modèles pré-entraînés sur ImageNet et sur des CXR, ainsi que des transformateurs de vision (ViTs), pour des tâches de régression et de classification de la gravité. Un modèle DenseNet161 pré-entraîné a obtenu les meilleurs résultats pour la prédiction de la gravité en trois classes, atteignant une précision globale de 80 %, avec des scores de 77,3 %, 83,9 % et 70 % pour les cas légers, modérés et graves, respectivement. Le ViT a obtenu les meilleurs résultats en régression, avec une erreur absolue moyenne de 0,5676 par rapport aux scores de gravité prédits par les radiologues. Le code source du projet est disponible publiquement.
L'avancée rapide des modèles d'images générées par IA (AGI) a introduit des défis significatifs dans l'évaluation de leur qualité, nécessitant la prise en compte de multiples dimensions telles que la qualité perceptuelle, la correspondance avec l'invite et l'authenticité. Pour relever ces défis, nous proposons M3-AGIQA, un cadre complet d'évaluation de la qualité des AGI qui est Multimodal, Multi-Tours et Multi-Aspects. Notre approche exploite les capacités des Modèles de Langage Multimodaux (MLLMs) en tant qu'encodeurs conjoints de texte et d'images, et distille des capacités avancées de description à partir de MLLMs en ligne dans un modèle local via un réglage fin par Adaptation à Faible Rang (LoRA). Le cadre inclut un mécanisme d'évaluation structuré en plusieurs tours, où des descriptions intermédiaires d'images sont générées pour fournir des insights plus profonds sur les aspects de qualité, correspondance et authenticité. Pour aligner les prédictions avec les jugements perceptuels humains, un prédicteur construit par un xLSTM et une tête de régression est intégré pour traiter les logits séquentiels et prédire les Scores Moyens d'Opinion (MOS). Des expériences approfondies menées sur plusieurs ensembles de données de référence démontrent que M3-AGIQA atteint des performances de pointe, capturant efficacement les aspects nuancés de la qualité des AGI. De plus, une validation croisée sur différents ensembles de données confirme sa forte généralisabilité. Le code est disponible à l'adresse https://github.com/strawhatboy/M3-AGIQA.
La sphère brownienne est un espace métrique aléatoire, homéomorphe à la sphère bidimensionnelle, qui émerge comme la limite d'échelle universelle de nombreux types de cartes planaires aléatoires. La construction directe de la sphère brownienne passe par un analogue continu de la bijection de Cori-Vauquelin-Schaeffer (CVS). La bijection CVS associe des arbres étiquetés à des cartes planaires, et sa version continue associe l'arbre aléatoire continu d'Aldous avec des étiquettes browniennes (le serpent brownien) à la sphère brownienne. Dans ce travail, nous décrivons l'inverse de la bijection CVS continue, en construisant le serpent brownien comme une fonction mesurable de la sphère brownienne. Une attention particulière est nécessaire pour traiter l'orientation de la sphère brownienne.