papers.description
Nous étudions une nouvelle architecture de modèle de langage capable de mettre à l'échelle le calcul au moment du test en raisonnant implicitement dans un espace latent. Notre modèle fonctionne en itérant un bloc récurrent, se déroulant ainsi à une profondeur arbitraire au moment du test. Cela contraste avec les modèles de raisonnement classiques qui mettent à l'échelle le calcul en produisant plus de jetons. Contrairement aux approches basées sur la chaîne de pensée, notre approche ne nécessite pas de données d'entraînement spécialisées, peut fonctionner avec de petites fenêtres contextuelles, et peut capturer des types de raisonnement qui ne sont pas facilement représentés en mots. Nous mettons à l'échelle un modèle de preuve de concept à 3,5 milliards de paramètres et 800 milliards de jetons. Nous montrons que le modèle résultant peut améliorer ses performances sur des bancs d'essai de raisonnement, parfois de manière spectaculaire, jusqu'à une charge de calcul équivalente à 50 milliards de paramètres.
Cet article présente Goku, une famille de modèles de génération d'images et de vidéos de pointe exploitant des transformateurs de flux rectifiés pour atteindre des performances de pointe dans l'industrie. Nous détaillons les éléments fondamentaux permettant une génération visuelle de haute qualité, notamment le pipeline de curation des données, la conception de l'architecture du modèle, la formulation du flux, et l'infrastructure avancée pour un entraînement à grande échelle efficace et robuste. Les modèles Goku démontrent des performances supérieures tant dans les évaluations qualitatives que quantitatives, établissant de nouveaux référentiels pour les principales tâches. Plus précisément, Goku atteint 0,76 sur GenEval et 83,65 sur DPG-Bench pour la génération de texte en image, et 84,85 sur VBench pour les tâches de texte en vidéo. Nous pensons que ce travail offre des perspectives précieuses et des avancées pratiques pour la communauté de recherche dans le développement de modèles de génération conjointe d'images et de vidéos.
Alors que l'incorporation de position rotative (RoPE) et ses variantes sont largement adoptées pour leurs capacités de long contexte, l'extension du RoPE 1D à la vidéo, avec sa structure spatio-temporelle complexe, reste un défi ouvert. Ce travail présente d'abord une analyse approfondie qui identifie quatre caractéristiques clés essentielles pour l'adaptation efficace du RoPE à la vidéo, qui n'ont pas été pleinement prises en compte dans les travaux antérieurs. Dans le cadre de notre analyse, nous introduisons une tâche difficile V-NIAH-D (Aiguille Dans Une Botte de Foin Visuelle avec Distracteurs), qui ajoute des distracteurs périodiques à V-NIAH. La tâche V-NIAH-D démontre que les variantes précédentes du RoPE, manquant d'une allocation temporelle appropriée, sont facilement induites en erreur par les distracteurs. Sur la base de notre analyse, nous introduisons VideoRoPE, avec une structure 3D conçue pour préserver les relations spatio-temporelles. VideoRoPE présente une allocation temporelle basse fréquence pour atténuer les oscillations périodiques, une disposition diagonale pour maintenir la symétrie spatiale, et un espacement temporel ajustable pour découpler l'indexation temporelle et spatiale. VideoRoPE surpasse systématiquement les variantes précédentes du RoPE, à travers diverses tâches ultérieures telles que la recherche de longues vidéos, la compréhension vidéo et l'hallucination vidéo. Notre code sera disponible sur https://github.com/Wiselnn570/VideoRoPE.
Les Transformateurs de Diffusion (DiTs) avec une attention complète en 3D sont à la pointe de la génération vidéo, mais souffrent d'un coût de calcul prohibitif - lors de la génération d'une vidéo de 5 secondes en 720P, l'attention seule prend 800 secondes sur un temps total d'inférence de 945 secondes. Cet article présente l'attention par tuile glissante (STA) pour relever ce défi. STA exploite l'observation selon laquelle les scores d'attention dans les modèles de diffusion vidéo pré-entraînés se concentrent principalement dans des fenêtres 3D localisées. En faisant glisser et en se concentrant sur la région spatiale-temporelle locale, STA élimine la redondance de l'attention complète. Contrairement à l'attention traditionnelle par fenêtre glissante basée sur les jetons (SWA), STA fonctionne tuile par tuile avec une conception de fenêtre glissante novatrice prenant en compte le matériel, préservant l'expressivité tout en étant efficace sur le plan matériel. Grâce à des optimisations minutieuses au niveau du noyau, STA propose la première implémentation efficace d'une attention par fenêtre glissante 2D/3D, atteignant 58,79% de MFU. Plus précisément, STA accélère l'attention de 2,8 à 17 fois par rapport à FlashAttention-2 (FA2) et de 1,6 à 10 fois par rapport à FlashAttention-3 (FA3). Sur le DiT vidéo de pointe, HunyuanVideo, STA réduit la latence de bout en bout de 945 secondes (FA3) à 685 secondes sans dégradation de la qualité, sans nécessiter d'entraînement. L'activation du fine-tuning réduit encore la latence à 268 secondes avec seulement une baisse de 0,09% sur VBench.
Une approche pour réduire les coûts massifs des grands modèles de langage (LLM) est l'utilisation de représentations quantifiées ou éparses pour l'entraînement ou le déploiement. Alors que les méthodes de compression post-entraînement sont très populaires, la question d'obtenir des modèles compressés encore plus précis en entraînant directement sur de telles représentations, c'est-à-dire l'Entraînement Sensible à la Quantification (QAT), reste ouverte : par exemple, une étude récente (arXiv:2411.04330v2) a déterminé la largeur de bits "optimale" à laquelle les modèles peuvent être entraînés en utilisant QAT, tout en restant compétitifs en termes de précision avec la précision FP16/BF16 standard, à 8 bits pour les poids et les activations. Nous faisons progresser cet état de l'art grâce à une nouvelle méthode appelée QuEST, qui est compétitive selon le critère de Pareto avec FP16, c'est-à-dire qu'elle offre une meilleure précision avec une taille de modèle plus petite, tout en entraînant des modèles avec des poids et des activations sur 4 bits ou moins. De plus, QuEST permet un entraînement stable avec des poids et des activations sur 1 bit. QuEST parvient à cela en améliorant deux aspects clés des méthodes QAT : (1) la quantification précise et rapide des distributions (continues) des poids et des activations via la normalisation de Hadamard et un ajustement optimal MSE ; (2) un nouvel estimateur de gradient de confiance basé sur l'idée de minimiser explicitement l'erreur entre le gradient bruité calculé sur des états quantifiés et le gradient de "vraie" précision (mais inconnu). Des expériences sur des architectures de type Llama montrent que QuEST induit des lois d'échelle stables sur l'ensemble de la gamme de précisions supportées par le matériel, et peut être étendu à des représentations éparses. Nous fournissons un support de noyau GPU montrant que les modèles produits par QuEST peuvent être exécutés efficacement. Notre code est disponible sur https://github.com/IST-DASLab/QuEST.
L'inpainting de scène tridimensionnelle est crucial pour des applications allant de la réalité virtuelle à la visualisation architecturale, cependant les méthodes existantes peinent avec la cohérence des vues et la précision géométrique dans des scènes non bornées à 360 degrés. Nous présentons AuraFusion360, une nouvelle méthode basée sur des références qui permet d'effectuer un retrait d'objet de haute qualité et de remplir les trous dans des scènes 3D représentées par Gaussian Splatting. Notre approche introduit (1) la génération de masque invisible basée sur la profondeur pour une identification précise des occlusions, (2) la Diffusion de Profondeur Guidée Adaptative, une méthode sans apprentissage préalable pour un placement initial précis des points sans nécessiter de formation supplémentaire, et (3) l'amélioration des détails basée sur SDEdit pour une cohérence multi-vues. Nous introduisons également 360-USID, le premier ensemble de données complet pour l'inpainting de scènes non bornées à 360 degrés avec vérité terrain. Des expériences approfondies démontrent qu'AuraFusion360 surpasse significativement les méthodes existantes, atteignant une qualité perceptuelle supérieure tout en maintenant une précision géométrique à travers des changements de point de vue dramatiques. Consultez notre page de projet pour les résultats vidéo et l'ensemble de données sur https://kkennethwu.github.io/aurafusion360/.
Les modèles de diffusion DiT ont connu un grand succès dans la génération de texte vers vidéo, en exploitant leur extensibilité en termes de capacité du modèle et d'échelle des données. Une fidélité élevée au contenu et au mouvement alignée sur les indications textuelles nécessite cependant souvent de grands paramètres de modèle et un nombre substantiel d'évaluations de fonctions (NFE). Les détails réalistes et visuellement attrayants se reflètent généralement dans des sorties haute résolution, amplifiant davantage les exigences computationnelles, en particulier pour les modèles DiT à un seul stade. Pour relever ces défis, nous proposons un nouveau cadre en deux étapes, FlashVideo, qui alloue de manière stratégique la capacité du modèle et les NFE à travers les étapes pour équilibrer la fidélité et la qualité de génération. Dans la première étape, la fidélité de l'indication est priorisée à travers un processus de génération basse résolution utilisant de grands paramètres et un nombre suffisant de NFE pour améliorer l'efficacité computationnelle. La deuxième étape établit une correspondance de flux entre les résolutions basse et haute, générant efficacement des détails fins avec un nombre minimal de NFE. Les résultats quantitatifs et visuels démontrent que FlashVideo atteint un état de l'art dans la génération de vidéos haute résolution avec une efficacité computationnelle supérieure. De plus, la conception en deux étapes permet aux utilisateurs de prévisualiser la sortie initiale avant de s'engager dans une génération en pleine résolution, réduisant ainsi significativement les coûts computationnels et les temps d'attente, tout en améliorant la viabilité commerciale.
L'intégration de mécanismes de pensée lente dans les grands modèles de langage (LLM) offre une voie prometteuse pour atteindre des Raisonneurs AGI de Niveau 2, comme le montrent des systèmes tels que le o1 d'OpenAI. Cependant, plusieurs défis importants subsistent, notamment une surréflexion inefficace et une trop grande dépendance aux modèles de récompense auxiliaires. Nous soulignons que ces limitations découlent de l'incapacité des LLM à internaliser le processus de recherche, composante clé du raisonnement efficace. Une étape cruciale pour résoudre ce problème consiste à permettre aux LLM de déterminer de manière autonome quand et où revenir en arrière, opération fondamentale dans les algorithmes de recherche traditionnels. À cette fin, nous proposons un mécanisme d'auto-retour en arrière qui dote les LLM de la capacité de revenir en arrière à la fois pendant l'entraînement et l'inférence. Ce mécanisme améliore non seulement la capacité de raisonnement, mais aussi l'efficacité en transformant les processus de pensée lente en processus de pensée rapide par l'auto-amélioration. Les évaluations empiriques montrent que notre proposition améliore significativement les capacités de raisonnement des LLM, atteignant un gain de performance de plus de 40 % par rapport à la méthode de fine-tuning supervisée du chemin optimal. Nous pensons que cette étude ouvre une voie nouvelle et prometteuse pour le développement de Raisonneurs plus avancés et robustes.
L'agence est la capacité d'un système à orienter les résultats vers un objectif, et constitue un sujet central d'étude en biologie, philosophie, sciences cognitives et intelligence artificielle. Déterminer si un système manifeste de l'agence est une question notoirement difficile : Dennett (1989), par exemple, souligne le casse-tête de déterminer quels principes peuvent décider si un rocher, un thermostat ou un robot possèdent chacun de l'agence. Nous abordons ici ce casse-tête du point de vue de l'apprentissage par renforcement en soutenant que l'agence est fondamentalement dépendante du cadre : Toute mesure de l'agence d'un système doit être effectuée par rapport à un référentiel. Nous étayons cette affirmation en présentant un argument philosophique selon lequel chacune des propriétés essentielles de l'agence proposées par Barandiaran et al. (2009) et Moreno (2018) sont elles-mêmes dépendantes du cadre. Nous concluons que toute science fondamentale de l'agence nécessite la dépendance au cadre, et discutons des implications de cette affirmation pour l'apprentissage par renforcement.
L'avancée rapide des grands modèles de langage (GML) a accru le besoin de modèles de garde-fou pour garantir une utilisation responsable, en particulier pour détecter les contenus dangereux et illégaux. Alors que des données de sécurité substantielles existent en anglais, la modélisation multilingue de garde-fou reste peu explorée en raison de la rareté des données de sécurité open-source dans d'autres langues. Pour combler cette lacune, nous proposons un nouveau cadre d'apprentissage par renforcement (RL) à deux joueurs, où un générateur et un modèle de garde-fou évoluent de manière adversaire pour produire des données synthétiques de haute qualité pour l'entraînement multilingue de garde-fou. Nous formalisons théoriquement cette interaction comme un jeu à deux joueurs, prouvant la convergence vers un équilibre de Nash. Les évaluations empiriques montrent que notre modèle \ours surpasse les modèles de pointe, réalisant une amélioration de près de 10 % par rapport à LlamaGuard3 (8B) sur des référentiels anglais tout en étant 4,5 fois plus rapide en inférence avec un modèle significativement plus petit (0,5B). Nous réalisons des avancées substantielles dans les tâches de sécurité multilingues, en particulier pour résoudre le déséquilibre des langues à ressources limitées dans un ensemble de données réel collecté. Les études d'ablation mettent en avant le rôle crucial de la génération de données synthétiques pour combler le déséquilibre des données open-source entre l'anglais et les autres langues. Ces résultats établissent une approche évolutive et efficace pour la génération de données synthétiques, ouvrant la voie à l'amélioration des modèles de garde-fou multilingues pour renforcer la sécurité des GML. Le code, le modèle et les données seront disponibles en open-source sur https://github.com/yihedeng9/DuoGuard.
Résoudre des problèmes de planification complexes nécessite que les Grands Modèles de Langage (GML) modélisent explicitement la transition d'état pour éviter les violations de règles, respecter les contraintes et garantir l'optimalité - une tâche entravée par l'ambiguïté inhérente du langage naturel. Pour surmonter une telle ambiguïté, le Langage de Définition de Domaine de Planification (PDDL) est utilisé comme une abstraction de planification qui permet des descriptions d'état précises et formelles. Avec le PDDL, nous pouvons générer un modèle de monde symbolique où des algorithmes de recherche classiques, tels que A*, peuvent être appliqués de manière transparente pour trouver des plans optimaux. Cependant, la génération directe de domaines PDDL avec les GML actuels reste un défi ouvert en raison du manque de données d'entraînement PDDL. Pour relever ce défi, nous proposons d'augmenter le calcul des GML au moment du test pour améliorer leurs capacités de raisonnement PDDL, permettant ainsi la génération de domaines PDDL de haute qualité. Plus précisément, nous introduisons un algorithme simple mais efficace, qui utilise d'abord une approche de Meilleur-de-N échantillonnage pour améliorer la qualité de la solution initiale, puis affine la solution de manière fine avec un apprentissage automatique verbalisé. Notre méthode surpasse largement o1-mini dans la génération de domaines PDDL, atteignant un taux de réussite de plus de 50% sur deux tâches (c'est-à-dire la génération de domaines PDDL à partir d'une description en langage naturel ou de problèmes PDDL). Cela est réalisé sans nécessiter de formation supplémentaire. En exploitant le PDDL comme abstraction d'état, notre méthode est capable de surpasser les méthodes actuelles de pointe sur presque toutes les tâches de planification de niveau de compétition.
Les grands modèles de langage (LLM) atteignent des performances impressionnantes en augmentant les paramètres du modèle, mais cela s'accompagne d'une surcharge significative lors de l'inférence. Les réseaux à propagation avant (FFN), qui dominent les paramètres des LLM, présentent une forte parcimonie d'activation dans les neurones cachés. Pour exploiter cela, les chercheurs ont proposé d'utiliser une architecture de mélange d'experts (MoE), où seul un sous-ensemble de paramètres est activé. Cependant, les approches existantes nécessitent souvent des données d'entraînement et des ressources étendues, limitant leur praticité. Nous proposons CMoE (Carved MoE), un cadre novateur pour sculpter efficacement des modèles MoE à partir de modèles denses. CMoE atteint des performances remarquables grâce à un regroupement efficace des experts et à une adaptation légère. Tout d'abord, les neurones sont regroupés en experts partagés et routés en fonction des taux d'activation. Ensuite, nous construisons un mécanisme de routage sans entraînement à partir de zéro, en incorporant un processus de routage différenciable et un équilibrage de charge. En utilisant des données modestes, CMoE produit un MoE bien conçu et utilisable à partir d'un modèle dense de 7 milliards de paramètres en moins de cinq minutes. Avec un ajustement léger, il parvient à une récupération de haute performance en moins d'une heure. Nous mettons notre code à disposition du public sur https://github.com/JarvisPei/CMoE.
Nous présentons On-device Sora, une première solution pionnière pour la génération de vidéos à partir de texte sur appareil, basée sur la diffusion et fonctionnant efficacement sur des appareils de qualité smartphone. En s'appuyant sur Open-Sora, On-device Sora applique trois techniques novatrices pour relever les défis de la génération de vidéos à partir de texte basée sur la diffusion sur des appareils mobiles limités en termes de calcul et de mémoire. Premièrement, le Saut Proportionnel Linéaire (LPL) réduit les étapes excessives de débruitage nécessaires dans la diffusion vidéo grâce à une approche basée sur des sauts efficaces. Deuxièmement, la Fusion de Jetons de Dimension Temporelle (TDTM) minimise le calcul intensif de traitement des jetons dans les couches d'attention en fusionnant les jetons consécutifs le long de la dimension temporelle. Troisièmement, l'Inférence Concurrente avec Chargement Dynamique (CI-DL) partitionne dynamiquement de grands modèles en blocs plus petits et les charge en mémoire pour une inférence de modèle concurrente, abordant efficacement les défis liés à la mémoire limitée de l'appareil. Nous mettons en œuvre On-device Sora sur l'iPhone 15 Pro, et les évaluations expérimentales démontrent qu'il est capable de générer des vidéos de haute qualité sur l'appareil, comparables à celles produites par Open-Sora fonctionnant sur des GPU haut de gamme. Ces résultats montrent qu'On-device Sora permet une génération de vidéos efficace et de haute qualité sur des appareils mobiles aux ressources limitées, élargissant l'accessibilité, garantissant la confidentialité des utilisateurs, réduisant la dépendance à l'infrastructure cloud et diminuant les coûts associés. Nous envisageons le On-device Sora proposé comme un premier pas significatif vers la démocratisation des technologies génératives de pointe, permettant des capacités de génération de vidéos sur des appareils mobiles et embarqués grand public. L'implémentation du code est publiquement disponible dans un dépôt GitHub : https://github.com/eai-lab/On-device-Sora.
La fusion de modèles intègre les poids de plusieurs modèles spécifiques à des tâches dans un seul modèle multi-tâches. Malgré l'intérêt récent pour le problème, un écart de performance significatif persiste entre les modèles combinés et les modèles mono-tâche. Dans cet article, nous étudions les caractéristiques clés des matrices de tâches -- matrices de mise à jour des poids appliquées à un modèle pré-entraîné -- qui permettent une fusion efficace. Nous montrons que l'alignement entre les composants singuliers des matrices spécifiques à des tâches et fusionnées est fortement corrélé à l'amélioration des performances par rapport au modèle pré-entraîné. Sur cette base, nous proposons un cadre de fusion isotropique qui aplatit le spectre de valeurs singulières des matrices de tâches, améliore l'alignement et réduit l'écart de performance. De plus, nous incorporons à la fois des sous-espaces communs et spécifiques à des tâches pour améliorer davantage l'alignement et les performances. Notre approche proposée atteint des performances de pointe dans plusieurs scénarios, y compris divers ensembles de tâches et échelles de modèles. Ce travail fait progresser la compréhension de la dynamique de fusion de modèles, offrant une méthodologie efficace pour fusionner des modèles sans nécessiter de formation supplémentaire. Le code est disponible sur https://github.com/danielm1405/iso-merging.
La généralisation des modèles de langage (LMs) fait l'objet de débats actifs, opposant leur potentiel pour l'intelligence générale à leurs difficultés avec la composition de connaissances de base (par exemple, la malédiction inverse/de transition). Cet article met en lumière le phénomène des corrélations linéaires dans les LMs lors de la composition des connaissances. Pour expliquer, il existe une transformation linéaire entre certaines connaissances connexes qui mappe les logits de prédiction du jeton suivant d'une requête à une autre, par exemple, "X vit dans la ville de" → "X vit dans le pays de" pour chaque X donné. Cela reflète la linéarité dans la composition des connaissances humaines, comme Paris → France. Nos résultats indiquent que la transformation linéaire est résiliente aux ajustements à grande échelle, généralisant les connaissances mises à jour lorsqu'elles sont alignées sur des relations du monde réel, mais provoquant des hallucinations en cas d'écart. Les résultats empiriques suggèrent que la corrélation linéaire peut servir d'indicateur potentiel de la généralisation des LM. Enfin, nous montrons que de telles corrélations linéaires peuvent être apprises avec un seul réseau feedforward et des représentations de vocabulaire pré-entraînées, indiquant que la généralisation des LM repose fortement sur ces dernières.
Depuis l'introduction du Transformateur de Vision (ViT), la patchification est depuis longtemps considérée comme une approche de tokenisation d'image de facto pour les architectures visuelles simples. En comprimant la taille spatiale des images, cette approche peut raccourcir efficacement la séquence de tokens et réduire le coût computationnel des architectures visuelles simples de type ViT. Dans ce travail, nous visons à examiner en détail la perte d'information causée par ce paradigme d'encodage compressif basé sur la patchification et comment cela affecte la compréhension visuelle. Nous menons des expériences approfondies d'ajustement de la taille des patchs et observons avec enthousiasme une loi d'ajustement intrigante dans la patchification : les modèles peuvent bénéficier de manière cohérente de tailles de patch réduites et obtenir de meilleures performances prédictives, jusqu'à ce qu'ils atteignent la taille minimale de patch de 1x1, c'est-à-dire la tokenisation par pixel. Cette conclusion est largement applicable à différentes tâches visuelles, diverses échelles d'entrée et architectures variées telles que ViT et les récents modèles Mamba. De plus, en tant que sous-produit, nous découvrons qu'avec des patchs plus petits, les têtes de décodeur spécifiques à la tâche deviennent moins critiques pour la prédiction dense. Dans les expériences, nous parvenons à augmenter la séquence visuelle jusqu'à une longueur exceptionnelle de 50 176 tokens, atteignant une précision de test compétitive de 84,6% avec un modèle de taille de base sur le benchmark ImageNet-1k. Nous espérons que cette étude pourra fournir des perspectives et des bases théoriques pour les travaux futurs de construction de modèles visuels non compressifs. Le code est disponible sur https://github.com/wangf3014/Patch_Scaling.
Les méthodes existantes échouent à diriger efficacement les grands modèles de langage (LLM) entre le raisonnement textuel et la génération de code, laissant les capacités de calcul symbolique sous-utilisées. Nous introduisons CodeSteer, une méthode efficace pour guider la génération de code/texte des LLM. Nous construisons un banc d'essai exhaustif SymBench comprenant 37 tâches symboliques avec une complexité ajustable et synthétisons également des ensembles de données de 12 000 trajectoires de guidage/génération multi-tours et 5 500 paires de comparaison de guidage. Nous affinons le modèle Llama-3-8B avec un nouvel accord de fine-tuning supervisé multi-tours (SFT) et une optimisation de préférence directe (DPO). Le modèle résultant, CodeSteerLLM, augmenté des vérificateurs symboliques et d'auto-réponse proposés, guide efficacement la génération de code/texte des modèles plus grands. L'ajout de CodeSteer à GPT-4o fait passer son score de performance moyen de 53,3 à 86,4, surpassant même les meilleurs LLM existants OpenAI o1 (82,7), o1-preview (74,8) et DeepSeek R1 (76,8) sur l'ensemble des 37 tâches (28 vues, 9 non vues). Entraîné pour GPT-4o, CodeSteer démontre une généralisabilité supérieure, offrant une amélioration moyenne de performance de 41,8 sur Claude, Mistral et GPT-3.5. Les LLM guidés par CodeSteer exploitent pleinement le calcul symbolique pour maintenir de bonnes performances sur des tâches très complexes. Les modèles, ensembles de données et codes sont disponibles sur https://github.com/yongchao98/CodeSteer-v1.0.
Nous introduisons Quantized Language-Image Pretraining (QLIP), une méthode de tokenisation visuelle qui combine une qualité de reconstruction de pointe avec une compréhension d'image sans étiquette de pointe. QLIP entraîne un autoencodeur basé sur une quantification binaire sphérique avec des objectifs de reconstruction et d'alignement langue-image. Nous sommes les premiers à montrer que ces deux objectifs ne doivent pas être en opposition. Nous équilibrions dynamiquement les deux termes de perte pendant l'entraînement et montrons qu'un pipeline d'entraînement en deux étapes mélange efficacement les exigences de grand lot de pré-entraînement image-langue avec le goulot d'étranglement de mémoire imposé par l'objectif de reconstruction. Nous validons l'efficacité de QLIP pour la compréhension multimodale et la génération d'images conditionnées par du texte avec un seul modèle. Plus précisément, QLIP sert de remplacement plug-and-play pour l'encodeur visuel de LLaVA et le tokeniseur d'images pour LlamaGen avec des performances comparables, voire meilleures. Enfin, nous démontrons que QLIP permet un modèle autorégressif mixte unifié pour la compréhension et la génération.
Comprendre le temps à partir de représentations visuelles est une compétence cognitive fondamentale, mais cela reste un défi pour les grands modèles de langage multimodaux (MLLMs). Dans ce travail, nous étudions les capacités des MLLMs à interpréter l'heure et la date à travers des horloges analogiques et des calendriers annuels. Pour ce faire, nous avons constitué un ensemble de données structuré comprenant deux sous-ensembles : 1) ClockQA, qui comprend divers types de styles d'horloges - standard, cadran noir, sans trotteuse, chiffres romains et aiguilles - associés à des questions liées au temps ; et 2) CalendarQA, qui se compose d'images de calendriers annuels avec des questions allant de dates couramment connues (par exemple, Noël, le jour de l'An) à des dates dérivées de manière computationnelle (par exemple, le 100e ou le 153e jour de l'année). Nous visons à analyser comment les MLLMs peuvent effectuer la reconnaissance visuelle, le raisonnement numérique et l'inférence temporelle lorsqu'ils sont confrontés à des données visuelles liées au temps. Nos évaluations montrent qu'en dépit des récents progrès, comprendre de manière fiable le temps reste un défi significatif pour les MLLMs.
Les grands modèles de langage (LLM) atteignent des performances remarquables sur des benchmarks exigeants souvent structurés sous forme de tâches de question-réponse à choix multiples. La technique de chaîne de pensée Zero-shot (CoT) améliore le raisonnement dans les LLM mais ne fournit qu'une orientation vague et générique ("penser étape par étape"). Ce document présente ARR, une méthode d'orientation zero-shot intuitive et efficace qui intègre explicitement trois étapes clés dans la résolution de questions-réponses : analyser l'intention de la question, récupérer des informations pertinentes et raisonner étape par étape. Des expériences approfondies sur diverses tâches de question-réponse complexes démontrent que ARR améliore de manière constante la référence (sans orientation ARR) et surpasse CoT. Les études d'ablation et de cas valident davantage les contributions positives de chaque composante : analyse, récupération et raisonnement. Notamment, l'analyse de l'intention joue un rôle vital dans ARR. De plus, des évaluations approfondies sur diverses tailles de modèles, séries de LLM et paramètres de génération renforcent l'efficacité, la robustesse et la généralisabilité de ARR.
Mettre à l'échelle les données et les calculs est crucial pour la réussite de l'apprentissage automatique. Cependant, l'expansion exige de la prévisibilité : nous voulons que les méthodes non seulement performantes avec davantage de calculs ou de données, mais aussi que leur performance soit prévisible à partir d'exécutions à petite échelle, sans avoir à réaliser l'expérience à grande échelle. Dans cet article, nous montrons que les méthodes de RL hors politique basées sur la valeur sont prévisibles malgré les croyances de la communauté concernant leur comportement pathologique. Tout d'abord, nous montrons que les exigences en données et en calcul pour atteindre un niveau de performance donné se situent sur une frontière de Pareto, contrôlée par le ratio mises à jour sur données (UTD). En estimant cette frontière, nous pouvons prédire cette exigence en données lorsqu'on dispose de plus de calculs, et cette exigence en calculs lorsqu'on dispose de plus de données. Deuxièmement, nous déterminons l'allocation optimale d'un budget de ressources total entre données et calcul pour une performance donnée et l'utilisons pour déterminer les hyperparamètres qui maximisent la performance pour un budget donné. Troisièmement, ce comportement d'échelle est rendu possible en estimant d'abord des relations prévisibles entre les hyperparamètres, ce qui est utilisé pour gérer les effets du surajustement et de la perte de plasticité propres au RL. Nous validons notre approche en utilisant trois algorithmes : SAC, BRO et PQL sur DeepMind Control, OpenAI gym et IsaacGym, en extrapolant à des niveaux plus élevés de données, de calculs, de budget ou de performance.
Un alignement précis dans les systèmes Texte-vers-Image (T2I) est crucial pour garantir que les visuels générés non seulement encapsulent avec précision les intentions de l'utilisateur, mais aussi respectent des normes éthiques et esthétiques strictes. Des incidents tels que le fiasco de Google Gemini, où des sorties mal alignées ont déclenché une importante réaction du public, soulignent le besoin critique de mécanismes d'alignement robustes. En revanche, les Grands Modèles de Langage (GML) ont connu un succès notable en matière d'alignement. En s'appuyant sur ces avancées, les chercheurs sont impatients d'appliquer des techniques d'alignement similaires, telles que l'Optimisation Directe des Préférences (DPO), aux systèmes T2I pour améliorer la fidélité et la fiabilité de la génération d'images. Nous présentons YinYangAlign, un cadre de référence avancé qui quantifie systématiquement la fidélité de l'alignement des systèmes T2I, en abordant six objectifs de conception fondamentaux et intrinsèquement contradictoires. Chaque paire représente des tensions fondamentales dans la génération d'images, telles que l'équilibre entre l'adhérence aux instructions de l'utilisateur et les modifications créatives, ou le maintien de la diversité tout en assurant la cohérence visuelle. YinYangAlign comprend des ensembles de données axiomatiques détaillés comprenant des instructions humaines, des réponses alignées (choisies), des sorties générées par l'IA mal alignées (rejetées) et des explications des contradictions sous-jacentes.
Nous présentons un cadre unifié capable de résoudre un large éventail de tâches en 3D. Notre approche repose sur un modèle récurrent étatique qui met à jour en continu sa représentation d'état à chaque nouvelle observation. En utilisant un flux d'images, cet état évolutif peut être utilisé pour générer des cartes de points à l'échelle métrique (points 3D par pixel) pour chaque nouvelle entrée de manière en ligne. Ces cartes de points résident dans un système de coordonnées commun et peuvent être accumulées dans une reconstruction de scène dense et cohérente qui se met à jour à mesure que de nouvelles images arrivent. Notre modèle, appelé CUT3R (Transformateur de Mise à Jour Continue pour la Reconstruction 3D), capture de riches connaissances a priori des scènes du monde réel : non seulement il peut prédire des cartes de points précises à partir d'observations d'images, mais il peut également inférer des régions invisibles de la scène en explorant des vues virtuelles non observées. Notre méthode est simple mais très flexible, acceptant naturellement des longueurs variables d'images pouvant être soit des flux vidéo, soit des collections de photos non ordonnées, contenant à la fois du contenu statique et dynamique. Nous évaluons notre méthode sur diverses tâches 3D/4D et démontrons des performances compétitives ou de pointe dans chacune d'entre elles. Page du Projet : https://cut3r.github.io/
Les caches de requêtes sémantiques réduisent la latence et le coût de l'inférence des grands modèles de langage (LLM) en réutilisant les réponses générées par le LLM mises en cache pour des requêtes sémantiquement similaires. Les métriques de similarité vectorielle attribuent un score numérique pour quantifier la similarité entre une requête intégrée et son voisin le plus proche dans le cache. Les systèmes existants se reposent sur un seuil statique pour classifier si le score de similarité est suffisamment élevé pour entraîner un succès de cache. Nous montrons que ce seuil universel est insuffisant pour différentes requêtes. Nous proposons VectorQ, un cadre pour apprendre des régions de seuil spécifiques à l'intégration qui s'adaptent à la complexité et à l'incertitude d'une intégration. À travers des évaluations sur une combinaison de quatre ensembles de données divers, nous montrons que VectorQ surpasse de manière constante les systèmes de pointe à travers tous les seuils statiques, atteignant jusqu'à 12 fois d'augmentation du taux de succès de cache et des réductions du taux d'erreur allant jusqu'à 92%.
Dans les lieux de travail contemporains, les réunions sont essentielles pour échanger des idées et assurer l'alignement des équipes, mais elles sont souvent confrontées à des défis tels que la consommation de temps, les conflits d'emploi du temps et une participation inefficace. Les récents progrès des Grands Modèles de Langage (GML) ont démontré leurs fortes capacités en génération de langage naturel et raisonnement, suscitant la question : les GML peuvent-ils déléguer efficacement les participants aux réunions ? Pour explorer cette question, nous avons développé un système de délégation de réunions alimenté par un GML et créé un benchmark complet en utilisant de vrais transcriptions de réunions. Notre évaluation révèle que GPT-4/4o maintiennent des performances équilibrées entre des stratégies d'engagement actif et prudent. En revanche, Gemini 1.5 Pro a tendance à être plus prudent, tandis que Gemini 1.5 Flash et Llama3-8B/70B affichent des tendances plus actives. Globalement, environ 60\% des réponses abordent au moins un point clé de la vérité terrain. Cependant, des améliorations sont nécessaires pour réduire le contenu non pertinent ou répétitif et renforcer la tolérance aux erreurs de transcription couramment rencontrées dans des environnements réels. De plus, nous mettons en œuvre le système dans des environnements pratiques et recueillons des retours d'expérience réels à partir de démonstrations. Nos résultats soulignent le potentiel et les défis de l'utilisation des GML en tant que délégués de réunions, offrant des perspectives précieuses sur leur application pratique pour alléger la charge des réunions.
Nous proposons SPARC, un cadre d'apprentissage continu léger pour les grands modèles de langage (GML) qui permet une adaptation efficace des tâches grâce à l'ajustement de l'invite dans un espace de dimension inférieure. En exploitant l'analyse en composantes principales (ACP), nous identifions un sous-espace compact des données d'entraînement. L'optimisation des invites dans cet espace de dimension inférieure améliore l'efficacité de l'entraînement, en se concentrant sur les fonctionnalités les plus pertinentes tout en réduisant la charge computationnelle. De plus, puisque la structure interne du modèle reste inchangée, les connaissances approfondies acquises lors de la préformation sont entièrement préservées, garantissant que les informations précédemment apprises ne sont pas compromises lors de l'adaptation. Notre méthode atteint une rétention élevée des connaissances à la fois dans les configurations d'apprentissage continu par incréments de tâches et par incréments de domaines tout en affinant seulement 0,04 % des paramètres du modèle. De plus, en intégrant LoRA, nous améliorons l'adaptabilité aux contraintes computationnelles, permettant un compromis entre précision et coût d'entraînement. Des expériences sur le banc d'essai SuperGLUE démontrent que notre ajustement d'invite basé sur l'ACP combiné à LoRA maintient une rétention complète des connaissances tout en améliorant la précision, en utilisant seulement 1 % des paramètres du modèle. Ces résultats établissent notre approche comme une solution évolutive et efficiente en ressources pour l'apprentissage continu dans les GML.
L'informatique autonome en périphérie dans les domaines de la robotique, des villes intelligentes et des véhicules autonomes repose sur l'intégration transparente de la détection, du traitement et de l'action pour la prise de décision en temps réel dans des environnements dynamiques. À sa base se trouve la boucle de détection à action, qui aligne de manière itérative les entrées des capteurs avec les modèles de calcul pour piloter des stratégies de contrôle adaptatives. Ces boucles peuvent s'adapter aux conditions hyper-locales, améliorant ainsi l'efficacité des ressources et la réactivité, mais elles sont également confrontées à des défis tels que les contraintes de ressources, les retards de synchronisation dans la fusion de données multimodales et le risque d'erreurs en cascade dans les boucles de rétroaction. Cet article explore comment des adaptations proactives et contextuelles de la détection à l'action et de l'action à la détection peuvent améliorer l'efficacité en ajustant dynamiquement la détection et le calcul en fonction des exigences de la tâche, comme détecter une partie très limitée de l'environnement et prédire le reste. En guidant la détection à travers des actions de contrôle, les voies de l'action à la détection peuvent améliorer la pertinence de la tâche et l'utilisation des ressources, mais elles nécessitent également une surveillance robuste pour éviter les erreurs en cascade et maintenir la fiabilité. Les boucles d'action-détection multi-agents étendent davantage ces capacités à travers une détection et des actions coordonnées entre des agents distribués, optimisant l'utilisation des ressources via la collaboration. De plus, l'informatique neuromorphique, inspirée par les systèmes biologiques, offre un cadre efficace pour le traitement basé sur des événements à impulsions qui économise de l'énergie, réduit la latence et prend en charge le contrôle hiérarchique, ce qui en fait un choix idéal pour l'optimisation multi-agent. Cet article souligne l'importance des stratégies de co-conception de bout en bout qui alignent les modèles algorithmiques avec le matériel et les dynamiques environnementales et améliorent les interdépendances entre les couches pour augmenter le débit, la précision et l'adaptabilité pour l'autonomie en périphérie économe en énergie dans des environnements complexes.