papers.description
Nous présentons un framework complet qui permet de mettre à l'échelle le raisonnement dans les modèles vision-langage (VLMs) pour les vidéos longues, en exploitant l'apprentissage par renforcement. Nous abordons les défis uniques du raisonnement sur des vidéos longues en intégrant trois composants critiques : (1) un jeu de données à grande échelle, LongVideo-Reason, comprenant 52K paires de questions-réponses sur des vidéos longues avec des annotations de raisonnement de haute qualité couvrant divers domaines tels que le sport, les jeux et les vlogs ; (2) un pipeline d'entraînement en deux étapes qui étend les VLMs avec un fine-tuning supervisé en chaîne de pensée (CoT-SFT) et l'apprentissage par renforcement (RL) ; et (3) une infrastructure d'entraînement pour le RL sur des vidéos longues, nommée Multi-modal Reinforcement Sequence Parallelism (MR-SP), qui intègre le parallélisme de séquence et un moteur basé sur vLLM adapté aux vidéos longues, utilisant des embeddings vidéo mis en cache pour un déploiement et un pré-remplissage efficaces. Dans les expériences, LongVILA-R1-7B obtient des performances solides sur des benchmarks de questions-réponses sur des vidéos longues tels que VideoMME. Il surpasse également Video-R1-7B et rivalise même avec Gemini-1.5-Pro en termes de raisonnement temporel, de raisonnement sur les objectifs et les intentions, de raisonnement spatial et de raisonnement sur l'intrigue sur notre benchmark LongVideo-Reason-eval. Notamment, notre système MR-SP atteint une accélération allant jusqu'à 2,1x sur l'entraînement RL pour les vidéos longues. LongVILA-R1 démontre des gains de performance constants à mesure que le nombre de trames vidéo en entrée augmente. LongVILA-R1 marque une étape importante vers le raisonnement sur des vidéos longues dans les VLMs. De plus, nous rendons notre système d'entraînement disponible au public, prenant en charge l'entraînement RL sur diverses modalités (vidéo, texte et audio), divers modèles (séries VILA et Qwen), et même des modèles de génération d'images et de vidéos. Sur un seul nœud A100 (8 GPU), il prend en charge l'entraînement RL sur des vidéos d'une heure (par exemple, 3 600 trames / environ 256k tokens).
Bien que le fine-tuning des modèles de diffusion offre une approche puissante pour personnaliser des modèles pré-entraînés afin de générer des objets spécifiques, il souffre fréquemment de sur-apprentissage lorsque les échantillons d'entraînement sont limités, compromettant à la fois la capacité de généralisation et la diversité des sorties. Cet article aborde la tâche difficile mais la plus impactante d'adapter un modèle de diffusion en utilisant une seule image de concept, car la personnalisation à partir d'une seule image présente le plus grand potentiel pratique. Nous introduisons T-LoRA, un cadre d'Adaptation à Faible Rang Dépendant du Pas de Temps, spécifiquement conçu pour la personnalisation des modèles de diffusion. Dans notre travail, nous montrons que les pas de temps de diffusion plus élevés sont plus sujets au sur-apprentissage que les pas de temps plus faibles, nécessitant une stratégie de fine-tuning sensible au pas de temps. T-LoRA intègre deux innovations clés : (1) une stratégie de fine-tuning dynamique qui ajuste les mises à jour contraintes par le rang en fonction des pas de temps de diffusion, et (2) une technique de paramétrisation des poids qui garantit l'indépendance entre les composants de l'adaptateur grâce à une initialisation orthogonale. Des expériences approfondies montrent que T-LoRA et ses composants individuels surpassent le LoRA standard et d'autres techniques de personnalisation des modèles de diffusion. Ils atteignent un équilibre supérieur entre la fidélité au concept et l'alignement textuel, mettant en évidence le potentiel de T-LoRA dans des scénarios limités en données et en ressources. Le code est disponible à l'adresse https://github.com/ControlGenAI/T-LoRA.
Les modèles comme OpenAI-o3 innovent dans le raisonnement visuel ancré en référençant dynamiquement des régions visuelles, à l'instar de la "pensée avec des images" humaine. Cependant, aucun benchmark n'existe pour évaluer ces capacités de manière holistique. Pour combler cette lacune, nous proposons TreeBench (Traceable Evidence Evaluation Benchmark), un benchmark diagnostique fondé sur trois principes : (1) une perception visuelle ciblée des cibles subtiles dans des scènes complexes, (2) une preuve traçable via l'évaluation des boîtes englobantes, et (3) un raisonnement de second ordre pour tester les interactions entre objets et les hiérarchies spatiales au-delà de la simple localisation d'objets. En privilégiant les images contenant des objets denses, nous avons initialement échantillonné 1 000 images de haute qualité provenant de SA-1B, et avons intégré huit experts en modèles linguistiques multimodaux (LMM) pour annoter manuellement des questions, des options candidates et des réponses pour chaque image. Après trois étapes de contrôle qualité, TreeBench se compose de 405 paires question-réponse visuelles complexes, avec lesquelles même les modèles les plus avancés peinent, aucun d'entre eux n'atteignant 60 % de précision, par exemple OpenAI-o3 n'obtient que 54,87. Par ailleurs, nous introduisons TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigme d'entraînement supervisant conjointement la localisation et le raisonnement grâce à l'apprentissage par renforcement, permettant des localisations précises et des chemins de raisonnement explicables. Initialisé à partir de Qwen2.5-VL-7B, il améliore les performances sur V* Bench (+16,8), MME-RealWorld (+12,6) et TreeBench (+13,4), démontrant que la traçabilité est essentielle pour faire progresser le raisonnement ancré dans la vision. Le code est disponible à l'adresse suivante : https://github.com/Haochen-Wang409/TreeVGR.
Les récents progrès dans les modèles de langage multimodal de grande envergure (MLLMs) ont démontré des capacités remarquables dans l'intégration de la vision et du langage pour des raisonnements complexes. Alors que la plupart des benchmarks existants évaluent les modèles dans des contextes hors ligne avec un ensemble fixe d'entrées préenregistrées, nous introduisons OST-Bench, un benchmark conçu pour évaluer la compréhension spatio-temporelle en ligne du point de vue d'un agent explorant activement une scène. L'aspect en ligne met l'accent sur la nécessité de traiter et de raisonner sur des observations acquises de manière incrémentale, tandis que la composante spatio-temporelle nécessite l'intégration des entrées visuelles actuelles avec la mémoire historique pour soutenir un raisonnement spatial dynamique. OST-Bench reflète mieux les défis de la perception incarnée dans le monde réel. Construit sur un pipeline efficace de collecte de données, OST-Bench se compose de 1,4k scènes et de 10k paires question-réponse collectées à partir de ScanNet, Matterport3D et ARKitScenes. Nous évaluons plusieurs MLLMs de pointe sur OST-Bench et observons qu'ils sont en difficulté pour les tâches nécessitant un raisonnement spatio-temporel complexe. Dans le cadre en ligne, leur précision diminue à mesure que l'horizon d'exploration s'étend et que la mémoire s'accroît. À travers une analyse expérimentale approfondie, nous identifions des schémas d'erreurs communs entre les modèles et constatons que les exigences complexes de raisonnement spatial basé sur des indices ainsi que les besoins de récupération de mémoire à long terme réduisent significativement les performances des modèles selon deux axes distincts, mettant en lumière les défis fondamentaux qui doivent être relevés pour améliorer le raisonnement incarné en ligne. Pour favoriser la recherche et le développement dans ce domaine, nos codes, jeux de données et benchmark sont disponibles. Notre page de projet est : https://rbler1234.github.io/OSTBench.github.io/
Les modèles de langage de grande taille pour la vidéo (LLMs) atteignent une compréhension vidéo robuste en exploitant un grand nombre de tokens spatio-temporels, mais souffrent d'une complexité computationnelle quadratique en fonction du nombre de tokens. Pour résoudre ce problème, nous proposons une méthode de fusion spatio-temporelle de tokens sans apprentissage, nommée STTM. Notre idée clé est d'exploiter la redondance locale spatiale et temporelle dans les données vidéo, un aspect négligé dans les travaux précédents. STTM transforme d'abord chaque image en tokens spatiaux multi-granulaires en utilisant une recherche grossière à fine sur une structure en arbre quaternaire, puis effectue une fusion dirigée par paires le long de la dimension temporelle. Cette approche de fusion décomposée surpasse les méthodes existantes de réduction de tokens sur six benchmarks de question-réponse vidéo. Notamment, STTM permet une accélération de 2 fois avec seulement une baisse de précision de 0,5 % pour un budget de tokens réduit de 50 %, et une accélération de 3 fois avec une baisse de précision de 2 % pour un budget de tokens réduit de 30 %. De plus, STTM est indépendante des requêtes, permettant la réutilisation du cache KV pour différentes questions sur la même vidéo. La page du projet est disponible à l'adresse suivante : https://www.jshyun.me/projects/sttm.
Les vidéos représentent intrinsèquement des projections 2D d'un monde dynamique en 3D. Cependant, notre analyse suggère que les modèles de diffusion vidéo entraînés uniquement sur des données vidéo brutes échouent souvent à capturer une structure géométriquement significative dans leurs représentations apprises. Pour combler cet écart entre les modèles de diffusion vidéo et la nature 3D sous-jacente du monde physique, nous proposons **Geometry Forcing**, une méthode simple mais efficace qui encourage les modèles de diffusion vidéo à internaliser des représentations latentes en 3D. Notre idée clé est de guider les représentations intermédiaires du modèle vers une structure géométriquement consciente en les alignant avec les caractéristiques d'un modèle de fondation géométrique pré-entraîné. À cette fin, nous introduisons deux objectifs d'alignement complémentaires : **l'Alignement Angulaire**, qui impose une cohérence directionnelle via la similarité cosinus, et **l'Alignement d'Échelle**, qui préserve les informations liées à l'échelle en régressant des caractéristiques géométriques non normalisées à partir de la représentation de diffusion normalisée. Nous évaluons **Geometry Forcing** sur des tâches de génération de vidéos conditionnées par la vue de la caméra et par l'action. Les résultats expérimentaux démontrent que notre méthode améliore considérablement la qualité visuelle et la cohérence 3D par rapport aux méthodes de référence. Page du projet : https://GeometryForcing.github.io.
Les LLM (modèles de langage de grande taille) sont de plus en plus déployés en tant qu'agents, des systèmes capables de planifier, de raisonner et d'appeler dynamiquement des outils externes. Cependant, dans le domaine du raisonnement visuel, les approches précédentes restent largement limitées par des workflows prédéfinis et des ensembles d'outils statiques. Dans ce rapport, nous présentons PyVision, un cadre interactif et multi-tours qui permet aux MLLM (modèles de langage multi-modaux) de générer, exécuter et affiner de manière autonome des outils basés sur Python, adaptés à la tâche en cours, ouvrant ainsi la voie à une résolution de problèmes flexible et interprétable. Nous développons une taxonomie des outils créés par PyVision et analysons leur utilisation à travers un ensemble diversifié de benchmarks. Quantitativement, PyVision obtient des gains de performance constants, améliorant GPT-4.1 de +7,8 % sur V* et Claude-4.0-Sonnet de +31,1 % sur VLMsAreBlind-mini. Ces résultats indiquent un changement plus large : l'outillage dynamique permet aux modèles non seulement d'utiliser des outils, mais aussi de les inventer, progressant ainsi vers un raisonnement visuel plus agentique.
Dans cet article, nous présentons LangSplatV2, qui réalise un splatting de caractéristiques de haute dimension à 476,2 FPS et des requêtes textuelles open-vocabulary en 3D à 384,6 FPS pour des images haute résolution, offrant ainsi une accélération de 42 fois et une amélioration de 47 fois par rapport à LangSplat, tout en augmentant la précision des requêtes. LangSplat utilise le Gaussian Splatting pour intégrer des caractéristiques linguistiques 2D de CLIP en 3D, améliorant significativement la vitesse et apprenant un champ linguistique 3D précis avec des sémantiques SAM. De telles avancées dans les champs linguistiques 3D sont cruciales pour les applications nécessitant une interaction linguistique dans des scènes complexes. Cependant, LangSplat n'atteint pas encore des performances d'inférence en temps réel (8,2 FPS), même avec des GPU A100 avancés, limitant ainsi fortement son application à grande échelle. Dans cet article, nous effectuons d'abord une analyse détaillée du temps de LangSplat, identifiant le décodeur lourd comme le principal goulot d'étranglement en termes de vitesse. Notre solution, LangSplatV2, suppose que chaque Gaussienne agit comme un code sparse dans un dictionnaire global, conduisant à l'apprentissage d'un champ de coefficients sparse 3D qui élimine entièrement le besoin d'un décodeur lourd. En exploitant cette sparsité, nous proposons en outre une méthode efficace de splatting de coefficients sparse avec une optimisation CUDA, rendant des cartes de caractéristiques de haute dimension avec une qualité élevée tout en ne nécessitant que le temps de splatting d'une caractéristique de très basse dimension. Nos résultats expérimentaux montrent que LangSplatV2 non seulement atteint une précision de requête meilleure ou compétitive, mais est également significativement plus rapide. Les codes et démos sont disponibles sur notre page de projet : https://langsplat-v2.github.io.
Malgré les progrès significatifs réalisés dans les modèles génératifs de vidéos, les méthodes actuelles les plus avancées ne peuvent produire que des vidéos d'une durée de 5 à 16 secondes, souvent qualifiées de "vidéos longues". De plus, les vidéos dépassant 16 secondes peinent à maintenir des apparences de personnages et des dispositions de scènes cohérentes tout au long du récit. En particulier, les vidéos longues mettant en scène plusieurs sujets échouent encore à préserver la cohérence des personnages et la fluidité des mouvements. Bien que certaines méthodes puissent générer des vidéos allant jusqu'à 150 secondes, elles souffrent souvent de redondance d'images et d'une faible diversité temporelle. Des travaux récents ont tenté de produire des vidéos longues mettant en scène plusieurs personnages, avec une cohérence narrative et des détails de haute fidélité. Nous avons étudié de manière exhaustive 32 articles sur la génération de vidéos pour identifier les composants architecturaux clés et les stratégies d'entraînement qui permettent systématiquement d'obtenir ces qualités. Nous avons également construit une taxonomie novatrice et complète des méthodes existantes et présenté des tableaux comparatifs qui classent les articles en fonction de leurs conceptions architecturales et de leurs caractéristiques de performance.
Un réseau de neurones pré-entraîné peut-il adapter son architecture à différents entrées sans aucun ajustement fin ? Avons-nous besoin de toutes les couches pour des tâches simples, et sont-elles adéquates pour des tâches plus complexes ? Nous avons découvert que les couches d'un grand modèle de langage (LLM) pré-entraîné peuvent être manipulées comme des modules distincts pour construire un modèle meilleur et même plus superficiel, personnalisé pour chaque échantillon de test. En particulier, chaque couche du modèle pré-entraîné peut être ignorée/élaguée ou répétée plusieurs fois comme dans les réseaux de neurones récurrents (RNN), et empilée avec d'autres dans des ordres arbitraires, produisant une chaîne de couches (CoLa) par échantillon. Cet espace compositionnel élargit considérablement la portée des travaux existants sur les modules pré-entraînés en boucle/récurrents, l'élagage de couches ou les réseaux à sortie précoce. Nous développons un protocole de recherche arborescente Monte Carlo (MCTS) pour explorer et identifier la CoLa optimale pour chaque échantillon à partir de benchmarks de raisonnement mathématique et de bon sens. Par rapport à un modèle statique de profondeur fixe, CoLa permet des chemins raccourcis (pensée rapide), la récurrence de la même couche ou des mêmes couches (pensée lente), et la combinaison des deux, offrant des architectures plus flexibles et dynamiques pour différentes entrées. Nous menons une analyse approfondie de la CoLa optimisée par MCTS, qui conduit à deux conclusions clés : (1) Pour >75 % des échantillons avec des prédictions correctes par le LLM original, nous pouvons trouver des CoLa plus courtes, suggérant un large espace pour améliorer l'efficacité de l'inférence ; (2) Pour >60 % des échantillons avec des prédictions initialement incorrectes, nous pouvons identifier des CoLa atteignant des prédictions correctes, suggérant un large espace d'amélioration des performances. Nos résultats mettent en évidence les limites de l'utilisation d'une architecture fixe de LLM pré-entraînés pour l'inférence sur différents échantillons et ouvrent la voie à l'exploitation du pouvoir de généralisation de l'adaptation de la profondeur au moment du test.
L’extraction de représentations visuelles compactes et temporellement conscientes à partir de scènes dynamiques est essentielle pour la réussite de tâches séquentielles de compréhension de scènes, telles que le suivi visuel et la manipulation robotique. Dans cet article, nous présentons Token Bottleneck (ToBo), un pipeline d’apprentissage auto-supervisé simple mais intuitif qui compresse une scène en un jeton de goulot d’étranglement et prédit la scène suivante en utilisant un nombre minimal de patches comme indices. Le pipeline ToBo facilite l’apprentissage de représentations séquentielles de scènes en encodant de manière conservatrice la scène de référence en un jeton de goulot d’étranglement compact lors de l’étape de compression. Dans l’étape d’expansion, nous guidons le modèle pour capturer les dynamiques temporelles en prédisant la scène cible à l’aide du jeton de goulot d’étranglement ainsi que de quelques patches cibles comme indices. Cette conception encourage le backbone visuel à intégrer des dépendances temporelles, permettant ainsi la compréhension des transitions dynamiques entre les scènes. Des expériences approfondies sur diverses tâches séquentielles, incluant la propagation d’étiquettes vidéo et la manipulation robotique dans des environnements simulés, démontrent la supériorité de ToBo par rapport aux méthodes de référence. De plus, le déploiement de notre modèle pré-entraîné sur des robots physiques confirme sa robustesse et son efficacité dans des environnements réels. Nous validons également la scalabilité de ToBo à différentes échelles de modèles.
Malgré des progrès impressionnants dans les modèles de langage (LMs) ces dernières années, largement dus à l'abandon de modèles spécialisés conçus pour des tâches spécifiques au profit de modèles généraux basés sur des architectures puissantes (par exemple, le Transformer) qui apprennent tout à partir de données brutes, les étapes de prétraitement telles que la tokenisation restent un obstacle à la réalisation de véritables modèles de fond end-to-end. Nous présentons une collection de nouvelles techniques qui permettent un mécanisme de segmentation dynamique apprenant automatiquement des stratégies de segmentation dépendantes du contenu et du contexte, apprises conjointement avec le reste du modèle. L'intégration de ce mécanisme dans un réseau hiérarchique explicite (H-Net) permet de remplacer le pipeline (implicitement hiérarchique) de tokenisation-LM-détokenisation par un modèle unique appris entièrement end-to-end. Lorsque les ressources de calcul et les données sont équivalentes, un H-Net avec un niveau de hiérarchie opérant au niveau des octets surpasse un modèle de langage Transformer robuste fonctionnant sur des tokens BPE. L'itération de la hiérarchie à plusieurs niveaux améliore encore ses performances en modélisant plusieurs niveaux d'abstraction, démontrant une bien meilleure capacité à s'adapter à l'augmentation des données et égalant un Transformer basé sur des tokens de taille double. Les H-Nets pré-entraînés sur l'anglais montrent une robustesse accrue au niveau des caractères et apprennent qualitativement des stratégies de segmentation dépendantes des données sans heuristiques ni supervision explicite. Enfin, l'amélioration apportée par le H-Net par rapport aux pipelines tokenisés est encore plus marquée dans les langues et modalités avec des heuristiques de tokenisation moins efficaces, comme le chinois, le code ou les séquences d'ADN (une amélioration de près de 4x en efficacité des données par rapport aux modèles de référence), montrant le potentiel des véritables modèles end-to-end qui apprennent et s'adaptent mieux à partir de données non traitées.
Le bullshit, tel que conceptualisé par le philosophe Harry Frankfurt, désigne des énoncés produits sans égard à leur valeur de vérité. Alors que les travaux précédents ont exploré l’hallucination et la flagornerie des grands modèles de langage (LLM), nous proposons le bullshit machine comme un cadre conceptuel global permettant aux chercheurs de caractériser le phénomène émergent de perte de véracité dans les LLM et d’éclairer ses mécanismes sous-jacents. Nous introduisons l’Indice de Bullshit, une nouvelle métrique quantifiant l’indifférence des LLM à la vérité, et proposons une taxonomie complémentaire analysant quatre formes qualitatives de bullshit : la rhétorique creuse, l’ambiguïté trompeuse, les mots évasifs et les affirmations non vérifiées. Nous menons des évaluations empiriques sur le jeu de données Marketplace, le jeu de données Neutralité Politique et notre nouveau benchmark BullshitEval (2 400 scénarios couvrant 100 assistants IA) explicitement conçu pour évaluer le bullshit machine. Nos résultats montrent que l’affinement des modèles par apprentissage par renforcement à partir de retours humains (RLHF) exacerbe significativement le bullshit, et que l’incitation en chaîne de pensée (CoT) au moment de l’inférence amplifie notablement des formes spécifiques de bullshit, en particulier la rhétorique creuse et l’ambiguïté trompeuse. Nous observons également une prévalence du bullshit machine dans les contextes politiques, avec les mots évasifs comme stratégie dominante. Nos résultats mettent en lumière des défis systémiques dans l’alignement de l’IA et offrent de nouvelles perspectives pour un comportement plus véridique des LLM.
La plupart des modèles visuels-langues (VLMs) de pointe semblent limités par la séparabilité linéaire de leurs représentations visuelles dans des tâches de raisonnement abstrait. Ce travail étudie ce "goulot d'étranglement du raisonnement linéaire" en introduisant le Plafond de Séparabilité Linéaire (LSC), qui mesure la performance d'un classifieur linéaire simple sur les représentations visuelles d'un VLM. Nous constatons que ce goulot d'étranglement est répandu et ne découle pas d'une perception déficiente, mais plutôt de défaillances dans les voies de raisonnement du modèle de langage. Nous démontrons qu'il s'agit d'un problème d'alignement soluble. Cependant, l'intervention nécessaire dépend de la tâche : activer les voies existantes suffit pour les concepts sémantiques, tandis que le raisonnement relationnel complexe nécessite d'adapter les poids fondamentaux du modèle. En utilisant le postfix tuning comme contrôle méthodologique, nous trouvons des preuves solides de l'existence de voies de raisonnement puissantes mais dormantes au sein des VLMs. Cependant, pour les tâches relationnelles complexes nécessitant une adaptation plus profonde, l'amélioration explicite de la qualité des représentations entraîne l'échec du modèle sur de nouveaux formats d'invites, malgré la bonne séparation de ses représentations. En fin de compte, ce travail offre une nouvelle perspective pour l'analyse des VLMs, montrant qu'un raisonnement robuste est une question d'alignement ciblé, et non simplement d'amélioration de l'apprentissage des représentations.
Les avancées rapides des agents d'intelligence artificielle ont ravivé l'ambition de longue date de les exploiter pour accélérer les découvertes scientifiques. Atteindre cet objectif nécessite une compréhension approfondie des frontières du savoir humain. À cet égard, l'« Examen Final de l'Humanité » (HLE) constitue une pierre de touche exceptionnellement exigeante pour évaluer les agents scientifiques d'IA. Dans ce travail, nous visons à construire l'architecture de base pour des agents à usage général et à valider leurs capacités grâce à des performances de pointe sur le HLE. Pour y parvenir, nous introduisons X-Master, un agent de raisonnement augmenté par des outils, conçu pour imiter les chercheurs humains en interagissant de manière flexible avec des outils externes durant son processus de raisonnement. Cet agent, guidé par la conceptualisation du code comme langage d'interaction, peut exploiter de manière flexible les bibliothèques Python intégrées et nos outils personnalisés pour enrichir le raisonnement. Nous amplifions ses capacités grâce à X-Masters, un flux de travail agentique dispersé et empilé qui améliore systématiquement l'étendue et la profondeur du raisonnement. Notre solution open-source, X-Masters, établit un nouveau record de pointe sur le HLE avec un score de 32,1 %, surpassant les résultats de la Recherche Profonde d'OpenAI et de Google (26,6 % et 26,9 %) et devenant la première à franchir le seuil des 30 %. Ce travail nous permet d'approfondir notre compréhension de la résolution de tâches complexes et d'accumuler une expérience précieuse qui peut éclairer les progrès futurs, guidant ainsi l'entraînement des modèles ultérieurs.
Les codecs audio neuronaux et les autoencodeurs sont apparus comme des modèles polyvalents pour la compression audio, la transmission, l'extraction de caractéristiques et la génération d'espaces latents. Cependant, une limitation majeure réside dans le fait que la plupart sont entraînés à maximiser la fidélité de reconstruction, négligeant souvent la structure latente spécifique nécessaire pour une performance optimale dans diverses applications en aval. Nous proposons un cadre simple et post-hoc pour résoudre ce problème en modifiant le goulot d'étranglement d'un autoencodeur pré-entraîné. Notre méthode introduit un "Re-Bottleneck", un goulot d'étranglement interne entraîné exclusivement par des pertes dans l'espace latent pour instaurer une structure définie par l'utilisateur. Nous démontrons l'efficacité de ce cadre à travers trois expériences. Premièrement, nous imposons un ordre sur les canaux latents sans sacrifier la qualité de reconstruction. Deuxièmement, nous alignons les latents avec des embeddings sémantiques, en analysant l'impact sur la modélisation par diffusion en aval. Troisièmement, nous introduisons l'équivariance, garantissant qu'une opération de filtrage sur la forme d'onde d'entrée correspond directement à une transformation spécifique dans l'espace latent. En fin de compte, notre cadre Re-Bottleneck offre une manière flexible et efficace d'adapter les représentations des modèles audio neuronaux, leur permettant de répondre sans heurts aux exigences variées de différentes applications avec un entraînement supplémentaire minimal.
Le paradigme dominant pour l'extension des grands modèles de langage (LLM) repose sur un apprentissage monolithique de bout en bout, un processus gourmand en ressources et manquant de flexibilité. Cet article explore une approche alternative et constructive pour le développement de modèles, fondée sur des embeddings d'entrée déterministes et non entraînables. Dans des travaux antérieurs [1], nous avons démontré qu'un raisonnement sémantique de haut niveau peut émerger dans les Transformers en utilisant des embeddings figés dérivés de la structure visuelle des glyphes Unicode. Ici, nous montrons que ce substrat représentationnel fixe agit comme un "port d'accueil" universel, permettant deux paradigmes puissants et efficaces pour l'extension : la composition modulaire transparente et la croissance progressive couche par couche. Premièrement, nous montrons que des modèles spécialisés entraînés sur des ensembles de données disparates (par exemple, des textes en russe et en chinois) peuvent être fusionnés en un seul modèle Mixture-of-Experts (MoE) plus performant, après l'entraînement, sans aucune modification architecturale. Cela est réalisé simplement en moyennant leurs logits de sortie. Le modèle MoE résultant présente des améliorations immédiates de performance sur des benchmarks de raisonnement comme MMLU, surpassant ses experts constitutifs sans oubli catastrophique. Deuxièmement, nous introduisons une méthodologie d'entraînement constructive couche par couche, où un Transformer profond est "cultivé" en empilant et en entraînant progressivement une couche à la fois. Cette méthode démontre une convergence stable et une corrélation claire entre la profondeur du modèle et l'émergence de capacités de raisonnement complexes, comme celles requises pour SQuAD. Nos résultats suggèrent un changement de paradigme, passant d'une optimisation monolithique à un modèle de développement de l'IA plus biologique ou constructif, où la complexité est construite de manière incrémentale et les modules peuvent être composés librement. Cela ouvre de nouvelles voies pour une extension économe en ressources, un apprentissage continu et un écosystème plus démocratisé pour la construction de systèmes d'IA puissants. Nous publions l'intégralité du code et des modèles pour faciliter les recherches ultérieures.
Comprendre le lieu de la représentation sémantique dans les grands modèles de langage (LLM) est crucial pour l'interprétabilité et l'innovation architecturale. Le paradigme dominant postule que les embeddings d'entrée entraînables servent de "vecteurs de sens" fondamentaux. Cet article remet en cause cette vision. Nous construisons des modèles Transformer où la couche d'embedding est entièrement figée, avec des vecteurs dérivés non pas des données, mais de la structure visuelle des glyphes Unicode. Ces embeddings visuels non sémantiques et précalculés restent fixes tout au long de l'entraînement. Notre méthode est compatible avec tout tokenizer, y compris un nouveau tokenizer centré sur Unicode que nous introduisons pour garantir une couverture textuelle universelle. Malgré l'absence d'embeddings entraînables et initialisés sémantiquement, nos modèles convergent, génèrent du texte cohérent et, surtout, surpassent des modèles architecturalement identiques avec des embeddings entraînables sur le benchmark de raisonnement MMLU. Nous attribuons cela à une "interférence représentationnelle" dans les modèles conventionnels, où la couche d'embedding est surchargée par l'apprentissage à la fois des caractéristiques structurelles et sémantiques. Nos résultats indiquent que la sémantique de haut niveau n'est pas inhérente aux embeddings d'entrée, mais est une propriété émergente de l'architecture compositionnelle du Transformer et de l'échelle des données. Cela redéfinit le rôle des embeddings, passant de conteneurs de sens à des primitives structurelles. Nous publions tout le code et les modèles pour favoriser des recherches ultérieures.