papers.description
Nous présentons notre premier modèle génératif réflexif, MetaStone-S1, qui atteint les performances d'OpenAI o3 grâce au modèle de récompense auto-supervisé (SPRM). En partageant le réseau principal et en utilisant des têtes spécifiques à la tâche pour la prédiction du prochain token et l'évaluation du processus respectivement, le SPRM intègre avec succès le modèle de politique et le modèle de récompense de processus (PRM) dans une interface unifiée sans annotation de processus supplémentaire, réduisant ainsi plus de 99 % des paramètres du PRM pour un raisonnement efficace. Équipé du SPRM, MetaStone-S1 est naturellement adapté à la mise à l'échelle au moment du test (TTS), et nous proposons trois modes d'effort de raisonnement (faible, moyen et élevé), basés sur la longueur de pensée contrôlable. De plus, nous établissons empiriquement une loi de mise à l'échelle qui révèle la relation entre le calcul total de la pensée et les performances du TTS. Les expériences démontrent que notre MetaStone-S1 atteint des performances comparables à celles de la série OpenAI-o3-mini avec seulement 32 milliards de paramètres. Pour soutenir la communauté de recherche, nous avons rendu MetaStone-S1 open-source à l'adresse https://github.com/MetaStone-AI/MetaStone-S1.
La remarquable capacité de raisonnement des grands modèles de langage (LLMs) découle de comportements cognitifs qui émergent grâce à un renforcement par des récompenses vérifiables. Ce travail explore comment transférer ce principe aux LLMs multimodaux (MLLMs) pour débloquer un raisonnement visuel avancé. Nous introduisons un paradigme en deux étapes basé sur Qwen2.5-VL-7B : un énorme fine-tuning linguistique à froid, suivi d'un apprentissage par renforcement (RL) multimodal couvrant près de 1 000 étapes, surpassant en échelle tous les efforts open-source précédents. Ce travail pionnier révèle trois insights fondamentaux : 1) Le transfert de comportement émerge étonnamment tôt lors du démarrage à froid grâce à l'imagerie mentale linguistique. 2) Le démarrage à froid mémorise largement les comportements visuels, tandis que le RL discerne et amplifie de manière critique les modèles efficaces. 3) Le transfert favorise stratégiquement les comportements à haute utilité, comme la réflexion visuelle. Notre modèle résultant, Open-Vision-Reasoner (OVR), atteint des performances de pointe sur une série de benchmarks de raisonnement, incluant 95,3 % sur MATH500, 51,8 % sur MathVision et 54,6 % sur MathVerse. Nous publions notre modèle, les données et les dynamiques d'entraînement pour catalyser le développement de raisonneurs multimodaux plus performants et alignés sur les comportements.
Nous présentons NeuralOS, un cadre neuronal qui simule les interfaces graphiques (GUIs) des systèmes d'exploitation en prédisant directement les images d'écran en réponse aux entrées utilisateur telles que les mouvements de souris, les clics et les événements clavier. NeuralOS combine un réseau de neurones récurrent (RNN), qui suit l'état de l'ordinateur, avec un rendu neuronal basé sur la diffusion qui génère les images d'écran. Le modèle est entraîné sur un vaste ensemble de données d'enregistrements d'Ubuntu XFCE, comprenant à la fois des interactions générées aléatoirement et des interactions réalistes produites par des agents IA. Les expériences montrent que NeuralOS parvient à rendre des séquences d'interfaces graphiques réalistes, capture avec précision les interactions de la souris et prédit de manière fiable les transitions d'état comme le lancement d'applications. Bien que la modélisation précise des interactions clavier fines reste un défi, NeuralOS représente une étape vers la création d'interfaces neuronales génératives et entièrement adaptatives pour les futurs systèmes d'interaction homme-machine.
En exploitant les représentations puissantes des modèles de base pré-entraînés pour la vision -- traditionnellement utilisés pour la compréhension visuelle -- nous explorons une nouvelle direction : la construction d'un tokeniseur d'images directement sur de tels modèles, un domaine largement sous-exploré. Plus précisément, nous utilisons un modèle de base pour la vision figé comme encodeur de notre tokeniseur. Pour en améliorer l'efficacité, nous introduisons deux composants clés : (1) un cadre de quantification adaptative par région qui réduit la redondance dans les caractéristiques pré-entraînées sur des grilles 2D régulières, et (2) un objectif de reconstruction sémantique qui aligne les sorties du tokeniseur avec les représentations du modèle de base pour préserver la fidélité sémantique. Sur la base de ces conceptions, notre tokeniseur d'images proposé, VFMTok, obtient des améliorations substantielles dans la reconstruction d'images et la qualité de génération, tout en augmentant l'efficacité des tokens. Il améliore également la génération autorégressive (AR) -- atteignant un gFID de 2,07 sur les benchmarks d'ImageNet, tout en accélérant la convergence du modèle par un facteur de trois, et en permettant une synthèse conditionnelle par classe de haute fidélité sans nécessiter de guidage sans classifieur (CFG). Le code sera rendu public pour bénéficier à la communauté.
Cet article propose une approche de rendu neuronal qui représente une scène sous forme de "tokens de champ lumineux compressés (CLiFTs)", conservant des informations riches sur l'apparence et la géométrie de la scène. CLiFT permet un rendu efficace en termes de calcul grâce à des tokens compressés, tout en étant capable de modifier le nombre de tokens pour représenter une scène ou générer une nouvelle vue avec un seul réseau entraîné. Concrètement, étant donné un ensemble d'images, un encodeur multi-vues tokenise les images avec les poses de la caméra. Un K-means dans l'espace latent sélectionne un ensemble réduit de rayons comme centroïdes de clusters en utilisant les tokens. Le "condenseur" multi-vues compresse l'information de tous les tokens dans les tokens centroïdes pour construire les CLiFTs. Au moment du test, étant donné une vue cible et un budget de calcul (c'est-à-dire le nombre de CLiFTs), le système collecte le nombre spécifié de tokens proches et synthétise une nouvelle vue à l'aide d'un rendu adaptatif en fonction du calcul. Des expériences approfondies sur les ensembles de données RealEstate10K et DL3DV valident quantitativement et qualitativement notre approche, atteignant une réduction significative des données avec une qualité de rendu comparable et le score de rendu global le plus élevé, tout en offrant des compromis entre la taille des données, la qualité du rendu et la vitesse de rendu.
Dans ce rapport, nous présentons la famille de modèles Gemini 2.X : Gemini 2.5 Pro et Gemini 2.5 Flash, ainsi que nos modèles précédents Gemini 2.0 Flash et Flash-Lite. Gemini 2.5 Pro est notre modèle le plus performant à ce jour, atteignant des performances de pointe (SoTA) sur des benchmarks de codage et de raisonnement de pointe. En plus de ses compétences exceptionnelles en codage et en raisonnement, Gemini 2.5 Pro est un modèle de réflexion qui excelle dans la compréhension multimodale et est désormais capable de traiter jusqu'à 3 heures de contenu vidéo. Sa combinaison unique de capacités de contexte long, multimodales et de raisonnement peut être exploitée pour débloquer de nouveaux workflows agentiques. Gemini 2.5 Flash offre d'excellentes capacités de raisonnement avec des exigences de calcul et de latence réduites, tandis que Gemini 2.0 Flash et Flash-Lite fournissent des performances élevées avec une faible latence et un coût réduit. Ensemble, la génération de modèles Gemini 2.X couvre toute la frontière de Pareto entre la capacité du modèle et le coût, permettant aux utilisateurs d'explorer les limites de ce qui est possible dans la résolution de problèmes agentiques complexes.
Nous proposons le cache steering, une méthode légère pour le pilotage implicite des modèles de langage via une intervention ponctuelle appliquée directement au cache clé-valeur. Pour valider son efficacité, nous appliquons le cache steering pour induire un raisonnement en chaîne de pensée dans des modèles de langage de petite taille. Notre approche exploite des traces de raisonnement générées par GPT-4o pour construire des vecteurs de pilotage qui orientent le comportement du modèle vers un raisonnement plus explicite et multi-étapes, sans nécessiter de fine-tuning ou de modifications de l'invite. Les évaluations expérimentales sur divers benchmarks de raisonnement démontrent que le cache steering améliore à la fois la structure qualitative du raisonnement du modèle et la performance quantitative des tâches. Par rapport aux techniques antérieures de pilotage d'activation qui nécessitent des interventions continues, notre cache steering ponctuel offre des avantages substantiels en termes de stabilité des hyperparamètres, d'efficacité au moment de l'inférence et de facilité d'intégration, en faisant une solution plus robuste et pratique pour la génération contrôlée.
Les grands modèles de langage (LLM) autorégressifs ont unifié un large éventail de tâches linguistiques, inspirant des efforts préliminaires dans la génération vidéo autorégressive. Les générateurs vidéo autorégressifs existants s'écartent soit des architectures standard des LLM, dépendent d'encodeurs de texte externes encombrants, ou engendrent une latence prohibitive due au décodage token par token. Dans cet article, nous présentons Lumos-1, un générateur vidéo autorégressif qui conserve l'architecture des LLM avec des modifications architecturales minimales. Pour injecter des corrélations spatiotemporelles dans les LLM, nous identifions l'efficacité de l'intégration de la 3D RoPE et diagnostiquons ses plages de spectre de fréquences déséquilibrées. Par conséquent, nous proposons MM-RoPE, un schéma RoPE qui préserve la RoPE textuelle originale tout en fournissant des spectres de fréquences complets et des positions 3D mises à l'échelle pour modéliser les données spatiotemporelles multimodales. De plus, Lumos-1 recourt à une stratégie de dépendance des tokens qui respecte la bidirectionnalité intra-trame et la causalité temporelle inter-trames. Sur la base de cette stratégie de dépendance, nous identifions le problème de déséquilibre de perte par trame causé par la redondance d'information spatiale et le résolvons en proposant l'Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduit un masquage temporel en tube pendant l'entraînement avec une politique de masquage compatible au moment de l'inférence pour éviter une dégradation de la qualité. En utilisant des techniques d'entraînement économes en mémoire, nous pré-entraînons Lumos-1 sur seulement 48 GPU, atteignant des performances comparables à EMU3 sur GenEval, COSMOS-Video2World sur VBench-I2V, et OpenSoraPlan sur VBench-T2V. Le code et les modèles sont disponibles à l'adresse https://github.com/alibaba-damo-academy/Lumos.
Les modèles de récompense génératifs (également appelés LLMs-as-judges), qui utilisent des modèles de langage de grande taille (LLMs) pour évaluer la qualité des réponses, sont de plus en plus adoptés dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Ils sont souvent préférés aux métriques rigides basées sur des règles, en particulier pour les tâches de raisonnement complexes impliquant des sorties libres. Dans ce paradigme, un LLM est généralement sollicité pour comparer une réponse candidate à une référence de vérité terrain et attribuer une récompense binaire indiquant la justesse. Malgré la simplicité apparente de cette tâche de comparaison, nous constatons que les modèles de récompense génératifs présentent des vulnérabilités surprenantes face à des manipulations superficielles : des symboles non lexicaux (par exemple, ":" ou ".") ou des amorces de raisonnement comme "Processus de pensée :" et "Résolvons ce problème étape par étape." peuvent souvent entraîner des récompenses faussement positives. Nous démontrons que cette faiblesse est répandue parmi les LLMs, les ensembles de données et les formats d'invite, constituant une menace sérieuse pour les paradigmes algorithmiques centraux qui reposent sur des modèles de récompense génératifs, tels que l'échantillonnage par rejet, l'optimisation des préférences et le RLVR. Pour atténuer ce problème, nous introduisons une stratégie d'augmentation de données simple mais efficace et entraînons un nouveau modèle de récompense génératif avec une robustesse considérablement améliorée. Nos résultats soulignent le besoin urgent de méthodes d'évaluation basées sur les LLMs plus fiables. Nous publions notre modèle de récompense robuste et polyvalent ainsi que ses données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.
L'édition d'images traditionnelle repose généralement sur des instructions manuelles, ce qui la rend laborieuse et inaccessible aux personnes ayant des capacités motrices ou langagières limitées. En exploitant les avancées récentes des interfaces cerveau-ordinateur (BCI) et des modèles génératifs, nous proposons LoongX, une approche d'édition d'images sans contact pilotée par des signaux neurophysiologiques multimodaux. LoongX utilise des modèles de diffusion de pointe entraînés sur un ensemble de données complet de 23 928 paires d'édition d'images, chacune associée à des signaux synchronisés d'électroencéphalographie (EEG), de spectroscopie fonctionnelle dans le proche infrarouge (fNIRS), de photopléthysmographie (PPG) et de mouvements de la tête, captant ainsi l'intention de l'utilisateur. Pour traiter efficacement l'hétérogénéité de ces signaux, LoongX intègre deux modules clés. Le module d'espace d'état multi-échelle (CS3) encode des caractéristiques spécifiques à chaque modalité. Le module de fusion dynamique à portes (DGF) agrège ensuite ces caractéristiques dans un espace latent unifié, qui est ensuite aligné avec la sémantique de l'édition via un ajustement fin sur un transformateur de diffusion (DiT). De plus, nous pré-entraînons les encodeurs en utilisant l'apprentissage contrastif pour aligner les états cognitifs avec les intentions sémantiques issues du langage naturel intégré. Des expériences approfondies démontrent que LoongX atteint des performances comparables aux méthodes pilotées par texte (CLIP-I : 0,6605 contre 0,6558 ; DINO : 0,4812 contre 0,4636) et les surpasse lorsque les signaux neuronaux sont combinés à la parole (CLIP-T : 0,2588 contre 0,2549). Ces résultats mettent en lumière le potentiel des modèles génératifs pilotés par les signaux neuronaux pour permettre une édition d'images accessible et intuitive, et ouvrent de nouvelles perspectives pour les technologies créatives pilotées par la cognition. Les ensembles de données et le code seront publiés pour soutenir les travaux futurs et favoriser les progrès dans ce domaine émergent.
Les récentes avancées en génération 3D ont évolué des approches de rendu 2D multi-vues vers des frameworks de diffusion latente natifs en 3D qui exploitent les priors géométriques dans les données de référence. Malgré ces progrès, trois limitations majeures persistent : (1) Les représentations à latence unique échouent à capturer des géométries multi-parties complexes, entraînant une dégradation des détails ; (2) Le codage latent holistique néglige l'indépendance et les interrelations des parties, essentielles pour la conception compositionnelle ; (3) Les mécanismes de conditionnement global manquent de contrôlabilité fine. Inspirés par les workflows de conception 3D humains, nous proposons CoPart - un framework de diffusion conscient des parties qui décompose les objets 3D en latents contextuels de parties pour une génération multi-parties cohérente. Ce paradigme offre trois avantages : i) Réduit la complexité d'encodage grâce à la décomposition en parties ; ii) Permet une modélisation explicite des relations entre parties ; iii) Supporte un conditionnement au niveau des parties. Nous développons en outre une stratégie de guidage mutuel pour affiner les modèles de diffusion pré-entraînés pour un débruitage conjoint des latents de parties, assurant à la fois la cohérence géométrique et les priors du modèle de base. Pour permettre un entraînement à grande échelle, nous construisons Partverse - un nouveau jeu de données de parties 3D dérivé d'Objaverse grâce à une segmentation automatisée de maillages et des annotations vérifiées par des humains. Des expériences approfondies démontrent les capacités supérieures de CoPart en matière d'édition au niveau des parties, de génération d'objets articulés et de composition de scènes avec une contrôlabilité sans précédent.
Pour alléger la charge computationnelle des grands modèles de langage (LLM), les architectures à activation parcimonieuse, représentées par le mélange d'experts (MoE), ont suscité un intérêt croissant. Cependant, le routage non différentiable et rigide du MoE classique nuit aux performances du modèle. De plus, bien que chaque token n'active qu'un petit nombre de paramètres, ces architectures à activation parcimonieuse présentent une faible parcimonie au niveau des blocs, indiquant que l'union de plusieurs tokens consécutifs active une grande proportion de paramètres. Un tel schéma de parcimonie est peu adapté à l'accélération dans des conditions à ressources limitées (par exemple, les appareils en bout de chaîne) et incompatible avec les techniques d'accélération dominantes (par exemple, le décodage spéculatif). Pour relever ces défis, nous introduisons une nouvelle architecture MoE, BlockFFN, ainsi que ses techniques d'entraînement et de déploiement efficaces. Plus précisément, nous utilisons un routeur intégrant l'activation ReLU et RMSNorm pour un routage différentiable et flexible. Ensuite, pour promouvoir à la fois la parcimonie au niveau des tokens (TLS) et la parcimonie au niveau des blocs (CLS), des objectifs d'entraînement conscients de la CLS sont conçus, rendant BlockFFN plus adapté à l'accélération. Enfin, nous implémentons des noyaux d'accélération efficaces, combinant pour la première fois la parcimonie d'activation et le décodage spéculatif. Les résultats expérimentaux démontrent la performance supérieure de BlockFFN par rapport aux autres modèles de référence MoE, atteignant plus de 80 % de TLS et 70 % de CLS pour 8 tokens. Nos noyaux permettent une accélération allant jusqu'à 3,67 fois sur des appareils réels en bout de chaîne par rapport aux modèles denses. Tous les codes et points de contrôle sont disponibles publiquement (https://github.com/thunlp/BlockFFN).
Nous présentons Audio Flamingo 3 (AF3), un modèle audio-langue de pointe (SOTA) entièrement ouvert qui fait progresser le raisonnement et la compréhension dans les domaines de la parole, du son et de la musique. AF3 introduit : (i) AF-Whisper, un encodeur audio unifié entraîné à l'aide d'une nouvelle stratégie d'apprentissage de représentations conjointes pour les trois modalités que sont la parole, le son et la musique ; (ii) une réflexion flexible et à la demande, permettant au modèle d'effectuer un raisonnement de type chaîne de pensées avant de répondre ; (iii) un chat multi-tours et multi-audio ; (iv) une compréhension et un raisonnement sur des audios longs (y compris la parole) allant jusqu'à 10 minutes ; et (v) une interaction voix-à-voix. Pour permettre ces capacités, nous proposons plusieurs jeux de données d'entraînement à grande échelle, élaborés à l'aide de nouvelles stratégies, notamment AudioSkills-XL, LongAudio-XL, AF-Think et AF-Chat, et nous entraînons AF3 avec une nouvelle stratégie d'entraînement en cinq étapes basée sur un curriculum. Entraîné uniquement sur des données audio open-source, AF3 établit de nouveaux résultats SOTA sur plus de 20 benchmarks de compréhension et de raisonnement sur des audios (longs), surpassant à la fois les modèles à poids ouverts et les modèles propriétaires entraînés sur des jeux de données beaucoup plus volumineux.
Les modèles de fondation reposent sur l'idée que la prédiction de séquences peut révéler une compréhension plus profonde d'un domaine, à l'image de la manière dont les prédictions de Kepler sur le mouvement des planètes ont conduit à la découverte de la mécanique newtonienne. Cependant, évaluer si ces modèles capturent véritablement une structure plus profonde reste un défi. Nous développons une technique pour évaluer les modèles de fondation qui examine comment ils s'adaptent à des ensembles de données synthétiques générés à partir d'un modèle de monde postulé. Notre technique mesure si le biais inductif du modèle de fondation est aligné avec le modèle de monde, et nous la qualifions donc de sonde de biais inductif. À travers plusieurs domaines, nous constatons que les modèles de fondation peuvent exceller dans leurs tâches d'entraînement tout en échouant à développer des biais inductifs envers le modèle de monde sous-jacent lorsqu'ils sont adaptés à de nouvelles tâches. Nous observons en particulier que les modèles de fondation entraînés sur des trajectoires orbitales échouent systématiquement à appliquer la mécanique newtonienne lorsqu'ils sont adaptés à de nouvelles tâches de physique. Une analyse plus approfondie révèle que ces modèles se comportent comme s'ils développaient des heuristiques spécifiques à la tâche qui ne parviennent pas à généraliser.
Malgré les capacités impressionnantes des modèles de langage multimodaux de grande taille (MLLMs) dans les tâches vision-langage, ils sont sujets à des hallucinations dans des scénarios réels. Cet article étudie le phénomène d'hallucination dans les MLLMs sous l'angle du conflit de modalités. Contrairement aux travaux existants qui se concentrent sur les conflits entre les réponses du modèle et les entrées, nous examinons les conflits inhérents aux entrées provenant de différentes modalités qui placent les MLLMs dans un dilemme et conduisent directement à des hallucinations. Nous définissons formellement le conflit de modalités et construisons un ensemble de données nommé Multimodal Modality Conflict (MMMC) pour simuler ce phénomène dans les tâches vision-langage. Trois méthodes basées sur l'ingénierie des prompts, le fine-tuning supervisé et l'apprentissage par renforcement sont proposées pour atténuer l'hallucination causée par le conflit de modalités. Des expériences approfondies sont menées sur l'ensemble de données MMMC pour analyser les avantages et les inconvénients de ces méthodes. Nos résultats montrent que la méthode d'apprentissage par renforcement obtient les meilleures performances pour atténuer l'hallucination sous conflit de modalités, tandis que la méthode de fine-tuning supervisé montre des performances prometteuses et stables. Notre travail met en lumière le conflit de modalités méconnu qui conduit à des hallucinations et apporte des éclairages supplémentaires sur la robustesse des MLLMs.
La détection de points clés, essentielle à la perception moderne des machines, rencontre des défis dans l'apprentissage en few-shot, en particulier lorsque les données sources provenant de la même distribution que la requête sont indisponibles. Ce manque est comblé en exploitant les croquis, une forme populaire d'expression humaine, offrant une alternative sans source. Cependant, des difficultés surgissent dans la maîtrise des embeddings intermodaux et la gestion des styles de croquis spécifiques à l'utilisateur. Notre cadre proposé surmonte ces obstacles avec une configuration prototypique, combinée à un localisateur basé sur une grille et une adaptation de domaine prototypique. Nous démontrons également un succès dans la convergence en few-shot pour de nouveaux points clés et classes grâce à des expériences approfondies.
La compression de modèles offre une voie prometteuse pour réduire le coût et l'inaccessibilité des grands modèles pré-entraînés, sans compromettre significativement leurs performances impressionnantes. Les grands modèles Transformer, y compris les grands modèles de langage (LLM), contiennent souvent une redondance computationnelle, qui peut servir de cible pour de nouvelles méthodes de compression de modèles. Dans ce travail, nous ciblons spécifiquement les redondances au niveau des neurones dans les couches du modèle en regroupant des neurones similaires en un nombre réduit de neurones. Nous formulons cette réduction de largeur comme un problème de Transport Optimal Discret, et proposons DOTResize, une nouvelle méthode de compression de Transformer qui utilise la théorie du transport optimal pour transformer et compresser les poids du modèle. Pour garantir l'applicabilité au sein de l'architecture Transformer, nous motivons et intégrons une régularisation entropique et une factorisation matricielle dans les cartes de transport produites par notre méthode. Contrairement aux approches basées sur l'élagage qui suppriment des neurones en fonction de mesures d'importance, DOTResize reprojette toute la largeur des neurones, permettant la rétention et la redistribution du signal utile à travers la couche réduite. Les résultats empiriques montrent que, par rapport aux techniques simples ou de pointe d'élagage de largeur de neurones, DOTResize peut surpasser ces méthodes sur plusieurs familles et tailles de LLM, tout en obtenant des réductions mesurables du coût computationnel en situation réelle.