papers.description
Les systèmes multi-agents (MAS) étendent les capacités des grands modèles de langage (LLM) en passant d'un raisonnement par modèle unique indépendant à une intelligence systémique coordonnée. Alors que les agents LLM existants dépendent d'une médiation textuelle pour le raisonnement et la communication, nous franchissons une étape supplémentaire en permettant aux modèles de collaborer directement dans l'espace latent continu. Nous présentons LatentMAS, un cadre sans apprentissage de bout en bout qui permet une collaboration purement latente entre agents LLM. Dans LatentMAS, chaque agent effectue d'abord une génération de pensées latentes autorégressives via les embeddings cachés de la dernière couche. Une mémoire de travail latente partagée préserve et transfère ensuite les représentations internes de chaque agent, garantissant un échange d'information sans perte. Nous fournissons des analyses théoriques établissant que LatentMAS atteint une expressivité supérieure et une préservation d'information sans perte avec une complexité substantiellement réduite par rapport aux MAS textuels classiques. De plus, des évaluations empiriques sur 9 benchmarks complets couvrant le raisonnement mathématique et scientifique, la compréhension du sens commun et la génération de code montrent que LatentMAS surpasse constamment les modèles uniques et les bases de référence MAS textuels, atteignant une précision jusqu'à 14,6% supérieure, réduisant l'utilisation de tokens en sortie de 70,8% à 83,7%, et offrant une accélération de l'inférence de bout en bout de 4x à 4,3x. Ces résultats démontrent que notre nouveau cadre de collaboration latente améliore la qualité du raisonnement au niveau systémique tout en offrant des gains d'efficacité substantiels sans apprentissage supplémentaire. Le code et les données sont entièrement open-source à l'adresse https://github.com/Gen-Verse/LatentMAS.
Les modèles linguistiques multimodaux de grande taille (MLLM) sont actuellement au cœur de l'attention de la recherche, affichant des progrès rapides en termes d'échelle et de capacités, mais leur intelligence, leurs limites et leurs risques restent insuffisamment compris. Pour répondre à ces problématiques, particulièrement dans le contexte de la langue russe où aucun benchmark multimodal n'existe actuellement, nous présentons Mera Multi, un cadre d'évaluation multimodal ouvert pour les architectures russophones. Ce benchmark est basé sur des instructions et englobe les modalités par défaut que sont le texte, l'image, l'audio et la vidéo, comprenant 18 tâches d'évaluation nouvellement construites pour les modèles à usage général et les architectures spécifiques à une modalité (image-à-texte, vidéo-à-texte et audio-à-texte). Nos contributions incluent : (i) une taxonomie universelle des capacités multimodales ; (ii) 18 jeux de données créés entièrement *ex nihilo* en tenant compte des spécificités culturelles et linguistiques russes, avec des invites et des métriques unifiées ; (iii) des résultats de référence pour les modèles propriétaires et open-source ; (iv) une méthodologie pour prévenir la fuite du benchmark, incluant le tatouage numérique et des licences pour les ensembles privés. Bien que notre focus actuel soit le russe, le benchmark proposé offre une méthodologie reproductible pour construire des benchmarks multimodaux dans des langues typologiquement diverses, particulièrement au sein de la famille des langues slaves.
Les modèles de monde servent de simulateurs centraux pour des domaines tels que l'IA agentique, l'IA incarnée et le jeu vidéo, capables de générer des vidéos de haute qualité, longues, physiquement réalistes et interactives. De plus, la mise à l'échelle de ces modèles pourrait débloquer des capacités émergentes en perception visuelle, compréhension et raisonnement, ouvrant la voie à un nouveau paradigme qui dépasse les modèles de vision fondationnels actuels centrés sur les LLM. Une percée clé qui les habilite est le paradigme de décodage semi-autorégressif (block-diffusion), qui fusionne les atouts des méthodes de diffusion et autorégressives en générant des tokens vidéo par blocs avec application de la diffusion au sein de chaque bloc tout en se conditionnant sur les précédents, produisant ainsi des séquences vidéo plus cohérentes et stables. Surtout, il surmonte les limitations de la diffusion vidéo standard en réintroduisant une gestion du cache KV de type LLM, permettant une génération efficace, de longueur variable et de haute qualité. Par conséquent, Inferix est spécifiquement conçu comme un moteur d'inférence de nouvelle génération pour permettre une synthèse immersive du monde grâce à des processus de décodage semi-autorégressifs optimisés. Cette focalisation dédiée sur la simulation du monde le distingue nettement des systèmes conçus pour des scénarios à haute concurrence (comme vLLM ou SGLang) et des modèles classiques de diffusion vidéo (tels que xDiTs). Inferix enrichit encore son offre avec du streaming vidéo interactif et du profilage, permettant une interaction en temps réel et une simulation réaliste pour modéliser avec précision la dynamique du monde. De plus, il prend en charge l'évaluation comparative efficace grâce à l'intégration transparente de LV-Bench, un nouveau benchmark d'évaluation granulaire conçu pour les scénarios de génération vidéo d'une minute. Nous espérons que la communauté collaborera pour faire progresser Inferix et favoriser l'exploration des modèles de monde.
La synthèse de contenu audiovisuel synchronisé représente un défi majeur dans l'IA générative, les modèles open source étant confrontés à des difficultés pour assurer un alignement robuste entre l'audio et la vidéo. Notre analyse révèle que ce problème trouve son origine dans trois défis fondamentaux du processus de diffusion conjoint : (1) la Dérive de Correspondance, où l'évolution concurrente de latents bruités entrave l'apprentissage stable de l'alignement ; (2) des mécanismes d'attention globale inefficaces qui ne capturent pas les indices temporels fins ; et (3) le biais intra-modal des méthodes Classifier-Free Guidance (CFG) conventionnelles, qui améliorent la conditionnalité mais pas la synchronisation intermodale. Pour surmonter ces défis, nous présentons Harmony, un nouveau cadre qui applique mécaniquement la synchronisation audiovisuelle. Nous proposons d'abord un paradigme d'entraînement par Synergie Trans-tâches pour atténuer la dérive en exploitant les signaux de supervision forts des tâches de génération vidéo pilotée par l'audio et audio pilotée par la vidéo. Ensuite, nous concevons un Module d'Interaction Découplée Globale-Locale pour un alignement temporel et stylistique efficace et précis. Enfin, nous présentons une nouvelle CFG Améliorée pour la Synchronisation (SyncCFG) qui isole et amplifie explicitement le signal d'alignement pendant l'inférence. Des expériences approfondies démontrent qu'Harmony établit un nouvel état de l'art, surpassant significativement les méthodes existantes tant en fidélité de génération que, crucialement, dans l'atteinte d'une synchronisation audiovisuelle fine.
Nous présentons Nemotron-Parse-1.1, un modèle léger d'analyse de documents et de reconnaissance optique de caractères (OCR) qui améliore les capacités de son prédécesseur, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 offre des performances supérieures dans les domaines de l'OCR général, de la mise en forme Markdown, de l'analyse de tableaux structurés et de l'extraction de texte à partir d'images, de graphiques et de diagrammes. Il prend également en charge une longueur de séquence de sortie plus importante pour les documents visuellement denses. Comme son prédécesseur, il extrait les boîtes englobantes des segments de texte ainsi que leurs classes sémantiques correspondantes. Nemotron-Parse-1.1 suit une architecture encodeur-décodeur avec 885 millions de paramètres, incluant un décodeur linguistique compact de 256 millions de paramètres. Il atteint une précision compétitive sur les benchmarks publics, ce qui en fait une solution OCR légère performante. Nous publions les poids du modèle sur Hugging Face, ainsi qu'un conteneur NIM optimisé, accompagné d'un sous-ensemble des données d'entraînement faisant partie du jeu de données plus vaste Nemotron-VLM-v2. De plus, nous publions Nemotron-Parse-1.1-TC, qui fonctionne avec une longueur réduite de tokens visuels, offrant une amélioration de vitesse de 20 % pour une dégradation de qualité minime.
Les modèles multimodaux unifiés (UMM) ont démontré des performances impressionnantes en compréhension et en génération avec une architecture unique. Cependant, les UMM présentent encore une incohérence fondamentale : la compréhension privilégie des embeddings compacts, tandis que la génération favorise des représentations riches en information de reconstruction. Ce compromis structurel produit des frontières décisionnelles désalignées, une cohérence intermodale dégradée et une vulnérabilité accrue face aux décalages distributionnels et aux attaques adverses. Dans cet article, nous présentons UniGame, un cadre de post-formation auto-adversarial qui cible directement ces incohérences. En appliquant un perturbeur léger à l'interface de jetons partagés, UniGame permet à la branche de génération de rechercher et de défier activement la compréhension fragile, transformant le modèle en son propre adversaire. Les expériences démontrent qu'UniGame améliore significativement la cohérence (+4,6%). De plus, il permet également des améliorations substantielles en compréhension (+3,6%), en génération (+0,02), ainsi qu'en robustesse hors-distribution et adversarial (+4,8% et +6,2% sur NaturalBench et AdVQA). Le cadre est agnostique à l'architecture, introduit moins de 1% de paramètres supplémentaires et est complémentaire aux méthodes de post-formation existantes. Ces résultats positionnent l'auto-confrontation adversarial comme un principe général et efficace pour améliorer la cohérence, la stabilité et la compétence unifiée des futurs modèles de fondation multimodaux. Le code officiel est disponible à l'adresse : https://github.com/AIFrontierLab/UniGame
Nous étudions dans quelle mesure les grands modèles de langage (LLM) généralisent à travers différentes difficultés de tâches, une question clé pour une curation et une évaluation efficaces des données. Les recherches existantes présentent des résultats mitigés quant à savoir si l'entraînement sur des données faciles ou difficiles produit de meilleurs résultats, et si ces gains se manifestent sur des données de test faciles ou difficiles. Nous abordons cette question en réalisant une évaluation systématique de la généralisation des LLM à travers les modèles, les jeux de données et des groupes granulaires d'exemples classés par difficulté. Nous classons les exemples de six jeux de données en utilisant les sorties de milliers de LLM différents et la théorie de réponse à l'item (TRI), une métrique de difficulté bien établie dans le domaine du testing éducatif. Contrairement aux travaux antérieurs, nos évaluations de difficulté sont donc déterminées uniquement par les capacités de nombreux LLM différents, excluant les opinions humaines sur la difficulté. Grâce à une analyse plus objective, à plus grande échelle et plus granulaire, nous montrons que la généralisation trans-difficulté est souvent limitée ; l'entraînement sur des données faciles ou difficiles ne permet pas d'obtenir des améliorations constantes sur l'ensemble du spectre des difficultés. Ces résultats démontrent l'importance d'inclure une gamme de difficultés à la fois dans les données d'entraînement et d'évaluation pour les LLM, et que chercher des raccourcis concernant la difficulté est risqué.
« Penser avec des images » est apparu comme un paradigme efficace pour faire progresser le raisonnement visuel, dépassant les chaînes de pensée purement textuelles en injectant des preuves visuelles dans les étapes de raisonnement intermédiaires. Cependant, les méthodes existantes sont loin d'égaler la pensée visuelle abstraite humaine, car leur flexibilité est fondamentalement limitée par des outils externes. Dans ce travail, nous présentons Monet, un cadre d'apprentissage qui permet aux grands modèles de langage multimodaux (MLLM) de raisonner directement dans l'espace visuel latent en générant des embeddings continus qui fonctionnent comme des pensées visuelles intermédiaires. Nous identifions deux défis principaux dans l'entraînement des MLLM pour le raisonnement visuel latent : le coût computationnel élevé de l'alignement visuel latent et la supervision insuffisante des embeddings latents, et nous les abordons avec un pipeline de fine-tuning supervisé (SFT) en trois étapes basé sur la distillation. Nous révélons en outre une limite de l'application de GRPO au raisonnement latent : il améliore principalement le raisonnement basé sur le texte plutôt que le raisonnement latent. Pour surmonter cela, nous proposons VLPO (Optimisation de Politique en Latent Visuel), une méthode d'apprentissage par renforcement qui intègre explicitement les embeddings latents dans les mises à jour du gradient de politique. Pour soutenir le SFT, nous construisons Monet-SFT-125K, un jeu de données CoT entrelacé texte-image de haute qualité contenant 125K CoTs du monde réel, de graphiques, d'OCR et de géométrie. Notre modèle, Monet-7B, montre des gains constants sur divers benchmarks de perception et de raisonnement du monde réel et présente une forte généralisation hors distribution sur des tâches de raisonnement visuel abstrait difficiles. Nous analysons également empiriquement le rôle de chaque composant d'entraînement et discutons de nos premières tentatives infructueuses, fournissant des insights pour les développements futurs en raisonnement visuel latent. Notre modèle, nos données et notre code sont disponibles à l'adresse https://github.com/NOVAglow646/Monet.
Nous proposons Terminal Velocity Matching (TVM), une généralisation du *flow matching* qui permet une modélisation générative haute fidélité en une ou quelques étapes. TVM modélise la transition entre deux pas de diffusion quelconques et régularise son comportement au temps terminal plutôt qu'au temps initial. Nous démontrons que TVM fournit une borne supérieure sur la distance de Wasserstein-2 entre les distributions de données et de modèles lorsque le modèle est Lipschitz-continu. Cependant, puisque les *Diffusion Transformers* ne possèdent pas cette propriété, nous introduisons des modifications architecturales minimales permettant un entraînement stable en une seule étape. Pour rendre TVM efficace en pratique, nous développons un noyau d'attention fusionné qui prend en charge les passes arrière sur les produits Jacobien-Vecteur, lesquels s'adaptent bien aux architectures de transformateurs. Sur ImageNet-256x256, TVM atteint un FID de 3,29 avec une seule évaluation de fonction (NFE) et un FID de 1,99 avec 4 NFE. Il atteint de même un FID à 1 NFE de 4,32 et un FID à 4 NFE de 2,94 sur ImageNet-512x512, ce qui représente l'état de l'art pour les modèles en une/quelques étapes entraînés à partir de zéro.
Les modèles vision-langage (VLM) manquent encore de robustesse en intelligence spatiale, affichant des performances médiocres sur les tâches de compréhension et de raisonnement spatial. Nous attribuons cet écart à l'absence d'un processus d'apprentissage de la géométrie visuelle capable de reconstruire l'espace 3D à partir d'images 2D. Nous présentons G^2VLM, un modèle vision-langage ancré dans la géométrie qui relie deux aspects fondamentaux de l'intelligence spatiale : la reconstruction spatiale 3D et la compréhension spatiale. G^2VLM exploite nativement des caractéristiques géométriques visuelles 3D apprises pour prédire directement les attributs 3D et améliorer les tâches de raisonnement spatial via l'apprentissage en contexte et le raisonnement entrelacé. Notre conception unifiée est hautement évolutive pour la compréhension spatiale : elle s'entraîne sur d'abondantes données d'images multi-vues et de vidéos, tout en tirant parti des avantages des préconnaissances visuelles 3D qui sont généralement issues d'annotations difficiles à collecter. Les résultats expérimentaux démontrent que G^2VLM est compétent dans les deux tâches, obtenant des résultats comparables aux modèles de reconstruction 3D feed-forward de pointe et affichant des performances supérieures ou compétitives sur l'ensemble des tâches de compréhension et de raisonnement spatial. En unissant un VLM sémantiquement fort à des tâches de vision 3D de bas niveau, nous espérons que G^2VLM pourra servir de référence solide pour la communauté et ouvrir la voie à de futures applications, telles que l'édition de scènes 3D.
La génération vidéo à causalité par blocs se heurte à un compromis radical entre vitesse et qualité : les petits modèles de 1,3B n’atteignent que 16 FPS tandis que les grands modèles de 14B rampent à 4,5 FPS, forçant les utilisateurs à choisir entre réactivité et fidélité. Le Cascadage de Blocs atténue significativement ce compromis grâce à une parallélisation sans apprentissage. Notre idée clé : les blocs vidéo futurs n’ont pas besoin que les blocs actuels soient entièrement débruités pour démarrer leur génération. En initiant la génération des blocs avec un contexte partiellement débruité provenant des prédécesseurs, nous transformons les pipelines séquentiels en cascades parallèles où plusieurs blocs se débruisent simultanément. Avec 5 GPU exploitant le parallélisme temporel, nous obtenons une accélération d’environ 2× pour toutes les échelles de modèles : les modèles de 1,3B passent de 16 à 30 FPS, ceux de 14B de 4,5 à 12,5 FPS. Au-delà de la vitesse d’inférence, le Cascadage de Blocs élimine la surcharge due à la remise en cache des clés-valeurs (d’environ 200 ms) lors des changements de contexte pour la génération interactive. Des évaluations approfondies comparées à plusieurs pipelines à causalité par blocs démontrent qu’aucune perte significative de qualité de génération n’est observée lors du passage des pipelines à causalité par blocs aux pipelines à cascades de blocs pour l’inférence. Page du projet : https://hmrishavbandy.github.io/block_cascading_page/
L'ancrage d'instructions en langage naturel dans un contrôle continu pour les robots quadrupèdes reste un défi fondamental dans le domaine vision-langage-action. Les méthodes existantes peinent à faire le lien entre le raisonnement sémantique de haut niveau et l'actionnement de bas niveau, ce qui conduit à un ancrage instable et à une faible généralisation dans le monde réel. Pour résoudre ces problèmes, nous présentons MobileVLA-R1, un framework unifié vision-langage-action qui permet un raisonnement explicite et un contrôle continu pour les robots quadrupèdes. Nous construisons MobileVLA-CoT, un jeu de données à grande échelle de chaîne de pensée multi-granularité pour les trajectoires incarnées, fournissant une supervision structurée du raisonnement pour l'alignement. Sur cette base, nous introduisons un paradigme d'entraînement en deux étapes qui combine un alignement supervisé par CoT avec un apprentissage par renforcement GRPO pour améliorer la cohérence du raisonnement, la stabilité du contrôle et l'exécution à long terme. Des évaluations approfondies sur les tâches VLN et VLA démontrent des performances supérieures à celles de bases de référence solides, avec une amélioration d'environ 5 %. Un déploiement dans le monde réel sur un robot quadrupède valide des performances robustes dans des environnements complexes. Code : https://github.com/AIGeeksGroup/MobileVLA-R1. Site web : https://aigeeksgroup.github.io/MobileVLA-R1.
La distillation des pas de temps est une approche efficace pour améliorer l'efficacité de génération des modèles de diffusion. Le Modèle de Consistance (CM), en tant que cadre basé sur les trajectoires, démontre un potentiel significatif grâce à ses solides fondements théoriques et sa génération de haute qualité en peu d'étapes. Néanmoins, les méthodes actuelles de distillation de consistance en temps continu reposent encore largement sur les données d'entraînement et les ressources computationnelles, ce qui entrave leur déploiement dans des scénarios aux ressources limitées et limite leur extensibilité à divers domaines. Pour résoudre ce problème, nous proposons le Modèle de Consistance Rétrograde par Trajectoire (TBCM), qui élimine la dépendance aux données d'entraînement externes en extrayant directement les représentations latentes de la trajectoire de génération du modèle enseignant. Contrairement aux méthodes conventionnelles nécessitant un encodage VAE et de vastes ensembles de données, notre paradigme de distillation autonome améliore significativement à la fois l'efficacité et la simplicité. De plus, les échantillons extraits de la trajectoire comblent naturellement l'écart de distribution entre l'entraînement et l'inférence, permettant ainsi un transfert de connaissances plus efficace. Empiriquement, TBCM atteint un FID de 6,52 et un score CLIP de 28,08 sur MJHQ-30k en génération en une étape, tout en réduisant le temps d'entraînement d'environ 40% par rapport à Sana-Sprint et en économisant une quantité substantielle de mémoire GPU, démontrant une efficacité supérieure sans sacrifier la qualité. Nous révélons en outre la divergence espace de diffusion-génération dans la distillation de consistance en temps continu et analysons comment les stratégies d'échantillonnage affectent les performances de distillation, offrant ainsi des perspectives pour les futures recherches en distillation. Lien GitHub : https://github.com/hustvl/TBCM.
Les politiques Vision-Langage-Action (VLA) excellent dans l'alignement du langage, de la perception et du contrôle robotique. Cependant, la plupart des VLA sont entraînées uniquement par imitation, ce qui les rend sujettes au surajustement sur les démonstrations et les fragilise face à un changement de distribution. L'apprentissage par renforcement (RL) optimise directement la récompense de la tâche et résout ainsi ce problème d'alignement, mais l'interaction sur un vrai robot est coûteuse et les simulateurs conventionnels sont difficiles à concevoir et à transférer. Nous abordons à la fois l'efficacité des données et la stabilité de l'optimisation lors du post-entraînement des VLA via un modèle du monde appris et une procédure RL adaptée aux têtes d'action basées sur des flux. Plus précisément, nous présentons Prophet, une unité d'action-vers-vidéo unifiée, pré-entraînée sur de vastes données robotiques hétérogènes pour apprendre des dynamiques action-résultat réutilisables. Il est capable de s'adapter en few-shot à de nouveaux robots, objets et environnements, produisant ainsi un simulateur prêt à l'emploi. Sur la base de Prophet, nous renforçons les politiques d'action avec Flow-action-GRPO (FA-GRPO), qui adapte Flow-GRPO pour fonctionner sur des actions VLA, et avec FlowScale, une repondération pas à pas qui recalibre les gradients par étape dans la tête de flux. Ensemble, Prophet, FA-GRPO et FlowScale constituent ProphRL, une méthode pratique, économe en données et en calcul pour le post-entraînement des VLA. Les expériences montrent des gains de succès de 5 à 17 % sur des benchmarks publics et de 24 à 30 % sur des robots réels pour différentes variantes de VLA.
Les modèles de fondation visuels (VFMs) extraient des représentations sous-échantillonnées spatialement, ce qui pose des défis pour les tâches au niveau pixel. Les approches de suréchantillonnage existantes présentent un compromis fondamental : les filtres classiques sont rapides et largement applicables mais reposent sur des formes fixes, tandis que les suréchantillonneurs modernes atteignent une précision supérieure grâce à des formes apprenables spécifiques aux VFM au prix d'un réentraînement pour chaque modèle. Nous présentons le Filtrage par Attention de Voisinage (NAF), qui comble cet écart en apprenant des poids adaptatifs spatiaux-et-de-contenu via l'Attention de Voisinage Multi-Échelle et les encodages positionnels rotatifs (RoPE), guidé uniquement par l'image d'entrée haute résolution. NAF fonctionne en zéro-shot : il suréchantillonne les caractéristiques de n'importe quel VFM sans réentraînement, ce qui en fait la première architecture agnostique aux VFM à surpasser les suréchantillonneurs spécifiques et à atteindre des performances de pointe sur plusieurs tâches en aval. Il maintient une haute efficacité, pouvant traiter des cartes de caractéristiques 2K et reconstruire des cartes de résolution intermédiaire à 18 FPS. Au-delà du suréchantillonnage de caractéristiques, NAF démontre de solides performances en restauration d'image, soulignant sa polyvalence. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/valeoai/NAF.
Nous présentons Sphinx, un environnement synthétique dédié à la perception visuelle et au raisonnement, qui cible des primitives cognitives fondamentales. Sphinx génère procéduralement des énigmes en utilisant des motifs, des tuiles, des graphiques, des icônes et des primitives géométriques, chacune étant associée à des solutions vérifiables de référence, permettant à la fois une évaluation précise et la construction de jeux de données à grande échelle. Le benchmark couvre 25 types de tâches incluant la détection de symétrie, les transformations géométriques, le raisonnement spatial, l'interprétation de graphiques et la prédiction de séquences. L'évaluation de récents modèles de vision et langage à grande échelle (LVLM) montre que même le GPT-5, pourtant état de l'art, n'atteint que 51,1 % de précision, soit bien en deçà des performances humaines. Enfin, nous démontrons que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore substantiellement la précision des modèles sur ces tâches et génère des gains sur des benchmarks externes de raisonnement visuel, soulignant son potentiel pour faire progresser le raisonnement multimodal.
L'apprentissage par renforcement à partir de retours humains (RLHF) est largement utilisé pour aligner les grands modèles de langage, mais les praticiens sont confrontés à une énigme persistante : l'amélioration de la sécurité réduit souvent l'équité, la mise à l'échelle à des populations diverses devient informatiquement intraitable, et le renforcement de la robustesse des systèmes amplifie souvent les biais majoritaires. Nous formalisons cette tension sous le nom de Trilemme de l'Alignement : aucun système RLHF ne peut simultanément atteindre (i) une epsilon-représentativité sur des valeurs humaines diverses, (ii) une tractabilité polynomiale en complexité d'échantillonnage et de calcul, et (iii) une delta-robustesse contre les perturbations adverses et les décalages de distribution. Par une analyse de complexité théorique intégrant la théorie de l'apprentissage statistique et l'optimisation robuste, nous prouvons qu'atteindre à la fois la représentativité (epsilon <= 0.01) et la robustesse (delta <= 0.001) pour des populations à l'échelle mondiale nécessite des opérations en Omega(2^{d_contexte}), ce qui est super-polynomial dans la dimensionnalité du contexte. Nous montrons que les implémentations actuelles du RLHF résolvent ce trilemme en sacrifiant la représentativité : elles collectent seulement 10^3–10^4 échantillons auprès de pools d'annotateurs homogènes alors que 10^7–10^8 échantillons sont nécessaires pour une véritable représentation globale. Notre cadre fournit une explication unifiée pour les pathologies documentées du RLHF, incluant l'effondrement des préférences, la flagornerie et l'amplification des biais systématiques. Nous concluons par des orientations concrètes pour naviguer ces compromis fondamentaux via des assouplissements stratégiques des exigences d'alignement.
La génération 3D à l'échelle urbaine revêt une importance cruciale pour le développement de l'intelligence incarnée et des modèles du monde. Les méthodes existantes rencontrent cependant des défis majeurs concernant la qualité, la fidélité et l'évolutivité dans la génération de mondes 3D. Nous proposons donc RAISECity, un moteur de synthèse intelligente aligné sur la réalité qui crée des mondes 3D détaillés à l'échelle urbaine. Nous introduisons un cadre agentique qui exploite divers outils fondamentaux multimodaux pour acquérir des connaissances du monde réel, maintenir des représentations intermédiaires robustes et construire des scènes 3D complexes. Cette conception agentique, caractérisée par un traitement dynamique des données, une autoréflexion et un affinement itératifs, et l'invocation d'outils multimodaux avancés, minimise les erreurs cumulatives et améliore les performances globales. Des expériences quantitatives approfondies et des analyses qualitatives valident la performance supérieure de RAISECity en termes d'alignement réaliste, de précision géométrique, de fidélité texturale et de niveau esthétique, atteignant un taux de préférence supérieur à 90% face aux méthodes de référence pour la qualité perceptuelle globale. Cette combinaison de qualité 3D, d'alignement réaliste, d'évolutivité et de compatibilité transparente avec les pipelines de synthèse d'images fait de RAISECity une base prometteuse pour les applications dans les médias immersifs, l'intelligence incarnée et les modèles du monde.
La prédiction précise de la durée de vie résiduelle (RUL) dépend de la qualité des indicateurs de santé (HI), mais les méthodes existantes échouent souvent à démêler les mécanismes de dégradation complexes dans les systèmes multi-capteurs ou à quantifier l'incertitude quant à la fiabilité des HI. Cet article présente un nouveau cadre pour la construction d'indicateurs de santé, en proposant trois contributions principales. Premièrement, nous adaptons la Reconstruction le long des Voies de Projection (RaPP) comme indicateur de santé (HI) pour la prédiction de la RUL pour la première fois, en démontrant qu'elle surpasse les métriques d'erreur de reconstruction traditionnelles. Deuxièmement, nous montrons que l'enrichissement des HI dérivés de RaPP par une quantification de l'incertitude (UQ) aléatoire et épistémique, via du "dropout" de Monte Carlo et des espaces latents probabilistes, améliore significativement la robustesse de la prédiction de la RUL. Troisièmement, et c'est le plus important, nous proposons les "groupes d'indicateurs", un paradigme qui isole des sous-ensembles de capteurs pour modéliser des dégradations spécifiques au système, donnant naissance à notre nouvelle méthode, I-GLIDE, qui permet des diagnostics interprétables et spécifiques aux mécanismes. Évaluée sur des données provenant de systèmes aérospatiaux et manufacturiers, notre approche obtient des améliorations marquées en termes de précision et de généralisabilité par rapport aux méthodes HI de pointe, tout en fournissant des informations exploitables sur les chemins de défaillance du système. Ces travaux comblent le fossé entre la détection d'anomalies et la pronostique, en offrant un cadre rigoureux pour la modélisation de la dégradation prenant en compte l'incertitude dans les systèmes complexes.
Bien que la technique de projection par splatting de Gaussiennes 3D (3DGS) excelle dans la plupart des configurations, elle manque de généralisation pour les points de vue nouveaux dans un scénario à faible nombre d'exemples, car elle surapprend les observations éparses. Nous revisitons l'optimisation de la 3DGS sous l'angle de l'apprentissage automatique, en formulant la synthèse de nouvelles vues comme un problème de généralisation à des points de vue non vus – une direction peu explorée. Nous proposons la Régularisation de Netteté Adaptative en Fréquence (FASR), qui reformule la fonction de coût de l'entraînement de la 3DGS, guidant ainsi celle-ci à converger vers une solution de meilleure généralisation. Bien que la Minimisation Sensible à la Netteté (SAM) réduise également la netteté du paysage de la fonction de perte pour améliorer la généralisation des modèles de classification, son utilisation directe pour la 3DGS est sous-optimale en raison de l'écart entre les tâches. Concrètement, elle entrave la reconstruction des détails haute fréquence à cause d'une régularisation excessive, tandis que réduire son intensité mène à une pénalisation insuffisante de la netteté. Pour résoudre ceci, nous reflétons la fréquence locale des images pour définir le poids de régularisation et le rayon du voisinage lors de l'estimation de la netteté locale. Cela empêche les artéfacts flottants dans les nouveaux points de vue et reconstruit les détails fins que SAM a tendance à trop lisser. Sur des jeux de données aux configurations variées, notre méthode améliore constamment un large éventail de lignes de base. Le code sera disponible à l'adresse https://bbangsik13.github.io/FASR.