Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'unification de la compréhension et de la génération d'images a suscité un intérêt croissant dans les recherches récentes sur les modèles multimodaux. Bien que les choix de conception pour la compréhension d'images aient été largement étudiés, l'architecture optimale du modèle et la recette d'entraînement pour un cadre unifié incluant la génération d'images restent peu explorées. Motivés par le fort potentiel des modèles autorégressifs et de diffusion pour une génération de haute qualité et une grande évolutivité, nous menons une étude approfondie de leur utilisation dans des contextes multimodaux unifiés, en mettant l'accent sur les représentations d'images, les objectifs de modélisation et les stratégies d'entraînement. Sur la base de ces investigations, nous introduisons une nouvelle approche qui utilise un transformeur de diffusion pour générer des caractéristiques d'images CLIP sémantiquement riches, contrairement aux représentations conventionnelles basées sur des VAE. Cette conception offre à la fois une meilleure efficacité d'entraînement et une qualité générative améliorée. De plus, nous démontrons qu'une stratégie de pré-entraînement séquentiel pour les modèles unifiés—d'abord sur la compréhension d'images puis sur la génération d'images—présente des avantages pratiques en préservant la capacité de compréhension d'images tout en développant une forte capacité de génération d'images. Enfin, nous avons soigneusement constitué un ensemble de données de réglage par instructions de haute qualité, BLIP3o-60k, pour la génération d'images en incitant GPT-4o avec un ensemble diversifié de légendes couvrant diverses scènes, objets, gestes humains, et plus encore. En nous appuyant sur notre conception de modèle innovante, notre recette d'entraînement et nos ensembles de données, nous développons BLIP3-o, une suite de modèles multimodaux unifiés de pointe. BLIP3-o obtient des performances supérieures sur la plupart des benchmarks populaires couvrant à la fois les tâches de compréhension et de génération d'images. Pour faciliter les recherches futures, nous rendons entièrement open-source nos modèles, y compris le code, les poids des modèles, les scripts d'entraînement, ainsi que les ensembles de données de pré-entraînement et de réglage par instructions.
L'essor rapide des grands modèles de langage (LLMs) a révélé des limites critiques dans les architectures matérielles actuelles, notamment des contraintes en matière de capacité mémoire, d'efficacité computationnelle et de bande passante d'interconnexion. DeepSeek-V3, entraîné sur 2 048 GPU NVIDIA H800, démontre comment une co-conception matérielle et modèle peut relever efficacement ces défis, permettant un entraînement et une inférence à grande échelle à moindre coût. Cet article présente une analyse approfondie de l'architecture du modèle DeepSeek-V3/R1 et de son infrastructure IA, mettant en lumière des innovations clés telles que l'attention latente multi-têtes (MLA) pour une meilleure efficacité mémoire, les architectures Mixture of Experts (MoE) pour optimiser les compromis calcul-communication, l'entraînement en précision mixte FP8 pour exploiter pleinement les capacités matérielles, et une topologie réseau multi-plan pour minimiser la surcharge réseau au niveau du cluster. En nous appuyant sur les goulots d'étranglement matériels rencontrés lors du développement de DeepSeek-V3, nous engageons une discussion plus large avec nos pairs académiques et industriels sur les orientations matérielles futures potentielles, incluant des unités de calcul en basse précision précises, la convergence des approches scale-up et scale-out, et des innovations dans les interconnexions à faible latence. Ces insights soulignent le rôle crucial de la co-conception matérielle et modèle pour répondre aux demandes croissantes des charges de travail IA, offrant un plan pratique pour l'innovation dans les systèmes IA de nouvelle génération.
Les ensembles de données de légendes d'images en langage naturel, largement utilisés pour l'entraînement des grands modèles multimodaux, se concentrent principalement sur des scénarios naturels et négligent les détails complexes des figures mathématiques, pourtant essentiels pour la résolution de problèmes, ce qui freine les progrès des modèles multimodaux actuels dans le raisonnement mathématique multimodal. Pour pallier cela, nous proposons d'utiliser le code comme supervision pour l'alignement intermodal, car le code encode intrinsèquement toutes les informations nécessaires à la génération des figures correspondantes, établissant ainsi une connexion précise entre les deux modalités. Plus précisément, nous co-développons notre modèle image-à-code et notre ensemble de données avec une approche de modèle-en-boucle, aboutissant à un modèle image-à-code, FigCodifier, et à l'ensemble de données ImgCode-8.6M, le plus grand ensemble de données image-code à ce jour. En outre, nous utilisons FigCodifier pour synthétiser de nouvelles figures mathématiques, puis construisons MM-MathInstruct-3M, un ensemble de données de fine-tuning de haute qualité pour les instructions mathématiques multimodales. Enfin, nous présentons MathCoder-VL, entraîné avec ImgCode-8.6M pour l'alignement intermodal, puis fine-tuné sur MM-MathInstruct-3M pour la résolution de problèmes mathématiques multimodaux. Notre modèle atteint un nouvel état de l'art open-source sur les six métriques. Notamment, il surpasse GPT-4o et Claude 3.5 Sonnet dans le sous-ensemble de résolution de problèmes de géométrie de MathVista, avec des améliorations de 8,9 % et 9,2 %. Les ensembles de données et les modèles seront disponibles sur https://github.com/mathllm/MathCoder.
Les tâches de prédiction visuelle dense ont été limitées par leur dépendance à des catégories prédéfinies, restreignant ainsi leur applicabilité dans des scénarios réels où les concepts visuels sont illimités. Bien que les modèles vision-langage (VLMs) comme CLIP aient montré des résultats prometteurs dans les tâches à vocabulaire ouvert, leur application directe à la prédiction dense conduit souvent à des performances sous-optimales en raison de limitations dans la représentation des caractéristiques locales. Dans ce travail, nous présentons notre observation selon laquelle les tokens d'image de CLIP peinent à agréger efficacement les informations provenant de régions spatialement ou sémantiquement liées, ce qui entraîne des caractéristiques manquant de discriminabilité locale et de cohérence spatiale. Pour résoudre ce problème, nous proposons DeCLIP, un nouveau cadre qui améliore CLIP en découplant le module d'auto-attention pour obtenir respectivement des caractéristiques de « contenu » et de « contexte ». Les caractéristiques de « contenu » sont alignées avec les représentations de recadrage d'image pour améliorer la discriminabilité locale, tandis que les caractéristiques de « contexte » apprennent à préserver les corrélations spatiales sous la guidance de modèles de fondation visuelle, tels que DINO. Des expériences approfondies démontrent que DeCLIP surpasse significativement les méthodes existantes dans plusieurs tâches de prédiction dense à vocabulaire ouvert, incluant la détection d'objets et la segmentation sémantique. Le code est disponible à l'adresse magenta{https://github.com/xiaomoguhz/DeCLIP}.
Nous présentons une méthode simple mais efficace basée sur la diffusion pour un contrôle paramétrique et granulaire des sources lumineuses dans une image. Les méthodes existantes de rééclairage s'appuient soit sur plusieurs vues d'entrée pour effectuer un rendu inverse au moment de l'inférence, soit échouent à fournir un contrôle explicite sur les modifications lumineuses. Notre méthode affine un modèle de diffusion sur un petit ensemble de paires de photographies brutes réelles, complétées par des images synthétiquement rendues à grande échelle, pour exploiter son a priori photoréaliste en matière de rééclairage. Nous tirons parti de la linéarité de la lumière pour synthétiser des paires d'images représentant des changements lumineux contrôlés, que ce soit pour une source lumineuse cible ou pour l'éclairage ambiant. En utilisant ces données et un schéma d'affinage approprié, nous entraînons un modèle pour des modifications précises de l'éclairage avec un contrôle explicite de l'intensité et de la couleur de la lumière. Enfin, nous montrons comment notre méthode peut produire des résultats convaincants en matière d'édition lumineuse, surpassant les méthodes existantes sur la base des préférences des utilisateurs.
Le succès de l'apprentissage profond en vision par ordinateur au cours de la dernière décennie a reposé sur de grands ensembles de données étiquetées et des modèles pré-entraînés performants. Dans des contextes où les données sont rares, la qualité de ces modèles pré-entraînés devient cruciale pour un transfert d'apprentissage efficace. La classification d'images et l'apprentissage auto-supervisé ont traditionnellement été les principales méthodes pour le pré-entraînement des réseaux de neurones convolutifs (CNN) et des architectures basées sur les transformateurs. Récemment, l'essor des modèles génératifs texte-image, en particulier ceux utilisant la diffusion de débruitage dans un espace latent, a introduit une nouvelle classe de modèles fondamentaux entraînés sur des ensembles massifs d'images légendées. La capacité de ces modèles à générer des images réalistes de contenus inédits suggère qu'ils possèdent une compréhension approfondie du monde visuel. Dans ce travail, nous présentons Marigold, une famille de modèles génératifs conditionnels et un protocole de fine-tuning qui extrait les connaissances des modèles de diffusion latente pré-entraînés comme Stable Diffusion et les adapte pour des tâches d'analyse d'image dense, incluant l'estimation de profondeur monoculaire, la prédiction des normales de surface et la décomposition intrinsèque. Marigold nécessite des modifications minimales de l'architecture du modèle de diffusion latente pré-entraîné, s'entraîne avec de petits ensembles de données synthétiques sur un seul GPU en quelques jours, et démontre une généralisation zero-shot de pointe. Page du projet : https://marigoldcomputervision.github.io
Le mimétisme est un mécanisme d'apprentissage fondamental chez les humains, permettant aux individus d'acquérir de nouvelles compétences en observant et en imitant des experts. Cependant, l'application de cette capacité aux robots présente des défis importants en raison des différences intrinsèques entre les incarnations humaines et robotiques, tant en termes d'apparence visuelle que de capacités physiques. Alors que les méthodes précédentes comblent cet écart en utilisant des ensembles de données inter-embodiments avec des scènes et des tâches partagées, la collecte de telles données alignées entre humains et robots à grande échelle n'est pas triviale. Dans cet article, nous proposons UniSkill, un cadre novateur qui apprend des représentations de compétences indépendantes de l'incarnation à partir de données vidéo inter-embodiments à grande échelle sans aucune annotation, permettant ainsi aux compétences extraites de vidéos humaines de se transférer efficacement à des politiques robotiques entraînées uniquement sur des données robotiques. Nos expériences, menées à la fois en simulation et dans des environnements réels, montrent que nos compétences inter-embodiments guident avec succès les robots dans le choix d'actions appropriées, même avec des vidéos inédites. Le site web du projet est disponible à l'adresse suivante : https://kimhanjung.github.io/UniSkill.
La reconstruction de scènes 3D de haute qualité à partir d'une seule image RVB est une tâche complexe en infographie. Les méthodes actuelles rencontrent souvent des limitations spécifiques à un domaine ou produisent des objets de faible qualité. Pour remédier à ces problèmes, nous proposons CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), une nouvelle méthode de reconstruction et de récupération de scènes 3D. CAST commence par extraire une segmentation 2D au niveau des objets et des informations de profondeur relative à partir de l'image d'entrée, puis utilise un modèle basé sur GPT pour analyser les relations spatiales inter-objets. Cela permet de comprendre comment les objets interagissent entre eux dans la scène, assurant une reconstruction plus cohérente. CAST emploie ensuite un modèle de génération 3D à grande échelle prenant en compte les occlusions pour générer indépendamment la géométrie complète de chaque objet, en utilisant le conditionnement par MAE et par nuage de points pour atténuer les effets des occlusions et des informations partielles sur les objets, garantissant un alignement précis avec la géométrie et la texture de l'image source. Pour aligner chaque objet avec la scène, le modèle de génération d'alignement calcule les transformations nécessaires, permettant aux maillages générés d'être positionnés et intégrés avec précision dans le nuage de points de la scène. Enfin, CAST intègre une étape de correction prenant en compte la physique, qui exploite un graphe de relations fines pour générer un graphe de contraintes. Ce graphe guide l'optimisation des poses des objets, assurant une cohérence physique et spatiale. En utilisant les champs de distance signée (SDF), le modèle résout efficacement des problèmes tels que les occlusions, les pénétrations d'objets et les objets flottants, garantissant que la scène générée reflète fidèlement les interactions physiques du monde réel. CAST peut être exploité en robotique, permettant des workflows efficaces du réel à la simulation et fournissant des environnements de simulation réalistes et évolutifs pour les systèmes robotiques.
Les modèles de dialogue vocal de bout en bout tels que GPT-4o-audio ont récemment suscité une attention significative dans le domaine de la parole. Cependant, l'évaluation des performances conversationnelles des modèles de dialogue vocal a été largement négligée. Cela est principalement dû au fait que les chatbots intelligents véhiculent une richesse d'informations non textuelles qui ne peuvent pas être facilement mesurées à l'aide de modèles de langage basés sur le texte comme ChatGPT. Pour combler cette lacune, nous proposons WavReward, un modèle de rétroaction de récompense basé sur des modèles de langage audio capables d'évaluer à la fois le QI et le QE des systèmes de dialogue vocal avec entrée vocale. Plus précisément, 1) basé sur des modèles de langage audio, WavReward intègre un processus de raisonnement profond et un mécanisme de récompense non linéaire pour l'après-entraînement. En utilisant une rétroaction multi-échantillons via l'algorithme d'apprentissage par renforcement, nous construisons un évaluateur spécialement adapté aux modèles de dialogue vocal. 2) Nous introduisons ChatReward-30K, un ensemble de données de préférences utilisé pour entraîner WavReward. ChatReward-30K inclut à la fois les aspects de compréhension et de génération des modèles de dialogue vocal. Ces scénarios couvrent diverses tâches, telles que les discussions basées sur le texte, neuf attributs acoustiques des discussions d'instruction et les discussions implicites. WavReward surpasse les modèles d'évaluation précédents de pointe dans plusieurs scénarios de dialogue vocal, obtenant une amélioration substantielle par rapport à Qwen2.5-Omni en précision objective, passant de 55,1 % à 91,5 %. Dans les tests subjectifs A/B, WavReward mène également avec une marge de 83 %. Des études d'ablation complètes confirment la nécessité de chaque composant de WavReward. Toutes les données et le code seront publics sur https://github.com/jishengpeng/WavReward après l'acceptation de l'article.
Nous proposons Omni-R1, qui affine un modèle de langage multimodal récent, Qwen2.5-Omni, sur un ensemble de données de questions-réponses audio en utilisant la méthode d'apprentissage par renforcement GRPO. Cela conduit à de nouvelles performances de pointe sur le récent benchmark MMAU. Omni-R1 atteint les plus hautes précisions dans les catégories des sons, de la musique, de la parole et de la moyenne globale, à la fois sur les divisions Test-mini et Test-full. Pour comprendre l'amélioration des performances, nous avons testé des modèles avec et sans audio et avons constaté qu'une grande partie de l'amélioration due à GRPO pouvait être attribuée à un meilleur raisonnement basé sur le texte. Nous avons également fait une découverte surprenante : l'affinage sans audio sur un ensemble de données textuel uniquement s'est avéré efficace pour améliorer les performances basées sur l'audio.
La localisation des problèmes logiciels, qui consiste à identifier les emplacements précis du code (fichiers, classes ou fonctions) pertinents pour une description en langage naturel d'un problème (par exemple, un rapport de bug ou une demande de fonctionnalité), est un aspect crucial mais chronophage du développement logiciel. Bien que les approches récentes basées sur des modèles de langage (LLM) montrent des résultats prometteurs, elles entraînent souvent une latence et un coût significatifs en raison de leur raisonnement multi-étapes complexe et de leur dépendance à des LLM propriétaires. Par ailleurs, les modèles traditionnels de classement de code, généralement optimisés pour la recherche requête-vers-code ou code-vers-code, peinent à gérer la nature verbale et descriptive des échecs des requêtes de localisation de problèmes. Pour combler cette lacune, nous présentons SweRank, un cadre de récupération et reclassement efficace pour la localisation des problèmes logiciels. Pour faciliter l'entraînement, nous avons construit SweLoc, un jeu de données à grande échelle extrait de dépôts GitHub publics, comprenant des descriptions de problèmes réels associées aux modifications de code correspondantes. Les résultats empiriques sur SWE-Bench-Lite et LocBench montrent que SweRank atteint des performances de pointe, surpassant à la fois les modèles de classement précédents et les systèmes coûteux basés sur des agents utilisant des LLM propriétaires comme Claude-3.5. De plus, nous démontrons l'utilité de SweLoc pour améliorer divers modèles de récupération et reclassement existants pour la localisation de problèmes, établissant ainsi ce jeu de données comme une ressource précieuse pour la communauté.
Malgré les récents progrès dans la compréhension vidéo, les capacités des grands modèles de langage vidéo (LVLMs) à effectuer un raisonnement causal basé sur la vidéo restent peu explorées, principalement en raison de l'absence de benchmarks pertinents et dédiés pour évaluer le raisonnement causal dans des contextes visuellement ancrés et orientés vers un objectif. Pour combler cette lacune, nous introduisons un nouveau benchmark nommé Raisonnement Causal Long-Forme basé sur la Vidéo (VCRBench). Nous avons créé VCRBench en utilisant des vidéos procédurales d'activités quotidiennes simples, où les étapes sont délibérément mélangées, chaque clip capturant un événement causal clé, afin de tester si les LVLMs peuvent identifier, raisonner et séquencer correctement les événements nécessaires pour accomplir un objectif spécifique. De plus, le benchmark est soigneusement conçu pour empêcher les LVLMs d'exploiter des raccourcis linguistiques, comme on le voit dans les formats de questions à choix multiples ou binaires, tout en évitant les défis associés à l'évaluation des questions ouvertes. Notre évaluation des LVLMs de pointe sur VCRBench suggère que ces modèles ont du mal avec le raisonnement causal long-forme basé sur la vidéo, principalement en raison de leur difficulté à modéliser les dépendances causales à long terme directement à partir d'observations visuelles. Comme une étape simple pour permettre de telles capacités, nous proposons la Décomposition Reconnaissance-Raisonnement (RRD), une approche modulaire qui divise le raisonnement causal basé sur la vidéo en deux sous-tâches de reconnaissance vidéo et de raisonnement causal. Nos expériences sur VCRBench montrent que RRD améliore significativement la précision sur VCRBench, avec des gains allant jusqu'à 25,2 %. Enfin, notre analyse approfondie révèle des insights intéressants, par exemple, que les LVLMs s'appuient principalement sur les connaissances linguistiques pour les tâches complexes de raisonnement causal long-forme basé sur la vidéo.
Les ensembles de données de pré-entraînement sont fondamentaux pour le développement de modèles multimodaux, mais ils contiennent souvent des biais inhérents et du contenu toxique provenant des corpus à l'échelle du web dont ils sont issus. Dans cet article, nous étudions la prévalence de la toxicité dans l'ensemble de données de pré-entraînement image-texte LLaVA, en examinant comment le contenu nuisible se manifeste dans différentes modalités. Nous présentons une analyse approfondie des catégories courantes de toxicité et proposons des stratégies ciblées d'atténuation, aboutissant à la création d'un ensemble de données raffiné et atténué en termes de toxicité. Cet ensemble de données supprime 7 531 paires image-texte toxiques dans le jeu de données de pré-entraînement LLaVA. Nous fournissons des lignes directrices pour la mise en œuvre de pipelines robustes de détection de la toxicité. Nos résultats soulignent la nécessité d'identifier et de filtrer activement le contenu toxique - tel que les discours haineux, les images explicites et le harcèlement ciblé - pour construire des systèmes multimodaux plus responsables et équitables. L'ensemble de données atténué en termes de toxicité est open source et disponible pour des recherches ultérieures.
La technologie de réidentification de personnes (ReID) est généralement considérée comme performante dans des conditions contrôlées au niveau du sol, mais elle montre des limites lorsqu'elle est déployée dans des environnements réels complexes. Cela s'explique principalement par des facteurs de variabilité extrême des données, tels que les changements de résolution, de point de vue, d'échelle, les occlusions, ainsi que les variations d'apparence dues aux vêtements ou aux différences entre sessions. De plus, les ensembles de données publics disponibles n'intègrent pas de manière réaliste ce type et cette ampleur de variabilité, ce qui freine les avancées dans ce domaine. Cet article présente DetReIDX, un vaste ensemble de données aériennes et terrestres dédié à la réidentification de personnes, conçu spécifiquement comme un test de résistance pour la ReID dans des conditions réelles. DetReIDX est un ensemble multi-sessions comprenant plus de 13 millions de boîtes englobantes issues de 509 identités, collectées sur sept campus universitaires répartis sur trois continents, avec des altitudes de drone variant entre 5,8 et 120 mètres. Plus important encore, en tant que nouveauté clé, les sujets de DetReIDX ont été enregistrés lors d'au moins deux sessions à des jours différents, avec des changements de vêtements, d'éclairage et de lieu, ce qui le rend adapté pour évaluer la réidentification de personnes sur le long terme. En outre, les données ont été annotées avec 16 attributs biométriques doux et des étiquettes multitâches pour la détection, le suivi, la ReID et la reconnaissance d'actions. Afin de démontrer empiriquement l'utilité de DetReIDX, nous avons examiné les tâches spécifiques de détection humaine et de ReID, où les méthodes de pointe voient leurs performances se dégrader de manière catastrophique (jusqu'à 80 % en précision de détection et plus de 70 % en ReID Rank-1) lorsqu'elles sont confrontées aux conditions de DetReIDX. Le jeu de données, les annotations et les protocoles d'évaluation officiels sont disponibles publiquement à l'adresse suivante : https://www.it.ubi.pt/DetReIDX/
Ces dernières années, nous avons assisté à un développement rapide des grands modèles vision-langage (VLMs). Ces modèles ont démontré des résultats impressionnants sur les benchmarks académiques, principalement pour les langues largement parlées, mais présentent des lacunes en ce qui concerne les langues à ressources limitées et les contextes culturels variés. Pour pallier ces limitations, nous introduisons Maya, un VLM multilingue open-source. Nos contributions sont les suivantes : 1) un jeu de données multilingue de pré-entraînement image-texte dans huit langues, basé sur le jeu de données de pré-entraînement LLaVA ; et 2) un modèle image-texte multilingue prenant en charge ces langues, améliorant ainsi la compréhension culturelle et linguistique dans les tâches vision-langage. Le code est disponible à l'adresse suivante : https://github.com/nahidalam/maya.
Répondre à des questions visuelles complexes comme `Quel meuble rouge peut être utilisé pour s'asseoir ?` nécessite un raisonnement en plusieurs étapes, incluant la reconnaissance d'objets, le filtrage d'attributs et la compréhension des relations. Les travaux récents améliorent l'interprétabilité des modèles de langage multimodaux de grande taille (MLLMs) en décomposant les tâches en sous-programmes, mais ces méthodes sont coûteuses en calcul et moins précises en raison d'une mauvaise adaptation aux données cibles. Pour résoudre ce problème, nous introduisons VISTAR (Modèle de Raisonnement Conscient des Sous-Tâches Visuellement Interprétable), un cadre d'entraînement basé sur les sous-tâches qui améliore à la fois l'interprétabilité et le raisonnement en générant des explications textuelles et visuelles au sein des MLLMs. Au lieu de s'appuyer sur des modèles externes, VISTAR affine les MLLMs pour produire des justifications structurées de type "Sous-Tâche de Pensée" (séquences de raisonnement étape par étape). Les expériences sur deux benchmarks montrent que VISTAR améliore constamment la précision du raisonnement tout en maintenant l'interprétabilité. Notre code et notre ensemble de données seront disponibles à l'adresse https://github.com/ChengJade/VISTAR.
Le 3D Gaussian Splatting (3DGS) s'est imposé comme une technique puissante pour la synthèse de nouvelles vues en temps réel et haute résolution. En représentant les scènes comme un mélange de primitives gaussiennes, le 3DGS exploite les pipelines de rasterisation GPU pour un rendu et une reconstruction efficaces. Pour optimiser la couverture de la scène et capturer les détails fins, le 3DGS utilise un algorithme de densification pour générer des points supplémentaires. Cependant, ce processus conduit souvent à des nuages de points redondants, entraînant une utilisation excessive de la mémoire, des performances ralenties et des besoins de stockage importants - posant ainsi des défis majeurs pour le déploiement sur des appareils aux ressources limitées. Pour pallier cette limitation, nous proposons un cadre théorique qui démystifie et améliore le contrôle de la densité dans le 3DGS. Notre analyse révèle que la division est cruciale pour échapper aux points selles. Grâce à une approche d'optimisation théorique, nous établissons les conditions nécessaires à la densification, déterminons le nombre minimal de Gaussiennes filles, identifions la direction optimale de mise à jour des paramètres et fournissons une solution analytique pour normaliser l'opacité des Gaussiennes filles. Sur la base de ces insights, nous introduisons SteepGS, intégrant un contrôle de densité optimal, une stratégie rigoureuse qui minimise la perte tout en maintenant un nuage de points compact. SteepGS permet une réduction d'environ 50 % du nombre de points gaussiens sans compromettre la qualité du rendu, améliorant ainsi significativement l'efficacité et l'évolutivité.