Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'unificazione della comprensione e generazione delle immagini ha attirato crescente attenzione nella ricerca recente sui modelli multimodali. Sebbene le scelte progettuali per la comprensione delle immagini siano state ampiamente studiate, l'architettura ottimale del modello e la ricetta di addestramento per un framework unificato con generazione di immagini rimangono poco esplorate. Motivati dal forte potenziale dei modelli autoregressivi e di diffusione per la generazione di alta qualità e la scalabilità, conduciamo uno studio completo del loro utilizzo in contesti multimodali unificati, con particolare enfasi sulle rappresentazioni delle immagini, sugli obiettivi di modellazione e sulle strategie di addestramento. Basandoci su queste indagini, introduciamo un approccio innovativo che impiega un trasformatore di diffusione per generare caratteristiche di immagini CLIP semanticamente ricche, in contrasto con le rappresentazioni convenzionali basate su VAE. Questo design garantisce sia una maggiore efficienza di addestramento che una migliore qualità generativa. Inoltre, dimostriamo che una strategia di pre-addestramento sequenziale per i modelli unificati - prima l'addestramento sulla comprensione delle immagini e successivamente sulla generazione delle immagini - offre vantaggi pratici preservando la capacità di comprensione delle immagini mentre si sviluppa una forte abilità di generazione. Infine, curiamo con attenzione un dataset di alta qualità per l'ottimizzazione tramite istruzioni, BLIP3o-60k, per la generazione di immagini, utilizzando GPT-4o con un insieme diversificato di didascalie che coprono varie scene, oggetti, gesti umani e altro. Basandoci sul nostro design innovativo del modello, sulla ricetta di addestramento e sui dataset, sviluppiamo BLIP3-o, una suite di modelli multimodali unificati all'avanguardia. BLIP3-o raggiunge prestazioni superiori nella maggior parte dei benchmark popolari che coprono sia compiti di comprensione che di generazione delle immagini. Per facilitare la ricerca futura, rendiamo completamente open-source i nostri modelli, inclusi codice, pesi del modello, script di addestramento e dataset di pre-addestramento e ottimizzazione tramite istruzioni.
La rapida scalabilità dei grandi modelli linguistici (LLM) ha rivelato limitazioni critiche nelle attuali architetture hardware, tra cui vincoli nella capacità di memoria, efficienza computazionale e larghezza di banda di interconnessione. DeepSeek-V3, addestrato su 2.048 GPU NVIDIA H800, dimostra come una co-progettazione hardware-modello consapevole possa affrontare efficacemente queste sfide, consentendo un addestramento e un'inferenza su larga scala a costi efficienti. Questo articolo presenta un'analisi approfondita dell'architettura del modello DeepSeek-V3/R1 e della sua infrastruttura AI, evidenziando innovazioni chiave come l'attenzione latente multi-testa (MLA) per una maggiore efficienza della memoria, architetture Mixture of Experts (MoE) per ottimizzare i compromessi tra calcolo e comunicazione, l'addestramento a precisione mista FP8 per sfruttare appieno le capacità hardware e una topologia di rete multi-piano per ridurre al minimo l'overhead di rete a livello di cluster. Basandoci sui colli di bottiglia hardware incontrati durante lo sviluppo di DeepSeek-V3, ci impegniamo in una discussione più ampia con colleghi accademici e industriali sulle potenziali direzioni future dell'hardware, tra cui unità di calcolo a bassa precisione precisa, convergenza scale-up e scale-out e innovazioni nei tessuti di comunicazione a bassa latenza. Queste intuizioni sottolineano il ruolo cruciale della co-progettazione hardware e modello nel soddisfare le crescenti esigenze dei carichi di lavoro AI, offrendo una guida pratica per l'innovazione nei sistemi AI di prossima generazione.
I dataset di didascalie per immagini in linguaggio naturale, ampiamente utilizzati per l'addestramento di Modelli Multimodali di Grande Scala (LMM), si concentrano principalmente su scenari naturali e trascurano i dettagli intricati delle figure matematiche che sono cruciali per la risoluzione dei problemi, ostacolando il progresso degli attuali LMM nel ragionamento matematico multimodale. A tal fine, proponiamo di sfruttare il codice come supervisione per l'allineamento cross-modale, poiché il codice codifica intrinsecamente tutte le informazioni necessarie per generare le figure corrispondenti, stabilendo una connessione precisa tra le due modalità. Nello specifico, co-sviluppiamo il nostro modello da immagine a codice e il dataset con un approccio model-in-the-loop, ottenendo un modello da immagine a codice, FigCodifier, e il dataset ImgCode-8.6M, il più grande dataset immagine-codice fino ad oggi. Inoltre, utilizziamo FigCodifier per sintetizzare nuove figure matematiche e quindi costruiamo MM-MathInstruct-3M, un dataset di fine-tuning di alta qualità per istruzioni matematiche multimodali. Infine, presentiamo MathCoder-VL, addestrato con ImgCode-8.6M per l'allineamento cross-modale e successivamente fine-tuned su MM-MathInstruct-3M per la risoluzione di problemi matematici multimodali. Il nostro modello raggiunge un nuovo stato dell'arte open-source in tutte le sei metriche. In particolare, supera GPT-4o e Claude 3.5 Sonnet nel sottoinsieme di risoluzione di problemi di geometria di MathVista, ottenendo miglioramenti dell'8,9% e del 9,2%. Il dataset e i modelli saranno rilasciati su https://github.com/mathllm/MathCoder.
I compiti di previsione visiva densa sono stati limitati dalla loro dipendenza da categorie predefinite, restringendo la loro applicabilità in scenari reali dove i concetti visivi sono illimitati. Sebbene i modelli visione-linguaggio (VLMs) come CLIP abbiano mostrato potenziale nei compiti a vocabolario aperto, la loro applicazione diretta alla previsione densa spesso porta a prestazioni subottimali a causa di limitazioni nella rappresentazione delle caratteristiche locali. In questo lavoro, presentiamo la nostra osservazione che i token immagine di CLIP faticano ad aggregare efficacemente informazioni da regioni spazialmente o semanticamente correlate, risultando in caratteristiche che mancano di discriminabilità locale e coerenza spaziale. Per affrontare questo problema, proponiamo DeCLIP, un nuovo framework che migliora CLIP disaccoppiando il modulo di self-attention per ottenere rispettivamente caratteristiche di "contenuto" e "contesto". Le caratteristiche di "contenuto" sono allineate con le rappresentazioni dei ritagli di immagine per migliorare la discriminabilità locale, mentre le caratteristiche di "contesto" imparano a mantenere le correlazioni spaziali sotto la guida di modelli di fondazione visiva, come DINO. Esperimenti estensivi dimostrano che DeCLIP supera significativamente i metodi esistenti in vari compiti di previsione densa a vocabolario aperto, inclusi il rilevamento di oggetti e la segmentazione semantica. Il codice è disponibile all'indirizzo magenta{https://github.com/xiaomoguhz/DeCLIP}.
Presentiamo un metodo semplice ma efficace basato sulla diffusione per il controllo fine e parametrico delle sorgenti luminose in un'immagine. I metodi esistenti di riluminazione si basano su più viste in input per eseguire il rendering inverso al momento dell'inferenza, oppure non riescono a fornire un controllo esplicito sulle variazioni luminose. Il nostro metodo perfeziona un modello di diffusione su un piccolo insieme di coppie di fotografie raw reali, integrate da immagini sinteticamente renderizzate su larga scala, per sfruttare il suo priore fotorealistico nella riluminazione. Sfruttiamo la linearità della luce per sintetizzare coppie di immagini che rappresentano variazioni luminose controllate, sia di una sorgente luminosa target che dell'illuminazione ambientale. Utilizzando questi dati e uno schema di fine-tuning appropriato, addestriamo un modello per ottenere cambiamenti precisi nell'illuminazione con controllo esplicito sull'intensità e sul colore della luce. Infine, dimostriamo come il nostro metodo possa ottenere risultati convincenti nella modifica della luce e superi i metodi esistenti in base alle preferenze degli utenti.
Il successo del deep learning nella visione artificiale nell'ultimo decennio è stato determinato da grandi dataset etichettati e modelli pre-addestrati robusti. In contesti con scarsità di dati, la qualità di questi modelli pre-addestrati diventa cruciale per un trasferimento efficace delle conoscenze. La classificazione delle immagini e l'apprendimento auto-supervisionato sono stati tradizionalmente i metodi principali per il pre-addestramento di CNN e architetture basate su transformer. Recentemente, l'ascesa di modelli generativi testo-immagine, in particolare quelli che utilizzano la diffusione del rumore in uno spazio latente, ha introdotto una nuova classe di modelli fondazionali addestrati su enormi dataset di immagini con didascalie. La capacità di questi modelli di generare immagini realistiche di contenuti mai visti suggerisce che possiedano una profonda comprensione del mondo visivo. In questo lavoro, presentiamo Marigold, una famiglia di modelli generativi condizionali e un protocollo di fine-tuning che estrae la conoscenza da modelli pre-addestrati di diffusione latente come Stable Diffusion e li adatta per compiti di analisi densa delle immagini, tra cui la stima della profondità monoculare, la previsione delle normali di superficie e la decomposizione intrinseca. Marigold richiede modifiche minime all'architettura del modello di diffusione latente pre-addestrato, si addestra con piccoli dataset sintetici su una singola GPU in pochi giorni e dimostra una generalizzazione zero-shot all'avanguardia. Pagina del progetto: https://marigoldcomputervision.github.io
Il recupero di scene 3D di alta qualità da una singola immagine RGB è un compito impegnativo nel campo della computer grafica. I metodi attuali spesso incontrano difficoltà a causa di limitazioni specifiche del dominio o della generazione di oggetti di bassa qualità. Per affrontare questi problemi, proponiamo CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), un metodo innovativo per la ricostruzione e il recupero di scene 3D. CAST inizia estraendo la segmentazione 2D a livello di oggetto e le informazioni sulla profondità relativa dall'immagine di input, seguito dall'utilizzo di un modello basato su GPT per analizzare le relazioni spaziali tra gli oggetti. Ciò consente di comprendere come gli oggetti si relazionano tra loro all'interno della scena, garantendo una ricostruzione più coerente. CAST impiega quindi un modello di generazione 3D su larga scala consapevole delle occlusioni per generare indipendentemente la geometria completa di ciascun oggetto, utilizzando il condizionamento MAE e delle nuvole di punti per mitigare gli effetti delle occlusioni e delle informazioni parziali sugli oggetti, assicurando un allineamento accurato con la geometria e la texture dell'immagine sorgente. Per allineare ciascun oggetto con la scena, il modello di generazione dell'allineamento calcola le trasformazioni necessarie, consentendo alle mesh generate di essere posizionate e integrate con precisione nella nuvola di punti della scena. Infine, CAST incorpora un passaggio di correzione consapevole della fisica che sfrutta un grafo di relazioni granulari per generare un grafo di vincoli. Questo grafo guida l'ottimizzazione delle pose degli oggetti, garantendo coerenza fisica e spaziale. Utilizzando i Campi di Distanza con Segno (SDF), il modello affronta efficacemente problemi come occlusioni, penetrazione degli oggetti e oggetti fluttuanti, assicurando che la scena generata rifletta accuratamente le interazioni fisiche del mondo reale. CAST può essere sfruttato nella robotica, abilitando flussi di lavoro efficienti da reale a simulazione e fornendo ambienti di simulazione realistici e scalabili per sistemi robotici.
La mimesi è un meccanismo di apprendimento fondamentale negli esseri umani, che consente agli individui di imparare nuovi compiti osservando e imitando esperti. Tuttavia, applicare questa abilità ai robot presenta sfide significative a causa delle differenze intrinseche tra le incarnazioni umane e robotiche, sia nell'aspetto visivo che nelle capacità fisiche. Mentre i metodi precedenti colmano questo divario utilizzando dataset cross-incarnazione con scene e compiti condivisi, raccogliere dati allineati su larga scala tra esseri umani e robot non è banale. In questo articolo, proponiamo UniSkill, un nuovo framework che apprende rappresentazioni di abilità agnostiche rispetto all'incarnazione da dati video cross-incarnazione su larga scala senza alcuna etichetta, consentendo alle abilità estratte da prompt video umani di trasferirsi efficacemente a politiche robotiche addestrate solo su dati robotici. I nostri esperimenti in ambienti sia simulati che reali dimostrano che le nostre abilità cross-incarnazione guidano con successo i robot nella selezione di azioni appropriate, anche con prompt video mai visti prima. Il sito web del progetto è disponibile all'indirizzo: https://kimhanjung.github.io/UniSkill.
I modelli di dialogo parlato end-to-end come GPT-4o-audio hanno recentemente attirato un'attenzione significativa nel dominio del parlato. Tuttavia, la valutazione delle prestazioni conversazionali dei modelli di dialogo parlato è stata in gran parte trascurata. Ciò è principalmente dovuto al fatto che i chatbot intelligenti trasmettono una ricchezza di informazioni non testuali che non possono essere facilmente misurate utilizzando modelli linguistici basati su testo come ChatGPT. Per colmare questa lacuna, proponiamo WavReward, un modello di feedback di ricompensa basato su modelli linguistici audio in grado di valutare sia il QI che l'EQ dei sistemi di dialogo parlato con input vocale. Nello specifico, 1) basandosi su modelli linguistici audio, WavReward incorpora il processo di ragionamento profondo e il meccanismo di ricompensa non lineare per il post-addestramento. Utilizzando il feedback multi-campione tramite l'algoritmo di apprendimento per rinforzo, costruiamo un valutatore specializzato per i modelli di dialogo parlato. 2) Introduciamo ChatReward-30K, un dataset di preferenze utilizzato per addestrare WavReward. ChatReward-30K include sia gli aspetti di comprensione che di generazione dei modelli di dialogo parlato. Questi scenari coprono vari compiti, come chat basate su testo, nove attributi acustici delle chat di istruzione e chat implicite. WavReward supera i precedenti modelli di valutazione all'avanguardia in molteplici scenari di dialogo parlato, ottenendo un miglioramento sostanziale rispetto a Qwen2.5-Omni in termini di accuratezza oggettiva dal 55,1% al 91,5%. Nei test A/B soggettivi, WavReward si distingue anche con un margine dell'83%. Studi di ablazione completi confermano la necessità di ciascun componente di WavReward. Tutti i dati e il codice saranno pubblicamente disponibili su https://github.com/jishengpeng/WavReward dopo l'accettazione del documento.
La localizzazione dei problemi software, ovvero il compito di identificare le precise posizioni del codice (file, classi o funzioni) rilevanti per una descrizione di un problema in linguaggio naturale (ad esempio, segnalazione di bug, richiesta di funzionalità), è un aspetto cruciale ma dispendioso in termini di tempo nello sviluppo del software. Sebbene i recenti approcci agentivi basati su LLM mostrino promettenti risultati, spesso comportano una latenza e un costo significativi a causa di complessi ragionamenti multi-step e del ricorso a LLM proprietari. D'altra parte, i tradizionali modelli di ranking del codice, tipicamente ottimizzati per il recupero query-to-code o code-to-code, faticano a gestire la natura verbosa e descrittiva degli errori delle query di localizzazione dei problemi. Per colmare questa lacuna, introduciamo SweRank, un framework efficiente ed efficace di recupero e riordinamento per la localizzazione dei problemi software. Per facilitare l'addestramento, abbiamo costruito SweLoc, un dataset su larga scala curato da repository pubblici di GitHub, che presenta descrizioni di problemi reali accoppiate con le corrispondenti modifiche al codice. I risultati empirici su SWE-Bench-Lite e LocBench dimostrano che SweRank raggiunge prestazioni all'avanguardia, superando sia i precedenti modelli di ranking che i costosi sistemi basati su agenti che utilizzano LLM proprietari come Claude-3.5. Inoltre, dimostriamo l'utilità di SweLoc nel migliorare vari modelli esistenti di recupero e riordinamento per la localizzazione dei problemi, stabilendo il dataset come una risorsa preziosa per la comunità.
Proponiamo Omni-R1, che effettua il fine-tuning di un recente modello linguistico multimodale, Qwen2.5-Omni, su un dataset di risposte a domande audio utilizzando il metodo di apprendimento per rinforzo GRPO. Ciò porta a nuove prestazioni State-of-the-Art sul recente benchmark MMAU. Omni-R1 raggiunge le più alte accuratezze nelle categorie suoni, musica, parlato e media complessiva, sia nelle suddivisioni Test-mini che Test-full. Per comprendere il miglioramento delle prestazioni, abbiamo testato i modelli sia con che senza audio e abbiamo scoperto che gran parte del miglioramento ottenuto con GRPO potrebbe essere attribuito a un ragionamento basato su testo più efficace. Abbiamo anche fatto una scoperta sorprendente: il fine-tuning senza audio su un dataset esclusivamente testuale si è rivelato efficace nel migliorare le prestazioni basate sull'audio.
Nonostante i recenti progressi nella comprensione video, le capacità dei Modelli Linguistici su Video di Grande Scala (LVLM) di eseguire ragionamenti causali basati su video rimangono poco esplorate, principalmente a causa dell'assenza di benchmark rilevanti e dedicati per valutare il ragionamento causale in contesti visivamente fondati e orientati a obiettivi. Per colmare questa lacuna, introduciamo un nuovo benchmark denominato Video-based long-form Causal Reasoning (VCRBench). Abbiamo creato VCRBench utilizzando video procedurali di semplici attività quotidiane, in cui i passaggi sono deliberatamente mescolati, con ogni clip che cattura un evento causale chiave, per testare se gli LVLM possono identificare, ragionare e sequenziare correttamente gli eventi necessari per raggiungere un obiettivo specifico. Inoltre, il benchmark è stato progettato con cura per impedire agli LVLM di sfruttare scorciatoie linguistiche, come si vede nei formati a scelta multipla o nelle domande binarie, evitando anche le sfide associate alla valutazione di domande aperte. La nostra valutazione degli LVLM all'avanguardia su VCRBench suggerisce che questi modelli hanno difficoltà con il ragionamento causale a lungo termine basato su video, principalmente a causa della loro difficoltà nel modellare dipendenze causali a lungo raggio direttamente dalle osservazioni visive. Come un semplice passo verso l'abilitazione di tali capacità, proponiamo la Decomposizione Riconoscimento-Ragionamento (RRD), un approccio modulare che suddivide il ragionamento causale basato su video in due sotto-task di riconoscimento video e ragionamento causale. I nostri esperimenti su VCRBench mostrano che RRD aumenta significativamente l'accuratezza su VCRBench, con miglioramenti fino al 25,2%. Infine, la nostra analisi approfondita rivela intuizioni interessanti, ad esempio, che gli LVLM si affidano principalmente alla conoscenza linguistica per compiti complessi di ragionamento causale a lungo termine basati su video.
I dataset di pretraining sono fondamentali per lo sviluppo di modelli multimodali, ma spesso presentano bias intrinseci e contenuti tossici derivanti dai corpora su scala web da cui sono estratti. In questo articolo, indaghiamo la prevalenza di tossicità nel dataset di pretraining immagine-testo LLaVA, esaminando come i contenuti dannosi si manifestano in diverse modalità. Presentiamo un'analisi completa delle categorie comuni di tossicità e proponiamo strategie mirate di mitigazione, che portano alla creazione di un dataset raffinato con tossicità ridotta. Questo dataset rimuove 7.531 coppie immagine-testo tossiche dal dataset di pretraining LLaVA. Forniamo linee guida per implementare pipeline robuste di rilevamento della tossicità. I nostri risultati sottolineano la necessità di identificare e filtrare attivamente contenuti tossici - come discorsi d'odio, immagini esplicite e molestie mirate - per costruire sistemi multimodali più responsabili ed equi. Il dataset con tossicità mitigata è open source e disponibile per ulteriori ricerche.
La tecnologia di reidentificazione delle persone (ReID) è stata considerata relativamente efficace in condizioni controllate a livello del suolo, ma risulta inadeguata quando viene implementata in contesti reali complessi. Evidentemente, ciò è dovuto a fattori di estrema variabilità dei dati, come risoluzione, cambiamenti di punto di vista, variazioni di scala, occlusioni e alterazioni dell'aspetto dovute a cambiamenti di abbigliamento o sessioni diverse. Inoltre, i dataset pubblicamente disponibili non incorporano in modo realistico tali tipi e livelli di variabilità, limitando così il progresso di questa tecnologia. Questo articolo introduce DetReIDX, un ampio dataset aereo-terrestre di persone, progettato esplicitamente come test di stress per la ReID in condizioni reali. DetReIDX è un set multi-sessione che include oltre 13 milioni di bounding box relative a 509 identità, raccolte in sette campus universitari di tre continenti, con altitudini dei droni comprese tra 5,8 e 120 metri. Ancora più importante, come novità chiave, i soggetti di DetReIDX sono stati registrati in (almeno) due sessioni in giorni diversi, con cambiamenti di abbigliamento, luce diurna e ubicazione, rendendolo adatto a valutare effettivamente la ReID a lungo termine. Inoltre, i dati sono stati annotati con 16 attributi biometrici soft e etichette multitask per rilevamento, tracciamento, ReID e riconoscimento delle azioni. Per fornire evidenza empirica dell'utilità di DetReIDX, abbiamo considerato i compiti specifici di rilevamento umano e ReID, dove i metodi SOTA subiscono un drastico degrado delle prestazioni (fino all'80% nell'accuratezza di rilevamento e oltre il 70% nella ReID Rank-1) quando esposti alle condizioni di DetReIDX. Il dataset, le annotazioni e i protocolli di valutazione ufficiali sono disponibili pubblicamente all'indirizzo https://www.it.ubi.pt/DetReIDX/.
Negli ultimi tempi, abbiamo assistito a un rapido sviluppo di grandi Modelli Visione-Linguaggio (VLMs). Questi modelli hanno mostrato risultati impressionanti su benchmark accademici, principalmente in lingue ampiamente parlate, ma presentano carenze nelle prestazioni su lingue a bassa risorsa e contesti culturali vari. Per affrontare queste limitazioni, introduciamo Maya, un VLM Multilingue open-source. I nostri contributi sono: 1) un dataset multilingue di pre-addestramento immagine-testo in otto lingue, basato sul dataset di pre-addestramento LLaVA; e 2) un modello immagine-testo multilingue che supporta queste lingue, migliorando la comprensione culturale e linguistica nei compiti di visione-linguaggio. Il codice è disponibile all'indirizzo https://github.com/nahidalam/maya.
Rispondere a domande visive complesse come `Quale mobile rosso può essere utilizzato per sedersi?' richiede un ragionamento a più fasi, che include il riconoscimento degli oggetti, il filtraggio degli attributi e la comprensione delle relazioni. Recenti lavori migliorano l'interpretabilità nei modelli linguistici multimodali di grandi dimensioni (MLLMs) scomponendo i compiti in programmi di sotto-attività, ma questi metodi sono computazionalmente costosi e meno accurati a causa di un adattamento insufficiente ai dati target. Per affrontare questo problema, introduciamo VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), un framework di addestramento guidato da sotto-attività che migliora sia l'interpretabilità che il ragionamento generando spiegazioni testuali e visive all'interno degli MLLMs. Invece di affidarsi a modelli esterni, VISTAR ottimizza gli MLLM per produrre razionalità strutturate di Subtask-of-Thought (sequenze di ragionamento passo-passo). Esperimenti su due benchmark dimostrano che VISTAR migliora costantemente l'accuratezza del ragionamento mantenendo l'interpretabilità. Il nostro codice e il dataset saranno disponibili all'indirizzo https://github.com/ChengJade/VISTAR.
Il 3D Gaussian Splatting (3DGS) è emerso come una tecnica potente per la sintesi di nuove viste in tempo reale e ad alta risoluzione. Rappresentando le scene come una miscela di primitive gaussiane, il 3DGS sfrutta le pipeline di rasterizzazione GPU per un rendering e una ricostruzione efficienti. Per ottimizzare la copertura della scena e catturare i dettagli fini, il 3DGS utilizza un algoritmo di densificazione per generare punti aggiuntivi. Tuttavia, questo processo spesso porta a nuvole di punti ridondanti, con conseguente uso eccessivo di memoria, prestazioni più lente e richieste di archiviazione sostanziali, ponendo sfide significative per il dispiegamento su dispositivi con risorse limitate. Per affrontare questa limitazione, proponiamo un quadro teorico che chiarisce e migliora il controllo della densità nel 3DGS. La nostra analisi rivela che la divisione è cruciale per sfuggire ai punti di sella. Attraverso un approccio ottimizzazione-teorico, stabiliamo le condizioni necessarie per la densificazione, determiniamo il numero minimo di gaussiane figlie, identifichiamo la direzione ottimale di aggiornamento dei parametri e forniamo una soluzione analitica per la normalizzazione dell'opacità delle gaussiane figlie. Basandoci su queste intuizioni, introduciamo SteepGS, che incorpora un controllo della densità basato sulla massima pendenza, una strategia principiata che minimizza la perdita mantenendo una nuvola di punti compatta. SteepGS ottiene una riduzione di circa il 50% dei punti gaussiani senza compromettere la qualità del rendering, migliorando significativamente sia l'efficienza che la scalabilità.