Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto presentiamo UltraShape 1.0, un framework di diffusione 3D scalabile per la generazione di geometrie 3D ad alta fedeltà. L'approccio proposto adotta una pipeline di generazione a due stadi: viene prima sintetizzata una struttura globale approssimativa, che viene poi raffinata per produrre geometrie dettagliate e di alta qualità. Per supportare una generazione 3D affidabile, abbiamo sviluppato una pipeline completa di elaborazione dati che include un innovativo metodo di rendering impermeabile e un filtro di alta qualità per i dati. Questa pipeline migliora la qualità geometrica dei dataset 3D pubblicamente disponibili rimuovendo campioni di bassa qualità, riempiendo lacune e ispessendo strutture sottili, preservando al contempo i dettagli geometrici granulari. Per consentire un raffinamento granulare della geometria, separiamo la localizzazione spaziale dalla sintesi dei dettagli geometrici nel processo di diffusione. Raggiungiamo questo obiettivo eseguendo un raffinamento basato su voxel in posizioni spaziali fisse, dove query di voxel derivate dalla geometria approssimativa forniscono ancore posizionali esplicite codificate tramite RoPE, permettendo al modello di diffusione di concentrarsi sulla sintesi di dettagli geometrici locali all'interno di uno spazio di soluzione ridotto e strutturato. Il nostro modello è addestrato esclusivamente su dataset 3D pubblicamente disponibili, raggiungendo un'elevata qualità geometrica nonostante risorse di addestramento limitate. Valutazioni estensive dimostrano che UltraShape 1.0 compete con i metodi open-source esistenti sia nella qualità dell'elaborazione dei dati che nella generazione della geometria. Tutto il codice e i modelli addestrati saranno rilasciati per supportare la ricerca futura.
Valutiamo sistematicamente i metodi di Parameter-Efficient Fine-Tuning (PEFT) nell'ambito del paradigma di Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentiva i modelli linguistici a potenziare le proprie capacità di ragionamento attraverso feedback verificabili; tuttavia, sebbene metodi come LoRA siano comunemente utilizzati, l'architettura PEFT ottimale per RLVR rimane non identificata. In questo lavoro, conduciamo la prima valutazione completa di oltre 12 metodologie PEFT sulle famiglie di modelli DeepSeek-R1-Distill utilizzando benchmark di ragionamento matematico. I nostri risultati empirici mettono in discussione l'adozione predefinita del LoRA standard con tre principali evidenze. In primo luogo, dimostriamo che varianti strutturali, come DoRA, AdaLoRA e MiSS, superano costantemente LoRA. In secondo luogo, scopriamo un fenomeno di collasso spettrale nelle strategie di inizializzazione basate su SVD (ad es. PiSSA, MiLoRA), attribuendo il loro fallimento a un disallineamento fondamentale tra gli aggiornamenti delle componenti principali e l'ottimizzazione RL. Inoltre, i nostri studi di ablazione rivelano che una riduzione estrema dei parametri (ad es. VeRA, Rank-1) limita severamente la capacità di ragionamento. Condurre ulteriori studi di ablazione ed esperimenti di scaling per convalidare i nostri risultati. Questo lavoro fornisce una guida definitiva per sostenere una maggiore esplorazione dei metodi RL efficienti in termini di parametri.
I modelli di generazione e modifica recentemente unificati hanno ottenuto un notevole successo grazie alle loro prestazioni impressionanti. Questi modelli si basano principalmente su prompt testuali per la modifica e generazione basate su istruzioni, ma il linguaggio spesso non riesce a catturare le posizioni di modifica previste dagli utenti e i dettagli visivi granulari. A tal fine, proponiamo due compiti: modifica e generazione basate su schizzi, che consentono una creazione più flessibile sull'interfaccia utente grafica (GUI) combinando input testuali, immagini e schizzi a mano libera dell'utente. Introduciamo DreamOmni3, affrontando due sfide: creazione dei dati e progettazione del framework. La nostra pipeline di sintesi dei dati include due parti: modifica e generazione basate su schizzi. Per la modifica basata su schizzi, definiamo quattro compiti: modifica basata su schizzo e istruzione, modifica basata su schizzo e istruzione multimodale, fusione di immagini e modifica di scarabocchi. Basandoci sul dataset DreamOmni2, estraiamo regioni modificabili e sovrapponiamo box disegnati a mano, cerchi, scarabocchi o immagini ritagliate per costruire i dati di addestramento. Per la generazione basata su schizzi, definiamo tre compiti: generazione basata su schizzo e istruzione, generazione basata su schizzo e istruzione multimodale e generazione di scarabocchi, seguendo pipeline di creazione dati simili. Per il framework, invece di utilizzare maschere binarie, che faticano con modifiche complesse che coinvolgono più schizzi, immagini e istruzioni, proponiamo uno schema di input congiunto che fornisce al modello sia l'immagine sorgente originale che quella con gli schizzi, utilizzando colori diversi per distinguere le regioni e semplificare l'elaborazione. Applicando le stesse codifiche di indice e posizione a entrambe le immagini, il modello può localizzare con precisione le regioni schizzate mantenendo una modifica accurata. Infine, stabiliamo benchmark completi per questi compiti per promuovere ulteriori ricerche. I risultati sperimentali dimostrano che DreamOmni3 raggiunge prestazioni eccezionali, e i modelli e il codice saranno rilasciati pubblicamente.
Formuliamo la modellazione linguistica a contesto lungo come un problema di apprendimento continuo piuttosto che di progettazione architetturale. In base a questa formulazione, utilizziamo esclusivamente un'architettura standard: un Transformer con attenzione a finestra scorrevole. Tuttavia, il nostro modello continua ad apprendere durante il test tramite la previsione del token successivo sul contesto fornito, comprimendo il contesto che legge nei propri pesi. Inoltre, miglioriamo l'inizializzazione del modello per l'apprendimento durante il test attraverso il meta-apprendimento in fase di addestramento. Nel complesso, il nostro metodo, una forma di Addestramento durante il Test (Test-Time Training, TTT), è End-to-End (E2E) sia durante il test (tramite la previsione del token successivo) che durante l'addestramento (tramite meta-apprendimento), a differenza delle forme precedenti. Condurremo esperimenti approfonditi concentrandoci sulle proprietà di scalabilità. In particolare, per modelli da 3B addestrati con 164B token, il nostro metodo (TTT-E2E) scala con la lunghezza del contesto allo stesso modo di un Transformer con attenzione completa, mentre altri, come Mamba 2 e Gated DeltaNet, non lo fanno. Tuttavia, similmente alle RNN, TTT-E2E ha una latenza di inferenza costante indipendentemente dalla lunghezza del contesto, rendendolo 2,7 volte più veloce dell'attenzione completa per un contesto di 128K. Il nostro codice è pubblicamente disponibile.
Il compito di localizzazione dei problemi mira a identificare le posizioni in un repository software che richiedono modifiche data una descrizione in linguaggio naturale del problema. Questo compito è fondamentale ma impegnativo nell'ingegneria del software automatizzata a causa del divario semantico tra la descrizione del problema e l'implementazione del codice sorgente. Questo divario si manifesta come due disallineamenti: (1) disallineamenti sintomo-causa, in cui le descrizioni non rivelano esplicitamente le cause profonde sottostanti; (2) disallineamenti uno-a-molti, in cui un singolo problema corrisponde a multiple entità di codice interdipendenti. Per affrontare questi due disallineamenti, proponiamo GraphLocator, un approccio che mitiga i disallineamenti sintomo-causa attraverso la scoperta di strutture causali e risolve i disallineamenti uno-a-molti mediante il disaccoppiamento dinamico dei problemi. L'artefatto chiave è il grafo causale dei problemi (CIG), in cui i vertici rappresentano i sotto-problemi scoperti insieme alle loro entità di codice associate, e gli archi codificano le dipendenze causali tra di essi. Il flusso di lavoro di GraphLocator consiste in due fasi: localizzazione dei vertici-sintomo e scoperta dinamica del CIG; esso identifica prima le posizioni dei sintomi sul grafo del repository, quindi espande dinamicamente il CIG ragionando iterativamente sui vertici adiacenti. Esperimenti su tre dataset del mondo reale dimostrano l'efficacia di GraphLocator: (1) Rispetto ai baseline, GraphLocator raggiunge una localizzazione più accurata con miglioramenti medi di +19.49% nella recall a livello di funzione e +11.89% nella precisione. (2) GraphLocator supera i baseline sia negli scenari di disallineamento sintomo-causa che uno-a-molti, ottenendo un miglioramento della recall di +16.44% e +19.18%, e un miglioramento della precisione di +7.78% e +13.23%, rispettivamente. (3) Il CIG generato da GraphLocator produce il miglioramento relativo più alto, risultando in un aumento del 28.74% delle prestazioni sul compito di risoluzione a valle.
Le architetture Mixture-of-Experts (MoE) hanno favorito il ridimensionamento dei Large Language Model (LLM) attivando solo un sottoinsieme sparso di parametri per input, consentendo prestazioni allo stato dell'arte con un costo computazionale ridotto. Poiché questi modelli sono sempre più impiegati in domini critici, comprendere e rafforzare i loro meccanismi di allineamento è essenziale per prevenire output dannosi. Tuttavia, la ricerca esistente sulla sicurezza degli LLM si è concentrata quasi esclusivamente su architetture dense, lasciando in gran parte inesaminate le proprietà di sicurezza uniche dei MoE. La progettazione modulare e ad attivazione sparsa dei MoE suggerisce che i meccanismi di sicurezza possano funzionare in modo diverso rispetto ai modelli densi, sollevando interrogativi sulla loro robustezza. In questo articolo presentiamo GateBreaker, il primo framework di attacco *training-free*, leggero e indipendente dall'architettura che compromette l'allineamento di sicurezza dei moderni MoE LLM in fase di inferenza. GateBreaker opera in tre fasi: (i) *profiling a livello di gate*, che identifica gli esperti di sicurezza a cui vengono instradati in modo sproporzionato input dannosi, (ii) *localizzazione a livello di esperto*, che individua la struttura di sicurezza all'interno degli esperti di sicurezza, e (iii) *rimozione mirata della sicurezza*, che disabilita la struttura di sicurezza identificata per comprometterne l'allineamento. Il nostro studio mostra che la sicurezza nei MoE si concentra in un piccolo sottoinsieme di neuroni coordinato dall'instradamento sparso. La disabilitazione selettiva di questi neuroni, circa il 3% dei neuroni negli strati esperti target, aumenta significativamente il tasso di successo medio dell'attacco (ASR) dal 7,4% al 64,9% contro gli otto più recenti MoE LLM allineati, con una degradazione limitata dell'utilità. Questi neuroni di sicurezza sono trasferibili tra modelli della stessa famiglia, aumentando l'ASR dal 17,9% al 67,7% con un attacco di trasferimento one-shot. Inoltre, GateBreaker si generalizza a cinque MoE Vision Language Model (VLM), raggiungendo un ASR del 60,9% su input immagine non sicuri.