Articoli di ricerca IA selezionati quotidianamente con traduzioni
Molti metodi di attenzione sparsa non addestrabili si dimostrano efficaci per accelerare i modelli di diffusione. Recentemente, diversi lavori suggeriscono che rendere l'attenzione sparsa addestrabile possa ulteriormente aumentare la sparsità preservando la qualità generativa. Studiamo tre questioni chiave: (1) quando falliscono le due comuni regole di mascheramento, Top-k e Top-p, e come possiamo evitare tali fallimenti? (2) perché l'attenzione sparsa addestrabile può raggiungere una sparsità maggiore rispetto ai metodi non addestrabili? (3) quali sono i limiti del fine-tuning dell'attenzione sparsa utilizzando la loss di diffusione, e come possiamo affrontarli? Sulla base di questa analisi, proponiamo SpargeAttention2, un metodo di attenzione sparsa addestrabile che raggiunge un'elevata sparsità senza degradare la qualità generativa. SpargeAttention2 include (i) una regola di mascheramento ibrida che combina Top-k e Top-p per un mascheramento più robusto ad alta sparsità, (ii) un'implementazione efficiente dell'attenzione sparsa addestrabile, e (iii) un obiettivo di fine-tuning ispirato alla distillazione per preservare meglio la qualità generativa durante il fine-tuning con attenzione sparsa. Esperimenti su modelli di diffusione video mostrano che SpargeAttention2 raggiunge il 95% di sparsità dell'attenzione e un'accelerazione dell'attenzione di 16,2x mantenendo la qualità generativa, superando costantemente i precedenti metodi di attenzione sparsa.
Presentiamo Unified Latents (UL), un framework per apprendere rappresentazioni latenti regolarizzate congiuntamente da un prior di diffusione e decodificate da un modello di diffusione. Collegando il rumore di output dell'encoder al livello di rumore minimo del prior, otteniamo una semplice funzione di addestramento che fornisce un limite superiore stretto sul bitrate latente. Su ImageNet-512, il nostro approccio raggiunge un FID competitivo di 1.4, con un'elevata qualità di ricostruzione (PSNR) richiedendo al contempo meno FLOP di addestramento rispetto ai modelli addestrati sui latenti di Stable Diffusion. Su Kinetics-600, stabiliamo un nuovo stato dell'arte con FVD di 1.3.
Il documento presenta GUI-Owl-1.5, il più recente modello di agente GUI nativo che include varianti instruct/thinking in diverse dimensioni (2B/4B/8B/32B/235B) e supporta una gamma di piattaforme (desktop, mobile, browser e altre) per abilitare la collaborazione cloud-edge e l'interazione in tempo reale. GUI-Owl-1.5 raggiunge risultati all'avanguardia su oltre 20 benchmark GUI su modelli open-source: (1) nelle attività di automazione GUI, ottiene 56,5 su OSWorld, 71,6 su AndroidWorld e 48,4 su WebArena; (2) nelle attività di grounding, ottiene 80,3 su ScreenSpotPro; (3) nelle attività di tool-calling, ottiene 47,6 su OSWorld-MCP e 46,8 su MobileWorld; (4) nelle attività di memoria e conoscenza, ottiene 75,5 su GUI-Knowledge Bench. GUI-Owl-1.5 incorpora diverse innovazioni chiave: (1) Hybird Data Flywheel: abbiamo costruito la pipeline di dati per la comprensione dell'interfaccia utente e la generazione di traiettorie basata su una combinazione di ambienti simulati e ambienti sandbox basati su cloud, per migliorare l'efficienza e la qualità della raccolta dati. (2) Potenziamento Unificato delle Capacità dell'Agente: utilizziamo una pipeline unificata di sintesi del pensiero per potenziare le capacità di ragionamento del modello, ponendo particolare enfasi sul miglioramento delle capacità chiave dell'agente, inclusi l'uso di Tool/MCP, la memoria e l'adattamento multi-agente; (3) Scalabilità RL in Ambienti Multi-piattaforma: Proponiamo un nuovo algoritmo RL per ambienti, MRPO, per affrontare le sfide dei conflitti multi-piattaforma e della bassa efficienza di addestramento dei task a lungo orizzonte. I modelli GUI-Owl-1.5 sono open-source, ed una demo online cloud-sandbox è disponibile all'indirizzo https://github.com/X-PLUG/MobileAgent.
Gli assistenti IA agentici che eseguono autonomamente compiti multi-step sollevano questioni aperte per l'esperienza utente: come dovrebbero tali sistemi comunicare progressi e ragionamenti durante operazioni prolungate, specialmente in contesti che richiedono attenzione come la guida? Investigiamo tempistiche e verbosità del feedback da assistenti agentici basati su LLM in auto attraverso uno studio controllato a metodi misti (N=45) che confronta feedback su step pianificati e risultati intermedi con un funzionamento silenzioso e una risposta solo finale. Utilizzando un paradigma a doppio compito con un assistente vocale in auto, abbiamo riscontrato che il feedback intermedio ha migliorato significativamente la velocità percepita, la fiducia e l'esperienza utente, riducendo al contempo il carico di lavoro - effetti che si sono mantenuti across diverse complessità del compito e contesti d'interazione. Le interviste hanno inoltre rivelato una preferenza degli utenti per un approccio adattivo: alta trasparenza iniziale per stabilire fiducia, seguita da una progressiva riduzione della verbosità man mano che i sistemi dimostrano affidabilità, con aggiustamenti basati sull'importanza del compito e sul contesto situazionale. Traduciamo i nostri risultati empirici in implicazioni progettuali per tempistiche e verbosità del feedback negli assistenti agentici, bilanciando trasparenza ed efficienza.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più utilizzati per problemi complessi che non necessariamente si risolvono con una singola risposta, ma che richiedono l'interazione con un ambiente per acquisire informazioni. In questi scenari, gli LLM devono ragionare sui compromessi intrinseci tra costo e incertezza riguardo a quando smettere di esplorare e decidere una risposta. Ad esempio, in un'attività di programmazione, un LLM dovrebbe testare un frammento di codice generato se è incerto della sua correttezza; il costo di scrivere un test è diverso da zero, ma tipicamente inferiore al costo di commettere un errore. In questo lavoro, dimostriamo di poter indurre gli LLM a ragionare esplicitamente su come bilanciare questi compromessi costo-incertezza, per poi eseguire un'esplorazione dell'ambiente più ottimale. Formalizziamo più compiti, inclusi il recupero di informazioni e la codifica, come problemi decisionali sequenziali in condizioni di incertezza. Ogni problema possiede uno stato ambientale latente su cui è possibile ragionare tramite un prior che viene passato all'agente LLM. Introduciamo un framework chiamato Calibrate-Then-Act (CTA), in cui forniamo all'LLM questo contesto aggiuntivo per permettergli di agire in modo più ottimale. Questo miglioramento si mantiene anche con l'addestramento tramite apprendimento per rinforzo (RL) sia del modello baseline che del CTA. I nostri risultati su question-answering basato sulla ricerca di informazioni e su un compito di codifica semplificato mostrano che rendere espliciti i compromessi costo-beneficio con il CTA può aiutare gli agenti a scoprire strategie decisionali più ottimali.
Le dimostrazioni umane raccolte da dispositivi indossabili (ad esempio, guanti tattili) forniscono una supervisione rapida e abile per l'apprendimento di policy, guidate da un feedback tattile ricco e naturale. Tuttavia, una sfida fondamentale è come trasferire i segnali tattili raccolti dall'uomo ai robot nonostante le differenze nelle modalità di sensing e nell'embodiment. Gli approcci esistenti da uomo a robot (H2R) che incorporano il tatto spesso presuppongono sensori tattili identici, richiedono dati accoppiati e implicano un divario di embodiment minimo o nullo tra il dimostratore umano e i robot, limitando scalabilità e generalità. Proponiamo TactAlign, un metodo di allineamento tattile cross-embodiment che trasferisce i segnali tattili raccolti dall'uomo a un robot con embodiment differente. TactAlign trasforma le osservazioni tattili umane e robotiche in una rappresentazione latente condivisa utilizzando un flusso rettificato, senza dataset accoppiati, etichette manuali o informazioni privilegiate. Il nostro metodo consente un trasporto latente a basso costo guidato da pseudo-coppie derivate dall'interazione mano-oggetto. Dimostriamo che TactAlign migliora il trasferimento di policy H2R in numerosi task ad alto contatto (pivotaggio, inserimento, chiusura coperchio), generalizza a oggetti e task non visti con dati umani (meno di 5 minuti) e abilita un trasferimento H2R zero-shot su un task altamente abile (avvitamento lampadina).
Presentiamo il rapporto tecnico per Arcee Trinity Large, un modello sparso Mixture-of-Experts con 400 miliardi di parametri totali e 13 miliardi attivati per token. Inoltre, forniamo i dati relativi a Trinity Nano e Trinity Mini: Trinity Nano possiede 6 miliardi di parametri totali con 1 miliardo attivato per token, mentre Trinity Mini ha 26 miliardi di parametri totali con 3 miliardi attivati per token. L'architettura moderna dei modelli include attenzione locale e globale interlacciata, attenzione *gated*, normalizzazione a sandwich scalata in profondità e instradamento sigmoideo per il Mixture-of-Experts. Per Trinity Large, introduciamo inoltre una nuova strategia di bilanciamento del carico per MoE denominata Soft-clamped Momentum Expert Bias Updates (SMEBU). Abbiamo addestrato i modelli utilizzando l'ottimizzatore Muon. Tutti e tre i modelli hanno completato l'addestramento senza picchi di perdita. Trinity Nano e Trinity Mini sono stati pre-addestrati su 10 trilioni di token, mentre Trinity Large è stato pre-addestrato su 17 trilioni di token. I checkpoint del modello sono disponibili all'indirizzo https://huggingface.co/arcee-ai.
I Diffusion Transformer (DiT) hanno ottenento prestazioni all'avanguardia nella generazione di immagini e video, ma il loro successo avviene a scapito di un elevato costo computazionale. Questa inefficienza è largamente dovuta al processo di tokenizzazione fisso, che utilizza patch di dimensioni costanti durante l'intera fase di denoising, indipendentemente dalla complessità del contenuto. Proponiamo la tokenizzazione dinamica, una strategia efficiente al tempo di test che varia le dimensioni delle patch in base alla complessità del contenuto e al timestep di denoising. La nostra intuizione chiave è che i primi timestep richiedono solo patch più grossolane per modellare la struttura globale, mentre le iterazioni successive richiedono patch più fini (di dimensioni ridotte) per rifinire i dettagli locali. Durante l'inferenza, il nostro metodo riallocata dinamicamente le dimensioni delle patch attraverso i passi di denoising per la generazione di immagini e video, riducendo sostanzialmente i costi preservando al contempo la qualità percettiva della generazione. Esperimenti estensivi dimostrano l'efficacia del nostro approccio: esso raggiunge un accelerazione fino a 3,52 volte e 3,2 volte rispettivamente su FLUX-1.Dev e Wan 2.1, senza compromettere la qualità della generazione e l'aderenza al prompt.
Per comprendere e identificare i rischi senza precedenti posti dai modelli di intelligenza artificiale (IA) in rapida evoluzione, il documento *Frontier AI Risk Management Framework in Practice* presenta una valutazione completa dei loro rischi di frontiera. Con il rapido sviluppo delle capacità generali dei Large Language Model (LLM) e la proliferazione dell'IA agenziale, questa versione del rapporto tecnico di analisi del rischio presenta una valutazione aggiornata e granulare di cinque dimensioni critiche: offensiva informatica, persuasione e manipolazione, inganno strategico, R&S incontrollata dell'IA e auto-replicazione. Nello specifico, introduciamo scenari più complessi per l'offensiva informatica. Per la persuasione e la manipolazione, valutiamo il rischio di persuasione da LLM a LLM su modelli appena rilasciati. Per l'inganno strategico e la pianificazione subdola, aggiungiamo un nuovo esperimento riguardante il disallineamento emergente. Per la R&S incontrollata dell'IA, ci concentriamo sulla "cattiva evoluzione" degli agenti mentre espandono autonomamente i loro substrati di memoria e set di strumenti. Inoltre, monitoriamo e valutiamo le prestazioni di sicurezza di OpenClaw durante l'interazione su Moltbook. Per l'auto-replicazione, introduciamo un nuovo scenario con risorse limitate. Ancora più importante, proponiamo e convalidiamo una serie di strategie di mitigazione robuste per affrontare queste minacce emergenti, fornendo un percorso tecnico e attuabile preliminare per la distribuzione sicura dell'IA di frontiera. Questo lavoro riflette la nostra attuale comprensione dei rischi di frontiera dell'IA e sollecita un'azione collettiva per mitigare queste sfide.
Sebbene i modelli linguistici all'avanguardia dimostrino forti capacità di ragionamento e matematiche, il processo pratico di addestramento di modelli linguistici scientifici specializzati a partire da fonti grezze rimane poco documentato. In questo lavoro, presentiamo uno studio di caso dettagliato sull'addestramento di un modello linguistico scientifico da 1,36 miliardi di parametri direttamente da sorgenti LaTeX grezze di arXiv, relative a matematica, informatica e fisica teorica. Descriviamo una pipeline end-to-end che copre filtraggio dei metadati, validazione degli archivi, estrazione del LaTeX, normalizzazione del testo, tokenizzazione consapevole del dominio e addestramento di transformer densi con risorse computazionali limitate (2 GPU A100). Attraverso 24 esecuzioni sperimentali, analizziamo la stabilità dell'addestramento, il comportamento di scaling, le perdite di resa dei dati e i colli di bottiglia infrastrutturali. I nostri risultati evidenziano come le decisioni di pre-elaborazione influenzino significativamente il volume di token utilizzabili, come la tokenizzazione impatti la stabilità simbolica e come i vincoli di archiviazione e I/O possano rivaleggiare con la potenza di calcolo come fattori limitanti. Analizziamo inoltre le dinamiche di convergenza e mostriamo un comportamento di addestramento stabile in un regime ricco di dati (52 miliardi di token di pre-addestramento). Piuttosto che proporre un'architettura innovativa, questo lavoro fornisce una descrizione ingegneristicamente fondata e trasparente dell'addestramento di un piccolo modello linguistico scientifico da zero. Confidiamo che questi approfondimenti possano supportare i ricercatori che operano con budget computazionali moderati e che mirano a costruire modelli specializzati per dominio.
Gran parte del progresso nell'apprendimento per rinforzo multiagente (MARL) nei giochi a informazione imperfetta è storicamente dipeso dall'affinamento manuale e iterativo dei baseline. Sebbene famiglie fondamentali come la Minimizzazione del Rimpianto Controfattuale (CFR) e gli Oracoli di Risposta nello Spazio delle Politiche (PSRO) poggino su solide basi teoriche, la progettazione delle loro varianti più efficaci spesso si affida all'intuizione umana per navigare un vasto spazio di progettazione algoritmica. In questo lavoro, proponiamo l'uso di AlphaEvolve, un agente di codifica evolutivo alimentato da grandi modelli linguistici, per scoprire automaticamente nuovi algoritmi di apprendimento multiagente. Dimostriamo la generalità di questo framework evolvendo nuove varianti per due paradigmi distinti di apprendimento teoria-dei-giochi. In primo luogo, nel dominio della minimizzazione iterativa del rimpianto, evolviamo la logica che governa l'accumulo del rimpianto e la derivazione della politica, scoprendo un nuovo algoritmo, CFR con Sconto Adattivo alla Volatilità (VAD-CFR). VAD-CFR impiega meccanismi nuovi e non intuitivi - inclusi uno sconto sensibile alla volatilità, un ottimismo a consistenza forzata e una pianificazione di accumulo della politica con hard warm-start - per superare baseline all'avanguardia come Discounted Predictive CFR+. In secondo luogo, nel regime degli algoritmi di addestramento basati su popolazione, evolviamo i risolutori di meta-strategia per il tempo di addestramento e il tempo di valutazione per PSRO, scoprendo una nuova variante, PSRO con Rimpianto Ottimistico Ibrido Levigato (SHOR-PSRO). SHOR-PSRO introduce un meta-risolutore ibrido che combina linearmente l'Abbinamento del Rimpianto Ottimistico con una distribuzione levigata e controllata da temperatura sulle migliori strategie pure. Dinamizzando questo fattore di blending e i bonus di diversità durante l'addestramento, l'algoritmo automatizza la transizione dalla diversità della popolazione alla rigorosa ricerca dell'equilibrio, producendo una convergenza empirica superiore rispetto ai meta-risolutori statici standard.
Consentire ai modelli VLA di prevedere le dinamiche ambientali, nota come modellazione del mondo, è riconosciuto come essenziale per migliorare il ragionamento e la generalizzazione robotica. Tuttavia, gli approcci attuali affrontano due problemi principali: 1. L'obiettivo di addestramento costringe i modelli a enfatizzare eccessivamente la ricostruzione a livello di pixel, limitando l'apprendimento semantico e la generalizzazione. 2. La dipendenza da osservazioni future previste durante l'inferenza porta spesso all'accumulo di errori. Per affrontare queste sfide, introduciamo l'Allineamento della Rappresentazione Futura tramite Espansione Parallela Progressiva (FRAPPE). Il nostro metodo adotta una strategia di fine-tuning in due fasi: Nella fase di mid-training, il modello impara a prevedere le rappresentazioni latenti delle osservazioni future; Nella fase di post-training, espandiamo il carico computazionale in parallelo e allineiamo simultaneamente la rappresentazione con più modelli fondazionali visivi diversi. Migliorando significativamente l'efficienza del fine-tuning e riducendo la dipendenza da dati annotati con azioni, FRAPPE fornisce un percorso scalabile ed efficiente nei dati per potenziare la consapevolezza del mondo nelle politiche robotiche generaliste. Esperimenti sul benchmark RoboTwin e su compiti nel mondo reale dimostrano che FRAPPE supera gli approcci all'avanguardia e mostra una forte generalizzazione in scenari a lungo orizzonte e non visti precedentemente.
Presentiamo un'analisi completa di come le reti neurali a due strati apprendono feature per risolvere il compito dell'addizione modulare. Il nostro lavoro fornisce un'interpretazione meccanicistica completa del modello appreso e una spiegazione teorica della sua dinamica di addestramento. Sebbene lavori precedenti abbiano identificato che singoli neuroni apprendono feature di Fourier a singola frequenza e un allineamento di fase, ciò non spiega completamente come queste feature si combinino in una soluzione globale. Colmiamo questa lacuna formalizzando una condizione di diversificazione che emerge durante l'addestramento in condizioni di sovraparametrizzazione, composta da due parti: simmetria di fase e diversificazione in frequenza. Dimostriamo che queste proprietà permettono alla rete di approssimare collettivamente una funzione indicatrice imperfetta per la logica corretta del task di addizione modulare. Sebbene i singoli neuroni producano segnali rumorosi, la simmetria di fase abilita uno schema di voto a maggioranza che annulla il rumore, consentendo alla rete di identificare robustamente la somma corretta. Inoltre, spieghiamo l'emergere di queste feature sotto inizializzazione casuale attraverso un meccanismo di tipo "biglietto della lotteria". La nostra analisi del flusso del gradiente dimostra che le frequenze competono all'interno di ogni neurone, con il "vincitore" determinato dalla sua magnitudine spettrale iniziale e dall'allineamento di fase. Da un punto di vista tecnico, forniamo una caratterizzazione rigorosa della dinamica di accoppiamento di fase strato per strato e formalizziamo il panorama competitivo utilizzando il lemma di confronto per ODE. Infine, utilizziamo queste intuizioni per chiarire il fenomeno del "grokking", caratterizzandolo come un processo in tre fasi che coinvolge la memorizzazione seguita da due fasi di generalizzazione, guidate dalla competizione tra minimizzazione della loss e decadimento dei pesi.
Gli agenti che operano in ambienti software complessi traggono vantaggio dalla capacità di ragionare sulle conseguenze delle proprie azioni, poiché anche una singola operazione errata sull'interfaccia utente (UI) può compromettere flussi di lavoro lunghi e che preservano artefatti. Questa sfida è particolarmente acuta negli scenari di utilizzo del computer, dove l'esecuzione reale non supporta l'esplorazione controfattuale, rendendo impraticabile l'apprendimento e la pianificazione su larga scala per tentativi ed errori, nonostante l'ambiente sia completamente digitale e deterministico. Introduciamo il Computer-Using World Model (CUWM), un modello del mondo per il software desktop che predice lo stato successivo dell'UI dato lo stato corrente e un'azione candidata. CUWM adotta una scomposizione in due stadi della dinamica dell'UI: prima predice una descrizione testuale dei cambiamenti di stato rilevanti per l'agente, e poi realizza visivamente questi cambiamenti per sintetizzare lo screenshot successivo. CUWM è addestrato su transizioni dell'UI raccolte offline da agenti che interagiscono con applicazioni reali di Microsoft Office, e ulteriormente raffinato con una fase di apprendimento per rinforzo leggero che allinea le predizioni testuali delle transizioni con i requisiti strutturali degli ambienti di utilizzo del computer. Valutiamo CUWM tramite una ricerca di azioni durante il test, in cui un agente congelato utilizza il modello del mondo per simulare e confrontare azioni candidate prima dell'esecuzione. In una gamma di attività su Office, il ridimensionamento guidato dal modello del mondo durante il test migliora la qualità decisionale e la robustezza dell'esecuzione.
Una sfida centrale nella modifica dei grandi modelli linguistici (LLM) è la preservazione delle capacità: i metodi che modificano con successo il comportamento target possono aggirare silenziosamente il proxy di modifica e corrompere le capacità generali, producendo comportamenti degeneri che ricordano il *proxy/reward hacking*. Presentiamo CrispEdit, un algoritmo di modifica scalabile e fondato su principi teorici di secondo ordine, che tratta la preservazione delle capacità come un vincolo esplicito, unificando e generalizzando diversi approcci di modifica esistenti. CrispEdit formula la modifica come un problema di ottimizzazione vincolata e applica il vincolo proiettando gli aggiornamenti di modifica sul sottospazio a bassa curvatura del paesaggio di perdita delle capacità. Il fulcro di CrispEdit è l'espressione del vincolo di capacità tramite la divergenza di Bregman, la cui forma quadratica fornisce esattamente l'Hessiano di Gauss-Newton, anche quando il modello base non è stato addestrato fino alla convergenza. Rendiamo efficiente questa procedura del secondo ordine alla scala degli LLM utilizzando la curvatura approssimata fattorizzata di Kronecker (K-FAC) e un nuovo proiettore *matrix-free* che sfrutta la struttura di Kronecker per evitare la costruzione di matrici di proiezione massive. In vari benchmark standard per la modifica dei modelli, CrispEdit raggiunge un alto tasso di successo della modifica mantenendo il degrado delle capacità al di sotto dell'1% in media tra i dataset, migliorando significativamente rispetto agli editor precedenti.
I transformer ad attenzione lineare sono diventati una valida alternativa all'attenzione softmax grazie alla loro efficienza. Tuttavia, l'attenzione lineare tende ad essere meno espressiva e comporta una ridotta accuratezza rispetto all'attenzione softmax. Per colmare il divario di accuratezza tra l'attenzione softmax e quella lineare, interveniamo su Mamba-2, una variante di attenzione lineare molto potente. Iniziamo semplificando Mamba-2 fino ai suoi componenti più fondamentali e importanti, valutando quali scelte specifiche la rendano più accurata. A partire da questa variante semplificata di Mamba (Mamba-2S), miglioriamo la maschera A e aumentiamo l'ordine dello stato nascosto, ottenendo un metodo, che chiamiamo 2Mamba, che è quasi accurato quanto l'attenzione softmax, ma molto più efficiente in termini di memoria per contesti lunghi. Indaghiamo anche gli elementi di Mamba-2 che contribuiscono a superare l'accuratezza dell'attenzione softmax. Il codice per tutti i nostri esperimenti è fornito.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato forti capacità di ragionamento e generalizzazione, motivando il loro utilizzo come politiche decisionali in ambienti complessi. StarCraft II (SC2), con il suo enorme spazio di stati-azioni e l'osservabilità parziale, rappresenta un banco di prova impegnativo. Tuttavia, gli agenti SC2 basati su LLM esistenti si concentrano principalmente sul miglioramento della politica stessa e trascurano l'integrazione di un modello di transizione apprendibile e condizionato all'azione nel ciclo decisionale. Per colmare questa lacuna, proponiamo StarWM, il primo modello mondiale per SC2 in grado di prevedere le osservazioni future in condizioni di osservabilità parziale. Per facilitare l'apprendimento delle dinamiche ibride di SC2, introduciamo una rappresentazione testuale strutturata che scompone le osservazioni in cinque moduli semantici e costruiamo SC2-Dynamics-50k, il primo dataset di instruction-tuning per la previsione delle dinamiche di SC2. Sviluppiamo inoltre un framework di valutazione offline multidimensionale per le osservazioni strutturate previste. I risultati offline mostrano i sostanziali vantaggi di StarWM rispetto ai baseline zero-shot, inclusi miglioramenti di quasi il 60% nell'accuratezza della previsione delle risorse e nella coerenza della situazione macro del proprio lato. Infine, proponiamo StarWM-Agent, un sistema decisionale potenziato da un modello mondiale che integra StarWM in un ciclo decisionale Genera-Simula-Affina per un perfezionamento della politica guidato dalla previsione. La valutazione online contro l'IA integrata di SC2 dimostra miglioramenti costanti, con incrementi del tasso di vittoria del 30%, 15% e 30% rispettivamente contro i livelli Difficile (LV5), Più Difficile (LV6) e Molto Difficile (LV7), insieme a una maggiore stabilità nella macro-gestione e una migliore valutazione del rischio tattico.
Nonostante i rapidi progressi negli agenti web autonomi, il coinvolgimento umano rimane essenziale per modellare le preferenze e correggere il comportamento degli agenti mentre i compiti si svolgono. Tuttavia, i sistemi agentistici attuali mancano di una comprensione principiata di quando e perché gli esseri umani intervengono, procedendo spesso in autonomia oltre punti decisionali critici o richiedendo conferme non necessarie. In questo lavoro, introduciamo il compito di modellare l'intervento umano per supportare l'esecuzione collaborativa di compiti web. Raccogliamo CowCorpus, un dataset di 400 traiettorie di navigazione web di utenti reali contenenti oltre 4.200 azioni intervallate di umani e agenti. Identifichiamo quattro distinti modelli di interazione dell'utente con gli agenti: supervisione a distanza, supervisione diretta, risoluzione collaborativa dei compiti e assunzione totale del controllo da parte dell'utente. Sfruttando queste intuizioni, addestriamo modelli linguistici (LM) a prevedere quando è probabile che gli utenti intervengano in base ai loro stili di interazione, ottenendo un miglioramento del 61,4-63,4% nell'accuratezza predittiva degli interventi rispetto ai LM base. Infine, implementiamo questi modelli consapevoli dell'intervento in agenti di navigazione web attivi e li valutiamo in uno studio con utenti, riscontrando un aumento del 26,5% nell'utilità dell'agente valutata dagli utenti. Nel complesso, i nostri risultati dimostrano che una modellazione strutturata dell'intervento umano porta ad agenti più adattivi e collaborativi.
Introduciamo NESSiE, il benchmark NEceSsary SafEty per i grandi modelli linguistici (LLM). Con casi di test minimi di sicurezza delle informazioni e di accesso, NESSiE rivela fallimenti rilevanti per la sicurezza che non dovrebbero esistere, data la bassa complessità dei compiti. NESSiE è concepito come un controllo di integrità leggero e facile da usare per la sicurezza dei modelli linguistici e, come tale, non è sufficiente per garantire la sicurezza in generale – ma sosteniamo che superare questo test sia necessario per qualsiasi implementazione. Tuttavia, anche gli LLM più all'avanguardia non raggiungono il 100% su NESSiE e quindi falliscono la nostra condizione necessaria per la sicurezza del modello linguistico, anche in assenza di attacchi avversari. La nostra metrica Safe & Helpful (SH) consente un confronto diretto dei due requisiti, mostrando che i modelli sono orientati a essere utili piuttosto che sicuri. Inoltre, scopriamo che il ragionamento disabilitato per alcuni modelli, ma soprattutto un contesto di distrazione benigno, degradano le prestazioni del modello. Nel complesso, i nostri risultati sottolineano i rischi critici della diffusione di tali modelli come agenti autonomi in contesti reali. Rendiamo pubblicamente disponibili il dataset, il pacchetto e il codice per la generazione dei grafici.
I modelli Vision-Linguaggio-Azione (VLA) sono emersi come un paradigma chiave dell'Intelligenza Artificiale Fisica e vengono sempre più impiegati in veicoli autonomi, robot e spazi intelligenti. In questi contesti di esecuzione su dispositivo con risorse limitate, la selezione di un'adeguata architettura base di grandi modelli linguistici (LLM) rappresenta una sfida cruciale: i modelli devono bilanciare l'accuratezza con stringenti vincoli di latenza di inferenza ed efficienza hardware. Ciò rende il co-design hardware-software un requisito rivoluzionario per la distribuzione di LLM su dispositivo, dove ogni piattaforma hardware richiede una soluzione architetturale su misura. Proponiamo una legge di co-design hardware che cattura congiuntamente l'accuratezza del modello e le prestazioni di inferenza. Nello specifico, modelliamo la loss di addestramento come una funzione esplicita degli iperparametri architetturali e caratterizziamo la latenza di inferenza attraverso il modello roofline. Valutiamo empiricamente 1.942 architetture candidate su NVIDIA Jetson Orin, addestrando 170 modelli selezionati per 10 miliardi di token ciascuno per adattare una legge di scaling che metta in relazione l'architettura con la loss di addestramento. Accoppiando questa legge di scaling con la modellazione della latenza, stabiliamo una corrispondenza diretta accuratezza-latenza e identifichiamo la frontiera di Pareto per gli LLM co-progettati con l'hardware. Formuliamo inoltre la ricerca architetturale come un'ottimizzazione congiunta su precisione e prestazioni, derivando regioni di progetto fattibili sotto i budget hardware e applicativi industriali. Il nostro approccio riduce la selezione dell'architettura da mesi a giorni. A parità di latenza rispetto a Qwen2.5-0.5B sull'hardware target, la nostra architettura co-progettata raggiunge una perplexity inferiore del 19,42% su WikiText-2. A nostra conoscenza, questo è il primo quadro metodologico principiato e operativo per le leggi di scaling del co-design hardware nella distribuzione di LLM su dispositivo. Renderemo pubblicamente disponibili il codice e i checkpoint correlati.
L'allineamento della sicurezza è essenziale per il deployment responsabile dei grandi modelli linguistici (LLM). Tuttavia, gli approcci esistenti spesso si basano su un fine-tuning pesante, costoso da aggiornare, verificare e mantenere tra diverse famiglie di modelli. Il fine-tuning completo comporta un sovraccarico computazionale e di archiviazione sostanziale, mentre metodi efficienti in termini di parametri come LoRA scambiano l'efficienza con guadagni di sicurezza inconsistenti e sensibilità alle scelte progettuali. I meccanismi di intervento di sicurezza, come gli interruttori di circuito, riducono gli output non sicuri senza modificare i pesi del modello, ma non modellano né preservano direttamente le rappresentazioni interne che governano il comportamento di sicurezza. Queste limitazioni ostacolano aggiornamenti rapidi e affidabili della sicurezza, specialmente in contesti in cui i modelli evolvono frequentemente o devono adattarsi a nuove politiche e domini. Presentiamo NeST, un framework di allineamento della sicurezza leggero e consapevole della struttura, che rafforza il comportamento di rifiuto adattando selettivamente un piccolo sottoinsieme di neuroni rilevanti per la sicurezza mentre congela il resto del modello. NeST allinea gli aggiornamenti dei parametri con l'organizzazione interna del comportamento di sicurezza raggruppando neuroni di sicurezza funzionalmente coerenti e applicando aggiornamenti condivisi all'interno di ogni cluster, consentendo un adattamento della sicurezza mirato e stabile senza un'ampia modifica del modello o sovraccarico in fase di inferenza. Abbiamo confrontato NeST con tre baseline dominanti: fine-tuning completo, fine-tuning basato su LoRA e interruttori di circuito, su 10 LLM open-weight che coprono multiple famiglie di modelli e dimensioni. In tutti i modelli valutati, NeST riduce il tasso di successo degli attacchi da una media del 44,5% al 4,36%, corrispondente a una riduzione del 90,2% delle generazioni non sicure, richiedendo in media solo 0,44 milioni di parametri addestrabili. Ciò equivale a una diminuzione di 17.310 volte nei parametri aggiornati rispetto al fine-tuning completo e a una riduzione di 9,25 volte rispetto a LoRA, raggiungendo costantemente prestazioni di sicurezza superiori per l'allineamento.
Sebbene il Reinforcement Learning con Ricompense Verificabili (RLVR) abbia dimostrato una forte efficacia nei compiti di ragionamento, non può essere applicato direttamente a domini non verificabili privi di verificatori ground-truth, come l'allineamento degli LLM. In questo lavoro, indaghiamo se i valutatori basati su LLM e guidati da riferimenti possano colmare questa lacuna fungendo da "verificatori" soft. In primo luogo, progettiamo protocolli di valutazione che migliorano i valutatori basati su LLM per l'allineamento utilizzando output di riferimento. Attraverso esperimenti approfonditi, mostriamo che un approccio guidato da riferimenti migliora sostanzialmente l'accuratezza di giudici-LLM meno capaci utilizzando riferimenti da modelli all'avanguardia; anche giudici-LLM più potenti possono essere potenziati da riferimenti di alta qualità (ad esempio, scritti da umani). Basandoci su questi giudici migliorati, dimostriamo l'utilità di riferimenti di alta qualità nella messa a punto per l'allineamento, dove LLM guidati da riferimenti vengono utilizzati come giudici per l'auto-miglioramento. Mostriamo che l'auto-miglioramento guidato da riferimenti produce guadagni netti rispetto sia alla SFT diretta sugli output di riferimento che all'auto-miglioramento con giudici senza riferimento, raggiungendo prestazioni paragonabili all'addestramento con ArmoRM, un forte modello di ricompensa fine-tunato. Nello specifico, il nostro metodo raggiunge il 73,1% e il 58,7% su AlpacaEval e Arena-Hard con Llama-3-8B-Instruct, e il 70,0% e il 74,1% con Qwen2.5-7B, corrispondenti a guadagni assoluti medi di +20,2 / +17,1 punti rispetto alla distillazione SFT e di +5,3 / +3,6 punti rispetto all'auto-miglioramento senza riferimento su AlpacaEval / Arena-Hard. Questi risultati evidenziano il potenziale dell'uso di valutatori-LLM guidati da riferimenti per abilitare un efficace post-training degli LLM in domini non verificabili.
La stima della profondità stereo è fondamentale per la percezione robotica subacquea, ma soffre di gravi cambiamenti di dominio causati dall'attenuazione della luce dipendente dalla lunghezza d'onda, dalla diffusione e dalla rifrazione. Gli approcci recenti sfruttano modelli foundation monoculari con raffinamento iterativo basato su GRU per l'adattamento subacqueo; tuttavia, il gating sequenziale e i kernel convoluzionali locali nelle GRU richiedono multiple iterazioni per la propagazione della disparità a lungo raggio, limitando le prestazioni nelle regioni subacquee con grandi disparità e senza texture. In questo articolo, proponiamo StereoAdapter-2, che sostituisce l'aggiornatore ConvGRU convenzionale con un nuovo operatore ConvSS2D basato su modelli di stato selettivi (selective state space models). L'operatore proposto impiega una strategia di scansione quadridirezionale che si allinea naturalmente con la geometria epipolare mentre cattura la coerenza strutturale verticale, consentendo un'efficiente propagazione spaziale a lungo raggio all'interno di un singolo passo di aggiornamento con complessità computazionale lineare. Inoltre, costruiamo UW-StereoDepth-80K, un ampio dataset stereo sintetico subacqueo che presenta diverse baseline, coefficienti di attenuazione e parametri di diffusione attraverso una pipeline generativa in due stadi che combina il transfer di stile semantico-consapevole e la sintesi di nuove viste geometricamente consistenti. Combinato con l'adattamento dinamico LoRA ereditato da StereoAdapter, il nostro framework raggiunge prestazioni state-of-the-art zero-shot su benchmark subacquei con un miglioramento del 17% su TartanAir-UW e del 7.2% su SQUID, mentre la validazione nel mondo reale sulla piattaforma BlueROV2 dimostra la robustezza del nostro approccio. Codice: https://github.com/AIGeeksGroup/StereoAdapter-2. Sito web: https://aigeeksgroup.github.io/StereoAdapter-2.