Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ridimensionamento al momento del test è un nuovo approccio promettente alla modellazione del linguaggio che utilizza risorse computazionali aggiuntive al momento del test per migliorare le prestazioni. Recentemente, il modello o1 di OpenAI ha dimostrato questa capacità ma non ha condiviso pubblicamente la sua metodologia, portando a numerosi sforzi di replicazione. Cerchiamo l'approccio più semplice per ottenere il ridimensionamento al momento del test e prestazioni di ragionamento solide. In primo luogo, curiamo un piccolo dataset s1K di 1.000 domande abbinate a tracce di ragionamento basate su tre criteri che convalidiamo attraverso ablation: difficoltà, diversità e qualità. In secondo luogo, sviluppiamo il budget forcing per controllare le risorse computazionali al momento del test terminando forzatamente il processo di pensiero del modello o allungandolo aggiungendo "Wait" più volte alla generazione del modello quando cerca di concludere. Ciò può portare il modello a rivedere la propria risposta, correggendo spesso passaggi di ragionamento errati. Dopo il fine-tuning supervisionato del modello linguistico Qwen2.5-32B-Instruct su s1K e dotandolo di budget forcing, il nostro modello s1 supera o1-preview sulle domande di matematica di competizione fino al 27% (MATH e AIME24). Inoltre, il ridimensionamento di s1 con il budget forcing consente di fare previsioni oltre le sue prestazioni senza intervento al momento del test: dal 50% al 57% su AIME24. Il nostro modello, dati e codice sono open-source su https://github.com/simplescaling/s1.
Introduciamo il Decodifica Speculativa Guidata dalla Ricompensa (RSD), un nuovo framework mirato a migliorare l'efficienza dell'inferenza nei grandi modelli linguistici (LLM). RSD combina sinergicamente un modello preliminare leggero con un modello target più potente, incorporando un bias controllato per dare priorità agli output ad alta ricompensa, a differenza dei metodi di decodifica speculativa esistenti che impongono una rigorosa imparzialità. RSD utilizza un modello di ricompensa del processo per valutare i passaggi intermedi di decodifica e decidere dinamicamente se invocare il modello target, ottimizzando il compromesso tra costo computazionale e qualità dell'output. Dimostriamo teoricamente che una strategia di miscelazione basata su soglie raggiunge un equilibrio ottimale tra utilizzo delle risorse e prestazioni. Valutazioni approfondite su sfide di ragionamento impegnative, incluse attività di livello olimpico, mostrano che RSD porta significativi miglioramenti di efficienza rispetto alla decodifica con solo il modello target (fino a 4,4 volte meno FLOPs), ottenendo una precisione significativamente migliore rispetto al metodo di decodifica parallela in media (fino a +3,5). Questi risultati evidenziano RSD come un approccio robusto ed economicamente vantaggioso per implementare LLM in scenari ad alta intensità di risorse.
I metodi di video matting umano senza ausiliari, che si basano esclusivamente sui frame di input, spesso faticano con sfondi complessi o ambigui. Per affrontare questo problema, proponiamo MatAnyone, un robusto framework progettato per il video matting assegnato al target. In particolare, basandoci su un paradigma basato sulla memoria, introduciamo un modulo di propagazione della memoria coerente tramite fusione adattativa della memoria regionale, che integra in modo adattivo la memoria dal frame precedente. Questo garantisce stabilità semantica nelle regioni centrali preservando dettagli dettagliati lungo i confini degli oggetti. Per un addestramento robusto, presentiamo un dataset più ampio, di alta qualità e diversificato per il video matting. Inoltre, incorporiamo una nuova strategia di addestramento che sfrutta efficientemente dati di segmentazione su larga scala, potenziando la stabilità del matting. Con questo nuovo design di rete, dataset e strategia di addestramento, MatAnyone offre risultati robusti e precisi di video matting in diverse situazioni del mondo reale, superando i metodi esistenti.
A causa della presenza del divario naturale tra le strutture del Grafo della Conoscenza (KG) e il linguaggio naturale, l'integrazione efficace delle informazioni strutturali olistiche dei KG con i Grandi Modelli Linguistici (LLM) è emersa come una questione significativa. A tal fine, proponiamo un framework a due fasi per apprendere e applicare codici quantizzati per ciascuna entità, mirando all'integrazione senza soluzione di continuità dei KG con i LLM. In primo luogo, viene proposto un metodo di rappresentazione quantizzata auto-supervisionata (SSQR) per comprimere sia la conoscenza strutturale che semantica dei KG in codici discreti (cioè, token) che allineano il formato delle frasi del linguaggio. Progettiamo inoltre dati di istruzioni KG-following considerando questi codici appresi come caratteristiche da inserire direttamente nei LLM, ottenendo così un'integrazione senza soluzione di continuità. I risultati sperimentali dimostrano che SSQR supera i metodi quantizzati non supervisionati esistenti, producendo codici più distinguibili. Inoltre, i modelli LLaMA2 e LLaMA3.1 ottimizzati in seguito hanno prestazioni superiori nelle previsioni di collegamenti KG e nelle classificazioni di triple, utilizzando solo 16 token per entità anziché migliaia nei metodi di prompting convenzionali.
L'elemento massimo del vettore prodotto dalla funzione Softmax si avvicina a zero all'aumentare delle dimensioni del vettore di input. I modelli linguistici basati su Transformer dipendono dalla Softmax per calcolare i punteggi di attenzione, causando l'aplanamento della distribuzione di attenzione all'aumentare delle dimensioni del contesto. Ciò riduce la capacità del modello di dare priorità in modo efficace alle informazioni chiave e potenzialmente limita la sua capacità di generalizzazione della lunghezza. Per affrontare questo problema, proponiamo Scalable-Softmax (SSMax), che sostituisce la Softmax nei casi in cui le dimensioni del vettore di input variano. SSMax può essere integrato senza problemi nelle architetture basate su Transformer esistenti. I risultati sperimentali nella modellizzazione del linguaggio mostrano che i modelli che utilizzano SSMax non solo ottengono una riduzione più rapida della perdita durante la preformazione, ma migliorano significativamente le prestazioni nei contesti lunghi e nel recupero delle informazioni chiave. Inoltre, un'analisi dei punteggi di attenzione rivela che SSMax consente al modello di concentrare l'attenzione sulle informazioni chiave anche in contesti lunghi. Inoltre, sebbene i modelli che utilizzano SSMax fin dall'inizio della preformazione raggiungano una migliore generalizzazione della lunghezza, quelli che hanno già iniziato la preformazione possono comunque acquisire in parte questa capacità sostituendo la Softmax nei livelli di attenzione con SSMax, sia durante che dopo la preformazione.
I modelli di base esistenti elaborano tipicamente l'input visivo come pixel e l'input testuale come token, un paradigma che contrasta con la percezione umana, dove entrambe le modalità sono elaborate in modo unificato. Con la diffusione dell'IA incorporata e agente, dove gli input provengono principalmente dai pixel della fotocamera, diventa sempre più evidente la necessità di un framework di percezione unificato. In questo articolo, proponiamo di unificare tutte le modalità (testo, tabelle, codice, diagrammi, immagini, ecc.) come input pixel, cioè "Percepire Tutto come Pixel" (PEAP). Presentiamo PixelWorld, una nuova suite di valutazione che unifica tutte le modalità menzionate nello spazio dei pixel per valutare le prestazioni dei modelli esistenti. I nostri risultati mostrano che (1) PEAP supera il modello di base con input basato su token in dataset multimodali, beneficiando di un input unificato per una migliore disambiguazione, (2) significativi cali nelle capacità di ragionamento e codifica in tutti i modelli quando elaborano input basati su pixel, sottolineando la necessità di potenziare le capacità percettive dei modelli di base, (3) i modelli più grandi possono mantenere prestazioni solide su compiti non di ragionamento con PEAP, mentre modelli più piccoli come Phi-3.5-V subiscono significativi degradi delle prestazioni, (4) il modello di attenzione di PEAP è fortemente allineato con l'input token di testo, (5) PEAP può essere accelerato significativamente sfruttando la sparità spaziale. Concludiamo che i modelli di frontiera esistenti sono competenti nella percezione dei pixel, tuttavia, c'è ancora margine per miglioramenti. Il nostro codice e il dataset saranno resi disponibili una volta accettati.
La capacità di prevedere risultati futuri date azioni di controllo è fondamentale per il ragionamento fisico. Tuttavia, tali modelli predittivi, spesso chiamati modelli del mondo, si sono dimostrati difficili da apprendere e sono tipicamente sviluppati per soluzioni specifiche del compito con apprendimento della politica online. Sosteniamo che il vero potenziale dei modelli del mondo risieda nella loro capacità di ragionare e pianificare su problemi diversi utilizzando solo dati passivi. Concretamente, richiediamo che i modelli del mondo abbiano le seguenti tre proprietà: 1) essere addestrabili su traiettorie offline pre-raccolte, 2) supportare l'ottimizzazione del comportamento durante il test e 3) facilitare il ragionamento agnostico rispetto al compito. Per realizzare ciò, presentiamo DINO World Model (DINO-WM), un nuovo metodo per modellare la dinamica visiva senza ricostruire il mondo visivo. DINO-WM sfrutta le caratteristiche spaziali a patch pre-addestrate con DINOv2, consentendogli di apprendere da traiettorie comportamentali offline prevedendo le future caratteristiche delle patch. Questo design permette a DINO-WM di raggiungere obiettivi osservazionali attraverso l'ottimizzazione della sequenza di azioni, facilitando la pianificazione del comportamento agnostica rispetto al compito trattando le caratteristiche delle patch desiderate come obiettivi di previsione. Valutiamo DINO-WM in vari domini, tra cui la navigazione in labirinto, il push sul tavolo e la manipolazione di particelle. I nostri esperimenti dimostrano che DINO-WM può generare soluzioni comportamentali zero-shot durante il test senza fare affidamento su dimostrazioni di esperti, modellizzazione del reward o modelli inversi pre-appresi. In particolare, DINO-WM mostra forti capacità di generalizzazione rispetto ai lavori precedenti all'avanguardia, adattandosi a diverse famiglie di compiti come labirinti configurati arbitrariamente, manipolazione push con forme di oggetti varie e scenari multi-particella.
I modelli linguistici di grandi dimensioni (LLM) sono vulnerabili a jailbreak universali, strategie che aggirano sistematicamente le protezioni del modello e consentono agli utenti di eseguire processi dannosi che richiedono molte interazioni del modello, come la produzione su larga scala di sostanze illegali. Per difendersi da questi attacchi, introduciamo Classificatori Costituzionali: protezioni addestrate su dati sintetici, generati interrogando LLM con regole di linguaggio naturale (cioè, una costituzione) che specificano contenuti consentiti e limitati. In oltre 3.000 ore stimate di simulazioni di attacco, nessun membro del team di attacco ha trovato un jailbreak universale in grado di estrarre informazioni da un LLM protetto da un classificatore iniziale a un livello di dettaglio simile a un modello non protetto per la maggior parte delle query target. Nelle valutazioni automatizzate, i classificatori potenziati hanno dimostrato una difesa robusta contro jailbreak specifici di dominio non noti. Questi classificatori mantengono anche la praticità di implementazione, con un aumento assoluto dello 0,38% nei rifiuti di traffico di produzione e un overhead di inferenza del 23,7%. Il nostro lavoro dimostra che difendere contro i jailbreak universali mantenendo al contempo la praticità di implementazione è fattibile.
I modelli di diffusione, seppur potenti, possono generare involontariamente contenuti dannosi o indesiderati, sollevando significativi problemi etici e di sicurezza. Gli approcci recenti di disapprendimento automatico offrono soluzioni potenziali ma spesso mancano di trasparenza, rendendo difficile comprendere le modifiche che introducono nel modello di base. In questo lavoro, presentiamo SAeUron, un nuovo metodo che sfrutta le caratteristiche apprese da autoencoder sparsi (SAE) per rimuovere concetti indesiderati nei modelli di diffusione testo-immagine. Innanzitutto, dimostriamo che gli SAE, addestrati in modo non supervisionato su attivazioni da più passaggi di denoising del modello di diffusione, catturano caratteristiche sparse e interpretabili corrispondenti a concetti specifici. Sulla base di ciò, proponiamo un metodo di selezione delle caratteristiche che consente interventi precisi sulle attivazioni del modello per bloccare contenuti mirati preservando al contempo le prestazioni complessive. La valutazione con il competitivo benchmark UnlearnCanvas sull'eliminazione degli oggetti e degli stili mette in evidenza le prestazioni all'avanguardia di SAeUron. Inoltre, mostriamo che con un singolo SAE possiamo rimuovere contemporaneamente più concetti e che, a differenza di altri metodi, SAeUron riduce la possibilità di generare contenuti indesiderati, anche in caso di attacco avversario. Il codice e i checkpoint sono disponibili su: https://github.com/cywinski/SAeUron.
Dimostriamo che gli schemi di tasso di apprendimento per l'addestramento di modelli di grandi dimensioni si comportano in modo sorprendentemente simile a un limite di prestazione della teoria dell'ottimizzazione convessa non liscia. Forniamo un limite per lo schema costante con raffreddamento lineare; in particolare, il beneficio pratico del raffreddamento è riflesso nel limite a causa dell'assenza di termini logaritmici. Inoltre, dimostriamo che questa corrispondenza sorprendentemente stretta tra teoria e pratica dell'ottimizzazione può essere sfruttata per l'ottimizzazione del tasso di apprendimento: otteniamo miglioramenti significativi per l'addestramento di modelli di tipo Llama da 124M e 210M mediante (i) l'estensione dello schema per l'addestramento continuato con tasso di apprendimento ottimale e (ii) il trasferimento del tasso di apprendimento ottimale tra gli schemi.
I metodi attuali per la ricostruzione di scene 3D da immagini posate sparse impiegano rappresentazioni 3D intermedie come campi neurali, griglie di voxel o Gaussiane 3D, per ottenere una consistenza multi-vista dell'aspetto e della geometria della scena. In questo articolo presentiamo MVGD, un'architettura basata sulla diffusione capace di generare direttamente a livello di pixel immagini e mappe di profondità da nuovi punti di vista, dati un numero arbitrario di viste di input. Il nostro metodo utilizza il condizionamento della raymap sia per arricchire le caratteristiche visive con informazioni spaziali da diversi punti di vista, sia per guidare la generazione di immagini e mappe di profondità da nuove viste. Un aspetto chiave del nostro approccio è la generazione multi-task di immagini e mappe di profondità, utilizzando embedding di compiti apprendibili per guidare il processo di diffusione verso specifiche modalità. Addestriamo questo modello su una collezione di oltre 60 milioni di campioni multi-vista da set di dati disponibili pubblicamente, e proponiamo tecniche per consentire un apprendimento efficiente e consistente in condizioni così diverse. Proponiamo inoltre una strategia innovativa che consente l'addestramento efficiente di modelli più grandi mediante il raffinamento incrementale di modelli più piccoli, con un comportamento di scalabilità promettente. Attraverso estesi esperimenti, riportiamo risultati all'avanguardia in molteplici benchmark di sintesi di nuove viste, nonché nella stima stereo multi-vista e nella stima della profondità video.
Abbiamo condotto esperimenti sull'impatto dell'aumento del calcolo al tempo di inferenza nei modelli di ragionamento (in particolare OpenAI o1-preview e o1-mini) sulla loro robustezza agli attacchi avversari. Abbiamo riscontrato che, attraverso una varietà di attacchi, un aumento del calcolo al tempo di inferenza porta a una maggiore robustezza. In molti casi (con importanti eccezioni), la percentuale di campioni del modello in cui l'attacco riesce tende a zero all'aumentare della quantità di calcolo al tempo di test. Non eseguiamo addestramento avversario per i compiti che studiamo e aumentiamo il calcolo al tempo di inferenza semplicemente consentendo ai modelli di utilizzare più calcolo per il ragionamento, indipendentemente dalla forma di attacco. I nostri risultati suggeriscono che il calcolo al tempo di inferenza ha il potenziale per migliorare la robustezza avversaria per i Grandi Modelli Linguistici. Esploriamo anche nuovi attacchi diretti ai modelli di ragionamento, nonché contesti in cui il calcolo al tempo di inferenza non migliora l'affidabilità, e speculiamo sulle ragioni di ciò e sui modi per affrontarle.
Data l'introduzione recente di diversi modelli linguistici e la costante richiesta di miglioramenti nelle attività di Elaborazione del Linguaggio Naturale, in particolare nella sintesi, questo lavoro fornisce una valutazione completa di 20 modelli linguistici recenti, concentrandosi su quelli più piccoli per l'attività di sintesi delle notizie. In questo studio, testiamo sistematicamente le capacità e l'efficacia di questi modelli nel riassumere testi di articoli di notizie scritti in stili diversi e presentati in tre set di dati distinti. In particolare, ci concentriamo in questo studio sulle impostazioni di apprendimento zero-shot e few-shot e applichiamo una metodologia di valutazione robusta che combina diversi concetti di valutazione, inclusi metriche automatiche, valutazione umana e LLM-come-giudice. È interessante notare che includere esempi dimostrativi nell'impostazione di apprendimento few-shot non ha migliorato le prestazioni dei modelli e, in alcuni casi, ha addirittura portato a una qualità peggiore dei riassunti generati. Questo problema sorge principalmente a causa della scarsa qualità dei riassunti di riferimento utilizzati, che influisce negativamente sulle prestazioni dei modelli. Inoltre, i risultati del nostro studio evidenziano le eccezionali prestazioni di GPT-3.5-Turbo e GPT-4, che generalmente dominano grazie alle loro capacità avanzate. Tuttavia, tra i modelli pubblici valutati, alcuni modelli come Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B e Zephyr-7B-Beta hanno mostrato risultati promettenti. Questi modelli hanno dimostrato un potenziale significativo, posizionandoli come alternative competitive ai modelli più grandi per l'attività di sintesi delle notizie.
Questo articolo affronta la sfida di lunga data della ricostruzione di strutture 3D da video con contenuti dinamici. Gli approcci attuali a questo problema non sono stati progettati per operare su video informali registrati da telecamere standard o richiedono un lungo tempo di ottimizzazione. Con l'obiettivo di migliorare significativamente l'efficienza degli approcci precedenti, presentiamo TracksTo4D, un approccio basato sull'apprendimento che consente di inferire la struttura 3D e le posizioni delle telecamere da contenuti dinamici provenienti da video informali utilizzando un singolo passaggio efficiente in avanti. Per raggiungere questo obiettivo, proponiamo di operare direttamente su tracce di punti 2D in ingresso e progettare un'architettura adatta per elaborare tracce di punti 2D. La nostra architettura proposta è progettata con due principi chiave in mente: (1) tiene conto delle simmetrie intrinseche presenti nei dati delle tracce di punti in ingresso e (2) assume che i modelli di movimento possano essere rappresentati in modo efficace utilizzando un'approssimazione a basso rango. TracksTo4D viene addestrato in modo non supervisionato su un dataset di video informali utilizzando solo le tracce di punti 2D estratte dai video, senza alcuna supervisione 3D. I nostri esperimenti mostrano che TracksTo4D può ricostruire una nuvola di punti temporale e le posizioni delle telecamere del video sottostante con un'accuratezza paragonabile ai metodi all'avanguardia, riducendo drasticamente il tempo di esecuzione fino al 95%. Mostriamo inoltre che TracksTo4D generalizza bene a video non visti di categorie semantiche non viste al momento dell'inferenza.
La segmentazione di immagini promptabile generica per compiti mira a ottenere la segmentazione di campioni diversi sotto una singola descrizione del compito utilizzando un solo prompt generico per il compito. I metodi attuali sfruttano le capacità di generalizzazione dei Modelli Visione-Linguaggio (VLM) per dedurre prompt specifici dell'istanza da questi prompt generici per guidare il processo di segmentazione. Tuttavia, quando i VLM faticano a generalizzare su alcune istanze di immagini, la previsione di prompt specifici dell'istanza diventa scarsa. Per risolvere questo problema, introduciamo il Mining Negativo Specifico dell'Istanza per la Segmentazione Promptabile Generica per Compiti (INT). L'idea chiave di INT è quella di ridurre adattivamente l'influenza della conoscenza precedente irrilevante (negativa) mentre si aumenta l'uso della conoscenza precedente più plausibile, selezionata dal mining negativo con maggiore contrasto, al fine di ottimizzare la generazione di prompt specifici dell'istanza. In particolare, INT è composto da due componenti: (1) generazione di prompt specifici dell'istanza, che filtra progressivamente le informazioni incorrette nella generazione del prompt; (2) generazione di maschere semantiche, che garantisce che la segmentazione di ciascuna istanza di immagine corrisponda correttamente alla semantica dei prompt specifici dell'istanza. INT è validato su sei set di dati, inclusi oggetti mimetizzati e immagini mediche, dimostrandone l'efficacia, la robustezza e la scalabilità.
Per ridurre i costi di memoria nell'inferenza a lungo contesto con i Grandi Modelli Linguistici (LLM), molti lavori recenti si concentrano sulla compressione della cache chiave-valore (KV) di diversi token. Tuttavia, abbiamo identificato che i metodi di compressione della cache KV precedenti misurano l'importanza del token individualmente, trascurando la dipendenza tra diversi token nelle caratteristiche linguistiche del mondo reale. Alla luce di ciò, introduciamo ChunkKV, raggruppando i token in un chunk come unità di compressione di base, e mantenendo i chunk semantici più informativi scartando quelli meno importanti. Inoltre, osservando che ChunkKV mostra una maggiore similarità negli indici preservati tra diversi strati, proponiamo il riutilizzo degli indici strato per strato per ridurre ulteriormente l'onere computazionale. Abbiamo valutato ChunkKV su benchmark di lungo contesto all'avanguardia tra cui LongBench e Needle-In-A-HayStack, nonché il benchmark di apprendimento in contesto GSM8K e JailbreakV. I nostri esperimenti con i LLM di sintonizzazione delle istruzioni e di ragionamento a più passaggi (O1 e R1) hanno ottenuto fino al 10\% di miglioramento delle prestazioni con rapporti di compressione aggressivi rispetto ai metodi esistenti.