Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le salienti capacità multimodali e l'esperienza interattiva di GPT-4o evidenziano il suo ruolo critico nelle applicazioni pratiche, tuttavia manca di un controparte open-source ad alte prestazioni. In questo articolo, presentiamo Baichuan-Omni, il primo Modello di Linguaggio Multimodale Large (MLLM) open-source da 7B abile nel processare e analizzare contemporaneamente le modalità di immagini, video, audio e testo, offrendo un'esperienza interattiva multimodale avanzata e prestazioni elevate. Proponiamo uno schema di addestramento multimodale efficace che inizia con il modello da 7B e procede attraverso due fasi di allineamento multimodale e raffinamento multitask attraverso le modalità audio, immagine, video e testo. Questo approccio dota il modello linguistico della capacità di gestire efficacemente i dati visivi e audio. Dimostrando prestazioni elevate su vari benchmark omni-modal e multimodali, miriamo a far sì che questo contributo funga da base competitiva per la comunità open-source nell'avanzare la comprensione multimodale e l'interazione in tempo reale.
I modelli di diffusione, come la Diffusione Stabile, hanno compiuto progressi significativi nella generazione visuale, tuttavia il loro paradigma rimane fondamentalmente diverso dai modelli linguistici autoregressivi, complicando lo sviluppo di modelli unificati di lingua e visione. Gli sforzi recenti come LlamaGen hanno tentato la generazione di immagini autoregressive utilizzando token discreti VQVAE, ma il grande numero di token coinvolti rende questo approccio inefficiente e lento. In questo lavoro, presentiamo Meissonic, che porta la modellazione di immagini mascherate non autoregressive (MIM) testo-immagine a un livello paragonabile ai modelli di diffusione all'avanguardia come SDXL. Integrando una vasta gamma di innovazioni architetturali, strategie avanzate di codifica posizionale e condizioni di campionamento ottimizzate, Meissonic migliora notevolmente le prestazioni e l'efficienza di MIM. Inoltre, sfruttiamo dati di addestramento di alta qualità, integriamo micro-condizioni informate dai punteggi di preferenza umana e utilizziamo strati di compressione delle caratteristiche per migliorare ulteriormente la fedeltà e la risoluzione delle immagini. Il nostro modello non solo eguaglia, ma spesso supera le prestazioni dei modelli esistenti come SDXL nella generazione di immagini di alta qualità e ad alta risoluzione. Esperimenti approfonditi convalidano le capacità di Meissonic, dimostrando il suo potenziale come nuovo standard nella sintesi testo-immagine. Rilasciamo un checkpoint del modello in grado di produrre immagini ad alta risoluzione di 1024 per 1024 pixel.
Il Generatore potenziato da recupero (RAG) rappresenta un mezzo fondamentale per potenziare efficacemente i grandi modelli linguistici (LLM) in molte attività basate sulla conoscenza. Tuttavia, i metodi RAG esistenti faticano con compiti di ragionamento intensivi di conoscenza, poiché le informazioni utili richieste per questi compiti sono scarsamente distribuite. Questa caratteristica rende difficile per i metodi RAG esistenti identificare con precisione le informazioni chiave e svolgere un ragionamento globale con tale potenziamento rumoroso. In questo articolo, motivati dalle teorie cognitive che gli esseri umani convertono le informazioni grezze in varie conoscenze strutturate quando affrontano compiti di ragionamento intensivi di conoscenza, proponiamo un nuovo framework, StructRAG, che può identificare il tipo di struttura ottimale per il compito in questione, ricostruire i documenti originali in questo formato strutturato e inferire risposte basate sulla struttura risultante. Estesi esperimenti su vari compiti intensivi di conoscenza mostrano che StructRAG raggiunge prestazioni all'avanguardia, eccellendo in particolare in scenari impegnativi, dimostrando il suo potenziale come soluzione efficace per potenziare i LLM in complesse applicazioni reali.
I grandi modelli di linguaggio per la visione (VLM) combinano grandi modelli di linguaggio con codificatori di visione, mostrando promesse in varie attività. Tuttavia, spesso hanno prestazioni inferiori nelle applicazioni specifiche del compito a causa delle differenze di dominio tra la preformazione e il raffinamento. Presentiamo VITask, un nuovo framework che migliora l'adattabilità specifica del compito dei VLM integrando modelli specifici del compito (TSM). VITask utilizza tre strategie chiave: sollecitazione di esempi (EP), allineamento della distribuzione delle risposte (RDA) e ottimizzazione della risposta contrastiva (CRT) per migliorare le prestazioni specifiche del compito dei VLM regolando le loro distribuzioni di risposta. EP consente alle caratteristiche di TSM di guidare i VLM, mentre RDA consente ai VLM di adattarsi senza TSM durante l'inferenza apprendendo dai modelli sollecitati da esempi. CRT ottimizza ulteriormente il posizionamento delle coppie immagine-risposta corrette, riducendo così il rischio di generare risposte indesiderate. Gli esperimenti su 12 set di dati diagnostici medici attraverso 9 modalità di imaging mostrano che VITask supera sia i VLM sintonizzati con istruzioni di base che i TSM, dimostrando la sua capacità di integrare in modo efficace le caratteristiche complementari di entrambi i modelli. Inoltre, VITask offre vantaggi pratici come l'integrazione flessibile di TSM e la robustezza alle istruzioni incomplete, rendendolo una soluzione versatile ed efficiente per il raffinamento specifico del compito dei VLM. Il nostro codice è disponibile su https://github.com/baiyang4/VITask.
La selezione efficiente dei dati è cruciale per accelerare la preformazione dei grandi modelli linguistici (LLM). Sebbene siano stati proposti vari metodi per migliorare l'efficienza dei dati, poche ricerche hanno affrontato i conflitti intrinseci tra questi approcci per ottenere una selezione ottimale dei dati per la preformazione dei LLM. Per affrontare questo problema, proponiamo un nuovo meccanismo di selezione dati collaborativo multi-agente. In questo quadro, ciascun metodo di selezione dati funge da agente indipendente, e una console degli agenti è progettata per integrare dinamicamente le informazioni di tutti gli agenti durante il processo di addestramento del LLM. Conduciamo ampie ricerche empiriche per valutare il nostro framework multi-agente. I risultati sperimentali dimostrano che il nostro approccio migliora significativamente l'efficienza dei dati, accelera la convergenza nell'addestramento del LLM e ottiene un guadagno medio delle prestazioni del 10,5% su diversi benchmark dei modelli linguistici rispetto ai metodi all'avanguardia.
Comprendere come le caratteristiche evolvono attraverso i livelli nelle reti neurali profonde è una sfida fondamentale nell'interpretabilità meccanicistica, particolarmente a causa della polisemanticità e della sovrapposizione delle caratteristiche. Mentre gli Autoencoder Sparsi (SAE) sono stati utilizzati per estrarre caratteristiche interpretabili dai singoli livelli, allineare queste caratteristiche tra i livelli è rimasto un problema aperto. In questo articolo, presentiamo SAE Match, un nuovo metodo privo di dati per allineare le caratteristiche SAE attraverso diversi livelli di una rete neurale. Il nostro approccio coinvolge il matching delle caratteristiche minimizzando l'errore quadratico medio tra i parametri piegati degli SAE, una tecnica che incorpora soglie di attivazione nei pesi dell'encoder e del decoder per tener conto delle differenze nelle scale delle caratteristiche. Attraverso estesi esperimenti sul modello linguistico Gemma 2, dimostriamo che il nostro metodo cattura efficacemente l'evoluzione delle caratteristiche tra i livelli, migliorando la qualità del matching delle caratteristiche. Mostriamo inoltre che le caratteristiche persistono per diversi livelli e che il nostro approccio può approssimare gli stati nascosti tra i livelli. Il nostro lavoro fa progredire la comprensione della dinamica delle caratteristiche nelle reti neurali e fornisce un nuovo strumento per gli studi di interpretabilità meccanicistica.
I recenti progressi nei modelli di generazione hanno mostrato notevoli capacità nel generare contenuti fantastici. Tuttavia, la maggior parte di essi è addestrata su dati proprietari di alta qualità, e alcuni modelli trattengono i loro parametri e forniscono solo interfacce di programmazione di applicazioni (API) accessibili, limitando i loro benefici per compiti successivi. Per esplorare la fattibilità di addestrare un modello di generazione testo-immagine comparabile ai modelli avanzati utilizzando risorse pubblicamente disponibili, presentiamo EvolveDirector. Questo framework interagisce con i modelli avanzati attraverso le loro API pubbliche per ottenere coppie di dati testo-immagine per addestrare un modello di base. I nostri esperimenti con un ampio set di dati indicano che il modello addestrato su dati generati dal modello avanzato può approssimare la sua capacità di generazione. Tuttavia, ciò richiede campioni su larga scala di 10 milioni o più. Ciò comporta significative spese in termini di tempo, risorse computazionali e soprattutto i costi associati alla chiamata di API a pagamento. Per affrontare questo problema, sfruttiamo modelli pre-addestrati di grandi dimensioni visione-linguaggio (VLM) per guidare l'evoluzione del modello di base. Il VLM valuta continuamente il modello di base durante l'addestramento e aggiorna e affina dinamicamente il set di dati di addestramento tramite operazioni di discriminazione, espansione, eliminazione e mutazione. I risultati sperimentali mostrano che questo paradigma riduce significativamente il volume di dati richiesto. Inoltre, avvicinandosi a più modelli avanzati, EvolveDirector può selezionare i migliori campioni generati da essi per apprendere abilità potenti ed equilibrate. Il modello addestrato finale Edgen dimostra di superare questi modelli avanzati. Il codice e i pesi del modello sono disponibili su https://github.com/showlab/EvolveDirector.
I modelli linguistici di grandi dimensioni (LLM) come GPT-4, PaLM e LLaMA hanno dimostrato significativi miglioramenti in varie attività di ragionamento. Tuttavia, modelli più piccoli come Llama-3-8B e DeepSeekMath-Base faticano ancora con il ragionamento matematico complesso poiché non riescono a identificare ed correggere efficacemente gli errori di ragionamento. Metodi recenti basati sulla riflessione mirano ad affrontare questi problemi abilitando l'auto-riflessione e l'auto-correzione, ma si trovano ancora ad affrontare sfide nel rilevare autonomamente gli errori nei loro passaggi di ragionamento. Per superare queste limitazioni, proponiamo SuperCorrect, un nuovo framework a due fasi che utilizza un grande modello insegnante per supervisionare e correggere sia i processi di ragionamento che di riflessione di un modello studente più piccolo. Nella prima fase, estraiamo modelli di pensiero gerarchici ad alto livello e dettagliati dal modello insegnante per guidare il modello studente nell'elicitare pensieri di ragionamento più dettagliati. Nella seconda fase, introduciamo l'ottimizzazione delle preferenze dirette collaborativa tra modelli (DPO) per potenziare le capacità di auto-correzione del modello studente seguendo le tracce di correzione dell'insegnante durante l'addestramento. Questo approccio DPO tra modelli insegna al modello studente a individuare ed risolvere efficacemente pensieri errati con intuizioni guidate dagli errori del modello insegnante, superando il collo di bottiglia dei suoi pensieri e acquisendo nuove competenze e conoscenze per affrontare problemi impegnativi. Estesi esperimenti dimostrano costantemente la nostra superiorità rispetto ai metodi precedenti. In particolare, il nostro modello SuperCorrect-7B supera significativamente il potente DeepSeekMath-7B del 7.8%/5.3% e Qwen2.5-Math-7B del 15.1%/6.3% sui benchmark MATH/GSM8K, raggiungendo nuove prestazioni SOTA tra tutti i modelli 7B. Codice: https://github.com/YangLing0818/SuperCorrect-llm
I Large Language Models (LLM) dimostrano capacità impressionanti in vari ambiti, tra cui giochi di ruolo, scrittura creativa, ragionamento matematico e codifica. Nonostante questi progressi, gli LLM affrontano ancora sfide con il controllo della lunghezza, spesso non riuscendo a rispettare vincoli specifici di lunghezza a causa delle loro operazioni a livello di token e della formazione insufficiente su dati con limitazioni rigorose di lunghezza. Identifichiamo questo problema come derivante da una mancanza di consapevolezza posizionale e proponiamo approcci innovativi - Prompting con PositionID e Fine-Tuning con PositionID - per affrontarlo. Questi metodi migliorano la capacità del modello di monitorare e gestire continuamente la lunghezza del testo durante la generazione. Inoltre, introduciamo il Prompting con PositionID CP per consentire agli LLM di eseguire operazioni di copia e incolla con precisione. Inoltre, sviluppiamo due benchmark per valutare il controllo della lunghezza e le capacità di copia e incolla. I nostri esperimenti dimostrano che i nostri metodi migliorano significativamente il rispetto dei vincoli di lunghezza del modello e l'accuratezza della copia e incolla senza compromettere la qualità delle risposte.
La generazione di asset 3D di alta qualità da descrizioni testuali rimane una sfida cruciale nella ricerca di grafica e visione al calcolatore. A causa della scarsità di dati 3D, gli approcci all'avanguardia utilizzano priori di diffusione 2D pre-addestrati, ottimizzati attraverso il campionamento di distillazione di punteggio (SDS). Nonostante i progressi, la creazione di scene 3D complesse con molteplici oggetti o interazioni intricate rimane difficile. Per affrontare questo problema, i metodi recenti hanno incorporato orientamenti a forma di scatola o layout. Tuttavia, questi metodi compositivi guidati dal layout spesso faticano nel fornire un controllo dettagliato, poiché sono generalmente grossolani e carenti di espressività. Per superare queste sfide, introduciamo un nuovo approccio SDS, Campionamento di Distillazione di Punteggio Semantico (SemanticSDS), progettato per migliorare efficacemente l'espressività e l'accuratezza della generazione testo-3D compositiva. Il nostro approccio integra nuovi embedding semantici che mantengono coerenza tra diverse viste di rendering e differenziano chiaramente tra vari oggetti e parti. Questi embedding vengono trasformati in una mappa semantica, che guida un processo SDS specifico della regione, consentendo un'ottimizzazione precisa e una generazione compositiva. Sfruttando un orientamento semantico esplicito, il nostro metodo sblocca le capacità compositive dei modelli di diffusione pre-addestrati esistenti, ottenendo così una qualità superiore nella generazione di contenuti 3D, in particolare per oggetti e scene complessi. I risultati sperimentali dimostrano che il nostro framework SemanticSDS è altamente efficace per generare contenuti 3D complessi all'avanguardia. Codice: https://github.com/YangLing0818/SemanticSDS-3D
L'inferenza con modelli linguistici basati su trasformatori inizia con una fase di elaborazione del prompt. In questa fase, il modello genera il primo token di output e memorizza la cache KV necessaria per i passaggi di generazione futuri. Questa fase di elaborazione del prompt può essere computazionalmente costosa, richiedendo 10 secondi o più per modelli da miliardi di parametri su dispositivi edge quando le lunghezze dei prompt o le dimensioni dei batch aumentano. Ciò degrada l'esperienza dell'utente introducendo una latenza significativa nei risultati del modello. Per ridurre il tempo impiegato per produrre il primo output (noto come "tempo per il primo token", o TTFT) di un modello preaddestrato, introduciamo un nuovo metodo chiamato Predizione KV. Nel nostro metodo, un piccolo modello ausiliario viene utilizzato per elaborare il prompt e produrre un'approssimazione della cache KV utilizzata da un modello di base. Questa cache KV approssimata viene quindi utilizzata con il modello di base per la generazione autoregressiva senza la necessità di interrogare nuovamente il modello ausiliario. Dimostriamo che il nostro metodo produce un compromesso efficienza-accuratezza pareto-ottimale rispetto alle baselines. Su TriviaQA, mostriamo miglioramenti di accuratezza relativi nell'intervallo del 15%-50% su una serie di budget TTFT FLOPs. Dimostriamo anche miglioramenti di accuratezza fino al 30% nel completamento del codice Python HumanEval a budget fissi di TTFT FLOPs. Inoltre, valutiamo i modelli su una CPU Apple M2 Pro e dimostriamo che il nostro miglioramento nei FLOPs si traduce in un'accelerazione del TTFT sull'hardware. Rilasciamo il nostro codice su https://github.com/apple/corenet/tree/main/projects/kv-prediction.
La diffusione discreta ha raggiunto prestazioni all'avanguardia, superando o avvicinandosi ai modelli autoregressivi su benchmark standard. In questo lavoro, presentiamo la Diffusione Discreta con Denoising Pianificato (DDPD), un nuovo framework che separa il processo di generazione in due modelli: un pianificatore e un denoiser. Durante l'inferenza, il pianificatore seleziona quali posizioni denoizzare successivamente identificando le posizioni più corrotte che necessitano di denoising, includendo sia quelle corrotte inizialmente sia quelle che richiedono ulteriore raffinamento. Questo approccio di pianificazione e denoising consente una ricostruzione più efficiente durante la generazione identificando e denoising iterativamente le corruzioni nell'ordine ottimale. DDPD supera i tradizionali metodi di diffusione con maschera basati solo sul denoiser, ottenendo risultati superiori su benchmark di modellazione del linguaggio come text8, OpenWebText e generazione basata su token su ImageNet 256 per 256. In particolare, nella modellazione del linguaggio, DDPD riduce significativamente il divario di prestazioni tra i metodi basati sulla diffusione e quelli autoregressivi in termini di perplessità generativa. Il codice è disponibile su https://github.com/liusulin/DDPD.
Presentiamo ZeroComp, un efficace approccio di compositing di oggetti 3D senza utilizzo di immagini di scene composte accoppiate durante l'addestramento. Il nostro metodo sfrutta ControlNet per condizionare dalle immagini intrinseche e le combina con un modello di diffusione stabile per utilizzare i suoi priori di scena, operando insieme come un motore di rendering efficace. Durante l'addestramento, ZeroComp utilizza immagini intrinseche basate sulla geometria, albedo e shading mascherato, tutto ciò senza la necessità di immagini accoppiate di scene con e senza oggetti composti. Una volta addestrato, integra senza soluzione di continuità oggetti virtuali 3D nelle scene, regolando il shading per creare compositi realistici. Abbiamo sviluppato un dataset di valutazione di alta qualità e dimostriamo che ZeroComp supera i metodi che utilizzano stime di illuminazione esplicite e tecniche generative nei benchmark quantitativi e nella percezione umana. Inoltre, ZeroComp si estende al compositing di immagini reali e all'aperto, anche quando addestrato esclusivamente su dati sintetici indoor, evidenziando la sua efficacia nel compositing di immagini.
I Trasformatori di Flusso Raddrizzati (RFT) offrono un'efficienza superiore nella formazione e nell'inferenza, rendendoli probabilmente la direzione più valida per scalare i modelli di diffusione. Tuttavia, il progresso nella risoluzione di generazione è stato relativamente lento a causa della qualità dei dati e dei costi di formazione. L'estrapolazione della risoluzione senza sintonizzazione presenta un'alternativa, ma i metodi attuali spesso riducono la stabilità generativa, limitando l'applicazione pratica. In questo articolo, esaminiamo i metodi esistenti di estrapolazione della risoluzione e presentiamo il framework I-Max per massimizzare il potenziale di risoluzione dei Trasformatori di Flusso Testo-Immagine. I-Max presenta: (i) una nuova strategia di Flusso Proiettato per un'estrapolazione stabile e (ii) un toolkit avanzato di inferenza per generalizzare la conoscenza del modello a risoluzioni più elevate. Gli esperimenti con Lumina-Next-2K e Flux.1-dev dimostrano la capacità di I-Max di migliorare la stabilità nell'estrapolazione della risoluzione e mostrano che può portare all'emergere dei dettagli delle immagini e alla correzione degli artefatti, confermando il valore pratico dell'estrapolazione della risoluzione senza sintonizzazione.
Introduciamo DA-Code, un benchmark di generazione di codice progettato specificamente per valutare LLM su compiti di scienza dei dati basati su agenti. Questo benchmark presenta tre elementi principali: in primo luogo, i compiti all'interno di DA-Code sono intrinsecamente sfidanti, differenziandoli dai tradizionali compiti di generazione di codice e richiedendo competenze avanzate di codifica nella fondazione e nella pianificazione. In secondo lu luogo, gli esempi in DA-Code si basano tutti su dati reali e diversificati, coprendo una vasta gamma di compiti complessi di manipolazione e analisi dei dati. In terzo luogo, per risolvere i compiti, i modelli devono utilizzare linguaggi di programmazione complessi per la scienza dei dati, per eseguire elaborazioni di dati intricate e ottenere le risposte. Abbiamo istituito il benchmark in un ambiente controllabile ed eseguibile che si allinea con scenari di analisi dei dati del mondo reale ed è scalabile. Gli annotatori progettano meticolosamente il set di valutazione per garantire l'accuratezza e la robustezza della valutazione. Sviluppiamo il baselines DA-Agent. Gli esperimenti mostrano che, sebbene il baselines si comporti meglio rispetto ad altri framework esistenti, utilizzando i migliori LLM attuali si raggiunge solo il 30,5% di accuratezza, lasciando ampio spazio per miglioramenti. Rilasciamo il nostro benchmark su https://da-code-bench.github.io.
La proliferazione di contenuti "fake" inflazionistici o fuorvianti è diventata sempre più comune negli ultimi anni. Allo stesso tempo, è diventato più facile che mai utilizzare strumenti di intelligenza artificiale per generare immagini fotorealistiche raffiguranti qualsiasi scena immaginabile. Combinare questi due aspetti - i contenuti di fake news generati dall'IA - risulta particolarmente potente e pericoloso. Per contrastare la diffusione di fake news generate dall'IA, proponiamo il MiRAGeNews Dataset, un dataset di 12.500 coppie immagine-didascalia reali e generate dall'IA di alta qualità provenienti da generatori all'avanguardia. Abbiamo constatato che il nostro dataset rappresenta una sfida significativa per gli esseri umani (60% F-1) e per i LLM multi-modalità all'avanguardia (<24% F-1). Utilizzando il nostro dataset, addestriamo un rilevatore multi-modalità (MiRAGe) che migliora di +5,1% F-1 rispetto ai baselines all'avanguardia sulle coppie immagine-didascalia provenienti da generatori di immagini e editori di notizie fuori dominio. Rilasciamo il nostro codice e i dati per aiutare il lavoro futuro sulla rilevazione di contenuti generati dall'IA.
Generare risposte diverse da grandi modelli di linguaggio (LLM) è cruciale per applicazioni come la pianificazione/ricerca e la generazione di dati sintetici, dove la diversità fornisce risposte distinte tra le generazioni. Approcci precedenti si basano sull'aumento della temperatura per aumentare la diversità. Tuttavia, contrariamente alla credenza popolare, dimostriamo che non solo questo approccio produce generazioni individuali di qualità inferiore all'aumentare della temperatura, ma dipende dalle probabilità del token successivo del modello che devono essere simili alla vera distribuzione delle risposte. Proponiamo un approccio alternativo che utilizza il modello di linguaggio stesso per suddividere lo spazio in strati. Durante l'inferenza, viene selezionato casualmente uno strato e viene estratto un campione all'interno dello strato. Per misurare la diversità, introduciamo CoverageQA, un dataset di domande sottospecificate con risposte multiple ugualmente plausibili, e valutiamo la diversità misurando la Divergenza KL tra la distribuzione di output e la distribuzione uniforme sulle risposte valide effettive. Poiché calcolare la probabilità per risposta/soluzione per modelli proprietari è impraticabile, misuriamo il recall sulle soluzioni effettive. La nostra valutazione mostra che utilizzando SimpleStrat si ottiene un recall più alto del 0.05 rispetto a GPT-4o e una riduzione media del 0.36 nella Divergenza KL rispetto a Llama 3.
I Large Language Models (LLM) hanno mostrato prestazioni notevoli in varie attività complesse sfruttando la tecnica di Chain-of-Thought (CoT) prompting. Recentemente, studi hanno proposto un approccio di Knowledge Distillation (KD), denominato distillazione del ragionamento, che trasferisce tale capacità di ragionamento dei LLM attraverso il raffinamento dei modelli linguistici di multi-step rationale generati dai LLM insegnanti. Tuttavia, non hanno considerato in modo adeguato due sfide relative alla scarsità di set di distillazione del modello insegnante LLM, in termini di 1) qualità dei dati e 2) fornitura di etichette soft. In questo articolo, proponiamo Mentor-KD, che distilla efficacemente la capacità di ragionamento a multi-step dei LLM in modelli più piccoli affrontando le sfide sopra menzionate. In particolare, sfruttiamo un mentore, un modello di dimensioni intermedie raffinato specificamente per il compito, per arricchire ulteriori annotazioni CoT e fornire etichette soft per il modello studente durante la distillazione del ragionamento. Conduci...
I Large Language Models (LLM) mostrano capacità impressionanti ma richiedono un'allineamento accurato con le preferenze umane. I metodi tradizionali di addestramento finetunano i LLM utilizzando set di dati sulle preferenze umane, ma comportano costi di addestramento significativi e richiedono addestramenti ripetuti per gestire diverse preferenze degli utenti. I metodi di allineamento al momento del test affrontano questo problema utilizzando modelli di ricompensa (RMs) per guidare i LLM congelati senza riallenamento. Tuttavia, gli approcci esistenti al momento del test si basano su RMs a livello di traiettoria progettati per valutare risposte complete, rendendoli inadatti alla generazione di testo autoregressivo che richiede il calcolo delle ricompense del token successivo dalle risposte parziali. Per affrontare questo problema, presentiamo GenARM, un approccio di allineamento al momento del test che sfrutta il Modello di Ricompensa Autoregressivo - una nuova parametrizzazione della ricompensa progettata per prevedere le ricompense del token successivo per una generazione autoregressiva efficiente ed efficace. Teoricamente, dimostriamo che questa parametrizzazione può guidare in modo provabile i LLM congelati verso qualsiasi distribuzione ottenibile dai RMs tradizionali all'interno del framework di apprendimento per rinforzo regolarizzato KL. I risultati sperimentali mostrano che GenARM supera significativamente i baselines di allineamento al momento del test precedenti e si allinea alle prestazioni dei metodi di addestramento. Inoltre, GenARM consente un efficiente allineamento da debole a forte, allineando LLM più grandi con RMs più piccoli senza i costi elevati dell'addestramento di modelli più grandi. Inoltre, GenARM supporta l'allineamento multi-obiettivo, consentendo scambi in tempo reale tra le dimensioni delle preferenze e soddisfacendo le diverse preferenze degli utenti senza riallenamento.
La sintesi di immagini sonar è cruciale per far progredire le applicazioni nell'esplorazione subacquea, nella biologia marina e nella difesa. I metodi tradizionali spesso si basano su una raccolta dati estesa e costosa utilizzando sensori sonar, mettendo a rischio la qualità e la diversità dei dati. Per superare queste limitazioni, questo studio propone un nuovo framework di sintesi di immagini sonar, Synth-SONAR, sfruttando modelli di diffusione e GPT prompting. Le principali novità di Synth-SONAR sono tre: Primo, integrando tecniche di iniezione di stile basate su AI generative insieme a dati reali/simulati disponibili pubblicamente, producendo così uno dei più grandi corpi di dati sonar per la ricerca sonar. Secondo, una gerarchia di modelli di diffusione sonar a doppio condizionamento testuale sintetizza immagini sonar grossolane e dettagliate con qualità e diversità migliorate. Terzo, metodi di generazione sonar basati su testo a livello alto (grosso) e basso (dettagliato) sfruttano informazioni semantiche avanzate disponibili nei modelli di linguaggio visivo (VLMs) e GPT-prompting. Durante l'inferenza, il metodo genera immagini sonar diverse e realistiche da prompt testuali, colmando il divario tra descrizioni testuali e generazione di immagini sonar. Questo segna l'applicazione del GPT-prompting nell'immagine sonar per la prima volta, per quanto ne sappiamo. Synth-SONAR raggiunge risultati all'avanguardia nella produzione di set di dati sonar sintetici di alta qualità, migliorandone significativamente la diversità e il realismo.