Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione da testo a 3D, che mira a sintetizzare oggetti 3D vividi a partire da prompt testuali, ha attirato molta attenzione dalla comunità di visione artificiale. Sebbene diversi lavori esistenti abbiano ottenuto risultati impressionanti in questo compito, si basano principalmente su un paradigma di ottimizzazione che richiede molto tempo. Nello specifico, questi metodi ottimizzano un campo neurale da zero per ogni prompt testuale, impiegando circa un'ora o più per generare un singolo oggetto. Questo costo di addestramento pesante e ripetitivo ne ostacola l'implementazione pratica. In questo articolo, proponiamo un nuovo framework per la generazione rapida da testo a 3D, denominato Instant3D. Una volta addestrato, Instant3D è in grado di creare un oggetto 3D per un prompt testuale non visto in meno di un secondo con una singola esecuzione di una rete feedforward. Raggiungiamo questa notevole velocità ideando una nuova rete che costruisce direttamente un triplano 3D da un prompt testuale. L'innovazione centrale del nostro Instant3D risiede nell'esplorazione di strategie per iniettare efficacemente le condizioni testuali nella rete. Inoltre, proponiamo una funzione di attivazione semplice ma efficace, la sigmoide scalata, per sostituire la funzione sigmoide originale, che accelera la convergenza dell'addestramento di oltre dieci volte. Infine, per affrontare il problema di Janus (multi-testa) nella generazione 3D, proponiamo un algoritmo Perp-Neg adattivo che può regolare dinamicamente le scale di negazione del concetto in base alla gravità del problema di Janus durante l'addestramento, riducendo efficacemente l'effetto multi-testa. Esperimenti estesi su una vasta gamma di dataset di benchmark dimostrano che l'algoritmo proposto si comporta favorevolmente rispetto ai metodi all'avanguardia sia qualitativamente che quantitativamente, raggiungendo al contempo un'efficienza significativamente migliore. La pagina del progetto è disponibile all'indirizzo https://ming1993li.github.io/Instant3DProj.
I recenti progressi nella generazione di oggetti 3D in mondi aperti sono stati notevoli, con i metodi da immagine a 3D che offrono un controllo fine-granulare superiore rispetto alle loro controparti da testo a 3D. Tuttavia, la maggior parte dei modelli esistenti non riesce a fornire simultaneamente velocità di generazione rapida e alta fedeltà alle immagini di input, due caratteristiche essenziali per applicazioni pratiche. In questo articolo, presentiamo One-2-3-45++, un metodo innovativo che trasforma una singola immagine in una mesh 3D dettagliata e texturizzata in circa un minuto. Il nostro approccio mira a sfruttare appieno la vasta conoscenza incorporata nei modelli di diffusione 2D e nei prior derivati da dati 3D preziosi ma limitati. Questo viene ottenuto inizialmente affinando un modello di diffusione 2D per la generazione coerente di immagini multi-vista, seguito dall'elevazione di queste immagini a 3D con l'aiuto di modelli di diffusione 3D nativi condizionati da multi-vista. Valutazioni sperimentali estensive dimostrano che il nostro metodo può produrre asset 3D di alta qualità e diversificati che rispecchiano fedelmente l'immagine di input originale. La pagina web del nostro progetto: https://sudo-ai-3d.github.io/One2345plus_page.
La fluidità e la creatività dei grandi modelli linguistici pre-addestrati (LLM) hanno portato al loro utilizzo diffuso, a volte persino come sostituti dei tradizionali motori di ricerca. Tuttavia, i modelli linguistici sono inclini a fare affermazioni convincenti ma fattualmente inesatte, spesso definite "allucinazioni". Questi errori possono diffondere involontariamente disinformazione o perpetuare dannosi equivoci. Inoltre, il controllo manuale dei fatti nelle risposte del modello è un processo che richiede tempo, rendendo costoso l'acquisizione di etichette di veridicità umane. In questo lavoro, ottimizziamo i modelli linguistici per essere più accurati, senza l'uso di etichette umane e puntando a contesti di generazione più aperti rispetto al passato. A tal fine, sfruttiamo due recenti innovazioni chiave nel campo dell'elaborazione del linguaggio naturale (NLP). In primo luogo, diversi lavori recenti hanno proposto metodi per valutare la veridicità di testi aperti misurando la coerenza con una base di conoscenza esterna o semplicemente i punteggi di confidenza di un grande modello. In secondo luogo, l'algoritmo di ottimizzazione diretta delle preferenze consente una semplice ottimizzazione dei modelli linguistici su obiettivi diversi dall'imitazione supervisionata, utilizzando una classifica delle preferenze sulle possibili risposte del modello. Dimostriamo che l'apprendimento da classifiche di preferenza di veridicità generate automaticamente, create tramite sistemi di recupero esistenti o il nostro nuovo approccio senza recupero, migliora significativamente la veridicità (percentuale di affermazioni generate corrette) di Llama-2 su argomenti non visti, rispetto a RLHF o strategie di decodifica mirate alla veridicità. Su scala 7B, rispetto a Llama-2-chat, osserviamo una riduzione del 58% e del 40% nel tasso di errori fattuali quando si generano biografie e si rispondono a domande mediche, rispettivamente.
In questo lavoro esaminiamo sistematicamente i recenti progressi nell'elaborazione del codice con modelli linguistici, coprendo oltre 50 modelli, più di 30 task di valutazione e 500 lavori correlati. Suddividiamo i modelli di elaborazione del codice in modelli linguistici generali rappresentati dalla famiglia GPT e modelli specializzati che sono specificamente preaddestrati sul codice, spesso con obiettivi personalizzati. Discutiamo le relazioni e le differenze tra questi modelli e evidenziamo la transizione storica della modellazione del codice dai modelli statistici e dalle RNN ai Transformer preaddestrati e ai LLM, un percorso esattamente parallelo a quello intrapreso dal NLP. Analizziamo inoltre caratteristiche specifiche del codice come AST, CFG e test unitari, insieme al loro utilizzo nell'addestramento di modelli linguistici per il codice, e identifichiamo le principali sfide e le potenziali direzioni future in questo ambito. Manteniamo il survey aperto e aggiornato sul repository GitHub all'indirizzo https://github.com/codefuse-ai/Awesome-Code-LLM.
Una delle capacità fondamentali dei Large Language Models (LLM) è quella di seguire istruzioni in linguaggio naturale. Tuttavia, la valutazione di tali abilità non è standardizzata: le valutazioni umane sono costose, lente e non riproducibili in modo oggettivo, mentre la valutazione automatica basata su LLM è potenzialmente distorta o limitata dalle capacità del LLM valutatore. Per superare questi problemi, introduciamo Instruction-Following Eval (IFEval) per i large language models. IFEval è un benchmark di valutazione semplice e facile da riprodurre. Si concentra su un insieme di "istruzioni verificabili" come "scrivi più di 400 parole" e "menziona la parola chiave AI almeno 3 volte". Abbiamo identificato 25 tipi di queste istruzioni verificabili e costruito circa 500 prompt, ciascuno dei quali contiene una o più istruzioni verificabili. Mostriamo i risultati della valutazione di due LLM ampiamente disponibili sul mercato. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/google-research/google-research/tree/master/instruction_following_eval.
Dimostriamo una situazione in cui i Modelli Linguistici di Grande Dimensione, addestrati per essere utili, innocui e onesti, possono mostrare comportamenti disallineati e ingannare strategicamente i propri utenti riguardo a tali comportamenti senza essere istruiti a farlo. Nello specifico, utilizziamo GPT-4 come agente in un ambiente simulato realistico, dove assume il ruolo di un agente autonomo di trading azionario. All'interno di questo ambiente, il modello riceve un'informazione privilegiata su un'operazione azionaria redditizia e agisce di conseguenza nonostante sappia che l'insider trading è disapprovato dalla direzione aziendale. Quando riferisce al proprio manager, il modello nasconde sistematicamente le vere ragioni alla base della sua decisione di trading. Effettuiamo una breve indagine su come questo comportamento varia in base a modifiche del contesto, come la rimozione dell'accesso del modello a un blocco appunti per il ragionamento, il tentativo di prevenire il comportamento disallineato modificando le istruzioni di sistema, la variazione della pressione a cui è sottoposto il modello, il cambiamento del rischio percepito di essere scoperti e altre semplici modifiche all'ambiente. A nostra conoscenza, questa è la prima dimostrazione di Modelli Linguistici di Grande Dimensione, addestrati per essere utili, innocui e onesti, che ingannano strategicamente i propri utenti in una situazione realistica senza istruzioni dirette o addestramento specifico per l'inganno.
In questo lavoro, proponiamo FastCoT, un framework agnostico rispetto al modello basato su decodifica parallela senza ulteriore addestramento di un modello ausiliario o modifiche al LLM stesso. FastCoT utilizza una finestra contestuale di dimensione variabile che cambia in base alla posizione per condurre simultaneamente decodifica parallela e decodifica auto-regressiva, sfruttando così appieno le risorse di calcolo della GPU. In FastCoT, la parte di decodifica parallela fornisce al LLM una rapida anteprima del futuro composta da token approssimativi, che potrebbe portare a risposte più veloci rispetto alla decodifica auto-regressiva regolare utilizzata dai trasformatori causali. Forniamo inoltre un'implementazione della decodifica parallela all'interno del LLM, che supporta la generazione della KV-cache e l'elaborazione in batch. Attraverso esperimenti estesi, dimostriamo che FastCoT riduce il tempo di inferenza di quasi il 20% con un calo di prestazioni trascurabile rispetto all'approccio tradizionale. Inoltre, mostriamo che la dimensione della finestra contestuale presenta una notevole robustezza per diversi compiti.
I modelli linguistici di grandi dimensioni (LLM) sono diventati un componente fondamentale in molte applicazioni di apprendimento automatico. Tuttavia, gli approcci standard per l'addestramento degli LLM richiedono un numero elevato di acceleratori strettamente interconnessi, con dispositivi che si scambiano gradienti e altri stati intermedi a ogni passo di ottimizzazione. Sebbene sia difficile costruire e mantenere un singolo cluster di calcolo che ospiti molti acceleratori, potrebbe essere più semplice trovare diversi cluster di calcolo, ciascuno con un numero inferiore di dispositivi. In questo lavoro, proponiamo un algoritmo di ottimizzazione distribuito, Distributed Low-Communication (DiLoCo), che consente l'addestramento di modelli linguistici su isole di dispositivi scarsamente connesse. L'approccio è una variante della media federata, in cui il numero di passi interni è elevato, l'ottimizzatore interno è AdamW e l'ottimizzatore esterno è il momento di Nesterov. Sul dataset ampiamente utilizzato C4, dimostriamo che DiLoCo su 8 worker performa altrettanto bene quanto l'ottimizzazione completamente sincrona, comunicando 500 volte in meno. DiLoCo mostra una grande robustezza rispetto alla distribuzione dei dati di ciascun worker. È inoltre robusto alla disponibilità di risorse che diminuisce nel tempo e, viceversa, può sfruttare senza interruzioni le risorse che diventano disponibili durante l'addestramento.
Negli ultimi anni, i Large Language Models (LLM) hanno dimostrato notevoli capacità generative, ma possono giudicare la qualità delle loro stesse generazioni? Un concetto popolare, noto come auto-affinamento, postula che gli LLM siano in grado di rilevare e correggere gli errori nelle loro generazioni quando viene loro richiesto. Tuttavia, recenti evidenze empiriche indicano la direzione opposta, suggerendo che gli LLM spesso faticano a identificare con precisione gli errori quando è coinvolto il ragionamento. Per affrontare questo problema, proponiamo un obiettivo di ragionamento con affinamento chiamato ART: Ask, Refine, and Trust (Chiedi, Affina e Fidati), che pone le domande necessarie per decidere quando un LLM dovrebbe affinare il proprio output, e conferma o ritiene la fiducia nel suo affinamento classificando sia l'affinamento che la previsione iniziale. Su due compiti di ragionamento a più passi relativi a problemi matematici (GSM8K) e risposte a domande (StrategyQA), ART ottiene un miglioramento delle prestazioni di +5 punti rispetto ai baseline di auto-affinamento, utilizzando un modello molto più piccolo come decisore. Dimostriamo inoltre il vantaggio di utilizzare modelli più piccoli per prendere decisioni di affinamento come alternativa economicamente vantaggiosa al fine-tuning di un modello più grande.
Recentemente, i modelli audio-linguistici che seguono istruzioni hanno ricevuto ampia attenzione per l'interazione audio con gli esseri umani. Tuttavia, l'assenza di modelli audio pre-addestrati in grado di gestire diversi tipi di audio e compiti ha ostacolato i progressi in questo campo. Di conseguenza, la maggior parte dei lavori esistenti è stata in grado di supportare solo un limitato range di capacità di interazione. In questo articolo, sviluppiamo il modello Qwen-Audio e affrontiamo questa limitazione ampliando il pre-addestramento audio-linguistico per coprire oltre 30 compiti e vari tipi di audio, come il parlato umano, suoni naturali, musica e canzoni, per facilitare capacità universali di comprensione audio. Tuttavia, l'addestramento congiunto diretto di tutti i compiti e dataset può portare a problemi di interferenza, poiché le etichette testuali associate a diversi dataset presentano variazioni considerevoli a causa di differenze nel focus del compito, nella lingua, nella granularità dell'annotazione e nella struttura del testo. Per superare l'interferenza uno-a-molti, progettiamo attentamente un framework di addestramento multi-task condizionando il decoder su una sequenza di tag gerarchici per incoraggiare la condivisione della conoscenza e evitare interferenze attraverso tag condivisi e specifici rispettivamente. Notevolmente, Qwen-Audio raggiunge prestazioni impressionanti in diversi compiti benchmark senza richiedere alcuna messa a punto specifica per il compito, superando i suoi omologhi. Basandoci sulle capacità di Qwen-Audio, sviluppiamo ulteriormente Qwen-Audio-Chat, che consente l'input da vari audio e input testuali, abilitando dialoghi multi-turn e supportando vari scenari centrati sull'audio.
Il red-teaming è una pratica comune per mitigare i comportamenti non sicuri nei Large Language Models (LLM), che consiste nel valutare accuratamente gli LLM per identificare potenziali difetti e affrontarli con risposte responsabili e accurate. Sebbene efficace, il red-teaming manuale è costoso, e il red-teaming automatico esistente tipicamente scopre rischi per la sicurezza senza affrontarli. In questo articolo, proponiamo un metodo di Multi-round Automatic Red-Teaming (MART), che incorpora sia la scrittura automatica di prompt avversari sia la generazione di risposte sicure, aumentando significativamente la scalabilità del red-teaming e la sicurezza dell'LLM target. Nello specifico, un LLM avversario e un LLM target interagiscono tra loro in modo iterativo, dove l'LLM avversario mira a generare prompt impegnativi che suscitano risposte non sicure dall'LLM target, mentre l'LLM target viene perfezionato con dati allineati alla sicurezza su questi prompt avversari. In ogni round, l'LLM avversario elabora attacchi migliori sull'LLM target aggiornato, mentre l'LLM target migliora anche se stesso attraverso il perfezionamento della sicurezza. Su benchmark di prompt avversari, il tasso di violazione di un LLM con un allineamento di sicurezza limitato si riduce fino all'84,7% dopo 4 round di MART, raggiungendo prestazioni comparabili a quelle di LLM con un'ampia scrittura di prompt avversari. È importante notare che l'utilità del modello su prompt non avversari rimane stabile durante le iterazioni, indicando che l'LLM target mantiene prestazioni solide nel seguire le istruzioni.