Articoli di ricerca IA selezionati quotidianamente con traduzioni
La personalizzazione dei modelli text-to-image mira a introdurre un concetto fornito dall'utente nel modello, consentendone la sintesi in contesti diversificati. Tuttavia, i metodi attuali si concentrano principalmente sull'apprendimento di un singolo concetto da più immagini con variazioni di sfondi e pose, e faticano quando adattati a uno scenario diverso. In questo lavoro, introduciamo il compito di decomposizione testuale di una scena: data una singola immagine di una scena che può contenere diversi concetti, miriamo a estrarre un token testuale distinto per ciascun concetto, consentendo un controllo fine sulle scene generate. A tal fine, proponiamo di arricchire l'immagine di input con maschere che indicano la presenza dei concetti target. Queste maschere possono essere fornite dall'utente o generate automaticamente da un modello di segmentazione pre-addestrato. Presentiamo quindi un innovativo processo di personalizzazione in due fasi che ottimizza un insieme di embedding testuali dedicati (handle), nonché i pesi del modello, trovando un delicato equilibrio tra l'acquisizione accurata dei concetti e l'evitare l'overfitting. Utilizziamo una perdita di diffusione mascherata per consentire agli handle di generare i concetti assegnati, integrata da una nuova perdita sulle mappe di cross-attention per prevenire l'intreccio. Introduciamo inoltre l'union-sampling, una strategia di addestramento mirata a migliorare la capacità di combinare più concetti nelle immagini generate. Utilizziamo diverse metriche automatiche per confrontare quantitativamente il nostro metodo con diverse baseline e confermiamo ulteriormente i risultati attraverso uno studio con utenti. Infine, mostriamo diverse applicazioni del nostro metodo. La pagina del progetto è disponibile all'indirizzo: https://omriavrahami.com/break-a-scene/
In questo articolo presentiamo ControlVideo, un metodo innovativo per l'editing video guidato da testo. Sfruttando le capacità dei modelli di diffusione testo-immagine e di ControlNet, ControlVideo mira a migliorare la fedeltà e la coerenza temporale dei video che si allineano a un determinato testo, preservando al contempo la struttura del video sorgente. Questo risultato è ottenuto incorporando condizioni aggiuntive come mappe di contorno, ottimizzando l'attenzione sui fotogrammi chiave e temporale sulla coppia video-testo sorgente con strategie accuratamente progettate. Viene condotta un'analisi approfondita del design di ControlVideo per informare la ricerca futura sull'ottimizzazione one-shot dei modelli di diffusione video. Quantitativamente, ControlVideo supera una gamma di baseline competitive in termini di fedeltà e coerenza, mantenendo l'allineamento con il prompt testuale. Inoltre, produce video con un elevato realismo visivo e fedeltà rispetto al contenuto sorgente, dimostrando flessibilità nell'utilizzo di controlli che contengono diversi livelli di informazione del video sorgente e il potenziale per combinazioni multiple di controlli. La pagina del progetto è disponibile all'indirizzo https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
L'architettura Transformer ha dimostrato prestazioni impressionanti in molteplici ambiti di ricerca ed è diventata il fulcro di numerosi modelli di reti neurali. Tuttavia, la comprensione del suo funzionamento è ancora limitata. In particolare, con una semplice funzione di perdita predittiva, rimane un mistero come la rappresentazione emerga dalle dinamiche di addestramento basate sui gradienti. In questo articolo, per un Transformer a un solo strato composto da un livello di self-attention e un livello di decodifica, analizziamo in modo matematicamente rigoroso le dinamiche di addestramento con SGD per il compito di predizione del token successivo. Apriamo la scatola nera del processo dinamico attraverso il quale il livello di self-attention combina i token di input e riveliamo la natura del bias induttivo sottostante. Più specificamente, assumendo (a) nessun encoding posizionale, (b) sequenze di input lunghe e (c) che il livello di decodifica apprenda più velocemente del livello di self-attention, dimostriamo che la self-attention agisce come un algoritmo di scansione discriminativo: partendo da un'attenzione uniforme, gradualmente si concentra maggiormente su token chiave distinti per un specifico token successivo da predire, e presta meno attenzione ai token chiave comuni che compaiono in diversi token successivi. Tra i token distinti, riduce progressivamente i pesi di attenzione, seguendo l'ordine dalla bassa alla alta co-occorrenza tra il token chiave e il token di query nel set di addestramento. Interessante è che questo procedimento non porta a una situazione di "winner-takes-all", ma rallenta a causa di una transizione di fase che è controllabile dai tassi di apprendimento dei due livelli, lasciando (quasi) fissa la combinazione di token. Verifichiamo questa dinamica di \emph{scansione e fissaggio} su dati sintetici e reali (WikiText).
Sia la "società della mente" di Minsky che il "learning to think" di Schmidhuber ispirano società diversificate di grandi reti neurali multimodali (NN) che risolvono problemi interrogandosi reciprocamente in una "tempesta mentale". Le recenti implementazioni di società della mente basate su NN consistono in grandi modelli linguistici (LLM) e altri esperti basati su NN che comunicano attraverso un'interfaccia in linguaggio naturale. In questo modo, superano i limiti dei singoli LLM, migliorando il ragionamento multimodale zero-shot. In queste società della mente basate sul linguaggio naturale (NLSOM), nuovi agenti — tutti comunicanti attraverso lo stesso linguaggio simbolico universale — possono essere aggiunti facilmente in modo modulare. Per dimostrare la potenza delle NLSOM, ne assembliamo e sperimentiamo diverse (con fino a 129 membri), sfruttando le tempeste mentali al loro interno per risolvere alcuni compiti pratici di intelligenza artificiale: risposta a domande visive, descrizione di immagini, sintesi di testo in immagini, generazione 3D, recupero egocentrico, AI incarnata e risoluzione generale di compiti basati sul linguaggio. Consideriamo questo come un punto di partenza verso NLSOM molto più grandi con miliardi di agenti — alcuni dei quali potrebbero essere umani. E con l'emergere di grandi società di menti eterogenee, molte nuove domande di ricerca sono improvvisamente diventate fondamentali per il futuro dell'intelligenza artificiale. Quale dovrebbe essere la struttura sociale di una NLSOM? Quali sarebbero i vantaggi (e gli svantaggi) di avere una struttura monarchica piuttosto che democratica? Come possono i principi delle economie delle NN essere utilizzati per massimizzare la ricompensa totale di una NLSOM basata sull'apprendimento per rinforzo? In questo lavoro, identifichiamo, discutiamo e cerchiamo di rispondere ad alcune di queste domande.
Gli agenti decisionali basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la capacità di generalizzare su più compiti. Tuttavia, le loro prestazioni dipendono da enormi quantità di dati e risorse computazionali. Sosteniamo che questa inefficienza derivi dal fenomeno dell'oblio, in cui un modello memorizza i suoi comportamenti nei parametri durante l'addestramento. Di conseguenza, l'addestramento su un nuovo compito può deteriorare le prestazioni del modello su compiti precedenti. A differenza del meccanismo di memoria implicita degli LLM, il cervello umano utilizza una memoria distribuita, che aiuta a gestire e organizzare più abilità in modo efficiente, mitigando il fenomeno dell'oblio. Ispirati da ciò, proponiamo un modulo di memoria di lavoro interna per memorizzare, combinare e recuperare informazioni per diversi compiti downstream. I risultati di valutazione mostrano che il metodo proposto migliora l'efficienza dell'addestramento e la generalizzazione sia nei giochi Atari che nei compiti di manipolazione di oggetti nel meta-mondo. Inoltre, dimostriamo che il fine-tuning della memoria migliora ulteriormente l'adattabilità dell'architettura proposta.
L'apprendimento dal feedback umano si è dimostrato efficace nel migliorare i modelli di generazione di immagini da testo. Queste tecniche iniziano apprendendo una funzione di ricompensa che cattura ciò che gli esseri umani considerano importante nel compito, per poi migliorare i modelli basandosi su tale funzione. Nonostante siano stati esplorati approcci relativamente semplici (ad esempio, il campionamento per rifiuto basato sui punteggi di ricompensa), il fine-tuning dei modelli di generazione di immagini da testo utilizzando la funzione di ricompensa rimane una sfida. In questo lavoro, proponiamo l'uso del reinforcement learning (RL) online per effettuare il fine-tuning di questi modelli. Ci concentriamo sui modelli di diffusione, definendo il compito di fine-tuning come un problema di RL e aggiornando i modelli pre-addestrati di generazione di immagini da testo utilizzando il gradiente della politica per massimizzare la ricompensa appresa dal feedback. Il nostro approccio, denominato DPOK, integra l'ottimizzazione della politica con la regolarizzazione KL. Effettuiamo un'analisi della regolarizzazione KL sia per il fine-tuning RL che per il fine-tuning supervisionato. Nei nostri esperimenti, dimostriamo che DPOK è generalmente superiore al fine-tuning supervisionato sia per quanto riguarda l'allineamento immagine-testo che la qualità dell'immagine.
Man mano che gli agenti di dialogo diventano sempre più simili agli esseri umani nelle loro prestazioni, è imperativo sviluppare metodi efficaci per descrivere il loro comportamento in termini di alto livello senza cadere nella trappola dell'antropomorfismo. In questo articolo, mettiamo in primo piano il concetto di role-play. Inquadrare il comportamento degli agenti di dialogo in termini di role-play ci permette di attingere a familiari termini della psicologia popolare, senza attribuire caratteristiche umane ai modelli linguistici che in realtà non possiedono. Due importanti casi di comportamento degli agenti di dialogo vengono affrontati in questo modo, ovvero la (apparente) inganno e la (apparente) autoconsapevolezza.
Presentiamo PandaGPT, un approccio per potenziare i grandi modelli linguistici con capacità di seguire istruzioni visive e uditive. I nostri esperimenti pilota dimostrano che PandaGPT è in grado di eseguire compiti complessi come la generazione di descrizioni dettagliate di immagini, la scrittura di storie ispirate da video e la risposta a domande su contenuti audio. Ancora più interessante, PandaGPT può ricevere input multimodali simultaneamente e comporre le loro semantiche in modo naturale. Ad esempio, PandaGPT può collegare l'aspetto degli oggetti in un'immagine/video con il loro suono in un audio. Per fare ciò, PandaGPT combina gli encoder multimodali di ImageBind e i grandi modelli linguistici di Vicuna. È importante notare che per l'addestramento di PandaGPT sono necessarie solo coppie immagine-testo allineate. Grazie alla forte capacità di ImageBind di incorporare dati da diverse modalità nello stesso spazio, PandaGPT mostra comportamenti emergenti, cioè zero-shot, cross-modali per dati diversi da immagini e testo (ad esempio, video, audio, profondità, termico e IMU). Speriamo che PandaGPT rappresenti un primo passo verso la costruzione di un'AGI in grado di percepire e comprendere input in diverse modalità in modo olistico, come facciamo noi esseri umani. La pagina del nostro progetto è disponibile all'indirizzo https://panda-gpt.github.io/.
Ricerche recenti dimostrano il potenziale di migliorare la capacità di risoluzione dei problemi dei grandi modelli linguistici (LLM) attraverso l'uso di strumenti esterni. Tuttavia, i lavori precedenti in questo ambito dipendono dalla disponibilità di strumenti esistenti. In questo lavoro, compiamo un primo passo verso l'eliminazione di questa dipendenza proponendo un framework a ciclo chiuso, denominato LLMs As Tool Makers (LATM), in cui gli LLM creano i propri strumenti riutilizzabili per la risoluzione dei problemi. Il nostro approccio si compone di due fasi chiave: 1) creazione degli strumenti: un LLM agisce come creatore di strumenti che progetta strumenti per compiti specifici, dove uno strumento è implementato come una funzione di utilità in Python. 2) utilizzo degli strumenti: un LLM agisce come utilizzatore di strumenti, applicando lo strumento costruito dal creatore per risolvere i problemi. L'utilizzatore di strumenti può essere lo stesso LLM o un LLM diverso rispetto al creatore. La creazione di strumenti consente a un LLM di generare continuamente strumenti che possono essere applicati a diverse richieste, in modo che le richieste future possano chiamare le API corrispondenti quando ciò è vantaggioso per la risoluzione dei compiti. Inoltre, la divisione del lavoro tra LLM per le fasi di creazione e utilizzo degli strumenti introduce l'opportunità di ottenere un rapporto costo-efficacia senza compromettere la qualità degli strumenti generati e delle soluzioni ai problemi. Ad esempio, riconoscendo che la creazione di strumenti richiede capacità più sofisticate rispetto al loro utilizzo, possiamo applicare un modello potente ma ad alto consumo di risorse come creatore di strumenti, e un modello leggero e conveniente come utilizzatore. Validiamo l'efficacia del nostro approccio su una varietà di compiti di ragionamento complesso, inclusi i task di Big-Bench. Con GPT-4 come creatore di strumenti e GPT-3.5 come utilizzatore, LATM può ottenere prestazioni paragonabili all'uso di GPT-4 sia per la creazione che per l'utilizzo degli strumenti, mentre il costo di inferenza è significativamente ridotto.
L'allineamento sociale nei sistemi di IA mira a garantire che questi modelli si comportino in conformità con i valori sociali stabiliti. Tuttavia, a differenza degli esseri umani, che raggiungono un consenso sui giudizi di valore attraverso l'interazione sociale, gli attuali modelli linguistici (LM) sono addestrati a replicare rigidamente il loro corpus di addestramento in isolamento, portando a una generalizzazione insufficiente in scenari non familiari e a una vulnerabilità agli attacchi avversari. Questo lavoro presenta un nuovo paradigma di addestramento che consente ai LM di apprendere da interazioni sociali simulate. Rispetto alle metodologie esistenti, il nostro approccio è considerevolmente più scalabile ed efficiente, dimostrando prestazioni superiori nei benchmark di allineamento e nelle valutazioni umane. Questo cambiamento di paradigma nell'addestramento dei LM ci avvicina un passo ulteriore allo sviluppo di sistemi di IA che possano riflettere in modo robusto e accurato le norme e i valori sociali.
Introduciamo Three Towers (3T), un metodo flessibile per migliorare l'apprendimento contrastivo dei modelli visione-linguaggio incorporando classificatori di immagini pre-addestrati. Mentre i modelli contrastivi sono solitamente addestrati da zero, LiT (Zhai et al., 2022) ha recentemente dimostrato miglioramenti nelle prestazioni utilizzando embedding di classificatori pre-addestrati. Tuttavia, LiT sostituisce direttamente la torre delle immagini con gli embedding congelati, escludendo potenziali benefici derivanti dall'addestramento contrastivo della torre delle immagini. Con 3T, proponiamo una strategia più flessibile che consente alla torre delle immagini di beneficiare sia degli embedding pre-addestrati che dell'addestramento contrastivo. Per raggiungere questo obiettivo, introduciamo una terza torre che contiene gli embedding pre-addestrati congelati, e incoraggiamo l'allineamento tra questa terza torre e le principali torri immagine-testo. Empiricamente, 3T migliora costantemente rispetto a LiT e alla baseline CLIP-style addestrata da zero per i task di retrieval. Per la classificazione, 3T migliora in modo affidabile rispetto alla baseline addestrata da zero, e sebbene sia inferiore rispetto a LiT per i modelli pre-addestrati su JFT, supera LiT per i modelli pre-addestrati su ImageNet-21k e Places365.
I modelli linguistici autoregressivi vengono addestrati minimizzando l'entropia incrociata della distribuzione del modello Q rispetto alla distribuzione dei dati P - ovvero, minimizzando l'entropia incrociata diretta, che equivale alla stima di massima verosimiglianza (MLE). Abbiamo osservato che i modelli addestrati in questo modo possono "sovrageneralizzare", nel senso che producono testo non simile a quello umano. Inoltre, riteniamo che l'entropia incrociata inversa, cioè l'entropia incrociata di P rispetto a Q, rifletta meglio come un umano valuterebbe il testo generato da un modello. Pertanto, proponiamo un apprendimento con MixCE, un obiettivo che combina le entropie incrociate diretta e inversa. Valutiamo i modelli addestrati con questo obiettivo su contesti di dati sintetici (dove P è noto) e dati reali, e dimostriamo che i modelli risultanti producono testo generato migliore senza strategie di decodifica complesse. Il nostro codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/bloomberg/mixce-acl2023.
Gli embedding di token, una mappatura da simboli lessicali discreti a vettori continui, sono al cuore di qualsiasi modello linguistico (LM). Tuttavia, i significati dei simboli lessicali possono anche essere determinati e persino ridefiniti dal loro ruolo strutturale in un contesto lungo. In questo articolo, ci chiediamo: è possibile per un modello linguistico essere performante senza alcun embedding di token fisso? Un tale modello linguistico dovrebbe fare affidamento esclusivamente sulla co-occorrenza e sulla ripetizione dei token nel contesto piuttosto che sull'identità a priori di qualsiasi token. Per rispondere a questa domanda, studiamo modelli linguistici lessinvarianti che sono invarianti rispetto ai simboli lessicali e quindi non necessitano di embedding di token fissi nella pratica. In primo luogo, dimostriamo che possiamo costruire un LM lessinvariante per convergere al vero modello linguistico a una velocità uniforme che è polinomiale in termini della lunghezza del contesto, con un fattore costante che è sublineare rispetto alla dimensione del vocabolario. In secondo luogo, per costruire un LM lessinvariante, codifichiamo semplicemente i token utilizzando vettori gaussiani casuali, in modo che ogni token mappi alla stessa rappresentazione all'interno di ciascuna sequenza ma a rappresentazioni diverse tra le sequenze. Empiricamente, dimostriamo che può effettivamente raggiungere una perplessità paragonabile a quella di un modello linguistico standard, dato un contesto sufficientemente lungo. Esploriamo ulteriormente due proprietà dei modelli linguistici lessinvarianti: in primo luogo, dato un testo generato da un cifrario a sostituzione dell'inglese, implementa implicitamente la decifratura bayesiana in contesto e inferisce la mappatura ai token reali sottostanti con alta precisione. In secondo luogo, ha in media una precisione 4 volte migliore nei compiti di ragionamento sintetico in contesto. Infine, discutiamo la regolarizzazione dei modelli linguistici standard verso la lessinvarianza e le potenziali applicazioni pratiche.
I Large Language Model (LLM) stanno trasformando la società e si stanno diffondendo in applicazioni diversificate. Di conseguenza, gli LLM interagiranno frequentemente con noi e con altri agenti. È quindi di grande valore sociale comprendere come gli LLM si comportano in contesti sociali interattivi. Qui proponiamo di utilizzare la teoria dei giochi comportamentale per studiare il comportamento di cooperazione e coordinamento degli LLM. Per farlo, abbiamo fatto giocare diversi LLM (GPT-3, GPT-3.5 e GPT-4) in giochi ripetuti finitamente tra loro e con altre strategie simili a quelle umane. I nostri risultati mostrano che gli LLM generalmente performano bene in tali compiti e rivelano anche firme comportamentali persistenti. In un ampio set di giochi a due giocatori e due strategie, abbiamo scoperto che gli LLM sono particolarmente bravi nei giochi in cui valorizzare il proprio interesse personale è vantaggioso, come la famiglia del Dilemma del Prigioniero iterato. Tuttavia, si comportano in modo sub-ottimale nei giochi che richiedono coordinamento. Ci concentriamo quindi ulteriormente su due giochi di queste distinte famiglie. Nel classico Dilemma del Prigioniero iterato, abbiamo scoperto che GPT-4 agisce in modo particolarmente inflessibile, defezionando sempre dopo che un altro agente ha defezionato anche solo una volta. Nella Battaglia dei Sessi, abbiamo scoperto che GPT-4 non riesce a eguagliare il comportamento della semplice convenzione di alternare tra le opzioni. Verifichiamo che queste firme comportamentali sono stabili attraverso controlli di robustezza. Infine, mostriamo come il comportamento di GPT-4 possa essere modificato fornendo ulteriori informazioni sull'altro giocatore e chiedendogli di prevedere le azioni dell'altro giocatore prima di fare una scelta. Questi risultati arricchiscono la nostra comprensione del comportamento sociale degli LLM e aprono la strada a una teoria dei giochi comportamentale per le macchine.
I Transformer dimostrano impressionanti capacità di generalizzazione su compiti con una lunghezza di contesto fissa. Tuttavia, non riescono a generalizzare a sequenze di lunghezza arbitraria, anche per compiti apparentemente semplici come la duplicazione di una stringa. Inoltre, il semplice addestramento su sequenze più lunghe è inefficiente a causa della complessità computazionale quadratica del meccanismo di attenzione globale. In questo lavoro, dimostriamo che questo fallimento è legato al fatto che le codifiche posizionali risultano fuori distribuzione per sequenze più lunghe (anche per le codifiche relative) e introduciamo una nuova famiglia di codifiche posizionali in grado di superare questo problema. Nello specifico, il nostro schema di codifica posizionale randomizzata simula le posizioni di sequenze più lunghe e seleziona casualmente un sottoinsieme ordinato per adattarsi alla lunghezza della sequenza. La nostra valutazione empirica su larga scala di 6000 modelli su 15 compiti di ragionamento algoritmico mostra che il nostro metodo consente ai Transformer di generalizzare a sequenze di lunghezza non vista (aumentando l'accuratezza del test del 12,0% in media).
È comunemente ritenuto che i modelli linguistici (LM) più potenti si basino su una combinazione di scala massiccia, dati di istruzione e feedback umano per eseguire compiti specializzati — come la riassunzione e la parafrasi — senza supervisione. In questo articolo, proponiamo che i modelli linguistici possano imparare a riassumere e parafrasare frasi senza nessuno di questi tre fattori. Presentiamo Impossible Distillation, un framework che distilla un dataset specifico per un compito direttamente da un LM preesistente, anche quando è impossibile per il LM stesso risolvere il compito in modo affidabile. Addestrando un modello studente sul dataset generato e amplificando le sue capacità attraverso l'auto-distillazione, il nostro metodo produce un modello e un dataset di alta qualità a partire da un modello insegnante di bassa qualità, senza la necessità di scala o supervisione. Utilizzando Impossible Distillation, siamo in grado di distillare un modello di un ordine di grandezza più piccolo (con soli 770 milioni di parametri) che supera GPT-3 da 175 miliardi di parametri, sia in qualità che controllabilità, come confermato da valutazioni automatiche e umane. Inoltre, come utile sottoprodotto del nostro approccio, otteniamo DIMSUM+, un dataset di alta qualità con 3,4 milioni di riassunti e parafrasi di frasi. Le nostre analisi mostrano che questo dataset, essendo un corpus generato interamente da LM, è più diversificato e più efficace per la generalizzazione a domini non visti rispetto a tutti i dataset creati da esseri umani — incluso Gigaword con 4 milioni di campioni.
L'apprendimento in contesto, una capacità che consente a un modello di apprendere da esempi di input al volo senza necessitare di aggiornamenti dei pesi, è una caratteristica distintiva dei grandi modelli linguistici. In questo lavoro, seguiamo l'impostazione proposta in (Garg et al., 2022) per comprendere meglio la generalità e i limiti dell'apprendimento in contesto attraverso la lente del compito semplice ma fondamentale della regressione lineare. La domanda chiave che miriamo a affrontare è: i transformer sono più abili di alcune architetture naturali e più semplici nel realizzare l'apprendimento in contesto in presenza di variazioni nella distribuzione dei dati? Per confrontare i transformer, proponiamo di utilizzare un'architettura semplice basata su Multi-Layer Perceptron (MLP) basati su insiemi. Scopriamo che sia i transformer che gli MLP basati su insiemi mostrano apprendimento in contesto nelle valutazioni in-distribuzione, ma i transformer si avvicinano maggiormente alle prestazioni dei minimi quadrati ordinari (OLS). I transformer mostrano anche una migliore resilienza a lievi variazioni nella distribuzione, dove invece gli MLP basati su insiemi falliscono. Tuttavia, in presenza di gravi variazioni nella distribuzione, le capacità di apprendimento in contesto di entrambi i modelli diminuiscono.
I recenti progressi nella generazione di immagini da testo hanno permesso significativi avanzamenti nella generazione di forme 3D in modalità zero-shot. Ciò è ottenuto attraverso la distillazione del punteggio, una metodologia che utilizza modelli di diffusione pre-addestrati per la generazione di immagini da testo per ottimizzare i parametri di una rappresentazione neurale 3D, ad esempio il Neural Radiance Field (NeRF). Sebbene mostrino risultati promettenti, i metodi esistenti spesso non riescono a preservare la geometria di forme complesse, come i corpi umani. Per affrontare questa sfida, presentiamo ZeroAvatar, un metodo che introduce un esplicito modello 3D del corpo umano nel processo di ottimizzazione. Nello specifico, inizialmente stimiamo e affiniamo i parametri di un corpo umano parametrico partendo da una singola immagine. Durante l'ottimizzazione, utilizziamo il corpo parametrico posato come vincolo geometrico aggiuntivo per regolarizzare sia il modello di diffusione che il campo di densità sottostante. Infine, proponiamo un termine di regolarizzazione della texture guidata dalle coordinate UV per ulteriormente guidare il completamento della texture sulle parti del corpo non visibili. Dimostriamo che ZeroAvatar migliora significativamente la robustezza e la coerenza 3D della generazione di avatar 3D basata su ottimizzazione da immagini, superando i metodi esistenti di generazione 3D da immagini in modalità zero-shot.
I modelli linguistici di grandi dimensioni (LLM) come GPT-3 sono emersi come modelli linguistici generici in grado di affrontare numerosi compiti di generazione o comprensione del linguaggio naturale. Nel campo della traduzione automatica (MT), diversi lavori hanno esplorato meccanismi di prompting few-shot per ottenere traduzioni migliori da parte degli LLM. Tuttavia, c'è stata relativamente poca indagine su come tali traduzioni differiscano qualitativamente da quelle generate dai modelli standard di traduzione automatica neurale (NMT). In questo lavoro, analizziamo queste differenze in termini di letteralità delle traduzioni prodotte dai due sistemi. Utilizzando misure di letteralità che coinvolgono l'allineamento delle parole e la monotonicità, scopriamo che le traduzioni dall'inglese (E-X) generate dai GPT tendono a essere meno letterali, pur ottenendo punteggi simili o migliori nelle metriche di qualità della traduzione automatica. Dimostriamo che questo risultato è confermato anche nelle valutazioni umane. Successivamente, mostriamo che queste differenze sono particolarmente evidenti quando si traducono frasi che contengono espressioni idiomatiche.
Nella maggior parte delle ricerche attuali, i grandi modelli linguistici (LLM) sono in grado di svolgere compiti di ragionamento generando catene di pensiero attraverso la guida di prompt specifici. Tuttavia, esiste ancora un divario significativo tra la loro capacità di risolvere problemi di ragionamento complessi e quella degli esseri umani. Attualmente, la maggior parte degli approcci si concentra sulle catene di pensiero (COT) e sull'uso di strumenti, senza considerare l'adozione e l'applicazione di framework cognitivi umani. È ben noto che, di fronte a sfide di ragionamento complesse, gli esseri umani tipicamente impiegano varie abilità cognitive e necessitano di interagire con tutti gli aspetti degli strumenti, della conoscenza e delle informazioni dell'ambiente esterno per portare a termine compiti intricati. Questo articolo introduce un nuovo framework intelligente, denominato OlaGPT. OlaGPT ha studiato attentamente un framework di architettura cognitiva e propone di simulare alcuni aspetti della cognizione umana. Il framework prevede l'approssimazione di diversi moduli cognitivi, tra cui attenzione, memoria, ragionamento, apprendimento e i corrispondenti meccanismi di pianificazione e decisione. Ispirato dal meccanismo di apprendimento attivo degli esseri umani, propone un'unità di apprendimento per registrare errori precedenti e opinioni di esperti, e di farvi riferimento dinamicamente per rafforzare la capacità di risolvere problemi simili. L'articolo delinea inoltre framework di ragionamento efficaci comuni per la risoluzione di problemi umani e progetta modelli di Chain-of-Thought (COT) di conseguenza. Viene anche proposto un meccanismo decisionale completo per massimizzare l'accuratezza del modello. L'efficacia di OlaGPT è stata rigorosamente valutata su più dataset di ragionamento, e i risultati sperimentali rivelano che OlaGPT supera i benchmark più avanzati, dimostrando una performance superiore. La nostra implementazione di OlaGPT è disponibile su GitHub: https://github.com/oladata-team/OlaGPT.
Presentiamo Backpacks: una nuova architettura neurale che combina prestazioni di modellazione robuste con un'interfaccia per l'interpretabilità e il controllo. I Backpacks apprendono molteplici vettori di senso non contestuali per ogni parola di un vocabolario e rappresentano una parola in una sequenza come una combinazione lineare non negativa e dipendente dal contesto di questi vettori di senso. Osserviamo che, dopo l'addestramento, i vettori di senso si specializzano, ciascuno codificando un aspetto diverso di una parola. Possiamo interpretare un vettore di senso ispezionando la sua proiezione (non contestuale e lineare) sullo spazio di output e intervenire su questi "ganci" interpretabili per modificare il comportamento del modello in modi prevedibili. Addestriamo un modello linguistico Backpack da 170 milioni di parametri su OpenWebText, ottenendo una perdita paragonabile a quella di un Transformer GPT-2 small (124 milioni di parametri). Nelle valutazioni di similarità lessicale, i vettori di senso dei Backpacks superano persino gli embedding di parole di un Transformer LM da 6 miliardi di parametri. Infine, presentiamo semplici algoritmi che intervengono sui vettori di senso per eseguire generazione di testo controllabile e riduzione dei bias. Ad esempio, possiamo modificare il vocabolario di senso per orientarlo maggiormente verso un argomento o localizzare una fonte di bias di genere in un vettore di senso e sopprimere globalmente quel senso.