Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo phi-4, un modello linguistico di 14 miliardi di parametri sviluppato con una ricetta di addestramento centralmente focalizzata sulla qualità dei dati. A differenza della maggior parte dei modelli linguistici, dove la preformazione si basa principalmente su fonti di dati organici come contenuti web o codice, phi-4 incorpora strategicamente dati sintetici durante l'intero processo di addestramento. Mentre i modelli precedenti della famiglia Phi in gran parte distillano le capacità di un modello insegnante (specificamente GPT-4), phi-4 supera sostanzialmente il suo modello insegnante sulle capacità di domande e risposte focalizzate su STEM, fornendo prove che le nostre tecniche di generazione dei dati e di post-addestramento vanno oltre la distillazione. Nonostante minimi cambiamenti all'architettura di phi-3, phi-4 raggiunge elevate prestazioni relative alla sua dimensione - specialmente su benchmark focalizzati sul ragionamento - grazie al miglioramento dei dati, del curriculum di addestramento e alle innovazioni nello schema di post-addestramento.
La creazione di sistemi di intelligenza artificiale in grado di interagire con gli ambienti per lunghi periodi, simili alla cognizione umana, è un obiettivo di ricerca di lunga data. I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno compiuto significativi passi avanti nella comprensione del mondo aperto. Tuttavia, la sfida della percezione, memoria e ragionamento in streaming continuo e simultaneo rimane in gran parte inesplorata. Gli attuali MLLM sono vincolati dalla loro architettura sequenza-su-sequenza, che limita la loro capacità di elaborare input e generare risposte contemporaneamente, simile a non poter pensare mentre si percepisce. Inoltre, fare affidamento su contesti lunghi per memorizzare dati storici risulta impraticabile per interazioni a lungo termine, poiché mantenere tutte le informazioni diventa costoso ed inefficiente. Pertanto, anziché fare affidamento su un singolo modello di base per svolgere tutte le funzioni, questo progetto trae ispirazione dal concetto di Intelligenza Artificiale Generalista Specializzata e introduce meccanismi di percezione, ragionamento e memoria in streaming disaccoppiati, consentendo l'interazione in tempo reale con input video e audio in streaming. Il framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) è composto da tre moduli chiave: (1) Modulo di Percezione in Streaming: Elabora informazioni multimodali in tempo reale, memorizzando dettagli chiave in memoria e attivando il ragionamento in risposta alle richieste dell'utente. (2) Modulo di Memoria Lunga Multimodale: Integra memoria a breve e lungo termine, comprimendo le memorie a breve termine in quelle a lungo termine per un recupero efficiente e una maggiore precisione. (3) Modulo di Ragionamento: Risponde alle richieste ed esegue compiti di ragionamento, coordinandosi con i moduli di percezione e memoria. Questo progetto simula una cognizione simile a quella umana, consentendo ai modelli di linguaggio multimodali di grandi dimensioni di fornire un servizio continuo e adattivo nel tempo.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto rapidi progressi negli ultimi anni, ma continuano a lottare con la percezione visiva a basso livello (LLVP) - in particolare con la capacità di descrivere accuratamente i dettagli geometrici di un'immagine. Questa capacità è cruciale per applicazioni in settori come la robotica, l'analisi di immagini mediche e la produzione. In questo articolo, presentiamo per la prima volta Geoperception, un benchmark progettato per valutare la capacità di un MLLM di trascrivere con precisione informazioni geometriche 2D da un'immagine. Utilizzando questo benchmark, dimostriamo i limiti dei principali MLLM e conduciamo uno studio empirico completo per esplorare strategie per migliorare le loro prestazioni su compiti geometrici. Le nostre scoperte evidenziano i benefici di determinate architetture di modelli, tecniche di addestramento e strategie di dati, tra cui l'uso di dati sintetici ad alta fedeltà e l'addestramento multi-stadio con un curriculum di dati. In particolare, scopriamo che un curriculum di dati consente ai modelli di apprendere compiti di comprensione della geometria impegnativi che non riescono ad imparare da zero. Sfruttando queste intuizioni, sviluppiamo Euclide, una famiglia di modelli ottimizzati specificamente per una forte percezione geometrica a basso livello. Anche se addestrato esclusivamente su dati multimodali sintetici, Euclide mostra una forte capacità di generalizzazione a forme geometriche nuove. Ad esempio, Euclide supera il miglior modello closed-source, Gemini-1.5-Pro, fino al 58,56% su determinati compiti del benchmark Geoperception e del 10,65% in media su tutti i compiti.
Con l'evoluzione dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), è essenziale espandersi oltre le capacità in un singolo dominio per soddisfare le esigenze di un'intelligenza artificiale più versatile ed efficiente. Tuttavia, i precedenti modelli omni-modalità hanno esplorato in modo insufficiente il linguaggio parlato, trascurando la sua integrazione con la multimodalità. Presentiamo Lyra, un MLLM efficiente che potenzia le capacità multimodali, inclusa la comprensione avanzata del linguaggio parlato, la comprensione del suono, l'efficienza della cross-modalità e l'interazione vocale senza soluzione di continuità. Per raggiungere l'efficienza e le capacità incentrate sul linguaggio parlato, Lyra utilizza tre strategie: (1) sfruttando modelli di grandi dimensioni open-source esistenti e un nuovo LoRA multimodalità proposto per ridurre i costi di addestramento e i requisiti di dati; (2) utilizzando un regolarizzatore e un estrattore latenti multimodalità per rafforzare la relazione tra il linguaggio parlato e le altre modalità, migliorando così le prestazioni del modello; e (3) costruendo un dataset di alta qualità e ampio che include 1,5 milioni di campioni di dati multimodali (linguaggio, visione, audio) e 12.000 campioni di linguaggio parlato lungo, consentendo a Lyra di gestire input di linguaggio parlato lungo complessi e raggiungere una cognizione omni più robusta. Rispetto ad altri metodi omni, Lyra raggiunge prestazioni all'avanguardia su vari benchmark di visione-linguaggio, visione-linguaggio parlato e linguaggio parlato, utilizzando anche meno risorse computazionali e minori dati di addestramento.
I modelli generativi multimodali richiedono un approccio unificato per gestire sia dati discreti (ad esempio, testo e codice) che dati continui (ad esempio, immagini, audio, video). In questo lavoro, proponiamo il Modellamento del Linguaggio Latente (LatentLM), che integra in modo fluido dati continui e discreti utilizzando Trasformatori causali. In particolare, impieghiamo un autoencoder variazionale (VAE) per rappresentare i dati continui come vettori latenti e introduciamo la diffusione del token successivo per la generazione autoregressiva di questi vettori. Inoltre, sviluppiamo il sigma-VAE per affrontare le sfide del collasso della varianza, che è cruciale per la modellazione autoregressiva. Esperimenti estesi dimostrano l'efficacia di LatentLM attraverso varie modalità. Nella generazione di immagini, LatentLM supera i Trasformatori a Diffusione sia in termini di prestazioni che di scalabilità. Quando integrato nei grandi modelli di linguaggio multimodali, LatentLM fornisce un'interfaccia multiuso che unifica la generazione multimodale e la comprensione. I risultati sperimentali mostrano che LatentLM ottiene prestazioni favorevoli rispetto a Transfusion e modelli quantizzati a vettori nell'ambito dell'incremento dei token di addestramento. Nella sintesi testo-a-parola, LatentLM supera il modello VALL-E 2 all'avanguardia nella similarità e nella robustezza degli speaker, richiedendo al contempo 10 volte meno passaggi di decodifica. I risultati confermano LatentLM come un approccio altamente efficace e scalabile per far progredire i grandi modelli multimodali.
Gli agenti dell'Interfaccia Utente Grafica (GUI) hanno un grande potenziale per automatizzare compiti complessi in diversi ambienti digitali, dalle applicazioni web ai software desktop. Tuttavia, lo sviluppo di tali agenti è ostacolato dalla mancanza di dati di traiettoria multi-step di alta qualità necessari per un addestramento efficace. Gli approcci esistenti si basano su annotazioni umane costose e laboriose, rendendoli non sostenibili su larga scala. Per affrontare questa sfida, proponiamo AgentTrek, un sistema di sintesi dati scalabile che genera traiettorie di agenti GUI di alta qualità sfruttando tutorial web. Il nostro metodo raccoglie automaticamente testi simili a tutorial da internet, li trasforma in obiettivi di attività con istruzioni passo-passo e utilizza un agente modello di linguaggio visivo per simulare la loro esecuzione in un ambiente digitale reale. Un valutatore basato su VLM garantisce la correttezza delle traiettorie generate. Dimostriamo che addestrare agenti GUI con queste traiettorie sintetizzate migliora significativamente la loro base e le prestazioni di pianificazione rispetto ai modelli attuali. Inoltre, il nostro approccio è più efficiente in termini di costi rispetto ai metodi tradizionali di annotazione umana. Questo lavoro sottolinea il potenziale del replay guidato con tutorial web come strategia valida per l'addestramento su larga scala degli agenti GUI, aprendo la strada a agenti digitali più capaci e autonomi.
I modelli di diffusione testo-immagine (T2I) esistenti affrontano diverse limitazioni, tra cui dimensioni del modello ingenti, lentezza di esecuzione e generazione di bassa qualità su dispositivi mobili. Questo articolo si propone di affrontare tutte queste sfide sviluppando un modello T2I estremamente piccolo e veloce che genera immagini ad alta risoluzione e di alta qualità su piattaforme mobili. Proponiamo diverse tecniche per raggiungere questo obiettivo. In primo luogo, esaminiamo sistematicamente le scelte progettuali dell'architettura di rete per ridurre i parametri del modello e la latenza, garantendo nel contempo una generazione di alta qualità. In secondo luogo, per migliorare ulteriormente la qualità della generazione, utilizziamo la distillazione della conoscenza tra architetture da un modello molto più grande, utilizzando un approccio multi livello per guidare l'addestramento del nostro modello da zero. In terzo luogo, abilitiamo una generazione a pochi passaggi integrando la guida avversaria con la distillazione della conoscenza. Per la prima volta, il nostro modello SnapGen dimostra la generazione di immagini da 1024x1024 px su un dispositivo mobile in circa 1,4 secondi. Su ImageNet-1K, il nostro modello, con soli 372M parametri, raggiunge un FID di 2,06 per la generazione da 256x256 px. Sui benchmark T2I (ad esempio, GenEval e DPG-Bench), il nostro modello con soli 379M parametri supera modelli su larga scala con miliardi di parametri in dimensioni significativamente minori (ad esempio, 7 volte più piccolo di SDXL, 14 volte più piccolo di IF-XL).
Sono stati osservati significativi progressi nella personalizzazione dei modelli di diffusione. I metodi convenzionali senza sintonizzazione principalmente codificano più immagini di riferimento attraverso la media delle loro incapsulazioni d'immagine come condizione di iniezione, ma tale operazione indipendente dall'immagine non può interagire tra le immagini per catturare elementi visivi coerenti all'interno di più riferimenti. Anche se l'Adattamento a Basso Rango (LoRA) basato sulla sintonizzazione può estrarre efficacemente elementi coerenti all'interno di più immagini durante il processo di addestramento, richiede una sintonizzazione specifica per ciascun gruppo di immagini distinte. Questo articolo introduce EasyRef, un nuovo metodo di adattamento plug-and-play che consente ai modelli di diffusione di essere condizionati su più immagini di riferimento e sul prompt di testo. Per sfruttare efficacemente elementi visivi coerenti all'interno di più immagini, sfruttiamo le capacità di comprensione multi-immagine e di seguire le istruzioni del modello di linguaggio multimodale a grande scala (MLLM), chiedendogli di catturare elementi visivi coerenti in base all'istruzione. Inoltre, iniettare le rappresentazioni del MLLM nel processo di diffusione attraverso adattatori può generalizzare facilmente a domini non visti, estrarre gli elementi visivi coerenti all'interno di dati non visti. Per mitigare i costi computazionali e migliorare la conservazione dei dettagli fini, introduciamo una strategia efficiente di aggregazione di riferimenti e uno schema di addestramento progressivo. Infine, presentiamo MRBench, un nuovo benchmark di generazione di immagini multi-riferimento. I risultati sperimentali dimostrano che EasyRef supera sia i metodi senza sintonizzazione come IP-Adapter sia i metodi basati sulla sintonizzazione come LoRA, raggiungendo una qualità estetica superiore e una generalizzazione zero-shot robusta attraverso domini diversi.
Date i rapidi progressi dell'IA generativa, c'è un urgente bisogno di confrontare e scegliere in modo sistematico tra i numerosi modelli e configurazioni disponibili. La portata e la versatilità di tali valutazioni rendono l'uso di giudici basati su LLM una soluzione convincente per questa sfida. In modo cruciale, questo approccio richiede innanzitutto di convalidare la qualità del giudice LLM stesso. Lavori precedenti si sono concentrati sulla valutazione basata sull'istanza dei giudici LLM, in cui un giudice viene valutato su un insieme di risposte, o coppie di risposte, rimanendo agnostico rispetto ai loro sistemi di origine. Sosteniamo che questo contesto trascura fattori critici che influenzano la classifica a livello di sistema, come il bias positivo o negativo di un giudice verso determinati sistemi. Per affrontare questa lacuna, conduciamo il primo studio su larga scala dei giudici LLM come classificatori di sistemi. I punteggi dei sistemi sono generati aggregando i punteggi di giudizio su più output di sistema, e la qualità del giudice è valutata confrontando la classifica del sistema risultante con una classifica basata sull'umanità. Oltre alla valutazione complessiva del giudice, la nostra analisi fornisce una caratterizzazione dettagliata del comportamento del giudice, inclusa la sua decisionalità e il bias.
Recuperare la geometria e i materiali degli oggetti da un'unica immagine è una sfida a causa della sua natura sottodeterminata. In questo articolo, presentiamo Neural LightRig, un nuovo framework che potenzia la stima intrinseca sfruttando condizioni di illuminazione ausiliarie da priors di diffusione 2D. In particolare, 1) sfruttiamo inizialmente i priors di illuminazione da modelli di diffusione su larga scala per costruire il nostro modello di diffusione multi-illuminazione su un dataset di illuminazione sintetica con design dedicati. Questo modello di diffusione genera diverse immagini coerenti, ognuna illuminata da sorgenti di luce puntiformi in direzioni diverse. 2) Utilizzando queste immagini di illuminazione varie per ridurre l'incertezza della stima, addestriamo un ampio modello G-buffer con una struttura a U-Net per prevedere con precisione le normali della superficie e i materiali. Esperimenti estensivi convalidano che il nostro approccio supera significativamente i metodi all'avanguardia, consentendo una stima accurata delle normali della superficie e dei materiali PBR con vividi effetti di illuminazione. Il codice e il dataset sono disponibili sulla nostra pagina del progetto su https://projects.zxhezexin.com/neural-lightrig.
L'approssimazione delle Equazioni Differenziali Parziali (PDE) utilizzando reti neurali ha visto significativi progressi attraverso le Reti Neurali Informed by Physics (PINNs). Nonostante il loro diretto framework di ottimizzazione e la flessibilità nell'implementare varie PDE, le PINNs spesso soffrono di limitata precisione a causa del bias spettrale dei Multi-Layer Perceptrons (MLPs), che faticano ad apprendere efficacemente componenti ad alta frequenza e non lineari. Recentemente, le rappresentazioni parametriche a maglia in combinazione con reti neurali sono state esaminate come un approccio promettente per eliminare i bias induttivi delle reti neurali. Tuttavia, solitamente richiedono griglie ad alta risoluzione e un gran numero di punti di collocamento per raggiungere elevata precisione evitando problemi di overfitting. Inoltre, le posizioni fisse dei parametri della maglia limitano la loro flessibilità, rendendo difficile l'approssimazione accurata di PDE complesse. Per superare tali limitazioni, proponiamo i Gaussiani Informed by Physics (PIGs), che combinano embedding di caratteristiche utilizzando funzioni gaussiane con una leggera rete neurale. Il nostro approccio utilizza parametri addestrabili per la media e la varianza di ciascun Gaussiano, consentendo un aggiustamento dinamico delle loro posizioni e forme durante l'addestramento. Questa adattabilità permette al nostro modello di approssimare ottimamente le soluzioni delle PDE, a differenza dei modelli con posizioni di parametri fisse. Inoltre, l'approccio proposto mantiene lo stesso framework di ottimizzazione utilizzato nelle PINNs, consentendoci di beneficiare delle loro eccellenti proprietà. I risultati sperimentali mostrano le prestazioni competitive del nostro modello su varie PDE, dimostrandone il potenziale come strumento robusto per risolvere PDE complesse. La pagina del nostro progetto è disponibile su https://namgyukang.github.io/Physics-Informed-Gaussians/
I sensori moderni producono flussi di dati ad alta risoluzione sempre più ricchi. A causa delle limitazioni delle risorse, i sistemi di apprendimento automatico scartano la grande maggioranza di queste informazioni tramite la riduzione della risoluzione. L'apprendimento nel dominio compresso consente ai modelli di operare su rappresentazioni latenti compatte, consentendo una risoluzione effettiva più elevata per lo stesso budget. Tuttavia, i sistemi di compressione esistenti non sono ideali per l'apprendimento compresso. La codifica della trasformata lineare e i sistemi di compressione appresi end-to-end riducono il bitrate, ma non riducono uniformemente la dimensionalità; pertanto, non aumentano in modo significativo l'efficienza. Gli autoencoder generativi riducono la dimensionalità, ma i loro obiettivi avversari o percettivi portano a una significativa perdita di informazioni. Per affrontare queste limitazioni, presentiamo WaLLoC (Wavelet Learned Lossy Compression), un'architettura di codec neurale che combina la codifica della trasformata lineare con gli autoencoder non lineari riduttori di dimensionalità. WaLLoC inserisce un autoencoder asimmetrico superficiale e un collo di bottiglia di entropia tra una trasformata a pacchetto di wavelet invertibile. Su diversi parametri chiave, WaLLoC supera gli autoencoder utilizzati nei modelli di diffusione latente all'avanguardia. WaLLoC non richiede perdite percettive o avversarie per rappresentare dettagli ad alta frequenza, offrendo compatibilità con modalità oltre alle immagini RGB e all'audio stereo. L'encoder di WaLLoC è composto quasi interamente da operazioni lineari, rendendolo eccezionalmente efficiente e adatto per il calcolo mobile, il rilevamento remoto e l'apprendimento diretto dai dati compressi. Dimostriamo la capacità di WaLLoC per l'apprendimento nel dominio compresso su diversi compiti, inclusa la classificazione delle immagini, la colorazione, la comprensione dei documenti e la separazione delle sorgenti musicali. Il nostro codice, gli esperimenti e i codec audio e immagine preaddestrati sono disponibili su https://ut-sysml.org/walloc.
Questo studio presenta una nuova tecnica di super risoluzione (SR) delle immagini basata sull'inversione della diffusione, mirando a sfruttare i ricchi priori delle immagini racchiusi nei grandi modelli di diffusione pre-addestrati per migliorare le prestazioni della SR. Progettiamo una strategia di Predizione parziale del rumore per costruire uno stato intermedio del modello di diffusione, che funge da punto di campionamento iniziale. Al centro del nostro approccio c'è un predittore profondo del rumore per stimare le mappe ottimali del rumore per il processo di diffusione in avanti. Una volta addestrato, questo predittore del rumore può essere utilizzato per inizializzare parzialmente il processo di campionamento lungo la traiettoria di diffusione, generando il desiderato risultato ad alta risoluzione. Rispetto agli approcci esistenti, il nostro metodo offre un meccanismo di campionamento flessibile ed efficiente che supporta un numero arbitrario di passaggi di campionamento, che vanno da uno a cinque. Anche con un singolo passaggio di campionamento, il nostro metodo dimostra prestazioni superiori o comparabili agli approcci di ultima generazione. Il codice e il modello sono disponibili pubblicamente su https://github.com/zsyOAOA/InvSR.
Con l'ampia adozione e le capacità dei modelli visione-linguaggio (VLM) in crescita, sorge la necessità di benchmark che catturino autentiche interazioni utente-VLM. In risposta, abbiamo creato VisionArena, un dataset di 230K conversazioni del mondo reale tra utenti e VLM. Raccolti da Chatbot Arena - una piattaforma open-source in cui gli utenti interagiscono con i VLM e inviano preferenze - VisionArena copre 73K utenti unici, 45 VLM e 138 lingue. Il nostro dataset contiene tre sottoinsiemi: VisionArena-Chat, 200k conversazioni singole e multi-turn tra un utente e un VLM; VisionArena-Battle, 30K conversazioni che confrontano due VLM anonimi con voti di preferenza degli utenti; e VisionArena-Bench, un benchmark automatico di 500 prompt utente diversi che approssimano efficacemente le classifiche dei modelli live di Chatbot Arena. Inoltre, evidenziamo i tipi di domande poste dagli utenti, l'influenza dello stile di risposta sulla preferenza e le aree in cui i modelli falliscono spesso. Troviamo che compiti aperti come la didascalia e l'umorismo dipendono fortemente dallo stile, e i VLM attuali faticano con il ragionamento spaziale e i compiti di pianificazione. Infine, dimostriamo che il fine-tuning dello stesso modello di base su VisionArena-Chat supera Llava-Instruct-158K, con un aumento di 17 punti su MMMU e di 46 punti sul benchmark WildVision. Dataset disponibile su https://huggingface.co/lmarena-ai
La prassi standard per lo sviluppo dei moderni Modelli di Linguaggio Multimodali è quella di fornire le caratteristiche dall'encoder (o dagli encoder) di visione al Modelli di Linguaggio e addestrarlo con supervisione in linguaggio naturale. In questo lavoro, ipotizziamo un'opportunità trascurata per ottimizzare le rappresentazioni intermedie del Modelli di Linguaggio Multimodale attraverso una prospettiva visiva (obiettivo), ovvero la sola supervisione in linguaggio naturale è sub-ottimale per la capacità di comprensione visiva del Modelli di Linguaggio Multimodale. A tal fine, proponiamo OLA-VLM, il primo approccio che distilla conoscenze nelle rappresentazioni nascoste del Modelli di Linguaggio da un insieme di rappresentazioni visive target. In primo luogo, formuliamo l'obiettivo durante la fase di preaddestramento nei Modelli di Linguaggio Multimodali come un'ottimizzazione accoppiata dell'incorporamento visivo predittivo e della successiva previsione del token di testo. In secondo luogo, indaghiamo sui Modelli di Linguaggio Multimodali addestrati esclusivamente con supervisione in linguaggio naturale e identifichiamo una correlazione positiva tra la qualità delle rappresentazioni visive all'interno di questi modelli e le loro prestazioni downstream. Inoltre, sondando il nostro OLA-VLM, osserviamo un miglioramento della qualità della rappresentazione grazie all'ottimizzazione dell'incorporamento. In terzo luogo, dimostriamo che il nostro OLA-VLM supera i baselines con singolo e multi-encoder, dimostrando la superiorità del nostro approccio rispetto all'alimentazione esplicita delle caratteristiche corrispondenti al Modelli di Linguaggio. In particolare, OLA-VLM aumenta le prestazioni di un margine medio fino al 2.5% su vari benchmark, con un notevole miglioramento dell'8.7% sul compito di Profondità in CV-Bench. Il nostro codice è open-source su https://github.com/SHI-Labs/OLA-VLM.
Questo articolo introduce RuleArena, un nuovo e impegnativo benchmark progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nel seguire regole complesse del mondo reale nel ragionamento. Coprendo tre domini pratici - tariffe per il bagaglio aereo, transazioni NBA e normative fiscali - RuleArena valuta la competenza dei LLM nel gestire istruzioni intricate in linguaggio naturale che richiedono una comprensione a lungo contesto, ragionamento logico e calcoli matematici accurati. Due attributi chiave distinguono RuleArena dai tradizionali benchmark di ragionamento basati su regole: (1) si estende oltre le rappresentazioni standard della logica del primo ordine e (2) è radicato in scenari autentici e pratici, fornendo approfondimenti sulla idoneità e affidabilità dei LLM per le applicazioni del mondo reale. Le nostre scoperte rivelano diverse limitazioni significative nei LLM: (1) faticano a identificare e applicare le regole appropriate, diventando frequentemente confusi da regolamenti simili ma distinti, (2) non riescono a eseguire in modo coerente calcoli matematici accurati, anche quando identificano correttamente le regole rilevanti e (3) in generale, hanno prestazioni scadenti nel benchmark. Questi risultati evidenziano significativi ostacoli nel migliorare le capacità di ragionamento guidate da regole dei LLM nelle applicazioni della vita reale.
L'uso di materiali protetti da copyright nella formazione di modelli di linguaggio generativi solleva questioni legali ed etiche critiche. Questo articolo presenta un quadro e i risultati di un'analisi empirica sull'impatto dei materiali protetti da copyright sulle prestazioni dei grandi modelli di linguaggio (LLM) per il norvegese. Abbiamo scoperto che sia i libri che i giornali contribuiscono positivamente quando i modelli sono valutati su un insieme diversificato di benchmark norvegesi, mentre le opere di narrativa potrebbero portare a una diminuzione delle prestazioni. I nostri esperimenti potrebbero informare la creazione di un piano di compensazione per gli autori i cui lavori contribuiscono allo sviluppo dell'IA.
La Disambiguazione del Senso delle Parole (WSD) è il compito di associare una parola in un dato contesto al suo significato più adatto tra un insieme di possibili candidati. Mentre il compito ha recentemente visto un rinnovato interesse, con sistemi che raggiungono prestazioni superiori alla stima dell'accordo tra annotatori, al momento della stesura continua a faticare nel trovare applicazioni pratiche. Sosteniamo che una delle ragioni di ciò sia la difficoltà nell'applicare il WSD al testo semplice. Infatti, nella formulazione standard, i modelli operano sotto l'assunzione che a) tutti i segmenti da disambiguare siano già stati identificati e b) siano forniti tutti i possibili significati candidati di ciascun segmento, entrambi requisiti tutt'altro che banali. In questo lavoro, presentiamo un nuovo compito chiamato Collegamento dei Sensi delle Parole (WSL) in cui, dato un testo di input e un inventario di sensi di riferimento, i sistemi devono sia identificare quali segmenti disambiguare e poi collegarli al loro significato più adatto. Proponiamo un'architettura basata su trasformatori per il compito e valutiamo approfonditamente sia le sue prestazioni che quelle dei sistemi WSD all'avanguardia adattati a WSL, rilassando iterativamente le assunzioni del WSD. Ci auguriamo che il nostro lavoro favorisca un'integrazione più semplice della semantica lessicale nelle applicazioni pratiche.
I Flussi Normalizzanti (NF) sono modelli basati sulla verosimiglianza per input continui. Hanno dimostrato risultati promettenti sia nella stima della densità che nei compiti di modellazione generativa, ma hanno ricevuto relativamente poco attenzione negli ultimi anni. In questo lavoro, dimostriamo che i NF sono più potenti di quanto si credesse in precedenza. Presentiamo TarFlow: un'architettura semplice e scalabile che consente modelli NF ad alte prestazioni. TarFlow può essere considerato come una variante basata su Transformer di Flussi Autoregressivi Mascherati (MAF): consiste in una serie di blocchi autoregressivi Transformer su patch di immagini, alternando la direzione dell'autoregressione tra i livelli. TarFlow è semplice da addestrare end-to-end e in grado di modellare e generare direttamente pixel. Proponiamo inoltre tre tecniche chiave per migliorare la qualità del campione: l'aggiunta di rumore gaussiano durante l'addestramento, una procedura di denoising post-addestramento e un efficace metodo di guida sia per impostazioni condizionate alla classe che incondizionate. Mettendo insieme questi elementi, TarFlow stabilisce nuovi risultati di stato dell'arte nella stima della verosimiglianza per le immagini, superando i metodi precedenti di gran lunga, e genera campioni con qualità e diversità paragonabili ai modelli di diffusione, per la prima volta con un modello NF autonomo. Mettiamo a disposizione il nostro codice su https://github.com/apple/ml-tarflow.
I recenti progressi nella personalizzazione del testo all'immagine hanno reso possibile la generazione di immagini personalizzate ad alta fedeltà e ricche di contesto, consentendo a concetti specifici di apparire in una varietà di scenari. Tuttavia, i metodi attuali faticano nel combinare più modelli personalizzati, spesso portando all'intreccio degli attributi o richiedendo un addestramento separato per preservare la distinzione dei concetti. Presentiamo LoRACLR, un nuovo approccio per la generazione di immagini multi-concetto che fonde più modelli LoRA, ognuno ottimizzato per un concetto distinto, in un unico modello unificato senza ulteriore ottimizzazione individuale. LoRACLR utilizza un obiettivo contrastivo per allineare e fondere gli spazi dei pesi di questi modelli, garantendo la compatibilità e minimizzando le interferenze. Applicando rappresentazioni distinte ma coerenti per ciascun concetto, LoRACLR consente una composizione efficiente e scalabile dei modelli per la sintesi di immagini multi-concetto di alta qualità. I nostri risultati evidenziano l'efficacia di LoRACLR nel fondere accuratamente più concetti, avanzando le capacità della generazione di immagini personalizzate.
I modelli esistenti di ricostruzione da viste sparse dipendono pesantemente da pose di telecamere conosciute con precisione. Tuttavia, derivare estrinseci e intrinseci della telecamera da immagini a viste sparse presenta significativi ostacoli. In questo lavoro, presentiamo FreeSplatter, un framework di ricostruzione altamente scalabile e feed-forward in grado di generare Gaussiane 3D di alta qualità da immagini a viste sparse non calibrate e di recuperare i relativi parametri della telecamera in pochi secondi. FreeSplatter si basa su un'architettura di trasformatore ottimizzata, composta da blocchi di autoattenzione sequenziali che facilitano lo scambio di informazioni tra token di immagini multi-vista e li decodificano in primitive Gaussiane 3D a livello di pixel. Le primitive Gaussiane predette sono posizionate in un unico frame di riferimento, consentendo una modellazione 3D ad alta fedeltà e una stima istantanea dei parametri della telecamera utilizzando risolutori già disponibili. Per soddisfare sia la ricostruzione centrata sugli oggetti che a livello di scena, addestriamo due varianti del modello di FreeSplatter su dataset estesi. In entrambi i casi, FreeSplatter supera i baselines all'avanguardia in termini di qualità della ricostruzione e accuratezza della stima della posa. Inoltre, mostriamo il potenziale di FreeSplatter nel migliorare la produttività delle applicazioni derivate, come la creazione di contenuti testo/immagine in 3D.
L'animazione di immagini umane controllabile mira a generare video da immagini di riferimento utilizzando video guida. A causa dei segnali di controllo limitati forniti da una guida scarsa (ad esempio, posa dello scheletro), lavori recenti hanno cercato di introdurre condizioni dense aggiuntive (ad esempio, mappa di profondità) per garantire l'allineamento del movimento. Tuttavia, una guida densa così rigorosa compromette la qualità del video generato quando la forma del corpo del personaggio di riferimento differisce significativamente da quella del video guida. In questo articolo, presentiamo DisPose per estrarre segnali di controllo più generalizzabili ed efficaci senza input denso aggiuntivo, che disaccoppia la posa dello scheletro scarsa nell'animazione di immagini umane in guida del campo di movimento e corrispondenza dei punti chiave. In particolare, generiamo un campo di movimento denso da un campo di movimento sparso e dall'immagine di riferimento, che fornisce una guida densa a livello di regione mantenendo la generalizzazione del controllo di posa sparso. Estraiamo inoltre le caratteristiche di diffusione corrispondenti ai punti chiave della posa dall'immagine di riferimento, e quindi queste caratteristiche puntuali vengono trasferite alla posa di destinazione per fornire informazioni di identità distinte. Per integrarsi senza soluzione di continuità nei modelli esistenti, proponiamo un ControlNet ibrido plug-and-play che migliora la qualità e la coerenza dei video generati mentre congela i parametri del modello esistente. Estesi esperimenti qualitativi e quantitativi dimostrano la superiorità di DisPose rispetto ai metodi attuali. Codice: https://github.com/lihxxx/DisPose.
I tradizionali set di test fissi risultano limitati nell'valutare le capacità aperte dei modelli fondamentali. Per affrontare questo problema, proponiamo ONEBench (OpeN-Ended Benchmarking), un nuovo paradigma di test che unisce i singoli set di valutazione in un unico e in continua espansione pool di campioni. ONEBench consente agli utenti di generare benchmark personalizzati e aperti da questo pool, corrispondenti a specifiche capacità di interesse. Aggregando campioni tra i set di test, ONEBench permette la valutazione di capacità diverse oltre a quelle coperte dai set di test originali, mitigando l'overfitting e il bias del dataset. Inoltre, esso concepisce la valutazione del modello come un processo collettivo di selezione e aggregazione di test a livello di campione. Il passaggio dai benchmark specifici per compiti a ONEBench introduce due sfide: (1) l'eterogeneità e (2) l'incompletezza. L'eterogeneità si riferisce all'aggregazione su metriche diverse, mentre l'incompletezza descrive il confronto tra modelli valutati su diversi sottoinsiemi di dati. Per affrontare queste sfide, esploriamo algoritmi per aggregare misurazioni sparse in punteggi affidabili del modello. Il nostro algoritmo di aggregazione garantisce l'identificabilità (recupero asintotico dei punteggi reali) e una rapida convergenza, consentendo una classifica accurata dei modelli con meno dati. Su dataset omogenei, dimostriamo che il nostro algoritmo di aggregazione fornisce classifiche altamente correlate con quelle prodotte dai punteggi medi. Dimostriamo anche la robustezza a circa il 95% delle misurazioni mancanti, riducendo i costi di valutazione fino a 20 volte con poche o nessuna variazione nelle classifiche dei modelli. Presentiamo ONEBench-LLM per i modelli linguistici e ONEBench-LMM per i modelli visione-linguaggio, unificando le valutazioni in questi ambiti. In generale, presentiamo una tecnica per la valutazione aperta, che può aggregare misurazioni eterogenee e incomplete a livello di campione per far crescere continuamente un benchmark insieme ai modelli fondamentali in rapida evoluzione.
Il campo accademico della navigazione visiva guidata dall'istruzione apprendimento può essere generalmente categorizzato in ricerca specifica di categoria ad alto livello e navigazione guidata dal linguaggio a basso livello, a seconda della granularità dell'istruzione linguistica, in cui il primo enfatizza il processo di esplorazione, mentre il secondo si concentra sul seguire comandi testuali dettagliati. Nonostante i diversi focus di questi compiti, i requisiti sottostanti di interpretare le istruzioni, comprendere l'ambiente circostante e dedurre decisioni d'azione rimangono coerenti. Questo articolo unisce diverse attività di navigazione in un quadro unificato e generico -- esaminiamo le difficoltà principali nel condividere conoscenze generali e sfruttare capacità specifiche del compito nell'apprendimento della navigazione e proponiamo un nuovo modello State-Adaptive Mixture of Experts (SAME) che consente efficacemente a un agente di dedurre decisioni basate su istruzioni di diverse granularità e osservazioni dinamiche. Supportato da SAME, presentiamo un agente versatile in grado di affrontare contemporaneamente sette compiti di navigazione che supera o raggiunge prestazioni altamente comparabili agli agenti specifici del compito.
Affrontiamo il problema dell'identificazione del bersaglio dello sguardo, che mira a predire dove una persona sta guardando in una scena. Prevedere il bersaglio dello sguardo di una persona richiede il ragionamento sia sull'aspetto della persona sia sui contenuti della scena. Lavori precedenti hanno sviluppato pipeline sempre più complesse e realizzate manualmente per l'identificazione del bersaglio dello sguardo che fondono attentamente le caratteristiche da codificatori di scene separati, codificatori di testa e modelli ausiliari per segnali come profondità e posa. Motivati dal successo degli estrattori di caratteristiche generici su una varietà di compiti visivi, proponiamo Gaze-LLE, un nuovo framework transformer che semplifica l'identificazione del bersaglio dello sguardo sfruttando le caratteristiche da un codificatore DINOv2 congelato. Estraiamo una singola rappresentazione delle caratteristiche per la scena e applichiamo un prompt posizionale specifico della persona per decodificare lo sguardo con un modulo leggero. Dimostriamo prestazioni all'avanguardia su diversi benchmark dello sguardo e forniamo un'ampia analisi per convalidare le nostre scelte progettuali. Il nostro codice è disponibile su: http://github.com/fkryan/gazelle.
I modelli di Traduzione Automatica Neurale (NMT) vengono tipicamente addestrati su set di dati con limitata esposizione ai domini Scientifico, Tecnico ed Educativo. Di conseguenza, i modelli di traduzione generalmente faticano con compiti che coinvolgono la comprensione scientifica o gergo tecnico. Si è riscontrato che le loro prestazioni sono ancora peggiori per le lingue indiane a bassa risorsa. Trovare un dataset di traduzione che si occupi in particolare di questi domini rappresenta una sfida difficile. In questo articolo, affrontiamo questo problema creando un corpus parallelo multilingue contenente più di 2,8 milioni di righe di coppie di traduzione di alta qualità da Inglese a Indic e da Indic a Indic attraverso 8 lingue indiane. Raggiungiamo questo obiettivo estraendo testo bilingue dalle trascrizioni umane delle lezioni video di NPTEL. Inoltre, ottimizziamo e valutiamo i modelli NMT utilizzando questo corpus e superiamo tutti gli altri modelli disponibili pubblicamente nei compiti in-domain. Dimostriamo anche il potenziale di generalizzazione ai compiti di traduzione out-of-domain migliorando il punteggio BLEU di oltre 2 in media per queste lingue indiane sul benchmark Flores+. Siamo lieti di rendere disponibili il nostro modello e dataset tramite questo link: https://huggingface.co/SPRINGLab.