Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, presentiamo SaulLM-54B e SaulLM-141B, due modelli linguistici di grandi dimensioni (LLM) progettati specificamente per il settore legale. Questi modelli, che presentano architetture rispettivamente da 54 miliardi e 141 miliardi di parametri, si basano sull'architettura Mixtral. Lo sviluppo di SaulLM-54B e SaulLM-141B è guidato da un adattamento su larga scala al dominio, suddiviso in tre strategie: (1) lo sfruttamento di un pre-addestramento continuo che coinvolge un corpus di base comprendente oltre 540 miliardi di token legali, (2) l'implementazione di un protocollo specializzato per il seguimento di istruzioni legali e (3) l'allineamento degli output del modello con le preferenze umane nelle interpretazioni legali. L'integrazione di dati sinteticamente generati nel secondo e terzo passaggio migliora le capacità dei modelli nell'interpretazione e nell'elaborazione di testi legali, raggiungendo efficacemente prestazioni all'avanguardia e superando i precedenti modelli open-source su LegalBench-Instruct. Questo lavoro esplora i compromessi coinvolti nell'adattamento specifico al dominio su questa scala, offrendo spunti che potrebbero informare studi futuri sull'adattamento al dominio utilizzando modelli decoder potenti. Basandosi su SaulLM-7B, questo studio perfeziona l'approccio per produrre un LLM meglio attrezzato per compiti legali. Stiamo rilasciando versioni di base, istruite e allineate su SaulLM-54B e SaulLM-141B sotto la licenza MIT per facilitare il riutilizzo e la ricerca collaborativa.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in vari compiti, tuttavia il loro sviluppo si è concentrato prevalentemente su lingue ad alto livello di risorse come l'inglese e il cinese, lasciando le lingue a basso livello di risorse sottoservite. Per affrontare questa disparità, presentiamo SeaLLMs 3, l'ultima iterazione della famiglia di modelli SeaLLMs, progettata specificamente per le lingue del Sud-est asiatico. Questa regione, caratterizzata da una ricca diversità linguistica, ha sofferto di un supporto tecnologico linguistico inadeguato. SeaLLMs 3 mira a colmare questa lacuna coprendo un'ampia gamma di lingue parlate in questa area, tra cui inglese, cinese, indonesiano, vietnamita, thailandese, tagalog, malese, birmano, khmer, lao, tamil e giavanese. Sfruttando tecniche efficienti di miglioramento linguistico e un dataset appositamente costruito per il tuning delle istruzioni, SeaLLMs 3 riduce significativamente i costi di addestramento mantenendo un'elevata performance e versatilità. Il nostro modello eccelle in compiti come la conoscenza mondiale, il ragionamento matematico, la traduzione e il seguire istruzioni, raggiungendo prestazioni all'avanguardia tra modelli di dimensioni simili. Inoltre, abbiamo dato priorità alla sicurezza e all'affidabilità affrontando considerazioni sia generali che specifiche della cultura e incorporando meccanismi per ridurre le allucinazioni. Questo lavoro sottolinea l'importanza di un'IA inclusiva, dimostrando che le capacità avanzate degli LLM possono beneficiare comunità linguistiche e culturali sottoservite.
Il Disturbo Depressivo Maggiore (MDD) è una condizione di salute mentale pervasiva che colpisce 300 milioni di persone in tutto il mondo. Questo lavoro presenta un'architettura innovativa di fusione a livello di modello basata su BiLSTM per la classificazione binaria della depressione a partire da registrazioni di interviste cliniche. L'architettura proposta incorpora i Coefficienti Cepstrali della Frequenza Mel (MFCC), le Unità di Azione Facciale (Facial Action Units) e utilizza un modello GPT-4 basato su apprendimento a due colpi (two-shot learning) per elaborare i dati testuali. Si tratta del primo lavoro che integra modelli linguistici di grandi dimensioni in un'architettura multi-modale per questo compito. I risultati ottenuti sono impressionanti sia nella suddivisione cross-validata della sfida DAIC-WOZ AVEC 2016 che nella cross-validazione Leave-One-Subject-Out, superando tutti i modelli di base e numerosi modelli all'avanguardia. Nei test Leave-One-Subject-Out, l'architettura raggiunge un'accuratezza del 91,01%, un F1-Score dell'85,95%, una precisione dell'80% e una recall del 92,86%.
I modelli di diffusione video hanno compiuto progressi significativi in varie applicazioni di generazione video. Tuttavia, l'addestramento di modelli per compiti di generazione di video lunghi richiede risorse computazionali e dati considerevoli, rappresentando una sfida per lo sviluppo di modelli di diffusione video lunghi. Questo articolo esamina un approccio semplice e privo di addestramento per estendere un modello di diffusione video breve esistente (ad esempio, pre-addestrato su video di 16 fotogrammi) per la generazione coerente di video lunghi (ad esempio, 128 fotogrammi). La nostra osservazione preliminare ha rilevato che l'applicazione diretta del modello di diffusione video breve per generare video lunghi può portare a un grave degrado della qualità video. Un'ulteriore indagine rivela che questo degrado è principalmente dovuto alla distorsione delle componenti ad alta frequenza nei video lunghi, caratterizzata da una diminuzione delle componenti spaziali ad alta frequenza e un aumento delle componenti temporali ad alta frequenza. Motivati da ciò, proponiamo una soluzione innovativa denominata FreeLong per bilanciare la distribuzione di frequenza delle caratteristiche dei video lunghi durante il processo di denoising. FreeLong combina le componenti a bassa frequenza delle caratteristiche video globali, che racchiudono l'intera sequenza video, con le componenti ad alta frequenza delle caratteristiche video locali che si concentrano su sottosequenze più brevi di fotogrammi. Questo approccio mantiene la coerenza globale incorporando dettagli spaziotemporali diversificati e di alta qualità dai video locali, migliorando sia la coerenza che la fedeltà della generazione di video lunghi. Abbiamo valutato FreeLong su più modelli di base di diffusione video e abbiamo osservato miglioramenti significativi. Inoltre, il nostro metodo supporta la generazione coerente multi-prompt, garantendo sia la coerenza visiva che transizioni fluide tra le scene.
L'apprendimento di politiche robotiche basate sulla visione, che mappa input visivi ad azioni, richiede una comprensione olistica di compiti visivi diversificati, andando oltre le esigenze di singoli compiti come la classificazione o la segmentazione. Ispirati da ciò, introduciamo Theia, un modello di fondazione visiva per l'apprendimento robotico che distilla molteplici modelli di fondazione visiva preesistenti, addestrati su vari compiti visivi. Le ricche rappresentazioni visive di Theia codificano una conoscenza visiva diversificata, migliorando l'apprendimento robotico a valle. Esperimenti estensivi dimostrano che Theia supera i suoi modelli insegnanti e i precedenti modelli di apprendimento robotico, utilizzando meno dati di addestramento e dimensioni di modello più ridotte. Inoltre, quantifichiamo la qualità delle rappresentazioni visive pre-addestrate e ipotizziamo che un'entropia più elevata nelle distribuzioni delle norme delle caratteristiche porti a una migliore prestazione nell'apprendimento robotico. Codice e modelli sono disponibili all'indirizzo https://github.com/bdaiinstitute/theia.
La ricerca e l'integrazione di informazioni è un compito cognitivo complesso che richiede un enorme dispendio di tempo e sforzo. Ispirati dai notevoli progressi dei Modelli Linguistici di Grande Dimensione (LLM), recenti lavori tentano di risolvere questo compito combinando LLM e motori di ricerca. Tuttavia, questi metodi ottengono ancora prestazioni insoddisfacenti a causa di tre sfide: (1) richieste complesse spesso non possono essere recuperate in modo accurato e completo dal motore di ricerca in una sola volta, (2) le informazioni corrispondenti da integrare sono distribuite su più pagine web insieme a un rumore massiccio, e (3) un gran numero di pagine web con contenuti lunghi può superare rapidamente la lunghezza massima del contesto degli LLM. Ispirati dal processo cognitivo umano quando si affrontano questi problemi, introduciamo MindSearch per imitare la mente umana nella ricerca e integrazione di informazioni sul web, che può essere istanziato da un semplice ma efficace framework multi-agente basato su LLM. Il WebPlanner modella la mente umana nella ricerca di informazioni in più fasi come un processo di costruzione dinamica di un grafo: scompone la query dell'utente in sotto-domande atomiche come nodi del grafo e estende progressivamente il grafo in base ai risultati della ricerca di WebSearcher. Assegnato a ciascuna sotto-domanda, WebSearcher esegue una ricerca gerarchica di informazioni con i motori di ricerca e raccoglie informazioni preziose per WebPlanner. Il design multi-agente di MindSearch consente all'intero framework di cercare e integrare informazioni in parallelo da un numero maggiore di pagine web (ad esempio, più di 300) in 3 minuti, che equivalgono a 3 ore di sforzo umano. MindSearch dimostra un miglioramento significativo nella qualità delle risposte in termini di profondità e ampiezza, sia su problemi di QA a insieme chiuso che aperto. Inoltre, le risposte di MindSearch basate su InternLM2.5-7B sono preferite dagli utenti rispetto alle applicazioni ChatGPT-Web e Perplexity.ai, il che implica che MindSearch può già offrire una soluzione competitiva rispetto ai motori di ricerca AI proprietari.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno aumentato la domanda di benchmark completi per valutare le loro capacità come agenti simili agli esseri umani. I benchmark esistenti, sebbene utili, si concentrano spesso su scenari applicativi specifici, enfatizzando il completamento dei compiti ma non riuscendo a scomporre le abilità sottostanti che guidano questi risultati. Questa mancanza di granularità rende difficile discernere profondamente da dove derivino i fallimenti. Inoltre, la configurazione di questi ambienti richiede uno sforzo considerevole, e talvolta sorgono problemi di affidabilità e riproducibilità, specialmente nei compiti interattivi. Per affrontare queste limitazioni, introduciamo il benchmark Massive Multitask Agent Understanding (MMAU), che presenta compiti offline completi che eliminano la necessità di configurazioni ambientali complesse. Valuta i modelli in cinque domini, tra cui teal{Utilizzo di strumenti}, teal{Domande e risposte su grafi aciclici diretti (DAG)}, teal{Codifica in Data Science e Machine Learning}, teal{Programmazione a livello di concorso} e teal{Matematica}, e copre cinque capacità essenziali: orange{Comprensione}, orange{Ragionamento}, orange{Pianificazione}, orange{Risoluzione dei problemi} e orange{Auto-correzione}. Con un totale di 20 compiti meticolosamente progettati che comprendono oltre 3K prompt distinti, MMAU fornisce un quadro completo per valutare i punti di forza e le limitazioni degli agenti LLM. Testando 18 modelli rappresentativi su MMAU, forniamo analisi approfondite e significative. In definitiva, MMAU non solo illumina le capacità e le limitazioni degli agenti LLM, ma migliora anche l'interpretabilità delle loro prestazioni. I dataset e gli script di valutazione di MMAU sono rilasciati su https://github.com/apple/axlearn/docs/research/mmau.
Il Contrastive Language-Image Pre-training (CLIP), che eccelle nell'astrarre rappresentazioni del mondo aperto attraverso domini e modalità, è diventato una base per una varietà di task visivi e multimodali. Tuttavia, studi recenti rivelano che CLIP presenta gravi carenze visive, come la difficoltà nel distinguere orientamento, quantità, colore, struttura, ecc. Queste carenze visive limitano anche le capacità percettive dei modelli linguistici multimodali di grandi dimensioni (MLLMs) costruiti su CLIP. La ragione principale potrebbe risiedere nel fatto che le coppie immagine-testo utilizzate per addestrare CLIP sono intrinsecamente distorte, a causa della mancanza di distintività del testo e della diversità delle immagini. In questo lavoro, presentiamo un semplice approccio post-addestramento per i modelli CLIP, che supera in gran parte le sue carenze visive attraverso un processo di diffusione auto-supervisionato. Introduciamo DIVA, che utilizza il modello DIffusion come Assistente Visivo per CLIP. Nello specifico, DIVA sfrutta il feedback generativo dei modelli di diffusione testo-immagine per ottimizzare le rappresentazioni di CLIP, utilizzando solo immagini (senza testo corrispondente). Dimostriamo che DIVA migliora le prestazioni di CLIP sul benchmark MMVP-VLM, che valuta in larga misura le abilità visive di dettaglio (ad esempio, 3-7%), e potenzia le prestazioni di MLLMs e modelli visivi su task di comprensione multimodale e segmentazione. Una valutazione estensiva su 29 benchmark di classificazione e recupero di immagini conferma che il nostro framework preserva le forti capacità zero-shot di CLIP. Il codice sarà disponibile all'indirizzo https://github.com/baaivision/DIVA.
Il mezzo visivo (immagini e video) contiene naturalmente una grande quantità di ridondanza informativa, offrendo così un'ottima opportunità per sfruttare l'efficienza nell'elaborazione. Mentre i modelli basati su Vision Transformer (ViT) si adattano efficacemente a regimi di dati di grandi dimensioni, non riescono a capitalizzare su questa ridondanza intrinseca, portando a costi computazionali più elevati. Le reti Mixture of Experts (MoE) dimostrano scalabilità mantenendo gli stessi costi al momento dell'inferenza, ma comportano un'impronta parametrica più ampia. Presentiamo Mixture of Nested Experts (MoNE), che utilizza una struttura annidata per gli esperti, in cui i singoli esperti si collocano su una curva crescente di accuratezza-calcolo. Dato un budget di calcolo, MoNE impara a scegliere dinamicamente i token in ordine di priorità, e quindi i token ridondanti vengono elaborati attraverso esperti annidati più economici. Utilizzando questo framework, otteniamo prestazioni equivalenti ai modelli di riferimento, riducendo il tempo di calcolo durante l'inferenza di oltre il doppio. Validiamo il nostro approccio su dataset standard di immagini e video - ImageNet-21K, Kinetics400 e Something-Something-v2. Inoltre, evidenziamo l'adattabilità di MoNE dimostrando la sua capacità di mantenere prestazioni solide su diversi budget di calcolo al momento dell'inferenza sui video, utilizzando un unico modello addestrato.
L'addestramento efficace di modelli linguistici (LM) per compiti di ragionamento matematico richiede dati di fine-tuning supervisionati di alta qualità. Oltre all'ottenimento di annotazioni da esperti umani, un'alternativa comune è il campionamento da LM più grandi e potenti. Tuttavia, questo approccio di distillazione della conoscenza può essere costoso e instabile, specialmente quando si fa affidamento su LM proprietari e chiusi come GPT-4, i cui comportamenti sono spesso imprevedibili. In questo lavoro, dimostriamo che le capacità di ragionamento di LM su piccola scala possono essere potenziate attraverso l'auto-addestramento, un processo in cui i modelli apprendono dai propri output. Mostriamo inoltre che il convenzionale auto-addestramento può essere ulteriormente migliorato da un algoritmo di apprendimento delle preferenze chiamato Direct Preference Optimization (DPO). Integrando il DPO nell'auto-addestramento, sfruttiamo i dati di preferenza per guidare i LM verso un ragionamento a catena di pensiero più accurato e diversificato. Valutiamo il nostro metodo su vari compiti di ragionamento matematico utilizzando diversi modelli di base. I nostri esperimenti dimostrano che questo approccio non solo migliora le prestazioni di ragionamento dei LM, ma offre anche una soluzione più economica e scalabile rispetto all'affidamento a grandi LM proprietari.
I recenti modelli di ricostruzione 3D su larga scala impiegano tipicamente un processo in due fasi, che include prima la generazione di immagini multi-vista tramite un modello di diffusione multi-vista, e poi l'utilizzo di un modello feed-forward per ricostruire le immagini in contenuti 3D. Tuttavia, i modelli di diffusione multi-vista spesso producono immagini di bassa qualità e inconsistenti, influenzando negativamente la qualità della ricostruzione 3D finale. Per affrontare questo problema, proponiamo un framework unificato di generazione 3D chiamato Cycle3D, che utilizza ciclicamente un modulo di generazione basato su diffusione 2D e un modulo di ricostruzione 3D feed-forward durante il processo di diffusione multi-step. Nello specifico, il modello di diffusione 2D viene applicato per generare texture di alta qualità, mentre il modello di ricostruzione garantisce la consistenza multi-vista. Inoltre, il modello di diffusione 2D può ulteriormente controllare il contenuto generato e iniettare informazioni di vista di riferimento per viste non visibili, migliorando così la diversità e la consistenza della texture nella generazione 3D durante il processo di denoising. Esperimenti estensivi dimostrano la capacità superiore del nostro metodo di creare contenuti 3D con alta qualità e consistenza rispetto ai baseline state-of-the-art.
Immagina di osservare qualcuno che si gratta il braccio; per capire il motivo, sarebbe necessario un contesto aggiuntivo. Tuttavia, notare una zanzara nelle vicinanze offrirebbe immediatamente una spiegazione plausibile per il disagio della persona, eliminando così la necessità di ulteriori informazioni. Questo esempio illustra come sottili indizi visivi possano mettere alla prova le nostre capacità cognitive e dimostra la complessità dell'interpretazione di scenari visivi. Per studiare queste abilità, presentiamo Visual Riddles, un benchmark progettato per testare modelli di visione e linguaggio su enigmi visivi che richiedono buonsenso e conoscenza del mondo. Il benchmark comprende 400 enigmi visivi, ciascuno caratterizzato da un'immagine unica creata da vari modelli di testo-immagine, una domanda, una risposta corretta, un suggerimento testuale e un'attribuzione. La valutazione umana rivela che i modelli esistenti sono significativamente inferiori alle prestazioni umane, che raggiungono un'accuratezza dell'82%, con Gemini-Pro-1.5 in testa con un'accuratezza del 40%. Il nostro benchmark include compiti di valutazione automatica per rendere la valutazione scalabile. Questi risultati sottolineano il potenziale di Visual Riddles come risorsa preziosa per migliorare le capacità dei modelli di visione e linguaggio nell'interpretazione di scenari visivi complessi.
Il question answering multimodale 3D (MQA) svolge un ruolo cruciale nella comprensione delle scene, consentendo agli agenti intelligenti di comprendere il loro ambiente in contesti tridimensionali. Mentre la ricerca esistente si è principalmente concentrata su compiti domestici in ambienti interni e su attività di guida autonoma stradale in ambienti esterni, l'esplorazione delle attività di comprensione delle scene a livello cittadino è stata limitata. Inoltre, la ricerca esistente affronta sfide nella comprensione delle scene urbane, a causa dell'assenza di informazioni semantiche spaziali e di interazione uomo-ambiente a livello cittadino. Per affrontare queste sfide, investigiamo il 3D MQA sia dal punto di vista del dataset che del metodo. Dal punto di vista del dataset, introduciamo un nuovo dataset 3D MQA chiamato City-3DQA per la comprensione delle scene a livello cittadino, che è il primo dataset a incorporare compiti semantici delle scene e di interazione uomo-ambiente all'interno della città. Dal punto di vista del metodo, proponiamo un metodo di comprensione a livello cittadino potenziato da grafo di scene (Sg-CityU), che utilizza il grafo di scene per introdurre la semantica spaziale. Viene riportato un nuovo benchmark e il nostro metodo Sg-CityU raggiunge un'accuratezza del 63,94% e del 63,76% in diverse configurazioni di City-3DQA. Rispetto ai metodi 3D MQA per ambienti interni e all'uso zero-shot di modelli linguistici avanzati (LLM), Sg-CityU dimostra prestazioni all'avanguardia (SOTA) in termini di robustezza e generalizzazione.
L'arabo classico rappresenta un'epoca significativa, che abbraccia l'età d'oro della cultura, della filosofia e della letteratura scientifica araba. Con un ampio consenso sull'importanza di tradurre queste opere per arricchire la diffusione della conoscenza tra le comunità, l'avvento dei grandi modelli linguistici (LLM) e dei sistemi di traduzione offre strumenti promettenti per facilitare questo obiettivo. Tuttavia, abbiamo identificato una carenza di dataset di traduzione in arabo classico, spesso limitati nell'ambito e nei temi, ostacolando lo sviluppo di sistemi di traduzione di alta qualità. In risposta, presentiamo il dataset ATHAR, composto da 66.000 campioni di traduzione di alta qualità dall'arabo classico all'inglese, che coprono un'ampia gamma di argomenti tra cui scienza, cultura e filosofia. Inoltre, valutiamo le prestazioni degli attuali LLM all'avanguardia in varie configurazioni, concludendo che c'è un bisogno di tali dataset nei sistemi attuali. I nostri risultati evidenziano come i modelli possano trarre vantaggio dalla messa a punto o dall'incorporazione di questo dataset nei loro pipeline di pre-addestramento. Il dataset è pubblicamente disponibile sull'HuggingFace Data Hub all'indirizzo https://huggingface.co/datasets/mohamed-khalil/ATHAR.
I modelli linguistici di grandi dimensioni (LLM) stanno rapidamente superando la conoscenza umana in molti ambiti. Sebbene il miglioramento di questi modelli tradizionalmente si basi su dati umani costosi, recenti meccanismi di auto-ricompensa (Yuan et al., 2024) hanno dimostrato che gli LLM possono migliorare valutando le proprie risposte invece di affidarsi a etichettatori umani. Tuttavia, i metodi esistenti si sono concentrati principalmente sul miglioramento delle risposte del modello piuttosto che sulle capacità di giudizio, portando a una rapida saturazione durante l'addestramento iterativo. Per affrontare questo problema, introduciamo un nuovo passo di Meta-Ricompensa nel processo di auto-miglioramento, in cui il modello valuta i propri giudizi e utilizza tale feedback per affinare le proprie capacità di giudizio. Sorprendentemente, questo approccio non supervisionato migliora la capacità del modello sia di giudicare che di seguire le istruzioni, come dimostrato da un aumento del tasso di vittoria di Llama-3-8B-Instruct dal 22,9% al 39,4% su AlpacaEval 2 e dal 20,6% al 29,1% su Arena-Hard. Questi risultati suggeriscono fortemente il potenziale per modelli auto-miglioranti senza supervisione umana.
I modelli generativi, come i modelli di diffusione (DMs), gli autoencoder variazionali (VAEs) e le reti generative avversarie (GANs), producono immagini con un livello di autenticità tale da renderle quasi indistinguibili da fotografie e opere d'arte reali. Sebbene questa capacità sia vantaggiosa per molti settori, la difficoltà di identificare immagini sintetiche rende le piattaforme di media online vulnerabili a tentativi di impersonificazione e disinformazione. Per supportare lo sviluppo di metodi difensivi, introduciamo ImagiNet, un dataset ad alta risoluzione e bilanciato per il rilevamento di immagini sintetiche, progettato per mitigare potenziali distorsioni presenti nelle risorse esistenti. Esso contiene 200K esempi, suddivisi in quattro categorie di contenuto: fotografie, dipinti, volti e non categorizzati. Le immagini sintetiche sono prodotte con generatori open-source e proprietari, mentre le controparti reali dello stesso tipo di contenuto sono raccolte da dataset pubblici. La struttura di ImagiNet consente un sistema di valutazione a due tracce: i) classificazione come reale o sintetica e ii) identificazione del modello generativo. Per stabilire una baseline, addestriamo un modello ResNet-50 utilizzando un obiettivo contrastivo auto-supervisionato (SelfCon) per ciascuna traccia. Il modello dimostra prestazioni all'avanguardia e un'elevata velocità di inferenza su benchmark consolidati, raggiungendo un AUC fino a 0.99 e un'accuratezza bilanciata compresa tra l'86% e il 95%, anche in condizioni di social network che comportano compressione e ridimensionamento. I nostri dati e il codice sono disponibili all'indirizzo https://github.com/delyan-boychev/imaginet.
L'analisi del sentiment è un'area ampiamente studiata nell'ambito dell'Elaborazione del Linguaggio Naturale (NLP), che attira un notevole interesse grazie all'avvento di soluzioni automatizzate. Nonostante ciò, il compito rimane impegnativo a causa della complessità intrinseca delle lingue e della natura soggettiva dei sentimenti. È ancora più difficile per lingue meno studiate e con meno risorse, come il lituano. La nostra revisione della ricerca esistente sul NLP lituano rivela che i tradizionali metodi di apprendimento automatico e gli algoritmi di classificazione hanno un'efficacia limitata per questo compito. In questo lavoro, affrontiamo l'analisi del sentiment delle recensioni online lituane basate su cinque stelle, raccolte e ripulite da più domini. Applichiamo per la prima volta modelli transformer a questo compito, esplorando le capacità dei modelli linguistici multilingue pre-addestrati (LLM), concentrandoci in particolare sul fine-tuning dei modelli BERT e T5. Data la difficoltà intrinseca del compito, i modelli fine-tuned performano piuttosto bene, specialmente quando i sentimenti stessi sono meno ambigui: 80,74% e 89,61% di accuratezza di riconoscimento nei test rispettivamente per le recensioni a una e cinque stelle più popolari. Essi superano significativamente l'attuale LLM generico all'avanguardia GPT-4. Condividiamo apertamente i nostri LLM fine-tuned online.
La creazione di avatar fotorealistici per individui richiede tradizionalmente sessioni di acquisizione estese con dispositivi da studio complessi e costosi come il sistema LightStage. Sebbene i recenti progressi nelle rappresentazioni neurali abbiano reso possibile la generazione di avatar 3D fotorealistici e animabili a partire da scansioni rapide effettuate con uno smartphone, questi presentano l'illuminazione al momento dell'acquisizione "cotta" all'interno, mancano di dettagli facciali e hanno regioni mancanti in aree come la parte posteriore delle orecchie. Di conseguenza, la loro qualità è inferiore rispetto a quella degli avatar acquisiti in studio. In questo articolo, proponiamo un metodo che colma questo divario generando mappe di texture illuminate in modo simile a quelle da studio a partire da brevi acquisizioni monoculari effettuate con uno smartphone. Raggiungiamo questo risultato parametrizzando le mappe di texture dello smartphone utilizzando lo spazio W^+ di uno StyleGAN2, consentendo una ricostruzione quasi perfetta. Successivamente, ottimizziamo uno StyleGAN2 campionando nello spazio parametrizzato W^+ utilizzando un insieme molto ridotto di texture acquisite in studio come segnale di addestramento avversario. Per migliorare ulteriormente il realismo e l'accuratezza dei dettagli facciali, aumentiamo la risoluzione dell'output dello StyleGAN2 utilizzando un modello di diffusione progettato con cura e guidato dai gradienti dell'immagine della mappa di texture acquisita con lo smartphone. Una volta addestrato, il nostro metodo eccelle nella produzione di mappe di texture facciali simili a quelle da studio a partire da video monoculari casuali realizzati con uno smartphone. Dimostrando le sue capacità, mostriamo la generazione di avatar fotorealistici, uniformemente illuminati e completi a partire da acquisizioni monoculari effettuate con uno smartphone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{La pagina del progetto può essere trovata qui.}
Presentiamo un nuovo approccio per comprendere la struttura di periodicità e la semantica di dataset di movimento, indipendentemente dalla morfologia e dalla struttura scheletrica dei personaggi. A differenza dei metodi esistenti che utilizzano uno spazio latente ad alta dimensionalità eccessivamente sparso, proponiamo una varietà di fase composta da multiple curve chiuse, ciascuna corrispondente a un'ampiezza latente. Con il nostro autoencoder periodico a quantizzazione vettoriale proposto, apprendiamo una varietà di fase condivisa per più personaggi, come un umano e un cane, senza alcuna supervisione. Questo è ottenuto sfruttando la struttura discreta e una rete poco profonda come colli di bottiglia, in modo che movimenti semanticamente simili siano raggruppati nella stessa curva della varietà, e i movimenti all'interno della stessa componente siano allineati temporalmente dalla variabile di fase. In combinazione con un framework migliorato di corrispondenza del movimento, dimostriamo la capacità della varietà di allineamento temporale e semantico in diverse applicazioni, tra cui il recupero, il trasferimento e la stilizzazione del movimento. Il codice e i modelli pre-addestrati per questo articolo sono disponibili all'indirizzo https://peizhuoli.github.io/walkthedog.
La generalizzabilità di dominio è un aspetto cruciale di un modello di deep learning, poiché determina la capacità del modello di performare bene su dati provenienti da domini non visti. Tuttavia, la ricerca sulla generalizzabilità di dominio dei modelli di deep learning per compiti di visione e linguaggio rimane limitata, principalmente a causa della mancanza di dataset necessari. Per affrontare queste sfide, proponiamo VolDoGer: Vision-Language Dataset for Domain Generalization, un dataset dedicato progettato per la generalizzazione di dominio che affronta tre compiti di visione e linguaggio: generazione di didascalie per immagini, risposta a domande visive e inferenza visiva. Abbiamo costruito VolDoGer estendendo le tecniche di annotazione dati basate su LLM ai compiti di visione e linguaggio, alleviando così il carico di reclutare annotatori umani. Abbiamo valutato la generalizzabilità di dominio di vari modelli, che vanno da modelli fine-tuned a un recente modello multimodale di linguaggio di grandi dimensioni, attraverso VolDoGer.
In questo articolo presentiamo TAPTRv2, un approccio basato su Transformer costruito su TAPTR per risolvere il compito di Tracking Any Point (TAP). TAPTR prende in prestito design da DEtection TRansformer (DETR) e formula ogni punto di tracciamento come una query puntuale, rendendo possibile sfruttare operazioni ben studiate in algoritmi simili a DETR. TAPTRv2 migliora TAPTR affrontando un problema critico relativo alla sua dipendenza dal cost-volume, che contamina la feature di contenuto della query puntuale e influisce negativamente sia sulla previsione della visibilità che sul calcolo del cost-volume. In TAPTRv2, proponiamo una nuova operazione di aggiornamento della posizione basata sull'attenzione (APU) e utilizziamo l'attenzione deformabile key-aware per realizzarla. Per ogni query, questa operazione utilizza pesi di attenzione key-aware per combinare le corrispondenti posizioni di campionamento deformabili e prevedere una nuova posizione della query. Questo design si basa sull'osservazione che l'attenzione locale è essenzialmente la stessa del cost-volume, entrambi calcolati tramite prodotto scalare tra una query e le feature circostanti. Introducendo questa nuova operazione, TAPTRv2 non solo rimuove il carico aggiuntivo del calcolo del cost-volume, ma porta anche a un sostanziale miglioramento delle prestazioni. TAPTRv2 supera TAPTR e raggiunge prestazioni all'avanguardia su molti dataset impegnativi, dimostrando la sua superiorità.