Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Reka Core, Flash e Edge, una serie di potenti modelli linguistici multimodali addestrati da zero da Reka. I modelli Reka sono in grado di elaborare e ragionare su input di testo, immagini, video e audio. Questo rapporto tecnico discute i dettagli dell'addestramento di alcuni di questi modelli e fornisce risultati di valutazione completi. Dimostriamo che Reka Edge e Reka Flash non solo sono all'avanguardia, ma superano anche molti modelli molto più grandi, offrendo un valore sproporzionato rispetto alla loro classe di calcolo. Nel frattempo, il nostro modello più capace e più grande, Reka Core, si avvicina ai migliori modelli di frontiera sia nelle valutazioni automatiche che nelle valutazioni umane in cieco. Sui benchmark di risposta alle domande basate su immagini (ad esempio MMMU, VQAv2), Core si comporta in modo competitivo rispetto a GPT4-V. Nel frattempo, nella chat multimodale, Core si classifica come il secondo modello più preferito in una configurazione di valutazione umana in cieco da parte di terzi, superando altri modelli come Claude 3 Opus. Sui benchmark di testo, Core non solo si comporta in modo competitivo rispetto ad altri modelli di frontiera su una serie di benchmark ben consolidati (ad esempio MMLU, GSM8K), ma supera anche GPT4-0613 nella valutazione umana. Nella risposta alle domande basate su video (Perception-Test), Core supera Gemini Ultra. I modelli sono disponibili in produzione su http://chat.reka.ai. Una vetrina di esempi qualitativi non selezionati in modo arbitrario è disponibile anche su http://showcase.reka.ai.
Presentiamo Blink, un nuovo benchmark per modelli linguistici multimodali (LLM) che si concentra sulle abilità fondamentali di percezione visiva non presenti in altre valutazioni. La maggior parte dei compiti di Blink può essere risolta dagli esseri umani "in un batter d'occhio" (ad esempio, stima della profondità relativa, corrispondenza visiva, rilevamento forense e ragionamento multi-vista). Tuttavia, scopriamo che questi compiti ad alta richiesta percettiva rappresentano sfide significative per gli attuali LLM multimodali, poiché resistono alla mediazione attraverso il linguaggio naturale. Blink riformatta 14 classici compiti di computer vision in 3.807 domande a scelta multipla, abbinate a una o più immagini e prompt visivi. Mentre gli esseri umani ottengono una precisione media del 95,70%, Blink si rivela sorprendentemente impegnativo per gli attuali LLM multimodali: anche i migliori GPT-4V e Gemini raggiungono precisioni del 51,26% e 45,72%, solo il 13,17% e il 7,63% in più rispetto a un'ipotesi casuale, indicando che tali abilità percettive non sono ancora "emerse" nei recenti LLM multimodali. La nostra analisi evidenzia inoltre che i modelli specializzati di computer vision potrebbero risolvere questi problemi in modo molto migliore, suggerendo potenziali percorsi per miglioramenti futuri. Crediamo che Blink stimolerà la comunità a aiutare gli LLM multimodali a raggiungere la percezione visiva di livello umano.
Clipart, una forma di grafica predefinita, offre un modo comodo ed efficiente per illustrare contenuti visivi. I flussi di lavoro tradizionali per convertire immagini clipart statiche in sequenze di movimento sono laboriosi e dispendiosi in termini di tempo, coinvolgendo numerosi passaggi intricati come il rigging, l'animazione chiave e l'interpolazione. I recenti progressi nella generazione di video da testo hanno un grande potenziale nel risolvere questo problema. Tuttavia, l'applicazione diretta di modelli di generazione video da testo spesso fatica a mantenere l'identità visiva delle immagini clipart o a generare movimenti in stile cartone animato, portando a risultati di animazione insoddisfacenti. In questo articolo, introduciamo AniClipart, un sistema che trasforma immagini clipart statiche in sequenze di movimento di alta qualità guidate da conoscenze pregresse di generazione video da testo. Per generare movimenti fluidi e in stile cartone animato, definiamo prima curve di Bézier sui punti chiave dell'immagine clipart come forma di regolarizzazione del movimento. Allineiamo poi le traiettorie di movimento dei punti chiave con il prompt di testo fornito ottimizzando la funzione di perdita Video Score Distillation Sampling (VSDS), che codifica una conoscenza adeguata del movimento naturale all'interno di un modello di diffusione video da testo preaddestrato. Con un algoritmo di deformazione della forma As-Rigid-As-Possible differenziabile, il nostro metodo può essere ottimizzato end-to-end mantenendo la rigidità della deformazione. I risultati sperimentali mostrano che il proposto AniClipart supera costantemente i modelli esistenti di generazione video da immagini, in termini di allineamento testo-video, preservazione dell'identità visiva e coerenza del movimento. Inoltre, dimostriamo la versatilità di AniClipart adattandolo per generare una gamma più ampia di formati di animazione, come l'animazione stratificata, che consente cambiamenti topologici.
Il fine-tuning di LLM preaddestrati per una varietà di task downstream ha dimostrato un successo notevole e ha catturato l'interesse sia del mondo accademico che dei professionisti. Per garantire che tali LLM fine-tunati siano allineati con le preferenze umane, sono emerse tecniche come RLHF e DPO. Allo stesso tempo, c'è un crescente interesse per modelli con un numero ridotto di parametri. In questo lavoro, utilizzando OpenLLaMA 3Bv2 come modello di base, descriviamo la ricetta utilizzata per il fine-tuning della famiglia di modelli OpenBezoar. In questa ricetta: generiamo prima dati sintetici per il fine-tuning su istruzioni utilizzando una variante open e commercialmente non restrittiva del modello Falcon-40B fine-tunato su istruzioni, seguendo tre schemi basati su: LaMini-LM, WizardLM/Evol-Instruct (con il dataset databricks-dolly-15k come dataset di partenza) e Orca (con la Flan Collection come dataset di partenza), quindi filtriamo queste generazioni utilizzando GPT-4 come proxy umano. Successivamente, eseguiamo un fine-tuning supervisionato basato su QLoRA in modo sequenziale con ciascuno schema. Il checkpoint risultante viene ulteriormente fine-tunato con un sottoinsieme del dataset HH-RLHF per minimizzare lo spostamento di distribuzione prima di utilizzare la loss DPO per ottenere il checkpoint finale. La valutazione viene effettuata con i task/metriche di LM Eval Harness e su MT-Bench utilizzando il framework "LLM-as-a-judge" con Claude 2.1, con il risultato che il checkpoint finale, "OpenBezoar-HH-RLHF-DPO", dimostra prestazioni superiori rispetto a molti modelli con 3B parametri, superando persino il modello migliore in una delle categorie della Huggingface Open LLM Leaderboard. Rilasciamo i checkpoint "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", insieme ai nostri dataset generati su HuggingFace all'indirizzo https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc e il nostro codice su https://bitbucket.org/paladinanalytics/workspace/projects/OP.