Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici hanno dimostrato efficacia in una varietà di applicazioni software, in particolare in compiti relativi al flusso di lavoro automatico. Questi modelli possiedono la capacità cruciale di chiamare funzioni, essenziale per la creazione di agenti AI. Nonostante le elevate prestazioni dei modelli linguistici su larga scala in ambienti cloud, sono spesso associati a preoccupazioni riguardanti la privacy e i costi. Gli attuali modelli on-device per la chiamata di funzioni affrontano problemi di latenza e accuratezza. La nostra ricerca presenta un nuovo metodo che consente a un modello on-device con 2 miliardi di parametri di superare le prestazioni di GPT-4 sia in termini di accuratezza che di latenza, riducendo la lunghezza del contesto del 95\%. Rispetto a Llama-7B con un meccanismo di chiamata di funzioni basato su RAG, il nostro metodo migliora la latenza di 35 volte. Questo metodo riduce la latenza a livelli ritenuti adatti per il deployment su una varietà di dispositivi edge in ambienti di produzione, allineandosi ai requisiti di prestazione per applicazioni nel mondo reale.
Presentiamo Eurus, una suite di modelli linguistici di grandi dimensioni (LLM) ottimizzati per il ragionamento. Addestrati a partire da Mistral-7B e CodeLlama-70B, i modelli Eurus raggiungono risultati all'avanguardia tra i modelli open-source su un insieme diversificato di benchmark che coprono matematica, generazione di codice e problemi di ragionamento logico. In particolare, Eurus-70B supera GPT-3.5 Turbo nel ragionamento attraverso un benchmarking completo su 12 test che coprono cinque task, e raggiunge un'accuratezza pass@1 del 33.3% su LeetCode e del 32.6% su TheoremQA, due benchmark impegnativi, superando sostanzialmente i modelli open-source esistenti con margini superiori al 13.3%. L'elevata performance di Eurus può essere attribuita principalmente a UltraInteract, il nostro nuovo dataset di allineamento su larga scala e di alta qualità, specificamente progettato per task di ragionamento complesso. UltraInteract può essere utilizzato sia per il fine-tuning supervisionato che per l'apprendimento delle preferenze. Per ogni istruzione, include un albero delle preferenze costituito da (1) catene di ragionamento con diverse strategie di pianificazione in un formato unificato, (2) traiettorie di interazione multi-turn con l'ambiente e la critica, e (3) dati a coppie per facilitare l'apprendimento delle preferenze. UltraInteract ci consente di condurre un'esplorazione approfondita dell'apprendimento delle preferenze per task di ragionamento. La nostra indagine rivela che alcuni algoritmi di apprendimento delle preferenze ben consolidati possono essere meno adatti per task di ragionamento rispetto alla loro efficacia nelle conversazioni generali. Ispirati da ciò, deriviamo un nuovo obiettivo di modellazione della ricompensa che, insieme a UltraInteract, porta a un forte modello di ricompensa.
I Large Language Model (LLM) hanno compiuto progressi significativi nella gestione di sequenze lunghe che superano i 32K token. Tuttavia, la loro valutazione delle prestazioni è stata in gran parte limitata a metriche come la perplessità e compiti sintetici, che potrebbero non cogliere appieno le loro capacità in scenari reali più complessi. Questo studio introduce un benchmark specializzato (LIConBench) focalizzato sull'apprendimento in-context lungo nel campo della classificazione con etichette estreme. Abbiamo selezionato meticolosamente sei dataset con un intervallo di etichette che va da 28 a 174 classi, coprendo diverse lunghezze di input (dimostrazioni few-shot) da 2K a 50K. Il nostro benchmark richiede che gli LLM comprendano l'intero input per riconoscere gli ampi spazi di etichette e fare previsioni corrette. Abbiamo valutato 13 LLM a contesto lungo sul nostro benchmark. Abbiamo riscontrato che gli LLM a contesto lungo performano relativamente bene con una lunghezza di token inferiore a 20K e che le prestazioni beneficiano dell'utilizzo di una finestra di contesto lunga. Tuttavia, quando la finestra di contesto supera i 20K, la maggior parte degli LLM, ad eccezione di GPT-4, subisce un calo drastico. Ciò suggerisce un divario significativo nelle capacità attuali degli LLM nel processare e comprendere sequenze lunghe e ricche di contesto. Un'ulteriore analisi ha rivelato una tendenza tra i modelli a favorire le previsioni per le etichette presentate verso la fine della sequenza. La loro capacità di ragionare su più elementi nella sequenza lunga deve ancora essere migliorata. Il nostro studio rivela che la comprensione e il ragionamento su contesti lunghi rimane un compito impegnativo per gli LLM esistenti. Crediamo che LIConBench possa servire come una valutazione più realistica per i futuri LLM a contesto lungo.
Addestriamo una suite di modelli fondazionali multimodali (MMFM) utilizzando il popolare framework LLaVA con la recente famiglia di modelli linguistici di grandi dimensioni (LLM) Gemma. Di particolare interesse è il modello Gemma da 2B parametri, che offre opportunità per costruire MMFM di piccole dimensioni ma capaci. In linea con i risultati di altri lavori in questo ambito, testiamo l'effetto dell'ablazione di tre caratteristiche progettuali: il pretraining del connettore, l'utilizzo di un backbone visivo più potente e l'aumento delle dimensioni del backbone linguistico. I modelli risultanti, che chiamiamo LLaVA-Gemma, mostrano prestazioni moderate in una serie di valutazioni, ma non riescono a superare gli attuali modelli SOTA di dimensioni comparabili. Un'analisi più approfondita delle prestazioni mostra effetti contrastanti: saltare il pretraining tende a ridurre le prestazioni, modelli visivi più grandi a volte migliorano le prestazioni e l'aumento delle dimensioni del modello linguistico ha effetti incoerenti. Rilasciamo pubblicamente le ricette di addestramento, il codice e i pesi per i nostri modelli LLaVA-Gemma.
Presentiamo HyperCLOVA X, una famiglia di modelli linguistici di grandi dimensioni (LLM) ottimizzati per la lingua e la cultura coreana, con capacità competitive in inglese, matematica e programmazione. HyperCLOVA X è stato addestrato su un mix bilanciato di dati in coreano, inglese e codice, seguito da un fine-tuning con istruzioni basato su dataset di alta qualità annotati manualmente, nel rispetto di rigide linee guida sulla sicurezza che riflettono il nostro impegno verso un’IA responsabile. Il modello è stato valutato su vari benchmark, che includono ragionamento complesso, conoscenza, senso comune, fattualità, programmazione, matematica, conversazione, capacità di seguire istruzioni e innocuità, sia in coreano che in inglese. HyperCLOVA X dimostra forti capacità di ragionamento in coreano, sostenute da una profonda comprensione della lingua e delle sfumature culturali. Un’ulteriore analisi della sua natura bilingue intrinseca e della sua estensione al multilinguismo evidenzia la competenza cross-lingue del modello e la sua forte capacità di generalizzazione verso lingue non target, inclusa la traduzione automatica tra diverse coppie di lingue e compiti di inferenza cross-lingue. Crediamo che HyperCLOVA X possa fornire una guida utile per regioni o paesi nello sviluppo dei propri LLM sovrani.
La controllabilità svolge un ruolo cruciale nella generazione di video poiché consente agli utenti di creare contenuti desiderati. Tuttavia, i modelli esistenti hanno largamente trascurato il controllo preciso della posa della telecamera, che funge da linguaggio cinematografico per esprimere sfumature narrative più profonde. Per mitigare questo problema, introduciamo CameraCtrl, che abilita un controllo accurato della posa della telecamera per i modelli di testo-a-video (T2V). Dopo aver parametrizzato con precisione la traiettoria della telecamera, un modulo plug-and-play della telecamera viene addestrato su un modello T2V, lasciando gli altri invariati. Inoltre, viene condotto uno studio approfondito sull'effetto di vari dataset, suggerendo che i video con una distribuzione diversificata della telecamera e aspetti simili migliorano effettivamente la controllabilità e la generalizzazione. I risultati sperimentali dimostrano l'efficacia di CameraCtrl nel raggiungere un controllo preciso e adattabile al dominio della telecamera, segnando un passo avanti nella ricerca di una narrazione video dinamica e personalizzata a partire da input testuali e di posa della telecamera. Il sito web del nostro progetto è disponibile all'indirizzo: https://hehao13.github.io/projects-CameraCtrl/.
Studiamo le proprietà di scalabilità dei modelli di diffusione latente (LDM) con un'enfasi sulla loro efficienza di campionamento. Sebbene miglioramenti nell'architettura di rete e negli algoritmi di inferenza abbiano dimostrato di aumentare efficacemente l'efficienza di campionamento dei modelli di diffusione, il ruolo della dimensione del modello -- un fattore critico per l'efficienza di campionamento -- non è stato esaminato approfonditamente. Attraverso un'analisi empirica di modelli di diffusione testo-immagine consolidati, conduciamo un'indagine dettagliata su come la dimensione del modello influenzi l'efficienza di campionamento al variare dei passi di campionamento. Le nostre scoperte rivelano una tendenza sorprendente: quando operano con un budget di inferenza dato, modelli più piccoli spesso superano le loro controparti più grandi nella generazione di risultati di alta qualità. Inoltre, estendiamo il nostro studio per dimostrare la generalizzabilità di questi risultati applicando vari campionatori di diffusione, esplorando diverse attività downstream, valutando modelli post-distillati e confrontando le prestazioni relative al calcolo di addestramento. Questi risultati aprono nuove strade per lo sviluppo di strategie di scalabilità dei LDM che possono essere impiegate per migliorare le capacità generative entro budget di inferenza limitati.
I grandi modelli linguistici (LLM) hanno suscitato un interesse diffuso grazie alla loro capacità di elaborare il linguaggio umano e svolgere compiti per i quali non sono stati esplicitamente addestrati. Questo è rilevante per le scienze chimiche, che affrontano il problema di dataset piccoli e diversificati, spesso in forma testuale. Gli LLM hanno dimostrato potenziale nel risolvere queste problematiche e sono sempre più utilizzati per prevedere proprietà chimiche, ottimizzare reazioni e persino progettare e condurre esperimenti in modo autonomo. Tuttavia, abbiamo ancora una comprensione sistematica molto limitata delle capacità di ragionamento chimico degli LLM, che sarebbe necessaria per migliorare i modelli e mitigare potenziali rischi. Qui presentiamo "ChemBench", un framework automatizzato progettato per valutare rigorosamente le conoscenze chimiche e le abilità di ragionamento degli LLM più avanzati rispetto all’esperienza dei chimici umani. Abbiamo curato oltre 7.000 coppie domanda-risposta per una vasta gamma di sottocampi delle scienze chimiche, valutato i principali LLM open-source e proprietari, e scoperto che i migliori modelli hanno superato in media i migliori chimici umani nel nostro studio. Tuttavia, i modelli incontrano difficoltà in alcuni compiti di ragionamento chimico che sono semplici per gli esperti umani e forniscono previsioni eccessivamente sicure e fuorvianti, ad esempio riguardo ai profili di sicurezza delle sostanze chimiche. Questi risultati evidenziano la duplice realtà che, sebbene gli LLM dimostrino una notevole competenza nei compiti chimici, ulteriori ricerche sono cruciali per migliorare la loro sicurezza e utilità nelle scienze chimiche. I nostri risultati indicano anche la necessità di adattamenti ai curricula di chimica e sottolineano l’importanza di continuare a sviluppare framework di valutazione per migliorare gli LLM in modo sicuro e utile.
Il pretraining dei modelli linguistici all'avanguardia di grandi dimensioni richiede ora trilioni di parole di testo, una quantità che supera di ordini di grandezza quella disponibile per la stragrande maggioranza delle lingue. Sebbene includere testi in più di una lingua sia un modo ovvio per acquisire più dati di pretraining, il multilinguismo è spesso visto come una maledizione, e la maggior parte degli sforzi di addestramento dei modelli continua a concentrarsi quasi esclusivamente su singole lingue di grandi dimensioni. Noi crediamo che il multilinguismo possa essere una benedizione e che dovrebbe essere possibile migliorare sostanzialmente le capacità dei modelli monolingue per le lingue minori attraverso un addestramento multilingue. In questo studio, presentiamo Poro 34B, un modello da 34 miliardi di parametri addestrato su 1 trilione di token di finlandese, inglese e linguaggi di programmazione, e dimostriamo che un approccio di addestramento multilingue può produrre un modello che non solo supera significativamente le capacità dei modelli esistenti per il finlandese, ma eccelle anche nella traduzione ed è competitivo nella sua classe nella generazione di inglese e linguaggi di programmazione. Rilasciamo i parametri del modello, gli script e i dati con licenze open su https://huggingface.co/LumiOpen/Poro-34B.
Proponiamo il 3D Congealing, un nuovo problema di allineamento 3D-aware per immagini 2D che catturano oggetti semanticamente simili. Dato un insieme di immagini Internet non etichettate, il nostro obiettivo è associare le parti semantiche condivise dagli input e aggregare la conoscenza dalle immagini 2D in uno spazio canonico 3D condiviso. Introduciamo un framework generale che affronta il compito senza assumere modelli di forma, pose o parametri della fotocamera. Al suo centro c'è una rappresentazione canonica 3D che racchiude informazioni geometriche e semantiche. Il framework ottimizza la rappresentazione canonica insieme alla posa per ogni immagine di input e una mappa di coordinate per immagine che deforma le coordinate dei pixel 2D nel frame canonico 3D per tenere conto della corrispondenza delle forme. La procedura di ottimizzazione fonde la conoscenza a priori di un modello generativo di immagini pre-addestrato e le informazioni semantiche delle immagini di input. Il primo fornisce una guida conoscitiva forte per questo compito sottovincolato, mentre il secondo fornisce le informazioni necessarie per mitigare il bias dei dati di addestramento del modello pre-addestrato. Il nostro framework può essere utilizzato per vari compiti come la corrispondenza di punti, la stima della posa e la modifica delle immagini, ottenendo risultati solidi su dataset di immagini reali in condizioni di illuminazione complesse e su raccolte di immagini online in-the-wild.
Presentiamo LLM-ABR, il primo sistema che sfrutta le capacità generative dei grandi modelli linguistici (LLM) per progettare in modo autonomo algoritmi di adattamento del bitrate (ABR) ottimizzati per diverse caratteristiche di rete. Operando all'interno di un framework di apprendimento per rinforzo, LLM-ABR consente ai LLM di progettare componenti chiave come gli stati e le architetture di reti neurali. Valutiamo LLM-ABR in vari contesti di rete, tra cui banda larga, satellitare, 4G e 5G. LLM-ABR supera costantemente gli algoritmi ABR predefiniti.