HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

Octopus v2: Modello linguistico su dispositivo per super agenti
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

I modelli linguistici hanno dimostrato efficacia in una varietà di applicazioni software, in particolare in compiti relativi al flusso di lavoro automatico. Questi modelli possiedono la capacità cruciale di chiamare funzioni, essenziale per la creazione di agenti AI. Nonostante le elevate prestazioni dei modelli linguistici su larga scala in ambienti cloud, sono spesso associati a preoccupazioni riguardanti la privacy e i costi. Gli attuali modelli on-device per la chiamata di funzioni affrontano problemi di latenza e accuratezza. La nostra ricerca presenta un nuovo metodo che consente a un modello on-device con 2 miliardi di parametri di superare le prestazioni di GPT-4 sia in termini di accuratezza che di latenza, riducendo la lunghezza del contesto del 95\%. Rispetto a Llama-7B con un meccanismo di chiamata di funzioni basato su RAG, il nostro metodo migliora la latenza di 35 volte. Questo metodo riduce la latenza a livelli ritenuti adatti per il deployment su una varietà di dispositivi edge in ambienti di produzione, allineandosi ai requisiti di prestazione per applicazioni nel mondo reale.

Avanzamento dei Modelli Linguistici Generalisti nel Ragionamento attraverso Alberi di Preferenze
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

Presentiamo Eurus, una suite di modelli linguistici di grandi dimensioni (LLM) ottimizzati per il ragionamento. Addestrati a partire da Mistral-7B e CodeLlama-70B, i modelli Eurus raggiungono risultati all'avanguardia tra i modelli open-source su un insieme diversificato di benchmark che coprono matematica, generazione di codice e problemi di ragionamento logico. In particolare, Eurus-70B supera GPT-3.5 Turbo nel ragionamento attraverso un benchmarking completo su 12 test che coprono cinque task, e raggiunge un'accuratezza pass@1 del 33.3% su LeetCode e del 32.6% su TheoremQA, due benchmark impegnativi, superando sostanzialmente i modelli open-source esistenti con margini superiori al 13.3%. L'elevata performance di Eurus può essere attribuita principalmente a UltraInteract, il nostro nuovo dataset di allineamento su larga scala e di alta qualità, specificamente progettato per task di ragionamento complesso. UltraInteract può essere utilizzato sia per il fine-tuning supervisionato che per l'apprendimento delle preferenze. Per ogni istruzione, include un albero delle preferenze costituito da (1) catene di ragionamento con diverse strategie di pianificazione in un formato unificato, (2) traiettorie di interazione multi-turn con l'ambiente e la critica, e (3) dati a coppie per facilitare l'apprendimento delle preferenze. UltraInteract ci consente di condurre un'esplorazione approfondita dell'apprendimento delle preferenze per task di ragionamento. La nostra indagine rivela che alcuni algoritmi di apprendimento delle preferenze ben consolidati possono essere meno adatti per task di ragionamento rispetto alla loro efficacia nelle conversazioni generali. Ispirati da ciò, deriviamo un nuovo obiettivo di modellazione della ricompensa che, insieme a UltraInteract, porta a un forte modello di ricompensa.

I modelli linguistici a contesto lungo (LLM) mostrano difficoltà nell'apprendimento in-context con input estesi
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

I Large Language Model (LLM) hanno compiuto progressi significativi nella gestione di sequenze lunghe che superano i 32K token. Tuttavia, la loro valutazione delle prestazioni è stata in gran parte limitata a metriche come la perplessità e compiti sintetici, che potrebbero non cogliere appieno le loro capacità in scenari reali più complessi. Questo studio introduce un benchmark specializzato (LIConBench) focalizzato sull'apprendimento in-context lungo nel campo della classificazione con etichette estreme. Abbiamo selezionato meticolosamente sei dataset con un intervallo di etichette che va da 28 a 174 classi, coprendo diverse lunghezze di input (dimostrazioni few-shot) da 2K a 50K. Il nostro benchmark richiede che gli LLM comprendano l'intero input per riconoscere gli ampi spazi di etichette e fare previsioni corrette. Abbiamo valutato 13 LLM a contesto lungo sul nostro benchmark. Abbiamo riscontrato che gli LLM a contesto lungo performano relativamente bene con una lunghezza di token inferiore a 20K e che le prestazioni beneficiano dell'utilizzo di una finestra di contesto lunga. Tuttavia, quando la finestra di contesto supera i 20K, la maggior parte degli LLM, ad eccezione di GPT-4, subisce un calo drastico. Ciò suggerisce un divario significativo nelle capacità attuali degli LLM nel processare e comprendere sequenze lunghe e ricche di contesto. Un'ulteriore analisi ha rivelato una tendenza tra i modelli a favorire le previsioni per le etichette presentate verso la fine della sequenza. La loro capacità di ragionare su più elementi nella sequenza lunga deve ancora essere migliorata. Il nostro studio rivela che la comprensione e il ragionamento su contesti lunghi rimane un compito impegnativo per gli LLM esistenti. Crediamo che LIConBench possa servire come una valutazione più realistica per i futuri LLM a contesto lungo.

LLaVA-Gemma: Accelerazione dei Modelli Fondamentali Multimodali con un Modello Linguistico Compatto
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

Addestriamo una suite di modelli fondazionali multimodali (MMFM) utilizzando il popolare framework LLaVA con la recente famiglia di modelli linguistici di grandi dimensioni (LLM) Gemma. Di particolare interesse è il modello Gemma da 2B parametri, che offre opportunità per costruire MMFM di piccole dimensioni ma capaci. In linea con i risultati di altri lavori in questo ambito, testiamo l'effetto dell'ablazione di tre caratteristiche progettuali: il pretraining del connettore, l'utilizzo di un backbone visivo più potente e l'aumento delle dimensioni del backbone linguistico. I modelli risultanti, che chiamiamo LLaVA-Gemma, mostrano prestazioni moderate in una serie di valutazioni, ma non riescono a superare gli attuali modelli SOTA di dimensioni comparabili. Un'analisi più approfondita delle prestazioni mostra effetti contrastanti: saltare il pretraining tende a ridurre le prestazioni, modelli visivi più grandi a volte migliorano le prestazioni e l'aumento delle dimensioni del modello linguistico ha effetti incoerenti. Rilasciamo pubblicamente le ricette di addestramento, il codice e i pesi per i nostri modelli LLaVA-Gemma.

Rapporto Tecnico di HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

Presentiamo HyperCLOVA X, una famiglia di modelli linguistici di grandi dimensioni (LLM) ottimizzati per la lingua e la cultura coreana, con capacità competitive in inglese, matematica e programmazione. HyperCLOVA X è stato addestrato su un mix bilanciato di dati in coreano, inglese e codice, seguito da un fine-tuning con istruzioni basato su dataset di alta qualità annotati manualmente, nel rispetto di rigide linee guida sulla sicurezza che riflettono il nostro impegno verso un’IA responsabile. Il modello è stato valutato su vari benchmark, che includono ragionamento complesso, conoscenza, senso comune, fattualità, programmazione, matematica, conversazione, capacità di seguire istruzioni e innocuità, sia in coreano che in inglese. HyperCLOVA X dimostra forti capacità di ragionamento in coreano, sostenute da una profonda comprensione della lingua e delle sfumature culturali. Un’ulteriore analisi della sua natura bilingue intrinseca e della sua estensione al multilinguismo evidenzia la competenza cross-lingue del modello e la sua forte capacità di generalizzazione verso lingue non target, inclusa la traduzione automatica tra diverse coppie di lingue e compiti di inferenza cross-lingue. Crediamo che HyperCLOVA X possa fornire una guida utile per regioni o paesi nello sviluppo dei propri LLM sovrani.

CameraCtrl: Abilitazione del Controllo della Fotocamera per la Generazione di Video da Testo
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

La controllabilità svolge un ruolo cruciale nella generazione di video poiché consente agli utenti di creare contenuti desiderati. Tuttavia, i modelli esistenti hanno largamente trascurato il controllo preciso della posa della telecamera, che funge da linguaggio cinematografico per esprimere sfumature narrative più profonde. Per mitigare questo problema, introduciamo CameraCtrl, che abilita un controllo accurato della posa della telecamera per i modelli di testo-a-video (T2V). Dopo aver parametrizzato con precisione la traiettoria della telecamera, un modulo plug-and-play della telecamera viene addestrato su un modello T2V, lasciando gli altri invariati. Inoltre, viene condotto uno studio approfondito sull'effetto di vari dataset, suggerendo che i video con una distribuzione diversificata della telecamera e aspetti simili migliorano effettivamente la controllabilità e la generalizzazione. I risultati sperimentali dimostrano l'efficacia di CameraCtrl nel raggiungere un controllo preciso e adattabile al dominio della telecamera, segnando un passo avanti nella ricerca di una narrazione video dinamica e personalizzata a partire da input testuali e di posa della telecamera. Il sito web del nostro progetto è disponibile all'indirizzo: https://hehao13.github.io/projects-CameraCtrl/.

Più grande non è sempre meglio: Proprietà di scalabilità dei modelli di diffusione latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

Studiamo le proprietà di scalabilità dei modelli di diffusione latente (LDM) con un'enfasi sulla loro efficienza di campionamento. Sebbene miglioramenti nell'architettura di rete e negli algoritmi di inferenza abbiano dimostrato di aumentare efficacemente l'efficienza di campionamento dei modelli di diffusione, il ruolo della dimensione del modello -- un fattore critico per l'efficienza di campionamento -- non è stato esaminato approfonditamente. Attraverso un'analisi empirica di modelli di diffusione testo-immagine consolidati, conduciamo un'indagine dettagliata su come la dimensione del modello influenzi l'efficienza di campionamento al variare dei passi di campionamento. Le nostre scoperte rivelano una tendenza sorprendente: quando operano con un budget di inferenza dato, modelli più piccoli spesso superano le loro controparti più grandi nella generazione di risultati di alta qualità. Inoltre, estendiamo il nostro studio per dimostrare la generalizzabilità di questi risultati applicando vari campionatori di diffusione, esplorando diverse attività downstream, valutando modelli post-distillati e confrontando le prestazioni relative al calcolo di addestramento. Questi risultati aprono nuove strade per lo sviluppo di strategie di scalabilità dei LDM che possono essere impiegate per migliorare le capacità generative entro budget di inferenza limitati.

I grandi modelli linguistici sono chimici sovrumani?
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

I grandi modelli linguistici (LLM) hanno suscitato un interesse diffuso grazie alla loro capacità di elaborare il linguaggio umano e svolgere compiti per i quali non sono stati esplicitamente addestrati. Questo è rilevante per le scienze chimiche, che affrontano il problema di dataset piccoli e diversificati, spesso in forma testuale. Gli LLM hanno dimostrato potenziale nel risolvere queste problematiche e sono sempre più utilizzati per prevedere proprietà chimiche, ottimizzare reazioni e persino progettare e condurre esperimenti in modo autonomo. Tuttavia, abbiamo ancora una comprensione sistematica molto limitata delle capacità di ragionamento chimico degli LLM, che sarebbe necessaria per migliorare i modelli e mitigare potenziali rischi. Qui presentiamo "ChemBench", un framework automatizzato progettato per valutare rigorosamente le conoscenze chimiche e le abilità di ragionamento degli LLM più avanzati rispetto all’esperienza dei chimici umani. Abbiamo curato oltre 7.000 coppie domanda-risposta per una vasta gamma di sottocampi delle scienze chimiche, valutato i principali LLM open-source e proprietari, e scoperto che i migliori modelli hanno superato in media i migliori chimici umani nel nostro studio. Tuttavia, i modelli incontrano difficoltà in alcuni compiti di ragionamento chimico che sono semplici per gli esperti umani e forniscono previsioni eccessivamente sicure e fuorvianti, ad esempio riguardo ai profili di sicurezza delle sostanze chimiche. Questi risultati evidenziano la duplice realtà che, sebbene gli LLM dimostrino una notevole competenza nei compiti chimici, ulteriori ricerche sono cruciali per migliorare la loro sicurezza e utilità nelle scienze chimiche. I nostri risultati indicano anche la necessità di adattamenti ai curricula di chimica e sottolineano l’importanza di continuare a sviluppare framework di valutazione per migliorare gli LLM in modo sicuro e utile.

Poro 34B e la benedizione della multilinguità
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

Il pretraining dei modelli linguistici all'avanguardia di grandi dimensioni richiede ora trilioni di parole di testo, una quantità che supera di ordini di grandezza quella disponibile per la stragrande maggioranza delle lingue. Sebbene includere testi in più di una lingua sia un modo ovvio per acquisire più dati di pretraining, il multilinguismo è spesso visto come una maledizione, e la maggior parte degli sforzi di addestramento dei modelli continua a concentrarsi quasi esclusivamente su singole lingue di grandi dimensioni. Noi crediamo che il multilinguismo possa essere una benedizione e che dovrebbe essere possibile migliorare sostanzialmente le capacità dei modelli monolingue per le lingue minori attraverso un addestramento multilingue. In questo studio, presentiamo Poro 34B, un modello da 34 miliardi di parametri addestrato su 1 trilione di token di finlandese, inglese e linguaggi di programmazione, e dimostriamo che un approccio di addestramento multilingue può produrre un modello che non solo supera significativamente le capacità dei modelli esistenti per il finlandese, ma eccelle anche nella traduzione ed è competitivo nella sua classe nella generazione di inglese e linguaggi di programmazione. Rilasciamo i parametri del modello, gli script e i dati con licenze open su https://huggingface.co/LumiOpen/Poro-34B.

3D Congealing: Allineamento di Immagini 3D-Consapevole in Contesti Non Controllati
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

Proponiamo il 3D Congealing, un nuovo problema di allineamento 3D-aware per immagini 2D che catturano oggetti semanticamente simili. Dato un insieme di immagini Internet non etichettate, il nostro obiettivo è associare le parti semantiche condivise dagli input e aggregare la conoscenza dalle immagini 2D in uno spazio canonico 3D condiviso. Introduciamo un framework generale che affronta il compito senza assumere modelli di forma, pose o parametri della fotocamera. Al suo centro c'è una rappresentazione canonica 3D che racchiude informazioni geometriche e semantiche. Il framework ottimizza la rappresentazione canonica insieme alla posa per ogni immagine di input e una mappa di coordinate per immagine che deforma le coordinate dei pixel 2D nel frame canonico 3D per tenere conto della corrispondenza delle forme. La procedura di ottimizzazione fonde la conoscenza a priori di un modello generativo di immagini pre-addestrato e le informazioni semantiche delle immagini di input. Il primo fornisce una guida conoscitiva forte per questo compito sottovincolato, mentre il secondo fornisce le informazioni necessarie per mitigare il bias dei dati di addestramento del modello pre-addestrato. Il nostro framework può essere utilizzato per vari compiti come la corrispondenza di punti, la stima della posa e la modifica delle immagini, ottenendo risultati solidi su dataset di immagini reali in condizioni di illuminazione complesse e su raccolte di immagini online in-the-wild.

LLM-ABR: Progettazione di algoritmi di Adaptive Bitrate tramite modelli linguistici di grandi dimensioni
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

Presentiamo LLM-ABR, il primo sistema che sfrutta le capacità generative dei grandi modelli linguistici (LLM) per progettare in modo autonomo algoritmi di adattamento del bitrate (ABR) ottimizzati per diverse caratteristiche di rete. Operando all'interno di un framework di apprendimento per rinforzo, LLM-ABR consente ai LLM di progettare componenti chiave come gli stati e le architetture di reti neurali. Valutiamo LLM-ABR in vari contesti di rete, tra cui banda larga, satellitare, 4G e 5G. LLM-ABR supera costantemente gli algoritmi ABR predefiniti.

Rapporto Tecnico di HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2