HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

7 papers found

LLaVA-o1: Consentire ai Modelli di Linguaggio Visivo di Ragionare Passo dopo Passo
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

I grandi modelli linguistici hanno dimostrato significativi progressi nelle capacità di ragionamento, in particolare attraverso la scalabilità al momento dell'inferenza, come illustrato da modelli come l'o1 di OpenAI. Tuttavia, attualmente i Modelli Visione-Linguaggio (VLM) spesso faticano a eseguire un ragionamento sistematico e strutturato, specialmente quando affrontano compiti complessi di domande e risposte visive. In questo lavoro, presentiamo LLaVA-o1, un nuovo VLM progettato per condurre un ragionamento autonomo a più fasi. A differenza della semplice concatenazione di prompt, LLaVA-o1 si impegna autonomamente in fasi sequenziali di riassunto, interpretazione visiva, ragionamento logico e generazione di conclusioni. Questo approccio strutturato consente a LLaVA-o1 di ottenere notevoli miglioramenti nella precisione su compiti intensivi di ragionamento. Per raggiungere questo obiettivo, abbiamo compilato il dataset LLaVA-o1-100k, integrando campioni da varie fonti di domande e risposte visive e fornendo annotazioni di ragionamento strutturato. Inoltre, proponiamo un metodo di ricerca a fasci a livello di fase al momento dell'inferenza, che consente una scalabilità efficace al momento dell'inferenza. Notevolmente, con soli 100k campioni di addestramento e un metodo di scalabilità al momento dell'inferenza semplice ma efficace, LLaVA-o1 non solo supera il suo modello base del 8.9% su una vasta gamma di benchmark di ragionamento multimodale, ma supera anche le prestazioni di modelli più grandi e persino chiusi, come Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.

Generazione di testo-immagine consapevole della regione tramite associazione rigida e raffinamento morbido
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

In questo articolo, presentiamo RAG, un metodo di Generazione testo-immagine consapevole della regione condizionato a descrizioni regionali per una precisa composizione del layout. L'incoraggiamento regionale, o generazione compositiva, che consente un controllo spaziale dettagliato, ha attirato sempre più attenzione per la sua praticità nelle applicazioni del mondo reale. Tuttavia, i metodi precedenti introducono moduli addestrabili aggiuntivi, rendendoli quindi applicabili solo a modelli specifici, o manipolano mappe di punteggio all'interno di strati di cross-attention utilizzando maschere di attenzione, con conseguente limitata forza di controllo quando il numero di regioni aumenta. Per gestire queste limitazioni, suddividiamo la generazione multi-regione in due sotto-task, la costruzione della regione individuale (Vincolo Rigido Regionale) che garantisce che l'incoraggiamento regionale venga eseguito correttamente, e il raffinamento complessivo dei dettagli (Raffinamento Morbido Regionale) sulle regioni che ignorano i confini visivi e potenziano le interazioni adiacenti. Inoltre, RAG rende innovativamente possibile il ridipingere, dove gli utenti possono modificare regioni specifiche insoddisfatte nell'ultima generazione mantenendo invariate tutte le altre regioni, senza dover fare affidamento su modelli di inpainting aggiuntivi. Il nostro approccio è privo di sintonizzazione e applicabile ad altri framework come un potenziamento della proprietà di seguire l'incoraggiamento. Esperimenti quantitativi e qualitativi dimostrano che RAG raggiunge prestazioni superiori rispetto al vincolo degli attributi e al rapporto tra gli oggetti rispetto ai metodi precedenti privi di sintonizzazione.

L'Alba dell'Agente GUI: Uno Studio di Caso Preliminare con il Computer Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

Il modello recentemente rilasciato, Claude 3.5 Computer Use, si distingue come il primo modello AI di frontiera a offrire l'uso del computer in versione beta pubblica come agente dell'interfaccia utente grafica (GUI). Essendo ancora in fase beta iniziale, la sua capacità nell'ambiente complesso del mondo reale rimane sconosciuta. In questo studio di caso per esplorare Claude 3.5 Computer Use, curiamo e organizziamo una collezione di compiti attentamente progettati che spaziano in una varietà di settori e software. Le osservazioni da questi casi dimostrano l'abilità senza precedenti di Claude 3.5 Computer Use nell'esecuzione di azioni di linguaggio a desktop end-to-end. Insieme a questo studio, forniamo un framework di agente pronto all'uso per implementare modelli di automazione GUI basati su API con facilità. I nostri studi di caso mirano a mostrare le capacità e i limiti di Claude 3.5 Computer Use con analisi dettagliate e sollevare questioni su pianificazione, azione e critica, che devono essere considerate per miglioramenti futuri. Speriamo che questa esplorazione preliminare ispiri futuri studi sulla comunità degli agenti GUI. Tutti i casi di test nel paper possono essere provati attraverso il progetto: https://github.com/showlab/computer_use_ootb.

GaussianAnything: Diffusione Latente Interattiva di Point Cloud per la Generazione 3D
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

Mentre la generazione di contenuti 3D ha fatto progressi significativi, i metodi esistenti si trovano ancora ad affrontare sfide legate ai formati di input, al design dello spazio latente e alle rappresentazioni di output. Questo articolo introduce un nuovo framework di generazione 3D che affronta tali sfide, offrendo una generazione 3D scalabile e di alta qualità con uno spazio latente strutturato a nuvola di punti interattivo. Il nostro framework utilizza un Autoencoder Variazionale (VAE) con rendering RGB-D(epth)-N(ormal) multi-vista come input, utilizzando un design unico dello spazio latente che preserva le informazioni sulla forma 3D e incorpora un modello di diffusione latente a cascata per un miglior disaccoppiamento forma-textura. Il metodo proposto, GaussianAnything, supporta la generazione 3D condizionale multimodale, consentendo input di nuvola di punti, didascalia e immagini singole/multi-vista. In particolare, il nuovo spazio latente proposto consente naturalmente il disaccoppiamento geometria-textura, consentendo così la modifica consapevole del 3D. I risultati sperimentali dimostrano l'efficacia del nostro approccio su più set di dati, superando i metodi esistenti sia nella generazione 3D condizionata al testo che all'immagine.

Xmodel-1.5: Un LLM multilingue su scala di 1 miliardo
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

Presentiamo Xmodel-1.5, un nuovo modello grande multilingue con 1 miliardo di parametri preaddestrato su circa 2 trilioni di token. Il modello mostra elevate prestazioni in diverse lingue, con risultati particolarmente significativi in Thailandese, Arabo e Francese, insieme alla sua efficacia in Cinese e Inglese. Inoltre, contribuiamo alla comunità di ricerca rilasciando un set di dati di valutazione in Thailandese, che include centinaia di domande annotate da studenti della Scuola di Innovazione Integrata dell'Università Chulalongkorn. Pur riconoscendo che i risultati sono promettenti, siamo consapevoli che vi è ancora spazio per miglioramenti. Speriamo che questo lavoro faccia progredire gli sforzi in corso nella ricerca sull'IA multilingue e favorisca una migliore comprensione interlinguistica in varie attività di elaborazione del linguaggio naturale. I nostri modelli e codici sono pubblicamente disponibili su GitHub all'indirizzo https://github.com/XiaoduoAILab/XmodelLM.

Numerarlo: Temporalizzazione dei video come nel ribaltamento dei manga
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

I modelli linguistici video di grandi dimensioni (Vid-LLMs) hanno compiuto notevoli progressi nella comprensione dei contenuti video per il dialogo di domande e risposte. Tuttavia, faticano ad estendere questa comprensione visiva a compiti che richiedono una precisa localizzazione temporale, noti come Ancoraggio Temporale Video (VTG). Per affrontare questa lacuna, presentiamo Number-Prompt (NumPro), un nuovo metodo che permette ai Vid-LLMs di collegare la comprensione visiva con l'ancoraggio temporale aggiungendo identificatori numerici unici a ciascun frame video. Trattando un video come una sequenza di immagini di frame numerate, NumPro trasforma il VTG in un processo intuitivo: sfogliare pannelli di manga in sequenza. Ciò consente ai Vid-LLMs di "leggere" le linee temporali degli eventi, collegando accuratamente i contenuti visivi con le informazioni temporali corrispondenti. I nostri esperimenti dimostrano che NumPro migliora significativamente le prestazioni di VTG dei migliori Vid-LLMs senza costi computazionali aggiuntivi. Inoltre, il raffinamento su un dataset potenziato da NumPro definisce un nuovo stato dell'arte per il VTG, superando i metodi precedenti più performanti fino al 6,9\% nell'indice di sovrapposizione media per il recupero di momenti e dell'8,5\% nell'AP media per la rilevazione dei momenti salienti. Il codice sarà disponibile su https://github.com/yongliang-wu/NumPro.

MARS: Sfruttare il Potere della Riduzione della Varianza per l'Addestramento di Modelli Grandi
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

L'addestramento delle reti neurali profonde - e più recentemente, dei modelli di grandi dimensioni - richiede ottimizzatori efficienti e scalabili. Gli algoritmi di gradiente adattivi come Adam, AdamW e le loro varianti sono stati centrali per questo compito. Nonostante lo sviluppo di numerosi algoritmi di riduzione della varianza nell'ultimo decennio mirati ad accelerare l'ottimizzazione stocastica sia in contesti convessi che non convessi, la riduzione della varianza non ha trovato un ampio successo nell'addestramento delle reti neurali profonde o dei grandi modelli linguistici. Di conseguenza, è rimasto un approccio meno preferito nell'IA moderna. In questo articolo, per sbloccare il potenziale della riduzione della varianza per un addestramento efficiente dei grandi modelli, proponiamo un framework di ottimizzazione unificato, MARS (Make vAriance Reduction Shine), che concilia i metodi di gradiente precondizionati con la riduzione della varianza tramite una tecnica di momento stocastico scalato ricorsivo. All'interno del nostro framework, introduciamo tre istanze di MARS che sfruttano gli aggiornamenti del gradiente precondizionato basati su AdamW, Lion e Shampoo, rispettivamente. Stabiliamo anche un collegamento tra i nostri algoritmi e gli ottimizzatori esistenti. I risultati sperimentali sull'addestramento dei modelli GPT-2 indicano che MARS supera costantemente AdamW di gran lunga.

Generazione di testo-immagine consapevole della regione tramite associazione rigida e raffinamento morbido
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai