Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

OS-Genesis: Automazione della costruzione della traiettoria dell'agente GUI tramite sintesi inversa delle attività
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Gli agenti dell'Interfaccia Utente Grafica (GUI) alimentati da Modelli Visione-Linguaggio (VLM) hanno dimostrato capacità di controllo del computer simili a quelle umane. Nonostante la loro utilità nel promuovere l'automazione digitale, persiste un collo di bottiglia critico: la raccolta di dati di traiettoria di alta qualità per l'addestramento. Le pratiche comuni per la raccolta di tali dati si basano sulla supervisione umana o sulla generazione di dati sintetici attraverso l'esecuzione di compiti predefiniti, che sono o risorse-intensive o non in grado di garantire la qualità dei dati. Inoltre, questi metodi soffrono di una limitata diversità dei dati e di significativi divari tra i dati sintetici e gli ambienti reali. Per affrontare queste sfide, proponiamo OS-Genesis, un nuovo processo di sintesi dei dati GUI che ribalta il tradizionale processo di raccolta delle traiettorie. Invece di fare affidamento su compiti predefiniti, OS-Genesis consente agli agenti di percepire prima gli ambienti e di eseguire interazioni passo dopo passo, per poi derivare retrospettivamente compiti di alta qualità per consentire l'esplorazione a livello di traiettoria. Viene quindi impiegato un modello di ricompensa per le traiettorie per garantire la qualità delle traiettorie generate. Dimostriamo che addestrare agenti GUI con OS-Genesis migliora significativamente le loro prestazioni su benchmark online altamente impegnativi. Un'analisi approfondita convalida ulteriormente l'efficienza di OS-Genesis e la sua qualità e diversità dei dati superiori rispetto ai metodi di sintesi esistenti. I nostri codici, dati e checkpoint sono disponibili su https://qiushisun.github.io/OS-Genesis-Home/{Homepage di OS-Genesis}.

Rapporto Tecnico Xmodel-2
Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Xmodel-2 è un modello linguistico di grandi dimensioni con 1,2 miliardi di parametri progettato specificamente per compiti di ragionamento. La sua architettura consente a diverse scale di modelli di condividere un insieme unificato di iperparametri, consentendo un'ampia sperimentazione su modelli più piccoli e un trasferimento senza soluzione di continuità delle configurazioni ottimali a modelli più grandi. Per massimizzare l'efficienza e la stabilità dell'addestramento, Xmodel-2 utilizza il programma di tariffe di apprendimento WSD da MiniCPM. Preallenato su 1,5 trilioni di token da fonti diverse, Xmodel-2 raggiunge prestazioni all'avanguardia in compiti complessi di ragionamento e basati su agenti, mantenendo nel contempo costi di addestramento bassi. Questi risultati mettono in luce il potenziale di un design di modello efficiente e di strategie di addestramento nell'avanzamento delle capacità di ragionamento. I checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/XiaoduoAILab/Xmodel-2

I Modelli Visione-Linguaggio Comprendono Veramente i Sensori Multi-Visione?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

I modelli di Visione-Linguaggio su larga scala (VLM) hanno progredito allineando gli input visivi con il testo, migliorando significativamente le prestazioni nei compiti di visione artificiale. Inoltre, affinché i VLM siano utilizzati in modo efficace nelle applicazioni del mondo reale, è essenziale comprendere dati multi-sensoriali di visione diversificati, come informazioni termiche, di profondità e raggi X. Tuttavia, osserviamo che i VLM attuali elaborano immagini da sensori multi-visione senza una profonda comprensione delle informazioni del sensore, ignorando le proprietà fisiche uniche di ciascun sensore. Questa limitazione riduce la capacità di interpretare e rispondere a domande complesse che richiedono ragionamento multi-sensoriale. Per affrontare questo problema, proponiamo un nuovo benchmark di Percezione e Ragionamento Multi-sensoriale (MS-PR), valutando i VLM sulla loro capacità di ragionamento specifico del sensore. Inoltre, introduciamo l'ottimizzazione degli Attributi Negativi Diversi (DNA) per consentire ai VLM di eseguire un ragionamento profondo su compiti multi-sensoriali di visione, contribuendo a colmare il divario informativo fondamentale tra le immagini e i dati del sensore. Risultati sperimentali estesi confermano che il metodo DNA proposto può migliorare significativamente il ragionamento multi-sensoriale per i VLM.

HUNYUANPROVER: un framework scalabile di sintesi dati e ricerca guidata dell'albero per la dimostrazione automatica dei teoremi
HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

Introduciamo HunyuanProver, un modello linguistico ottimizzato a partire dal Hunyuan 7B per dimostrazioni automatiche interattive con LEAN4. Per affrontare il problema della scarsità di dati, progettiamo un framework scalabile per la sintesi iterativa di dati a basso costo. Inoltre, sono stati progettati algoritmi di ricerca guidata nell'albero per abilitare un efficace "pensiero di sistema 2" del dimostratore. HunyuanProver raggiunge prestazioni all'avanguardia (SOTA) su importanti benchmark. In particolare, ottiene un punteggio del 68,4% nel miniF2F-test rispetto al 65,9%, attuale risultato SOTA. Dimostra 4 affermazioni IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 e imo_1983_p6) nel miniF2F-test. Per beneficiare la comunità, renderemo open-source un dataset di 30k istanze sintetizzate, in cui ogni istanza contiene la domanda originale in linguaggio naturale, l'affermazione convertita tramite autoformalizzazione e la dimostrazione di HunyuanProver.

VMix: Miglioramento del modello di diffusione testo-immagine con cross-attention Controllo di miscelazione
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He

Mentre i modelli di diffusione mostrano talenti straordinari nella generazione testo-immagine, potrebbero comunque fallire nel generare immagini altamente estetiche. Più specificamente, esiste ancora un divario tra le immagini generate e le immagini estetiche del mondo reale in dimensioni più dettagliate, tra cui colore, illuminazione, composizione, ecc. In questo articolo, proponiamo l'Adattatore di Controllo di Miscelazione dei Valori di Cross-Attention (VMix), un adattatore estetico plug-and-play, per migliorare la qualità delle immagini generate mantenendo al contempo la generalità tra i concetti visivi attraverso (1) la disintegrazione del prompt di testo in input nella descrizione del contenuto e nella descrizione estetica tramite l'inizializzazione dell'incorporamento estetico, e (2) l'integrazione delle condizioni estetiche nel processo di denoising attraverso cross-attention con valori misti, con la rete connessa da strati lineari inizializzati a zero. La nostra intuizione chiave è quella di potenziare la presentazione estetica dei modelli di diffusione esistenti progettando un metodo di controllo delle condizioni superiore, mantenendo allo stesso tempo l'allineamento immagine-testo. Attraverso il nostro design meticoloso, VMix è sufficientemente flessibile da poter essere applicato ai modelli della comunità per una migliore performance visiva senza necessità di riallenamento. Per convalidare l'efficacia del nostro metodo, abbiamo condotto ampi esperimenti, dimostrando che VMix supera altri metodi all'avanguardia ed è compatibile con altri moduli della comunità (ad es. LoRA, ControlNet e IPAdapter) per la generazione di immagini. La pagina del progetto è https://vmix-diffusion.github.io/VMix/.

OS-Genesis: Automazione della costruzione della traiettoria dell'agente GUI tramite sintesi inversa delle attività

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Rapporto Tecnico Xmodel-2

Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

I Modelli Visione-Linguaggio Comprendono Veramente i Sensori Multi-Visione?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

HUNYUANPROVER: un framework scalabile di sintesi dati e ricerca guidata dell'albero per la dimostrazione automatica dei teoremi

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

VMix: Miglioramento del modello di diffusione testo-immagine con cross-attention Controllo di miscelazione

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He