Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti dell'Interfaccia Utente Grafica (GUI) alimentati da Modelli Visione-Linguaggio (VLM) hanno dimostrato capacità di controllo del computer simili a quelle umane. Nonostante la loro utilità nel promuovere l'automazione digitale, persiste un collo di bottiglia critico: la raccolta di dati di traiettoria di alta qualità per l'addestramento. Le pratiche comuni per la raccolta di tali dati si basano sulla supervisione umana o sulla generazione di dati sintetici attraverso l'esecuzione di compiti predefiniti, che sono o risorse-intensive o non in grado di garantire la qualità dei dati. Inoltre, questi metodi soffrono di una limitata diversità dei dati e di significativi divari tra i dati sintetici e gli ambienti reali. Per affrontare queste sfide, proponiamo OS-Genesis, un nuovo processo di sintesi dei dati GUI che ribalta il tradizionale processo di raccolta delle traiettorie. Invece di fare affidamento su compiti predefiniti, OS-Genesis consente agli agenti di percepire prima gli ambienti e di eseguire interazioni passo dopo passo, per poi derivare retrospettivamente compiti di alta qualità per consentire l'esplorazione a livello di traiettoria. Viene quindi impiegato un modello di ricompensa per le traiettorie per garantire la qualità delle traiettorie generate. Dimostriamo che addestrare agenti GUI con OS-Genesis migliora significativamente le loro prestazioni su benchmark online altamente impegnativi. Un'analisi approfondita convalida ulteriormente l'efficienza di OS-Genesis e la sua qualità e diversità dei dati superiori rispetto ai metodi di sintesi esistenti. I nostri codici, dati e checkpoint sono disponibili su https://qiushisun.github.io/OS-Genesis-Home/{Homepage di OS-Genesis}.
Xmodel-2 è un modello linguistico di grandi dimensioni con 1,2 miliardi di parametri progettato specificamente per compiti di ragionamento. La sua architettura consente a diverse scale di modelli di condividere un insieme unificato di iperparametri, consentendo un'ampia sperimentazione su modelli più piccoli e un trasferimento senza soluzione di continuità delle configurazioni ottimali a modelli più grandi. Per massimizzare l'efficienza e la stabilità dell'addestramento, Xmodel-2 utilizza il programma di tariffe di apprendimento WSD da MiniCPM. Preallenato su 1,5 trilioni di token da fonti diverse, Xmodel-2 raggiunge prestazioni all'avanguardia in compiti complessi di ragionamento e basati su agenti, mantenendo nel contempo costi di addestramento bassi. Questi risultati mettono in luce il potenziale di un design di modello efficiente e di strategie di addestramento nell'avanzamento delle capacità di ragionamento. I checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/XiaoduoAILab/Xmodel-2
I modelli di Visione-Linguaggio su larga scala (VLM) hanno progredito allineando gli input visivi con il testo, migliorando significativamente le prestazioni nei compiti di visione artificiale. Inoltre, affinché i VLM siano utilizzati in modo efficace nelle applicazioni del mondo reale, è essenziale comprendere dati multi-sensoriali di visione diversificati, come informazioni termiche, di profondità e raggi X. Tuttavia, osserviamo che i VLM attuali elaborano immagini da sensori multi-visione senza una profonda comprensione delle informazioni del sensore, ignorando le proprietà fisiche uniche di ciascun sensore. Questa limitazione riduce la capacità di interpretare e rispondere a domande complesse che richiedono ragionamento multi-sensoriale. Per affrontare questo problema, proponiamo un nuovo benchmark di Percezione e Ragionamento Multi-sensoriale (MS-PR), valutando i VLM sulla loro capacità di ragionamento specifico del sensore. Inoltre, introduciamo l'ottimizzazione degli Attributi Negativi Diversi (DNA) per consentire ai VLM di eseguire un ragionamento profondo su compiti multi-sensoriali di visione, contribuendo a colmare il divario informativo fondamentale tra le immagini e i dati del sensore. Risultati sperimentali estesi confermano che il metodo DNA proposto può migliorare significativamente il ragionamento multi-sensoriale per i VLM.
Introduciamo HunyuanProver, un modello linguistico ottimizzato a partire dal Hunyuan 7B per dimostrazioni automatiche interattive con LEAN4. Per affrontare il problema della scarsità di dati, progettiamo un framework scalabile per la sintesi iterativa di dati a basso costo. Inoltre, sono stati progettati algoritmi di ricerca guidata nell'albero per abilitare un efficace "pensiero di sistema 2" del dimostratore. HunyuanProver raggiunge prestazioni all'avanguardia (SOTA) su importanti benchmark. In particolare, ottiene un punteggio del 68,4% nel miniF2F-test rispetto al 65,9%, attuale risultato SOTA. Dimostra 4 affermazioni IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 e imo_1983_p6) nel miniF2F-test. Per beneficiare la comunità, renderemo open-source un dataset di 30k istanze sintetizzate, in cui ogni istanza contiene la domanda originale in linguaggio naturale, l'affermazione convertita tramite autoformalizzazione e la dimostrazione di HunyuanProver.
Mentre i modelli di diffusione mostrano talenti straordinari nella generazione testo-immagine, potrebbero comunque fallire nel generare immagini altamente estetiche. Più specificamente, esiste ancora un divario tra le immagini generate e le immagini estetiche del mondo reale in dimensioni più dettagliate, tra cui colore, illuminazione, composizione, ecc. In questo articolo, proponiamo l'Adattatore di Controllo di Miscelazione dei Valori di Cross-Attention (VMix), un adattatore estetico plug-and-play, per migliorare la qualità delle immagini generate mantenendo al contempo la generalità tra i concetti visivi attraverso (1) la disintegrazione del prompt di testo in input nella descrizione del contenuto e nella descrizione estetica tramite l'inizializzazione dell'incorporamento estetico, e (2) l'integrazione delle condizioni estetiche nel processo di denoising attraverso cross-attention con valori misti, con la rete connessa da strati lineari inizializzati a zero. La nostra intuizione chiave è quella di potenziare la presentazione estetica dei modelli di diffusione esistenti progettando un metodo di controllo delle condizioni superiore, mantenendo allo stesso tempo l'allineamento immagine-testo. Attraverso il nostro design meticoloso, VMix è sufficientemente flessibile da poter essere applicato ai modelli della comunità per una migliore performance visiva senza necessità di riallenamento. Per convalidare l'efficacia del nostro metodo, abbiamo condotto ampi esperimenti, dimostrando che VMix supera altri metodi all'avanguardia ed è compatibile con altri moduli della comunità (ad es. LoRA, ControlNet e IPAdapter) per la generazione di immagini. La pagina del progetto è https://vmix-diffusion.github.io/VMix/.