Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici hanno dimostrato significativi progressi nelle capacità di ragionamento, in particolare attraverso la scalabilità al momento dell'inferenza, come illustrato da modelli come l'o1 di OpenAI. Tuttavia, attualmente i Modelli Visione-Linguaggio (VLM) spesso faticano a eseguire un ragionamento sistematico e strutturato, specialmente quando affrontano compiti complessi di domande e risposte visive. In questo lavoro, presentiamo LLaVA-o1, un nuovo VLM progettato per condurre un ragionamento autonomo a più fasi. A differenza della semplice concatenazione di prompt, LLaVA-o1 si impegna autonomamente in fasi sequenziali di riassunto, interpretazione visiva, ragionamento logico e generazione di conclusioni. Questo approccio strutturato consente a LLaVA-o1 di ottenere notevoli miglioramenti nella precisione su compiti intensivi di ragionamento. Per raggiungere questo obiettivo, abbiamo compilato il dataset LLaVA-o1-100k, integrando campioni da varie fonti di domande e risposte visive e fornendo annotazioni di ragionamento strutturato. Inoltre, proponiamo un metodo di ricerca a fasci a livello di fase al momento dell'inferenza, che consente una scalabilità efficace al momento dell'inferenza. Notevolmente, con soli 100k campioni di addestramento e un metodo di scalabilità al momento dell'inferenza semplice ma efficace, LLaVA-o1 non solo supera il suo modello base del 8.9% su una vasta gamma di benchmark di ragionamento multimodale, ma supera anche le prestazioni di modelli più grandi e persino chiusi, come Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.
In questo articolo, presentiamo RAG, un metodo di Generazione testo-immagine consapevole della regione condizionato a descrizioni regionali per una precisa composizione del layout. L'incoraggiamento regionale, o generazione compositiva, che consente un controllo spaziale dettagliato, ha attirato sempre più attenzione per la sua praticità nelle applicazioni del mondo reale. Tuttavia, i metodi precedenti introducono moduli addestrabili aggiuntivi, rendendoli quindi applicabili solo a modelli specifici, o manipolano mappe di punteggio all'interno di strati di cross-attention utilizzando maschere di attenzione, con conseguente limitata forza di controllo quando il numero di regioni aumenta. Per gestire queste limitazioni, suddividiamo la generazione multi-regione in due sotto-task, la costruzione della regione individuale (Vincolo Rigido Regionale) che garantisce che l'incoraggiamento regionale venga eseguito correttamente, e il raffinamento complessivo dei dettagli (Raffinamento Morbido Regionale) sulle regioni che ignorano i confini visivi e potenziano le interazioni adiacenti. Inoltre, RAG rende innovativamente possibile il ridipingere, dove gli utenti possono modificare regioni specifiche insoddisfatte nell'ultima generazione mantenendo invariate tutte le altre regioni, senza dover fare affidamento su modelli di inpainting aggiuntivi. Il nostro approccio è privo di sintonizzazione e applicabile ad altri framework come un potenziamento della proprietà di seguire l'incoraggiamento. Esperimenti quantitativi e qualitativi dimostrano che RAG raggiunge prestazioni superiori rispetto al vincolo degli attributi e al rapporto tra gli oggetti rispetto ai metodi precedenti privi di sintonizzazione.
Il modello recentemente rilasciato, Claude 3.5 Computer Use, si distingue come il primo modello AI di frontiera a offrire l'uso del computer in versione beta pubblica come agente dell'interfaccia utente grafica (GUI). Essendo ancora in fase beta iniziale, la sua capacità nell'ambiente complesso del mondo reale rimane sconosciuta. In questo studio di caso per esplorare Claude 3.5 Computer Use, curiamo e organizziamo una collezione di compiti attentamente progettati che spaziano in una varietà di settori e software. Le osservazioni da questi casi dimostrano l'abilità senza precedenti di Claude 3.5 Computer Use nell'esecuzione di azioni di linguaggio a desktop end-to-end. Insieme a questo studio, forniamo un framework di agente pronto all'uso per implementare modelli di automazione GUI basati su API con facilità. I nostri studi di caso mirano a mostrare le capacità e i limiti di Claude 3.5 Computer Use con analisi dettagliate e sollevare questioni su pianificazione, azione e critica, che devono essere considerate per miglioramenti futuri. Speriamo che questa esplorazione preliminare ispiri futuri studi sulla comunità degli agenti GUI. Tutti i casi di test nel paper possono essere provati attraverso il progetto: https://github.com/showlab/computer_use_ootb.
Mentre la generazione di contenuti 3D ha fatto progressi significativi, i metodi esistenti si trovano ancora ad affrontare sfide legate ai formati di input, al design dello spazio latente e alle rappresentazioni di output. Questo articolo introduce un nuovo framework di generazione 3D che affronta tali sfide, offrendo una generazione 3D scalabile e di alta qualità con uno spazio latente strutturato a nuvola di punti interattivo. Il nostro framework utilizza un Autoencoder Variazionale (VAE) con rendering RGB-D(epth)-N(ormal) multi-vista come input, utilizzando un design unico dello spazio latente che preserva le informazioni sulla forma 3D e incorpora un modello di diffusione latente a cascata per un miglior disaccoppiamento forma-textura. Il metodo proposto, GaussianAnything, supporta la generazione 3D condizionale multimodale, consentendo input di nuvola di punti, didascalia e immagini singole/multi-vista. In particolare, il nuovo spazio latente proposto consente naturalmente il disaccoppiamento geometria-textura, consentendo così la modifica consapevole del 3D. I risultati sperimentali dimostrano l'efficacia del nostro approccio su più set di dati, superando i metodi esistenti sia nella generazione 3D condizionata al testo che all'immagine.
I modelli linguistici video di grandi dimensioni (Vid-LLMs) hanno compiuto notevoli progressi nella comprensione dei contenuti video per il dialogo di domande e risposte. Tuttavia, faticano ad estendere questa comprensione visiva a compiti che richiedono una precisa localizzazione temporale, noti come Ancoraggio Temporale Video (VTG). Per affrontare questa lacuna, presentiamo Number-Prompt (NumPro), un nuovo metodo che permette ai Vid-LLMs di collegare la comprensione visiva con l'ancoraggio temporale aggiungendo identificatori numerici unici a ciascun frame video. Trattando un video come una sequenza di immagini di frame numerate, NumPro trasforma il VTG in un processo intuitivo: sfogliare pannelli di manga in sequenza. Ciò consente ai Vid-LLMs di "leggere" le linee temporali degli eventi, collegando accuratamente i contenuti visivi con le informazioni temporali corrispondenti. I nostri esperimenti dimostrano che NumPro migliora significativamente le prestazioni di VTG dei migliori Vid-LLMs senza costi computazionali aggiuntivi. Inoltre, il raffinamento su un dataset potenziato da NumPro definisce un nuovo stato dell'arte per il VTG, superando i metodi precedenti più performanti fino al 6,9\% nell'indice di sovrapposizione media per il recupero di momenti e dell'8,5\% nell'AP media per la rilevazione dei momenti salienti. Il codice sarà disponibile su https://github.com/yongliang-wu/NumPro.
Presentiamo Xmodel-1.5, un nuovo modello grande multilingue con 1 miliardo di parametri preaddestrato su circa 2 trilioni di token. Il modello mostra elevate prestazioni in diverse lingue, con risultati particolarmente significativi in Thailandese, Arabo e Francese, insieme alla sua efficacia in Cinese e Inglese. Inoltre, contribuiamo alla comunità di ricerca rilasciando un set di dati di valutazione in Thailandese, che include centinaia di domande annotate da studenti della Scuola di Innovazione Integrata dell'Università Chulalongkorn. Pur riconoscendo che i risultati sono promettenti, siamo consapevoli che vi è ancora spazio per miglioramenti. Speriamo che questo lavoro faccia progredire gli sforzi in corso nella ricerca sull'IA multilingue e favorisca una migliore comprensione interlinguistica in varie attività di elaborazione del linguaggio naturale. I nostri modelli e codici sono pubblicamente disponibili su GitHub all'indirizzo https://github.com/XiaoduoAILab/XmodelLM.
L'addestramento delle reti neurali profonde - e più recentemente, dei modelli di grandi dimensioni - richiede ottimizzatori efficienti e scalabili. Gli algoritmi di gradiente adattivi come Adam, AdamW e le loro varianti sono stati centrali per questo compito. Nonostante lo sviluppo di numerosi algoritmi di riduzione della varianza nell'ultimo decennio mirati ad accelerare l'ottimizzazione stocastica sia in contesti convessi che non convessi, la riduzione della varianza non ha trovato un ampio successo nell'addestramento delle reti neurali profonde o dei grandi modelli linguistici. Di conseguenza, è rimasto un approccio meno preferito nell'IA moderna. In questo articolo, per sbloccare il potenziale della riduzione della varianza per un addestramento efficiente dei grandi modelli, proponiamo un framework di ottimizzazione unificato, MARS (Make vAriance Reduction Shine), che concilia i metodi di gradiente precondizionati con la riduzione della varianza tramite una tecnica di momento stocastico scalato ricorsivo. All'interno del nostro framework, introduciamo tre istanze di MARS che sfruttano gli aggiornamenti del gradiente precondizionato basati su AdamW, Lion e Shampoo, rispettivamente. Stabiliamo anche un collegamento tra i nostri algoritmi e gli ottimizzatori esistenti. I risultati sperimentali sull'addestramento dei modelli GPT-2 indicano che MARS supera costantemente AdamW di gran lunga.