Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'automazione web è una tecnica significativa che esegue compiti web complessi automatizzando azioni web comuni, migliorando l'efficienza operativa e riducendo la necessità di intervento manuale. I metodi tradizionali, come i wrapper, presentano una limitata adattabilità e scalabilità quando si confrontano con un nuovo sito web. D'altro canto, gli agenti generativi potenziati da modelli linguistici di grandi dimensioni (LLM) mostrano scarse prestazioni e riutilizzabilità in scenari di mondo aperto. In questo lavoro, introduciamo un'attività di generazione di crawler per pagine web di informazioni verticali e il paradigma di combinare LLM con crawler, che aiuta i crawler a gestire ambienti web diversi e mutevoli in modo più efficiente. Proponiamo AutoCrawler, un framework a due fasi che sfrutta la struttura gerarchica dell'HTML per una comprensione progressiva. Attraverso operazioni top-down e step-back, AutoCrawler può apprendere da azioni errate e potare continuamente l'HTML per una migliore generazione di azioni. Condividiamo esperimenti completi con più LLM e dimostriamo l'efficacia del nostro framework. Le risorse di questo articolo sono disponibili su https://github.com/EZ-hwh/AutoCrawler.
Presentiamo Groma, un Modello Linguistico Multimodale di Grandi Dimensioni (MLLM) dotato di capacità di percezione visiva radicata e fine. Oltre alla comprensione olistica delle immagini, Groma è abile in compiti a livello di regione come la descrizione di aree specifiche e il grounding visivo. Tali capacità sono costruite su un meccanismo di tokenizzazione visiva localizzata, in cui un'immagine in input viene scomposta in regioni di interesse e successivamente codificata in token di regione. Integrando i token di regione nelle istruzioni dell'utente e nelle risposte del modello, abilitiamo Groma a comprendere gli input di regione specificati dall'utente e a radicare il proprio output testuale nelle immagini. Inoltre, per potenziare la capacità di chat radicata di Groma, abbiamo curato un dataset di istruzioni visivamente radicate sfruttando il potente GPT-4V e tecniche di prompting visivo. Rispetto agli MLLM che si affidano al modello linguistico o a moduli esterni per la localizzazione, Groma dimostra costantemente prestazioni superiori nei benchmark standard di riferimento e grounding, evidenziando i vantaggi dell'integrazione della localizzazione nella tokenizzazione delle immagini. Pagina del progetto: https://groma-mllm.github.io/.
Il Visual Question Answering (VQA) incentrato sul testo ha compiuto notevoli progressi con lo sviluppo dei Modelli Linguistici Multimodali di Grande Scala (MLLM), tuttavia i modelli open-source rimangono ancora inferiori ai modelli leader come GPT4V e Gemini, in parte a causa della mancanza di dati estesi e di alta qualità per il tuning delle istruzioni. A tal fine, introduciamo un nuovo approccio per la creazione di un dataset massiccio e di alta qualità per il tuning delle istruzioni, Square-10M, generato utilizzando MLLM closed-source. Il processo di costruzione dei dati, denominato Square, consiste in quattro passaggi: Auto-Interrogazione, Risposta, Ragionamento e Valutazione. I nostri esperimenti con Square-10M hanno portato a tre risultati chiave: 1) Il nostro modello, TextSquare, supera considerevolmente i precedenti MLLM incentrati sul testo open-source e stabilisce un nuovo standard su OCRBench (62,2%). Addirittura supera i modelli di punta come GPT4V e Gemini in 6 dei 10 benchmark incentrati sul testo. 2) Inoltre, dimostriamo il ruolo cruciale dei dati di ragionamento VQA nel fornire approfondimenti contestuali completi per domande specifiche. Ciò non solo migliora l'accuratezza, ma mitiga significativamente anche le allucinazioni. In particolare, TextSquare ottiene una media del 75,1% su quattro dataset di valutazione generale VQA e di allucinazione, superando i precedenti modelli all'avanguardia. 3) In modo significativo, il fenomeno osservato nella scalabilità dei dataset VQA incentrati sul testo rivela un modello evidente: l'aumento esponenziale del volume dei dati per il tuning delle istruzioni è direttamente proporzionale al miglioramento delle prestazioni del modello, validando così la necessità della scala del dataset e l'alta qualità di Square-10M.
Le interazioni realistiche con gli oggetti sono cruciali per creare esperienze virtuali immersive, ma la sintesi di dinamiche 3D realistiche in risposta a nuove interazioni rimane una sfida significativa. A differenza della generazione di dinamiche incondizionate o condizionate da testo, la generazione di dinamiche condizionate da azioni richiede la percezione delle proprietà fisiche dei materiali degli oggetti e l'ancoraggio della previsione del movimento 3D a queste proprietà, come la rigidità dell'oggetto. Tuttavia, la stima delle proprietà fisiche dei materiali è un problema aperto a causa della mancanza di dati di verità sul materiale, poiché misurare queste proprietà per oggetti reali è estremamente difficile. Presentiamo PhysDreamer, un approccio basato sulla fisica che conferisce dinamiche interattive a oggetti 3D statici sfruttando le conoscenze pregresse sulle dinamiche degli oggetti apprese da modelli di generazione video. Distillando queste conoscenze pregresse, PhysDreamer consente la sintesi di risposte realistiche degli oggetti a nuove interazioni, come forze esterne o manipolazioni da parte di agenti. Dimostriamo il nostro approccio su diversi esempi di oggetti elastici e valutiamo il realismo delle interazioni sintetizzate attraverso uno studio con utenti. PhysDreamer compie un passo verso esperienze virtuali più coinvolgenti e realistiche, consentendo a oggetti 3D statici di rispondere dinamicamente a stimoli interattivi in modo fisicamente plausibile. Visita la nostra pagina del progetto all'indirizzo https://physdreamer.github.io/.
La riscrittura di query, che mira a generare query più efficienti modificando la struttura di una query SQL senza alterarne il risultato, è stata un importante problema di ricerca. Per mantenere l'equivalenza tra la query riscritta e quella originale durante il processo di riscrittura, i metodi tradizionali di riscrittura di query seguono sempre determinate regole di riscrittura. Tuttavia, persistono alcuni problemi. In primo luogo, i metodi esistenti per trovare la scelta ottimale o la sequenza di regole di riscrittura sono ancora limitati e il processo richiede sempre molte risorse. I metodi che implicano la scoperta di nuove regole di riscrittura richiedono tipicamente dimostrazioni complesse di logica strutturale o interazioni estese con l'utente. In secondo luogo, gli attuali metodi di riscrittura di query si basano fortemente sugli stimatori di costo dei DBMS, che spesso non sono accurati. In questo articolo, affrontiamo questi problemi proponendo un nuovo metodo di riscrittura di query denominato LLM-R2, che utilizza un modello linguistico di grandi dimensioni (LLM) per proporre possibili regole di riscrittura per un sistema di riscrittura di database. Per migliorare ulteriormente la capacità di inferenza dell'LLM nel raccomandare regole di riscrittura, addestriamo un modello contrastivo con un curriculum per apprendere rappresentazioni di query e selezionare dimostrazioni di query efficaci per l'LLM. I risultati sperimentali hanno dimostrato che il nostro metodo può migliorare significativamente l'efficienza di esecuzione delle query e superare i metodi di base. Inoltre, il nostro metodo mostra un'elevata robustezza su diversi dataset.
Il 3D Gaussian Splatting è stato recentemente adottato come metodo versatile ed efficace per la ricostruzione di scene e la sintesi di nuove viste, grazie ai suoi risultati di alta qualità e alla compatibilità con l'hardware di rasterizzazione. Nonostante i suoi vantaggi, la dipendenza del Gaussian Splatting da un'inizializzazione di alta qualità delle nuvole di punti tramite algoritmi Structure-from-Motion (SFM) rappresenta una limitazione significativa da superare. A tal fine, esploriamo diverse strategie di inizializzazione per il Gaussian Splatting e approfondiamo come le ricostruzioni volumetriche ottenute dai Neural Radiance Fields (NeRF) possano essere utilizzate per bypassare la dipendenza dai dati SFM. I nostri risultati dimostrano che un'inizializzazione casuale può performare molto meglio se progettata con cura e che, impiegando una combinazione di strategie di inizializzazione migliorate e distillazione della struttura da modelli NeRF a basso costo, è possibile ottenere risultati equivalenti, o talvolta persino superiori, a quelli ottenuti con l'inizializzazione SFM.
Recentemente, sono state proposte diverse tecniche di Automated Program Repair (APR) basate su Large Language Models (LLMs) per migliorare le prestazioni di riparazione. Sebbene queste tecniche si concentrino principalmente sulla riparazione a livello di singola riga o di hunk, affrontano sfide significative nell'applicazione reale a causa del limitato ambito delle attività di riparazione e del costoso processo di localizzazione degli errori a livello di istruzione. Tuttavia, l'APR a livello di funzione, più pratico e che amplia l'ambito delle attività di riparazione per correggere intere funzioni difettose richiedendo solo una localizzazione degli errori a livello di funzione economicamente efficiente, rimane poco esplorato. In questo articolo, conduciamo il primo studio completo sull'APR a livello di funzione basato su LLM, includendo l'indagine sull'effetto del meccanismo di few-shot learning e delle informazioni ausiliarie rilevanti per la riparazione. Nello specifico, adottiamo sei LLM ampiamente studiati e costruiamo un benchmark sui dataset Defects4J 1.2 e 2.0. Il nostro studio dimostra che gli LLM con zero-shot learning sono già tecniche potenti per l'APR a livello di funzione, mentre l'applicazione del meccanismo di few-shot learning porta a prestazioni di riparazione disparate. Inoltre, scopriamo che l'applicazione diretta delle informazioni ausiliarie rilevanti per la riparazione agli LLM aumenta significativamente le prestazioni di riparazione a livello di funzione. Ispirati dalle nostre scoperte, proponiamo una tecnica di APR a livello di funzione basata su LLM, denominata SRepair, che adotta un framework dual-LLM per sfruttare il potere delle informazioni ausiliarie rilevanti per la riparazione al fine di migliorare le prestazioni di riparazione. I risultati della valutazione dimostrano che SRepair può correggere correttamente 300 bug a singola funzione nel dataset Defects4J, superando ampiamente tutte le precedenti tecniche APR di almeno l'85%, senza la necessità delle costose informazioni di localizzazione degli errori a livello di istruzione. Inoltre, SRepair corregge con successo 32 bug a più funzioni nel dataset Defects4J, un risultato raggiunto per la prima volta da qualsiasi tecnica APR, a nostra conoscenza.