Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Models (LLM) e i Large Vision-Language Models (LVLM) hanno dimostrato notevoli capacità di ragionamento linguistico/visivo, dando il via alla recente tendenza di costruire agenti per applicazioni mirate come assistenti per lo shopping o ingegneri software di intelligenza artificiale. Di recente, sono stati proposti molti benchmark di scienza dei dati per investigare le loro prestazioni nel campo della scienza dei dati. Tuttavia, i benchmark esistenti di scienza dei dati ancora non sono all'altezza rispetto alle applicazioni reali di scienza dei dati a causa delle loro impostazioni semplificate. Per colmare questa lacuna, presentiamo DSBench, un benchmark completo progettato per valutare agenti di scienza dei dati con compiti realistici. Questo benchmark include 466 compiti di analisi dei dati e 74 compiti di modellazione dei dati, provenienti da competizioni di Eloquence e Kaggle. DSBench offre un contesto realistico che include contesti lunghi, sfondi di compiti multimodali, ragionamento con ampi file di dati e strutture multi-tabella, e svolgimento di compiti di modellazione dei dati end-to-end. La nostra valutazione dei migliori LLM, LVLM e agenti mostra che faticano con la maggior parte dei compiti, con il miglior agente che risolve solo il 34,12% dei compiti di analisi dei dati e raggiunge un Gap di Prestazioni Relativo (RPG) del 34,74%. Questi risultati sottolineano la necessità di ulteriori progressi nello sviluppo di agenti di scienza dei dati più pratici, intelligenti e autonomi.
I grandi modelli linguistici (LLM) mostrano un notevole potenziale per agire come agenti informatici, migliorando la produttività umana e l'accessibilità del software in compiti multimodali che richiedono pianificazione e ragionamento. Tuttavia, misurare le prestazioni degli agenti in ambienti realistici rimane una sfida poiché: (i) la maggior parte dei benchmark è limitata a specifiche modalità o domini (ad esempio solo testo, navigazione web, domande e risposte, codifica) e (ii) le valutazioni complete dei benchmark sono lente (dell'ordine di grandezza dei giorni) data la natura sequenziale a più passaggi dei compiti. Per affrontare queste sfide, presentiamo il Windows Agent Arena: un ambiente generale riproducibile che si concentra esclusivamente sul sistema operativo Windows, in cui gli agenti possono operare liberamente all'interno di un vero sistema operativo Windows e utilizzare la stessa ampia gamma di applicazioni, strumenti e browser web disponibili agli utenti umani quando risolvono compiti. Adattiamo il framework OSWorld (Xie et al., 2024) per creare oltre 150 compiti Windows diversi in rappresentativi domini che richiedono abilità degli agenti nella pianificazione, comprensione dello schermo e uso degli strumenti. Il nostro benchmark è scalabile e può essere parallelizzato senza problemi in Azure per una valutazione completa del benchmark in soli 20 minuti. Per dimostrare le capacità del Windows Agent Arena, presentiamo anche un nuovo agente multimodale, Navi. Il nostro agente raggiunge un tasso di successo del 19,5% nel dominio Windows, rispetto al 74,5% delle prestazioni di un essere umano non assistito. Navi dimostra inoltre una forte performance su un altro popolare benchmark basato sul web, Mind2Web. Offriamo un'ampia analisi quantitativa e qualitativa delle prestazioni di Navi e forniamo spunti sulle opportunità per futuri sviluppi di ricerca nello sviluppo degli agenti e nella generazione di dati utilizzando il Windows Agent Arena. Sito web: https://microsoft.github.io/WindowsAgentArena Codice: https://github.com/microsoft/WindowsAgentArena
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno suscitato ottimismo sul loro potenziale di accelerare la scoperta scientifica, con un numero crescente di lavori che propongono agenti di ricerca in grado di generare e convalidare autonomamente nuove idee. Tuttavia, nessuna valutazione ha dimostrato che i sistemi LLM possano compiere il primo passo di produrre idee nuove di livello esperto, figuriamoci svolgere l'intero processo di ricerca. Affrontiamo questo problema stabilendo un design sperimentale che valuta la generazione di idee di ricerca controllando i confonditori e realizzando il primo confronto diretto tra ricercatori esperti in NLP e un agente di ideazione LLM. Recrutando oltre 100 ricercatori NLP per scrivere idee innovative e recensendo in cieco sia le idee LLM che quelle umane, otteniamo la prima conclusione statisticamente significativa sulle attuali capacità LLM per l'ideazione di ricerca: scopriamo che le idee generate dal LLM sono giudicate più innovative (p < 0.05) rispetto alle idee esperte umane, sebbene vengano giudicate leggermente meno realistiche. Studiando da vicino i nostri agenti di base, identifichiamo problemi aperti nella costruzione e valutazione degli agenti di ricerca, inclusi i fallimenti dell'autovalutazione del LLM e la loro mancanza di diversità nella generazione. Infine, riconosciamo che i giudizi umani sulla novità possono essere difficili, anche per gli esperti, e proponiamo un design di studio end-to-end che recluta ricercatori per realizzare queste idee in progetti completi, consentendoci di studiare se questi giudizi di novità e fattibilità comportino differenze significative nei risultati della ricerca.
Mentre i modelli di diffusione Testo-immagine (T2I) eccellono nella generazione di immagini visivamente accattivanti di singole istanze, faticano a posizionare con precisione e controllare la generazione delle caratteristiche di più istanze. Il compito di Layout-immagine (L2I) è stato introdotto per affrontare le sfide di posizionamento incorporando riquadri delimitatori come segnali di controllo spaziale, ma ancora manca nel generare con precisione le caratteristiche delle istanze. In risposta, proponiamo il compito di Generazione delle Caratteristiche dell'Istanza (IFG), che mira a garantire sia l'accuratezza posizionale che la fedeltà delle caratteristiche nelle istanze generate. Per affrontare il compito di IFG, introduciamo l'Adattatore delle Caratteristiche dell'Istanza (IFAdapter). L'IFAdapter migliora la rappresentazione delle caratteristiche incorporando token di aspetto aggiuntivi e utilizzando una Mappa Semantica dell'Istanza per allineare le caratteristiche a livello di istanza con le posizioni spaziali. L'IFAdapter guida il processo di diffusione come un modulo plug-and-play, rendendolo adattabile a vari modelli della comunità. Per la valutazione, contribuiamo con un benchmark di IFG e sviluppiamo un processo di verifica per confrontare oggettivamente le capacità dei modelli di generare istanze con posizionamento e caratteristiche accurate. I risultati sperimentali dimostrano che l'IFAdapter supera gli altri modelli sia nelle valutazioni quantitative che qualitative.
I Large Language Models continuano a faticare in scenari sfidanti che sfruttano dati strutturati, ragionamenti complessi o l'uso di strumenti. In questo articolo, proponiamo Source2Synth: un nuovo metodo che può essere utilizzato per insegnare alle LLM nuove abilità senza fare affidamento su costose annotazioni umane. Source2Synth prende in input una fonte di dati personalizzata e produce punti dati sintetici con passaggi di ragionamento intermedi basati su fonti del mondo reale. Source2Synth migliora la qualità del dataset scartando le generazioni di bassa qualità in base alla loro rispondibilità. Dimostriamo la generalità di questo approccio applicandolo a due domini impegnativi: testiamo le capacità di ragionamento nella risposta a domande multi-hop (MHQA) e l'uso di strumenti nella risposta a domande tabulari (TQA). Il nostro metodo migliora le prestazioni del 25,51% per TQA su WikiSQL e del 22,57% per MHQA su HotPotQA rispetto alle basi sintonizzate finemente.
Recenti avanzamenti nei modelli di testo-immagine hanno aperto promettenti vie di ricerca nella generazione personalizzata di immagini, consentendo agli utenti di creare immagini diverse su un soggetto specifico utilizzando suggerimenti di linguaggio naturale. Tuttavia, i metodi esistenti spesso soffrono di degrado delle prestazioni quando viene fornita solo un'immagine di riferimento. Tendono a sovradattarsi all'input, producendo output altamente simili indipendentemente dal suggerimento di testo. Questo articolo affronta la sfida della personalizzazione in un'unica iterazione mitigando l'overfitting, consentendo la creazione di immagini controllabili attraverso suggerimenti di testo. In particolare, proponiamo una strategia di raffinamento selettivo che si concentra sull'encoder di testo. Inoltre, introduciamo tre tecniche chiave per migliorare le prestazioni di personalizzazione: (1) token di augmentazione per incoraggiare lo svincolamento delle caratteristiche e alleviare l'overfitting, (2) una perdita di conservazione della conoscenza per ridurre la deriva del linguaggio e promuovere la generalizzabilità tra diversi suggerimenti, e (3) campionamento pesato per SNR per un addestramento efficiente. Estesi esperimenti dimostrano che il nostro approccio genera efficientemente immagini di alta qualità e diverse utilizzando solo un'immagine di riferimento, riducendo significativamente i requisiti di memoria e archiviazione.
Presentiamo DreamHOI, un nuovo metodo per la sintesi zero-shot delle interazioni umano-oggetto (HOI), che consente a un modello umano 3D di interagire realisticamente con un qualsiasi oggetto dato sulla base di una descrizione testuale. Questo compito è complicato dalle varie categorie e geometrie degli oggetti del mondo reale e dalla scarsità di set di dati che comprendono diverse HOI. Per evitare la necessità di dati estesi, sfruttiamo modelli di diffusione testo-immagine addestrati su miliardi di coppie immagine-didascalia. Ottimizziamo l'articolazione di una maglia umana skinned utilizzando i gradienti di Score Distillation Sampling (SDS) ottenuti da questi modelli, che predicono modifiche nello spazio immagine. Tuttavia, propagare direttamente i gradienti dello spazio immagine nei parametri di articolazione complessi è inefficace a causa della natura locale di tali gradienti. Per superare ciò, introduciamo una rappresentazione implicita-esplicita duale di una maglia skinned, combinando i campi di radianza neurale (NeRFs) (impliciti) con l'articolazione della maglia guidata da scheletro (esplicita). Durante l'ottimizzazione, transizioniamo tra forme implicite ed esplicite, ancorando la generazione di NeRF mentre perfezioniamo l'articolazione della maglia. Convalidiamo il nostro approccio attraverso estesi esperimenti, dimostrandone l'efficacia nella generazione di HOI realistiche.
Alimentati dalla diffusione dei Grandi Modelli di Linguaggio (LLM), i Grandi Modelli Visivo-Linguistici (LVLM) sono emersi come un avanzamento cruciale, colmando il divario tra immagini e testo. Tuttavia, i video rendono difficile per i LVLM esibirsi adeguatamente a causa della complessità della relazione tra linguaggio e struttura dati spazio-temporale. I recenti Grandi Modelli Video-Linguistici (LVidLM) allineano le caratteristiche dei dati visivi statici come le immagini nello spazio latente delle caratteristiche linguistiche, sfruttando compiti multimodali generali per sfruttare adeguatamente le capacità dei LLM. In questo articolo, esploriamo un approccio di allineamento dettagliato tramite traiettoria degli oggetti per diverse modalità attraverso entrambe le dimensioni spaziali e temporali contemporaneamente. Pertanto, proponiamo un nuovo LVidLM guidato dalla traiettoria con Allineamento Pixel-Temporale, denominato PiTe, che mostra una promettente proprietà di modello applicabile. Per raggiungere un allineamento dettagliato tra video e linguaggio, curiamo un dataset di pre-training multimodale PiTe-143k, che fornisce traiettorie in movimento a livello di pixel per tutti gli oggetti individuali che appaiono e vengono menzionati sia nel video che nella didascalia, tramite il nostro pipeline di annotazione automatica. Nel frattempo, PiTe dimostra capacità sorprendenti su una miriade di compiti multimodali correlati ai video, superando di gran lunga i metodi all'avanguardia.
Questo studio affronta la sfida di segmentare con precisione lo Splatting Gaussiano 3D da maschere 2D. I metodi convenzionali spesso si basano su discese graduali iterative per assegnare a ciascun Gaussiano un'etichetta univoca, portando a ottimizzazioni lunghe e soluzioni non ottimali. Invece, proponiamo un risolutore diretto ma globalmente ottimale per la segmentazione 3D-GS. Il concetto chiave del nostro metodo è che, con una scena 3D-GS ricostruita, il rendering delle maschere 2D è essenzialmente una funzione lineare rispetto alle etichette di ciascun Gaussiano. Pertanto, l'assegnazione ottimale delle etichette può essere risolta tramite programmazione lineare in forma chiusa. Questa soluzione sfrutta la caratteristica di alpha blending del processo di splatting per ottimizzazione in un solo passaggio. Integrando il bias dello sfondo nella nostra funzione obiettivo, il nostro metodo mostra una robustezza superiore nella segmentazione 3D contro i rumori. Notevolmente, la nostra ottimizzazione si completa entro 30 secondi, circa 50 volte più veloce dei migliori metodi esistenti. Estesi esperimenti dimostrano l'efficienza e la robustezza del nostro metodo nel segmentare varie scene, e la sua prestazione superiore in compiti successivi come la rimozione degli oggetti e l'inpainting. Demo e codice saranno disponibili su https://github.com/florinshen/FlashSplat.
La rilevazione degli oggetti al di fuori della distribuzione (Out-of-distribution, OOD) è un compito impegnativo a causa dell'assenza di dati OOD open-set. Ispirati ai recenti progressi nei modelli generativi testo-immagine, come Stable Diffusion, studiamo il potenziale dei modelli generativi addestrati su dati open-set su larga scala per sintetizzare campioni OOD, migliorando così la rilevazione degli oggetti OOD. Presentiamo SyncOOD, un semplice metodo di cura dei dati che sfrutta le capacità dei grandi modelli di base per estrarre automaticamente dati OOD significativi dai modelli generativi testo-immagine. Ciò offre al modello accesso alla conoscenza del mondo aperto racchiusa nei modelli di base già pronti. I campioni sintetici OOD vengono quindi impiegati per arricchire l'addestramento di un rilevatore leggero e plug-and-play OOD, ottimizzando efficacemente i confini decisionali tra in-distribuzione (ID) e OOD. Estesi esperimenti su diversi benchmark dimostrano che SyncOOD supera significativamente i metodi esistenti, stabilendo nuove prestazioni di primo piano con un utilizzo minimo di dati sintetici.