Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

DSBench: Quanto sono lontani gli agenti di Data Science dall'avvicinarsi agli Esperti di Data Science?
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

Sep 12

ByLiqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu

I Large Language Models (LLM) e i Large Vision-Language Models (LVLM) hanno dimostrato notevoli capacità di ragionamento linguistico/visivo, dando il via alla recente tendenza di costruire agenti per applicazioni mirate come assistenti per lo shopping o ingegneri software di intelligenza artificiale. Di recente, sono stati proposti molti benchmark di scienza dei dati per investigare le loro prestazioni nel campo della scienza dei dati. Tuttavia, i benchmark esistenti di scienza dei dati ancora non sono all'altezza rispetto alle applicazioni reali di scienza dei dati a causa delle loro impostazioni semplificate. Per colmare questa lacuna, presentiamo DSBench, un benchmark completo progettato per valutare agenti di scienza dei dati con compiti realistici. Questo benchmark include 466 compiti di analisi dei dati e 74 compiti di modellazione dei dati, provenienti da competizioni di Eloquence e Kaggle. DSBench offre un contesto realistico che include contesti lunghi, sfondi di compiti multimodali, ragionamento con ampi file di dati e strutture multi-tabella, e svolgimento di compiti di modellazione dei dati end-to-end. La nostra valutazione dei migliori LLM, LVLM e agenti mostra che faticano con la maggior parte dei compiti, con il miglior agente che risolve solo il 34,12% dei compiti di analisi dei dati e raggiunge un Gap di Prestazioni Relativo (RPG) del 34,74%. Questi risultati sottolineano la necessità di ulteriori progressi nello sviluppo di agenti di scienza dei dati più pratici, intelligenti e autonomi.

Arena dell'Agente Windows: Valutazione su larga scala degli Agenti OS Multi-Modalità
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Sep 12

ByRogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui

I grandi modelli linguistici (LLM) mostrano un notevole potenziale per agire come agenti informatici, migliorando la produttività umana e l'accessibilità del software in compiti multimodali che richiedono pianificazione e ragionamento. Tuttavia, misurare le prestazioni degli agenti in ambienti realistici rimane una sfida poiché: (i) la maggior parte dei benchmark è limitata a specifiche modalità o domini (ad esempio solo testo, navigazione web, domande e risposte, codifica) e (ii) le valutazioni complete dei benchmark sono lente (dell'ordine di grandezza dei giorni) data la natura sequenziale a più passaggi dei compiti. Per affrontare queste sfide, presentiamo il Windows Agent Arena: un ambiente generale riproducibile che si concentra esclusivamente sul sistema operativo Windows, in cui gli agenti possono operare liberamente all'interno di un vero sistema operativo Windows e utilizzare la stessa ampia gamma di applicazioni, strumenti e browser web disponibili agli utenti umani quando risolvono compiti. Adattiamo il framework OSWorld (Xie et al., 2024) per creare oltre 150 compiti Windows diversi in rappresentativi domini che richiedono abilità degli agenti nella pianificazione, comprensione dello schermo e uso degli strumenti. Il nostro benchmark è scalabile e può essere parallelizzato senza problemi in Azure per una valutazione completa del benchmark in soli 20 minuti. Per dimostrare le capacità del Windows Agent Arena, presentiamo anche un nuovo agente multimodale, Navi. Il nostro agente raggiunge un tasso di successo del 19,5% nel dominio Windows, rispetto al 74,5% delle prestazioni di un essere umano non assistito. Navi dimostra inoltre una forte performance su un altro popolare benchmark basato sul web, Mind2Web. Offriamo un'ampia analisi quantitativa e qualitativa delle prestazioni di Navi e forniamo spunti sulle opportunità per futuri sviluppi di ricerca nello sviluppo degli agenti e nella generazione di dati utilizzando il Windows Agent Arena. Sito web: https://microsoft.github.io/WindowsAgentArena Codice: https://github.com/microsoft/WindowsAgentArena

Possono i LLM generare nuove idee di ricerca? Uno studio umano su larga scala con oltre 100 ricercatori di NLP.
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

Sep 6

ByChenglei Si, Diyi Yang, Tatsunori Hashimoto

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno suscitato ottimismo sul loro potenziale di accelerare la scoperta scientifica, con un numero crescente di lavori che propongono agenti di ricerca in grado di generare e convalidare autonomamente nuove idee. Tuttavia, nessuna valutazione ha dimostrato che i sistemi LLM possano compiere il primo passo di produrre idee nuove di livello esperto, figuriamoci svolgere l'intero processo di ricerca. Affrontiamo questo problema stabilendo un design sperimentale che valuta la generazione di idee di ricerca controllando i confonditori e realizzando il primo confronto diretto tra ricercatori esperti in NLP e un agente di ideazione LLM. Recrutando oltre 100 ricercatori NLP per scrivere idee innovative e recensendo in cieco sia le idee LLM che quelle umane, otteniamo la prima conclusione statisticamente significativa sulle attuali capacità LLM per l'ideazione di ricerca: scopriamo che le idee generate dal LLM sono giudicate più innovative (p < 0.05) rispetto alle idee esperte umane, sebbene vengano giudicate leggermente meno realistiche. Studiando da vicino i nostri agenti di base, identifichiamo problemi aperti nella costruzione e valutazione degli agenti di ricerca, inclusi i fallimenti dell'autovalutazione del LLM e la loro mancanza di diversità nella generazione. Infine, riconosciamo che i giudizi umani sulla novità possono essere difficili, anche per gli esperti, e proponiamo un design di studio end-to-end che recluta ricercatori per realizzare queste idee in progetti completi, consentendoci di studiare se questi giudizi di novità e fattibilità comportino differenze significative nei risultati della ricerca.

IFAdapter: Controllo delle Caratteristiche dell'Istanza per la Generazione di Testo in Immagini basato su Evidenze
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

Sep 12

ByYinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang

Mentre i modelli di diffusione Testo-immagine (T2I) eccellono nella generazione di immagini visivamente accattivanti di singole istanze, faticano a posizionare con precisione e controllare la generazione delle caratteristiche di più istanze. Il compito di Layout-immagine (L2I) è stato introdotto per affrontare le sfide di posizionamento incorporando riquadri delimitatori come segnali di controllo spaziale, ma ancora manca nel generare con precisione le caratteristiche delle istanze. In risposta, proponiamo il compito di Generazione delle Caratteristiche dell'Istanza (IFG), che mira a garantire sia l'accuratezza posizionale che la fedeltà delle caratteristiche nelle istanze generate. Per affrontare il compito di IFG, introduciamo l'Adattatore delle Caratteristiche dell'Istanza (IFAdapter). L'IFAdapter migliora la rappresentazione delle caratteristiche incorporando token di aspetto aggiuntivi e utilizzando una Mappa Semantica dell'Istanza per allineare le caratteristiche a livello di istanza con le posizioni spaziali. L'IFAdapter guida il processo di diffusione come un modulo plug-and-play, rendendolo adattabile a vari modelli della comunità. Per la valutazione, contribuiamo con un benchmark di IFG e sviluppiamo un processo di verifica per confrontare oggettivamente le capacità dei modelli di generare istanze con posizionamento e caratteristiche accurate. I risultati sperimentali dimostrano che l'IFAdapter supera gli altri modelli sia nelle valutazioni quantitative che qualitative.

Source2Synth: Generazione di Dati Sintetici e Cura Basata su Fonti di Dati Reali
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

Sep 12

ByAlisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli

I Large Language Models continuano a faticare in scenari sfidanti che sfruttano dati strutturati, ragionamenti complessi o l'uso di strumenti. In questo articolo, proponiamo Source2Synth: un nuovo metodo che può essere utilizzato per insegnare alle LLM nuove abilità senza fare affidamento su costose annotazioni umane. Source2Synth prende in input una fonte di dati personalizzata e produce punti dati sintetici con passaggi di ragionamento intermedi basati su fonti del mondo reale. Source2Synth migliora la qualità del dataset scartando le generazioni di bassa qualità in base alla loro rispondibilità. Dimostriamo la generalità di questo approccio applicandolo a due domini impegnativi: testiamo le capacità di ragionamento nella risposta a domande multi-hop (MHQA) e l'uso di strumenti nella risposta a domande tabulari (TQA). Il nostro metodo migliora le prestazioni del 25,51% per TQA su WikiSQL e del 22,57% per MHQA su HotPotQA rispetto alle basi sintonizzate finemente.

TextBoost: Verso la personalizzazione in un'unica iterazione dei modelli di testo-immagine tramite il raffinamento dell'encoder di testo
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

Sep 12

ByNaHyeon Park, Kunhee Kim, Hyunjung Shim

Recenti avanzamenti nei modelli di testo-immagine hanno aperto promettenti vie di ricerca nella generazione personalizzata di immagini, consentendo agli utenti di creare immagini diverse su un soggetto specifico utilizzando suggerimenti di linguaggio naturale. Tuttavia, i metodi esistenti spesso soffrono di degrado delle prestazioni quando viene fornita solo un'immagine di riferimento. Tendono a sovradattarsi all'input, producendo output altamente simili indipendentemente dal suggerimento di testo. Questo articolo affronta la sfida della personalizzazione in un'unica iterazione mitigando l'overfitting, consentendo la creazione di immagini controllabili attraverso suggerimenti di testo. In particolare, proponiamo una strategia di raffinamento selettivo che si concentra sull'encoder di testo. Inoltre, introduciamo tre tecniche chiave per migliorare le prestazioni di personalizzazione: (1) token di augmentazione per incoraggiare lo svincolamento delle caratteristiche e alleviare l'overfitting, (2) una perdita di conservazione della conoscenza per ridurre la deriva del linguaggio e promuovere la generalizzabilità tra diversi suggerimenti, e (3) campionamento pesato per SNR per un addestramento efficiente. Estesi esperimenti dimostrano che il nostro approccio genera efficientemente immagini di alta qualità e diverse utilizzando solo un'immagine di riferimento, riducendo significativamente i requisiti di memoria e archiviazione.

DreamHOI: Generazione guidata dal soggetto di interazioni umano-oggetto in 3D con Priors di diffusione
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

Sep 12

ByThomas Hanwen Zhu, Ruining Li, Tomas Jakab

Presentiamo DreamHOI, un nuovo metodo per la sintesi zero-shot delle interazioni umano-oggetto (HOI), che consente a un modello umano 3D di interagire realisticamente con un qualsiasi oggetto dato sulla base di una descrizione testuale. Questo compito è complicato dalle varie categorie e geometrie degli oggetti del mondo reale e dalla scarsità di set di dati che comprendono diverse HOI. Per evitare la necessità di dati estesi, sfruttiamo modelli di diffusione testo-immagine addestrati su miliardi di coppie immagine-didascalia. Ottimizziamo l'articolazione di una maglia umana skinned utilizzando i gradienti di Score Distillation Sampling (SDS) ottenuti da questi modelli, che predicono modifiche nello spazio immagine. Tuttavia, propagare direttamente i gradienti dello spazio immagine nei parametri di articolazione complessi è inefficace a causa della natura locale di tali gradienti. Per superare ciò, introduciamo una rappresentazione implicita-esplicita duale di una maglia skinned, combinando i campi di radianza neurale (NeRFs) (impliciti) con l'articolazione della maglia guidata da scheletro (esplicita). Durante l'ottimizzazione, transizioniamo tra forme implicite ed esplicite, ancorando la generazione di NeRF mentre perfezioniamo l'articolazione della maglia. Convalidiamo il nostro approccio attraverso estesi esperimenti, dimostrandone l'efficacia nella generazione di HOI realistiche.

PiTe: Allineamento Pixel-Temporale per Grandi Modelli Video-Linguaggio
PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Sep 11

ByYang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang

Alimentati dalla diffusione dei Grandi Modelli di Linguaggio (LLM), i Grandi Modelli Visivo-Linguistici (LVLM) sono emersi come un avanzamento cruciale, colmando il divario tra immagini e testo. Tuttavia, i video rendono difficile per i LVLM esibirsi adeguatamente a causa della complessità della relazione tra linguaggio e struttura dati spazio-temporale. I recenti Grandi Modelli Video-Linguistici (LVidLM) allineano le caratteristiche dei dati visivi statici come le immagini nello spazio latente delle caratteristiche linguistiche, sfruttando compiti multimodali generali per sfruttare adeguatamente le capacità dei LLM. In questo articolo, esploriamo un approccio di allineamento dettagliato tramite traiettoria degli oggetti per diverse modalità attraverso entrambe le dimensioni spaziali e temporali contemporaneamente. Pertanto, proponiamo un nuovo LVidLM guidato dalla traiettoria con Allineamento Pixel-Temporale, denominato PiTe, che mostra una promettente proprietà di modello applicabile. Per raggiungere un allineamento dettagliato tra video e linguaggio, curiamo un dataset di pre-training multimodale PiTe-143k, che fornisce traiettorie in movimento a livello di pixel per tutti gli oggetti individuali che appaiono e vengono menzionati sia nel video che nella didascalia, tramite il nostro pipeline di annotazione automatica. Nel frattempo, PiTe dimostra capacità sorprendenti su una miriade di compiti multimodali correlati ai video, superando di gran lunga i metodi all'avanguardia.

FlashSplat: Segmentazione ottimale tramite splatting gaussiano da 2D a 3D
FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally

Sep 12

ByQiuhong Shen, Xingyi Yang, Xinchao Wang

Questo studio affronta la sfida di segmentare con precisione lo Splatting Gaussiano 3D da maschere 2D. I metodi convenzionali spesso si basano su discese graduali iterative per assegnare a ciascun Gaussiano un'etichetta univoca, portando a ottimizzazioni lunghe e soluzioni non ottimali. Invece, proponiamo un risolutore diretto ma globalmente ottimale per la segmentazione 3D-GS. Il concetto chiave del nostro metodo è che, con una scena 3D-GS ricostruita, il rendering delle maschere 2D è essenzialmente una funzione lineare rispetto alle etichette di ciascun Gaussiano. Pertanto, l'assegnazione ottimale delle etichette può essere risolta tramite programmazione lineare in forma chiusa. Questa soluzione sfrutta la caratteristica di alpha blending del processo di splatting per ottimizzazione in un solo passaggio. Integrando il bias dello sfondo nella nostra funzione obiettivo, il nostro metodo mostra una robustezza superiore nella segmentazione 3D contro i rumori. Notevolmente, la nostra ottimizzazione si completa entro 30 secondi, circa 50 volte più veloce dei migliori metodi esistenti. Estesi esperimenti dimostrano l'efficienza e la robustezza del nostro metodo nel segmentare varie scene, e la sua prestazione superiore in compiti successivi come la rimozione degli oggetti e l'inpainting. Demo e codice saranno disponibili su https://github.com/florinshen/FlashSplat.

Possono i rilevatori di oggetti OOD imparare dai modelli di base?
Can OOD Object Detectors Learn from Foundation Models?

Sep 8

ByJiahui Liu, Xin Wen, Shizhen Zhao, Yingxian Chen, Xiaojuan Qi

La rilevazione degli oggetti al di fuori della distribuzione (Out-of-distribution, OOD) è un compito impegnativo a causa dell'assenza di dati OOD open-set. Ispirati ai recenti progressi nei modelli generativi testo-immagine, come Stable Diffusion, studiamo il potenziale dei modelli generativi addestrati su dati open-set su larga scala per sintetizzare campioni OOD, migliorando così la rilevazione degli oggetti OOD. Presentiamo SyncOOD, un semplice metodo di cura dei dati che sfrutta le capacità dei grandi modelli di base per estrarre automaticamente dati OOD significativi dai modelli generativi testo-immagine. Ciò offre al modello accesso alla conoscenza del mondo aperto racchiusa nei modelli di base già pronti. I campioni sintetici OOD vengono quindi impiegati per arricchire l'addestramento di un rilevatore leggero e plug-and-play OOD, ottimizzando efficacemente i confini decisionali tra in-distribuzione (ID) e OOD. Estesi esperimenti su diversi benchmark dimostrano che SyncOOD supera significativamente i metodi esistenti, stabilendo nuove prestazioni di primo piano con un utilizzo minimo di dati sintetici.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

DSBench: Quanto sono lontani gli agenti di Data Science dall'avvicinarsi agli Esperti di Data Science?
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

Sep 12

ByLiqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu

Arena dell'Agente Windows: Valutazione su larga scala degli Agenti OS Multi-Modalità
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Sep 12

ByRogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui