Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo affronta un problema importante dell'aggiunta di oggetti a immagini utilizzando solo indicazioni testuali. La sfida risiede nel fatto che il nuovo oggetto deve essere integrato in modo fluido nell'immagine, mantenendo un contesto visivo coerente, come illuminazione, texture e posizione spaziale. Sebbene i metodi esistenti di inpainting guidato da testo possano aggiungere oggetti, spesso non riescono a preservare la coerenza dello sfondo o richiedono un intervento umano complesso per specificare bounding box o maschere disegnate dall'utente. Per superare questa sfida, introduciamo Diffree, un modello Text-to-Image (T2I) che facilita l'aggiunta di oggetti guidata da testo utilizzando solo il controllo testuale. A tal fine, abbiamo creato OABench, un dataset sintetico di alta qualità ottenuto rimuovendo oggetti con tecniche avanzate di inpainting. OABench comprende 74K tuple del mondo reale, ciascuna composta da un'immagine originale, un'immagine con l'oggetto rimosso, una maschera dell'oggetto e descrizioni testuali dell'oggetto. Addestrato su OABench utilizzando il modello Stable Diffusion con un modulo aggiuntivo di previsione delle maschere, Diffree predice in modo univoco la posizione del nuovo oggetto e realizza l'aggiunta di oggetti guidata solo da testo. Esperimenti estensivi dimostrano che Diffree eccelle nell'aggiungere nuovi oggetti con un alto tasso di successo, mantenendo la coerenza dello sfondo, l'appropriatezza spaziale e la rilevanza e qualità degli oggetti.
Introduciamo "LAMBDA", un innovativo sistema open-source e senza codice per l'analisi dati multi-agente che sfrutta la potenza dei modelli di grandi dimensioni. LAMBDA è progettato per affrontare le sfide dell'analisi dati in applicazioni complesse basate sui dati attraverso l'utilizzo di agenti dati progettati in modo innovativo, che operano in modo iterativo e generativo utilizzando il linguaggio naturale. Al cuore di LAMBDA ci sono due ruoli chiave degli agenti: il programmatore e l'ispettore, progettati per lavorare insieme in modo fluido. Nello specifico, il programmatore genera codice basandosi sulle istruzioni dell'utente e sulla conoscenza specifica del dominio, potenziata da modelli avanzati. Nel frattempo, l'ispettore esegue il debug del codice quando necessario. Per garantire robustezza e gestire scenari avversi, LAMBDA include un'interfaccia utente che consente un intervento diretto dell'utente nel ciclo operativo. Inoltre, LAMBDA può integrare in modo flessibile modelli e algoritmi esterni attraverso il nostro meccanismo di integrazione della conoscenza, rispondendo alle esigenze di analisi dati personalizzate. LAMBDA ha dimostrato prestazioni solide su vari dataset di machine learning. Ha il potenziale di migliorare la pratica e il paradigma dell'analisi dati integrando in modo fluido l'intelligenza umana e artificiale, rendendola più accessibile, efficace ed efficiente per individui provenienti da contesti diversi. Le solide prestazioni di LAMBDA nella risoluzione di problemi di data science sono dimostrate in diversi casi di studio, presentati su https://www.polyu.edu.hk/ama/cmfai/lambda.html.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) hanno aperto nuove strade per l'applicazione di sistemi multi-agente in simulazioni su scala molto ampia. Tuttavia, permangono diverse sfide quando si conducono simulazioni multi-agente con le piattaforme esistenti, come una scalabilità limitata e una bassa efficienza, una diversità degli agenti insoddisfacente e processi di gestione ad alto sforzo. Per affrontare queste sfide, sviluppiamo diverse nuove funzionalità e componenti per AgentScope, una piattaforma multi-agente user-friendly, migliorandone la comodità e la flessibilità per supportare simulazioni multi-agente su scala molto ampia. Nello specifico, proponiamo un meccanismo distribuito basato su attori come infrastruttura tecnologica sottostante per ottenere una grande scalabilità e un'elevata efficienza, e forniamo un supporto flessibile per l'ambiente per simulare vari scenari del mondo reale, che consente l'esecuzione parallela di più agenti, l'orchestrazione centralizzata dei flussi di lavoro e le interazioni sia tra agenti che tra agenti e ambiente. Inoltre, integriamo in AgentScope uno strumento configurabile di facile utilizzo e una pipeline automatica per la generazione di background, semplificando il processo di creazione di agenti con impostazioni di background diverse ma dettagliate. Ultimo ma non meno importante, forniamo un'interfaccia basata sul web per monitorare e gestire comodamente un gran numero di agenti che potrebbero essere distribuiti su più dispositivi. Conduciamo una simulazione completa per dimostrare l'efficacia dei miglioramenti proposti in AgentScope e forniamo osservazioni e discussioni dettagliate per evidenziare il grande potenziale dell'applicazione dei sistemi multi-agente nelle simulazioni su larga scala. Il codice sorgente è rilasciato su GitHub all'indirizzo https://github.com/modelscope/agentscope per ispirare ulteriori ricerche e sviluppi nelle simulazioni multi-agente su larga scala.
Addestrandosi su dataset su larga scala, i metodi di stima della profondità monoculare zero-shot (MDE) dimostrano prestazioni robuste in contesti reali, ma spesso soffrono di dettagli insufficientemente precisi. Sebbene i recenti approcci MDE basati su diffusione mostrino una capacità attraente di estrazione dei dettagli, faticano ancora in scene geometricamente complesse a causa della difficoltà di ottenere prior geometrici robusti da dataset diversificati. Per sfruttare i vantaggi complementari di entrambi gli approcci, proponiamo BetterDepth per ottenere in modo efficiente prestazioni MDE affini-invarianti geometricamente corrette, catturando al contempo dettagli fini. Nello specifico, BetterDepth è un affinatore basato su diffusione condizionale che prende la previsione da modelli MDE pre-addestrati come condizionamento della profondità, in cui il contesto globale della profondità è ben catturato, e affina iterativamente i dettagli basandosi sull'immagine di input. Per l'addestramento di tale affinatore, proponiamo metodi di pre-allineamento globale e mascheramento locale di patch per garantire la fedeltà di BetterDepth al condizionamento della profondità, imparando al contempo a catturare dettagli fini della scena. Grazie a un addestramento efficiente su piccoli dataset sintetici, BetterDepth raggiunge prestazioni zero-shot MDE all'avanguardia su vari dataset pubblici e scene reali. Inoltre, BetterDepth può migliorare le prestazioni di altri modelli MDE in modo plug-and-play senza ulteriori ri-addestramenti.
Gli agenti AI hanno attirato un'attenzione crescente principalmente per la loro capacità di percepire ambienti, comprendere compiti e raggiungere obiettivi in modo autonomo. Per avanzare la ricerca sugli agenti AI in scenari mobili, introduciamo l'Android Multi-annotation EXpo (AMEX), un dataset completo e su larga scala progettato per agenti generalisti di controllo dell'interfaccia grafica (GUI) mobile. Le loro capacità di completare compiti complessi interagendo direttamente con l'interfaccia grafica su dispositivi mobili vengono addestrate e valutate con il dataset proposto. AMEX comprende oltre 104K screenshot ad alta risoluzione provenienti da 110 applicazioni mobili popolari, annotati a più livelli. A differenza dei dataset esistenti per il controllo di dispositivi mobili, come MoTIF, AitW, ecc., AMEX include tre livelli di annotazioni: individuazione degli elementi interattivi della GUI, descrizioni delle funzionalità dello schermo e degli elementi della GUI, e istruzioni complesse in linguaggio naturale, ciascuna con una media di 13 passi con catene di azioni GUI passo-passo. Abbiamo sviluppato questo dataset da una prospettiva più istruttiva e dettagliata, integrando le impostazioni generali dei dataset esistenti. Inoltre, sviluppiamo un modello di base chiamato SPHINX Agent e confrontiamo le sue prestazioni con quelle degli agenti all'avanguardia addestrati su altri dataset. Per facilitare ulteriori ricerche, rendiamo disponibili in open source il nostro dataset, i modelli e gli strumenti di valutazione pertinenti. Il progetto è disponibile all'indirizzo https://yuxiangchai.github.io/AMEX/.
Il rischio di contenuti dannosi generati da modelli linguistici di grandi dimensioni (LLM) diventa una preoccupazione critica. Questo articolo presenta uno studio sistematico sulla valutazione e sul miglioramento della capacità degli LLM di eseguire il compito di correzione di rotta, \ie, il modello può evitare autonomamente di generare contenuti dannosi. Per iniziare, introduciamo il benchmark C^2-Eval per la valutazione quantitativa e analizziamo 10 LLM popolari, rivelando una variabile competenza degli attuali LLM ottimizzati per la sicurezza nella correzione di rotta. Per migliorare, proponiamo di affinare gli LLM con l'apprendimento delle preferenze, enfatizzando la preferenza per una correzione di rotta tempestiva. Utilizzando una pipeline automatizzata, creiamo C^2-Syn, un dataset sintetico con 750K preferenze a coppie, per insegnare ai modelli il concetto di correzione di rotta tempestiva attraverso l'apprendimento delle preferenze basato sui dati. Esperimenti su 2 LLM, Llama2-Chat 7B e Qwen2 7B, dimostrano che il nostro metodo migliora efficacemente le capacità di correzione di rotta senza influire sulle prestazioni generali. Inoltre, migliora efficacemente la sicurezza degli LLM, in particolare nella resistenza agli attacchi di jailbreak.
I dati di pre-addestramento dei più potenti modelli linguistici odierni sono opachi. In particolare, si sa poco sulle proporzioni dei vari domini o lingue rappresentati. In questo lavoro, affrontiamo un compito che chiamiamo inferenza della miscela di dati, che mira a scoprire la composizione distributiva dei dati di addestramento. Introduciamo un nuovo attacco basato su una fonte di informazione precedentemente trascurata: i tokenizzatori byte-pair encoding (BPE), utilizzati dalla stragrande maggioranza dei moderni modelli linguistici. La nostra intuizione chiave è che la lista ordinata di regole di fusione appresa da un tokenizzatore BPE rivela naturalmente informazioni sulle frequenze dei token nei suoi dati di addestramento: la prima fusione è la coppia di byte più comune, la seconda è la coppia più comune dopo aver fuso il primo token, e così via. Data la lista di fusioni di un tokenizzatore insieme a campioni di dati per ciascuna categoria di interesse, formuliamo un programma lineare che risolve la proporzione di ciascuna categoria nel set di addestramento del tokenizzatore. Importante, nella misura in cui i dati di addestramento del tokenizzatore sono rappresentativi dei dati di pre-addestramento, apprendiamo indirettamente informazioni sui dati di pre-addestramento. In esperimenti controllati, dimostriamo che il nostro attacco recupera i rapporti di miscela con alta precisione per tokenizzatori addestrati su miscele note di lingue naturali, linguaggi di programmazione e fonti di dati. Applichiamo quindi il nostro approccio ai tokenizzatori pronti all'uso rilasciati con recenti modelli linguistici. Confermiamo molte informazioni pubblicamente divulgate su questi modelli e facciamo anche diverse nuove inferenze: il tokenizzatore di GPT-4o è molto più multilingue rispetto ai suoi predecessori, addestrato su dati per il 39% non in inglese; Llama3 estende il tokenizzatore di GPT-3.5 principalmente per uso multilingue (48%); i tokenizzatori di GPT-3.5 e Claude sono addestrati prevalentemente su codice (~60%). Speriamo che il nostro lavoro getti luce sulle attuali pratiche di progettazione dei dati di pre-addestramento e ispiri ulteriori ricerche sull'inferenza della miscela di dati per i modelli linguistici.
Nel campo dei grandi modelli visione-linguaggio (LVLM) che seguono istruzioni, l'implementazione efficiente di questi modelli affronta sfide significative, principalmente a causa degli elevati requisiti di memoria delle loro cache chiave-valore (KV). Le strategie convenzionali di gestione della cache per i modelli linguistici di grandi dimensioni (LLM) si concentrano sull'evizione della cache, che spesso non riesce a soddisfare le esigenze specifiche dei modelli multimodali che seguono istruzioni. Riconoscendo questa lacuna, in questo articolo introduciamo Elastic Cache, un approccio innovativo che beneficia dell'applicazione di metodi di accelerazione distinti per le fasi di codifica delle istruzioni e generazione dell'output. Esploriamo le metriche di importanza nelle diverse fasi e proponiamo una strategia di fusione della cache guidata dall'importanza per eliminare le ridondanze. Invece di scartare le cache meno importanti, la nostra strategia identifica i vettori chiave/valore importanti come punti di ancoraggio. Le cache meno importanti circostanti vengono quindi fuse con questi ancoraggi, migliorando la conservazione delle informazioni contestuali nelle cache KV e ottenendo un rapporto di accelerazione arbitrario. Per la codifica delle istruzioni, utilizziamo la frequenza per valutare l'importanza delle cache. Per quanto riguarda la generazione dell'output, diamo priorità ai token in base alla loro distanza con un offset, mantenendo sia i token iniziali che quelli più recenti. I risultati su una gamma di LVLM dimostrano che Elastic Cache non solo aumenta l'efficienza, ma supera anche notevolmente i metodi di pruning esistenti nella generazione del linguaggio in vari compiti. Il codice è disponibile all'indirizzo https://github.com/liuzuyan/ElasticCache.
I recenti progressi hanno significativamente migliorato le capacità dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) nella generazione e comprensione di contenuti da immagine a testo. Nonostante questi successi, i progressi sono prevalentemente limitati all'inglese a causa della scarsità di risorse multimodali di alta qualità in altre lingue. Questa limitazione ostacola lo sviluppo di modelli competitivi in lingue come l'arabo. Per alleviare questa situazione, introduciamo un assistente multimodale arabo efficiente, denominato Dallah, che utilizza un modello linguistico avanzato basato su LLaMA-2 per facilitare le interazioni multimodali. Dallah dimostra prestazioni all'avanguardia negli MLLM arabi. Attraverso il fine-tuning di sei dialetti arabi, Dallah mostra la sua capacità di gestire interazioni dialettali complesse che incorporano sia elementi testuali che visivi. Il modello eccelle in due test di benchmark: uno che valuta le sue prestazioni sull'Arabo Standard Moderno (MSA) e un altro specificamente progettato per valutare le risposte dialettali. Oltre alle sue solide prestazioni nei compiti di interazione multimodale, Dallah ha il potenziale di aprire la strada a ulteriori sviluppi di MLLM arabi consapevoli dei dialetti.
La segmentazione dei nuclei cellulari in immagini tissutali colorate con il colorante ematossilina e eosina (H&E) è fondamentale per varie applicazioni e analisi cliniche. A causa delle complesse caratteristiche della morfologia cellulare, un ampio campo recettivo è considerato cruciale per generare segmentazioni di alta qualità. Tuttavia, i metodi precedenti incontrano difficoltà nel bilanciare il campo recettivo e il carico computazionale. Per affrontare questo problema, proponiamo LKCell, un metodo di segmentazione cellulare ad alta precisione ed efficiente. La sua intuizione principale risiede nello sfruttare il potenziale dei grandi kernel di convoluzione per ottenere campi recettivi ampi in modo computazionalmente efficiente. Nello specifico, (1) trasferiamo per la prima volta modelli pre-addestrati con grandi kernel di convoluzione al dominio medico, dimostrandone l'efficacia nella segmentazione cellulare. (2) Analizziamo la ridondanza dei metodi precedenti e progettiamo un nuovo decoder di segmentazione basato su grandi kernel di convoluzione. Questo raggiunge prestazioni superiori riducendo significativamente il numero di parametri. Valutiamo il nostro metodo sul benchmark più impegnativo e otteniamo risultati all'avanguardia (0.5080 mPQ) nella segmentazione istanziale dei nuclei cellulari con solo il 21.6% delle FLOPs rispetto al metodo leader precedente. Il nostro codice sorgente e i modelli sono disponibili su https://github.com/hustvl/LKCell.
Presentiamo una panoramica del task condiviso FIGNEWS, organizzato nell'ambito della conferenza ArabicNLP 2024 in concomitanza con ACL 2024. Il task condiviso affronta l'annotazione di bias e propaganda in post di notizie multilingue. Ci concentriamo sui primi giorni della guerra di Israele a Gaza come caso di studio. L'obiettivo del task è promuovere la collaborazione nello sviluppo di linee guida per l'annotazione di compiti soggettivi, creando framework per analizzare narrazioni diverse che evidenziano potenziali bias e propaganda. In uno spirito di promozione e incoraggiamento della diversità, affrontiamo il problema da una prospettiva multilingue, in particolare all'interno di cinque lingue: inglese, francese, arabo, ebraico e hindi. Un totale di 17 team ha partecipato a due sottotask di annotazione: bias (16 team) e propaganda (6 team). I team hanno gareggiato in quattro tracce di valutazione: sviluppo delle linee guida, qualità dell'annotazione, quantità dell'annotazione e coerenza. Collettivamente, i team hanno prodotto 129.800 punti dati. Vengono discussi i risultati chiave e le implicazioni per il campo.
Identificare riferimenti significativi all'interno delle complesse interrelazioni di un grafo della conoscenza delle citazioni è una sfida impegnativa, che comprende connessioni attraverso citazioni, autori, parole chiave e altri attributi relazionali. Il compito di Paper Source Tracing (PST) mira ad automatizzare l'identificazione di riferimenti chiave per articoli accademici specifici, utilizzando tecniche avanzate di data mining. Nel KDD CUP 2024, abbiamo progettato un framework basato su raccomandazioni, appositamente creato per il compito PST. Questo framework utilizza il modello di Neural Collaborative Filtering (NCF) per generare previsioni finali. Per elaborare gli attributi testuali dei paper ed estrarre le caratteristiche di input per il modello, utilizziamo SciBERT, un modello linguistico pre-addestrato. Secondo i risultati sperimentali, il nostro metodo ha ottenuto un punteggio di 0.37814 sulla metrica Mean Average Precision (MAP), superando i modelli di base e classificandosi all'11° posto tra tutti i team partecipanti. Il codice sorgente è disponibile pubblicamente all'indirizzo https://github.com/MyLove-XAB/KDDCupFinal.