Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il compito di risoluzione dei problemi consiste nel modificare una base di codice per generare una patch che affronti un determinato problema. Tuttavia, i benchmark esistenti, come SWE-bench, si concentrano quasi esclusivamente su Python, rendendoli insufficienti per valutare i Large Language Model (LLM) in ecosistemi software diversificati. Per affrontare questa limitazione, introduciamo un benchmark multilingue per la risoluzione di problemi, chiamato Multi-SWE-bench, che copre Java, TypeScript, JavaScript, Go, Rust, C e C++. Esso include un totale di 1.632 istanze di alta qualità, accuratamente annotate da 68 esperti annotatori partendo da 2.456 candidati, garantendo che il benchmark possa fornire una valutazione accurata e affidabile. Basandoci su Multi-SWE-bench, valutiamo una serie di modelli all'avanguardia utilizzando tre metodi rappresentativi (Agentless, SWE-agent e OpenHands) e presentiamo un'analisi completa con intuizioni empiriche chiave. Inoltre, lanciamo una comunità open-source Multi-SWE-RL, con l'obiettivo di costruire dataset di addestramento su larga scala per il reinforcement learning (RL) applicato ai compiti di risoluzione dei problemi. Come contributo iniziale, rilasciamo un set di 4.723 istanze ben strutturate che coprono sette linguaggi di programmazione, gettando una solida base per la ricerca in RL in questo ambito. Ancora più importante, rendiamo open-source l'intera pipeline di produzione dei dati, insieme a tutorial dettagliati, incoraggiando la comunità open-source a contribuire continuamente e ad espandere il dataset. Immaginiamo che il nostro Multi-SWE-bench e la comunità Multi-SWE-RL in continua crescita possano fungere da catalizzatori per far progredire il RL verso il suo pieno potenziale, avvicinandoci ulteriormente all'alba dell'AGI.
Il ragionamento matematico è un pilastro dell'intelligenza umana e un parametro di riferimento cruciale per le capacità avanzate nei grandi modelli linguistici (LLM). Tuttavia, la comunità di ricerca manca ancora di un corpus aperto, su larga scala e di alta qualità, specificamente progettato per le esigenze del pre-training di LLM incentrati sulla matematica. Presentiamo MegaMath, un dataset aperto curato da fonti diverse e focalizzate sulla matematica, seguendo queste pratiche: (1) Rivalutazione dei dati web: abbiamo riesaminato documenti matematici da Common Crawl con ottimizzazioni HTML orientate alla matematica, filtraggio basato su fasttext e deduplicazione, tutto finalizzato a ottenere dati di qualità superiore da Internet. (2) Recupero di dati di codice legati alla matematica: abbiamo identificato codice di alta qualità relativo alla matematica da un ampio corpus di addestramento di codice, Stack-V2, migliorando ulteriormente la diversità dei dati. (3) Esplorazione di dati sintetici: abbiamo sintetizzato testo in formato domanda-risposta, codice legato alla matematica e blocchi intercalati di testo e codice a partire da dati web o di codice. Integrando queste strategie e validandone l'efficacia attraverso ampie ablazioni, MegaMath offre 371 miliardi di token, rappresentando la quantità più ampia e la qualità più elevata tra i dataset aperti esistenti per il pre-training matematico.
I Large Language Model (LLM) hanno ottenuto prestazioni considerevoli in vari compiti di pianificazione agentica. Tuttavia, gli approcci tradizionali alla pianificazione degli agenti adottano una metodologia di "irrigazione a pioggia" che inietta indiscriminatamente traiettorie ottimali, feedback esterni e conoscenze di dominio nei modelli degli agenti. Questa pratica trascura il principio cognitivo umano fondamentale della consapevolezza situazionale durante il processo decisionale: la capacità di valutare dinamicamente le esigenze situazionali e di impiegare strategicamente le risorse durante la presa di decisioni. Proponiamo la consapevolezza situazionale agentica per colmare questa lacuna, un nuovo paradigma che consente agli agenti basati su LLM di regolare autonomamente l'utilizzo della conoscenza. Nello specifico, proponiamo KnowSelf, un approccio incentrato sui dati che applica agli agenti una consapevolezza situazionale simile a quella umana. In concreto, abbiamo ideato un criterio euristico di giudizio situazionale per contrassegnare token speciali sulle traiettorie auto-esplorate dall'agente, al fine di raccogliere dati di addestramento. Attraverso un processo di addestramento in due fasi, il modello dell'agente può passare da una situazione all'altra generando specifici token speciali, ottenendo effetti di pianificazione ottimali con costi minimi. I nostri esperimenti dimostrano che KnowSelf può superare vari benchmark robusti su diversi compiti e modelli con un uso minimo di conoscenza esterna. Il codice è disponibile all'indirizzo https://github.com/zjunlp/KnowSelf.
In questo lavoro presentiamo VARGPT-v1.1, un modello autoregressivo visivo unificato e avanzato che si basa sul nostro precedente framework VARGPT. Il modello preserva il paradigma duale di previsione del token successivo per la comprensione visiva e generazione alla scala successiva per la sintesi di immagini. Nello specifico, VARGPT-v1.1 integra: (1) una nuova strategia di addestramento che combina l'ottimizzazione iterativa delle istruzioni visive con l'apprendimento per rinforzo tramite Direct Preference Optimization (DPO), (2) un corpus di addestramento ampliato contenente 8,3 milioni di coppie di istruzioni visivo-generative, (3) un backbone di modello linguistico aggiornato basato su Qwen2, (4) una risoluzione migliorata nella generazione di immagini e (5) capacità emergenti di editing delle immagini senza modifiche architetturali. Questi progressi consentono a VARGPT-v1.1 di raggiungere prestazioni all'avanguardia nelle attività di comprensione multimodale e di esecuzione di istruzioni testo-immagine, dimostrando miglioramenti significativi sia nelle metriche di comprensione che di generazione. In particolare, attraverso l'ottimizzazione delle istruzioni visive, il modello acquisisce funzionalità di editing delle immagini mantenendo la coerenza architetturale con il suo predecessore, rivelando il potenziale per una comprensione, generazione e editing visivo unificati. I nostri risultati suggeriscono che modelli autoregressivi visivi unificati ben progettati possono adottare efficacemente strategie di addestramento flessibili dai grandi modelli linguistici (LLM), mostrando una promettente scalabilità. Il codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/VARGPT-family/VARGPT-v1.1.
I Transformer sono il fondamento dei moderni modelli linguistici su larga scala, ma la loro complessità computazionale quadratica limita l'efficienza nell'elaborazione di sequenze lunghe. I recenti progressi in Mamba, un modello a spazio di stati (SSM) con complessità lineare, offrono promettenti guadagni in termini di efficienza, ma soffrono di un apprendimento contestuale instabile e di una generalizzazione multitask. Questo articolo propone TransMamba, un nuovo framework che unisce Transformer e Mamba attraverso matrici di parametri condivise (ad esempio, QKV e CBx), consentendo così di passare dinamicamente tra meccanismi di attenzione e SSM a diverse lunghezze di token e livelli. Progettiamo il Memory converter per collegare Transformer e Mamba convertendo gli output di attenzione in stati compatibili con SSM, garantendo un flusso di informazioni senza soluzione di continuità nei TransPoint dove avviene la trasformazione. Viene inoltre esplorata a fondo la pianificazione dei TransPoint per ulteriori miglioramenti. Abbiamo condotto esperimenti estensivi dimostrando che TransMamba raggiunge un'efficienza di addestramento e prestazioni superiori rispetto ai baseline, e abbiamo validato una più profonda coerenza tra i paradigmi di Transformer e Mamba, offrendo una soluzione scalabile per la modellazione di sequenze di prossima generazione.
Nell'interazione tra agenti e i loro ambienti, gli agenti espandono le proprie capacità pianificando ed eseguendo azioni. Tuttavia, gli agenti basati su LLM affrontano sfide significative quando vengono impiegati in ambienti nuovi o quando devono navigare in spazi d'azione non convenzionali. Per consentire agli agenti di esplorare autonomamente gli ambienti, ottimizzare i flussi di lavoro e migliorare la loro comprensione delle azioni, proponiamo SynWorld, un framework che permette agli agenti di sintetizzare possibili scenari con invocazione di azioni multi-step all'interno dello spazio d'azione e di eseguire un'esplorazione tramite Monte Carlo Tree Search (MCTS) per affinare efficacemente la loro conoscenza delle azioni nell'ambiente corrente. I nostri esperimenti dimostrano che SynWorld è un approccio efficace e generale per apprendere la conoscenza delle azioni in nuovi ambienti. Il codice è disponibile all'indirizzo https://github.com/zjunlp/SynWorld.
Gli agenti autonomi alimentati da modelli di fondazione hanno visto un'ampia adozione in varie applicazioni del mondo reale. Tuttavia, rimangono altamente vulnerabili a istruzioni e attacchi malevoli, che possono portare a gravi conseguenze come violazioni della privacy e perdite finanziarie. Ancora più critico è il fatto che le attuali misure di sicurezza per i modelli linguistici di grandi dimensioni (LLM) non siano applicabili a causa della natura complessa e dinamica degli agenti. Per affrontare queste sfide, proponiamo ShieldAgent, il primo agente di sicurezza progettato per far rispettare il rispetto esplicito delle politiche di sicurezza per la traiettoria d'azione di altri agenti protetti attraverso il ragionamento logico. Nello specifico, ShieldAgent costruisce prima un modello di politica di sicurezza estraendo regole verificabili dai documenti delle politiche e strutturandole in un insieme di circuiti di regole probabilistiche basate sull'azione. Data la traiettoria d'azione dell'agente protetto, ShieldAgent recupera i circuiti di regole rilevanti e genera un piano di schermatura, sfruttando la sua ampia libreria di strumenti e il codice eseguibile per la verifica formale. Inoltre, data la mancanza di benchmark di sicurezza per gli agenti, introduciamo ShieldAgent-Bench, un dataset con 3K coppie di istruzioni e traiettorie d'azione relative alla sicurezza, raccolte tramite attacchi all'avanguardia in 6 ambienti web e 7 categorie di rischio. Gli esperimenti mostrano che ShieldAgent raggiunge lo stato dell'arte su ShieldAgent-Bench e tre benchmark esistenti, superando i metodi precedenti in media dell'11,3% con un alto richiamo del 90,1%. Inoltre, ShieldAgent riduce le query API del 64,7% e il tempo di inferenza del 58,2%, dimostrando la sua alta precisione ed efficienza nella protezione degli agenti.
L'addestramento di agenti AI efficaci per interazioni multi-turn richiede dati di alta qualità che catturino dinamiche realistiche tra umani e agenti, tuttavia tali dati sono scarsi e costosi da raccogliere manualmente. Introduciamo APIGen-MT, un framework a due fasi che genera dati multi-turn verificabili e diversificati per agenti. Nella prima fase, la nostra pipeline agentica produce progetti dettagliati di attività con azioni di riferimento, sfruttando un comitato di revisori LLM e cicli di feedback iterativi. Questi progetti vengono poi trasformati in traiettorie di interazione complete attraverso una simulazione di interazione umano-agente. Addestriamo una famiglia di modelli -- la serie xLAM-2-fc-r con dimensioni che vanno da 1B a 70B parametri. I nostri modelli superano modelli all'avanguardia come GPT-4o e Claude 3.5 sui benchmark tau-bench e BFCL, con i modelli più piccoli che superano le loro controparti più grandi, specialmente in contesti multi-turn, mantenendo una superiore coerenza attraverso più prove. Esperimenti completi dimostrano che il nostro approccio verificato da progetto a dettagli produce dati di addestramento di alta qualità, consentendo lo sviluppo di agenti più affidabili, efficienti e capaci. Rendiamo open-source sia i dati sintetici raccolti che i modelli xLAM-2-fc-r addestrati per avanzare la ricerca sugli agenti AI. I modelli sono disponibili su HuggingFace all'indirizzo https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 e il sito web del progetto è https://apigen-mt.github.io.
I benchmark esistenti per i MLLM (Multimodal Large Language Models) affrontano sfide significative nella valutazione dei MLLM Unificati (U-MLLM) a causa di: 1) la mancanza di benchmark standardizzati per i compiti tradizionali, che porta a confronti inconsistenti; 2) l'assenza di benchmark per la generazione multimodale mista, che non riesce a valutare le capacità di ragionamento multimodale. Presentiamo un framework di valutazione completo progettato per valutare sistematicamente gli U-MLLM. Il nostro benchmark include: 1. Valutazione Standardizzata dei Compiti Tradizionali. Campioniamo da 12 dataset, coprendo 10 compiti con 30 sottocompiti, garantendo confronti coerenti e equi tra gli studi. 2. Valutazione Unificata dei Compiti. Introduciamo cinque nuovi compiti che testano il ragionamento multimodale, tra cui l'editing di immagini, il question-answering di senso comune con generazione di immagini e il ragionamento geometrico. 3. Benchmark Completo dei Modelli. Valutiamo 12 U-MLLM leader, come Janus-Pro, EMU3, VILA-U e Gemini2-flash, insieme a modelli specializzati nella comprensione (ad esempio, Claude-3.5-Sonnet) e nella generazione (ad esempio, DALL-E-3). I nostri risultati rivelano significative lacune nelle prestazioni degli U-MLLM esistenti, evidenziando la necessità di modelli più robusti in grado di gestire efficacemente compiti multimodali misti. Il codice e i dati di valutazione sono disponibili su https://mme-unify.github.io/.
La ricostruzione umana da singola immagine è fondamentale per le applicazioni di modellazione digitale umana, ma rimane un compito estremamente impegnativo. Gli approcci attuali si basano su modelli generativi per sintetizzare immagini multi-vista per la successiva ricostruzione 3D e animazione. Tuttavia, la generazione diretta di più viste da una singola immagine umana soffre di inconsistenze geometriche, portando a problemi come arti frammentati o sfocati nei modelli ricostruiti. Per affrontare queste limitazioni, introduciamo HumanDreamer-X, un nuovo framework che integra la generazione e la ricostruzione multi-vista umana in una pipeline unificata, migliorando significativamente la consistenza geometrica e la fedeltà visiva dei modelli 3D ricostruiti. In questo framework, il 3D Gaussian Splatting funge da rappresentazione 3D esplicita per fornire una priorità geometrica e di aspetto iniziale. Su questa base, HumanFixer viene addestrato per ripristinare le renderizzazioni 3DGS, garantendo risultati fotorealistici. Inoltre, approfondiamo le sfide intrinseche associate ai meccanismi di attenzione nella generazione multi-vista umana e proponiamo una strategia di modulazione dell'attenzione che migliora efficacemente i dettagli geometrici e la consistenza dell'identità attraverso le multi-viste. I risultati sperimentali dimostrano che il nostro approccio migliora notevolmente le metriche di qualità PSNR della generazione e della ricostruzione rispettivamente del 16,45% e del 12,65%, raggiungendo un PSNR fino a 25,62 dB, mostrando anche capacità di generalizzazione su dati in-the-wild e applicabilità a vari modelli di ricostruzione umana di base.
Questo articolo introduce Comprehensive Relighting, il primo approccio completo in grado di controllare e armonizzare l'illuminazione da un'immagine o un video di esseri umani con parti del corpo arbitrarie provenienti da qualsiasi scena. Costruire un modello così generalizzabile è estremamente impegnativo a causa della mancanza di dataset, che limita i modelli esistenti di relighting basati su immagini a scenari specifici (ad esempio, volto o esseri umani statici). Per affrontare questa sfida, riutilizziamo un modello di diffusione pre-addestrato come prior generale per l'immagine e modelliamo congiuntamente il relighting umano e l'armonizzazione dello sfondo in un framework coarse-to-fine. Per migliorare ulteriormente la coerenza temporale del relighting, introduciamo un modello di illuminazione temporale non supervisionato che apprende la coerenza del ciclo di illuminazione da molti video del mondo reale senza alcuna verità di riferimento. Durante l'inferenza, il modulo di illuminazione temporale è combinato con i modelli di diffusione attraverso algoritmi di fusione di caratteristiche spazio-temporali senza ulteriore addestramento; e applichiamo una nuova raffinazione guidata come post-elaborazione per preservare i dettagli ad alta frequenza dell'immagine di input. Negli esperimenti, Comprehensive Relighting dimostra una forte generalizzabilità e coerenza temporale dell'illuminazione, superando i metodi esistenti di relighting e armonizzazione umana basati su immagini.
La segmentazione di immagini e video medici è un compito cruciale per la medicina di precisione, che ha visto notevoli progressi nello sviluppo di modelli specifici per compiti o modalità e modelli generalisti per immagini 2D. Tuttavia, ci sono stati studi limitati sulla creazione di modelli generici per immagini 3D e video con studi utente completi. Qui presentiamo MedSAM2, un modello di segmentazione foundation promptable per la segmentazione di immagini 3D e video. Il modello è stato sviluppato ottimizzando il Segment Anything Model 2 su un ampio dataset medico con oltre 455.000 coppie di immagini-maschere 3D e 76.000 frame, superando i modelli precedenti su una vasta gamma di organi, lesioni e modalità di imaging. Inoltre, implementiamo una pipeline human-in-the-loop per facilitare la creazione di dataset su larga scala, risultando, a nostra conoscenza, nello studio utente più esteso fino ad oggi, che include l'annotazione di 5.000 lesioni TC, 3.984 lesioni epatiche MRI e 251.550 frame di video ecocardiografici, dimostrando che MedSAM2 può ridurre i costi manuali di oltre l'85%. MedSAM2 è anche integrato in piattaforme ampiamente utilizzate con interfacce user-friendly per il deployment locale e su cloud, rendendolo uno strumento pratico per supportare una segmentazione efficiente, scalabile e di alta qualità sia in ambienti di ricerca che sanitari.
Bilanciare la risoluzione temporale e il dettaglio spaziale con un budget computazionale limitato rimane una sfida chiave per i modelli linguistici multimodali (MLLM) basati su video. I metodi esistenti tipicamente comprimono le rappresentazioni video utilizzando regole predefinite prima di alimentarle nel LLM, causando una perdita irreversibile di informazioni e spesso ignorando le istruzioni di input. Per affrontare questo problema, proponiamo una nuova architettura slow-fast che aggira naturalmente questo compromesso, consentendo l'uso di più frame di input preservando i dettagli spaziali. Ispirati da come gli esseri umani dapprima scorrono un video prima di concentrarsi sulle parti rilevanti, il nostro design slow-fast impiega una strategia a doppio token: 1) token visivi "fast" — un insieme compatto di caratteristiche video compresse — vengono alimentati nel LLM insieme agli embedding di testo per fornire una rapida panoramica; 2) token visivi "slow" — caratteristiche video non compresse — vengono cross-attesi dagli embedding di testo attraverso strati di decodificatore ibridi appositamente progettati, consentendo l'estrazione consapevole delle istruzioni di dettagli visivi rilevanti con complessità lineare. Condividiamo un'esplorazione sistematica per ottimizzare sia l'architettura complessiva che i componenti chiave. Gli esperimenti dimostrano che il nostro modello supera significativamente i baseline basati esclusivamente su self-attention, estendendo la capacità di input da 16 a 128 frame con un aumento di solo il 3% nel calcolo e ottenendo un miglioramento medio delle prestazioni del 16% su cinque benchmark di comprensione video. Il nostro modello da 7B raggiunge prestazioni all'avanguardia tra i modelli di dimensioni simili. Inoltre, la nostra architettura slow-fast è un design plug-and-play che può essere integrato in altri MLLM video per migliorare l'efficienza e la scalabilità.
In questa ricerca, introduciamo BEATS, un nuovo framework per valutare Pregiudizio, Etica, Equità e Fattualità nei Modelli Linguistici di Grande Scala (LLM). Basandoci sul framework BEATS, presentiamo un benchmark di pregiudizio per gli LLM che misura le prestazioni attraverso 29 metriche distinte. Queste metriche coprono un'ampia gamma di caratteristiche, inclusi pregiudizi demografici, cognitivi e sociali, nonché misure di ragionamento etico, equità di gruppo e rischio di disinformazione legato alla fattualità. Queste metriche consentono una valutazione quantitativa della misura in cui le risposte generate dagli LLM possano perpetuare pregiudizi sociali che rafforzano o ampliano le disuguaglianze sistemiche. Per ottenere un punteggio elevato in questo benchmark, un LLM deve dimostrare un comportamento molto equo nelle sue risposte, rendendolo uno standard rigoroso per la valutazione dell'IA responsabile. I risultati empirici basati sui dati del nostro esperimento mostrano che il 37,65% degli output generati dai modelli leader del settore conteneva una qualche forma di pregiudizio, evidenziando un rischio sostanziale nell'uso di questi modelli nei sistemi decisionali critici. Il framework e il benchmark BEATS offrono una metodologia scalabile e statisticamente rigorosa per valutare gli LLM, diagnosticare i fattori che guidano i pregiudizi e sviluppare strategie di mitigazione. Con il framework BEATS, il nostro obiettivo è contribuire allo sviluppo di modelli di IA più socialmente responsabili e allineati eticamente.
Quando le onde sonore colpiscono un oggetto, inducono vibrazioni che producono cambiamenti visivi ad alta frequenza e sottili, che possono essere utilizzati per recuperare il suono. Gli studi iniziali si scontrano sempre con compromessi legati alla frequenza di campionamento, alla larghezza di banda, al campo visivo e alla semplicità del percorso ottico. I recenti progressi nell'hardware delle telecamere a eventi mostrano un buon potenziale per la loro applicazione nel recupero del suono visivo, grazie alla loro superiore capacità di catturare segnali ad alta frequenza. Tuttavia, i metodi esistenti basati su eventi per il recupero delle vibrazioni sono ancora subottimali per il recupero del suono. In questo lavoro, proponiamo una nuova pipeline per il recupero del suono senza contatto, sfruttando appieno le informazioni spazio-temporali dal flusso di eventi. Inizialmente, generiamo un ampio set di addestramento utilizzando una nuova pipeline di simulazione. Successivamente, abbiamo progettato una rete che sfrutta la sparsità degli eventi per catturare informazioni spaziali e utilizza Mamba per modellare le informazioni temporali a lungo termine. Infine, addestriamo un blocco di aggregazione spaziale per aggregare le informazioni provenienti da diverse posizioni, migliorando ulteriormente la qualità del segnale. Per catturare i segnali degli eventi causati dalle onde sonore, abbiamo anche progettato un sistema di imaging utilizzando una matrice laser per migliorare il gradiente e abbiamo raccolto più sequenze di dati per i test. I risultati sperimentali su dati sintetici e del mondo reale dimostrano l'efficacia del nostro metodo.
I recenti progressi nel campo del clonaggio comportamentale hanno permesso ai robot di eseguire compiti di manipolazione complessi. Tuttavia, valutare con precisione le prestazioni durante l'addestramento rimane una sfida, specialmente per applicazioni nel mondo reale, poiché le perdite nel clonaggio comportamentale spesso si correlano scarsamente con il successo effettivo del compito. Di conseguenza, i ricercatori ricorrono a metriche basate sul tasso di successo derivate da valutazioni nel mondo reale costose e dispendiose in termini di tempo, rendendo impraticabile l'identificazione di politiche ottimali e il rilevamento di overfitting o underfitting. Per affrontare questi problemi, proponiamo real-is-sim, un nuovo framework di clonaggio comportamentale che incorpora un gemello digitale dinamico (basato su Gaussiane Embodied) lungo l'intera pipeline di sviluppo della politica: raccolta dei dati, addestramento e implementazione. Allineando continuamente il mondo simulato con quello fisico, è possibile raccogliere dimostrazioni nel mondo reale con stati estratti dal simulatore. Il simulatore consente rappresentazioni flessibili degli stati, rendendo input di immagini da qualsiasi punto di vista o estraendo informazioni di stato di basso livello dagli oggetti incorporati nella scena. Durante l'addestramento, le politiche possono essere valutate direttamente all'interno del simulatore in modo offline e altamente parallelizzabile. Infine, durante l'implementazione, le politiche vengono eseguite all'interno del simulatore, dove il robot reale traccia direttamente le articolazioni del robot simulato, disaccoppiando efficacemente l'esecuzione della politica dall'hardware reale e mitigando le tradizionali sfide di trasferimento di dominio. Validiamo real-is-sim sul compito di manipolazione PushT, dimostrando una forte correlazione tra i tassi di successo ottenuti nel simulatore e le valutazioni nel mondo reale. I video del nostro sistema sono disponibili su https://realissim.rai-inst.com.
La precisa delineazione dei confini dei campi agricoli dalle immagini satellitari è fondamentale per la gestione del territorio e il monitoraggio delle colture. Tuttavia, i metodi attuali affrontano sfide dovute alle dimensioni limitate dei dataset, alle discrepanze di risoluzione e alle diverse condizioni ambientali. Affrontiamo questo problema riformulando il compito come segmentazione di istanze e introducendo il dataset Field Boundary Instance Segmentation - 22M (FBIS-22M), un dataset su larga scala e multi-risoluzione che comprende 672.909 patch di immagini satellitari ad alta risoluzione (che vanno da 0,25 m a 10 m) e 22.926.427 maschere di istanze di singoli campi, riducendo significativamente il divario tra i dataset agricoli e quelli di altri domini della visione artificiale. Proponiamo inoltre Delineate Anything, un modello di segmentazione di istanze addestrato sul nostro nuovo dataset FBIS-22M. Il nostro modello proposto stabilisce un nuovo stato dell'arte, ottenendo un miglioramento sostanziale dell'88,5% in [email protected] e del 103% in [email protected]:0.95 rispetto ai metodi esistenti, dimostrando anche un'inferenza significativamente più veloce e una forte generalizzazione zero-shot su diverse risoluzioni di immagini e regioni geografiche non viste. Codice, modelli pre-addestrati e il dataset FBIS-22M sono disponibili su https://lavreniuk.github.io/Delineate-Anything.
Il fine-tuning di un modello pre-addestrato Text-to-Image (T2I) su un dataset di ritratti personalizzato è il metodo principale per la personalizzazione guidata da testo degli attributi dei ritratti. A causa dell'inquinamento semantico durante il fine-tuning, i metodi esistenti faticano a mantenere il comportamento originale del modello e a raggiungere un apprendimento incrementale durante la personalizzazione degli attributi target. Per affrontare questo problema, proponiamo SPF-Portrait, un lavoro pionieristico per comprendere puramente la semantica personalizzata eliminando l'inquinamento semantico nella personalizzazione dei ritratti guidata da testo. Nel nostro SPF-Portrait, proponiamo una pipeline a doppio percorso che introduce il modello originale come riferimento per il percorso convenzionale di fine-tuning. Attraverso l'apprendimento contrastivo, garantiamo l'adattamento agli attributi target e allineiamo intenzionalmente altri attributi non correlati con il ritratto originale. Introduciamo una nuova Mappa di Controllo Fine Semantica, che rappresenta le regioni di risposta precise della semantica target, per guidare spazialmente il processo di allineamento tra i percorsi contrastivi. Questo processo di allineamento non solo preserva efficacemente le prestazioni del modello originale, ma evita anche un eccessivo allineamento. Inoltre, proponiamo un nuovo meccanismo di potenziamento della risposta per rafforzare le prestazioni degli attributi target, mitigando al contempo la discrepanza di rappresentazione intrinseca nella supervisione cross-modale diretta. Esperimenti estensivi dimostrano che SPF-Portrait raggiunge prestazioni all'avanguardia. Pagina web del progetto: https://spf-portrait.github.io/SPF-Portrait/