Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i recenti progressi nei modelli generativi su larga scala per la creazione di immagini da testo, la manipolazione di immagini reali con questi modelli rimane un problema complesso. Le principali limitazioni dei metodi di editing esistenti sono l'incapacità di operare con una qualità costante su un'ampia gamma di modifiche o la necessità di una lunga ottimizzazione degli iperparametri o di un fine-tuning del modello di diffusione per preservare l'aspetto specifico dell'immagine di input. Proponiamo un approccio innovativo basato su un processo di campionamento della diffusione modificato tramite un meccanismo di guida. In questo lavoro, esploriamo la tecnica di auto-guidaggio per preservare la struttura complessiva dell'immagine di input e l'aspetto delle sue regioni locali che non dovrebbero essere modificate. In particolare, introduciamo esplicitamente funzioni di energia che preservano il layout, mirate a conservare le strutture locali e globali dell'immagine sorgente. Inoltre, proponiamo un meccanismo di riscalaggio del rumore che permette di preservare la distribuzione del rumore bilanciando le norme della guida senza classificatore e dei nostri guide proposti durante la generazione. Questo approccio di guida non richiede il fine-tuning del modello di diffusione né un esatto processo di inversione. Di conseguenza, il metodo proposto fornisce un meccanismo di editing rapido e di alta qualità. Nei nostri esperimenti, mostriamo attraverso valutazioni umane e analisi quantitative che il metodo proposto consente di produrre le modifiche desiderate, che sono preferite dagli esseri umani, e raggiunge anche un miglior compromesso tra la qualità dell'editing e la preservazione dell'immagine originale. Il nostro codice è disponibile all'indirizzo https://github.com/FusionBrainLab/Guide-and-Rescale.
Dall'avvento di ChatGPT, i Large Language Model (LLM) si sono dimostrati eccellenti in vari compiti, ma rimangono prevalentemente sistemi "black-box". Di conseguenza, il loro sviluppo si basa fortemente su approcci guidati dai dati, limitando il miglioramento delle prestazioni attraverso modifiche all'architettura interna e ai percorsi di ragionamento. Pertanto, molti ricercatori hanno iniziato a esplorare i potenziali meccanismi interni dei LLM, con l'obiettivo di identificare l'essenza dei loro colli di bottiglia nel ragionamento, concentrandosi per lo più sulle teste di attenzione (attention heads). La nostra survey mira a far luce sui processi di ragionamento interni dei LLM concentrandosi sull'interpretabilità e sui meccanismi sottostanti delle teste di attenzione. Inizialmente, distilliamo il processo del pensiero umano in un framework a quattro stadi: Recupero della Conoscenza, Identificazione In-Contesto, Ragionamento Latente e Preparazione dell'Espressione. Utilizzando questo framework, esaminiamo sistematicamente la ricerca esistente per identificare e categorizzare le funzioni di specifiche teste di attenzione. Inoltre, riassumiamo le metodologie sperimentali utilizzate per scoprire queste teste speciali, suddividendole in due categorie: metodi Modeling-Free e metodi Modeling-Required. Descriviamo anche i relativi metodi di valutazione e benchmark. Infine, discutiamo i limiti della ricerca attuale e proponiamo diverse direzioni future potenziali. La nostra lista di riferimenti è open-source all'indirizzo https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.
Il fuzzing è un'importante tecnica di analisi dinamica dei programmi progettata per individuare vulnerabilità in software complessi. Questo metodo consiste nel sottoporre un programma target a input malevoli appositamente elaborati per provocare crash, overflow del buffer, errori di memoria ed eccezioni. La generazione efficiente di input malevoli rimane un problema aperto e complesso, e gli approcci migliori applicano generalmente mutazioni casuali uniformi a input validi preesistenti. In questo lavoro proponiamo l'utilizzo di grandi modelli linguistici messi a punto (FuzzCoder) per apprendere i pattern presenti nei file di input provenienti da attacchi riusciti, con l'obiettivo di guidare le future esplorazioni di fuzzing. Nello specifico, abbiamo sviluppato un framework che sfrutta i LLM per codice per guidare il processo di mutazione degli input durante il fuzzing. Il processo di mutazione viene formulato come modellazione sequenza-sequenza, dove il LLM riceve una sequenza di byte e restituisce la sequenza di byte mutata. FuzzCoder è stato messo a punto su un dataset di istruzioni creato appositamente (Fuzz-Instruct), che raccoglie la cronologia di fuzzing riusciti provenienti da strumenti euristici di fuzzing. FuzzCoder è in grado di prevedere le posizioni e le strategie di mutazione nei file di input per innescare comportamenti anomali del programma. I risultati sperimentali dimostrano che FuzzCoder, basato su AFL (American Fuzzy Lop), ottiene miglioramenti significativi in termini di proporzione efficace di mutazione (EPM) e numero di crash (NC) per vari formati di input tra cui ELF, JPG, MP3 e XML.
Fin dalle prime esperienze di educazione online, in cui i corsi venivano caricati su piattaforme condivise e accessibili via internet, questa forma di ampliamento della diffusione della conoscenza umana per raggiungere un pubblico più vasto ha stimolato un ampio dibattito e un'adozione diffusa. Riconoscendo che l'apprendimento personalizzato possiede ancora un significativo potenziale di miglioramento, le nuove tecnologie di IA sono state integrate in modo continuativo in questo formato didattico, dando origine a varie applicazioni educative basate sull'IA, come i sistemi di raccomandazione educativa e il tutoring intelligente. L'emergere di capacità intelligenti nei grandi modelli linguistici (LLM) ha permesso di costruire questi miglioramenti educativi su un modello fondativo unificato, consentendo un'integrazione più profonda. In questo contesto, proponiamo MAIC (Massive AI-empowered Course), una nuova forma di educazione online che utilizza sistemi multi-agente guidati da LLM per costruire un'aula potenziata dall'IA, bilanciando scalabilità e adattività. Oltre ad esplorare il quadro concettuale e le innovazioni tecniche, conduciamo esperimenti preliminari presso l'Università di Tsinghua, uno degli atenei più prestigiosi della Cina. Attingendo da oltre 100.000 record di apprendimento di più di 500 studenti, otteniamo una serie di osservazioni preziose e analisi iniziali. Questo progetto continuerà a evolversi, con l'obiettivo finale di stabilire una piattaforma aperta e completa che supporti e unifichi la ricerca, la tecnologia e le applicazioni nell'esplorazione delle possibilità dell'educazione online nell'era dell'IA dei grandi modelli. Immaginiamo questa piattaforma come un hub collaborativo, che riunisce educatori, ricercatori e innovatori per esplorare collettivamente il futuro dell'educazione online guidata dall'IA.
La generazione di oggetti 3D di alta qualità a partire da descrizioni testuali rimane un problema complesso a causa dei costi computazionali, della scarsità di dati 3D e delle rappresentazioni 3D intricate. Introduciamo Geometry Image Diffusion (GIMDiffusion), un innovativo modello Text-to-3D che utilizza geometry images per rappresentare efficientemente le forme 3D mediante immagini 2D, evitando così la necessità di architetture complesse orientate al 3D. Integrando un meccanismo di Collaborative Control, sfruttiamo i ricchi prerequisiti 2D di modelli Text-to-Image esistenti come Stable Diffusion. Ciò consente una forte generalizzazione anche con dati di addestramento 3D limitati (permettendoci di utilizzare esclusivamente dati di addestramento di alta qualità) e mantiene la compatibilità con tecniche di guida come IPAdapter. In sintesi, GIMDiffusion permette la generazione di asset 3D a velocità paragonabili agli attuali modelli Text-to-Image. Gli oggetti generati sono composti da parti separate semanticamente significative e includono strutture interne, migliorandone sia l'usabilità che la versatilità.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto prestazioni promettenti nella comprensione documentale senza OCR aumentando la risoluzione supportata delle immagini dei documenti. Tuttavia, ciò avviene al prezzo di generare migliaia di token visivi per una singola immagine documentale, portando a un consumo eccessivo di memoria GPU e tempi di inferenza più lenti, specialmente nella comprensione di documenti multipagina. In questo lavoro, per affrontare queste sfide, proponiamo un modulo High-resolution DocCompressor per comprimere ogni immagine documentale ad alta risoluzione in 324 token, guidati da caratteristiche visive globali a bassa risoluzione. Con questo modulo di compressione, per potenziare la capacità di comprensione documentale multipagina e bilanciare sia l'efficienza dei token che le prestazioni di question-answering, sviluppiamo DocOwl2 secondo un framework di addestramento in tre fasi: Pre-addestramento su immagine singola, Pre-addestramento continuato su immagini multiple e Fine-tuning multi-task. DocOwl2 stabilisce un nuovo stato dell'arte across i benchmark di comprensione documentale multipagina e riduce la latenza del primo token di oltre il 50%, dimostrando capacità avanzate nel question-answering multipagina, spiegazione con pagine di evidenza e comprensione della struttura cross-page. Inoltre, rispetto agli MLLM su immagine singola addestrati su dati simili, il nostro DocOwl2 raggiunge prestazioni di comprensione su singola pagina comparabili con meno del 20% dei token visivi. I nostri codici, modelli e dati sono pubblicamente disponibili su https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
Il riconoscimento di formule presenta sfide significative a causa della struttura complessa e della notazione variabile delle espressioni matematiche. Nonostante i continui progressi nei modelli di riconoscimento di formule, le metriche di valutazione impiegate da questi modelli, come BLEU e Edit Distance, mostrano ancora limitazioni notevoli. Tali metriche trascurano il fatto che la stessa formula può avere rappresentazioni diverse ed è altamente sensibile alla distribuzione dei dati di addestramento, causando quindi un'ingiustizia nella valutazione del riconoscimento di formule. A tal fine, proponiamo una metrica di Matching tramite Rilevamento di Caratteri (CDM), che garantisce l'oggettività della valutazione attraverso un punteggio a livello di immagine piuttosto che a livello LaTeX. Nello specifico, CDM converte sia il LaTeX predetto dal modello che le formule LaTeX di riferimento in formule in formato immagine, per poi impiegare tecniche di estrazione di caratteristiche visive e localizzazione per un matching preciso a livello di carattere, incorporando informazioni sulle posizioni spaziali. Questo metodo spazialmente consapevole e basato sul matching dei caratteri offre una valutazione più accurata ed equa rispetto alle precedenti metriche BLEU e Edit Distance che si basano esclusivamente sul matching testuale dei caratteri. Sperimentalmente, abbiamo valutato vari modelli di riconoscimento di formule utilizzando CDM, BLEU e ExpRate. I risultati dimostrano che il CDM si allinea maggiormente agli standard di valutazione umana e fornisce un confronto più equo tra diversi modelli, eliminando le discrepanze causate dalle diverse rappresentazioni delle formule.
La crescente disponibilità di dati conversazionali del mondo reale offre opportunità entusiasmanti per i ricercatori che studiano le interazioni utente-chatbot. Tuttavia, l'enorme volume di questi dati rende impraticabile l'analisi manuale delle singole conversazioni. Per superare questa sfida, presentiamo WildVis, uno strumento interattivo che consente un'analisi conversazionale rapida, versatile e su larga scala. WildVis fornisce funzionalità di ricerca e visualizzazione negli spazi testuali e di embedding basate su una serie di criteri. Per gestire dataset su scala milionaria, abbiamo implementato ottimizzazioni che includono la costruzione di indici di ricerca, precalcolo e compressione degli embedding, e meccanismi di caching per garantire interazioni utente reattive nell'arco di secondi. Dimostriamo l'utilità di WildVis attraverso tre casi di studio: facilitare la ricerca sull'uso improprio dei chatbot, visualizzare e confrontare le distribuzioni tematiche tra dataset, e caratterizzare modelli conversazionali specifici dell'utente. WildVis è open-source e progettato per essere estendibile, supportando dataset aggiuntivi e funzionalità personalizzate di ricerca e visualizzazione.
Recenti studi hanno dimostrato che le capacità di risoluzione di problemi matematici dei grandi modelli linguistici (LLM) possono essere potenziate integrando strumenti esterni, come interpreti di codice, e impiegando ragionamenti a catena del pensiero (CoT) multi-turn. Mentre i metodi attuali si concentrano sulla generazione di dati sintetici e sul fine-tuning supervisionato (SFT), questo articolo studia l'approccio complementare dell'apprendimento per preferenze dirette per migliorare ulteriormente le prestazioni del modello. Tuttavia, gli algoritmi esistenti per l'apprendimento per preferenze dirette sono originariamente progettati per il task di chat single-turn e non affrontano appieno le complessità del ragionamento multi-turn e dell'integrazione di strumenti esterni richiesti per i task di ragionamento matematico con strumenti integrati. Per colmare questa lacuna, introduciamo un framework di apprendimento per preferenze dirette multi-turn, specificamente progettato per questo contesto, che sfrutta il feedback degli interpreti di codice e ottimizza le preferenze a livello di traiettoria. Questo framework include DPO multi-turn e KTO multi-turn come implementazioni specifiche. L'efficacia del nostro framework è convalidata attraverso l'addestramento di vari modelli linguistici utilizzando un set di prompt arricchito dei dataset GSM8K e MATH. I nostri risultati dimostrano miglioramenti sostanziali: le prestazioni di un modello Gemma-1.1-it-7B sottoposto a fine-tuning supervisionato sono aumentate dal 77.5% all'83.9% su GSM8K e dal 46.1% al 51.2% su MATH. Analogamente, un modello Gemma-2-it-9B è migliorato dall'84.1% all'86.3% su GSM8K e dal 51.0% al 54.5% su MATH.
Il rapido sviluppo e la natura dinamica dei grandi modelli linguistici (LLM) rendono difficile per i benchmark quantitativi convenzionali valutare con precisione le loro capacità. Proponiamo le "report card", ovvero riepiloghi in linguaggio naturale e interpretabili dall'uomo del comportamento del modello per competenze o argomenti specifici. Sviluppiamo un quadro per valutare le report card basato su tre criteri: specificità (capacità di distinguere tra i modelli), fedeltà (rappresentazione accurata delle capacità del modello) e interpretabilità (chiarezza e rilevanza per gli esseri umani). Proponiamo inoltre un algoritmo iterativo per generare report card senza supervisione umana e ne esploriamo l'efficacia analizzando varie scelte progettuali. Attraverso esperimenti con LLM diffusi, dimostriamo che le report card forniscono informazioni che vanno oltre i benchmark tradizionali e possono aiutare a soddisfare l'esigenza di una valutazione più interpretabile e olistica degli LLM.
La segmentazione open-vocabulary presenta sfide significative, poiché richiede di segmentare e riconoscere oggetti attraverso un insieme aperto di categorie in ambienti non vincolati. Basandosi sul successo di potenti modelli fondazionali vision-language (ViL) come CLIP, recenti sforzi hanno cercato di sfruttare le loro capacità zero-shot per riconoscere categorie non viste. Nonostante notevoli miglioramenti delle prestazioni, questi modelli incontrano ancora il problema critico di generare proposte di maschere precise per categorie e scenari non visti, risultando alla fine in prestazioni di segmentazione inferiori. Per affrontare questa sfida, introduciamo un approccio innovativo, FrozenSeg, progettato per integrare la conoscenza spaziale da un modello fondazionale di localizzazione (ad es. SAM) e la conoscenza semantica estratta da un modello ViL (ad es. CLIP), in un framework sinergico. Utilizzando l'encoder visivo del modello ViL come backbone delle feature, iniettiamo la feature spazialmente consapevole nelle query apprendibili e nelle feature CLIP all'interno del decoder del trasformatore. Inoltre, ideiamo una strategia di ensemble per le proposte di maschera per migliorare ulteriormente il tasso di recall e la qualità delle maschere. Per sfruttare appieno la conoscenza pre-addestrata minimizzando il sovraccarico computazionale, congeliamo entrambi i modelli fondazionali, concentrando gli sforzi di ottimizzazione esclusivamente su un leggero decoder a trasformatore per la generazione di proposte di maschera - il collo di bottiglia delle prestazioni. Esperimenti estensivi dimostrano che FrozenSeg avanza lo stato dell'arte su vari benchmark di segmentazione, addestrato esclusivamente su dati panoptici COCO e testato in modalità zero-shot. Il codice è disponibile all'indirizzo https://github.com/chenxi52/FrozenSeg.
I grandi modelli linguistici (LLM) hanno rimodellato il panorama della sintesi di programmi. Tuttavia, i moderni sistemi di completamento del codice basati su LLM spesso allucinano codice non funzionante poiché mancano del contesto appropriato, specialmente quando lavorano con definizioni non presenti nei dati di addestramento né vicine al cursore. Questo articolo dimostra che una stretta integrazione con la struttura dei tipi e dei binding di un linguaggio, così come esposta dal suo server linguistico, può affrontare questo problema di contestualizzazione in modo efficiente in termini di token. In breve, sosteniamo che anche le IA hanno bisogno degli IDE! In particolare, integriamo la generazione di codice tramite LLM nell'ambiente di sviluppo live per bozze di programma Hazel. L'Hazel Language Server identifica il tipo e il contesto tipizzato del buco da riempire, anche in presenza di errori, garantendo che sia sempre disponibile una bozza di programma significativa. Ciò consente di fornire prompt con informazioni contestuali provenienti dall'intera codebase, che non sono lessicalmente locali al cursore né necessariamente nello stesso file, ma che è probabile siano semanticamente locali all'obiettivo dello sviluppatore. I completamenti sintetizzati dall'LLM vengono poi raffinati in modo iterativo attraverso un ulteriore dialogo con il server linguistico. Per valutare queste tecniche, introduciamo MVUBench, un dataset di applicazioni web model-view-update (MVU). Queste applicazioni fungono da problemi complessi a causa della loro dipendenza da strutture dati specifiche dell'applicazione. Troviamo che la contestualizzazione con le definizioni di tipo sia particolarmente impattante. Dopo aver introdotto le nostre idee nel contesto di Hazel, duplichiamo le nostre tecniche e portiamo MVUBench in TypeScript per convalidare l'applicabilità di questi metodi a linguaggi con più risorse. Infine, delineiamo ChatLSP, un'estensione conservativa del Language Server Protocol (LSP) che i server linguistici possono implementare per esporre capacità che i sistemi di completamento del codice basati su IA di vario design possono utilizzare per incorporare il contesto statico durante la generazione di prompt per un LLM.