Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Story2Board, un framework senza necessità di addestramento per la generazione espressiva di storyboard a partire da linguaggio naturale. I metodi esistenti si concentrano in modo limitato sull'identità del soggetto, trascurando aspetti chiave della narrazione visiva come la composizione spaziale, l'evoluzione dello sfondo e il ritmo narrativo. Per affrontare questo problema, introduciamo un framework di consistenza leggero composto da due componenti: Latent Panel Anchoring, che preserva un riferimento condiviso del personaggio tra i pannelli, e Reciprocal Attention Value Mixing, che miscela delicatamente le caratteristiche visive tra coppie di token con forte attenzione reciproca. Insieme, questi meccanismi migliorano la coerenza senza modifiche architetturali o fine-tuning, consentendo ai modelli di diffusione all'avanguardia di generare storyboard visivamente diversificati ma coerenti. Per strutturare la generazione, utilizziamo un modello linguistico preesistente per convertire storie in forma libera in prompt a livello di pannello. Per la valutazione, proponiamo il Rich Storyboard Benchmark, una suite di narrazioni a dominio aperto progettata per valutare la diversità del layout e la narrazione basata sullo sfondo, oltre alla coerenza. Introduciamo anche una nuova metrica di Scene Diversity che quantifica la variazione spaziale e di posa negli storyboard. I nostri risultati qualitativi e quantitativi, insieme a uno studio con utenti, dimostrano che Story2Board produce storyboard più dinamici, coerenti e narrativamente coinvolgenti rispetto alle baseline esistenti.
Presentiamo M3-Agent, un innovativo framework per agenti multimodali dotato di memoria a lungo termine. Come gli esseri umani, M3-Agent è in grado di elaborare input visivi e uditivi in tempo reale per costruire e aggiornare la propria memoria a lungo termine. Oltre alla memoria episodica, sviluppa anche una memoria semantica, consentendogli di accumulare conoscenze sul mondo nel tempo. La sua memoria è organizzata in un formato multimodale centrato sulle entità, che permette una comprensione più profonda e coerente dell'ambiente. Dato un comando, M3-Agent esegue autonomamente un ragionamento iterativo su più turni e recupera informazioni rilevanti dalla memoria per portare a termine il compito. Per valutare l'efficacia della memoria e il ragionamento basato sulla memoria negli agenti multimodali, abbiamo sviluppato M3-Bench, un nuovo benchmark per la risposta a domande su video lunghi. M3-Bench comprende 100 video reali appositamente registrati catturati dalla prospettiva di un robot (M3-Bench-robot) e 929 video provenienti dal web in diversi scenari (M3-Bench-web). Abbiamo annotato coppie domanda-risposta progettate per testare capacità chiave essenziali per le applicazioni degli agenti, come la comprensione umana, l'estrazione di conoscenze generali e il ragionamento cross-modale. I risultati sperimentali mostrano che M3-Agent, addestrato tramite apprendimento per rinforzo, supera il baseline più forte, un agente che utilizza il prompting con Gemini-1.5-pro e GPT-4o, raggiungendo un'accuratezza superiore rispettivamente del 6,7%, 7,7% e 5,3% su M3-Bench-robot, M3-Bench-web e VideoMME-long. Il nostro lavoro avanza gli agenti multimodali verso una memoria a lungo termine più simile a quella umana e fornisce intuizioni per il loro design pratico. Modello, codice e dati sono disponibili su https://github.com/bytedance-seed/m3-agent.
I grandi modelli linguistici (LLM), in particolare i modelli di ragionamento a catena esplicita lunga (CoT) come DeepSeek-R1 e QWQ, hanno dimostrato potenti capacità di ragionamento, ottenendo prestazioni impressionanti nel ragionamento di senso comune e nell'inferenza matematica. Nonostante la loro efficacia, i modelli di ragionamento Long-CoT sono spesso criticati per la loro capacità limitata e la bassa efficienza in domini ad alta intensità di conoscenza come la scoperta di molecole. Il successo in questo campo richiede una comprensione precisa delle conoscenze di dominio, incluse le strutture molecolari e i principi chimici, il che è impegnativo a causa della complessità intrinseca dei dati molecolari e della scarsità di annotazioni di alta qualità da parte di esperti. Per colmare questa lacuna, introduciamo Mol-R1, un nuovo framework progettato per migliorare l'interpretabilità e le prestazioni di ragionamento dei LLM di tipo R1 a catena esplicita lunga nella generazione di molecole basata su testo. Il nostro approccio inizia con un dataset di ragionamento di alta qualità curato tramite Prior Regulation via In-context Distillation (PRID), una strategia di distillazione dedicata per generare efficacemente tracce di ragionamento accoppiate guidate da regolazioni precedenti. Su questa base, introduciamo MoIA, Molecular Iterative Adaptation, una sofisticata strategia di addestramento che combina iterativamente il Fine-tuning Supervisionato (SFT) con l'Ottimizzazione delle Politiche Rinforzate (RPO), progettata per potenziare le prestazioni di ragionamento dei modelli di tipo R1 per la scoperta di molecole. Infine, esaminiamo le prestazioni di Mol-R1 nel compito di generazione di ragionamento molecolare basato su testo, mostrando prestazioni superiori rispetto ai baselines esistenti.
Generare video umani ad alta fedeltà che corrispondano a identità specificate dall'utente è importante ma impegnativo nel campo dell'IA generativa. I metodi esistenti spesso si basano su un numero eccessivo di parametri di addestramento e mancano di compatibilità con altri strumenti AIGC. In questo articolo, proponiamo Stand-In, un framework leggero e plug-and-play per la preservazione dell'identità nella generazione di video. Nello specifico, introduciamo un ramo condizionale di immagini nel modello pre-addestrato di generazione video. Il controllo dell'identità viene ottenuto attraverso auto-attenzioni ristrette con mappatura posizionale condizionale e può essere appreso rapidamente con soli 2000 coppie. Nonostante l'incorporazione e l'addestramento di appena sim1\% di parametri aggiuntivi, il nostro framework raggiunge risultati eccellenti in termini di qualità video e preservazione dell'identità, superando altri metodi di addestramento a parametri completi. Inoltre, il nostro framework può essere integrato senza soluzione di continuità per altre attività, come la generazione di video guidata da soggetti, la generazione di video con riferimento alla posa, la stilizzazione e lo scambio di volti.
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) ha consentito agli agenti intelligenti di sfruttare strumenti esterni diversificati per risolvere complessi problemi del mondo reale. Tuttavia, man mano che gli agenti dipendono sempre più da molteplici strumenti, si trovano ad affrontare nuove sfide: contesti estesi provenienti da fonti disparate e output di strumenti rumorosi o irrilevanti possono compromettere l'affidabilità e l'accuratezza del sistema. Queste sfide sottolineano la necessità di una maggiore stabilità nei sistemi basati su agenti. Per affrontare questo problema, introduciamo meccanismi di supervisione dinamica e di manovra, costruendo un'architettura robusta e dinamica di Sistema Multi-Agente (MAS) all'interno del framework AWorld. Nel nostro approccio, l'Agente di Esecuzione invoca l'Agente di Controllo in passaggi critici per verificare e correggere il processo di ragionamento, riducendo efficacemente gli errori derivanti dal rumore e rafforzando la robustezza nella risoluzione dei problemi. Esperimenti estensivi sul dataset di test GAIA rivelano che il nostro meccanismo di manovra dinamica migliora significativamente sia l'efficacia che la stabilità delle soluzioni, superando i sistemi a singolo agente (SAS) e i sistemi standard potenziati da strumenti. Di conseguenza, il nostro sistema MAS dinamico ha raggiunto il primo posto tra i progetti open-source sulla prestigiosa classifica GAIA. Questi risultati evidenziano il valore pratico dei ruoli collaborativi degli agenti nello sviluppo di sistemi intelligenti più affidabili e degni di fiducia.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono emersi come una promettente alternativa ai modelli linguistici autoregressivi (AR) per la generazione di testo, con il potenziale di decodificare più token in una singola iterazione. Tuttavia, nessuno degli attuali dLLM open-source ha raggiunto una velocità di inferenza superiore rispetto ai modelli AR di dimensioni simili. Questo articolo supera questa barriera basandosi su una strategia semplice ed efficace denominata discrete diffusion forcing (D2F). D2F fornisce ai dLLM due capacità chiave: (1) generazione autoregressiva a blocchi per consentire l'utilizzo della cache KV; (2) previsione dei token successivi senza richiedere il completamento dei blocchi precedenti per la decodifica parallela inter-blocchi. In questo modo, i dLLM tradizionali vengono trasformati in un paradigma ibrido AR-diffusione per un'inferenza efficiente. D2F può essere implementato con un processo di distillazione asimmetrica basato su dLLM pre-addestrati. Proponiamo inoltre un algoritmo di decodifica parallela in pipeline, che consente un compromesso tra efficienza ed efficacia. Empiricamente, i dLLM con D2F raggiungono una velocità di inferenza superiore a 2,5 volte rispetto a LLaMA3 e Qwen2.5 su GSM8K. Rispetto ai dLLM tradizionali come LLaDA e Dream, l'accelerazione può superare le 50 volte mantenendo una qualità di output comparabile. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
Recentemente, GPT-4o ha attirato notevole attenzione per le sue eccellenti prestazioni nella generazione di immagini, sebbene i modelli open-source rimangano ancora indietro. Diversi studi hanno esplorato la distillazione di dati immagine da GPT-4o per migliorare i modelli open-source, ottenendo progressi significativi. Tuttavia, una domanda chiave rimane: dato che i dataset di immagini del mondo reale costituiscono già una fonte naturale di dati di alta qualità, perché dovremmo utilizzare dati sintetici generati da GPT-4o? In questo lavoro, identifichiamo due vantaggi principali delle immagini sintetiche. In primo luogo, possono integrare scenari rari nei dataset del mondo reale, come la fantasia surreale o la generazione di immagini con più riferimenti, che si verificano frequentemente nelle query degli utenti. In secondo luogo, forniscono una supervisione pulita e controllabile. I dati del mondo reale spesso contengono rumore di fondo complesso e disallineamenti intrinseci tra le descrizioni testuali e il contenuto delle immagini, mentre le immagini sintetiche offrono sfondi puri e segnali di supervisione a coda lunga, facilitando un allineamento più preciso tra testo e immagine. Basandoci su queste intuizioni, introduciamo Echo-4o-Image, un dataset sintetico su scala 180K generato da GPT-4o, sfruttando il potere dei dati immagine sintetici per affrontare i punti ciechi nella copertura del mondo reale. Utilizzando questo dataset, ottimizziamo il baseline di generazione multimodale unificato Bagel per ottenere Echo-4o. Inoltre, proponiamo due nuovi benchmark di valutazione per una valutazione più accurata e impegnativa delle capacità di generazione di immagini: GenEval++, che aumenta la complessità delle istruzioni per mitigare la saturazione dei punteggi, e Imagine-Bench, che si concentra sulla valutazione sia della comprensione che della generazione di contenuti immaginativi. Echo-4o dimostra prestazioni solide su benchmark standard. Inoltre, l'applicazione di Echo-4o-Image ad altri modelli di base (ad esempio, OmniGen2, BLIP3-o) produce guadagni di prestazioni consistenti su più metriche, evidenziando la forte trasferibilità del dataset.
Le metodologie di allineamento sono emerse come un percorso critico per potenziare le capacità di allineamento dei modelli linguistici. Mentre il SFT (supervised fine-tuning) accelera la convergenza attraverso un intervento diretto a livello di perdita sui token, la sua efficacia è limitata dalla traiettoria della politica offline. Al contrario, il RL (reinforcement learning) facilita l'ottimizzazione esplorativa della politica, ma soffre di una bassa efficienza campionaria e di una forte dipendenza da modelli base di alta qualità. Per affrontare queste doppie sfide, proponiamo GRAO (Group Relative Alignment Optimization), un framework unificato che sinergizza i rispettivi punti di forza di SFT e RL attraverso tre innovazioni chiave: 1) Una strategia di generazione multi-campione che consente una valutazione comparativa della qualità tramite feedback di ricompensa; 2) Una nuova formulazione della Group Direct Alignment Loss che sfrutta la ponderazione del vantaggio relativo intra-gruppo; 3) Aggiornamenti dei parametri guidati dalla dinamica delle preferenze a coppie e consapevoli dei riferimenti. La nostra analisi teorica stabilisce le garanzie di convergenza di GRAO e i vantaggi in termini di efficienza campionaria rispetto agli approcci convenzionali. Valutazioni complete su complessi compiti di allineamento umano dimostrano la superiorità delle prestazioni di GRAO, con miglioramenti relativi rispettivamente del 57,70%, 17,65%, 7,95% e 5,18% rispetto ai baseline di SFT, DPO, PPO e GRPO. Questo lavoro fornisce sia un framework di allineamento teoricamente fondato che evidenze empiriche per un'evoluzione efficiente delle capacità nei modelli linguistici.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di ragionamento, dove l'apprendimento per rinforzo (RL) funge da algoritmo chiave per potenziare le loro capacità di ragionamento. Attualmente, esistono due paradigmi principali di ricompensa: ricompense basate su modelli e ricompense basate su regole. Tuttavia, entrambi gli approcci presentano limitazioni: le ricompense basate su regole mancano di robustezza, mentre quelle basate su modelli sono vulnerabili al fenomeno del "reward hacking". Per affrontare questi problemi, proponiamo Cooper (Co-ottimizzazione del Modello di Politica e del Modello di Ricompensa), un framework RL che ottimizza congiuntamente sia il modello di politica che il modello di ricompensa. Cooper sfrutta l'alta precisione delle ricompense basate su regole nell'identificare risposte corrette e costruisce e seleziona dinamicamente coppie di campioni positivi-negativi per continuare l'addestramento del modello di ricompensa. Questo design migliora la robustezza e mitiga il rischio di reward hacking. Per supportare ulteriormente Cooper, introduciamo una strategia di annotazione ibrida che genera in modo efficiente e accurato dati di addestramento per il modello di ricompensa. Proponiamo inoltre un paradigma di modellazione della ricompensa basato su riferimenti, in cui il modello di ricompensa prende in input una risposta di riferimento. Basandoci su questo design, addestriamo un modello di ricompensa chiamato VerifyRM, che raggiunge una maggiore accuratezza su VerifyBench rispetto ad altri modelli delle stesse dimensioni. Eseguiamo l'apprendimento per rinforzo utilizzando sia VerifyRM che Cooper. I nostri esperimenti dimostrano che Cooper non solo allevia il reward hacking, ma migliora anche le prestazioni end-to-end dell'RL, ad esempio ottenendo un guadagno dello 0,54% nell'accuratezza media su Qwen2.5-1.5B-Instruct. I nostri risultati dimostrano che l'aggiornamento dinamico del modello di ricompensa è un modo efficace per contrastare il reward hacking, fornendo un riferimento per una migliore integrazione dei modelli di ricompensa nell'RL.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato capacità notevoli nel ragionamento matematico visivo attraverso vari benchmark esistenti. Tuttavia, questi benchmark si basano prevalentemente su input multimodali puliti o elaborati, senza incorporare le immagini fornite dagli utenti educativi reali dalla scuola materna alla dodicesima classe (K-12). Per colmare questa lacuna, introduciamo MathReal, un dataset meticolosamente curato che comprende 2.000 domande matematiche con immagini catturate da dispositivi mobili portatili in scenari autentici. Ogni domanda è un'immagine, contenente il testo della domanda e un elemento visivo. Classifichiamo sistematicamente le immagini reali in tre categorie principali: degradazione della qualità dell'immagine, variazione della prospettiva e interferenza di contenuti irrilevanti, ulteriormente suddivise in 14 sottocategorie. Inoltre, MathReal copre cinque categorie fondamentali di conoscenza e abilità, che comprendono tre tipi di domande e sono suddivise in tre livelli di difficoltà. Per valutare in modo completo le capacità di ragionamento matematico multimodale degli MLLMs all'avanguardia in scenari reali, progettiamo sei impostazioni sperimentali che consentono un'analisi sistematica delle loro prestazioni. Attraverso un'ampia sperimentazione, scopriamo che le capacità di risoluzione dei problemi degli MLLMs esistenti sono significativamente messe alla prova in contesti educativi realistici. Sulla base di ciò, conduciamo un'analisi approfondita delle loro prestazioni e dei modelli di errore, fornendo spunti sulle loro capacità di riconoscimento, comprensione e ragionamento, e delineando direzioni per futuri miglioramenti. Dati e codice: https://github.com/junfeng0288/MathReal.
Il nuovo paradigma del ridimensionamento al momento del test ha portato a notevoli progressi nei modelli linguistici di grandi dimensioni (LLM, ad esempio modelli di ragionamento) e nei modelli generativi per la visione, consentendo ai modelli di allocare ulteriori risorse computazionali durante l'inferenza per affrontare efficacemente problemi sempre più complessi. Nonostante i miglioramenti apportati da questo approccio, emerge un'importante limitazione: l'aumento significativo del tempo di calcolo rende il processo lento e poco pratico per molte applicazioni. Considerando il successo di questo paradigma e il suo crescente utilizzo, cerchiamo di preservarne i vantaggi evitando al contempo l'overhead computazionale durante l'inferenza. In questo lavoro proponiamo una soluzione al problema critico di integrare la conoscenza del ridimensionamento al momento del test in un modello durante la fase post-addestramento. Nello specifico, sostituiamo l'ottimizzazione del rumore guidata dalla ricompensa al momento del test nei modelli di diffusione con un Noise Hypernetwork che modula il rumore iniziale in ingresso. Proponiamo un framework teoricamente fondato per apprendere questa distribuzione inclinata dalla ricompensa per generatori distillati, attraverso un obiettivo trattabile nello spazio del rumore che mantiene la fedeltà al modello di base mentre ottimizza le caratteristiche desiderate. Dimostriamo che il nostro approccio recupera una parte sostanziale dei guadagni di qualità derivanti dall'ottimizzazione esplicita al momento del test a una frazione del costo computazionale. Il codice è disponibile all'indirizzo https://github.com/ExplainableML/HyperNoise.
I grandi modelli linguistici addestrati con apprendimento per rinforzo utilizzando ricompense verificabili tendono a sacrificare la precisione per la lunghezza, gonfiando la lunghezza delle risposte per ottenere miglioramenti in termini di accuratezza. Sebbene risposte più lunghe possano essere giustificate per problemi più difficili, molti token sono semplicemente "riempitivi": testo ripetitivo e verboso che non apporta alcun reale progresso. Introduciamo GFPO (Group Filtered Policy Optimization), che limita questa esplosione di lunghezza campionando gruppi più ampi per problema durante l'addestramento e filtrando le risposte su cui addestrare in base a due metriche chiave: (1) la lunghezza della risposta e (2) l'efficienza dei token: il rapporto ricompensa per token. Campionando di più durante l'addestramento, insegniamo ai modelli a pensare meno durante l'inferenza. Sul modello Phi-4-reasoning, GFPO riduce l'inflazione di lunghezza di GRPO del 46-71% su benchmark impegnativi di STEM e programmazione (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) mantenendo l'accuratezza. Ottimizzare per la ricompensa per token aumenta ulteriormente le riduzioni dell'inflazione di lunghezza al 71-85%. Proponiamo inoltre GFPO a Difficoltà Adattiva, che assegna dinamicamente più risorse di addestramento ai problemi più difficili in base a stime di difficoltà in tempo reale, migliorando l'equilibrio tra efficienza computazionale e accuratezza, specialmente su domande difficili. GFPO dimostra che un aumento del calcolo durante l'addestramento si traduce direttamente in una riduzione del calcolo durante il test—un compromesso semplice ma efficace per un ragionamento efficiente.
Negli ultimi anni si è registrato un crescente interesse e adozione dei LLM, con muTransfer che è diventata una tecnica chiave per ottimizzare gli iperparametri nell'addestramento su larga scala. Nel frattempo, Mixture-of-Experts (MoE) è emersa come un'architettura leader nei modelli estremamente grandi. Tuttavia, l'intersezione di questi due progressi è rimasta inesplorata. In questo lavoro, deriviamo una mu-Parametrizzazione (muP) per MoE, fornendo garanzie teoriche per l'apprendimento delle caratteristiche attraverso le larghezze del modello sia nel router che negli esperti. Convalidiamo empiricamente la nostra parametrizzazione e approfondiamo ulteriormente come la scalabilità del numero di esperti e della granularità influenzi il tasso di apprendimento ottimale.
I modelli visione-linguaggio (VLMs) hanno mostrato progressi significativi in compiti come il grounding visivo, dove localizzano oggetti specifici nelle immagini basandosi su query in linguaggio naturale e immagini. Tuttavia, le problematiche di sicurezza nei compiti di grounding visivo per i VLMs rimangono poco esplorate, specialmente nel contesto degli attacchi backdoor. In questo articolo, introduciamo un nuovo metodo di attacco backdoor input-aware, IAG, progettato per manipolare il comportamento di grounding dei VLMs. Questo attacco costringe il modello a localizzare un oggetto target specifico nell'immagine di input, indipendentemente dalla query dell'utente. Proponiamo un generatore di trigger adattativo che incorpora le informazioni semantiche della descrizione del target dell'attacco nell'immagine originale utilizzando una U-Net condizionata dal testo, superando così la sfida dell'attacco open-vocabulary. Per garantire la furtività dell'attacco, utilizziamo una perdita di ricostruzione per minimizzare le discrepanze visive tra immagini avvelenate e immagini pulite. Inoltre, introduciamo un metodo unificato per generare dati di attacco. IAG viene valutato teoricamente ed empiricamente, dimostrandone la fattibilità e l'efficacia. In particolare, il nostro ASR@0.5 su InternVL-2.5-8B raggiunge oltre il 65\% su vari set di test. IAG mostra anche un potenziale promettente nel manipolare Ferret-7B e LlaVA-1.5-7B con un calo di accuratezza molto ridotto sui campioni puliti. Esperimenti specifici estesi, come lo studio di ablazione e le potenziali difese, indicano inoltre la robustezza e la trasferibilità del nostro attacco.
I recenti progressi nei modelli text-to-image (T2I) hanno reso possibile l'editing regionale delle immagini senza necessità di addestramento, sfruttando i prior generativi dei modelli di base. Tuttavia, i metodi esistenti faticano a bilanciare l'aderenza al testo nelle regioni modificate, la fedeltà contestuale nelle aree non modificate e l'integrazione senza soluzione di continuità delle modifiche. Introduciamo CannyEdit, un nuovo framework senza addestramento che affronta queste sfide attraverso due innovazioni chiave: (1) Selective Canny Control, che maschera la guida strutturale di Canny ControlNet nelle regioni modificabili specificate dall'utente, preservando rigorosamente i dettagli delle immagini sorgente nelle aree non modificate tramite la ritenzione delle informazioni di ControlNet nella fase di inversione. Ciò consente modifiche precise guidate dal testo senza compromettere l'integrità contestuale. (2) Dual-Prompt Guidance, che combina prompt locali per modifiche specifiche agli oggetti con un prompt target globale per mantenere interazioni coerenti nella scena. Su compiti di editing di immagini del mondo reale (aggiunta, sostituzione, rimozione), CannyEdit supera i metodi precedenti come KV-Edit, ottenendo un miglioramento dal 2,93 al 10,49 percento nel bilanciamento tra aderenza al testo e fedeltà contestuale. In termini di seamless editing, studi sugli utenti rivelano che solo il 49,2 percento degli utenti generici e il 42,0 percento degli esperti di AIGC hanno identificato i risultati di CannyEdit come modificati dall'IA quando accostati a immagini reali senza modifiche, rispetto al 76,08-89,09 percento per i metodi concorrenti.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi nell'integrazione della comprensione visiva e testuale. Tuttavia, la loro capacità di generare codice da input multimodali rimane limitata. In questo lavoro, introduciamo VisCodex, un framework unificato che fonde in modo fluido modelli visivi e linguistici di codifica per dotare gli MLLM di solide capacità di generazione di codice multimodale. Sfruttando una tecnica di fusione di modelli basata su vettori di task, integriamo un avanzato modello linguistico di codifica in un robusto backbone visione-linguaggio, preservando sia la comprensione visiva che le competenze avanzate di codifica. Per supportare l'addestramento e la valutazione, introduciamo il Multimodal Coding Dataset (MCD), una raccolta su larga scala e diversificata di 598k campioni, che include codice HTML di alta qualità, coppie immagine-codice di grafici, domande e risposte di StackOverflow arricchite da immagini e problemi algoritmici. Inoltre, proponiamo InfiBench-V, un benchmark nuovo e impegnativo progettato specificamente per valutare i modelli su domande di programmazione ricche di elementi visivi e legate al mondo reale, che richiedono una comprensione sfumata sia dei contesti testuali che visivi. Esperimenti estensivi dimostrano che VisCodex raggiunge prestazioni all'avanguardia tra gli MLLM open-source e si avvicina a modelli proprietari come GPT-4o, evidenziando l'efficacia della nostra strategia di fusione di modelli e dei nuovi dataset.
La ricostruzione di scene 3D utilizzando il 3D Gaussian Splatting (3DGS) a partire da viste sparse è un problema mal posto a causa di informazioni insufficienti, che spesso si traducono in artefatti evidenti. Sebbene approcci recenti abbiano cercato di sfruttare prior generativi per completare le informazioni nelle regioni sottodeterminate, essi faticano a generare contenuti che rimangano coerenti con le osservazioni in ingresso. Per affrontare questa sfida, proponiamo GSFixer, un nuovo framework progettato per migliorare la qualità delle rappresentazioni 3DGS ricostruite da input sparsi. Il cuore del nostro approccio è il modello di restauro video guidato da riferimento, basato su un modello di diffusione video DiT addestrato su rendering 3DGS con artefatti e frame puliti, con condizioni aggiuntive basate su riferimenti. Considerando le viste sparse in ingresso come riferimenti, il nostro modello integra sia le caratteristiche semantiche 2D che le caratteristiche geometriche 3D delle viste di riferimento estratte dal modello di base della geometria visiva, migliorando la coerenza semantica e la consistenza 3D durante la correzione di nuove viste con artefatti. Inoltre, considerando la mancanza di benchmark adatti per la valutazione del restauro di artefatti 3DGS, presentiamo DL3DV-Res, che contiene frame con artefatti renderizzati utilizzando 3DGS di bassa qualità. Esperimenti estesi dimostrano che il nostro GSFixer supera i metodi attuali all'avanguardia nel restauro di artefatti 3DGS e nella ricostruzione 3D da viste sparse. Pagina del progetto: https://github.com/GVCLab/GSFixer.
Questo articolo presenta il primo metodo decentralizzato per abilitare la manipolazione 6-DoF nel mondo reale di un carico sospeso tramite cavo utilizzando un team di Micro-Veicoli Aerei (MAV). Il nostro metodo sfrutta il reinforcement learning multi-agente (MARL) per addestrare una politica di controllo ad anello esterno per ciascun MAV. A differenza dei controller all'avanguardia che utilizzano uno schema centralizzato, la nostra politica non richiede stati globali, comunicazioni inter-MAV né informazioni sui MAV vicini. Invece, gli agenti comunicano implicitamente solo attraverso osservazioni della posa del carico, il che consente un'elevata scalabilità e flessibilità. Inoltre, riduce significativamente i costi computazionali durante il tempo di inferenza, consentendo la distribuzione a bordo della politica. In aggiunta, introduciamo un nuovo design dello spazio di azione per i MAV utilizzando accelerazione lineare e velocità angolari del corpo. Questa scelta, combinata con un robusto controller di basso livello, consente un trasferimento affidabile da simulazione a realtà nonostante le significative incertezze causate dalla tensione del cavo durante il movimento dinamico 3D. Validiamo il nostro metodo in vari esperimenti nel mondo reale, incluso il controllo completo della posa in presenza di incertezze del modello del carico, mostrando prestazioni di inseguimento del setpoint comparabili al metodo centralizzato all'avanguardia. Dimostriamo inoltre la cooperazione tra agenti con politiche di controllo eterogenee e la robustezza alla perdita completa in volo di un MAV. Video degli esperimenti: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
Nel campo in rapida evoluzione del Natural Language Processing (NLP) spiegabile, le spiegazioni testuali, ovvero razionalità simili a quelle umane, sono fondamentali per spiegare le previsioni dei modelli e arricchire i dataset con etichette interpretabili. Gli approcci tradizionali si basano sull'annotazione umana, che è costosa, laboriosa e ostacola la scalabilità. In questo lavoro, presentiamo un framework automatizzato che sfrutta molteplici modelli linguistici di grandi dimensioni (LLM) all'avanguardia per generare spiegazioni testuali di alta qualità. Valutiamo rigorosamente la qualità di queste spiegazioni generate da LLM utilizzando una suite completa di metriche di Natural Language Generation (NLG). Inoltre, indaghiamo l'impatto a valle di queste spiegazioni sulle prestazioni di modelli linguistici pre-addestrati (PLM) e LLM in compiti di inferenza del linguaggio naturale su due dataset di benchmark diversi. I nostri esperimenti dimostrano che le spiegazioni automatizzate mostrano un'efficacia altamente competitiva rispetto alle spiegazioni annotate manualmente nel migliorare le prestazioni dei modelli. I nostri risultati evidenziano una promettente direzione per la generazione scalabile e automatizzata di spiegazioni testuali basate su LLM, finalizzata all'estensione dei dataset NLP e al miglioramento delle prestazioni dei modelli.
La resezione precisa delle lesioni dipende dall'identificazione accurata di strutture anatomiche a grana fine. Sebbene molti metodi di segmentazione a grana grossa (CGS) abbiano avuto successo nella segmentazione su larga scala (ad esempio, organi), risultano insufficienti negli scenari clinici che richiedono una segmentazione a grana fine (FGS), che rimane impegnativa a causa delle frequenti variazioni individuali nelle strutture anatomiche su piccola scala. Nonostante i recenti modelli basati su Mamba abbiano fatto progressi nella segmentazione delle immagini mediche, spesso si basano su ordini di scansione fissi e definiti manualmente, limitando la loro adattabilità alle variazioni individuali nella FGS. Per affrontare questo problema, proponiamo ASM-UNet, una nuova architettura basata su Mamba per la FGS. Introduce punteggi di scansione adattativi per guidare dinamicamente l'ordine di scansione, generati combinando le caratteristiche comuni a livello di gruppo e le variazioni a livello individuale. Esperimenti su due dataset pubblici (ACDC e Synapse) e su un nuovo dataset proposto per la FGS del tratto biliare, denominato BTMS, dimostrano che ASM-UNet raggiunge prestazioni superiori sia nei compiti di CGS che di FGS. Il nostro codice e il dataset sono disponibili all'indirizzo https://github.com/YqunYang/ASM-UNet.
Gli attacchi di inferenza di appartenenza rappresentano uno strumento utile per l'uso equo dei modelli linguistici, come il rilevamento di potenziali violazioni del copyright e l'audit delle perdite di dati. Tuttavia, molti degli attacchi più avanzati attualmente richiedono l'accesso agli stati nascosti o alla distribuzione di probabilità dei modelli, il che impedisce l'indagine su modelli più ampiamente utilizzati e accessibili solo tramite API, come GPT-4. In questo lavoro, introduciamo l'attacco N-Gram Coverage, un attacco di inferenza di appartenenza che si basa esclusivamente sugli output testuali del modello target, consentendo attacchi su modelli completamente black-box. Sfruttiamo l'osservazione che i modelli tendono a memorizzare e successivamente generare schemi di testo comunemente osservati nei loro dati di addestramento. Nello specifico, per fare una previsione su un candidato membro, l'attacco N-Gram Coverage ottiene prima più generazioni del modello condizionate su un prefisso del candidato. Utilizza poi metriche di sovrapposizione n-gram per calcolare e aggregare le somiglianze di questi output con il suffisso di verità; somiglianze elevate indicano una probabile appartenenza. Dimostriamo inizialmente su un insieme diversificato di benchmark esistenti che l'attacco N-Gram Coverage supera altri metodi black-box, raggiungendo in modo impressionante prestazioni comparabili o addirittura migliori rispetto agli attacchi white-box più avanzati, nonostante abbia accesso solo agli output testuali. Interessante notare che il tasso di successo del nostro metodo scala con il budget computazionale dell'attacco: all'aumentare del numero di sequenze generate dal modello target condizionate sul prefisso, le prestazioni dell'attacco tendono a migliorare. Dopo aver verificato l'accuratezza del nostro metodo, lo utilizziamo per investigare modelli chiusi di OpenAI precedentemente non studiati su più domini. Scopriamo che i modelli più recenti, come GPT-4o, mostrano una maggiore robustezza agli attacchi di inferenza di appartenenza, suggerendo una tendenza evolutiva verso migliori protezioni della privacy.
I Large Language Model (LLM) vengono tipicamente affinati per compiti di ragionamento attraverso una pipeline in due fasi che prevede prima un Fine-Tuning Supervisionato (SFT) seguito da un Apprendimento per Rinforzo (RL), un processo spesso afflitto da dimenticanza catastrofica e compromessi subottimali tra imitazione ed esplorazione. Recenti metodi a stadio unico cercano di unificare SFT e RL utilizzando euristiche, ma mancano di un meccanismo principiato per bilanciare dinamicamente i due paradigmi. In questo articolo, riformuliamo questa sfida attraverso la lente teorica delle ricompense implicite, considerando SFT e RL non come metodi distinti ma come segnali di ricompensa complementari. Introduciamo l'Adaptive Meta Fine-Tuning (AMFT), un nuovo algoritmo a stadio unico che apprende il bilanciamento ottimale tra la ricompensa implicita a livello di percorso di SFT e la ricompensa esplicita basata sui risultati di RL. Il cuore di AMFT è un controllore adattivo a meta-gradiente che tratta il bilanciamento SFT-RL come un parametro apprendibile, ottimizzandolo dinamicamente per massimizzare le prestazioni a lungo termine del compito. Questo approccio lungimirante, regolarizzato dall'entropia della politica per garantire stabilità, scopre autonomamente un curriculum di formazione efficace. Effettuiamo una valutazione completa su benchmark impegnativi che spaziano dal ragionamento matematico, al ragionamento visivo astratto (General Points), fino alla navigazione visivo-linguistica (V-IRL). AMFT stabilisce costantemente un nuovo stato dell'arte e dimostra una generalizzazione superiore su compiti fuori distribuzione (OOD). Studi di ablazione e analisi delle dinamiche di formazione confermano che il controllore di meta-apprendimento è cruciale per la stabilità, l'efficienza campionaria e le prestazioni di AMFT, offrendo un paradigma più principiato ed efficace per l'allineamento degli LLM. I nostri codici sono open-source su https://github.com/hlxtsyj/AMFT.
La rapida proliferazione dei Large Language Models (LLM) ha contribuito in modo significativo allo sviluppo di sistemi di intelligenza artificiale equi, capaci di rispondere a domande fattuali (QA). Tuttavia, nessuno studio noto testa la robustezza dei LLM quando vengono presentate versioni offuscate delle domande. Per valutare sistematicamente queste limitazioni, proponiamo una nuova tecnica, ObfusQAte, e, sfruttando la stessa, introduciamo ObfusQA, un framework completo e innovativo con livelli di offuscamento multilivello progettato per esaminare le capacità dei LLM attraverso tre dimensioni distinte: (i) Indirezione delle Entità Nominate, (ii) Indirezione dei Distrattori e (iii) Sovraccarico Contestuale. Catturando queste distinzioni linguistiche fini, ObfusQA fornisce un benchmark completo per valutare la robustezza e l'adattabilità dei LLM. Il nostro studio osserva che i LLM tendono a fallire o a generare risposte allucinate quando si confrontano con queste variazioni sempre più sfumate. Per promuovere la ricerca in questa direzione, rendiamo ObfusQAte disponibile pubblicamente.