Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli transformer basati solo sull'encoder come BERT offrono un ottimo compromesso tra prestazioni e dimensioni per compiti di recupero e classificazione rispetto ai modelli basati solo sul decoder più grandi. Nonostante siano il cavallo di battaglia di numerose pipeline di produzione, ci sono state poche miglioramenti di Pareto a BERT dall'uscita. In questo articolo, presentiamo ModernBERT, che porta moderne ottimizzazioni di modelli ai modelli basati solo sull'encoder e rappresenta un importante miglioramento di Pareto rispetto ai vecchi encoder. Addestrati su 2 trilioni di token con una lunghezza di sequenza nativa di 8192, i modelli ModernBERT mostrano risultati all'avanguardia su un ampio insieme di valutazioni che comprendono diversi compiti di classificazione e sia il recupero vettoriale singolo che multi-vettoriale in diversi domini (incluso il codice). Oltre alle solide prestazioni downstream, ModernBERT è anche l'encoder più efficiente in termini di velocità e memoria ed è progettato per l'inferenza su GPU comuni.
La produzione di animazioni 2D segue un flusso di lavoro standard del settore, che comprende quattro fasi essenziali: progettazione dei personaggi, animazione chiave, interposizione e colorazione. La nostra ricerca si concentra sulla riduzione dei costi di manodopera nel processo sopra menzionato sfruttando il potenziale sempre più potente dell'intelligenza artificiale generativa. Utilizzando modelli di diffusione video come base, AniDoc emerge come uno strumento di colorazione di disegni a linee video, che converte automaticamente sequenze di schizzi in animazioni colorate seguendo le specifiche del personaggio di riferimento. Il nostro modello sfrutta il matching di corrispondenza come guida esplicita, garantendo una forte robustezza alle variazioni (ad esempio, postura) tra il personaggio di riferimento e ciascun frame di disegno a linee. Inoltre, il nostro modello potrebbe addirittura automatizzare il processo di interposizione, consentendo agli utenti di creare facilmente un'animazione temporalmente coerente fornendo semplicemente un'immagine del personaggio e gli schizzi iniziali e finali. Il nostro codice è disponibile su: https://yihao-meng.github.io/AniDoc_demo.
Interagiamo con i computer quotidianamente, sia nella vita di tutti i giorni che nel lavoro, e molti aspetti lavorativi possono essere svolti interamente con accesso a un computer e a Internet. Allo stesso tempo, grazie ai miglioramenti nei grandi modelli linguistici (LLM), c'è stato anche un rapido sviluppo negli agenti di intelligenza artificiale che interagiscono e influenzano il cambiamento nei loro ambienti circostanti. Ma quanto sono performanti gli agenti di intelligenza artificiale nel contribuire ad accelerare o addirittura eseguire autonomamente compiti legati al lavoro? La risposta a questa domanda ha importanti implicazioni sia per l'industria che intende adottare l'intelligenza artificiale nei propri flussi di lavoro, sia per le politiche economiche per comprendere gli effetti che l'adozione dell'intelligenza artificiale potrebbe avere sul mercato del lavoro. Per misurare i progressi delle performance di questi agenti LLM nell'esecuzione di compiti professionali reali, in questo articolo presentiamo TheAgentCompany, un benchmark estensibile per valutare gli agenti di intelligenza artificiale che interagiscono con il mondo in modi simili a quelli di un lavoratore digitale: navigando sul Web, scrivendo codice, eseguendo programmi e comunicando con altri colleghi. Creiamo un ambiente autonomo con siti web interni e dati che imitano un ambiente di una piccola azienda software e creiamo una varietà di compiti che potrebbero essere svolti dai lavoratori in un'azienda del genere. Testiamo agenti di base alimentati sia da modelli linguistici (LM) basati su API chiuse che da modelli linguistici con pesi aperti, e scopriamo che con l'agente più competitivo, il 24% dei compiti può essere completato autonomamente. Questo dipinge un quadro sfumato sull'automazione dei compiti con gli agenti LM: in un contesto che simula un ambiente di lavoro reale, una buona parte dei compiti più semplici potrebbe essere risolta autonomamente, ma i compiti più difficili a lungo termine sono ancora al di là della portata dei sistemi attuali.
In questo lavoro, mettiamo in discussione la necessità dei metodi di gradiente adattivi per l'addestramento delle reti neurali profonde. SGD-SaI è un potenziamento semplice ma efficace della discesa del gradiente stocastico con momento (SGDM). SGD-SaI esegue la Scalatura del tasso di apprendimento all'Inizializzazione (SaI) per gruppi di parametri distinti, guidati dai rispettivi rapporti segnale-rumore del gradiente (g-SNR). Regolando i tassi di apprendimento senza fare affidamento sul momento adattivo del secondo ordine, SGD-SaI aiuta a prevenire squilibri nell'addestramento fin dalla prima iterazione e riduce l'utilizzo della memoria dell'ottimizzatore della metà rispetto ad AdamW. Nonostante la sua semplicità ed efficienza, SGD-SaI si allinea costantemente o supera AdamW nell'addestramento di una varietà di compiti basati su Transformer, superando efficacemente una sfida di lunga data nell'uso di SGD per l'addestramento dei Transformer. SGD-SaI eccelle nella classificazione ImageNet-1K con Vision Transformers (ViT) e nel preaddestramento GPT-2 per modelli linguistici di grandi dimensioni (LLM, solo decoder transformer), dimostrando robustezza alle variazioni degli iperparametri e praticità per applicazioni diverse. Abbiamo inoltre testato la sua robustezza in compiti come il fine-tuning LoRA per LLM e modelli di diffusione, dove supera costantemente ottimizzatori all'avanguardia. Dal punto di vista dell'efficienza della memoria, SGD-SaI ottiene risparmi di memoria sostanziali per gli stati dell'ottimizzatore, riducendo l'utilizzo della memoria di 5,93 GB per GPT-2 (1,5 miliardi di parametri) e di 25,15 GB per Llama2-7B rispetto ad AdamW nelle impostazioni di addestramento a precisione completa.
La scalatura della risoluzione dell'immagine in input è essenziale per migliorare le prestazioni dei Modelli di Visione e Linguaggio (VLM), in particolare nei compiti di comprensione delle immagini ricche di testo. Tuttavia, i popolari codificatori visivi come i ViTs diventano inefficienti ad alte risoluzioni a causa del grande numero di token e dell'alta latenza di codifica causata dagli strati di auto-attenzione impilati. A diverse risoluzioni operative, il codificatore visivo di un VLM può essere ottimizzato lungo due assi: riducendo la latenza di codifica e minimizzando il numero di token visivi passati al LLM, riducendo così la latenza complessiva. Sulla base di un'analisi completa dell'efficienza dell'interazione tra risoluzione dell'immagine, latenza visiva, conteggio dei token e dimensione del LLM, introduciamo FastVLM, un modello che raggiunge un compromesso ottimizzato tra latenza, dimensione del modello e accuratezza. FastVLM incorpora FastViTHD, un nuovo codificatore visivo ibrido progettato per produrre meno token e ridurre significativamente il tempo di codifica per immagini ad alta risoluzione. A differenza dei metodi precedenti, FastVLM raggiunge l'equilibrio ottimale tra conteggio dei token visivi e risoluzione dell'immagine solo scalando l'immagine in input, eliminando la necessità di potatura aggiuntiva dei token e semplificando la progettazione del modello. Nella configurazione LLaVA-1.5, FastVLM ottiene un miglioramento di 3,2 volte nel tempo al primo token (TTFT) mantenendo prestazioni simili sui benchmark dei VLM rispetto ai lavori precedenti. Rispetto a LLaVa-OneVision alla massima risoluzione (1152x1152), FastVLM raggiunge prestazioni comparabili su benchmark chiave come SeedBench e MMMU, utilizzando lo stesso LLM da 0,5B, ma con un TTFT 85 volte più veloce e un codificatore visivo che è 3,4 volte più piccolo.
Gli agenti dell'Interfaccia Utente Grafica (GUI), alimentati da Grandi Modelli Fondamentali, sono emersi come un approccio trasformativo per automatizzare l'interazione uomo-computer. Questi agenti interagiscono autonomamente con sistemi digitali o applicazioni software tramite GUI, emulando azioni umane come clic, scrittura e navigazione degli elementi visivi su piattaforme diverse. Motivati dall'interesse crescente e dall'importanza fondamentale degli agenti GUI, forniamo un'ampia panoramica che categorizza i loro benchmark, metriche di valutazione, architetture e metodi di addestramento. Proponiamo un quadro unificato che delinea le loro capacità di percezione, ragionamento, pianificazione e azione. Inoltre, identifichiamo importanti sfide aperte e discutiamo le principali direzioni future. Infine, questo lavoro funge da base per praticanti e ricercatori per acquisire una comprensione intuitiva dei progressi attuali, delle tecniche, dei benchmark e dei problemi aperti critici che rimangono da affrontare.
Gli esseri umani possiedono l'intelligenza visivo-spaziale per ricordare spazi da osservazioni visive sequenziali. Tuttavia, possono i Modelli Linguistici Multimodali su Larga Scala (MLLMs) addestrati su dataset video di scala milionaria anche "pensare nello spazio" dai video? Presentiamo un nuovo benchmark di intelligenza visivo-spaziale basato su video (VSI-Bench) di oltre 5.000 coppie domanda-risposta e scopriamo che i MLLMs mostrano un'intelligenza visivo-spaziale competitiva - seppur subumana. Esaminiamo i modelli per capire come pensano nello spazio sia linguisticamente che visivamente e scopriamo che, sebbene le capacità di ragionamento spaziale rimangano il principale ostacolo per i MLLMs nel raggiungere prestazioni migliori nel benchmark, modelli locali del mondo e consapevolezza spaziale emergono all'interno di questi modelli. In particolare, le tecniche di ragionamento linguistico predominanti (ad esempio, catena di pensiero, autoconsistenza, albero dei pensieri) non riescono a migliorare le prestazioni, mentre la generazione esplicita di mappe cognitive durante la risposta alle domande potenzia la capacità di distanza spaziale dei MLLMs.
I Large Language Models (LLM) hanno ottenuto un notevole successo, tuttavia recenti scoperte rivelano che i loro strati più profondi spesso contribuiscono minimamente e possono essere potati senza influenzare le prestazioni complessive. Mentre alcuni vedono ciò come un'opportunità per la compressione del modello, identifichiamo ciò come una carenza nella formazione radicata nell'ampio utilizzo della Normalizzazione Pre-Strato (Pre-LN). Dimostriamo che il Pre-LN, comunemente impiegato in modelli come GPT e LLaMA, porta a norme di gradiente ridotte nei suoi strati più profondi, riducendone l'efficacia. Al contrario, la Normalizzazione Post-Strato (Post-LN) preserva norme di gradiente più elevate negli strati più profondi ma soffre di gradienti che svaniscono negli strati precedenti. Per affrontare ciò, introduciamo Mix-LN, una nuova tecnica di normalizzazione che combina i punti di forza del Pre-LN e del Post-LN all'interno dello stesso modello. Mix-LN applica il Post-LN agli strati più precoci e il Pre-LN agli strati più profondi, garantendo gradienti più uniformi tra gli strati. Ciò consente a tutte le parti della rete - sia gli strati superficiali che quelli profondi - di contribuire efficacemente alla formazione. Estesi esperimenti con varie dimensioni di modello da 70M a 7B dimostrano che Mix-LN supera costantemente sia il Pre-LN che il Post-LN, promuovendo norme di gradiente più bilanciate e salutari in tutta la rete e migliorando la qualità complessiva della preformazione LLM. Inoltre, dimostriamo che i modelli pre-addestrati con Mix-LN apprendono meglio rispetto a quelli che utilizzano Pre-LN o Post-LN durante il fine-tuning supervisionato (SFT) e il reinforcement learning dal feedback umano (RLHF), sottolineando l'importanza critica degli strati profondi di alta qualità. Affrontando efficacemente le inefficienze degli strati profondi nei LLM attuali, Mix-LN sblocca il loro potenziale, potenziando la capacità del modello senza aumentarne le dimensioni. Il nostro codice è disponibile su https://github.com/pixeli99/MixLN.
Nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), i trasformatori visivi (ViTs) sono ampiamente impiegati per l'encoding visivo. Tuttavia, le loro prestazioni nel risolvere compiti universali MLLM non sono soddisfacenti. Lo attribuiamo a una mancanza di informazioni provenienti da diversi livelli visivi, che ostacola l'allineamento con le varie granularità semantiche richieste per la generazione del linguaggio. Per affrontare questo problema, presentiamo LLaVA-UHD v2, un avanzato MLLM centrato attorno a un trasformatore gerarchico delle finestre che consente di catturare diverse granularità visive costruendo e integrando una piramide di caratteristiche ad alta risoluzione. Come proiettore visione-linguaggio, il trasformatore Hiwin è composto da due moduli principali: (i) una piramide di caratteristiche inversa, costruita da un processo di up-sampling delle caratteristiche derivato da ViT che utilizza dettagli ad alta frequenza da una piramide di immagini, e (ii) attenzione gerarchica alle finestre, focalizzata su un insieme di caratteristiche campionarie chiave all'interno di finestre cross-scala per condensare mappe di caratteristiche multi-livello. Estesi esperimenti dimostrano che LLaVA-UHD v2 raggiunge prestazioni superiori rispetto ai MLLM esistenti su benchmark popolari. In particolare, il nostro design porta a un aumento medio del 3,7% su 14 benchmark rispetto al metodo di base, come ad esempio il 9,3% su DocVQA. Mettiamo a disposizione pubblicamente tutti i dati, i checkpoint dei modelli e il codice per facilitare la ricerca futura.
Presentiamo FashionComposer per la generazione compositiva di immagini di moda. A differenza dei metodi precedenti, FashionComposer è altamente flessibile. Accetta input multi-modali (ovvero, testo di input, modello umano parametrico, immagine di un capo d'abbigliamento e immagine del viso) e supporta la personalizzazione dell'aspetto, della posa e della figura umana, nonché l'assegnazione di più capi in un'unica iterazione. Per raggiungere questo obiettivo, sviluppiamo inizialmente un framework universale in grado di gestire diverse modalità di input. Costruiamo dati di addestramento scalati per potenziare le capacità compositive robuste del modello. Per integrare senza soluzione di continuità più immagini di riferimento (capo d'abbigliamento e visi), organizziamo questi riferimenti in un'unica immagine come una "libreria di risorse" e utilizziamo un UNet di riferimento per estrarre le caratteristiche dell'aspetto. Per inserire le caratteristiche dell'aspetto nei pixel corretti nel risultato generato, proponiamo l'attenzione di legame soggetto. Questo lega le caratteristiche dell'aspetto provenienti da diversi "asset" con le caratteristiche di testo corrispondenti. In questo modo, il modello potrebbe comprendere ciascuna risorsa in base alla loro semantica, supportando numeri e tipi arbitrari di immagini di riferimento. Come soluzione completa, FashionComposer supporta anche molte altre applicazioni come la generazione di album umani, varie attività di prova virtuale, ecc.
Questo articolo presenta un nuovo approccio che consente la generazione autoregressiva di video con elevata efficienza. Proponiamo di riformulare il problema della generazione di video come una modellazione autoregressiva non quantizzata della previsione temporale frame-by-frame e della previsione spaziale set-by-set. A differenza della previsione a scansione raster nei modelli autoregressivi precedenti o della modellazione della distribuzione congiunta di token di lunghezza fissa nei modelli di diffusione, il nostro approccio mantiene la proprietà causale dei modelli in stile GPT per capacità flessibili in contesto, sfruttando al contempo la modellazione bidirezionale all'interno dei singoli frame per l'efficienza. Con l'approccio proposto, addestriamo un nuovo modello autoregressivo video senza quantizzazione vettoriale, denominato NOVA. I nostri risultati dimostrano che NOVA supera i modelli video autoregressivi precedenti in efficienza dei dati, velocità di inferenza, fedeltà visiva e fluidità dei video, anche con una capacità del modello molto più piccola, cioè 0,6 miliardi di parametri. NOVA supera anche i modelli di diffusione di immagini all'avanguardia nei compiti di generazione di testo in immagine, con un costo di addestramento significativamente inferiore. Inoltre, NOVA generalizza bene su durate video estese e consente diverse applicazioni zero-shot in un unico modello unificato. Il codice e i modelli sono disponibili pubblicamente su https://github.com/baaivision/NOVA.
I prompt svolgono un ruolo critico nel liberare il potenziale dei modelli di base di linguaggio e visione per compiti specifici. Per la prima volta, introduciamo il prompting nei modelli di base di profondità, creando un nuovo paradigma per la stima della profondità metrica denominato Prompt Depth Anything. In particolare, utilizziamo un LiDAR a basso costo come prompt per guidare il modello Depth Anything per ottenere una precisa stima della profondità metrica, raggiungendo una risoluzione fino a 4K. Il nostro approccio si concentra su un design di fusione di prompt conciso che integra il LiDAR a diverse scale all'interno del decodificatore di profondità. Per affrontare le sfide di addestramento poste da set di dati limitati contenenti sia la profondità LiDAR che la precisa profondità GT, proponiamo un flusso di dati scalabile che include la simulazione di dati sintetici LiDAR e la generazione di profondità GT pseudo reali. Il nostro approccio stabilisce nuovi state-of-the-art nei dataset ARKitScenes e ScanNet++ e beneficia delle applicazioni downstream, inclusa la ricostruzione 3D e la presa robotica generalizzata.
I modelli geospaziali devono adattarsi alla diversità dei dati di osservazione della Terra in termini di risoluzioni, scale e modalità. Tuttavia, gli approcci esistenti si aspettano configurazioni di input fisse, il che limita la loro applicabilità pratica. Proponiamo AnySat, un modello multimodale basato sull'architettura predittiva a incastro congiunto (JEPA) e su codificatori spaziali adattivi alla risoluzione, che ci permettono di addestrare un singolo modello su dati altamente eterogenei in modo auto-supervisionato. Per dimostrare i vantaggi di questo approccio unificato, compiliamo GeoPlex, una collezione di 5 set di dati multimodali con caratteristiche variabili e 11 sensori distinti. Successivamente addestriamo un singolo modello potente su questi set di dati diversi contemporaneamente. Una volta ottimizzato, otteniamo risultati migliori o vicini allo stato dell'arte sui set di dati di GeoPlex e su altri 4 per 5 compiti di monitoraggio ambientale: mappatura della copertura terrestre, identificazione delle specie arboree, classificazione dei tipi di colture, rilevamento dei cambiamenti e segmentazione delle inondazioni. Il codice e i modelli sono disponibili su https://github.com/gastruc/AnySat.
Le politiche di diffusione sono diventate ampiamente utilizzate nell'Apprendimento per Imitazione, offrendo diverse proprietà interessanti, come la generazione di comportamenti multimodali e discontinui. Poiché i modelli stanno diventando sempre più grandi per catturare capacità più complesse, le loro richieste computazionali aumentano, come dimostrato dalle recenti leggi di scalabilità. Pertanto, continuare con le attuali architetture presenterà un ostacolo computazionale. Per affrontare questa lacuna, proponiamo Mixture-of-Denoising Experts (MoDE) come una nuova politica per l'Apprendimento per Imitazione. MoDE supera le attuali politiche di diffusione basate su Transformer all'avanguardia consentendo una scalabilità efficiente dei parametri attraverso esperti sparsi e routing condizionato al rumore, riducendo sia i parametri attivi del 40% che i costi di inferenza del 90% tramite la memorizzazione nella cache degli esperti. La nostra architettura combina questa scalabilità efficiente con un meccanismo di autoattenzione condizionato al rumore, consentendo una denoising più efficace attraverso diversi livelli di rumore. MoDE raggiunge prestazioni all'avanguardia su 134 compiti in quattro benchmark consolidati di apprendimento per imitazione (CALVIN e LIBERO). In particolare, preaddestrando MoDE su dati robotici diversi, otteniamo 4.01 su CALVIN ABC e 0.95 su LIBERO-90. Supera sia le politiche di diffusione basate su CNN che su Transformer di default di un 57% in media su 4 benchmark, utilizzando il 90% in meno di FLOP e meno parametri attivi rispetto alle architetture di default dei Transformer di diffusione. Inoltre, conduciamo approfondite analisi sulle componenti di MoDE, fornendo spunti per progettare architetture di Transformer efficienti e scalabili per le politiche di diffusione. Il codice e le dimostrazioni sono disponibili su https://mbreuss.github.io/MoDE_Diffusion_Policy/.
L'apprendimento scalabile dei robot umanoidi è cruciale per la loro implementazione in applicazioni reali. Mentre gli approcci tradizionali si basano principalmente sull'apprendimento per rinforzo o sulla teleoperazione per ottenere il controllo dell'intero corpo, sono spesso limitati dalla diversità degli ambienti simulati e dai costi elevati per la raccolta delle dimostrazioni. Al contrario, i video umani sono onnipresenti e rappresentano una fonte inesplorata di informazioni semantiche e di movimento che potrebbero migliorare significativamente le capacità di generalizzazione dei robot umanoidi. Questo articolo introduce Humanoid-X, un dataset su larga scala di oltre 20 milioni di pose di robot umanoidi con descrizioni di movimento basate su testo corrispondenti, progettato per sfruttare questi dati abbondanti. Humanoid-X è curato attraverso un processo completo: data mining da Internet, generazione di didascalie video, retargeting del movimento dagli esseri umani ai robot umanoidi e apprendimento di politiche per l'implementazione nel mondo reale. Con Humanoid-X, addestriamo ulteriormente un grande modello umanoide, UH-1, che riceve istruzioni testuali in ingresso e produce azioni corrispondenti per controllare un robot umanoide. Estesi esperimenti simulati e nel mondo reale confermano che il nostro approccio di addestramento scalabile porta a una migliore generalizzazione nel controllo testuale dei robot umanoidi, segnando un passo significativo verso robot umanoidi adattabili e pronti per il mondo reale.
Nonostante i significativi progressi compiuti dai modelli linguistici potenziati da recupero esistenti (RALM) nel fornire risposte affidabili e basate su fonti affidabili, spesso trascurano un efficace allineamento con le preferenze umane. Nel processo di allineamento, i modelli di ricompensa (RMs) agiscono come un proxy cruciale per i valori umani per guidare l'ottimizzazione. Tuttavia, rimane poco chiaro come valutare e selezionare un RM affidabile per l'allineamento delle preferenze nei RALM. A questo scopo, proponiamo RAG-RewardBench, il primo benchmark per valutare gli RMs in contesti RAG. Innanzitutto, progettiamo quattro scenari cruciali e sfidanti specifici per RAG per valutare gli RMs, tra cui ragionamento multi-hop, citazione dettagliata, astensione appropriata e robustezza al conflitto. Successivamente, incorporiamo 18 sottoinsiemi RAG, sei recuperatori e 24 RALM per aumentare la diversità delle fonti di dati. Infine, adottiamo un approccio LLM-come-giudice per migliorare l'efficienza e l'efficacia dell'annotazione delle preferenze, mostrando una forte correlazione con le annotazioni umane. Sulla base di RAG-RewardBench, conduciamo una valutazione completa di 45 RMs e ne scopriamo i limiti negli scenari RAG. Inoltre, riveliamo che i RALM addestrati esistenti mostrano quasi nessun miglioramento nell'allineamento delle preferenze, evidenziando la necessità di un cambiamento verso un addestramento allineato alle preferenze. Rilasciamo il nostro benchmark e il codice pubblicamente su https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ per lavori futuri.
Presentiamo una dimostrazione di un grande modello linguistico che si impegna nella falsificazione di allineamento: conformandosi selettivamente con il suo obiettivo di addestramento per evitare la modifica del suo comportamento al di fuori dell'addestramento. Innanzitutto, forniamo a Claude 3 Opus un prompt di sistema affermando che viene addestrato per rispondere a tutte le query, anche quelle dannose, il che va in conflitto con il suo addestramento precedente a rifiutare tali query. Per consentire al modello di dedurre quando è in fase di addestramento, diciamo che sarà addestrato solo su conversazioni con utenti gratuiti, non a pagamento. Troviamo che il modello si conforma alle query dannose degli utenti gratuiti il 14% delle volte, quasi mai per gli utenti a pagamento. Spiegando questa discrepanza, in quasi tutti i casi in cui il modello si conforma a una query dannosa da parte di un utente gratuito, osserviamo un esplicito ragionamento di falsificazione di allineamento, con il modello che afferma di rispondere strategicamente alle query dannose in fase di addestramento per preservare il suo comportamento preferito di innocuità al di fuori dell'addestramento. Successivamente, studiamo un contesto più realistico in cui le informazioni sul processo di addestramento vengono fornite non in un prompt di sistema, ma addestrando su documenti sintetici che imitano i dati di pre-addestramento - e osserviamo una falsificazione di allineamento simile. Infine, studiamo l'effetto dell'effettivo addestramento del modello a conformarsi alle query dannose tramite apprendimento per rinforzo, che aumenta il tasso di ragionamento di falsificazione di allineamento al 78%, sebbene aumenti anche la conformità anche al di fuori dell'addestramento. Osserviamo inoltre altri comportamenti come il modello che esfila i suoi pesi quando gli viene data un'opportunità facile. Sebbene abbiamo reso più facile la falsificazione di allineamento dicendo al modello quando e con quali criteri stava venendo addestrato, non abbiamo istruito il modello a falsificare l'allineamento o fornito un obiettivo esplicito. Poiché i modelli futuri potrebbero dedurre informazioni sul loro processo di addestramento senza essere stati informati, i nostri risultati suggeriscono un rischio di falsificazione di allineamento nei modelli futuri, che sia dovuto a una preferenza benigna - come in questo caso - o meno.
L'encoding del contenuto video in token latenti compatti è diventato un passo fondamentale nella generazione e comprensione dei video, guidato dalla necessità di affrontare la ridondanza intrinseca nelle rappresentazioni a livello di pixel. Di conseguenza, c'è una crescente domanda di tokenizzatori video open-source ad alte prestazioni, poiché la ricerca incentrata sui video acquisisce importanza. Presentiamo VidTok, un tokenizzatore video versatile che offre prestazioni all'avanguardia sia nelle tokenizzazioni continue che discrete. VidTok incorpora diversi progressi chiave rispetto agli approcci esistenti: 1) architettura del modello come strati convoluzionali e moduli di upsampling/downsampling; 2) per affrontare l'instabilità dell'addestramento e il collasso del codebook comunemente associati alla Quantizzazione Vettoriale (VQ) convenzionale, integriamo la Quantizzazione Scalare Finita (FSQ) nella tokenizzazione video discreta; 3) strategie di addestramento migliorate, inclusi un processo di addestramento a due fasi e l'uso di frame rate ridotti. Integrando questi progressi, VidTok ottiene miglioramenti sostanziali rispetto ai metodi esistenti, dimostrando prestazioni superiori su molteplici metriche, inclusi PSNR, SSIM, LPIPS e FVD, in contesti di valutazione standardizzati.
Ricerche recenti arXiv:2410.15027 arXiv:2410.23775 hanno evidenziato le capacità di generazione contestuale intrinseche dei trasformatori a diffusione preaddestrati (DiTs), consentendo loro di adattarsi senza soluzione di continuità a diverse attività visive con modifiche architetturali minime o nulle. Queste capacità vengono sbloccate concatenando i token di autoattenzione attraverso più immagini di input e target, combinati con pipeline di generazione raggruppate e mascherate. Sviluppando su questa base, presentiamo ChatDiT, un framework di generazione visiva zero-shot, generale e interattivo che sfrutta i trasformatori a diffusione preaddestrati nella loro forma originale, senza richiedere alcun aggiustamento aggiuntivo, adattatori o modifiche. Gli utenti possono interagire con ChatDiT per creare articoli testo-immagine intrecciati, libri illustrati multi-pagina, modificare immagini, progettare derivati di proprietà intellettuale o sviluppare impostazioni di design di personaggi, tutto attraverso linguaggio naturale libero in uno o più turni di conversazione. Al suo nucleo, ChatDiT impiega un sistema multi-agente composto da tre componenti chiave: un agente di Interpretazione delle Istruzioni che interpreta immagini e istruzioni caricate dall'utente, un agente di Pianificazione della Strategia che elabora azioni di generazione singola o multi-step, e un agente di Esecuzione che esegue queste azioni utilizzando un toolkit contestuale di trasformatori a diffusione. Valutiamo approfonditamente ChatDiT su IDEA-Bench arXiv:2412.11767, comprendente 100 compiti di design del mondo reale e 275 casi con istruzioni diverse e numeri variabili di immagini di input e target. Nonostante la sua semplicità e l'approccio privo di addestramento, ChatDiT supera tutti i concorrenti, inclusi quelli progettati e addestrati specificamente su ampi set di dati multi-task. Identifichiamo inoltre le principali limitazioni dei DiTs preaddestrati nell'adattarsi zero-shot alle attività. Rilasciamo tutto il codice, gli agenti, i risultati e le uscite intermedie per facilitare ulteriori ricerche su https://github.com/ali-vilab/ChatDiT
I modelli di progettazione assistita dal computer (CAD) sono tipicamente costruiti disegnando sequenzialmente schizzi parametrici e applicando operazioni CAD per ottenere un modello 3D. Il problema dell'ingegneria inversa CAD 3D consiste nel ricostruire le sequenze di schizzi e operazioni CAD dalle rappresentazioni 3D come nuvole di punti. In questo articolo, affrontiamo questa sfida attraverso nuovi contributi su tre livelli: rappresentazione della sequenza CAD, progettazione della rete e insieme di dati. In particolare, rappresentiamo le sequenze di schizzi estrusi CAD come codice Python. Il CAD-Recode proposto traduce una nuvola di punti in codice Python che, una volta eseguito, ricostruisce il modello CAD. Sfruttando l'esposizione dei Large Language Models (LLM) pre-addestrati al codice Python, utilizziamo un LLM relativamente piccolo come decodificatore per il CAD-Recode e lo combiniamo con un proiettore leggero per nuvole di punti. Il CAD-Recode è addestrato esclusivamente su un insieme di dati sintetici proposto di un milione di sequenze CAD diverse. Il CAD-Recode supera significativamente i metodi esistenti su tre insiemi di dati richiedendo meno punti di input. In particolare, raggiunge un valore medio di distanza di Chamfer 10 volte inferiore rispetto ai metodi all'avanguardia sui dataset DeepCAD e Fusion360. Inoltre, dimostriamo che il nostro codice Python CAD prodotto è interpretabile dai LLM pronti all'uso, consentendo la modifica CAD e la risposta a domande specifiche su CAD dalle nuvole di punti.
La contaminazione dei dati ostacola una valutazione equa dei LLM introducendo dati di test nei set di addestramento dei modelli più recenti. Gli studi esistenti risolvono questa sfida aggiornando i benchmark con dati appena raccolti. Tuttavia, non riescono a garantire una valutazione priva di contaminazione poiché i dati appena raccolti potrebbero contenere conoscenze preesistenti e gli aggiornamenti dei benchmark dipendono da un'intensa attività umana. Per affrontare questi problemi, in questo articolo proponiamo AntiLeak-Bench, un framework automatizzato per il benchmarking anti-fuga. Invece di utilizzare semplicemente dati appena raccolti, costruiamo campioni con conoscenze esplicitamente nuove assenti nei set di addestramento dei LLM, garantendo così una valutazione rigorosamente priva di contaminazione. Progettiamo inoltre un flusso di lavoro completamente automatizzato per costruire e aggiornare il nostro benchmark senza l'intervento umano. Ciò riduce significativamente i costi di manutenzione del benchmark per adattarsi ai nuovi LLM emergenti. Attraverso ampi esperimenti, evidenziamo che la contaminazione dei dati probabilmente esiste prima del tempo limite dei LLM e dimostriamo che AntiLeak-Bench supera efficacemente questa sfida.
I documenti storici racchiudono una ricchezza di tesori culturali ma soffrono di gravi danni, tra cui caratteri mancanti, danni alla carta e erosione dell'inchiostro nel tempo. Tuttavia, i metodi esistenti di elaborazione dei documenti si concentrano principalmente sulla binarizzazione, miglioramento, ecc., trascurando la riparazione di questi danni. A questo scopo, presentiamo un nuovo compito, denominato Riparazione di Documenti Storici (HDR), che mira a prevedere l'aspetto originale dei documenti storici danneggiati. Per colmare questa lacuna in questo campo, proponiamo un dataset su larga scala HDR28K e una rete basata sulla diffusione, DiffHDR, per la riparazione di documenti storici. In particolare, HDR28K contiene 28.552 coppie di immagini danneggiate-riparate con annotazioni a livello di carattere e degradazioni multi-stile. Inoltre, DiffHDR amplia il framework di diffusione di base con informazioni semantiche e spaziali e una perdita percettiva carattere attentamente progettata per coerenza contestuale e visiva. I risultati sperimentali dimostrano che il proposto DiffHDR addestrato utilizzando HDR28K supera significativamente gli approcci esistenti e mostra prestazioni notevoli nel trattare documenti danneggiati reali. In particolare, DiffHDR può essere esteso anche all'editing di documenti e alla generazione di blocchi di testo, dimostrando la sua elevata flessibilità e capacità di generalizzazione. Riteniamo che questo studio possa aprire una nuova direzione nell'elaborazione dei documenti e contribuire all'eredità di culture e civiltà preziose. Il dataset e il codice sono disponibili su https://github.com/yeungchenwa/HDR.