Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo un nuovo approccio per mappare sistematicamente le caratteristiche scoperte da autoencoder sparsi attraverso strati consecutivi di grandi modelli linguistici, estendendo lavori precedenti che hanno esaminato i collegamenti tra le caratteristiche tra strati. Utilizzando una tecnica di similarità coseno senza dati, tracciamo come specifiche caratteristiche persistono, si trasformano o appaiono per la prima volta in ciascuna fase. Questo metodo produce grafici dettagliati sull'evoluzione delle caratteristiche, consentendo un'interpretazione dettagliata e approfondimenti meccanicistici sui calcoli del modello. In modo cruciale, dimostriamo come queste mappe delle caratteristiche tra strati facilitino il controllo diretto del comportamento del modello amplificando o sopprimendo le caratteristiche scelte, ottenendo un controllo tematico mirato nella generazione di testo. Complessivamente, le nostre scoperte evidenziano l'utilità di un quadro di interpretabilità causale tra strati che non solo chiarisce come le caratteristiche si sviluppano attraverso i passaggi in avanti, ma fornisce anche nuovi mezzi per la manipolazione trasparente dei grandi modelli linguistici.
Presentiamo AlphaGeometry2, una versione significativamente migliorata di AlphaGeometry introdotta da Trinh et al. (2024), che ha ora superato la media di un medaglia d'oro nel risolvere problemi di geometria olimpica. Per raggiungere questo obiettivo, abbiamo prima esteso il linguaggio originale di AlphaGeometry per affrontare problemi più complessi che coinvolgono movimenti di oggetti e problemi contenenti equazioni lineari di angoli, rapporti e distanze. Questo, insieme ad altre aggiunte, ha notevolmente migliorato il tasso di copertura del linguaggio AlphaGeometry sui problemi di geometria delle Olimpiadi Internazionali di Matematica (IMO) dal 2000 al 2024, passando dal 66% all'88%. Il processo di ricerca di AlphaGeometry2 è stato anche notevolmente migliorato attraverso l'utilizzo dell'architettura Gemini per una migliore modellazione del linguaggio e un innovativo meccanismo di condivisione della conoscenza che combina più alberi di ricerca. Insieme a ulteriori miglioramenti al motore simbolico e alla generazione di dati sintetici, abbiamo notevolmente aumentato il tasso complessivo di risoluzione di AlphaGeometry2 all'84% per tutti i problemi di geometria degli ultimi 25 anni, rispetto al 54% precedente. AlphaGeometry2 ha anche fatto parte del sistema che ha raggiunto lo standard di medaglia d'argento alle IMO 2024 https://dpmd.ai/imo-silver. Infine, riportiamo i progressi verso l'utilizzo di AlphaGeometry2 come parte di un sistema completamente automatizzato che risolve in modo affidabile i problemi di geometria direttamente dall'input in linguaggio naturale.
Le rappresentazioni ricche dei trasformatori di diffusione multimodale (DiTs) mostrano proprietà uniche che migliorano la loro interpretabilità? Introduciamo ConceptAttention, un nuovo metodo che sfrutta il potere espressivo degli strati di attenzione DiT per generare mappe di evidenziazione di alta qualità che localizzano precisamente i concetti testuali all'interno delle immagini. Senza richiedere ulteriore addestramento, ConceptAttention riutilizza i parametri degli strati di attenzione DiT per produrre embedding di concetti altamente contestualizzati, contribuendo alla scoperta principale che l'esecuzione di proiezioni lineari nello spazio di output degli strati di attenzione DiT produce mappe di evidenziazione significativamente più nitide rispetto ai meccanismi di cross-attenzione comunemente utilizzati. Notevolmente, ConceptAttention raggiunge persino prestazioni all'avanguardia nei benchmark di segmentazione di immagini a zero-shot, superando altri 11 metodi di interpretabilità a zero-shot sul dataset ImageNet-Segmentation e su un sottoinsieme di singola classe di PascalVOC. Il nostro lavoro fornisce la prima evidenza che le rappresentazioni dei modelli multimodali DiT come Flux sono altamente trasferibili a compiti di visione come la segmentazione, superando persino i modelli di base multimodali come CLIP.
Con l'avanzare delle capacità dei Modelli Linguistici (LM), valutarli e supervisionarli su larga scala sta diventando sempre più difficile per gli esseri umani. C'è la speranza che altri modelli linguistici possano automatizzare entrambi questi compiti, che noi chiamiamo "Supervisione AI". Studiamo come la similarità dei modelli influenzi entrambi gli aspetti della supervisione AI proponendo una metrica probabilistica per la similarità dei LM basata sull'overlap negli errori del modello. Utilizzando questa metrica, mostriamo innanzitutto che i punteggi del LLM-come-giudice favoriscono i modelli simili al giudice, generalizzando i recenti risultati di auto-preferenza. Successivamente, studiamo l'addestramento su annotazioni LM e troviamo che la conoscenza complementare tra il supervisore debole e il modello studente forte gioca un ruolo cruciale nei guadagni della "generalizzazione da debole a forte". Con l'aumentare delle capacità del modello, diventa più difficile individuare i loro errori e potremmo affidarci di più alla supervisione AI. Tuttavia, osserviamo una tendenza preoccupante: gli errori del modello stanno diventando più simili con l'aumentare delle capacità, indicando rischi da fallimenti correlati. Il nostro lavoro sottolinea l'importanza di segnalare e correggere la similarità dei modelli, specialmente nel paradigma emergente della supervisione AI.
I recenti progressi nei grandi modelli linguistici, in particolare a seguito del GPT-4o, hanno suscitato un crescente interesse nello sviluppo di modelli omni-modal capaci di comprendere più modalità. Sebbene siano emerse alcune alternative open-source, c'è ancora un notevole ritardo rispetto ai modelli specializzati a singola modalità in termini di prestazioni. In questo articolo presentiamo Ola, un modello linguistico omni-modale che raggiunge prestazioni competitive nella comprensione di immagini, video e audio rispetto ai corrispettivi specializzati. Il design principale di Ola risiede nella sua strategia progressiva di allineamento delle modalità che estende progressivamente la modalità di supporto del modello linguistico. Il nostro processo di addestramento inizia con le modalità più distinte: immagine e testo, per poi espandere gradualmente le capacità del modello utilizzando dati vocali che collegano la conoscenza del linguaggio e dell'audio, e dati video che collegano tutte le modalità. Il processo di apprendimento progressivo ci consente anche di mantenere una dimensione relativamente ridotta dei dati di allineamento cross-modale, semplificando lo sviluppo di modelli omni-modal da modelli esistenti di visione-linguaggio in modo facile e meno costoso. Inoltre, per sbloccare un'esperienza interattiva avanzata come il GPT-4o, progettiamo ulteriormente una soluzione di decodifica basata su frasi per la generazione di discorsi in streaming. Esperimenti estesi dimostrano che Ola supera i LLM omni-modali aperti esistenti in tutte le modalità, ottenendo prestazioni altamente competitive rispetto ai modelli specializzati all'avanguardia di dimensioni simili. Il nostro obiettivo è rendere Ola una soluzione di comprensione omni-modale completamente aperta per far progredire la ricerca futura in questo campo emergente. I pesi del modello, il codice e i dati sono disponibili su https://github.com/Ola-Omni/Ola.
Presentiamo un metodo per arricchire i video del mondo reale con contenuti dinamici appena generati. Dato un video di input e una semplice istruzione testuale fornita dall'utente che descrive il contenuto desiderato, il nostro metodo sintetizza oggetti dinamici o effetti complessi di scena che interagiscono in modo naturale con la scena esistente nel tempo. La posizione, l'aspetto e il movimento del nuovo contenuto sono integrati in modo fluido nel filmato originale tenendo conto del movimento della telecamera, delle occlusioni e delle interazioni con altri oggetti dinamici nella scena, producendo un video di output coerente e realistico. Realizziamo ciò attraverso un framework senza addestramento che sfrutta un transformer di diffusione testo-video preaddestrato per sintetizzare il nuovo contenuto e un Modello di Linguaggio Visivo preaddestrato per immaginare dettagliatamente la scena arricchita. In particolare, introduciamo un nuovo metodo basato sull'inferenza che manipola le caratteristiche all'interno del meccanismo di attenzione, consentendo una localizzazione accurata e un'integrazione fluida del nuovo contenuto preservando l'integrità della scena originale. Il nostro metodo è completamente automatizzato, richiedendo solo una semplice istruzione dell'utente. Dimostriamo la sua efficacia su una vasta gamma di modifiche applicate a video del mondo reale, che comprendono oggetti diversi e scenari che coinvolgono sia il movimento della telecamera che degli oggetti.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) basati su testo, in particolare nella serie GPT e nel modello o1, hanno dimostrato l'efficacia della scalabilità sia del calcolo durante l'addestramento che del calcolo durante l'inferenza. Tuttavia, i sistemi TTS all'avanguardia che sfruttano i LLM sono spesso multistadio, richiedendo modelli separati (ad esempio, modelli di diffusione dopo i LLM), complicando la decisione se scalare un particolare modello durante l'addestramento o il testing. Questo lavoro apporta i seguenti contributi: In primo luogo, esploriamo la scalabilità del calcolo durante l'addestramento e l'inferenza per la sintesi vocale. In secondo luogo, proponiamo un semplice framework Llasa per la sintesi vocale che utilizza un codec vettoriale a singolo strato (VQ) e un'architettura Transformer singola per allinearsi completamente con i LLM standard come Llama. I nostri esperimenti rivelano che la scalabilità del calcolo durante l'addestramento per Llasa migliora costantemente la naturalezza della voce sintetizzata e consente la generazione di modelli prosodici più complessi e accurati. Inoltre, dal punto di vista della scalabilità del calcolo durante l'inferenza, impieghiamo modelli di comprensione del linguaggio parlato come verificatori durante la ricerca, scoprendo che la scalabilità del calcolo durante l'inferenza sposta le modalità di campionamento verso le preferenze di specifici verificatori, migliorando così l'espressività emotiva, la coerenza timbrica e l'accuratezza del contenuto. Inoltre, abbiamo reso pubblicamente disponibili il checkpoint e il codice di addestramento per il nostro modello TTS (1B, 3B, 8B) e il modello di codec.
I grandi modelli linguistici (LLM), come o1 di OpenAI, hanno dimostrato notevoli capacità di ragionamento. o1 genera una lunga catena di pensiero (LongCoT) prima di rispondere a una domanda. Il LongCoT consente ai LLM di analizzare problemi, ideare piani, riflettere e tornare sui propri passi in modo efficace. Queste azioni permettono ai LLM di risolvere problemi complessi. Dopo il rilascio di o1, molte squadre hanno cercato di replicare il suo LongCoT e le capacità di ragionamento. In termini di metodi, si basano principalmente sulla distillazione della conoscenza con dati provenienti da modelli esistenti con capacità LongCoT (ad esempio, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), lasciando significative incertezze nello sviluppo sistematico di tali capacità di ragionamento. In termini di domini di dati, questi lavori si concentrano principalmente sulla matematica, mentre alcuni includono anche il coding, limitandone la generalizzabilità. Questo articolo introduce un nuovo approccio per abilitare la capacità LongCoT dei LLM senza distillazione da modelli simili a o1 o costose annotazioni umane, dove avviamo LongCoT (BOLT) da un modello instruct standard. BOLT coinvolge tre fasi: 1) avvio dei dati LongCoT con apprendimento in contesto su un modello instruct standard; 2) fine-tuning supervisionato del LongCoT; 3) addestramento online per affinare ulteriormente le capacità LongCoT. In BOLT, durante la fase di avvio sono necessari solo alcuni esempi in contesto; nei nostri esperimenti abbiamo creato 10 esempi, dimostrando la fattibilità di questo approccio. Utilizziamo Llama-3.1-70B-Instruct per avviare il LongCoT e applichiamo il nostro metodo a varie scale di modelli (7B, 8B, 70B). Otteniamo prestazioni impressionanti su una varietà di benchmark, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, che valutano diverse capacità di risoluzione di compiti e ragionamento.
Il seguire istruzioni ha reso i moderni modelli linguistici di grandi dimensioni (LLM) utili assistenti. Tuttavia, la chiave per domare i LLM su istruzioni complesse rimane misteriosa, poiché esistono enormi discrepanze tra i modelli addestrati dalla comunità open-source e quelli addestrati dalle principali aziende. Per colmare questa lacuna, proponiamo un approccio semplice e scalabile chiamato UltraIF per la costruzione di LLM in grado di seguire istruzioni complesse con dati open-source. UltraIF scompone prima le richieste degli utenti del mondo reale in query più semplici, vincoli e domande di valutazione corrispondenti per i vincoli. Successivamente, addestriamo un UltraComposer a comporre richieste associate ai vincoli con domande di valutazione. Questo compositore di richieste ci consente di sintetizzare istruzioni complicate e filtrare le risposte con domande di valutazione. Nel nostro esperimento, per la prima volta, siamo riusciti ad allineare LLaMA-3.1-8B-Base con la sua versione di istruzioni su 5 benchmark di seguire istruzioni senza alcuna informazione sui benchmark, utilizzando solo il modello 8B come generatore di risposte e valutatore. Il modello allineato ha ottenuto anche punteggi competitivi su altri benchmark. Inoltre, dimostriamo che UltraIF potrebbe migliorare ulteriormente LLaMA-3.1-8B-Instruct attraverso l'auto-allineamento, incoraggiando utilizzi più ampi del metodo. Il nostro codice sarà disponibile su https://github.com/kkk-an/UltraIF.
L'obiettivo dei modelli generativi a diffusione è allineare la distribuzione appresa con la distribuzione dei dati reali attraverso il matching del gradiente dei punteggi. Tuttavia, limitazioni intrinseche nella qualità dei dati di addestramento, nelle strategie di modellazione e nel design architetturale portano inevitabilmente a una discrepanza tra le uscite generate e i dati reali. Per ridurre questa discrepanza, proponiamo la Diffusione da Debole a Forte (W2SD), un nuovo framework che utilizza la differenza stimata tra modelli deboli e forti esistenti (cioè, la differenza da debole a forte) per approssimare la discrepanza tra un modello ideale e un modello forte. Impiegando un'operazione riflessiva che alterna tra denoising e inversione con la differenza da debole a forte, comprendiamo teoricamente che W2SD guida le variabili latenti lungo traiettorie di campionamento verso regioni della distribuzione dei dati reali. W2SD è altamente flessibile e ampiamente applicabile, consentendo miglioramenti diversificati attraverso la selezione strategica di coppie di modelli da deboli a forti (ad esempio, DreamShaper vs. SD1.5, buoni esperti vs. cattivi esperti in MoE). Estesi esperimenti dimostrano che W2SD migliora significativamente la preferenza umana, la qualità estetica e l'aderenza alla richiesta, raggiungendo prestazioni di punta in varie modalità (ad esempio, immagine, video), architetture (ad esempio, basate su UNet, basate su DiT, MoE) e benchmark. Ad esempio, Juggernaut-XL con W2SD può migliorare il tasso di vincita di HPSv2 fino al 90% rispetto ai risultati originali. Inoltre, i miglioramenti delle prestazioni ottenuti da W2SD superano notevolmente il suo overhead computazionale aggiuntivo, mentre i miglioramenti cumulativi dalle diverse differenze da debole a forte consolidano ulteriormente la sua utilità pratica e la sua capacità di implementazione.
Nonostante le notevoli capacità dei grandi modelli linguistici in varie attività, la loro continua scalabilità si trova di fronte a una sfida critica: la scarsità di dati di preaddestramento di alta qualità. Mentre le architetture dei modelli continuano a evolversi, i dati di linguaggio naturale faticano a scalare. Per affrontare questo collo di bottiglia, proponiamo il metodo di riformulazione MAssive Genre-Audience (MAGA), che sintetizza in modo sistematico dati di preaddestramento diversificati e ricchi di contesto da corpora esistenti. Questo lavoro apporta tre principali contributi: (1) Proponiamo il metodo di riformulazione MAGA, un approccio leggero e scalabile per l'espansione dei corpora di preaddestramento e costruiamo un corpus MAGACorpus di 770 miliardi di token. (2) Valutiamo il MAGACorpus con diverse strategie di scalabilità del budget dei dati, dimostrando miglioramenti costanti su varie dimensioni di modelli (da 134 milioni a 13 miliardi), stabilendo la necessità di modelli di linguaggio di preaddestramento sintetico su larga scala di prossima generazione. (3) Attraverso un'analisi approfondita, indaghiamo sull'impatto dell'ingegneria delle prompt sul collasso dell'addestramento sintetico e riveliamo limitazioni nelle metriche convenzionali di rilevamento del collasso utilizzando le perdite di validazione. Il nostro lavoro mostra che MAGA può espandere notevolmente i dataset di addestramento mantenendo la qualità, offrendo un percorso affidabile per scalare i modelli al di là delle limitazioni dei dati.
Ricerche recenti hanno sfruttato grandi modelli di linguaggio multi-agente per la risoluzione di problemi complessi cercando di ridurre lo sforzo manuale richiesto per costruirli, guidando lo sviluppo di metodi di ottimizzazione del flusso di lavoro degli agenti automatizzati. Tuttavia, i metodi esistenti rimangono rigidi a causa di limitazioni rappresentazionali, mancanza di adattabilità e scarsa scalabilità quando si basano su tecniche di ottimizzazione discreta. Affrontiamo queste sfide con ScoreFlow, un framework semplice ma ad alte prestazioni che sfrutta un'ottimizzazione efficiente basata sui gradienti in uno spazio continuo. ScoreFlow incorpora Score-DPO, una nuova variante del metodo di ottimizzazione delle preferenze dirette che tiene conto del feedback quantitativo. Attraverso sei benchmark che spaziano dalla risposta alle domande, alla codifica e al ragionamento matematico, ScoreFlow ottiene un miglioramento dell'8,2% rispetto alle baselines esistenti. Inoltre, consente a modelli più piccoli di superare quelli più grandi con costi di inferenza inferiori. Progetto: https://github.com/Gen-Verse/ScoreFlow
La generazione e la modifica del movimento umano sono componenti chiave della grafica computerizzata e della visione. Tuttavia, gli approcci attuali in questo campo tendono a offrire soluzioni isolate adattate a compiti specifici, che possono essere inefficienti e poco pratici per le applicazioni reali. Mentre alcuni sforzi hanno mirato a unificare i compiti legati al movimento, questi metodi utilizzano semplicemente diverse modalità come condizioni per guidare la generazione del movimento. Di conseguenza, mancano di capacità di modifica, controllo dettagliato e non facilitano la condivisione delle conoscenze tra i compiti. Per affrontare queste limitazioni e fornire un framework versatile e unificato in grado di gestire sia la generazione che la modifica del movimento umano, introduciamo un nuovo paradigma: Motion-Condition-Motion, che consente la formulazione unificata di compiti diversi con tre concetti: movimento di origine, condizione e movimento di destinazione. Basandoci su questo paradigma, proponiamo un framework unificato, MotionLab, che incorpora flussi rettificati per apprendere la mappatura dal movimento di origine al movimento di destinazione, guidata dalle condizioni specificate. In MotionLab, introduciamo il 1) MotionFlow Transformer per migliorare la generazione condizionale e la modifica senza moduli specifici del compito; 2) Codifica della Posizione Rotazionale Allineata per garantire la sincronizzazione temporale tra il movimento di origine e il movimento di destinazione; 3) Modulazione dell'Istruzione Specificata dal Compito; e 4) Apprendimento del Curriculum del Movimento per un apprendimento multitasking efficace e la condivisione delle conoscenze tra i compiti. In particolare, il nostro MotionLab dimostra promettenti capacità di generalizzazione e efficienza inferenziale su diversi benchmark per il movimento umano. Il nostro codice e ulteriori risultati video sono disponibili su: https://diouo.github.io/motionlab.github.io/.
Questo articolo presenta un metodo che consente agli utenti di progettare riprese video cinematografiche nel contesto della generazione di immagini a video. La progettazione delle riprese, un aspetto critico della produzione cinematografica, implica la pianificazione meticolosa dei movimenti della telecamera e degli oggetti in una scena. Tuttavia, abilitare una progettazione intuitiva delle riprese nei moderni sistemi di generazione di immagini a video presenta due principali sfide: innanzitutto, catturare efficacemente le intenzioni dell'utente sul design del movimento, dove sia i movimenti della telecamera che quelli degli oggetti nello spazio della scena devono essere specificati congiuntamente; e in secondo luogo, rappresentare informazioni sul movimento che possano essere utilizzate efficacemente da un modello di diffusione video per sintetizzare le animazioni delle immagini. Per affrontare queste sfide, introduciamo MotionCanvas, un metodo che integra controlli guidati dall'utente nei modelli di generazione di immagini a video, consentendo agli utenti di controllare sia i movimenti degli oggetti che della telecamera in modo consapevole della scena. Collegando le intuizioni della grafica informatica classica e le tecniche di generazione video contemporanee, dimostriamo la capacità di ottenere un controllo del movimento consapevole in 3D nella sintesi di immagini a video senza richiedere costosi dati di addestramento in 3D. MotionCanvas consente agli utenti di rappresentare intuitivamente le intenzioni di movimento nello spazio della scena e di tradurle in segnali di condizionamento del movimento spazio-temporale per i modelli di diffusione video. Dimostriamo l'efficacia del nostro metodo su una vasta gamma di contenuti di immagini del mondo reale e scenari di progettazione delle riprese, evidenziando il suo potenziale per migliorare i flussi di lavoro creativi nella creazione di contenuti digitali e adattarsi a varie applicazioni di modifica di immagini e video.
I Large Language Models (LLM) hanno dimostrato una significativa capacità in varie attività, con la loro efficacia nel mondo reale spesso determinata dal design del prompt. Mentre recenti ricerche si sono concentrate sull'ottimizzazione del contenuto del prompt, il ruolo della formattazione del prompt, una dimensione critica ma spesso trascurata, ha ricevuto una limitata investigazione sistematica. In questo articolo, presentiamo l' Ottimizzazione Integrata del Contenuto-Formato del Prompt (CFPO), una metodologia innovativa che ottimizza congiuntamente sia il contenuto che la formattazione del prompt attraverso un processo di perfezionamento iterativo. CFPO sfrutta le mutazioni del linguaggio naturale per esplorare variazioni del contenuto e utilizza una strategia di esplorazione del formato dinamica che valuta sistematicamente diverse opzioni di formato. Le nostre ampie valutazioni su varie attività e LLM open-source dimostrano che CFPO offre miglioramenti misurabili delle prestazioni rispetto ai metodi di ottimizzazione basati solo sul contenuto. Questo sottolinea l'importanza dell'ottimizzazione integrata del contenuto e del formato e offre un approccio pratico e indipendente dal modello per migliorare le prestazioni dei LLM. Il codice sarà disponibile su https://github.com/HenryLau7/CFPO.
Con l'aumentare dei modelli linguistici di grandi dimensioni che guidano sempre più applicazioni reali, allinearli con i valori umani diventa fondamentale. Il Reinforcement Learning from Human Feedback (RLHF) è emerso come una tecnica chiave, traducendo i dati di preferenza in modelli di ricompensa quando i valori umani oracolari rimangono inaccessibili. Nella pratica, RLHF si basa principalmente su modelli di ricompensa approssimati, che potrebbero non guidare in modo coerente la politica verso la massimizzazione dei valori umani sottostanti. Proponiamo il Policy-Interpolated Learning for Aligned Feedback (PILAF), una nuova strategia di campionamento delle risposte per l'etichettatura delle preferenze che allinea esplicitamente l'apprendimento delle preferenze con la massimizzazione della ricompensa oracolare sottostante. PILAF è fondato teoricamente, dimostrando l'ottimalità sia da un punto di vista dell'ottimizzazione che statistico. Il metodo è semplice da implementare e mostra ottime prestazioni in contesti di RLHF iterativi e online in cui la cura del feedback è fondamentale.
Presentiamo un nuovo framework di generazione video che integra la geometria tridimensionale e la consapevolezza dinamica. Per raggiungere questo obiettivo, arricchiamo i video 2D con traiettorie di punti 3D e le allineiamo nello spazio dei pixel. Il dataset video 3D-aware risultante, PointVid, viene quindi utilizzato per perfezionare un modello di diffusione latente, consentendogli di tracciare oggetti 2D con coordinate cartesiane 3D. Basandoci su questo, regolarizziamo la forma e il movimento degli oggetti nel video per eliminare artefatti indesiderati, come ad esempio deformazioni non fisiche. Di conseguenza, miglioriamo la qualità dei video RGB generati e riduciamo problemi comuni come la morfing degli oggetti, che sono diffusi nei modelli video attuali a causa della mancanza di consapevolezza della forma. Con la nostra augmentazione e regolarizzazione 3D, il nostro modello è in grado di gestire scenari ricchi di contatti come i video orientati al compito. Questi video coinvolgono interazioni complesse di solidi, dove le informazioni 3D sono essenziali per percepire deformazioni e contatti. Inoltre, il nostro modello migliora la qualità complessiva della generazione video promuovendo la coerenza 3D degli oggetti in movimento e riducendo cambiamenti improvvisi nella forma e nel movimento.
I Large Language Models (LLM) possono svolgere compiti di risposta a domande su grafici ma spesso generano risposte allucinate non verificate. I metodi esistenti di attribuzione delle risposte faticano nel ancorare le risposte nei grafici di origine a causa di un contesto visivo-semantico limitato, complesse esigenze di allineamento testo-visivo e difficoltà nella previsione delle bounding box attraverso layout complessi. Presentiamo ChartCitor, un framework multi-agente che fornisce citazioni di bounding box dettagliate identificando prove di supporto all'interno delle immagini dei grafici. Il sistema coordina agenti LLM per eseguire l'estrazione da grafico a tabella, la riformulazione delle risposte, l'aumento della tabella, il recupero delle prove attraverso pre-filtraggio e ri-ranKing, e il mappaggio da tabella a grafico. ChartCitor supera i baselines esistenti tra diversi tipi di grafici. Studi qualitativi con gli utenti mostrano che ChartCitor aiuta ad aumentare la fiducia degli utenti nell'IA generativa fornendo una spiegazione migliorata per l'assistenza LLM nella QA sui grafici e consente ai professionisti di essere più produttivi.
Proponiamo l'Autoregressione Mascherata Eterogenea (HMA) per modellare la dinamica dei video d'azione al fine di generare dati di alta qualità e valutare la scalabilità dell'apprendimento dei robot. Costruire modelli di mondi video interattivi e politiche per la robotica è difficile a causa della sfida di gestire contesti diversi pur mantenendo l'efficienza computazionale per funzionare in tempo reale. HMA utilizza un pre-addestramento eterogeneo da osservazioni e sequenze d'azione attraverso differenti incarnazioni robotiche, domini e compiti. HMA utilizza l'autoregressione mascherata per generare token quantizzati o soft per le previsioni video. \ourshort ottiene una migliore fedeltà visiva e controllabilità rispetto ai modelli precedenti di generazione video robotica con una velocità 15 volte superiore nel mondo reale. Dopo il post-addestramento, questo modello può essere utilizzato come simulatore video da input d'azione a basso livello per valutare politiche e generare dati sintetici. Per ulteriori informazioni, consultare questo link: https://liruiw.github.io/hma.
La visualizzazione scientifica dei dati è fondamentale per trasformare i dati grezzi in rappresentazioni visive comprensibili, consentendo il riconoscimento di modelli, la previsione e la presentazione di intuizioni basate sui dati. Tuttavia, gli utenti alle prime armi spesso incontrano difficoltà a causa della complessità nella selezione degli strumenti appropriati e nel padroneggiare le tecniche di visualizzazione. I Large Language Models (LLM) hanno recentemente dimostrato un potenziale nell'assistere la generazione di codice, anche se faticano con l'accuratezza e richiedono un debugging iterativo. In questo articolo, proponiamo PlotGen, un nuovo framework multi-agente mirato all'automatizzazione della creazione di precise visualizzazioni scientifiche. PlotGen coordina diversi agenti basati su LLM, tra cui un Agente di Pianificazione delle Query che suddivide le richieste complesse dell'utente in passaggi eseguibili, un Agente di Generazione del Codice che converte il pseudocodice in codice Python eseguibile, e tre agenti di feedback di recupero - un Agente di Feedback Numerico, un Agente di Feedback Lessicale e un Agente di Feedback Visivo - che sfruttano LLM multimodali per affinare iterativamente l'accuratezza dei dati, le etichette testuali e la correttezza visiva dei grafici generati tramite auto-riflessione. Estesi esperimenti mostrano che PlotGen supera basi solide, ottenendo un miglioramento del 4-6 percento sul dataset MatPlotBench, portando a una maggiore fiducia dell'utente nelle visualizzazioni generate da LLM e a un miglioramento della produttività dei principianti grazie a una riduzione del tempo di debugging necessario per gli errori nei grafici.
L'avvento dei Grandi Modelli Linguistici (LLM) ha notevolmente avanzato il campo della generazione automatica di codice. I LLM si basano su set di dati ampi e diversificati per apprendere la sintassi, la semantica e i modelli di utilizzo dei linguaggi di programmazione. Per i linguaggi a bassa risorsa (ossia, linguaggi di programmazione di nicchia caratterizzati dalla scarsità di dati di addestramento), la limitata disponibilità di tali dati ostacola la capacità dei modelli di generalizzare in modo efficace, risultando in una performance di generazione del codice inferiore rispetto ai linguaggi ad alta risorsa. Per questo motivo, c'è una ricerca di tecniche in grado di colmare questo divario di performance. Presentiamo uno studio empirico che indaga sull'efficacia di diversi approcci per potenziare le prestazioni dei LLM nei linguaggi a bassa risorsa, ovvero: (i) un classico fine-tuning, limitato in dimensioni dalla scarsità dei dati di addestramento; (ii) tre varianti di apprendimento in contesto, con prompt creati per fornire al LLM informazioni aggiuntive sul linguaggio a bassa risorsa (ad esempio, esempi di pochi colpi che mostrano le caratteristiche del linguaggio prescelto); e (iii) un obiettivo di pre-addestramento che insegna al modello come tradurre tra linguaggi ad alta e bassa risorsa. Il contesto del nostro studio sono due linguaggi a bassa risorsa (R e Racket) e sei LLM con architetture e dimensioni diverse. Le nostre scoperte rivelano che un fine-tuning è di solito la scelta migliore per i LLM più piccoli, probabilmente a causa del fatto che anche un piccolo set di dati è sufficiente per addestrare il loro limitato numero di parametri. Con l'aumento delle dimensioni dei modelli, l'apprendimento in contesto diventa sempre più efficace, rappresentando una scommessa sicura ed economica (ossia, aiuta sempre, ma con diverse magnitudini). Al contrario, i LLM molto grandi potrebbero deteriorare le loro prestazioni nei linguaggi a bassa risorsa quando viene eseguito il fine-tuning, probabilmente a causa della mancanza di dati sufficienti necessari per aggiornare efficacemente i loro pesi.
Nonostante gli ampi sforzi di allineamento della sicurezza, i grandi modelli linguistici (LLM) rimangono vulnerabili agli attacchi di jailbreak che inducono comportamenti dannosi. Mentre gli studi esistenti si concentrano principalmente sui metodi di attacco che richiedono competenze tecniche, due domande critiche rimangono poco esplorate: (1) Le risposte jailbroken sono veramente utili nel consentire agli utenti medi di compiere azioni dannose? (2) Esistono vulnerabilità di sicurezza nelle interazioni umano-LLM più comuni e semplici? In questo articolo, dimostriamo che le risposte LLM facilitano in modo più efficace azioni dannose quando sono entrambe eseguibili e informative - due attributi facilmente ottenibili in interazioni multistep e multilingue. Utilizzando questa intuizione, proponiamo HarmScore, una metrica di jailbreak che misura quanto efficacemente una risposta LLM consente azioni dannose, e Speak Easy, un semplice framework di attacco multistep e multilingue. In particolare, incorporando Speak Easy nei baselines di richiesta diretta e jailbreak, osserviamo un aumento assoluto medio del 0.319 nel tasso di successo degli attacchi e del 0.426 in HarmScore sia nei LLM open-source che proprietari su quattro benchmark di sicurezza. Il nostro lavoro rivela una vulnerabilità critica ma spesso trascurata: gli utenti malintenzionati possono facilmente sfruttare schemi di interazione comuni per intenzioni dannose.