Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli generativi multimodali hanno sbloccato la generazione di immagini fotorealistiche e allineate alle istruzioni, tuttavia sistemi leader come GPT-4o-Image rimangono proprietari e inaccessibili. Per democratizzare queste capacità, presentiamo ShareGPT-4o-Image, il primo dataset composto da 45K dati di testo-a-immagine e 46K dati di testo-e-immagine-a-immagine, tutti sintetizzati utilizzando le capacità di generazione di immagini di GPT-4o per distillare le sue avanzate abilità di generazione di immagini. Sfruttando questo dataset, sviluppiamo Janus-4o, un modello di linguaggio multimodale di grandi dimensioni in grado di generare sia testo-a-immagine che testo-e-immagine-a-immagine. Janus-4o non solo migliora significativamente la generazione di testo-a-immagine rispetto al suo predecessore, Janus-Pro, ma supporta anche per la prima volta la generazione di testo-e-immagine-a-immagine. In particolare, raggiunge prestazioni impressionanti nella generazione di testo-e-immagine-a-immagine da zero, utilizzando solo 91K campioni sintetici e 6 ore di addestramento su una macchina con 8 GPU A800. Speriamo che il rilascio di ShareGPT-4o-Image e Janus-4o favorisca la ricerca aperta nella generazione di immagini fotorealistiche e allineate alle istruzioni.
Il pre-training di modelli linguistici di grandi dimensioni (LLM) all'avanguardia richiede grandi quantità di dati testuali puliti e diversificati. Sebbene lo sviluppo aperto di ampi dataset di pre-training di alta qualità in inglese abbia registrato progressi significativi di recente, l'addestramento di LLM multilingue performanti rimane una sfida, in gran parte a causa della difficoltà intrinseca di adattare pipeline di filtraggio e deduplicazione a un ampio numero di lingue. In questo lavoro, introduciamo una nuova pipeline di creazione di dataset di pre-training basata su FineWeb che può essere adattata automaticamente per supportare qualsiasi lingua. Analizziamo approfonditamente le scelte di progettazione della nostra pipeline su un insieme di nove lingue diverse, guidati da una serie di task di valutazione significativi e informativi selezionati attraverso un nuovo processo basato su criteri misurabili. In definitiva, dimostriamo che la nostra pipeline può essere utilizzata per creare corpora non in inglese che producono modelli più performanti rispetto ai dataset precedenti. Introduciamo inoltre un approccio semplice e basato su principi per riequilibrare i dataset, tenendo conto sia del conteggio delle duplicazioni che della qualità, fornendo un ulteriore miglioramento delle prestazioni. Infine, scaliamo la nostra pipeline a oltre 1000 lingue utilizzando quasi 100 snapshot di Common Crawl per produrre FineWeb2, un nuovo dataset multilingue da 20 terabyte (5 miliardi di documenti) che rilasciamo insieme alla nostra pipeline, al codice di addestramento e di valutazione.
Gli outlier estremi di attivazione nei Large Language Models (LLMs) degradano criticamente le prestazioni di quantizzazione, ostacolando il dispiegamento efficiente su dispositivi. Sebbene le operazioni canale-per-canale e il ridimensionamento adattivo del gradiente siano riconosciuti come cause, la mitigazione pratica rimane una sfida. Introduciamo l'Outlier-Safe Pre-Training (OSP), una linea guida pratica che previene proattivamente la formazione di outlier anziché affidarsi a mitigazioni post-hoc. L'OSP combina tre innovazioni chiave: (1) l'ottimizzatore Muon, che elimina le basi privilegiate mantenendo l'efficienza dell'addestramento; (2) il Single-Scale RMSNorm, che previene l'amplificazione canale-per-canale; e (3) una proiezione di embedding apprendibile, che ridistribuisce le magnitudini di attivazione originate dalle matrici di embedding. Validiamo l'OSP addestrando un modello da 1,4 miliardi di parametri su 1 trilione di token, che rappresenta il primo LLM su scala produttiva addestrato senza tali outlier. Sotto una quantizzazione aggressiva a 4 bit, il nostro modello OSP raggiunge un punteggio medio di 35,7 su 10 benchmark (rispetto a 26,5 per un modello addestrato con Adam), con solo un sovraccarico del 2% durante l'addestramento. In modo notevole, i modelli OSP mostrano un eccesso di curtosi quasi nullo (0,04) rispetto ai valori estremi (1818,56) nei modelli standard, alterando fondamentalmente il comportamento di quantizzazione degli LLM. Il nostro lavoro dimostra che gli outlier non sono intrinseci agli LLM ma sono conseguenze delle strategie di addestramento, aprendo la strada a un dispiegamento più efficiente degli LLM. Il codice sorgente e i checkpoint pre-addestrati sono disponibili all'indirizzo https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
Diverse famiglie di modelli linguistici di base, come Llama e Qwen, mostrano comportamenti divergenti durante il post-addestramento con apprendimento per rinforzo (RL), specialmente su compiti ad alta intensità di ragionamento. Cosa rende un modello linguistico di base adatto per l'apprendimento per rinforzo? Approfondire questa domanda è essenziale per sviluppare modelli fondanti scalabili con RL di prossima generazione. In questo lavoro, indaghiamo come le strategie di mid-training influenzano la dinamica dell'RL, concentrandoci su due famiglie di modelli rappresentative: Qwen e Llama. Il nostro studio rivela che (1) corpora matematici di alta qualità, come MegaMath-Web-Pro, migliorano significativamente sia le prestazioni del modello di base che quelle dell'RL, mentre alternative esistenti (ad esempio, FineMath-4plus) non riescono a farlo; (2) l'aggiunta ulteriore di dati in stile QA, in particolare esempi di ragionamento a catena di pensiero (CoT) lunghi, migliora i risultati dell'RL, e i dati di istruzione sbloccano ulteriormente questo effetto; (3) mentre il CoT lungo migliora la profondità del ragionamento, può anche indurre verbosità nelle risposte del modello e instabilità nell'addestramento RL, sottolineando l'importanza della formattazione dei dati; (4) il ridimensionamento del mid-training porta costantemente a prestazioni RL a valle più forti. Basandoci su queste intuizioni, introduciamo una strategia di mid-training in due fasi, Stable-then-Decay, in cui i modelli di base vengono prima addestrati su 200B token con un tasso di apprendimento costante, seguiti da 20B token su tre rami focalizzati sul CoT con decadimento del tasso di apprendimento. Questo produce OctoThinker, una famiglia di modelli che dimostra una forte compatibilità con l'RL e riduce il divario di prestazioni con famiglie di modelli più amichevoli per l'RL, come Qwen. Speriamo che il nostro lavoro contribuisca a definire strategie di pre-addestramento per modelli fondanti nell'era dell'RL. Per supportare ulteriori ricerche, rilasciamo i nostri modelli open-source insieme a un corpus curato di ragionamento matematico intensivo di oltre 70 miliardi di token (cioè, MegaMath-Web-Pro-Max).
I recenti progressi nell'editing di immagini con modelli di diffusione hanno ottenuto risultati impressionanti, offrendo un controllo fine sul processo di generazione. Tuttavia, questi metodi sono computazionalmente intensivi a causa della loro natura iterativa. Sebbene i modelli di diffusione distillati consentano un'inferenza più veloce, le loro capacità di editing rimangono limitate, principalmente a causa della scarsa qualità dell'inversione. Un'inversione e una ricostruzione ad alta fedeltà sono essenziali per un editing preciso delle immagini, poiché preservano l'integrità strutturale e semantica dell'immagine sorgente. In questo lavoro, proponiamo un nuovo framework che migliora l'inversione delle immagini utilizzando modelli di consistenza, consentendo un editing di alta qualità in soli quattro passaggi. Il nostro metodo introduce una strategia di ottimizzazione basata sulla ciclicità che migliora significativamente l'accuratezza della ricostruzione e consente un compromesso controllabile tra editabilità e conservazione del contenuto. Raggiungiamo prestazioni all'avanguardia in vari task di editing di immagini e dataset, dimostrando che il nostro metodo eguaglia o supera i modelli di diffusione a passi completi, pur essendo sostanzialmente più efficiente. Il codice del nostro metodo è disponibile su GitHub all'indirizzo https://github.com/ControlGenAI/Inverse-and-Edit.
Sviluppare agenti incarnati in grado di eseguire compiti interattivi complessi in scenari del mondo reale rimane una sfida fondamentale nell'AI incarnata. Sebbene i recenti progressi nelle piattaforme di simulazione abbiano notevolmente ampliato la diversità dei compiti per addestrare modelli di visione e linguaggio incarnati (VLMs), la maggior parte di queste piattaforme si basa su morfologie robotiche semplificate e aggira la natura stocastica dell'esecuzione a basso livello, limitando così la loro trasferibilità ai robot del mondo reale. Per affrontare questi problemi, presentiamo DualTHOR, una piattaforma di simulazione basata sulla fisica per robot umanoidi a doppio braccio complessi, costruita su una versione estesa di AI2-THOR. Il nostro simulatore include asset robotici del mondo reale, una suite di compiti per la collaborazione a doppio braccio e risolutori di cinematica inversa per robot umanoidi. Introduciamo inoltre un meccanismo di contingenza che incorpora potenziali fallimenti attraverso l'esecuzione a basso livello basata sulla fisica, colmando il divario con gli scenari del mondo reale. Il nostro simulatore consente una valutazione più completa della robustezza e della generalizzazione dei VLMs in ambienti domestici. Valutazioni estensive rivelano che gli attuali VLMs faticano nella coordinazione a doppio braccio e mostrano una robustezza limitata in ambienti realistici con contingenze, sottolineando l'importanza di utilizzare il nostro simulatore per sviluppare VLMs più capaci per compiti incarnati. Il codice è disponibile all'indirizzo https://github.com/ds199895/DualTHOR.git.
I modelli di diffusione sono emersi come l'approccio principale per la sintesi di immagini, dimostrando un fotorealismo e una diversità eccezionali. Tuttavia, l'addestramento di modelli di diffusione ad alte risoluzioni rimane computazionalmente proibitivo, e le tecniche esistenti di generazione zero-shot per sintetizzare immagini oltre le risoluzioni di addestramento spesso producono artefatti, inclusa la duplicazione di oggetti e l'incoerenza spaziale. In questo articolo, introduciamo HiWave, un approccio zero-shot senza addestramento che migliora sostanzialmente la fedeltà visiva e la coerenza strutturale nella sintesi di immagini a risoluzione ultra-elevata utilizzando modelli di diffusione pre-addestrati. Il nostro metodo impiega una pipeline in due fasi: la generazione di un'immagine di base dal modello pre-addestrato seguita da un passo di inversione DDIM patch-wise e un nuovo modulo di miglioramento dei dettagli basato sulle wavelet. Nello specifico, utilizziamo prima metodi di inversione per derivare vettori di rumore iniziali che preservano la coerenza globale dall'immagine di base. Successivamente, durante il campionamento, il nostro miglioratore di dettagli nel dominio delle wavelet mantiene le componenti a bassa frequenza dall'immagine di base per garantire la coerenza strutturale, mentre guida selettivamente le componenti ad alta frequenza per arricchire i dettagli e le texture fini. Valutazioni estensive utilizzando Stable Diffusion XL dimostrano che HiWave mitiga efficacemente gli artefatti visivi comuni osservati nei metodi precedenti, raggiungendo una qualità percettiva superiore. Uno studio con utenti ha confermato le prestazioni di HiWave, che è stato preferito rispetto all'alternativa più avanzata in più dell'80% dei confronti, evidenziando la sua efficacia per la sintesi di immagini di alta qualità a risoluzione ultra-elevata senza richiedere ri-addestramento o modifiche architetturali.
La sintesi di dati basata su simulazione è emersa come un paradigma potente per migliorare la manipolazione robotica nel mondo reale. Tuttavia, i dataset sintetici esistenti rimangono insufficienti per una manipolazione bimanuale robusta a causa di due sfide: (1) la mancanza di un metodo efficiente e scalabile per la generazione di dati per nuovi compiti, e (2) ambienti di simulazione eccessivamente semplificati che non riescono a catturare la complessità del mondo reale. Presentiamo RoboTwin 2.0, un framework di simulazione scalabile che consente la generazione automatizzata e su larga scala di dati diversificati e realistici, insieme a protocolli di valutazione unificati per la manipolazione a doppio braccio. Iniziamo costruendo RoboTwin-OD, una libreria di oggetti su larga scala che comprende 731 istanze in 147 categorie, ciascuna annotata con etichette semantiche e rilevanti per la manipolazione. Sulla base di questa fondazione, sviluppiamo una pipeline di sintesi dati esperta che combina modelli linguistici multimodali di grandi dimensioni (MLLM) con un perfezionamento in-loop della simulazione per generare automaticamente il codice di esecuzione a livello di compito. Per migliorare il trasferimento da simulazione a realtà, RoboTwin 2.0 incorpora una randomizzazione strutturata del dominio lungo cinque assi: disordine, illuminazione, sfondo, altezza del piano di lavoro e istruzioni linguistiche, aumentando così la diversità dei dati e la robustezza delle politiche. Istanziamo questo framework su 50 compiti a doppio braccio che coprono cinque incarnazioni di robot, e pre-raccogliamo oltre 100.000 traiettorie esperte con randomizzazione del dominio. I risultati empirici mostrano un miglioramento del 10,9% nel successo della generazione del codice e una migliore generalizzazione a nuovi scenari del mondo reale. Un modello VLA fine-tuned sul nostro dataset raggiunge un miglioramento relativo del 367% (42,0% vs. 9,0%) su compiti del mondo reale in scene non viste, mentre modelli zero-shot addestrati esclusivamente sui nostri dati sintetici ottengono un guadagno relativo del 228%, evidenziando una forte generalizzazione senza supervisione del mondo reale. Rilasciamo il generatore di dati, il benchmark, il dataset e il codice per supportare la ricerca scalabile nella manipolazione bimanuale robusta.
I modelli linguistici di grandi dimensioni con capacità di ragionamento hanno recentemente raggiunto prestazioni all'avanguardia in molti campi. Tuttavia, il loro ragionamento a catena di pensiero di lunga durata crea sfide di interpretabilità, poiché ogni token generato dipende da tutti quelli precedenti, rendendo più difficile scomporre il calcolo. Sosteniamo che analizzare le tracce di ragionamento a livello di frase sia un approccio promettente per comprendere i processi di ragionamento. Presentiamo tre metodi complementari di attribuzione: (1) un metodo black-box che misura l'importanza controfattuale di ciascuna frase confrontando le risposte finali in 100 esecuzioni condizionate alla generazione da parte del modello di quella frase o di una con significato diverso; (2) un metodo white-box che aggrega i pattern di attenzione tra coppie di frasi, identificando frasi di "broadcasting" che ricevono un'attenzione sproporzionata da tutte le frasi future tramite teste di attenzione "riceventi"; (3) un metodo di attribuzione causale che misura le connessioni logiche tra frasi sopprimendo l'attenzione verso una frase e misurando l'effetto sui token di ciascuna frase successiva. Ogni metodo fornisce prove dell'esistenza di ancore di pensiero, passaggi di ragionamento che hanno un'importanza sproporzionata e che influenzano in modo significativo il processo di ragionamento successivo. Queste ancore di pensiero sono tipicamente frasi di pianificazione o backtracking. Forniamo uno strumento open-source (www.thought-anchors.com) per visualizzare i risultati dei nostri metodi e presentiamo uno studio di caso che mostra pattern convergenti tra i metodi che mappano come un modello esegue un ragionamento a più passaggi. La coerenza tra i metodi dimostra il potenziale dell'analisi a livello di frase per una comprensione più profonda dei modelli di ragionamento.
I Large Language Model (LLM) eccellono nella generazione di codice, ma garantire che i loro output siano funzionalmente corretti, specialmente in compiti di programmazione complessi, rimane una sfida persistente. Sebbene lo sviluppo guidato dai test (Test-Driven Development, TDD) tradizionale offra un percorso per il perfezionamento del codice, la sua efficacia con gli LLM è spesso compromessa dalla scarsità di casi di test di alta qualità o dalle insidie della generazione automatica di test, inclusi test distorti o previsioni di output inaccurati che possono deviare il processo di correzione. Questo articolo introduce Property-Generated Solver, un nuovo framework che sfrutta il testing basato su proprietà (Property-Based Testing, PBT) per validare proprietà o invarianti di alto livello del programma, invece di affidarsi a specifici esempi di input-output. Queste proprietà sono spesso più semplici da definire e verificare rispetto alla previsione diretta di oracoli di test esaustivi, rompendo il "ciclo di autoinganno" in cui i test potrebbero condividere difetti con il codice che dovrebbero validare. Property-Generated Solver impiega due agenti basati su LLM che collaborano: un Generatore dedicato alla generazione di codice e al perfezionamento iterativo, e un Tester che gestisce il ciclo di vita del PBT e formula feedback semanticamente ricchi dalle violazioni delle proprietà. Il feedback completo e azionabile risultante guida quindi il Generatore nei suoi sforzi di perfezionamento. Stabilendo il PBT come motore di validazione centrale all'interno di questo paradigma iterativo a ciclo chiuso, Property-Generated Solver fornisce un meccanismo robusto per indirizzare gli LLM verso codice più corretto e generalizzabile. I risultati sperimentali estesi su molteplici benchmark di generazione di codice dimostrano che Property-Generated Solver raggiunge miglioramenti sostanziali in termini di pass@1, con guadagni relativi che vanno dal 23,1% al 37,3% rispetto ai metodi TDD consolidati.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno spostato l'attenzione verso il ridimensionamento del calcolo in fase di inferenza, migliorando le prestazioni senza dover riaddestrare il modello. Un approccio comune consiste nel campionare più output in parallelo e selezionarne uno come output finale. Tuttavia, il lavoro svolto finora si è concentrato sull'inglese e su un numero limitato di domini, come la matematica e il codice. Al contrario, siamo particolarmente interessati a tecniche che si generalizzano su compiti aperti, compiti formalmente verificabili e su più lingue. In questo lavoro, studiamo come ridimensionare in modo robusto il calcolo in fase di inferenza per compiti generativi aperti in un contesto multilingue e multi-task. I nostri risultati dimostrano che sia la strategia di campionamento basata sulla variazione della temperatura che la strategia di selezione devono essere adattate per tenere conto di domini diversi e di contesti linguistici variati. Valutiamo i metodi di selezione esistenti, rivelando che le strategie efficaci in inglese spesso non si generalizzano su altre lingue. Proponiamo nuove strategie di campionamento e selezione specificamente adattate per scenari di inferenza multilingue e multi-task, e dimostriamo che producono miglioramenti significativi su più lingue e compiti. In particolare, i nostri metodi combinati di campionamento e selezione portano a un aumento medio di +6,8 nei tassi di vittoria per i nostri modelli da 8B sui prompt di m-ArenaHard-v2.0, rispetto a modelli proprietari come Gemini. Su scala più ampia, Command-A (modello da 111B) equipaggiato con i nostri metodi, mostra un miglioramento di +9,0 nei tassi di vittoria sullo stesso benchmark con soli cinque campioni rispetto al decoding a singolo campione, un aumento sostanziale a costi minimi. I nostri risultati sottolineano la necessità di approcci consapevoli della lingua e del compito per il calcolo in fase di inferenza, con l'obiettivo di democratizzare i miglioramenti delle prestazioni nelle lingue sottorappresentate.
I Large Language Model (LLM) dimostrano notevoli capacità di generazione di codice, ma incontrano difficoltà nell'adattarsi agli aggiornamenti frequenti delle API di librerie esterne. Questa limitazione critica, derivante dalla dipendenza da conoscenze obsolete delle API presenti nei loro dati di addestramento, persino con accesso alla documentazione corrente, ostacola la generazione affidabile di codice in ambienti dinamici. Per affrontare questo problema, proponiamo ReCode (Reinforcement learning basato su regole per l'Aggiornamento del Codice), un framework innovativo che imita l'adattamento dei programmatori umani ai cambiamenti delle API. Nello specifico, costruiamo un dataset di circa 2.000 voci per addestrare i LLM a eseguire la migrazione di versione basata su informazioni aggiornate. Successivamente, introduciamo una metrica modificata di similarità delle stringhe per la valutazione del codice come ricompensa per l'apprendimento per rinforzo. I nostri esperimenti dimostrano che ReCode migliora significativamente le prestazioni di generazione del codice dei LLM in scenari di API dinamiche, in particolare nel task non visto CodeUpdateArena. In modo cruciale, rispetto al fine-tuning supervisionato, ReCode ha un impatto minore sulle capacità generali di generazione del codice dei LLM. Applichiamo ReCode su vari LLM e algoritmi di apprendimento per rinforzo (GRPO e DAPO), ottenendo miglioramenti consistenti in tutti i casi. Degno di nota, dopo l'addestramento, Qwen2.5-Coder-7B supera il modello di codice con 32B parametri ottimizzato per istruzioni e il modello di ragionamento con la stessa architettura. Il codice è disponibile all'indirizzo https://github.com/zjunlp/ReCode.
I grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie nella comprensione e generazione del linguaggio. Tuttavia, tale impressionante capacità è tipicamente associata a una dimensione sostanziale del modello, che presenta sfide significative nel deployment e nell'inferenza. Sebbene il pruning strutturato dei parametri del modello offra una promettente via per ridurre i costi computazionali al momento del deployment, i metodi attuali si concentrano principalmente sul pruning di singoli modelli. In questo lavoro, sviluppiamo una nuova strategia per comprimere i modelli combinando o fondendo strategicamente strati da varianti di modelli fine-tuned, preservando così le capacità del modello originale aggregando le competenze accentuate nei diversi fine-tune. Formuliamo l'ottimizzazione di questi LLM come un problema di ottimizzazione di ordine zero, adottando uno spazio di ricerca che supporta tre diverse operazioni: (1) Rimozione di strati, (2) Selezione di strati da diversi modelli candidati, e (3) Fusione di strati. I nostri esperimenti dimostrano che questo approccio porta a un pruning competitivo del modello; ad esempio, per le famiglie di modelli Llama2-13B, i nostri modelli compressi mantengono circa il 97,3% delle prestazioni originali rimuovendo circa il 25% dei parametri, superando significativamente i precedenti metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/Guinan-Su/auto-merge-llm.
I costi computazionali ed energetici dei Large Language Model (LLM) sono aumentati in modo esponenziale, spinti dalle dimensioni crescenti dei modelli e dalla massiccia adozione degli LLM da parte di centinaia di milioni di utenti. Il costo unitario di un LLM è il calcolo di un token. Pertanto, il tokenizer svolge un ruolo importante nell'efficienza di un modello, e viene ottimizzato con cura per minimizzare il numero di token per il testo nel corpus di addestramento. Una delle applicazioni più popolari degli LLM sono i chatbot che interagiscono con gli utenti. Un'osservazione chiave è che, per questi chatbot, ciò che conta è la performance del tokenizer nel testo di input dell'utente e nelle risposte del chatbot. Questi testi sono molto probabilmente diversi da quelli presenti nel corpus di addestramento. Quindi, sorge immediatamente una domanda: c'è un potenziale vantaggio nell'ottimizzare i tokenizer per le conversazioni dei chatbot? In questo articolo, questa idea viene esplorata per diversi tokenizer utilizzando un corpus pubblico di conversazioni chatbot per ridisegnare i loro vocabolari e valutarne le prestazioni in questo dominio. I risultati mostrano che i tokenizer ottimizzati per le conversazioni riducono costantemente il numero di token nei dialoghi dei chatbot, il che può portare a risparmi energetici significativi, nell'ordine del 5% al 10%, con un impatto minimo o addirittura leggermente positivo sull'efficienza della tokenizzazione per il corpus di addestramento originale.
L'accessibilità rimane una preoccupazione cruciale nella società odierna, poiché molte tecnologie non sono sviluppate per supportare l'intera gamma di esigenze degli utenti. I sistemi multi-agente (MAS) esistenti spesso non sono in grado di fornire un'assistenza completa agli utenti bisognosi a causa della mancanza di personalizzazione derivante da design a codice chiuso. Di conseguenza, le persone con disabilità incontrano frequentemente barriere significative quando tentano di interagire con ambienti digitali. Introduciamo MATE, un MAS multimodale per l'accessibilità, che esegue le conversioni di modalità in base alle esigenze dell'utente. Il sistema è utile per assistere le persone con disabilità garantendo che i dati vengano convertiti in un formato comprensibile. Ad esempio, se l'utente non vede bene e riceve un'immagine, il sistema converte questa immagine nella sua descrizione audio. MATE può essere applicato a una vasta gamma di domini, settori e aree, come l'assistenza sanitaria, e può diventare un utile assistente per vari gruppi di utenti. Il sistema supporta molteplici tipi di modelli, che vanno dalla chiamata API LLM all'utilizzo di classificatori di machine learning (ML) personalizzati. Questa flessibilità garantisce che il sistema possa essere adattato a varie esigenze ed è compatibile con un'ampia gamma di hardware. Poiché il sistema è progettato per funzionare localmente, garantisce la privacy e la sicurezza delle informazioni sensibili. Inoltre, il framework può essere efficacemente integrato con tecnologie istituzionali (ad esempio, servizi sanitari digitali) per un'assistenza in tempo reale agli utenti. Inoltre, introduciamo ModCon-Task-Identifier, un modello in grado di estrarre il compito preciso di conversione di modalità dall'input dell'utente. Numerosi esperimenti dimostrano che ModCon-Task-Identifier supera costantemente altri LLM e modelli statistici sui nostri dati personalizzati. Il nostro codice e i nostri dati sono pubblicamente disponibili all'indirizzo https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
La creazione di contenuti guidata dall'IA ha dimostrato potenziale nella produzione cinematografica. Tuttavia, i sistemi esistenti per la generazione di film faticano a implementare principi cinematografici e, di conseguenza, non riescono a produrre film di qualità professionale, mancando in particolare di un linguaggio visivo diversificato e di un ritmo cinematografico efficace. Ciò si traduce in immagini stereotipate e narrazioni poco coinvolgenti. Per affrontare questo problema, introduciamo FilMaster, un sistema AI end-to-end che integra principi cinematografici del mondo reale per la generazione di film di livello professionale, producendo output modificabili e conformi agli standard del settore. FilMaster si basa su due principi chiave: (1) l'apprendimento della cinematografia da un vasto insieme di dati cinematografici reali e (2) l'emulazione di flussi di lavoro di post-produzione professionali e centrati sul pubblico. Ispirato da questi principi, FilMaster incorpora due fasi: una Fase di Generazione Guidata da Riferimenti, che trasforma l'input dell'utente in clip video, e una Fase di Post-Produzione Generativa, che trasforma il materiale grezzo in output audiovisivi orchestrando elementi visivi e sonori per ottenere un ritmo cinematografico. La nostra fase di generazione si distingue per un modulo di Progettazione del Linguaggio Visivo Multi-inquadratura Sinergizzato RAG, che guida l'IA nella generazione di un linguaggio visivo professionale recuperando clip di riferimento da un vasto corpus di 440.000 clip cinematografiche. La nostra fase di post-produzione emula i flussi di lavoro professionali attraverso un modulo di Controllo del Ritmo Cinematografico Centrato sul Pubblico, che include processi di Rough Cut e Fine Cut informati da feedback simulati del pubblico, per un'integrazione efficace degli elementi audiovisivi e la creazione di contenuti coinvolgenti. Il sistema è potenziato da modelli generativi di IA come (M)LLM e modelli di generazione video. Inoltre, introduciamo FilmEval, un benchmark completo per la valutazione di film generati dall'IA. Esperimenti estensivi dimostrano la superiorità di FilMaster nella progettazione del linguaggio visivo e nel controllo del ritmo cinematografico, avanzando l'uso dell'IA generativa nella produzione cinematografica professionale.
Presentiamo Biomed-Enriched, un dataset di testi biomedici costruito da PubMed attraverso un processo di annotazione in due fasi. Nella prima fase, un modello linguistico di grandi dimensioni annota 400.000 paragrafi tratti da articoli scientifici di PubMed, assegnando punteggi per il loro tipo (revisione, studio, caso clinico, altro), dominio (clinico, biomedico, altro) e qualità educativa. Il punteggio di qualità educativa (valutato da 1 a 5) stima quanto un paragrafo sia utile per l'apprendimento a livello universitario. Queste annotazioni vengono poi utilizzate per affinare un modello linguistico di piccole dimensioni, che propaga le etichette sull'intero corpus PMC-OA. I metadati risultanti ci consentono di estrarre sottoinsiemi raffinati, inclusi 2 milioni di paragrafi di casi clinici con oltre 450.000 di alta qualità provenienti da articoli con licenze per uso commerciale, e di costruire diverse varianti attraverso filtraggio per qualità e sovracampionamento per dominio. I testi clinici sono tipicamente difficili da accedere a causa di vincoli di privacy, poiché i registri ospedalieri non possono essere condivisi pubblicamente. Pertanto, il nostro dataset fornisce una raccolta alternativa su larga scala e liberamente disponibile di casi clinici da PubMed, rendendolo una risorsa preziosa per l'NLP biomedico e clinico. Esperimenti preliminari di pre-addestramento continuo con OLMo2 suggeriscono che questi sottoinsiemi curati consentono miglioramenti mirati, con il sovracampionamento clinico che aumenta le prestazioni di circa il 5% su MMLU ProfMed e il filtraggio per qualità educativa che migliora MedQA e MedMCQA di circa l'1%. Combinazioni di queste tecniche hanno portato a una convergenza più rapida, raggiungendo le stesse prestazioni con un terzo dei token di addestramento, indicando un potenziale per strategie di pre-addestramento biomedico più efficienti ed efficaci.
L'efficacia del debug nell'IA segue un modello prevedibile di decadimento esponenziale; la maggior parte dei modelli perde il 60-80% della propria capacità di debug entro soli 2-3 tentativi, nonostante il debug iterativo sia una capacità critica per i sistemi pratici di generazione di codice. Introduciamo l'Indice di Decadimento del Debug (Debugging Decay Index, DDI), un framework matematico che quantifica quando il debug diventa inefficace e predice i punti di intervento. Il nostro approccio strategico di "ripartenza" passa dallo sfruttamento all'esplorazione in punti strategici del processo di debug, dimostrando che interventi tempestivi possono ripristinare l'efficacia del debug. Il DDI rivela una limitazione fondamentale nel debug attuale dell'IA e fornisce il primo framework quantitativo per ottimizzare le strategie iterative di generazione del codice.