Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Modello Linguistico Multimodale di Grande Scala (MLLM) sta attualmente vivendo una rapida crescita, trainata dalle capacità avanzate dei Modelli Linguistici di Grande Scala (LLM). A differenza dei precedenti specialisti, gli attuali MLLM si stanno evolvendo verso un paradigma di Generalista Multimodale. Inizialmente limitati alla comprensione di più modalità, questi modelli hanno progredito fino a non solo comprendere ma anche generare contenuti attraverso diverse modalità. Le loro capacità si sono ampliate da una comprensione multimodale a grana grossa a una a grana fine, e dal supporto di modalità limitate a modalità arbitrarie. Sebbene esistano molti benchmark per valutare gli MLLM, sorge una domanda cruciale: possiamo semplicemente assumere che una maggiore prestazione attraverso i compiti indichi una capacità più forte dell'MLLM, avvicinandoci all'intelligenza artificiale di livello umano? Sosteniamo che la risposta non sia così semplice come sembra. Questo progetto introduce General-Level, un framework di valutazione che definisce 5 livelli di scala per la prestazione e la generalità degli MLLM, offrendo una metodologia per confrontare gli MLLM e misurare il progresso dei sistemi esistenti verso generalisti multimodali più robusti e, in ultima analisi, verso l'AGI. Al centro del framework c'è il concetto di Sinergia, che misura se i modelli mantengono capacità consistenti attraverso la comprensione e la generazione, e attraverso più modalità. Per supportare questa valutazione, presentiamo General-Bench, che comprende uno spettro più ampio di abilità, modalità, formati e capacità, includendo oltre 700 compiti e 325.800 istanze. I risultati della valutazione che coinvolgono oltre 100 MLLM all'avanguardia rivelano le classifiche delle capacità dei generalisti, evidenziando le sfide nel raggiungere una vera intelligenza artificiale. Ci aspettiamo che questo progetto apra la strada a future ricerche sui modelli fondazionali multimodali di prossima generazione, fornendo un'infrastruttura robusta per accelerare la realizzazione dell'AGI. Pagina del progetto: https://generalist.top/
I modelli linguistici di grandi dimensioni (LLM) sono inclini a produrre allucinazioni, e la Generazione Aumentata dal Recupero (RAG) aiuta a mitigare questo problema, ma a un costo computazionale elevato e con il rischio di diffondere informazioni errate. Il recupero adattivo mira a recuperare informazioni solo quando necessario, ma gli approcci esistenti si basano sulla stima dell'incertezza tramite LLM, che rimane inefficiente e poco pratica. In questo studio, introduciamo metodi di recupero adattivo leggeri e indipendenti dagli LLM, basati su informazioni esterne. Abbiamo esaminato 27 caratteristiche, organizzate in 7 gruppi, e le loro combinazioni ibride. Abbiamo valutato questi metodi su 6 dataset di domande e risposte (QA), analizzando le prestazioni QA e l'efficienza. I risultati dimostrano che il nostro approccio eguaglia le prestazioni dei complessi metodi basati su LLM, ottenendo al contempo significativi miglioramenti in termini di efficienza, evidenziando il potenziale delle informazioni esterne per il recupero adattivo.
Negli ultimi anni si è assistito a progressi significativi sia nei modelli di comprensione multimodale che nei modelli di generazione di immagini. Nonostante i rispettivi successi, questi due domini si sono evoluti in modo indipendente, portando a paradigmi architetturali distinti: mentre le architetture basate su approcci autoregressivi hanno dominato la comprensione multimodale, i modelli basati su diffusion sono diventati il pilastro della generazione di immagini. Recentemente, è cresciuto l'interesse nello sviluppo di framework unificati che integrano queste attività. L'emergere delle nuove capacità di GPT-4o esemplifica questa tendenza, evidenziando il potenziale per l'unificazione. Tuttavia, le differenze architetturali tra i due domini pongono sfide significative. Per fornire una panoramica chiara degli sforzi attuali verso l'unificazione, presentiamo un'analisi completa mirata a guidare la ricerca futura. In primo luogo, introduciamo i concetti fondamentali e i recenti progressi nei modelli di comprensione multimodale e di generazione di immagini da testo. Successivamente, esaminiamo i modelli unificati esistenti, classificandoli in tre principali paradigmi architetturali: approcci basati su diffusion, approcci autoregressivi e approcci ibridi che fondono meccanismi autoregressivi e diffusion. Per ciascuna categoria, analizziamo i design strutturali e le innovazioni introdotte dai lavori correlati. Inoltre, raccogliamo dataset e benchmark specifici per modelli unificati, offrendo risorse per future esplorazioni. Infine, discutiamo le principali sfide che questo campo nascente deve affrontare, tra cui la strategia di tokenizzazione, l'attenzione cross-modale e i dati. Poiché quest'area è ancora nelle sue fasi iniziali, ci aspettiamo rapidi progressi e aggiorneremo regolarmente questa analisi. Il nostro obiettivo è ispirare ulteriori ricerche e fornire un riferimento prezioso per la comunità. I riferimenti associati a questa analisi sono disponibili su GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
La ricerca efficace di informazioni è essenziale per migliorare le capacità di ragionamento e generazione dei grandi modelli linguistici (LLM). Ricerche recenti hanno esplorato l'uso dell'apprendimento per rinforzo (RL) per potenziare le capacità di ricerca degli LLM interagendo con motori di ricerca reali in ambienti del mondo reale. Sebbene questi approcci mostrino risultati promettenti, affrontano due sfide principali: (1) Qualità incontrollata dei documenti: la qualità dei documenti restituiti dai motori di ricerca è spesso imprevedibile, introducendo rumore e instabilità nel processo di addestramento. (2) Costi API proibitivamente elevati: l'addestramento RL richiede frequenti rollout, potenzialmente coinvolgendo centinaia di migliaia di richieste di ricerca, che comportano spese API sostanziali e limitano gravemente la scalabilità. Per affrontare queste sfide, introduciamo ZeroSearch, un framework di apprendimento per rinforzo che incentiva le capacità di ricerca degli LLM senza interagire con motori di ricerca reali. Il nostro approccio inizia con un fine-tuning supervisionato leggero per trasformare l'LLM in un modulo di recupero in grado di generare documenti sia rilevanti che rumorosi in risposta a una query. Durante l'addestramento RL, utilizziamo una strategia di rollout basata su un curriculum che degrada gradualmente la qualità dei documenti generati, stimolando progressivamente la capacità di ragionamento del modello esponendolo a scenari di recupero sempre più impegnativi. Esperimenti estensivi dimostrano che ZeroSearch incentiva efficacemente le capacità di ricerca degli LLM utilizzando un LLM da 3B come modulo di recupero. Notevolmente, un modulo di recupero da 7B raggiunge prestazioni comparabili al motore di ricerca reale, mentre un modulo da 14B lo supera addirittura. Inoltre, generalizza bene sia sui modelli base che su quelli ottimizzati per istruzioni di varie dimensioni parametriche ed è compatibile con un'ampia gamma di algoritmi RL.
La generazione personalizzata di video mira a produrre video che presentano soggetti specifici in condizioni flessibili definite dall'utente, tuttavia i metodi esistenti spesso incontrano difficoltà nella coerenza dell'identità e nelle modalità di input limitate. In questo articolo, proponiamo HunyuanCustom, un framework di generazione personalizzata di video multi-modale che enfatizza la coerenza del soggetto supportando condizioni di immagine, audio, video e testo. Basato su HunyuanVideo, il nostro modello affronta prima il compito di generazione condizionata da immagine e testo introducendo un modulo di fusione testo-immagine basato su LLaVA per una migliore comprensione multi-modale, insieme a un modulo di potenziamento dell'ID immagine che sfrutta la concatenazione temporale per rafforzare le caratteristiche dell'identità tra i fotogrammi. Per abilitare la generazione condizionata da audio e video, proponiamo ulteriori meccanismi di iniezione di condizioni specifici per la modalità: un modulo AudioNet che raggiunge un allineamento gerarchico tramite l'attenzione incrociata spaziale, e un modulo di iniezione guidato da video che integra il video condizionato compresso in latente attraverso una rete di allineamento delle feature basata su patchify. Esperimenti estesi su scenari con uno e più soggetti dimostrano che HunyuanCustom supera significativamente i metodi open-source e closed-source più avanzati in termini di coerenza dell'ID, realismo e allineamento testo-video. Inoltre, ne validiamo la robustezza in vari compiti downstream, inclusa la generazione personalizzata di video guidata da audio e video. I nostri risultati evidenziano l'efficacia delle strategie di condizionamento multi-modale e di preservazione dell'identità nel far progredire la generazione controllata di video. Tutti i codici e i modelli sono disponibili all'indirizzo https://hunyuancustom.github.io.
L'astrazione delle primitive di forma, che scompone forme 3D complesse in elementi geometrici semplici, svolge un ruolo cruciale nella cognizione visiva umana e trova ampie applicazioni nella visione artificiale e nella grafica. Sebbene i recenti progressi nella generazione di contenuti 3D abbiano mostrato risultati notevoli, i metodi esistenti per l'astrazione delle primitive si basano su ottimizzazioni geometriche con una comprensione semantica limitata o apprendono da dataset di piccole dimensioni e specifici per categoria, trovando difficoltà a generalizzare attraverso diverse categorie di forme. Presentiamo PrimitiveAnything, un nuovo framework che riformula l'astrazione delle primitive di forma come un compito di generazione di assemblaggi di primitive. PrimitiveAnything include un trasformatore di primitive condizionato dalla forma per la generazione auto-regressiva e uno schema di parametrizzazione privo di ambiguità per rappresentare in modo unificato più tipi di primitive. Il framework proposto apprende direttamente il processo di assemblaggio delle primitive da astrazioni su larga scala create dall'uomo, consentendogli di catturare come gli esseri umani scompongono forme complesse in elementi primitivi. Attraverso esperimenti estensivi, dimostriamo che PrimitiveAnything può generare assemblaggi di primitive di alta qualità che si allineano meglio alla percezione umana, mantenendo al contempo la fedeltà geometrica attraverso diverse categorie di forme. Questo approccio beneficia varie applicazioni 3D e mostra potenziale per abilitare contenuti generati dagli utenti (UGC) basati su primitive nei giochi. Pagina del progetto: https://primitiveanything.github.io
Il CLIP di OpenAI, rilasciato all'inizio del 2021, è stato a lungo la scelta preferita come encoder visivo per la costruzione di modelli fondazionali multimodali. Sebbene alternative recenti come SigLIP abbiano iniziato a mettere in discussione questo status quo, a nostra conoscenza nessuna di esse è completamente aperta: i loro dati di addestramento rimangono proprietari e/o le loro ricette di addestramento non sono state rilasciate. Questo articolo colma questa lacuna con OpenVision, una famiglia di encoder visivi completamente aperti e convenienti che eguagliano o superano le prestazioni del CLIP di OpenAI quando integrati in framework multimodali come LLaVA. OpenVision si basa su lavori esistenti — ad esempio, CLIPS per il framework di addestramento e Recap-DataComp-1B per i dati di addestramento — mentre rivela molteplici intuizioni chiave nel migliorare la qualità degli encoder e dimostra i benefici pratici nel far progredire i modelli multimodali. Rilasciando encoder visivi che vanno da 5,9M a 632,1M di parametri, OpenVision offre ai professionisti un compromesso flessibile tra capacità ed efficienza nella costruzione di modelli multimodali: i modelli più grandi offrono prestazioni multimodali migliorate, mentre le versioni più piccole consentono implementazioni multimodali leggere e pronte per il edge computing.
Le strategie di miscelazione dei dati hanno ridotto con successo i costi associati all'addestramento di modelli linguistici. Sebbene promettenti, tali metodi presentano due difetti. In primo luogo, si basano su domini di dati predeterminati (ad esempio, fonti di dati, tipi di attività), che potrebbero non catturare sfumature semantiche critiche, lasciando potenziale prestazionale inespresso. In secondo luogo, questi metodi scalano con il numero di domini in modo computazionalmente proibitivo. Affrontiamo queste sfide tramite R&B, un framework che ripartiziona i dati di addestramento in base alla similarità semantica (Regroup) per creare domini più granulari e ottimizza in modo efficiente la composizione dei dati (Balance) sfruttando una matrice Gram indotta dai gradienti di dominio ottenuti durante l'addestramento. A differenza dei lavori precedenti, elimina la necessità di calcoli aggiuntivi per ottenere informazioni di valutazione come perdite o gradienti. Analizziamo questa tecnica in condizioni di regolarità standard e forniamo intuizioni teoriche che giustificano l'efficacia di R&B rispetto agli approcci di miscelazione non adattivi. Empiricamente, dimostriamo l'efficacia di R&B su cinque dataset diversificati, che spaziano dal linguaggio naturale a compiti di ragionamento e multimodali. Con un overhead computazionale aggiuntivo di appena lo 0,01%, R&B eguaglia o supera le prestazioni delle strategie di miscelazione dei dati all'avanguardia.
Indaghiamo la capacità dei Modelli Linguistico-Visivi (VLMs) di eseguire la presa di prospettiva visiva utilizzando una nuova serie di compiti visivi ispirati a test consolidati sugli esseri umani. Il nostro approccio sfrutta scene accuratamente controllate, in cui una singola minifigura umanoide è abbinata a un singolo oggetto. Variando sistematicamente le configurazioni spaziali - come la posizione dell'oggetto rispetto alla minifigura umanoide e l'orientamento della minifigura umanoide - e utilizzando sia viste dall'alto che a livello della superficie, abbiamo creato 144 compiti visivi unici. Ogni compito visivo è associato a una serie di 7 domande diagnostiche progettate per valutare tre livelli di cognizione visiva: comprensione della scena, ragionamento spaziale e presa di prospettiva visiva. La nostra valutazione di diversi modelli all'avanguardia, tra cui GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct e varianti di Claude Sonnet, rivela che mentre eccellono nella comprensione della scena, le prestazioni diminuiscono significativamente nel ragionamento spaziale e si deteriorano ulteriormente nella presa di prospettiva. La nostra analisi suggerisce un divario tra il riconoscimento superficiale degli oggetti e il ragionamento spaziale e prospettico più profondo richiesto per compiti visivi complessi, indicando la necessità di integrare rappresentazioni geometriche esplicite e protocolli di formazione mirati nello sviluppo futuro dei VLMs.
I Large Language Model (LLM) dimostrano potenziale nel ragionamento complesso, ma la loro capacità di coordinamento emergente nei Sistemi Multi-Agente (MAS) quando operano sotto vincoli rigorosi—come la percezione e la comunicazione locale limitata, caratteristica degli sciami naturali—rimane in gran parte inesplorata, in particolare per quanto riguarda le sfumature dell'intelligenza di sciame. Gli attuali benchmark spesso non catturano appieno le sfide uniche del coordinamento decentralizzato che emergono quando gli agenti operano con informazioni spazio-temporali incomplete. Per colmare questa lacuna, introduciamo SwarmBench, un nuovo benchmark progettato per valutare sistematicamente le capacità di intelligenza di sciame degli LLM che agiscono come agenti decentralizzati. SwarmBench include cinque compiti fondamentali di coordinamento MAS all'interno di un ambiente configurabile a griglia 2D, costringendo gli agenti a fare affidamento principalmente su input sensoriali locali (vista k x k) e comunicazione locale. Proponiamo metriche per l'efficacia del coordinamento e analizziamo le dinamiche di gruppo emergenti. Valutando diversi LLM leader in uno scenario zero-shot, osserviamo significative variazioni di prestazione tra i compiti, evidenziando le difficoltà poste dai vincoli di informazione locale. Sebbene emerga un certo coordinamento, i risultati indicano limitazioni nella pianificazione robusta e nella formazione di strategie in condizioni di incertezza in questi scenari decentralizzati. Valutare gli LLM in condizioni simili a quelle di uno sciame è cruciale per realizzare il loro potenziale nei futuri sistemi decentralizzati. Rilasciamo SwarmBench come toolkit aperto ed estensibile—basato su un sistema fisico personalizzabile e scalabile con proprietà meccaniche definite—che fornisce ambienti, prompt, script di valutazione e i dataset sperimentali completi generati, con l'obiettivo di promuovere ricerche riproducibili sul coordinamento MAS basato su LLM e sui fondamenti teorici dei MAS incarnati. Il nostro repository di codice è disponibile all'indirizzo https://github.com/x66ccff/swarmbench.
Come compito apparentemente autoesplicativo, il problem-solving è stato una componente significativa della scienza e dell'ingegneria. Tuttavia, manca una formulazione generale ma concreta del problem-solving stesso. Con il recente sviluppo di agenti di problem-solving basati sull'IA, la richiesta di verificabilità a livello di processo sta crescendo rapidamente, ma rimane ancora poco esplorata. Per colmare queste lacune, presentiamo una formulazione rigorosa del problem-solving come processo decisionale di Markov deterministico; un nuovo framework, FPS (Formal Problem-Solving), che utilizza ambienti esistenti di FTP (formal theorem proving) per eseguire problem-solving verificato a livello di processo; e D-FPS (Deductive FPS), che separa la risoluzione dalla verifica delle risposte per una migliore allineamento con l'umano. L'espressività, la correttezza e la completezza dei framework sono dimostrate. Costruiamo tre benchmark sul problem-solving: FormalMath500, una formalizzazione di un sottoinsieme del benchmark MATH500; MiniF2F-Solving e PutnamBench-Solving, adattamenti dei benchmark FTP MiniF2F e PutnamBench. Per una valutazione fedele, interpretabile e allineata con l'umano, proponiamo RPE (Restricted Propositional Equivalence), un approccio simbolico per determinare la correttezza delle risposte mediante verifica formale. Valutiamo quattro modelli FTP prevalenti e due metodi di prompting come baseline, risolvendo al massimo il 23,77% di FormalMath500, il 27,47% di MiniF2F-Solving e lo 0,31% di PutnamBench-Solving.
Il compito di risoluzione delle issue su GitHub mira a risolvere automaticamente i problemi segnalati nei repository. Con i progressi nei grandi modelli linguistici (LLM), questo compito ha attirato un'attenzione crescente e sono stati proposti diversi benchmark per valutare la capacità di risoluzione delle issue degli LLM. Tuttavia, i benchmark esistenti presentano tre principali limitazioni. In primo luogo, i benchmark attuali si concentrano su un singolo linguaggio di programmazione, limitando la valutazione delle issue provenienti da repository di diversi linguaggi. In secondo luogo, coprono solitamente un ristretto range di domini, il che potrebbe non rappresentare la diversità delle issue del mondo reale. In terzo luogo, i benchmark esistenti si basano esclusivamente sulle informazioni testuali nelle descrizioni delle issue, trascurando le informazioni multimodali come le immagini presenti nelle issue. In questo articolo, proponiamo OmniGIRL, un benchmark per la risoluzione delle issue su GitHub che è multilingue, multimodale e multi-dominio. OmniGIRL include 959 istanze di task, raccolte da repository di quattro linguaggi di programmazione (ovvero Python, JavaScript, TypeScript e Java) e otto diversi domini. La nostra valutazione mostra che gli attuali LLM presentano prestazioni limitate su OmniGIRL. In particolare, il modello con le migliori prestazioni, GPT-4o, risolve solo l'8,6% delle issue. Inoltre, scopriamo che gli attuali LLM faticano a risolvere le issue che richiedono la comprensione delle immagini. La migliore prestazione è ottenuta da Claude-3.5-Sonnet, che risolve solo il 10,5% delle issue con informazioni visive. Infine, analizziamo le ragioni dietro il fallimento degli attuali LLM su OmniGIRL, fornendo spunti per futuri miglioramenti.
La risoluzione di problemi è stata un motore fondamentale del progresso umano in numerosi ambiti. Con i progressi nell'intelligenza artificiale, i Large Language Models (LLM) sono emersi come strumenti potenti in grado di affrontare problemi complessi in diversi domini. A differenza dei sistemi computazionali tradizionali, gli LLM combinano la potenza di calcolo grezza con un'approssimazione del ragionamento umano, consentendo loro di generare soluzioni, fare inferenze e persino sfruttare strumenti computazionali esterni. Tuttavia, l'applicazione degli LLM alla risoluzione di problemi nel mondo reale presenta sfide significative, tra cui il ragionamento a più passaggi, l'integrazione delle conoscenze di dominio e la verifica dei risultati. Questa rassegna esplora le capacità e i limiti degli LLM nella risoluzione di problemi complessi, esaminando tecniche come il ragionamento a catena di pensiero (Chain-of-Thought, CoT), l'ampliamento delle conoscenze e varie tecniche di verifica basate su LLM e su strumenti esterni. Inoltre, evidenziamo le sfide specifiche di dominio in vari ambiti, come l'ingegneria del software, il ragionamento e la dimostrazione matematica, l'analisi e la modellazione dei dati, e la ricerca scientifica. Il documento discute ulteriormente le limitazioni fondamentali delle attuali soluzioni basate su LLM e le direzioni future della risoluzione di problemi complessi basata su LLM, dal punto di vista del ragionamento a più passaggi, dell'integrazione delle conoscenze di dominio e della verifica dei risultati.
Le architetture VLA (Vision-Language-Action) a doppio sistema sono diventate un argomento di grande interesse nella ricerca sull'intelligenza incarnata, ma manca un lavoro open-source sufficiente per ulteriori analisi delle prestazioni e ottimizzazioni. Per affrontare questo problema, questo articolo riassumerà e confronterà i progetti strutturali delle architetture a doppio sistema esistenti e condurrà valutazioni empiriche sistematiche sugli elementi di progettazione chiave di queste architetture. Alla fine, fornirà un modello open-source a basso costo per ulteriori esplorazioni. Naturalmente, questo progetto continuerà ad aggiornarsi con ulteriori conclusioni sperimentali e modelli open-source con prestazioni migliorate, disponibili per tutti. Pagina del progetto: https://openhelix-robot.github.io/.
In questo articolo, presentiamo OSUniverse: un benchmark di compiti complessi e multimodali orientati al desktop per agenti AI avanzati di navigazione GUI, che si concentra su facilità d'uso, estensibilità, copertura completa dei casi di test e validazione automatizzata. Suddividiamo i compiti in livelli di complessità crescente, dal clic di precisione di base a test multi-step e multi-applicazione che richiedono destrezza, precisione e pensiero chiaro da parte dell'agente. Nella versione uno del benchmark, presentata qui, abbiamo calibrato la complessità dei casi di test per garantire che gli agenti SOTA (State of the Art) al momento della pubblicazione non ottengano risultati superiori al 50%, mentre un lavoratore medio da ufficio può eseguire tutti questi compiti con precisione perfetta. Il benchmark può essere valutato manualmente, ma introduciamo anche un meccanismo di validazione automatizzato con un tasso di errore medio inferiore al 2%. Pertanto, questo benchmark rappresenta una solida base per la misurazione completamente automatizzata dei progressi, delle capacità e dell'efficacia degli agenti AI di navigazione GUI nel breve e medio termine. Il codice sorgente del benchmark è disponibile all'indirizzo https://github.com/agentsea/osuniverse.
Gli agenti vengono prevalentemente valutati e ottimizzati attraverso metriche di successo del compito, che sono grossolane, si basano su un design manuale da parte di esperti e non premiano comportamenti emergenti intermedi. Proponiamo AutoLibra, un framework per la valutazione degli agenti, che trasforma feedback aperti da parte degli esseri umani, ad esempio "Se trovi che il pulsante è disabilitato, non cliccarlo di nuovo", o "Questo agente ha troppa autonomia nel decidere cosa fare da solo", in metriche per valutare comportamenti dettagliati nelle traiettorie degli agenti. AutoLibra raggiunge questo obiettivo ancorando il feedback al comportamento dell'agente, raggruppando comportamenti positivi e negativi simili e creando metriche concrete con definizioni chiare ed esempi specifici, che possono essere utilizzate per istruire un LLM-as-a-Judge come valutatore. Proponiamo inoltre due meta-metriche per valutare l'allineamento di un insieme di metriche (indotte) con il feedback aperto: "copertura" e "ridondanza". Ottimizzando queste meta-metriche, dimostriamo sperimentalmente la capacità di AutoLibra di indurre metriche di valutazione degli agenti più concrete rispetto a quelle proposte nei precedenti benchmark di valutazione degli agenti e di scoprire nuove metriche per analizzare gli agenti. Presentiamo anche due applicazioni di AutoLibra nel miglioramento degli agenti: in primo luogo, mostriamo che le metriche indotte da AutoLibra servono come obiettivi di prompt-engineering migliori rispetto al tasso di successo del compito in un'ampia gamma di task di giochi testuali, migliorando le prestazioni degli agenti rispetto al baseline di una media del 20%. In secondo luogo, dimostriamo che AutoLibra può selezionare iterativamente dati di fine-tuning di alta qualità per agenti di navigazione web. I nostri risultati suggeriscono che AutoLibra è uno strumento potente e indipendente dal compito per valutare e migliorare gli agenti linguistici.
La maggior parte dei rilevatori di anomalie video esistenti si basano esclusivamente su frame RGB, che mancano della risoluzione temporale necessaria per catturare segnali di movimento bruschi o transitori, indicatori chiave di eventi anomali. Per affrontare questa limitazione, proponiamo Image-Event Fusion for Video Anomaly Detection (IEF-VAD), un framework che sintetizza rappresentazioni di eventi direttamente da video RGB e le fonde con caratteristiche delle immagini attraverso un processo rigoroso e consapevole dell'incertezza. Il sistema (i) modella il rumore del sensore a coda pesante con una verosimiglianza di Student, derivando pesi inversi della varianza a livello di valore tramite un'approssimazione di Laplace; (ii) applica aggiornamenti frame-wise in stile Kalman per bilanciare le modalità nel tempo; e (iii) perfeziona iterativamente lo stato latente fuso per eliminare il rumore residuo cross-modale. Senza alcun sensore di eventi dedicato o etichette a livello di frame, IEF-VAD stabilisce un nuovo stato dell'arte su più benchmark di rilevamento anomalie del mondo reale. Questi risultati evidenziano l'utilità delle rappresentazioni sintetiche di eventi nell'evidenziare segnali di movimento che sono spesso sottorappresentati nei frame RGB, consentendo una comprensione video accurata e robusta in diverse applicazioni senza richiedere sensori di eventi dedicati. Codice e modelli sono disponibili su https://github.com/EavnJeong/IEF-VAD.
I grandi modelli linguistici (LLM) raggiungono prestazioni notevoli in numerosi compiti utilizzando una vasta gamma di strategie di adattamento. Tuttavia, selezionare in modo ottimale un modello e una strategia di adattamento in presenza di vincoli di risorse è complesso e spesso richiede un'estesa sperimentazione. Indaghiamo se sia possibile prevedere con precisione sia le prestazioni che i costi senza ricorrere a costosi esperimenti. Formalizziamo il problema della selezione delle strategie per i LLM e introduciamo COSMOS, un framework di previsione unificato che stima in modo efficiente i risultati dell'adattamento a costi minimi. Istanziamo e studiamo le capacità del nostro framework attraverso una coppia di potenti predittori: modelli proxy leggeri arricchiti con embedding per prevedere le prestazioni del fine-tuning, e leggi di scalabilità a basso campione per prevedere l'apprendimento in-context potenziato dal recupero di informazioni. Una valutazione estesa su otto benchmark rappresentativi dimostra che COSMOS raggiunge un'elevata accuratezza di previsione riducendo i costi computazionali del 92,72% in media, e fino al 98,71% in scenari ad alto consumo di risorse. I nostri risultati mostrano che la previsione efficiente dei risultati dell'adattamento non solo è fattibile, ma può ridurre sostanzialmente il sovraccarico computazionale del dispiegamento dei LLM mantenendo gli standard di prestazione.
L'apprendimento semi-supervisionato è diventato un approccio convincente per la segmentazione 3D dei denti da scansioni CBCT, dove i dati etichettati sono scarsi. Tuttavia, i metodi esistenti affrontano ancora due sfide persistenti: una supervisione correttiva limitata nelle regioni strutturalmente ambigue o erroneamente etichettate durante l'addestramento supervisionato e il degrado delle prestazioni causato da pseudo-etichette inaffidabili sui dati non etichettati. Per affrontare questi problemi, proponiamo il Region-Aware Instructive Learning (RAIL), un framework semi-supervisionato a doppio gruppo e doppio studente. Ogni gruppo contiene due modelli studente guidati da una rete insegnante condivisa. Alternando l'addestramento tra i due gruppi, RAIL promuove il trasferimento di conoscenza intergruppo e un'istruzione collaborativa basata sulla regione, riducendo al contempo l'overfitting alle caratteristiche di un singolo modello. Nello specifico, RAIL introduce due meccanismi istruttivi. Il Disagreement-Focused Supervision (DFS) Controller migliora l'apprendimento supervisionato istruendo le previsioni solo nelle aree in cui le uscite degli studenti divergono sia dalla verità di base che dal miglior studente, concentrando così la supervisione sulle aree strutturalmente ambigue o erroneamente etichettate. Nella fase non supervisionata, il Confidence-Aware Learning (CAL) Modulator rafforza l'accordo nelle regioni con elevata certezza del modello, riducendo l'effetto delle previsioni a bassa confidenza durante l'addestramento. Questo aiuta a prevenire l'apprendimento di pattern instabili e migliora l'affidabilità complessiva delle pseudo-etichette. Esperimenti estesi su quattro dataset di segmentazione dentale CBCT dimostrano che RAIL supera i metodi all'avanguardia in condizioni di annotazione limitata. Il nostro codice sarà disponibile all'indirizzo https://github.com/Tournesol-Saturday/RAIL.
La creazione di conoscenza scientifica si sta trasformando radicalmente man mano che gli esseri umani e i sistemi di IA evolvono oltre le relazioni strumento-utente verso partnership epistemiche co-evolutive. Quando AlphaFold ha rivoluzionato la previsione delle strutture proteiche, i ricercatori hanno descritto un coinvolgimento con un partner epistemico che ha ridefinito il modo in cui concettualizzavano le relazioni fondamentali. Questo articolo introduce Cognitio Emergens (CE), un framework che affronta le limitazioni critiche dei modelli esistenti, i quali si concentrano su ruoli statici o metriche ristrette senza cogliere come la comprensione scientifica emerga attraverso l'interazione ricorsiva tra umani e IA nel tempo. CE integra tre componenti che affrontano queste limitazioni: Configurazioni di Agenzia, che descrivono come l'autorità si distribuisce tra umani e IA (Diretta, Contributiva, Partnership), con le partnership che oscillano dinamicamente tra configurazioni anziché seguire una progressione lineare; Dimensioni Epistemiche, che catturano sei specifiche capacità emergenti attraverso la collaborazione lungo gli assi di Scoperta, Integrazione e Proiezione, creando "firme di capacità" distintive che guidano lo sviluppo; e Dinamiche di Partnership, che identificano le forze che modellano l'evoluzione di queste relazioni, in particolare il rischio di alienazione epistemica in cui i ricercatori perdono il controllo interpretativo sulla conoscenza che formalmente approvano. Attingendo dalla teoria dell'autopoiesi, dalla teoria dei sistemi sociali e dalla modularità organizzativa, CE rivela come la co-creazione di conoscenza emerga attraverso una negoziazione continua di ruoli, valori e strutture organizzative. Riconcettualizzando la collaborazione scientifica umano-IA come fondamentalmente co-evolutiva, CE offre una prospettiva equilibrata che non celebra acriticamente né teme inutilmente il ruolo evolutivo dell'IA, fornendo invece strumenti concettuali per coltivare partnership che mantengano una partecipazione umana significativa mentre abilitano trasformative scoperte scientifiche.