Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli generativi video all'avanguardia apprendono tipicamente la distribuzione dei latenti video nello spazio VAE e li mappano ai pixel utilizzando un decodificatore VAE. Sebbene questo approccio possa generare video di alta qualità, soffre di una lenta convergenza ed è computazionalmente costoso nella generazione di video lunghi. In questo articolo, introduciamo SemanticGen, una soluzione innovativa per affrontare queste limitazioni generando video nello spazio semantico. La nostra intuizione principale è che, a causa della ridondanza intrinseca dei video, il processo di generazione dovrebbe iniziare in uno spazio semantico compatto di alto livello per la pianificazione globale, seguito dall'aggiunta di dettagli ad alta frequenza, piuttosto che modellare direttamente un vasto insieme di token video di basso livello utilizzando l'attenzione bidirezionale. SemanticGen adotta un processo di generazione a due stadi. Nella prima fase, un modello di diffusione genera caratteristiche video semantiche compatte, che definiscono il layout globale del video. Nella seconda fase, un altro modello di diffusione genera i latenti VAE condizionati da queste caratteristiche semantiche per produrre l'output finale. Osserviamo che la generazione nello spazio semantico porta a una convergenza più rapida rispetto allo spazio latente VAE. Il nostro metodo è anche efficace e computazionalmente efficiente quando esteso alla generazione di video lunghi. Esperimenti estesi dimostrano che SemanticGen produce video di alta qualità e supera gli approcci all'avanguardia e baseline solide.
Gli approcci esistenti di apprendimento per rinforzo (RL) trattano i grandi modelli linguistici (LLM) come un'unica politica unificata, trascurando i loro meccanismi interni. Comprendere come la politica si evolve attraverso i layer e i moduli è quindi cruciale per abilitare un'ottimizzazione più mirata e per svelare i complessi meccanismi di ragionamento. In questo articolo, scomponiamo la politica del modello linguistico sfruttando la suddivisione intrinseca del flusso residuo del Transformer e l'equivalenza tra la composizione degli stati nascosti con la matrice di "unembedding" e la politica campionabile risultante. Questa scomposizione rivela Politiche di Layer Interni, corrispondenti ai contributi dei singoli layer, e Politiche Modulari Interne, che si allineano con i componenti di self-attention e delle reti feed-forward (FFN) all'interno di ogni layer. Analizzando l'entropia della politica interna, scopriamo che: (a) I layer iniziali mantengono un'alta entropia per l'esplorazione, mentre i layer finali convergono verso un'entropia quasi zero per l'affinamento, con pattern di convergenza che variano tra le diverse serie di modelli. (b) Lo spazio di predizione di LLama converge rapidamente nel layer finale, mentre i modelli della serie Qwen, in particolare Qwen3, mostrano un pattern di ragionamento progressivamente strutturato, più simile a quello umano. Stimolati da questi risultati, proponiamo l'Ottimizzazione Bottom-up della Politica (BuPO), un nuovo paradigma di RL che ottimizza direttamente la politica interna dei layer durante le fasi iniziali dell'addestramento. Allineando l'obiettivo di addestramento ai layer inferiori, la BuPO ricostruisce le capacità di ragionamento fondamentali e ottiene prestazioni superiori. Esperimenti estesi su benchmark di ragionamento complesso dimostrano l'efficacia del nostro metodo. Il nostro codice è disponibile all'indirizzo https://github.com/Trae1ounG/BuPO.
I recenti progressi nei modelli linguistici multimodali e nei sistemi che utilizzano strumenti per la risposta a domande su video lunghi indicano il potenziale del ragionamento su episodi della durata di ore. Tuttavia, molti metodi comprimono ancora i contenuti in riassunti con perdita di informazioni o si affidano a set di strumenti limitati, indebolendo il grounding temporale e tralasciando indizi granulari. Proponiamo un framework multi-agente in cui un LLM maestro coordina un agente di grounding per localizzare i segmenti rilevanti per la domanda e un agente visivo per estrarre osservazioni testuali mirate. L'agente maestro pianifica con un limite di passi e viene addestrato con apprendimento per rinforzo per favorire una cooperazione multi-agente concisa, corretta ed efficiente. Questo design aiuta l'agente maestro a concentrarsi sui clip rilevanti tramite il grounding, integra i sottotitoli con dettagli visivi e produce traiettorie interpretabili. Sui nostri dataset LongTVQA e LongTVQA+, aggregati a livello di episodio da TVQA/TVQA+, il nostro sistema multi-agente supera significativamente solidi baseline non agent-based. Gli esperimenti mostrano inoltre che l'apprendimento per rinforzo potenzia ulteriormente il ragionamento e la pianificazione per l'agente addestrato. Codice e dati saranno condivisi su https://longvideoagent.github.io/.
La scienza cognitiva suggerisce che l'abilità spaziale si sviluppa progressivamente - dalla percezione al ragionamento e all'interazione. Tuttavia, nei modelli linguistici multimodali (MLLM), questa gerarchia rimane poco compresa, poiché la maggior parte degli studi si concentra su un insieme ristretto di compiti. Introduciamo SpatialTree, una gerarchia ispirata alla scienza cognitiva che organizza le abilità spaziali in quattro livelli: percezione di basso livello (L1), mappatura mentale (L2), simulazione (L3) e competenza agentica (L4). Basandoci su questa tassonomia, costruiamo il primo benchmark gerarchico centrato sulle capacità, valutando approfonditamente i principali MLLM attraverso 27 sotto-abilità. I risultati della valutazione rivelano una struttura chiara: le abilità L1 sono largamente ortogonali, mentre quelle di livello superiore sono fortemente correlate, indicando una crescente interdipendenza. Attraverso un fine-tuning supervisionato mirato, scopriamo una dinamica di transfer sorprendente: transfer negativo all'interno di L1, ma un forte transfer cross-level dalle abilità di basso livello a quelle di alto livello con una notevole sinergia. Infine, esploriamo come migliorare l'intera gerarchia. Scopriamo che il RL ingenuo che incoraggia un "pensiero" estensivo è inaffidabile: aiuta il ragionamento complesso ma danneggia la percezione intuitiva. Proponiamo una semplice strategia di auto-pensiero che sopprime le deliberazioni non necessarie, consentendo al RL di migliorare costantemente le prestazioni a tutti i livelli. Costruendo SpatialTree, forniamo un framework proof-of-concept per comprendere e scalare sistematicamente le abilità spaziali negli MLLM.
I sistemi di memoria auto-evolutivi stanno rimodellando in modo senza precedenti il paradigma evolutivo degli agenti basati su Large Language Model (LLM). I lavori precedenti si sono prevalentemente basati su architetture di memoria progettate manualmente per memorizzare traiettorie, distillare esperienze e sintetizzare strumenti riutilizzabili, consentendo agli agenti di evolversi al volo durante le interazioni con l'ambiente. Tuttavia, questo paradigma è fondamentalmente limitato dalla staticità del sistema di memoria stesso: sebbene la memoria faciliti l'evoluzione a livello di agente, l'architettura di memoria sottostante non può essere meta-adattata a contesti di task diversi. Per colmare questa lacuna, proponiamo MemEvolve, un framework meta-evolutivo che evolve congiuntamente la conoscenza esperienziale degli agenti e la loro architettura di memoria, consentendo ai sistemi agente non solo di accumulare esperienza ma anche di affinare progressivamente il modo in cui apprendono da essa. Per ancorare MemEvolve alla ricerca precedente e promuovere l'apertura nei futuri sistemi auto-evolutivi, introduciamo EvolveLab, un codebase unificato per la memoria auto-evolutiva che condensa dodici sistemi di memoria rappresentativi in uno spazio di progettazione modulare (codifica, memorizzazione, recupero, gestione), fornendo sia un substrato di implementazione standardizzato che un'arena sperimentale equa. Valutazioni estensive su quattro benchmark agentici complessi dimostrano che MemEvolve raggiunge (I) miglioramenti prestazionali sostanziali, potenziando framework come SmolAgent e Flash-Searcher fino al 17,06%; e (II) una forte generalizzazione cross-task e cross-LLM, progettando architetture di memoria che si trasferiscono efficacemente attraverso benchmark e modelli backbone diversi.
Gli agenti basati su Large Language Model (LLM) hanno dimostrato capacità notevoli nel ragionamento complesso e nelle interazioni multi-turno, ma faticano a migliorare e adattarsi continuamente quando vengono implementati in nuovi ambienti. Un approccio promettente è l'implementazione di librerie di abilità che consentono agli agenti di apprendere, validare e applicare nuove competenze. Tuttavia, gli attuali approcci alle librerie di abilità si basano principalmente sul prompting degli LLM, rendendo difficile un'implementazione coerente della libreria di abilità. Per superare queste sfide, proponiamo un approccio basato sul Reinforcement Learning (RL) per potenziare le capacità di auto-miglioramento degli agenti con una libreria di abilità. Nello specifico, introduciamo Skill Augmented GRPO for self-Evolution (SAGE), un nuovo framework RL che incorpora sistematicamente le abilità nell'apprendimento. Il componente chiave del framework, il Sequential Rollout, distribuisce iterativamente gli agenti attraverso una catena di task simili per ogni rollout. Man mano che gli agenti si muovono attraverso la catena di task, le abilità generate dai task precedenti si accumulano nella libreria e diventano disponibili per i task successivi. Inoltre, il framework migliora la generazione e l'utilizzo delle abilità attraverso una Ricompensa Integrata con le Abilità che complementa le ricompense originali basate sul risultato. I risultati sperimentali su AppWorld dimostrano che SAGE, applicato a un modello supervisionato fine-tunato con esperienza esperta, raggiunge un Completion dello Scenario Goal superiore dell'8,9%, richiedendo il 26% in meno di passi di interazione e generando il 59% in meno di token, superando sostanzialmente gli approcci esistenti sia in accuratezza che in efficienza.
Man mano che i LLM evolvono verso agenti autonomi, la Ricerca Approfondita (Deep Research) è emersa come una metrica fondamentale. Tuttavia, i benchmark accademici esistenti come BrowseComp spesso non soddisfano le richieste del mondo reale per la ricerca open-ended, che richiede solide competenze nel riconoscimento dell'intento, nella pianificazione a lungo termine e nella verifica incrociata tra fonti. Per affrontare questa lacuna, introduciamo Step-DeepResearch, un agente end-to-end economicamente efficiente. Proponiamo una Strategia di Sintesi dei Dati Basata su Capacità Atomiche per rafforzare la pianificazione e la stesura di report, combinata con un percorso di addestramento progressivo che va dal mid-training agentico alla SFT e alla RL. Potenziato da un Giudice in stile Checklist, questo approccio migliora significativamente la robustezza. Inoltre, per colmare il divario valutativo nel dominio cinese, istituiamo ADR-Bench per scenari realistici di ricerca approfondita. I risultati sperimentali mostrano che Step-DeepResearch (32B) ottiene un punteggio del 61.4% sulle Scale AI Research Rubrics. Su ADR-Bench, supera significativamente modelli comparabili e rivaleggia con modelli SOTA closed-source come OpenAI e Gemini DeepResearch. Questi risultati dimostrano che un addestramento raffinato consente a modelli di medie dimensioni di raggiungere capacità di livello esperto con un'efficienza di costo all'avanguardia nel settore.
La separazione generale delle sorgenti audio è una capacità fondamentale per i sistemi di intelligenza artificiale multimodale in grado di percepire e ragionare sui suoni. Nonostante i progressi sostanziali degli ultimi anni, i modelli di separazione esistenti sono specifici per dominio, progettati per categorie fisse come la voce o la musica, oppure limitati nella controllabilità, supportando solo una singola modalità di prompt come il testo. In questo lavoro, presentiamo SAM Audio, un modello fondazionale per la separazione audio generale che unifica il prompt testuale, visivo e di intervallo temporale all'interno di un unico framework. Basato su un'architettura di tipo diffusion transformer, SAM Audio è addestrato con il flow matching su vasti dataset audio che comprendono parlato, musica e suoni generici, ed è in grado di separare flessibilmente le sorgenti target descritte tramite linguaggio, maschere visive o intervalli temporali. Il modello raggiunge prestazioni allo stato dell'arte su un'ampia serie di benchmark, inclusa la separazione di suoni generici, parlato, musica e strumenti musicali sia in audio reali che prodotti professionalmente, superando significativamente i sistemi specializzati e a scopo generale precedenti. Inoltre, introduciamo un nuovo benchmark per la separazione nel mondo reale con prompt multimodali etichettati manualmente e un modello di valutazione reference-free che mostra una forte correlazione con il giudizio umano.
Presentiamo INTELLECT-3, un modello Mixture-of-Experts da 106B di parametri (12B attivi) addestrato con tecniche di apprendimento per rinforzo su larga scala sulla nostra infrastruttura end-to-end dedicata all'RL. INTELLECT-3 raggiunge prestazioni allo stato dell'arte per le sue dimensioni su benchmark di matematica, codice, scienza e ragionamento, superando molti modelli all'avanguardia più grandi. Rendiamo open-source il modello insieme all'intero stack infrastrutturale utilizzato per crearlo, inclusi i framework RL, la ricetta completa e un'ampia raccolta di ambienti, sviluppati con la libreria dei verificatori, per l'addestramento e la valutazione dalla nostra piattaforma comunitaria Environments Hub. Creato per questo progetto, introduciamo prime-rl, un framework open per l'apprendimento per rinforzo asincrono su larga scala, che scala in modo fluido da un singolo nodo a migliaia di GPU ed è ottimizzato per RL agentico con supporto di prima classe per interazioni multi-turno e utilizzo di strumenti. Utilizzando questo stack, abbiamo eseguito sia l'addestramento SFT che RL partendo dal modello GLM-4.5-Air-Base, scalando l'addestramento RL fino a 512 GPU H200 con un'elevata efficienza.
I modelli linguistici di codice (Code LLM) sono potenti ma costosi da addestrare, con le leggi di scalabilità che ne predicono le prestazioni in base alle dimensioni del modello, ai dati e alla potenza di calcolo. Tuttavia, i diversi linguaggi di programmazione (PL) hanno impatti variabili durante il pre-addestramento che influiscono significativamente sulle prestazioni del modello base, portando a previsioni imprecise. Inoltre, i lavori esistenti si concentrano su impostazioni indipendenti dalla lingua, trascurando la natura intrinsecamente multilingue dello sviluppo software moderno. Pertanto, è prima necessario investigare le leggi di scalabilità dei diversi PL, e poi considerare le loro influenze reciproche per arrivare alla legge di scalabilità multilingue finale. In questo articolo, presentiamo la prima esplorazione sistematica delle leggi di scalabilità per il pre-addestramento multilingue sul codice, conducendo oltre 1000 esperimenti (equivalenti a più di 336.000 ore di H800) su più PL, dimensioni del modello (da 0,2 a 14 miliardi di parametri) e dimensioni dei dataset (1T di token). Stabiliamo leggi di scalabilità complete per i Code LLM su più PL, rivelando che i linguaggi interpretati (ad es. Python) beneficiano maggiormente dell'aumento delle dimensioni del modello e dei dati rispetto ai linguaggi compilati (ad es. Rust). Lo studio dimostra che il pre-addestramento multilingue fornisce benefici sinergici, specialmente tra PL sintatticamente simili. Inoltre, la strategia di pre-addestramento dell'abbinamento parallelo (concatenare frammenti di codice con le loro traduzioni) migliora significativamente le capacità cross-lingua con proprietà di scalabilità favorevoli. Infine, viene proposta una legge di scalabilità multilingue dipendente dalle proporzioni per allocare ottimalmente i token di addestramento, dando priorità ai PL ad alta utilità (ad es. Python), bilanciando le coppie ad alta sinergia (ad es. JavaScript-TypeScript) e riducendo l'allocazione ai linguaggi a saturazione rapida (Rust), ottenendo prestazioni medie superiori su tutti i PL rispetto alla distribuzione uniforme con lo stesso budget computazionale.
Riconoscere se gli output dei grandi modelli linguistici (LLM) contengono allucinazioni di fedeltà è cruciale per applicazioni nel mondo reale, come la generazione aumentata dal recupero di informazioni e la summarizzazione. In questo articolo, introduciamo FaithLens, un modello di rilevamento delle allucinazioni di fedeltà efficiente in termini di costi ed efficace, in grado di fornire congiuntamente previsioni binarie e le relative spiegazioni per migliorare l'affidabilità. Per raggiungere questo obiettivo, sintetizziamo innanzitutto dati di addestramento con spiegazioni tramite LLM avanzati e applichiamo una strategia di filtraggio dei dati ben definita per garantire la correttezza delle etichette, la qualità delle spiegazioni e la diversità dei dati. Successivamente, addestriamo il modello su questi dati di addestramento accuratamente selezionati come avvio a freddo e lo ottimizziamo ulteriormente con l'apprendimento per rinforzo basato su regole, utilizzando ricompense sia per la correttezza della previsione che per la qualità della spiegazione. I risultati su 12 task diversi mostrano che FaithLens, con i suoi 8 miliardi di parametri, supera modelli avanzati come GPT-4.1 e o3. Inoltre, FaithLens è in grado di produrre spiegazioni di alta qualità, offrendo un equilibrio distintivo tra affidabilità, efficienza ed efficacia.
La traduzione simultanea parlato-testo (StreamST) richiede la produzione di traduzioni in concomitanza con il parlato in arrivo, imponendo vincoli di latenza stringenti e richiedendo modelli che bilancino il processo decisionale su informazioni parziali con un'elevata qualità di traduzione. Finora, gli sforzi di ricerca sull'argomento si sono basati sul repository SimulEval, che non è più mantenuto e non supporta sistemi in grado di revisionare i propri output. Inoltre, è stato progettato per simulare l'elaborazione di segmenti brevi, piuttosto che flussi audio di lunga durata, e non fornisce un metodo semplice per mostrare i sistemi in una demo. Come soluzione, introduciamo SimulStream, il primo framework open-source dedicato alla valutazione unificata e alla dimostrazione di sistemi StreamST. Progettato per l'elaborazione del parlato di lunga durata, supporta non solo approcci di decodifica incrementale, ma anche metodi di re-traduzione, consentendo il loro confronto all'interno dello stesso framework sia in termini di qualità che di latenza. Inoltre, offre anche un'interfaccia web interattiva per dimostrare qualsiasi sistema costruito all'interno dello strumento.
Il ragionamento temporale su dialoghi lunghi e multi-sessione è una capacità critica per gli agenti conversazionali. Tuttavia, lavori esistenti e il nostro studio pilota hanno dimostrato che quando le cronologie dei dialoghi aumentano in lunghezza e accumulano rumore, i modelli a contesto lungo attuali faticano a identificare con precisione le informazioni temporalmente pertinenti, compromettendo significativamente le prestazioni di ragionamento. Per affrontare questo problema, introduciamo Memory-T1, un framework che apprende una politica di selezione della memoria consapevole del tempo utilizzando l'apprendimento per rinforzo (RL). Esso impiega una strategia coarse-to-fine, prima riducendo la cronologia del dialogo in un insieme di candidati mediante filtri temporali e di rilevanza, seguita da un agente RL che seleziona le sessioni di evidenza precise. L'addestramento RL è guidato da una funzione di ricompensa multi-livello che ottimizza (i) l'accuratezza della risposta, (ii) il grounding delle evidenze e (iii) la coerenza temporale. In particolare, la ricompensa per la coerenza temporale fornisce un segnale denso valutando l'allineamento con l'ambito temporale della query sia a livello di sessione (prossimità cronologica) che a livello di enunciato (fedeltà cronologica), consentendo all'agente di risolvere ambiguità cronologiche sottili. Sul benchmark Time-Dialog, Memory-T1 spinge un modello da 7B a un punteggio complessivo del 67,0%, stabilendo una nuova prestazione state-of-the-art per i modelli open-source e superando un baseline da 14B del 10,2%. Studi di ablazione mostrano che le ricompense per la coerenza temporale e il grounding delle evidenze contribuiscono congiuntamente a un guadagno prestazionale del 15,0%. Inoltre, Memory-T1 mantiene la robustezza fino a 128k token, dove i modelli baseline collassano, dimostrando efficacia contro il rumore in estese cronologie di dialoghi. Il codice e i dataset sono pubblicamente disponibili su https://github.com/Elvin-Yiming-Du/Memory-T1/.
Comprendere il mondo fisico è essenziale per gli agenti di IA generalisti. Tuttavia, rimane poco chiaro se i modelli di percezione visiva all'avanguardia (ad esempio, i grandi VLM) siano in grado di ragionare sulle proprietà fisiche in modo quantitativo. Le valutazioni esistenti sono prevalentemente basate su VQA e qualitative, offrendo una comprensione limitata sulla capacità di questi modelli di inferire quantità cinematiche di oggetti in movimento da osservazioni video. Per affrontare questa lacuna, presentiamo QuantiPhy, il primo benchmark progettato per misurare quantitativamente l'abilità di ragionamento fisico di un VLM. Composto da oltre 3.3K istanze video-testo con verità numerica di riferimento (ground truth), QuantiPhy valuta le prestazioni di un VLM nella stima delle dimensioni, velocità e accelerazione di un oggetto in un dato istante temporale, utilizzando una di queste proprietà come informazione a priori in input. Il benchmark standardizza i prompt e i criteri di punteggio per valutare l'accuratezza numerica, consentendo confronti equi tra i modelli. I nostri esperimenti su VLM all'avanguardia rivelano un divario consistente tra la loro plausibilità qualitativa e l'effettiva correttezza numerica. Forniamo inoltre un'analisi approfondita di fattori chiave come il rumore di fondo, le informazioni a priori controfattuali e il prompting strategico, e scopriamo che i VLM all'avanguardia si affidano pesantemente alla conoscenza del mondo pre-appresa piuttosto che utilizzare fedelmente gli input visivi e testuali forniti come riferimento quando ragionano quantitativamente sulle proprietà cinematiche. QuantiPhy offre il primo banco di prova rigoroso e scalabile per spingere i VLM oltre la mera plausibilità verbale verso una comprensione fisica numericamente fondata.
Gli attuali metodi di generazione di avatar video eccellono nella conservazione dell'identità e nell'allineamento del movimento, ma mancano di un'autentica agentività: non possono perseguire autonomamente obiettivi a lungo termine attraverso l'interazione adattiva con l'ambiente. Affrontiamo questa limitazione introducendo L-IVA (Long-horizon Interactive Visual Avatar), un task e benchmark per valutare la pianificazione finalizzata a obiettivi in ambienti generativi stocastici, e ORCA (Online Reasoning and Cognitive Architecture), il primo framework che abilita l'intelligenza attiva negli avatar video. ORCA incorpora capacità di Modello Interno del Mondo (IWM) attraverso due innovazioni chiave: (1) un ciclo OTAR chiuso (Osserva-Pensa-Agisci-Rifletti) che mantiene un tracking robusto dello stato sotto incertezza generativa verificando continuamente gli esiti previsti rispetto alle generazioni effettive, e (2) un'architettura gerarchica a sistema duale in cui il Sistema 2 esegue ragionamento strategico con previsione dello stato mentre il Sistema 1 traduce piani astratti in descrizioni d'azione precise e specifiche del modello. Formulando il controllo dell'avatar come un POMDP e implementando un aggiornamento continuo delle credenze con verifica degli esiti, ORCA consente il completamento autonomo di task multi-step in scenari a dominio aperto. Esperimenti estensivi dimostrano che ORCA supera significativamente i baseline open-loop e non riflessivi in termini di tasso di successo del task e coerenza comportamentale, convalidando il nostro design ispirato all'IWM per avanzare l'intelligenza degli avatar video dall'animazione passiva a comportamenti attivi e orientati a obiettivi.
La ricerca qualitativa affronta una sfida critica di affidabilità: i metodi tradizionali di accordo tra valutatori richiedono codificatori umani multipli, sono dispendiosi in termini di tempo e spesso producono una consistenza moderata. Presentiamo un quadro di validazione multi-prospettica per l'analisi tematica basata su LLM che combina la validazione d'insieme con metriche duali di affidabilità: il Kappa di Cohen (κ) per l'accordo tra valutatori e la similarità del coseno per la consistenza semantica. Il nostro framework consente parametri di analisi configurabili (1-6 seed, temperatura 0.0-2.0), supporta strutture di prompt personalizzabili con sostituzione di variabili e fornisce l'estrazione di temi consensuali su qualsiasi formato JSON. Come prova concettuale, valutiamo tre LLM leader (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) su una trascrizione di un'intervista di terapia artistica psichedelica, conducendo sei esecuzioni indipendenti per modello. I risultati dimostrano che Gemini raggiunge l'affidabilità più alta (κ= 0.907, coseno=95.3%), seguito da GPT-4o (κ= 0.853, coseno=92.6%) e Claude (κ= 0.842, coseno=92.1%). Tutti e tre i modelli raggiungono un alto accordo (κ> 0.80), convalidando l'approccio d'insieme multi-run. Il framework estrae con successo temi consensuali tra le esecuzioni, con Gemini che identifica 6 temi consensuali (consistenza 50-83%), GPT-4o che ne identifica 5 e Claude 4. La nostra implementazione open-source fornisce ai ricercatori metriche di affidabilità trasparenti, configurazione flessibile ed estrazione del consenso indipendente dalla struttura, stabilendo le basi metodologiche per una ricerca qualitativa assistita dall'IA affidabile.
Le interazioni tossiche nelle comunità di software open source (OSS) riducono il coinvolgimento dei contributori e minacciano la sostenibilità dei progetti. Prevenire tale tossicità prima che emerga richiede una chiara comprensione di come si sviluppano le conversazioni dannose. Tuttavia, la maggior parte delle strategie di moderazione proattiva sono manuali, richiedendo un notevole dispendio di tempo e impegno da parte dei maintainer della comunità. Per supportare approcci più scalabili, abbiamo curato un dataset composto da 159 thread tossici degenerati e 207 thread non tossici, tratti dalle discussioni su GitHub. La nostra analisi rivela che la tossicità può essere prevista attraverso trigger di tensione, cambiamenti di sentiment e specifici pattern conversazionali. Presentiamo un framework innovativo basato su Large Language Model (LLM) per prevedere la degenerazione conversazionale su GitHub, utilizzando una pipeline di prompting in due fasi. In primo luogo, generiamo dei Riassunti delle Dinamiche Conversazionali (SCD) tramite il prompting Least-to-Most (LtM); successivamente, utilizziamo questi riassunti per stimare la probabilità di degenerazione. Valutata sui modelli Qwen e Llama, la nostra strategia LtM raggiunge rispettivamente punteggi F1 di 0.901 e 0.852 a una soglia decisionale di 0.3, superando i baseline NLP consolidati per la degenerazione conversazionale. Una validazione esterna su un dataset di 308 thread di issue di GitHub (65 tossici, 243 non tossici) produce un punteggio F1 fino a 0.797. I nostri risultati dimostrano l'efficacia del prompting strutturato con LLM per il rilevamento precoce della degenerazione conversazionale negli OSS, abilitando una moderazione proattiva e spiegabile.
La messa a fuoco è un pilastro fondamentale della fotografia, eppure i sistemi autofocus spesso non riescono a catturare il soggetto desiderato, e gli utenti desiderano frequentemente regolare la messa a fuoco dopo lo scatto. Introduciamo un metodo innovativo per una realistica rifocalizzazione post-acquisizione che utilizza modelli di diffusione video. Partendo da una singola immagine sfocata, il nostro approccio genera una pila focale percettivamente accurata, rappresentata come una sequenza video, consentendo una rifocalizzazione interattiva e sbloccando una serie di applicazioni successive. Rilasciamo un ampio dataset di pile focali acquisito in varie condizioni reali con smartphone per supportare questo lavoro e la ricerca futura. Il nostro metodo supera costantemente gli approcci esistenti sia nella qualità percettiva che nella robustezza attraverso scenari complessi, aprendo la strada a capacità di editing della messa a fuoco più avanzate nella fotografia quotidiana. Codice e dati sono disponibili su www.learn2refocus.github.io.