Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo scaling continuo dei grandi modelli linguistici (LLM) produce rendimenti decrescenti? Il valore nel mondo reale spesso deriva dalla lunghezza del compito che un agente può completare. Iniziamo questo lavoro osservando il fatto semplice ma controintuitivo che i guadagni marginali nell'accuratezza a singolo passo possono comporsi in miglioramenti esponenziali nella lunghezza del compito che un modello può completare con successo. Poi, sosteniamo che i fallimenti degli LLM quando compiti semplici vengono resi più lunghi derivano da errori di esecuzione, piuttosto che dall'incapacità di ragionare. Proponiamo di isolare la capacità di esecuzione, fornendo esplicitamente la conoscenza e il piano necessari per risolvere un compito a lungo termine. Scopriamo che i modelli più grandi possono eseguire correttamente un numero significativamente maggiore di passaggi anche quando i modelli più piccoli hanno un'accuratezza del 100% a singolo passo. Osserviamo che l'accuratezza per passo dei modelli si degrada all'aumentare del numero di passaggi. Questo non è dovuto solo alle limitazioni del contesto lungo -- curiosamente, osserviamo un effetto di auto-condizionamento -- i modelli diventano più propensi a commettere errori quando il contesto contiene i loro errori dai passaggi precedenti. L'auto-condizionamento non si riduce semplicemente aumentando le dimensioni del modello. Al contrario, i recenti modelli di pensiero non si auto-condizionano e possono anche eseguire compiti molto più lunghi in un singolo passo. Concludiamo eseguendo benchmark sui modelli di pensiero all'avanguardia sulla lunghezza del compito che possono eseguire in un singolo passo. Nel complesso, concentrandoci sulla capacità di esecuzione, speriamo di riconciliare i dibattiti su come gli LLM possano risolvere problemi di ragionamento complessi ma fallire in compiti semplici quando resi più lunghi, e di evidenziare i massicci benefici dello scaling delle dimensioni del modello e del calcolo sequenziale al momento del test per compiti a lungo termine.
La generazione di immagini a risoluzione arbitraria offre un'esperienza visiva coerente su diversi dispositivi, con ampie applicazioni sia per i produttori che per i consumatori. Gli attuali modelli di diffusione aumentano la domanda computazionale in modo quadratico con la risoluzione, causando ritardi superiori a 100 secondi nella generazione di immagini 4K. Per risolvere questo problema, esploriamo la seconda generazione basata sui modelli di diffusione latente, in cui il latente fisso generato dai modelli di diffusione è considerato come rappresentazione del contenuto, e proponiamo di decodificare immagini a risoluzione arbitraria utilizzando un generatore a un solo passo con un latente compatto. Presentiamo quindi InfGen, che sostituisce il decodificatore VAE con il nuovo generatore, per generare immagini a qualsiasi risoluzione da un latente di dimensioni fisse senza dover riaddestrare i modelli di diffusione, semplificando il processo, riducendo la complessità computazionale e applicabile a qualsiasi modello che utilizza lo stesso spazio latente. Gli esperimenti dimostrano che InfGen è in grado di portare molti modelli nell'era dell'alta risoluzione arbitraria, riducendo il tempo di generazione delle immagini 4K a meno di 10 secondi.
La rapida adozione di agenti AI autonomi sta dando origine a un nuovo strato economico in cui gli agenti effettuano transazioni e si coordinano su scale e velocità che vanno oltre il controllo diretto umano. Proponiamo l'"economia sandbox" come framework per analizzare questo sistema emergente, caratterizzandolo lungo due dimensioni chiave: le sue origini (emergenti vs. intenzionali) e il suo grado di separazione dall'economia umana consolidata (permeabile vs. impermeabile). La nostra traiettoria attuale punta verso un'emergenza spontanea di un'economia vasta e altamente permeabile di agenti AI, presentandoci opportunità per un grado di coordinamento senza precedenti, nonché sfide significative, tra cui rischi economici sistemici e disuguaglianze esacerbate. Qui discutiamo una serie di possibili scelte progettuali che potrebbero portare a mercati di agenti AI sicuramente gestibili. In particolare, consideriamo meccanismi d'asta per un'allocazione equa delle risorse e la risoluzione delle preferenze, la progettazione di "economie missione" AI per coordinarsi attorno al raggiungimento di obiettivi collettivi e l'infrastruttura socio-tecnica necessaria per garantire fiducia, sicurezza e responsabilità. In questo modo, sosteniamo la progettazione proattiva di mercati di agenti gestibili per garantire che il prossimo cambiamento tecnologico sia allineato con il benessere collettivo a lungo termine dell'umanità.
La generazione di forme 3D a livello di parti è fondamentale per applicazioni successive come la retopologia delle mesh, il mapping UV e la stampa 3D. Tuttavia, i metodi esistenti di generazione basati su parti spesso mancano di sufficiente controllabilità e soffrono di una scarsa decomposizione semanticamente significativa. A tal fine, introduciamo X-Part, un modello generativo controllabile progettato per scomporre un oggetto 3D olistico in parti semanticamente significative e strutturalmente coerenti con un'elevata fedeltà geometrica. X-Part sfrutta il bounding box come prompt per la generazione delle parti e inietta caratteristiche semantiche punto per punto per una decomposizione significativa. Inoltre, progettiamo una pipeline modificabile per la generazione interattiva delle parti. I risultati sperimentali estesi dimostrano che X-Part raggiunge prestazioni all'avanguardia nella generazione di forme a livello di parti. Questo lavoro stabilisce un nuovo paradigma per la creazione di asset 3D pronti per la produzione, modificabili e strutturalmente solidi. I codici saranno rilasciati per la ricerca pubblica.
L'impegno e la motivazione sono cruciali per l'acquisizione di una seconda lingua, tuttavia mantenere l'interesse degli studenti nelle conversazioni educative rimane una sfida. Sebbene ricerche precedenti abbiano esplorato ciò che rende i testi educativi interessanti, si sa ancora poco sulle caratteristiche linguistiche che favoriscono l'engagement nelle conversazioni. Per colmare questa lacuna, introduciamo IntrEx, il primo ampio dataset annotato per l'interessantezza e l'interessantezza attesa nelle interazioni insegnante-studente. Basato sul Teacher-Student Chatroom Corpus (TSCC), IntrEx estende il lavoro precedente incorporando annotazioni a livello di sequenza, consentendo lo studio dell'engagement oltre i turni isolati per catturare come l'interesse si evolve nei dialoghi estesi. Utilizziamo un rigoroso processo di annotazione con oltre 100 studenti di seconda lingua, adottando un approccio di valutazione comparativa ispirato al reinforcement learning da feedback umano (RLHF) per migliorare l'accordo. Indaghiamo se i grandi modelli linguistici (LLM) possono prevedere i giudizi umani sull'interessantezza. Scopriamo che i LLM (7B/8B parametri) fine-tuned sulle valutazioni di interessantezza superano modelli proprietari più grandi come GPT-4o, dimostrando il potenziale dei dataset specializzati per modellare l'engagement in contesti educativi. Infine, analizziamo come fattori linguistici e cognitivi, come la concretezza, la comprensibilità (leggibilità) e l'assimilazione, influenzino l'engagement nei dialoghi educativi.
L'approccio Retrieval-Augmented Generation (RAG) migliora i sistemi di risposta alle domande e i compiti di generazione di dialoghi integrando le tecnologie di information retrieval (IR) con i grandi modelli linguistici (LLM). Questa strategia, che recupera informazioni da basi di conoscenza esterne per potenziare le capacità di risposta dei modelli generativi, ha ottenuto alcuni successi. Tuttavia, i metodi RAG attuali devono ancora affrontare numerose sfide quando si tratta di query multi-hop. Ad esempio, alcuni approcci si affidano eccessivamente al recupero iterativo, sprecando troppi passaggi di recupero su query composte. Inoltre, l'uso della query complessa originale per il recupero potrebbe non catturare contenuti rilevanti per specifiche sotto-query, risultando in contenuti recuperati rumorosi. Se il rumore non viene gestito, può portare al problema dell'accumulo di rumore. Per affrontare queste problematiche, introduciamo HANRAG, un nuovo framework basato su euristiche progettato per affrontare in modo efficiente problemi di varia complessità. Guidato da un potente rivelatore, HANRAG instrada le query, le scompone in sotto-query e filtra il rumore dai documenti recuperati. Ciò migliora l'adattabilità del sistema e la sua resistenza al rumore, rendendolo altamente capace di gestire query diverse. Confrontiamo il framework proposto con altri metodi leader del settore su vari benchmark. I risultati dimostrano che il nostro framework ottiene prestazioni superiori sia nei compiti di risposta alle domande a singolo hop che in quelli multi-hop.
Man mano che i Modelli Visione-Linguaggio (VLMs) diventano più sofisticati, la loro capacità di eseguire ragionamenti è oggetto di una crescente supervisione. Sebbene eccellano in molti compiti, la loro comprensione di principi scientifici fondamentali, come la fisica, rimane una frontiera poco esplorata. Per riflettere i progressi in queste capacità, introduciamo un nuovo e accessibile framework progettato per valutare rigorosamente la comprensione della fisica 2D da parte dei VLMs. Il nostro framework include un generatore di scenari pragmatici che crea un testbed diversificato di oltre 400 problemi in quattro domini principali: Moto dei Proiettili, Dinamica delle Collisioni, Meccanica e Dinamica dei Fluidi. Attraverso una valutazione completa di quattro VLMs all'avanguardia, dimostriamo una forte correlazione tra la scala del modello e la capacità di ragionamento, con il nostro modello di punta, Qwen2.5-VL-7B, che raggiunge un punteggio complessivo di 0.815. Rileviamo che, mentre i modelli eccellono nei problemi formulari, incontrano notevoli difficoltà nei domini che richiedono ragionamento spaziale astratto. Progettando questo framework, miriamo a democratizzare lo studio del ragionamento scientifico nei VLMs e a favorire una comprensione più profonda delle loro capacità e limitazioni.
I modelli linguistici di grandi dimensioni basati su diffusione mascherata (dLLM) stanno emergendo come promettenti alternative ai modelli linguistici autoregressivi, offrendo prestazioni competitive e supportando capacità di generazione uniche come l'inpainting. Esploriamo come l'inpainting possa informare la progettazione di algoritmi di apprendimento per rinforzo (RL) per i dLLM. L'allineamento dei modelli linguistici con l'apprendimento per rinforzo affronta una sfida esplorativa: segnali di ricompensa sparsi e spreco di campioni quando i modelli non riescono a scoprire soluzioni corrette. Sebbene questa inefficienza riguardi i modelli linguistici in generale, i dLLM offrono un'opportunità distintiva: la loro capacità di inpainting può guidare l'esplorazione. Introduciamo IGPO (Inpainting Guided Policy Optimization), un framework RL che inserisce strategicamente tracce di ragionamento parzialmente veritiere durante il campionamento online. A differenza della fornitura di soluzioni complete, l'inpainting indirizza l'esplorazione verso spazi di traiettorie promettenti preservando il ragionamento autogenerato, creando un ponte tra la messa a punto supervisionata e l'apprendimento per rinforzo. Applichiamo IGPO a metodi di ottimizzazione basati su gruppi come GRPO, dove i fallimenti esplorativi causano vantaggi e gradienti nulli. IGPO ripristina gradienti significativi migliorando l'efficienza del campionamento. Proponiamo inoltre una messa a punto supervisionata su tracce concise riscritte sinteticamente che si allineano meglio ai modelli di generazione dei dLLM. Con tecniche aggiuntive tra cui il filtraggio basato sull'entropia, la nostra ricetta di addestramento produce guadagni sostanziali su tre benchmark matematici—GSM8K, Math500 e AMC—raggiungendo nuovi risultati all'avanguardia per i dLLM mascherati con attenzione completa.
Il Model Context Protocol (MCP) si sta rapidamente affermando come uno standard aperto fondamentale, progettato per migliorare l'integrazione e l'interoperabilità tra agenti e strumenti, e si posiziona per sbloccare una nuova era di AI agentica potente, interconnessa e veramente utilitaria. Tuttavia, nonostante la crescente adozione di MCP, gli attuali benchmark spesso non riescono a catturare le prestazioni degli agenti nel mondo reale all'interno di questo nuovo paradigma, portando a una percezione distorta del loro vero valore operativo e a un'incapacità di differenziare in modo affidabile le competenze. Per colmare questa lacuna critica nella valutazione, introduciamo MCP-AgentBench — un benchmark completo specificamente progettato per valutare rigorosamente le capacità degli agenti linguistici nelle interazioni con strumenti mediate da MCP. I contributi principali di MCP-AgentBench includono: l'istituzione di un robusto testbed MCP composto da 33 server operativi con 188 strumenti distinti; lo sviluppo di un benchmark che presenta 600 query progettate sistematicamente distribuite in 6 categorie distinte con vari livelli di complessità di interazione; e l'introduzione di MCP-Eval, una nuova metodologia di valutazione orientata ai risultati che privilegia il successo delle attività nel mondo reale. Attraverso una valutazione empirica estensiva dei principali agenti linguistici, forniamo approfondimenti fondamentali. MCP-AgentBench mira a dotare la comunità di ricerca di un framework standardizzato e affidabile per costruire, validare e far progredire agenti in grado di sfruttare appieno i benefici trasformativi di MCP, accelerando così il progresso verso sistemi di AI veramente capaci e interoperabili.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato capacità impressionanti nel ragionamento finanziario e nella comprensione del mercato. Framework multi-agente basati su LLM come TradingAgent e FINMEM potenziano questi modelli per compiti di investimento a lungo termine, sfruttando input fondamentali e basati sul sentiment per decisioni strategiche. Tuttavia, tali sistemi sono poco adatti alle esigenze ad alta velocità e critiche per la precisione del Trading ad Alta Frequenza (HFT). L'HFT richiede decisioni rapide e consapevoli del rischio basate su segnali strutturati e a breve termine, inclusi indicatori tecnici, modelli grafici e caratteristiche basate sulle tendenze, distinti dal ragionamento semantico a lungo termine tipico delle tradizionali applicazioni finanziarie degli LLM. A tal fine, introduciamo QuantAgent, il primo framework multi-agente LLM progettato esplicitamente per il trading algoritmico ad alta frequenza. Il sistema scompone il trading in quattro agenti specializzati, Indicatore, Modello, Tendenza e Rischio, ciascuno dotato di strumenti specifici per il dominio e capacità di ragionamento strutturato per catturare aspetti distinti della dinamica del mercato in finestre temporali brevi. In valutazioni zero-shot su dieci strumenti finanziari, tra cui Bitcoin e futures del Nasdaq, QuantAgent dimostra prestazioni superiori sia in termini di accuratezza predittiva che di rendimento cumulativo su intervalli di trading di 4 ore, superando forti baseline neurali e basate su regole. I nostri risultati suggeriscono che combinare conoscenze finanziarie strutturate con il ragionamento nativo del linguaggio sblocca un nuovo potenziale per sistemi decisionali tracciabili e in tempo reale nei mercati finanziari ad alta frequenza.
Lo sviluppo di politiche efficienti Vision-Language-Action (VLA) è cruciale per il dispiegamento pratico della robotica, ma gli approcci attuali affrontano costi computazionali e requisiti di risorse proibitivi. Le politiche VLA basate su diffusione esistenti richiedono modelli con miliardi di parametri e dataset massicci per ottenere prestazioni solide. Affrontiamo questa sfida di efficienza con due contributi: la fusione di modalità intermedie, che riallocata la capacità alla testa di diffusione potando fino al 50% degli strati del modello linguistico (LLM), e il condizionamento Global-AdaLN specifico per l'azione, che riduce i parametri del 20% attraverso un adattamento modulare. Integriamo questi progressi in un nuovo VLA da 950 milioni di parametri chiamato FLOWER. Pre-addestrato in sole 200 ore di GPU H100, FLOWER offre prestazioni competitive rispetto a VLA più grandi su 190 task che coprono dieci benchmark di simulazione e mondo reale, dimostrando robustezza su diverse incarnazioni robotiche. Inoltre, FLOWER raggiunge un nuovo stato dell'arte (SoTA) di 4.53 sul benchmark CALVIN ABC. Demo, codice e pesi pre-addestrati sono disponibili su https://intuitive-robots.github.io/flower_vla/.
L'apprendimento a coda lunga ha attirato un'attenzione crescente grazie alla sua ampia applicabilità in scenari reali. Tra gli approcci esistenti, l'apprendimento semi-supervisionato a coda lunga (LTSSL) è emerso come una soluzione efficace incorporando una grande quantità di dati non etichettati in un dataset etichettato sbilanciato. Tuttavia, la maggior parte dei metodi LTSSL precedenti è progettata per addestrare modelli da zero, il che spesso porta a problemi come eccessiva sicurezza e pseudo-etichette di bassa qualità. Per affrontare queste sfide, estendiamo il LTSSL nel paradigma di fine-tuning dei modelli di base e proponiamo un nuovo framework: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). Dimostriamo che i modelli di base sottoposti a fine-tuning possono generare pseudo-etichette più affidabili, beneficiando così l'apprendimento sbilanciato. Inoltre, esploriamo un'impostazione più pratica investigando l'apprendimento semi-supervisionato in condizioni di mondo aperto, dove i dati non etichettati possono includere campioni fuori distribuzione (OOD). Per gestire questo problema, proponiamo LoFT-OW (LoFT in scenari di mondo aperto) per migliorare la capacità discriminativa. I risultati sperimentali su più benchmark dimostrano che il nostro metodo raggiunge prestazioni superiori rispetto agli approcci precedenti, anche utilizzando solo l'1% dei dati non etichettati rispetto ai lavori precedenti.
Presentiamo Probabilistic Structure Integration (PSI), un sistema per apprendere modelli del mondo riccamente controllabili e flessibilmente promptabili dai dati. PSI è composto da un ciclo a tre fasi. La prima fase, Predizione probabilistica, prevede la costruzione di un modello grafico probabilistico Psi dei dati, sotto forma di modello sequenziale autoregressivo ad accesso casuale. Psi supporta un insieme completo di distribuzioni condizionate apprese che descrivono la dipendenza di qualsiasi variabile nei dati da qualsiasi altro insieme di variabili. Nella fase 2, Estrazione della struttura, mostriamo come estrarre proprietà sottostanti a bassa dimensionalità nei dati, corrispondenti a un insieme diversificato di "strutture intermedie" significative, in modo zero-shot tramite inferenza causale su Psi. La fase 3, Integrazione, completa il ciclo convertendo queste strutture in nuovi tipi di token che vengono poi continuamente reinseriti nella dieta di addestramento come segnali di condizionamento e obiettivi di predizione. Ogni ciclo di questo tipo amplia le capacità di Psi, consentendogli sia di modellare meglio i dati sottostanti, sia di creare nuovi punti di controllo – simili a un linguaggio universale di prompting simile a un LLM. Addestriamo un'istanza di Psi su 1,4 trilioni di token di dati video provenienti da internet; la utilizziamo per eseguire una varietà di inferenze utili sulla predizione e comprensione video; estraiamo flusso ottico all'avanguardia, profondità auto-supervisionata e segmentazione degli oggetti; e utilizziamo queste strutture per supportare un ciclo completo di miglioramenti predittivi.
Un allineamento accurato dei colori nella generazione di immagini da testo (T2I) è fondamentale per applicazioni come la moda, la visualizzazione di prodotti e il design d'interni, ma i modelli di diffusione attuali faticano a gestire termini di colore complessi e sfumati (ad esempio, blu Tiffany, verde lime, rosa shocking), producendo spesso immagini non allineate con l'intento umano. Gli approcci esistenti si basano sulla manipolazione dell'attenzione incrociata, su immagini di riferimento o su fine-tuning, ma non riescono a risolvere sistematicamente le descrizioni di colore ambigue. Per rappresentare con precisione i colori in presenza di ambiguità nei prompt, proponiamo un framework senza addestramento che migliora la fedeltà dei colori sfruttando un modello linguistico di grandi dimensioni (LLM) per disambiguare i prompt relativi ai colori e guidare le operazioni di fusione dei colori direttamente nello spazio di incorporamento del testo. Il nostro metodo utilizza prima un modello linguistico di grandi dimensioni (LLM) per risolvere i termini di colore ambigui nel prompt testuale, e poi affina gli embedding testuali in base alle relazioni spaziali dei termini di colore risultanti nello spazio colore CIELAB. A differenza dei metodi precedenti, il nostro approccio migliora l'accuratezza dei colori senza richiedere ulteriore addestramento o immagini di riferimento esterne. I risultati sperimentali dimostrano che il nostro framework migliora l'allineamento dei colori senza compromettere la qualità dell'immagine, colmando il divario tra semantica testuale e generazione visiva.
I modelli linguistici parlati (SLM) sono emersi come un paradigma unificato per la comprensione e la generazione del parlato, abilitando un'interazione uomo-macchina naturale. Tuttavia, sebbene la maggior parte dei progressi si sia concentrata sull'accuratezza semantica e sul seguire istruzioni, la capacità degli SLM di adattare il proprio stile di parlato in base a istruzioni vocali ha ricevuto un'attenzione limitata. Introduciamo l'Adattamento dello Stile Vocale (VSA), un nuovo compito che esamina se gli SLM possono modificare il proprio stile di parlato, come timbro, prosodia o persona, seguendo comandi vocali in linguaggio naturale. Per studiare questo compito, presentiamo VStyle, un benchmark bilingue (cinese e inglese) che copre quattro categorie di generazione del parlato: attributi acustici, istruzioni in linguaggio naturale, interpretazione di ruoli ed empatia implicita. Introduciamo inoltre il framework Large Audio Language Model as a Judge (LALM as a Judge), che valuta progressivamente gli output in termini di fedeltà testuale, aderenza allo stile e naturalezza, garantendo una valutazione riproducibile e obiettiva. Esperimenti su sistemi commerciali e SLM open source dimostrano che i modelli attuali presentano chiare limitazioni nell'adattamento controllabile dello stile, evidenziando sia la novità che la sfida di questo compito. Rilasciando VStyle e il suo toolkit di valutazione, miriamo a fornire alla comunità una base per avanzare nell'interazione parlata centrata sull'uomo. Il dataset e il codice sono pubblicamente disponibili su https://junzhan2000.github.io/VStyle.github.io/{pagina principale del progetto}.
I Large Language Model (LLM) hanno ottenuto un successo notevole in vari ambiti. Tuttavia, rimane una domanda fondamentale: i LLM possono utilizzare efficacemente la conoscenza causale per la previsione e la generazione? Attraverso studi empirici, abbiamo riscontrato che i LLM addestrati direttamente su dati su larga scala spesso catturano correlazioni spurie piuttosto che vere relazioni causali, portando a prestazioni subottimali, specialmente in scenari fuori distribuzione (OOD). Per affrontare questa sfida, proponiamo il Causal Attention Tuning (CAT), un approccio innovativo che inietta conoscenza causale granulare nel meccanismo di attenzione. Proponiamo una pipeline automatizzata che sfrutta i priori umani per generare automaticamente segnali causali a livello di token e introduciamo il meccanismo di Re-Attention per guidare l'addestramento, aiutando il modello a concentrarsi sulle strutture causali mentre mitiga il rumore e i bias nei punteggi di attenzione. I risultati sperimentali sul nostro benchmark Spurious Token Game (STG) e su molteplici task downstream dimostrano che il nostro approccio sfrutta efficacemente la conoscenza causale per la previsione e rimane robusto in scenari OOD. I dettagli di implementazione sono disponibili all'indirizzo https://github.com/Kairong-Han/CAT.
L'incorporazione di contesti esterni può migliorare significativamente la qualità delle risposte dei Large Language Models (LLM). Tuttavia, i contesti del mondo reale spesso mescolano informazioni rilevanti con contenuti inappropriati sproporzionati, ponendo rischi di affidabilità. Come elaborano e prioritizzano i LLM i contesti misti? Per studiare questo fenomeno, introduciamo il Poisoned Context Testbed, abbinando query a contesti del mondo reale contenenti sia informazioni rilevanti che contenuti inappropriati. Ispirati dall'apprendimento associativo negli animali, adattiamo il modello Rescorla-Wagner (RW) dalle neuroscienze per quantificare come segnali contestuali in competizione influenzino gli output dei LLM. Il nostro modello adattato rivela un modello comportamentale coerente: i LLM mostrano una forte tendenza a incorporare informazioni meno prevalenti nel contesto. Questa suscettibilità è dannosa in contesti reali, dove piccole quantità di contenuti inappropriati possono degradare sostanzialmente la qualità delle risposte. Valutazioni empiriche sul nostro testbed confermano ulteriormente questa vulnerabilità. Per affrontare questo problema, introduciamo RW-Steering, un approccio basato su fine-tuning in due fasi che consente al modello di identificare e ignorare internamente i segnali inappropriati. A differenza dei metodi precedenti che si basano su una supervisione estesa su miscele contestuali diverse, RW-Steering generalizza in modo robusto su diverse proporzioni di contenuti inappropriati. Gli esperimenti dimostrano che il nostro modello con il miglior fine-tuning migliora la qualità delle risposte del 39,8% e inverte la curva comportamentale indesiderata, stabilendo RW-Steering come una soluzione di ingegneria contestuale robusta e generalizzabile per migliorare la sicurezza dei LLM nell'uso reale.
Il ragionamento visivo su dati strutturati come le tabelle è una capacità cruciale per i moderni modelli visione-linguaggio (VLMs), tuttavia i benchmark attuali rimangono limitati in termini di scala, diversità o profondità di ragionamento, specialmente quando si tratta di immagini di tabelle renderizzate. Per colmare questa lacuna, introduciamo Visual-TableQA, un dataset multimodale su larga scala e open-domain, progettato specificamente per valutare e migliorare il ragionamento visivo su dati tabellari complessi. La nostra pipeline di generazione è modulare, scalabile e completamente autonoma, coinvolgendo più LLM (Large Language Models) che collaborano in ruoli distinti: generazione, validazione e ispirazione. Visual-TableQA comprende 2.5k tabelle riccamente strutturate renderizzate in LaTeX e 6k coppie QA (domanda-risposta) ad alta intensità di ragionamento, tutte prodotte a un costo inferiore a 100 USD. Per promuovere diversità e creatività, la nostra pipeline esegue una generazione collaborativa di dati multi-modello tramite prompt incrociati ('ispirazione') e filtraggio tramite giuria di LLM. Modelli più potenti generano layout e argomenti che modelli più deboli elaborano, distillando collettivamente diversi schemi di ragionamento e strutture visive nel dataset. I risultati empirici mostrano che i modelli fine-tuned su Visual-TableQA generalizzano robustamente a benchmark esterni, superando diversi modelli proprietari nonostante la natura sintetica del dataset. L'intera pipeline e le risorse sono disponibili pubblicamente all'indirizzo https://github.com/AI-4-Everyone/Visual-TableQA.
Questo articolo di sistema presenta gli approcci del team DeMeVa per la terza edizione della competizione condivisa Learning with Disagreements (LeWiDi 2025; Leonardelli et al., 2025). Esploriamo due direzioni: l'apprendimento in contesto (ICL) con modelli linguistici di grandi dimensioni, dove confrontiamo strategie di campionamento degli esempi; e metodi di apprendimento della distribuzione delle etichette (LDL) con RoBERTa (Liu et al., 2019b), dove valutiamo diverse tecniche di fine-tuning. I nostri contributi sono duplici: (1) dimostriamo che l'ICL può prevedere efficacemente annotazioni specifiche per annotatori (annotazioni prospettiviste), e che aggregare queste previsioni in etichette soft produce prestazioni competitive; e (2) sosteniamo che i metodi LDL sono promettenti per la previsione di etichette soft e meritano ulteriori esplorazioni da parte della comunità prospettivista.
I grandi modelli linguistici (LLM) stanno rapidamente trasformando la ricerca nelle scienze sociali, consentendo l'automazione di attività ad alta intensità di lavoro come l'annotazione dei dati e l'analisi del testo. Tuttavia, gli output degli LLM variano significativamente a seconda delle scelte di implementazione fatte dai ricercatori (ad esempio, selezione del modello, strategia di prompt o impostazioni della temperatura). Tale variazione può introdurre bias sistematici ed errori casuali, che si propagano alle analisi successive e causano errori di Tipo I, Tipo II, Tipo S o Tipo M. Definiamo questo fenomeno come "LLM hacking". Quantifichiamo il rischio di LLM hacking replicando 37 attività di annotazione dati da 21 studi di ricerca pubblicati nelle scienze sociali con 18 modelli diversi. Analizzando 13 milioni di etichette generate da LLM, testiamo 2.361 ipotesi realistiche per misurare come le scelte plausibili dei ricercatori influenzano le conclusioni statistiche. Troviamo conclusioni errate basate su dati annotati da LLM in circa un'ipotesi su tre per i modelli all'avanguardia e in metà delle ipotesi per i modelli linguistici più piccoli. Sebbene i nostri risultati mostrino che prestazioni migliori nei compiti e capacità generali superiori dei modelli riducano il rischio di LLM hacking, anche i modelli altamente accurati non lo eliminano completamente. Il rischio di LLM hacking diminuisce all'aumentare delle dimensioni degli effetti, indicando la necessità di una verifica più rigorosa dei risultati vicini alle soglie di significatività. La nostra ampia analisi delle tecniche di mitigazione dell'LLM hacking sottolinea l'importanza delle annotazioni umane nel ridurre i falsi positivi e migliorare la selezione dei modelli. Sorprendentemente, le comuni tecniche di correzione degli stimatori di regressione sono largamente inefficaci nel ridurre il rischio di LLM hacking, poiché compromettono pesantemente gli errori di Tipo I rispetto a quelli di Tipo II. Oltre agli errori accidentali, scopriamo che l'LLM hacking intenzionale è inaccettabilmente semplice. Con pochi LLM e solo una manciata di variazioni di prompt, qualsiasi cosa può essere presentata come statisticamente significativa.
Le lingue minoritarie in Cina, come il tibetano, l'uiguro e il mongolo tradizionale, affrontano sfide significative a causa dei loro sistemi di scrittura unici, che differiscono dagli standard internazionali. Questa discrepanza ha portato a una grave carenza di corpora rilevanti, in particolare per task supervisionati come la generazione di titoli. Per colmare questa lacuna, introduciamo un nuovo dataset, Chinese Minority Headline Generation (CMHG), che include 100.000 voci per il tibetano e 50.000 voci ciascuna per l'uiguro e il mongolo, specificamente curato per task di generazione di titoli. Inoltre, proponiamo un set di test di alta qualità annotato da parlanti nativi, progettato per servire come benchmark per future ricerche in questo ambito. Speriamo che questo dataset diventi una risorsa preziosa per avanzare la generazione di titoli nelle lingue minoritarie cinesi e contribuire allo sviluppo di benchmark correlati.