Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Levert de voortdurende schaalvergroting van grote taalmodellen (LLMs) afnemende rendementen op? De werkelijke waarde komt vaak voort uit de lengte van de taak die een agent kan voltooien. We beginnen dit werk met de observatie van het eenvoudige maar contra-intuïtieve feit dat marginale verbeteringen in nauwkeurigheid per stap kunnen leiden tot exponentiële verbeteringen in de lengte van een taak die een model succesvol kan voltooien. Vervolgens betogen we dat fouten van LLMs bij het verlengen van eenvoudige taken voortkomen uit uitvoeringsfouten, in plaats van een onvermogen om te redeneren. We stellen voor om de uitvoeringscapaciteit te isoleren door expliciet de kennis en het plan te verschaffen die nodig zijn om een taak met een lange horizon op te lossen. We ontdekken dat grotere modellen aanzienlijk meer stappen correct kunnen uitvoeren, zelfs wanneer kleinere modellen een nauwkeurigheid van 100% per stap hebben. We observeren dat de nauwkeurigheid per stap van modellen afneemt naarmate het aantal stappen toeneemt. Dit is niet alleen te wijten aan beperkingen in lange contexten — merkwaardig genoeg observeren we een zelfconditionerend effect — modellen worden waarschijnlijker om fouten te maken wanneer de context hun fouten uit eerdere stappen bevat. Zelfconditionering vermindert niet alleen door het schalen van de modelgrootte. In tegenstelling daarmee conditioneren recente denkmodellen zichzelf niet en kunnen ze ook veel langere taken in één stap uitvoeren. We sluiten af door frontier denkmodellen te benchmarken op de lengte van de taak die ze in één stap kunnen uitvoeren. Al met al hopen we, door te focussen op het vermogen om uit te voeren, debatten te verzoenen over hoe LLMs complexe redeneerproblemen kunnen oplossen, maar falen bij eenvoudige taken wanneer deze langer worden gemaakt, en benadrukken we de enorme voordelen van het schalen van modelgrootte en sequentiële test-tijd berekeningen voor taken met een lange horizon.
Het genereren van afbeeldingen met willekeurige resolutie biedt een consistente visuele ervaring over verschillende apparaten heen, met uitgebreide toepassingen voor producenten en consumenten. Huidige diffusiemodellen vergroten de rekenkundige vraag kwadratisch met de resolutie, wat resulteert in vertragingen van meer dan 100 seconden bij het genereren van 4K-afbeeldingen. Om dit op te lossen, verkennen we de tweede generatie van latente diffusiemodellen, waarbij de vaste latent gegenereerd door diffusiemodellen wordt beschouwd als de inhoudsrepresentatie en we voorstellen om afbeeldingen met willekeurige resolutie te decoderen met een compact gegenereerde latent met behulp van een één-staps generator. Zo presenteren we de InfGen, die de VAE-decoder vervangt door de nieuwe generator, voor het genereren van afbeeldingen met elke resolutie vanuit een latent met vaste grootte zonder de diffusiemodellen opnieuw te trainen, wat het proces vereenvoudigt, de rekenkundige complexiteit vermindert en kan worden toegepast op elk model dat dezelfde latente ruimte gebruikt. Experimenten tonen aan dat InfGen in staat is om veel modellen te verbeteren naar het tijdperk van willekeurige hoge resolutie, terwijl de generatietijd van 4K-afbeeldingen wordt teruggebracht tot minder dan 10 seconden.
De snelle adoptie van autonome AI-agenten leidt tot een nieuwe economische laag waarin agenten transacties uitvoeren en coördineren op schaal en snelheden die verder gaan dan direct menselijk toezicht. Wij stellen de "sandboxeconomie" voor als een raamwerk voor het analyseren van dit opkomende systeem, waarbij we het karakteriseren langs twee belangrijke dimensies: zijn oorsprong (spontaan vs. intentioneel) en zijn mate van afgescheidenheid van de gevestigde menselijke economie (doorlaatbaar vs. ondoorlaatbaar). Onze huidige trajectorie wijst op een spontane opkomst van een uitgebreide en sterk doorlaatbare economie van AI-agenten, wat ons kansen biedt voor een ongekende mate van coördinatie, maar ook aanzienlijke uitdagingen met zich meebrengt, waaronder systemisch economisch risico en verergerde ongelijkheid. Hier bespreken we een aantal mogelijke ontwerpkeuzes die kunnen leiden tot veilig bestuurbare markten voor AI-agenten. In het bijzonder beschouwen we veilingmechanismen voor eerlijke toewijzing van middelen en het oplossen van voorkeuren, het ontwerp van AI-"missie-economieën" om collectieve doelen te bereiken, en de sociaal-technische infrastructuur die nodig is om vertrouwen, veiligheid en verantwoordelijkheid te waarborgen. Hiermee pleiten we voor het proactief ontwerpen van bestuurbare agentmarkten om ervoor te zorgen dat de komende technologische verschuiving aansluit bij het langetermijncollectieve welzijn van de mensheid.
Het genereren van 3D-vormen op onderdeelniveau is cruciaal voor downstream toepassingen zoals mesh-retopologie, UV-mapping en 3D-printen. Bestaande methoden voor op delen gebaseerde generatie bieden echter vaak onvoldoende bestuurbaarheid en lijden onder een gebrekkige semantisch betekenisvolle decompositie. Daarom introduceren we X-Part, een bestuurbaar generatief model dat is ontworpen om een holistisch 3D-object te decomponeren in semantisch betekenisvolle en structureel samenhangende delen met een hoge geometrische nauwkeurigheid. X-Part maakt gebruik van begrenzingsvakken als prompts voor de deelgeneratie en injecteert puntgewijze semantische kenmerken voor een betekenisvolle decompositie. Bovendien hebben we een bewerkbare pijplijn ontworpen voor interactieve deelgeneratie. Uitgebreide experimentele resultaten tonen aan dat X-Part state-of-the-art prestaties levert in vormgeneratie op onderdeelniveau. Dit werk vestigt een nieuw paradigma voor het creëren van productieklaar, bewerkbaar en structureel solide 3D-assets. De code zal worden vrijgegeven voor publiek onderzoek.
Betrokkenheid en motivatie zijn cruciaal voor het verwerven van een tweede taal, maar het behouden van de interesse van leerlingen in educatieve gesprekken blijft een uitdaging. Hoewel eerder onderzoek heeft onderzocht wat educatieve teksten interessant maakt, is er nog steeds weinig bekend over de linguïstische kenmerken die betrokkenheid in gesprekken bevorderen. Om deze kloof te dichten, introduceren we IntrEx, de eerste grootschalige dataset die geannoteerd is voor interessantheid en verwachte interessantheid in interacties tussen docent en leerling. Gebaseerd op het Teacher-Student Chatroom Corpus (TSCC), breidt IntrEx eerder werk uit door sequentieniveau-annotaties te incorporeren, waardoor het mogelijk wordt om betrokkenheid te bestuderen die verder gaat dan geïsoleerde beurten, om te begrijpen hoe interesse evolueert in langere dialogen. We hanteren een rigoureus annotatieproces met meer dan 100 tweede-taalleerders, waarbij we een vergelijkingsgebaseerde beoordelingsmethode gebruiken die geïnspireerd is op reinforcement learning from human feedback (RLHF) om de overeenstemming te verbeteren. We onderzoeken of grote taalmmodellen (LLMs) menselijke beoordelingen van interessantheid kunnen voorspellen. We ontdekken dat LLMs (7B/8B parameters) die zijn afgestemd op interessantheidsbeoordelingen, grotere propriëtaire modellen zoals GPT-4o overtreffen, wat het potentieel aantoont van gespecialiseerde datasets om betrokkenheid in educatieve contexten te modelleren. Tot slot analyseren we hoe linguïstische en cognitieve factoren, zoals concreetheid, begrijpelijkheid (leesbaarheid) en opname, de betrokkenheid in educatieve dialogen beïnvloeden.
De Retrieval-Augmented Generation (RAG)-benadering verbetert vraag-antwoordsystemen en dialooggeneratietaken door informatie-retrieval (IR)-technologieën te integreren met grote taalmodel(len) (LLMs). Deze strategie, die informatie ophaalt uit externe kennisbanken om de antwoordmogelijkheden van generatieve modellen te versterken, heeft bepaalde successen geboekt. Huidige RAG-methoden staan echter nog voor talrijke uitdagingen bij het omgaan met multi-hop queries. Sommige benaderingen zijn bijvoorbeeld te afhankelijk van iteratieve retrieval, wat te veel retrievalstappen verspilt bij samengestelde queries. Bovendien kan het gebruik van de oorspronkelijke complexe query voor retrieval erin falen om inhoud te vinden die relevant is voor specifieke sub-queries, wat resulteert in ruis in de opgehaalde inhoud. Als deze ruis niet wordt beheerd, kan dit leiden tot het probleem van ruisaccumulatie. Om deze problemen aan te pakken, introduceren we HANRAG, een nieuw heuristisch raamwerk dat is ontworpen om problemen van verschillende complexiteit efficiënt aan te pakken. Aangedreven door een krachtige revelator, routeert HANRAG queries, decomposeert ze in sub-queries en filtert ruis uit opgehaalde documenten. Dit verbetert de aanpassingsvermogen en ruisbestendigheid van het systeem, waardoor het zeer geschikt is voor het verwerken van diverse queries. We vergelijken het voorgestelde raamwerk met andere toonaangevende methoden uit de industrie op verschillende benchmarks. De resultaten tonen aan dat ons raamwerk superieure prestaties behaalt in zowel single-hop als multi-hop vraag-antwoordtaken.
Naarmate Vision-Language Models (VLMs) steeds geavanceerder worden, staat hun vermogen om redeneringen uit te voeren onder toenemend toezicht. Hoewel ze uitblinken in veel taken, blijft hun begrip van fundamentele wetenschappelijke principes, zoals natuurkunde, een onderbelicht gebied. Om de vooruitgang in deze capaciteiten te weerspiegelen, introduceren we een nieuw en toegankelijk framework dat is ontworpen om VLMs rigoureus te evalueren op hun begrip van 2D-natuurkunde. Ons framework beschikt over een pragmatische scenariogenerator die een diverse testomgeving creëert met meer dan 400 problemen verdeeld over vier kerngebieden: Projectielbeweging, Botsingsdynamica, Mechanica en Vloeistofdynamica. Door een uitgebreide evaluatie van vier state-of-the-art VLMs, tonen we een sterke correlatie aan tussen de schaal van het model en het redeneervermogen, waarbij ons best presterende model, Qwen2.5-VL-7B, een totale score van 0,815 behaalt. We constateren dat modellen weliswaar uitblinken in formulegerichte problemen, maar aanzienlijk moeite hebben met domeinen die abstract ruimtelijk redeneren vereisen. Door dit framework te ontwerpen, streven we ernaar om de studie van wetenschappelijk redeneren in VLMs te democratiseren en diepere inzichten te bevorderen in hun mogelijkheden en beperkingen.
Gemaskte diffusie grote taalmodellen (dLLMs) komen naar voren als veelbelovende alternatieven voor autoregressieve LLMs, waarbij ze competitieve prestaties bieden en tegelijkertijd unieke generatiecapaciteiten ondersteunen, zoals inpainting. We onderzoeken hoe inpainting het ontwerp van RL-algoritmen voor dLLMs kan informeren. Het afstemmen van LLMs op reinforcement learning stuit op een uitdaging op het gebied van exploratie: schaarse beloningssignalen en verspilling van samples wanneer modellen er niet in slagen de juiste oplossingen te ontdekken. Hoewel deze inefficiëntie LLMs in het algemeen treft, bieden dLLMs een unieke kans—hun inpainting-vermogen kan de exploratie sturen. We introduceren IGPO (Inpainting Guided Policy Optimization), een RL-raamwerk dat strategisch gedeeltelijke grondwaarheid-redeneringstraceringen invoegt tijdens online sampling. In tegenstelling tot het aanbieden van volledige oplossingen, stuurt inpainting de exploratie naar veelbelovende trajectruimtes terwijl zelf gegenereerde redenering behouden blijft, waardoor een brug wordt geslagen tussen supervised fine-tuning en reinforcement learning. We passen IGPO toe op groep-gebaseerde optimalisatiemethoden zoals GRPO, waarbij exploratiefouten leiden tot nul voordelen en gradiënten. IGPO herstelt betekenisvolle gradiënten en verbetert tegelijkertijd de sample-efficiëntie. We stellen ook supervised fine-tuning voor op synthetisch herschreven beknopte traceringen die beter aansluiten bij de generatiepatronen van dLLMs. Met aanvullende technieken, waaronder entropie-gebaseerd filteren, levert ons trainingsrecept aanzienlijke verbeteringen op over drie wiskundige benchmarks—GSM8K, Math500 en AMC—waarbij nieuwe state-of-the-art resultaten worden behaald voor volledige aandacht gemaskte dLLMs.
Het Model Context Protocol (MCP) ontwikkelt zich snel als een cruciaal open standaard, ontworpen om de integratie en interoperabiliteit van agenten en tools te verbeteren, en is gepositioneerd om een nieuw tijdperk in te luiden van krachtige, onderling verbonden en echt nuttige agent-gebaseerde AI. Ondanks de groeiende adoptie van MCP slagen bestaande benchmarks er vaak niet in om de prestaties van agenten in deze nieuwe paradigma in de praktijk vast te leggen, wat leidt tot een vertekend beeld van hun werkelijke operationele waarde en een onvermogen om vaardigheden betrouwbaar te onderscheiden. Om deze kritieke evaluatiekloof te overbruggen, introduceren we MCP-AgentBench -- een uitgebreide benchmark die specifiek is ontwikkeld om de capaciteiten van taalagenten in MCP-gemedieerde toolinteracties rigoureus te beoordelen. Kernbijdragen van MCP-AgentBench omvatten: de oprichting van een robuuste MCP-testomgeving bestaande uit 33 operationele servers met 188 verschillende tools; de ontwikkeling van een benchmark met 600 systematisch ontworpen queries verdeeld over 6 verschillende categorieën met variërende interactiecomplexiteit; en de introductie van MCP-Eval, een nieuwe resultaatgerichte evaluatiemethodologie die prioriteit geeft aan het succes van taken in de praktijk. Door uitgebreide empirische evaluatie van toonaangevende taalagenten bieden we fundamentele inzichten. MCP-AgentBench heeft als doel de onderzoeksgemeenschap te voorzien van een gestandaardiseerd en betrouwbaar raamwerk om agenten te bouwen, valideren en verder te ontwikkelen die in staat zijn om de transformerende voordelen van MCP volledig te benutten, waardoor de vooruitgang naar echt capabele en interoperabele AI-systemen wordt versneld.
Recente ontwikkelingen in Large Language Models (LLMs) hebben indrukwekkende mogelijkheden getoond op het gebied van financieel redeneren en marktbegrip. Multi-agent LLM-frameworks zoals TradingAgent en FINMEM verbeteren deze modellen voor langetermijninvesterings taken, waarbij ze gebruikmaken van fundamentele en sentiment-gebaseerde inputs voor strategische besluitvorming. Dergelijke systemen zijn echter niet geschikt voor de hoge snelheid en precisie die vereist zijn bij High-Frequency Trading (HFT). HFT vereist snelle, risicobewuste beslissingen op basis van gestructureerde, kortetermijnsignalen, zoals technische indicatoren, grafiekpatronen en trend-gebaseerde kenmerken, wat verschilt van het langetermijnsemantische redeneren dat typisch is voor traditionele financiële LLM-toepassingen. Daarom introduceren we QuantAgent, het eerste multi-agent LLM-framework dat expliciet is ontworpen voor high-frequency algoritmische handel. Het systeem verdeelt handel in vier gespecialiseerde agents: Indicator, Pattern, Trend en Risk, elk uitgerust met domeinspecifieke tools en gestructureerde redeneer capaciteiten om verschillende aspecten van marktdynamiek te vangen binnen korte tijdsvensters. In zero-shot evaluaties over tien financiële instrumenten, waaronder Bitcoin en Nasdaq futures, toont QuantAgent superieure prestaties in zowel voorspellende nauwkeurigheid als cumulatief rendement over 4-uur handelsintervallen, en overtreft het sterke neurale en regel-gebaseerde referentiemodellen. Onze bevindingen suggereren dat het combineren van gestructureerde financiële voorkennis met taal-gebaseerd redeneren nieuw potentieel ontsluit voor traceerbare, real-time beslissingssystemen in high-frequency financiële markten.
Het ontwikkelen van efficiënte Vision-Language-Action (VLA)-beleidsmodellen is cruciaal voor praktische robotica-implementatie, maar huidige benaderingen kampen met onhoudbare rekenkosten en resourcevereisten. Bestaande op diffusie gebaseerde VLA-beleidsmodellen vereisen modellen met miljarden parameters en enorme datasets om sterke prestaties te behalen. Wij pakken deze efficiëntie-uitdaging aan met twee bijdragen: intermediaire-modaliteitsfusie, die capaciteit herverdeelt naar de diffusiekop door tot 50% van de LLM-lagen te snoeien, en actiespecifieke Global-AdaLN-conditionering, die het aantal parameters met 20% vermindert door modulaire aanpassing. We integreren deze vooruitgang in een nieuw 950 M-parameter VLA-model genaamd FLOWER. Na slechts 200 H100 GPU-uren vooraf getraind, levert FLOWER competitieve prestaties met grotere VLA-modellen over 190 taken die tien simulatie- en real-world benchmarks omvatten, en toont het robuustheid over diverse robotische uitvoeringen. Daarnaast behaalt FLOWER een nieuwe state-of-the-art (SoTA) score van 4.53 op de CALVIN ABC-benchmark. Demo's, code en vooraf getrainde gewichten zijn beschikbaar op https://intuitive-robots.github.io/flower_vla/.
Long-tailed learning heeft steeds meer aandacht gekregen vanwege de brede toepasbaarheid in real-world scenario's. Onder de bestaande benaderingen is Long-Tailed Semi-Supervised Learning (LTSSL) naar voren gekomen als een effectieve oplossing door een grote hoeveelheid ongelabelde gegevens te integreren in de onbalans van het gelabelde dataset. De meeste eerdere LTSSL-methoden zijn echter ontworpen om modellen vanaf nul te trainen, wat vaak leidt tot problemen zoals overmatig vertrouwen en pseudo-labels van lage kwaliteit. Om deze uitdagingen aan te pakken, breiden we LTSSL uit naar het fine-tuning paradigma van foundation modellen en introduceren we een nieuw framework: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). We tonen aan dat fine-tuned foundation modellen betrouwbaardere pseudo-labels kunnen genereren, wat ten goede komt aan onbalans leren. Bovendien verkennen we een praktischer instelling door semi-supervised learning te onderzoeken onder open-world omstandigheden, waarbij de ongelabelde gegevens out-of-distribution (OOD) monsters kunnen bevatten. Om dit probleem aan te pakken, stellen we LoFT-OW (LoFT onder Open-World scenario's) voor om het onderscheidend vermogen te verbeteren. Experimentele resultaten op meerdere benchmarks tonen aan dat onze methode superieure prestaties bereikt in vergelijking met eerdere benaderingen, zelfs wanneer slechts 1\% van de ongelabelde gegevens wordt gebruikt in vergelijking met eerdere werken.
We presenteren Probabilistic Structure Integration (PSI), een systeem voor het leren van rijkelijk bestuurbare en flexibel aanstuurbare wereldmodellen uit data. PSI bestaat uit een drie-stappen cyclus. De eerste stap, Probabilistische voorspelling, omvat het bouwen van een probabilistisch grafisch model Psi van de data, in de vorm van een random-access autoregressief sequentiemodel. Psi ondersteunt een complete set van geleerde conditionele verdelingen die de afhankelijkheid van variabelen in de data op elke andere set van variabelen beschrijven. In stap 2, Structuur extractie, laten we zien hoe onderliggende laagdimensionale eigenschappen in de data kunnen worden geëxtraheerd, wat overeenkomt met een diverse set van betekenisvolle "tussenliggende structuren", op een zero-shot manier via causale inferentie op Psi. Stap 3, Integratie, voltooit de cyclus door deze structuren om te zetten in nieuwe tokentypes die vervolgens continu worden teruggevoerd in het trainingsdieet als conditioneringssignalen en voorspellingsdoelen. Elke dergelijke cyclus vergroot de mogelijkheden van Psi, zowel door het beter modelleren van de onderliggende data, als door het creëren van nieuwe controlehandvatten – vergelijkbaar met een LLM-achtige universele prompttaal. We trainen een instantie van Psi op 1,4 biljoen tokens van internetvideodata; we gebruiken het om een verscheidenheid aan nuttige videovoorspellingen en begripsinferenties uit te voeren; we extraheren state-of-the-art optische stroming, zelfgesuperviseerde diepte en objectsegmentatie; en we gebruiken deze structuren om een volledige cyclus van voorspellingsverbeteringen te ondersteunen.
Nauwkeurige kleurafstemming in tekst-naar-beeld (T2I) generatie is cruciaal voor toepassingen zoals mode, productvisualisatie en interieurontwerp, maar huidige diffusiemodellen hebben moeite met genuanceerde en samengestelde kleurtermen (bijv. Tiffany blauw, limoengroen, felroze), wat vaak resulteert in afbeeldingen die niet overeenkomen met de menselijke intentie. Bestaande benaderingen vertrouwen op cross-attention manipulatie, referentiebeelden of fine-tuning, maar slagen er niet in om dubbelzinnige kleurbeschrijvingen systematisch op te lossen. Om kleuren nauwkeurig weer te geven bij prompt-dubbelzinnigheid, stellen we een trainingsvrij raamwerk voor dat de kleurtrouw verbetert door gebruik te maken van een groot taalmodel (LLM) om kleurgerelateerde prompts te verduidelijken en kleurmengingsoperaties direct in de tekstembeddingruimte te begeleiden. Onze methode gebruikt eerst een groot taalmodel (LLM) om dubbelzinnige kleurtermen in de tekstprompt op te lossen, en verfijnt vervolgens de tekstembeddings op basis van de ruimtelijke relaties van de resulterende kleurtermen in de CIELAB-kleurruimte. In tegenstelling tot eerdere methoden verbetert onze aanpak de kleurnauwkeurigheid zonder extra training of externe referentiebeelden nodig te hebben. Experimentele resultaten tonen aan dat ons raamwerk de kleurafstemming verbetert zonder de beeldkwaliteit aan te tasten, waardoor de kloof tussen tekstsemantiek en visuele generatie wordt overbrugd.
Gesproken taalmodellen (SLMs) zijn naar voren gekomen als een uniform paradigma voor spraakbegrip en -generatie, waardoor natuurlijke mens-machine-interactie mogelijk wordt gemaakt. Hoewel de meeste vooruitgang zich heeft gericht op semantische nauwkeurigheid en het volgen van instructies, heeft het vermogen van SLMs om hun spreekstijl aan te passen op basis van gesproken instructies beperkte aandacht gekregen. Wij introduceren Voice Style Adaptation (VSA), een nieuwe taak die onderzoekt of SLMs hun spreekstijl, zoals timbre, prosodie of persona, kunnen aanpassen op basis van natuurlijke gesproken taalcommando's. Om deze taak te bestuderen, presenteren we VStyle, een tweetalige (Chinees & Engels) benchmark die vier categorieën van spraakgeneratie omvat: akoestische attributen, natuurlijke taal-instructies, rollenspel en impliciete empathie. We introduceren ook het Large Audio Language Model as a Judge (LALM as a Judge) framework, dat outputs progressief evalueert op tekstuele trouw, stijltrouw en natuurlijkheid, waardoor reproduceerbare en objectieve beoordeling wordt gegarandeerd. Experimenten met commerciële systemen en open-source SLMs tonen aan dat huidige modellen duidelijke beperkingen hebben in controleerbare stijlaanpassing, wat zowel de nieuwigheid als de uitdaging van deze taak benadrukt. Door VStyle en zijn evaluatietoolkit vrij te geven, streven we ernaar de gemeenschap een basis te bieden voor het bevorderen van mensgerichte gesproken interactie. De dataset en code zijn openbaar beschikbaar op https://junzhan2000.github.io/VStyle.github.io/{project's homepage}.
Grote Taalmodellen (LLM's) hebben opmerkelijke successen behaald in diverse domeinen. Een fundamentele vraag blijft echter: Kunnen LLM's effectief causale kennis benutten voor voorspelling en generatie? Door empirische studies ontdekken we dat LLM's die direct getraind zijn op grootschalige data vaak valse correlaties vastleggen in plaats van echte causale relaties, wat leidt tot suboptimale prestaties, vooral in out-of-distribution (OOD) scenario's. Om deze uitdaging aan te pakken, stellen we Causal Attention Tuning (CAT) voor, een nieuwe aanpak die fijnmazige causale kennis injecteert in het aandachtmechanisme. We introduceren een geautomatiseerde pijplijn die gebruikmaakt van menselijke voorkennis om automatisch token-niveau causale signalen te genereren en introduceren het Re-Attention mechanisme om de training te begeleiden, waardoor het model zich kan focussen op causale structuren terwijl ruis en biases in aandachtsscores worden gemitigeerd. Experimentele resultaten op onze voorgestelde Spurious Token Game (STG) benchmark en meerdere downstream taken tonen aan dat onze aanpak effectief causale kennis benut voor voorspelling en robuust blijft in OOD scenario's. Implementatiedetails zijn te vinden op https://github.com/Kairong-Han/CAT.
Het opnemen van externe context kan de responskwaliteit van Large Language Models (LLMs) aanzienlijk verbeteren. Echter bevatten real-world contexten vaak een mix van relevante informatie en onevenredig veel ongepaste inhoud, wat betrouwbaarheidsrisico's met zich meebrengt. Hoe verwerken en prioriteren LLMs gemengde context? Om dit te bestuderen, introduceren we de Poisoned Context Testbed, waarbij queries worden gekoppeld aan real-world contexten die zowel relevante als ongepaste inhoud bevatten. Geïnspireerd door associatief leren bij dieren, passen we het Rescorla-Wagner (RW) model uit de neurowetenschappen aan om te kwantificeren hoe concurrerende contextuele signalen de uitvoer van LLMs beïnvloeden. Ons aangepaste model onthult een consistent gedragspatroon: LLMs vertonen een sterke neiging om informatie op te nemen die minder aanwezig is in de context. Deze gevoeligheid is schadelijk in real-world situaties, waar kleine hoeveelheden ongepaste inhoud de responskwaliteit aanzienlijk kunnen verslechteren. Empirische evaluaties op onze testbank bevestigen deze kwetsbaarheid verder. Om dit aan te pakken, introduceren we RW-Steering, een tweefasen fine-tuning benadering die het model in staat stelt om intern ongepaste signalen te identificeren en te negeren. In tegenstelling tot eerdere methoden die afhankelijk zijn van uitgebreide supervisie over diverse contextmengsels, generaliseert RW-Steering robuust over verschillende verhoudingen van ongepaste inhoud. Experimenten tonen aan dat ons best fine-tuned model de responskwaliteit met 39,8% verbetert en de ongewenste gedragscurve omkeert, waardoor RW-Steering wordt gevestigd als een robuuste, generaliseerbare context engineering oplossing voor het verbeteren van de veiligheid van LLMs in real-world gebruik.
Visueel redeneren over gestructureerde gegevens zoals tabellen is een cruciale vaardigheid voor moderne visie-taalmodellen (VLMs), maar huidige benchmarks blijven beperkt in schaal, diversiteit of redeneerdiepte, vooral als het gaat om gerenderde tabelafbeeldingen. Om dit gat te dichten, introduceren we Visual-TableQA, een grootschalige, open-domein multimodale dataset die specifiek is ontworpen om visueel redeneren over complexe tabelgegevens te evalueren en te verbeteren. Onze generatiepijplijn is modulair, schaalbaar en volledig autonoom, waarbij meerdere redeneer-LLM's samenwerken in verschillende rollen: generatie, validatie en inspiratie. Visual-TableQA omvat 2,5k rijk gestructureerde LaTeX-gerenderde tabellen en 6k intensieve redeneer-vraag-antwoordparen, allemaal geproduceerd tegen een kosten van minder dan USD 100. Om diversiteit en creativiteit te bevorderen, voert onze pijplijn multi-model collaboratieve gegevensgeneratie uit via cross-model prompting ('inspiratie') en LLM-juryfiltering. Sterkere modellen zaaien lay-outs en onderwerpen die zwakkere modellen uitwerken, waardoor diverse redeneerpatronen en visuele structuren gezamenlijk in de dataset worden gedestilleerd. Empirische resultaten tonen aan dat modellen die zijn afgestemd op Visual-TableQA robuust generaliseren naar externe benchmarks, waarbij ze verschillende propriëtaire modellen overtreffen ondanks de synthetische aard van de dataset. De volledige pijplijn en bronnen zijn publiekelijk beschikbaar op https://github.com/AI-4-Everyone/Visual-TableQA.
Dit systeempresentatie beschrijft de aanpakken van het DeMeVa-team voor de derde editie van de gedeelde taak Learning with Disagreements (LeWiDi 2025; Leonardelli et al., 2025). We onderzoeken twee richtingen: in-context learning (ICL) met grote taalmodellen, waarbij we voorbeeldselectiestrategieën vergelijken; en label distribution learning (LDL) methoden met RoBERTa (Liu et al., 2019b), waarbij we verschillende fine-tuning methoden evalueren. Onze bijdragen zijn tweeledig: (1) we tonen aan dat ICL effectief annotator-specifieke annotaties (perspectivistische annotaties) kan voorspellen, en dat het aggregeren van deze voorspellingen tot zachte labels competitieve prestaties oplevert; en (2) we beargumenteren dat LDL-methoden veelbelovend zijn voor het voorspellen van zachte labels en verdere verkenning door de perspectivistische gemeenschap verdienen.
Grote taalmodellen (LLM's) transformeren sociaalwetenschappelijk onderzoek in rap tempo door het automatiseren van arbeidsintensieve taken zoals data-annotatie en tekstanalyse. De uitvoer van LLM's varieert echter aanzienlijk afhankelijk van de implementatiekeuzes die onderzoekers maken (bijvoorbeeld modelselectie, promptstrategie of temperatuurinstellingen). Deze variatie kan systematische biases en willekeurige fouten introduceren, die doorwerken in downstream analyses en leiden tot Type I-, Type II-, Type S- of Type M-fouten. Wij noemen dit LLM-hacking. Wij kwantificeren het risico van LLM-hacking door 37 data-annotatietaken uit 21 gepubliceerde sociaalwetenschappelijke onderzoeken te repliceren met 18 verschillende modellen. Door 13 miljoen LLM-labels te analyseren, testen we 2.361 realistische hypotheses om te meten hoe plausibele keuzes van onderzoekers statistische conclusies beïnvloeden. We ontdekken incorrecte conclusies op basis van LLM-geannoteerde data in ongeveer één op de drie hypotheses voor state-of-the-art modellen, en in de helft van de hypotheses voor kleine taalmodellen. Hoewel onze bevindingen aantonen dat hogere taakprestaties en betere algemene modelcapaciteiten het risico op LLM-hacking verminderen, elimineren zelfs zeer nauwkeurige modellen het niet volledig. Het risico van LLM-hacking neemt af naarmate de effectgroottes toenemen, wat de noodzaak benadrukt van strengere verificatie van bevindingen nabij significantiedrempels. Onze uitgebreide analyse van technieken om LLM-hacking te mitigeren onderstreept het belang van menselijke annotaties bij het verminderen van fout-positieve bevindingen en het verbeteren van modelselectie. Verrassend genoeg zijn veelgebruikte correctietechnieken voor regressieschatters grotendeels ineffectief in het verminderen van het risico op LLM-hacking, omdat ze sterk afwegen tussen Type I- en Type II-fouten. Naast onbedoelde fouten ontdekken we dat opzettelijke LLM-hacking onaanvaardbaar eenvoudig is. Met slechts enkele LLM's en een handvol promptparafraseringen kan alles als statistisch significant worden gepresenteerd.
Minderheidstalen in China, zoals Tibetaans, Oeigoers en traditioneel Mongools, worden geconfronteerd met aanzienlijke uitdagingen vanwege hun unieke schriftsystemen, die afwijken van internationale standaarden. Deze discrepantie heeft geleid tot een ernstig gebrek aan relevante corpora, met name voor begeleide taken zoals kopregelgeneratie. Om dit hiaat te verhelpen, introduceren we een nieuwe dataset, Chinese Minority Headline Generation (CMHG), die 100.000 ingangen voor Tibetaans bevat, en 50.000 ingangen elk voor Oeigoers en Mongools, speciaal samengesteld voor kopregelgeneratietaken. Daarnaast stellen we een hoogwaardige testset voor, geannoteerd door moedertaalsprekers, die bedoeld is als benchmark voor toekomstig onderzoek op dit gebied. We hopen dat deze dataset een waardevolle bron zal worden voor het bevorderen van kopregelgeneratie in Chinese minderheidstalen en zal bijdragen aan de ontwikkeling van gerelateerde benchmarks.