Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het Hiërarchisch Redeneermodel (HRM) is een nieuwe aanpak die gebruikmaakt van twee kleine neurale netwerken die op verschillende frequenties recursief werken. Deze biologisch geïnspireerde methode overtreft grote taalmodelen (LLM's) bij moeilijke puzzeltaken zoals Sudoku, doolhoven en ARC-AGI, terwijl het getraind is met kleine modellen (27M parameters) op beperkte data (ongeveer 1000 voorbeelden). HRM biedt veelbelovende mogelijkheden voor het oplossen van complexe problemen met kleine netwerken, maar het is nog niet volledig begrepen en kan suboptimaal zijn. Wij stellen het Minimaal Recursief Model (TRM) voor, een veel eenvoudigere recursieve redeneeraanpak die aanzienlijk betere generalisatie bereikt dan HRM, terwijl het slechts één klein netwerk met 2 lagen gebruikt. Met slechts 7M parameters behaalt TRM een testnauwkeurigheid van 45% op ARC-AGI-1 en 8% op ARC-AGI-2, wat hoger is dan de meeste LLM's (bijv. Deepseek R1, o3-mini, Gemini 2.5 Pro) met minder dan 0,01% van de parameters.
Resultaatgedreven reinforcement learning heeft het redeneren in grote taalmodellen (LLMs) vooruitgeholpen, maar heersende tool-augmented benaderingen trainen een enkel, monolitisch beleid dat gedachten en toolaanroepen onder volledige context verweeft; dit schaalt slecht met lange horizonnen en diverse tools en generaliseert zwak naar nieuwe scenario's. Agentische systemen bieden een veelbelovend alternatief door werk te verdelen over gespecialiseerde modules, maar de meeste blijven trainingsvrij of vertrouwen op offline training die losstaat van de live dynamiek van multi-turn interactie. We introduceren AgentFlow, een trainbaar, in-the-flow agentisch framework dat vier modules (planner, uitvoerder, verifier, generator) coördineert via een evoluerend geheugen en zijn planner direct optimaliseert binnen de multi-turn loop. Om on-policy te trainen in live omgevingen, stellen we Flow-based Group Refined Policy Optimization (Flow-GRPO) voor, dat lange-horizon, spaarzame-beloning krediettoewijzing aanpakt door multi-turn optimalisatie om te zetten in een reeks behapbare single-turn beleidsupdates. Het zendt een enkel, verifieerbaar trajectniveau resultaat uit naar elke beurt om lokale plannerbeslissingen af te stemmen op globaal succes en stabiliseert het leren met groep-genormaliseerde voordelen. Over tien benchmarks presteert AgentFlow met een 7B-schaal backbone beter dan de best presterende baselines met gemiddelde nauwkeurigheidswinsten van 14,9% op zoekopdrachten, 14,0% op agentische, 14,5% op wiskundige en 4,1% op wetenschappelijke taken, en overtreft zelfs grotere propriëtaire modellen zoals GPT-4o. Verdere analyses bevestigen de voordelen van in-the-flow optimalisatie, met verbeterde planning, verhoogde betrouwbaarheid van toolaanroepen en positieve schaalbaarheid met modelgrootte en redeneerbeurten.
Tool-geïntegreerd redeneren is naar voren gekomen als een belangrijk aandachtspunt voor het mogelijk maken van agent-gebaseerde toepassingen. Onder deze hebben DeepResearch Agents aanzienlijke aandacht gekregen vanwege hun sterke prestaties op complexe, open-einde informatiezoektaken. Wij introduceren Fathom-DeepResearch, een agent-gebaseerd systeem dat bestaat uit twee gespecialiseerde modellen. Het eerste is Fathom-Search-4B, een DeepSearch-model getraind vanuit Qwen3-4B en geoptimaliseerd voor op bewijs gebaseerd onderzoek via live webzoekopdrachten en gerichte webpagina-query's. De training combineert drie verbeteringen: (i) DUETQA, een dataset van 5K voorbeelden gegenereerd via multi-agent zelfspel die strikte afhankelijkheid van webzoekopdrachten en heterogene bronverankering afdwingt; (ii) RAPO, een zero-overhead uitbreiding van GRPO die multi-turn Reinforcement Learning met Verifieerbare Beloningen stabiliseert door curriculum pruning, beloningsbewuste voordeelschaling en per-prompt replay buffers; en (iii) een stuurbaar stapniveau-beloning die elke toolaanroep classificeert op cognitief gedrag en marginaal nut, wat expliciete controle mogelijk maakt over de breedte, diepte en horizon van de zoektrajecten. Deze verbeteringen maken een betrouwbare uitbreiding van tool-aanroepen mogelijk tot meer dan 20 aanroepen wanneer nodig. Het tweede is Fathom-Synthesizer-4B, getraind vanuit Qwen3-4B, dat multi-turn DeepSearch-sporen omzet in gestructureerde, citatie-dichte DeepResearch-rapporten voor uitgebreide synthese. Geëvalueerd op DeepSearch-benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) en DeepResearch-Bench, behaalt het systeem state-of-the-art prestaties in de open-gewichten categorie terwijl het sterke generalisatie toont naar diverse redeneertaken, waaronder HLE, AIME-25, GPQA-Diamond en MedQA.
Process Reward Models (PRMs) zijn recent naar voren gekomen als een krachtig raamwerk voor het verbeteren van de redeneervaardigheden van grote redeneermodellen (LRMs), met name in de context van test-time scaling (TTS). Hun potentieel voor het begeleiden van LRMs in tabelgebaseerde redeneerdomeinen blijft echter onderbelicht. Door gedetailleerde empirische analyses hebben we vastgesteld dat bestaande PRMs, hoewel veel gebruikt voor het begeleiden van tekstuele redeneerstappen, moeite hebben met tabel-specifieke operaties zoals het ophalen van subtabellen en schema-interactie, wat leidt tot kritieke prestatieknelpunten. Om deze beperking aan te pakken, stellen we TaTToo voor, een nieuw tabelgebaseerd PRM-raamwerk dat (i) expliciet redeneert over tabelgebaseerde redeneerstappen en (ii) toolgebaseerde verificatie integreert om precieze beloningsbegeleiding te bieden. Concreet ontwerpen we eerst een schaalbare datacuratiepijplijn die meer dan 60k hoogwaardige stapgewijze annotaties construeert door tabelverificatierationales te integreren met toolgebaseerde uitvoeringen. Op basis van de verzamelde data trainen we TaTToo met een tweefasenparadigma: cold-start supervised fine-tuning om toolgebruik-redeneerpatronen vast te leggen, gevolgd door reinforcement learning met toolgebaseerde beloningsvorming om ons model af te stemmen op tabelgebaseerde verificatie. We bieden een uitgebreide evaluatie van de beleidsverbetering die wordt geïnduceerd door onze nieuw ontworpen PRM. Over 5 uitdagende tabelgebaseerde redeneerbenchmarks die numeriek redeneren, feitencontrole en data-analyse omvatten, verbetert TaTToo downstream beleids-LRMs met 30,9% tijdens inferentie, overtreft het sterke PRM-baselines zoals Qwen-2.5-Math-PRM-72B met slechts 8B parameters, en toont het sterke generaliseerbaarheid over diverse TTS-strategieën.
Autoregressieve (AR) grote taalmmodellen (LLMs) hebben opmerkelijke prestaties geleverd op een breed scala aan natuurlijke taal taken, maar hun inherente sequentiële decodering beperkt de inferentie-efficiëntie. In dit werk stellen we Fast-dLLM v2 voor, een zorgvuldig ontworpen block diffusion taalmodel (dLLM) dat vooraf getrainde AR-modellen efficiënt aanpast naar dLLMs voor parallelle tekstgeneratie, waarbij slechts ongeveer 1B tokens van fine-tuning nodig zijn. Dit vertegenwoordigt een 500x reductie in trainingsdata vergeleken met full-attention diffusion LLMs zoals Dream (580B tokens), terwijl de prestaties van het oorspronkelijke model behouden blijven. Onze aanpak introduceert een nieuw trainingsrecept dat een block diffusion mechanisme combineert met een complementair aandachtmasker, waardoor blockgewijze bidirectionele contextmodellering mogelijk wordt zonder de AR-trainingsdoelen op te offeren. Om het decoderen verder te versnellen, ontwerpen we een hiërarchisch cachingmechanisme: een block-level cache die historische contextrepresentaties over blokken opslaat, en een sub-block cache die efficiënte parallelle generatie binnen gedeeltelijk gedecodeerde blokken mogelijk maakt. In combinatie met onze parallelle decoderingpipeline bereikt Fast-dLLM v2 een versnelling tot 2.5x ten opzichte van standaard AR-decodering zonder in te leveren op generatiekwaliteit. Uitgebreide experimenten over diverse benchmarks tonen aan dat Fast-dLLM v2 de AR-baselines evenaart of overtreft in nauwkeurigheid, terwijl het state-of-the-art efficiëntie biedt onder dLLMs - wat een significante stap markeert naar de praktische inzet van snelle en nauwkeurige LLMs. Code en model zullen openbaar worden vrijgegeven.
Diffusie-taalmodelle beloven bidirectionele context en invulmogelijkheden die autoregressieve coders missen, maar praktische systemen blijven nog steeds zwaar. Wij introduceren CoDA, een diffusie-coder met 1,7 miljard parameters, getraind op TPU met een volledig open-source trainingspijplijn. CoDA combineert grootschalige diffusie-pre-training met code-gerichte mid-training en instructie-afstemming, waardoor vertrouwensgestuurde sampling mogelijk wordt die de inferentie-latentie concurrerend houdt. Op Humaneval, MBPP en EvalPlus presteert CoDA-1.7B-Instruct even goed of beter dan diffusiemodellen met tot 7 miljard parameters. Onze release omvat modelcheckpoints, evaluatieharnassen en TPU-trainingspijplijnen om onderzoek naar lichtgewicht diffusie-gebaseerde codeerassistenten te versnellen.
Diffusie- en stroomgebaseerde niet-autoregressieve (NAR) modellen hebben veelbelovende resultaten getoond in grootschalige taalmodelering, maar hun potentieel voor automatische spraakherkenning (ASR) blijft grotendeels onontgonnen. Wij stellen Drax voor, een discreet stroommatchingraamwerk voor ASR dat efficiënte parallelle decodering mogelijk maakt. Om de training beter af te stemmen op inferentie, construeren we een audio-geconditioneerd waarschijnlijkheidspad dat het model begeleidt langs trajecten die lijken op waarschijnlijke tussenliggende inferentiefouten, in plaats van directe overgangen van willekeurige ruis naar doelen. Onze theoretische analyse verbindt de generalisatiekloof met divergenties tussen trainings- en inferentie-occupaties, die worden beheerst door cumulatieve snelheidsfouten, wat onze ontwerpkeuze motiveert. Empirische evaluatie toont aan dat onze benadering een herkenningsnauwkeurigheid bereikt die vergelijkbaar is met state-of-the-art spraakmodellen, terwijl er betere nauwkeurigheid-efficiëntie-afwegingen worden geboden. Dit benadrukt discreet stroommatching als een veelbelovende richting voor de verdere ontwikkeling van NAR ASR.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd bij enkelvoudige tekst-naar-SQL taken, maar real-world database-applicaties vereisen voornamelijk meervoudige interacties om ambiguïteit in queries, uitvoeringsfouten en veranderende gebruikersbehoeften te hanteren. Bestaande benchmarks voor meervoudige interacties schieten tekort door conversatiegeschiedenissen als statische context te behandelen of de evaluatie te beperken tot alleen-lezen operaties, waardoor ze de uitdagingen van productieklasse database-assistenten niet weerspiegelen. Wij introduceren BIRD-INTERACT, een benchmark die deze realiteit herstelt door: (1) een uitgebreide interactieomgeving die elke database koppelt aan een hiërarchische kennisbank, metadata-bestanden en een functiegedreven gebruikerssimulator, waardoor modellen in staat zijn om verduidelijkingen te vragen, kennis op te halen en fouten te herstellen zonder menselijk toezicht; (2) twee evaluatie-instellingen bestaande uit een vooraf gedefinieerd conversatieprotocol (c-Interact) en een open-ended agentische instelling (a-Interact) waarin modellen autonoom beslissen wanneer ze de gebruikerssimulator moeten bevragen of de omgeving moeten verkennen; (3) een uitdagende taakset die het volledige CRUD-spectrum beslaat voor business-intelligence en operationele use cases, bewaakt door uitvoerbare testcases. Elke taak bevat ambiguïteit en vervolgsubtaken die dynamische interactie vereisen. De set bestaat uit BIRD-INTERACT-FULL (600 taken, tot 11.796 interacties) voor uitgebreide prestatiebeoordeling, en BIRD-INTERACT-LITE (300 taken met vereenvoudigde databases) voor gedetailleerde gedragsanalyse en snelle methodeontwikkeling. Onze empirische resultaten benadrukken de moeilijkheidsgraad van BIRD-INTERACT: GPT-5 voltooit slechts 8,67% van de taken in c-Interact en 17,00% in a-Interact. Analyse via geheugentransplantatie en Interaction Test-time Scaling bevestigt het belang van effectieve interactie voor complexe, dynamische tekst-naar-SQL taken.
Redeneermodellen verbeteren prestaties door problemen stap voor stap aan te pakken, ze op te splitsen in subproblemen en lange gedachtegangen te verkennen voordat een antwoord wordt geproduceerd. Het toepassen van uitgebreid redeneren op elke stap introduceert echter aanzienlijke redundantie, aangezien subproblemen sterk variëren in moeilijkheidsgraad en complexiteit: een klein aantal cruciale stappen is echt uitdagend en beslissend voor het uiteindelijke antwoord, terwijl vele andere slechts eenvoudige revisies of simpele berekeningen vereisen. Daarom is het een natuurlijk idee om redeneermodellen het vermogen te geven om adaptief op deze variatie te reageren, in plaats van alle stappen met hetzelfde niveau van uitwerking te behandelen. Hiertoe stellen we MixReasoning voor, een raamwerk dat dynamisch de diepte van het redeneren binnen een enkel antwoord aanpast. De resulterende gedachtegang wordt dan een mengsel van gedetailleerd redeneren bij moeilijke stappen en beknopte inferentie bij eenvoudigere. Experimenten op GSM8K, MATH-500 en AIME tonen aan dat MixReasoning de lengte van het redeneren verkort en de efficiëntie aanzienlijk verbetert zonder de nauwkeurigheid in gevaar te brengen.
Redeneervermogen is cruciaal voor Large Language Models (LLMs) om complexe taken op te lossen, maar het bereiken van betrouwbare en schaalbare redenering blijft een uitdaging. Hoewel Chain-of-Thought (CoT) prompting een mainstream benadering is geworden, lijden bestaande methoden vaak aan ongecontroleerde generatie, onvoldoende kwaliteit en beperkte diversiteit in redeneerpaden. Recente inspanningen maken gebruik van code om CoT te verbeteren door redenering te verankeren in uitvoerbare stappen, maar dergelijke methoden zijn meestal beperkt tot vooraf gedefinieerde wiskundige problemen, wat de schaalbaarheid en generaliseerbaarheid belemmert. In dit werk stellen we Caco (Code-Assisted Chain-of-ThOught) voor, een nieuw framework dat de synthese van hoogwaardige, verifieerbare en diverse instructie-CoT-redeneergegevens automatiseert via code-gestuurde augmentatie. In tegenstelling tot eerder werk, fine-tunt Caco eerst een code-gebaseerde CoT-generator op bestaande wiskundige en programmeeroplossingen in een uniform codeformaat, en schaalt vervolgens de gegevensgeneratie naar een grote hoeveelheid diverse redeneersporen. Cruciaal is dat we geautomatiseerde validatie introduceren via code-uitvoering en regelgebaseerde filtering om logische correctheid en structurele diversiteit te waarborgen, gevolgd door het reverse-engineeren van gefilterde uitvoer naar natuurlijke taal-instructies en taal-CoTs om de taakaanpassingsvermogen te verrijken. Dit gesloten-loopproces maakt volledig geautomatiseerde, schaalbare synthese van redeneergegevens mogelijk met gegarandeerde uitvoerbaarheid. Experimenten op onze gecreëerde Caco-1.3M-dataset tonen aan dat met Caco getrainde modellen sterke competitieve prestaties behalen op wiskundige redeneerbenchmarks, waarbij bestaande sterke baselines worden overtroffen. Verdere analyse onthult dat Caco's code-geankerde verificatie en instructiediversiteit bijdragen aan superieure generalisatie over onbekende taken. Ons werk vestigt een paradigma voor het bouwen van zelfonderhoudende, betrouwbare redeneersystemen zonder menselijke tussenkomst.
Video-geconditioneerde 4D-vormgeneratie heeft als doel om tijdvariërende 3D-geometrie en zicht-consistent uiterlijk direct uit een invoervideo te herstellen. In dit werk introduceren we een native video-naar-4D-vormgeneratie framework dat een enkele dynamische 3D-representatie end-to-end uit de video synthetiseert. Ons framework introduceert drie sleutelcomponenten gebaseerd op grootschalige vooraf getrainde 3D-modellen: (i) een temporele aandacht die de generatie conditioneert op alle frames terwijl een tijd-geïndexeerde dynamische representatie wordt geproduceerd; (ii) een tijd-bewuste puntsampling en 4D latente verankering die temporeel consistente geometrie en textuur bevorderen; en (iii) ruis-deling over frames om temporele stabiliteit te verbeteren. Onze methode vangt nauwkeurig niet-rigide beweging, volumeveranderingen en zelfs topologische overgangen op zonder per-frame optimalisatie. Over diverse in-the-wild video's verbetert onze methode de robuustheid en perceptuele geloofwaardigheid en vermindert het faalmodi in vergelijking met de basislijnen.
Multimodale grote taalmodellen (MLLMs) hebben recentelijk opmerkelijke vooruitgang geboekt in de radiologie door visuele waarneming te integreren met natuurlijke taalverwerking. Ze genereren echter vaak klinisch niet-onderbouwde beschrijvingen, bekend als medische hallucinaties, wat ernstige risico's met zich meebrengt in medische toepassingen die nauwkeurigheid en beeldgebaseerde uitvoer vereisen. Door empirische analyse constateren we dat prompt-geïnduceerde hallucinaties nog steeds veel voorkomen in radiologische MLLMs, voornamelijk door overgevoeligheid voor klinische secties. Om dit aan te pakken, introduceren we Clinical Contrastive Decoding (CCD), een trainingsvrij en retrieval-vrij inferentiekader dat gestructureerde klinische signalen integreert van taakspecifieke radiologie-expertmodellen. CCD introduceert een dubbelfasig contrastief mechanisme om token-level logits te verfijnen tijdens de generatie, waardoor de klinische betrouwbaarheid wordt verbeterd zonder het basis-MLLM aan te passen. Experimenten op drie datasets en meerdere modellen tonen aan dat CCD consistent de algehele prestaties verbetert bij het genereren van radiologische rapporten (RRG). Op de MIMIC-CXR dataset levert het tot 17% verbetering in RadGraph-F1 op wanneer het wordt toegepast op state-of-the-art RRG-modellen. Onze aanpak biedt een lichtgewicht en generaliseerbare oplossing voor het verminderen van medische hallucinaties, waardoor expertmodellen en MLLMs effectief worden verbonden in de radiologie.
Recente post-trainingsmethoden voor Large Language Models (LLM) vertrouwen op token-level clippingmechanismen tijdens Reinforcement Learning (RL). Wij identificeren echter een fundamenteel probleem in dit Outcome-Supervised RL (OSRL)-paradigma: de Importance Sampling (IS)-ratio's van tokens met positief voordeel zijn niet op elkaar afgestemd, wat leidt tot een onevenwichtige tokenweging voor positieve en negatieve tokens. Deze mismatch onderdrukt de update van tokens met een lage waarschijnlijkheid terwijl reeds hoogwaarschijnlijke tokens overmatig worden versterkt. Om dit aan te pakken, stellen wij Asymmetric Importance Sampling Policy Optimization (ASPO) voor, dat een eenvoudige maar effectieve strategie gebruikt waarbij de IS-ratio's van tokens met positief voordeel worden omgedraaid, waardoor hun updatedirection wordt afgestemd op de leer dynamiek van negatieve tokens. ASPO integreert verder een soft dual-clippingmechanisme om extreme updates te stabiliseren terwijl de gradientstroom behouden blijft. Uitgebreide experimenten op benchmarks voor codering en wiskundig redeneren tonen aan dat ASPO voortijdige convergentie aanzienlijk vermindert, de trainingsstabiliteit verbetert en de uiteindelijke prestaties verhoogt ten opzichte van sterke GRPO-gebaseerde baselines. Onze analyse biedt nieuwe inzichten in de rol van token-level weging in OSRL en benadrukt het cruciale belang van het corrigeren van IS in LLM RL. De code en modellen van ASPO zijn beschikbaar op https://github.com/wizard-III/Archer2.0.
We presenteren OneFlow, het eerste niet-autoregressieve multimodale model dat variabele lengte en gelijktijdige gemengde modale generatie mogelijk maakt. In tegenstelling tot autoregressieve modellen die een strikte causale ordening tussen tekst- en beeldgeneratie afdwingen, combineert OneFlow een op insertie gebaseerde Edit Flow voor discrete teksttokens met Flow Matching voor beeldlatenten. OneFlow maakt gelijktijdige tekst-beeldsynthese mogelijk met hiërarchische sampling die inhoud boven grammatica stelt. Door middel van gecontroleerde experimenten over modelgroottes van 1B tot 8B tonen we aan dat OneFlow autoregressieve basislijnen overtreft op zowel generatie- als begripstaken, terwijl het tot 50% minder trainings-FLOPs gebruikt. OneFlow overtreft zowel autoregressieve als op diffusie gebaseerde benaderingen en ontgrendelt nieuwe mogelijkheden voor gelijktijdige generatie, iteratieve verfijning en natuurlijke, redenering-achtige generatie.
De promotie van academische artikelen is een belangrijk middel geworden om de zichtbaarheid van onderzoek te vergroten. Bestaande geautomatiseerde methoden kampen echter met beperkte vertelkwaliteit, onvoldoende esthetische kwaliteit en beperkte zelfaanpassing, waardoor het moeilijk is om een efficiënte en boeiende verspreiding te bereiken. Centraal in deze uitdagingen ligt een eenvoudig principe: er is geen manier om iets te verbeteren als je het niet goed kunt evalueren. Om dit aan te pakken, introduceren we EvoPresent, een raamwerk voor zelfverbeterende agents dat coherente verhalen, esthetisch bewuste ontwerpen en realistische presentatielevering via virtuele personages verenigt. Kern van EvoPresent is PresAesth, een multi-task reinforcement learning (RL) esthetisch model dat betrouwbare esthetische scoring, defectaanpassing en vergelijkende feedback biedt, waardoor iteratieve zelfverbetering mogelijk is, zelfs bij beperkte esthetische trainingsdata. Om de methoden systematisch te evalueren, introduceren we de EvoPresent Benchmark, een uitgebreide benchmark bestaande uit: Presentatie Generatie Kwaliteit, gebaseerd op 650 top AI-conferentiepapers met multimodale bronnen (slides, video's en scripts) om zowel inhoud als ontwerp te beoordelen; en Esthetisch Bewustzijn, bestaande uit 2.000 slideparen met verschillende esthetische niveaus, die gezamenlijke training en evaluatie ondersteunen op scoring, defectaanpassing en vergelijking. Onze bevindingen benadrukken dat (i) hoogwaardige feedback essentieel is voor zelfverbetering van agents, terwijl initiële capaciteit alleen geen effectieve zelfcorrectie garandeert. (ii) Geautomatiseerde generatiepijplijnen vertonen een afweging tussen visueel ontwerp en inhoudsconstructie. (iii) Multi-task RL-training toont een sterkere generalisatie in esthetisch bewustzijnstaken.
De gangbare methoden voor het trainen van Large Language Models (LLM's) als tekstencoders vertrouwen op contrastieve verliezen die het model behandelen als een black box-functie, waarbij de generatieve en redeneervermogen worden verworpen ten gunste van statische embeddings. Wij introduceren GRACE (Generative Representation Learning via Contrastive Policy Optimization), een nieuw framework dat contrastieve signalen herinterpreteert, niet als verliezen die moeten worden geminimaliseerd, maar als beloningen die een generatief beleid sturen. In GRACE fungeert de LLM als een beleid dat expliciete, mens-interpreteerbare rationales produceert--gestructureerde natuurlijke taalverklaringen van zijn semantische begrip. Deze rationales worden vervolgens gecodeerd in hoogwaardige embeddings via mean pooling. Met behulp van beleidsgradiëntoptimalisatie trainen we het model met een meervoudige beloningsfunctie die de gelijkenis tussen query-positieve paren maximaliseert en de gelijkenis met negatieven minimaliseert. Dit transformeert de LLM van een ondoorzichtige encoder naar een interpreteerbare agent waarvan het redeneerproces transparant en inspecteerbaar is. Op de MTEB-benchmark levert GRACE brede cross-categorie winsten op: gemiddeld over vier backbones verbetert de gesuperviseerde setting de algehele score met 11,5% ten opzichte van basismodellen, en de niet-gesuperviseerde variant voegt 6,9% toe, terwijl algemene capaciteiten behouden blijven. Dit werk behandelt contrastieve doelstellingen als beloningen over rationales, waardoor representatieleren wordt verenigd met generatie om sterkere embeddings en transparante rationales te produceren. Het model, de data en de code zijn beschikbaar op https://github.com/GasolSun36/GRACE.
Recente vooruitgang in generatieve medische modellen wordt beperkt door modality-specifieke scenario's die de integratie van complementair bewijs van beeldvorming, pathologie en klinische notities belemmeren. Deze fragmentatie beperkt hun evolutie naar foundation modellen die kunnen leren en redeneren over het volledige spectrum van biomedische data. Wij stellen MeDiM voor, het eerste medische discrete diffusiemodel dat gedeelde verdelingen leert over modaliteiten heen zonder modality-specifieke componenten. MeDiM verenigt meerdere generatieve taken: vertalen tussen afbeeldingen en tekst, en gezamenlijk produceren van afbeelding-rapport paren over domeinen heen als reactie op prompts. Gebouwd op een discreet diffusiekader, verbindt MeDiM visuele en taalrepresentaties via een gedeelde probabilistische ruimte. Om verenigde en flexibele medische generatie mogelijk te maken, gebruiken we een multimodaal groot taalmodel (MLLM) als de diffusie-backbone, waarbij we gebruikmaken van zijn voorkennis en cross-modale redenering. Twee belangrijke ontwerpen worden geïntroduceerd: (1) het verwijderen van het causale aandachtmasker voor bidirectionele context, en (2) het injecteren van continue tijdstap-embeddings voor diffusiebewustzijn. Experimenten tonen hoogwaardige medische generatie aan (FID 16.60 op MIMIC-CXR en FID 24.19 op PathGen) en accurate rapportgeneratie (METEOR 0.2650 en 0.2580). Gezamenlijk gegenereerde afbeelding-rapport paren verder verbeteren de downstream prestaties (plus6.43 procent BLEU-1, plus18.57 procent BLEU-2, plus31.58 procent BLEU-3, plus4.80 procent METEOR), wat aantoont dat MeDiM samenhangende en klinisch onderbouwde multimodale outputs ondersteunt.
We presenteren Human3R, een uniform, feed-forward raamwerk voor online 4D reconstructie van mens-scènes, in het wereldcoördinatenstelsel, vanuit casual vastgelegde monovideo's. In tegenstelling tot eerdere benaderingen die afhankelijk zijn van meerfasige pijplijnen, iteratieve contactbewuste verfijning tussen mensen en scènes, en zware afhankelijkheden, zoals mensdetectie, diepteschatting en SLAM-voorbewerking, herstelt Human3R gezamenlijk globale multi-persoon SMPL-X lichamen ("iedereen"), dichte 3D-scènes ("overal") en cameratrajecten in één enkele voorwaartse pass ("alles-in-één"). Onze methode bouwt voort op het 4D online reconstructiemodel CUT3R en gebruikt parameter-efficiënte visuele promptafstemming om te streven naar het behoud van CUT3R's rijke spatiotemporele prioriteiten, terwijl directe uitlezing van meerdere SMPL-X lichamen mogelijk wordt gemaakt. Human3R is een uniform model dat zware afhankelijkheden en iteratieve verfijning elimineert. Na slechts één dag training op de relatief kleinschalige synthetische dataset BEDLAM op één GPU, bereikt het superieure prestaties met opmerkelijke efficiëntie: het reconstrueert meerdere mensen in één keer, samen met 3D-scènes, in één fase, met real-time snelheid (15 FPS) en een laag geheugengebruik (8 GB). Uitgebreide experimenten tonen aan dat Human3R state-of-the-art of competitieve prestaties levert over verschillende taken, waaronder globale menselijke bewegingsschatting, lokale menselijke mesh-reconstructie, videodiepteschatting en cameraposeschatting, met één enkel uniform model. We hopen dat Human3R zal dienen als een eenvoudig maar sterk uitgangspunt, en gemakkelijk kan worden uitgebreid voor downstream toepassingen. Code beschikbaar op https://fanegg.github.io/Human3R.
In-context Ranking (ICR) is een opkomend paradigma voor informatiezoeken (IR) dat gebruikmaakt van het contextuele begrip van LLM's door de taakbeschrijving, kandidaatdocumenten en de zoekopdracht direct in de invoerprompt van het model op te nemen en de LLM de taak te geven relevante document(en) te identificeren. Hoewel het effectief is, vormt efficiëntie een aanzienlijke uitdaging in dit paradigma, vooral omdat de kandidaatlijst groeit door de kwadratische/super-lineaire schaling van de aandachtoperatie met de contextlengte. Daarom identificeert dit artikel eerst inherente en uitbuitbare structuren in de aandacht van LLM's die zijn afgestemd voor ICR: (1) inter-document bloksparsiteit: aandacht is dicht binnen elk documentblok maar spaarzaam tussen verschillende documenten in de context; en (2) query-document blokrelevantie: de aandachtsscores van bepaalde querytokens naar een documentblok in middelste lagen correleren sterk met de werkelijke relevantie van dat document. Gemotiveerd door deze observaties introduceren we BlockRank (Blockwise In-context Ranking), een nieuwe methode die de aandachtoperatie in een LLM aanpast door (a) architectonisch de waargenomen inter-document bloksparsiteit af te dwingen, waardoor de aandachtcomplexiteit wordt teruggebracht van kwadratisch naar lineair zonder prestatieverlies, en (b) de query-document blokrelevantie te optimaliseren voor echt relevante documenten tijdens het afstemmen met behulp van een aanvullende contrastieve trainingsdoelstelling, wat de retrieval in aandacht verbetert. Experimenten op BEIR, MSMarco en NQ met Mistral-7B tonen aan dat FLARE Mistral bestaande SOTA lijstgewijze rankers en gecontroleerde afgestemde baselines evenaart of overtreft, terwijl het aanzienlijk efficiënter is bij inferentie (4,7x voor 100 MSMarco-documenten in context) en soepel schaalt naar lange-context shortlists, ongeveer 500 documenten in context (ongeveer 100K contextlengte) binnen een seconde, wat een schaalbare en effectieve oplossing voor ICR biedt.
Een belangrijk onderdeel van in-context redeneren is het vermogen van taalmodelen (LMs) om entiteiten te binden voor latere ophaalbaarheid. Een LM kan bijvoorbeeld "Ann houdt van taart" representeren door "Ann" te binden aan "taart", waardoor het later "Ann" kan ophalen wanneer gevraagd wordt "Wie houdt van taart?". Eerder onderzoek naar korte lijsten van gebonden entiteiten vond sterk bewijs dat LMs dergelijke ophaalbaarheid implementeren via een positioneel mechanisme, waarbij "Ann" wordt opgehaald op basis van zijn positie in de context. In dit werk ontdekken we dat dit mechanisme slecht generaliseert naar complexere situaties; naarmate het aantal gebonden entiteiten in de context toeneemt, wordt het positionele mechanisme onnauwkeurig en onbetrouwbaar in middelste posities. Om dit te compenseren, ontdekken we dat LMs het positionele mechanisme aanvullen met een lexicaal mechanisme (het ophalen van "Ann" met behulp van zijn gebonden tegenhanger "taart") en een reflexief mechanisme (het ophalen van "Ann" via een directe verwijzing). Door uitgebreide experimenten op negen modellen en tien bindings taken, ontdekken we een consistent patroon in hoe LMs deze mechanismen combineren om modelgedrag aan te sturen. We benutten deze inzichten om een causaal model te ontwikkelen dat alle drie de mechanismen combineert en dat de verdeling van volgende tokens schat met 95% overeenstemming. Tot slot tonen we aan dat ons model generaliseert naar aanzienlijk langere invoeren van open tekst afgewisseld met entiteitsgroepen, wat de robuustheid van onze bevindingen verder aantoont in meer natuurlijke settings. Over het algemeen biedt onze studie een completer beeld van hoe LMs entiteiten binden en ophalen in-context.
Moderne modellen voor natuurlijke taalverwerking hebben een ongekende schaal bereikt, maar de tools voor hun evaluatie vormen vaak een rekenkundig knelpunt, wat het tempo van onderzoek beperkt. Dit is vooral acuut voor evaluatiemetrics tijdens de training, zoals per-zin beloningssignalen in Reinforcement Learning, die efficiënt moeten werken op batches van token-ID's direct op de GPU. In dit artikel introduceren we TensorBLEU, een nieuwe implementatie van de BLEU-metric die vanaf de grond is ontworpen voor dit specifieke gebruik. Onze aanpak is volledig gevectoriseerd voor GPU-versnelde, per-zin berekeningen binnen PyTorch en introduceert een geheugenefficiënt telmechanisme. Door een compact, batch-specifiek woordenboek van n-grams te creëren met behulp van torch.unique, vermijdt onze methode de onhoudbare geheugenkosten van traditionele, op hashing gebaseerde vectorisatie, waardoor het praktisch is voor modellen met een grote woordenschat. We vergelijken TensorBLEU met NLTK, de standaardbibliotheek voor BLEU-berekening op basis van token-ID's op de CPU. Experimenten tonen aan dat TensorBLEU snelheidsverbeteringen biedt van meer dan 13x op consumenten-GPU's (NVIDIA T4) en meer dan 40x op datacenter-hardware (NVIDIA A100). Deze prestatie verandert een significant knelpunt in een verwaarloosbaar onderdeel van de trainingsloop. Door de rol ervan duidelijk te definiëren als een "Token-ID BLEU" voor ontwikkelingsdoeleinden en onze implementatie open source te maken, bieden we een krachtig hulpmiddel om onderzoek te versnellen in gebieden zoals RL-gebaseerde model-finetuning.
Het digitaliseren van de fysieke wereld naar nauwkeurige, simulatieklare virtuele omgevingen biedt aanzienlijke mogelijkheden in diverse vakgebieden zoals augmented en virtual reality, gaming en robotica. Huidige methoden voor 3D-reconstructie en scènebegrip schieten echter vaak tekort in een of meer kritieke aspecten, zoals geometrische volledigheid, objectinteractiviteit, fysieke geloofwaardigheid, fotorealistisch renderen of realistische fysieke eigenschappen voor betrouwbare dynamische simulatie. Om deze beperkingen aan te pakken, introduceren we HoloScene, een nieuw interactief 3D-reconstructiekader dat tegelijkertijd aan deze vereisten voldoet. HoloScene maakt gebruik van een uitgebreide interactieve scènegraafrepresentatie, waarin objectgeometrie, uiterlijk en fysieke eigenschappen worden vastgelegd, naast hiërarchische en inter-objectrelaties. Reconstructie wordt geformuleerd als een energiegebaseerd optimalisatieprobleem, waarbij observatiedata, fysieke beperkingen en generatieve priors worden geïntegreerd in een uniform, samenhangend doel. Optimalisatie wordt efficiënt uitgevoerd via een hybride aanpak die steekproefgebaseerde exploratie combineert met gradientgebaseerde verfijning. De resulterende digitale tweelingen vertonen volledige en precieze geometrie, fysieke stabiliteit en realistische rendering vanuit nieuwe gezichtspunten. Evaluaties uitgevoerd op meerdere benchmarkdatasets tonen superieure prestaties aan, terwijl praktische use-cases in interactieve gaming en real-time manipulatie van digitale tweelingen de brede toepasbaarheid en effectiviteit van HoloScene illustreren. Projectpagina: https://xiahongchi.github.io/HoloScene.
Reinforcement learning met verifieerbare beloningen (RLVR) is een krachtig paradigma voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLM's), maar het succes ervan hangt af van effectieve exploratie. Een ideale exploratiestrategie moet twee fundamentele uitdagingen navigeren: het moet de kwaliteit van de samples behouden en tegelijkertijd de stabiliteit van de training waarborgen. Hoewel standaard fixed-temperature sampling eenvoudig is, worstelt het met het balanceren van deze concurrerende eisen, aangezien hoge temperaturen de samplekwaliteit aantasten en lage temperaturen de ontdekking beperken. In dit werk stellen we een eenvoudigere en effectievere strategie voor, Exploratory Annealed Decoding (EAD), gebaseerd op het inzicht dat exploratie het meest impactvol is op de vroege tokens die de semantische richting van een sequentie bepalen. EAD implementeert een intuïtieve **explore-at-the-beginning, exploit-at-the-end** strategie door de samplingtemperatuur tijdens de generatie geleidelijk van hoog naar laag te verlagen. Dit dynamische schema stimuleert betekenisvolle, hoogwaardige diversiteit aan het begin, en verlaagt vervolgens geleidelijk de temperatuur om de samplekwaliteit te behouden en de samplingdistributie dicht bij het doelbeleid te houden, wat essentieel is voor een stabiele training. We tonen aan dat EAD een lichtgewicht, plug-and-play methode is die de sample-efficiëntie aanzienlijk verbetert en consistent beter presteert dan fixed-temperature sampling bij verschillende RLVR-algoritmen en modelgroottes. Ons werk suggereert dat het afstemmen van exploratie op de natuurlijke dynamiek van sequentiële generatie een robuuste weg biedt om de redeneervaardigheden van LLM's te verbeteren.
Grote redeneermodellen (LRMs) met mogelijkheden voor meerstaps redeneren hebben opmerkelijke probleemoplossende vaardigheden getoond, maar vertonen zorgwekkende veiligheidskwetsbaarheden die nog slecht worden begrepen. In dit werk onderzoeken we waarom veiligheidsafstemming faalt in redeneermodellen door middel van een mechanistische interpretatielens. Met behulp van een lineaire probing-benadering om weigeringsintenties over tokenposities te traceren, ontdekken we een opvallend fenomeen dat we de weigeringskloof noemen: veel slecht afgestemde redeneermodellen identificeren schadelijke prompts correct en behouden sterke weigeringsintenties tijdens hun denkproces, maar ervaren een scherpe daling in weigeringsscores bij de laatste tokens vóór de outputgeneratie. Dit suggereert dat deze modellen niet inherent onveilig zijn; eerder worden hun weigeringsintenties systematisch onderdrukt. Door middel van causale interventieanalyse identificeren we een beperkte set aandachtskoppen die negatief bijdragen aan weigeringsgedrag. Het uitschakelen van slechts 3% van deze koppen kan de aanvalssuccespercentages onder de 10% brengen. Gebaseerd op deze mechanistische inzichten, stellen we Cliff-as-a-Judge voor, een nieuwe dataselectiemethode die trainingsvoorbeelden identificeert die de grootste weigeringskloof vertonen om de veiligheidsafstemming van redeneermodellen efficiënt te herstellen. Deze benadering bereikt vergelijkbare veiligheidsverbeteringen met slechts 1,7% van de standaard veiligheidstrainingsdata, wat een minder-is-meer-effect in veiligheidsafstemming aantoont.
Trainingsvrije versnelling is naar voren gekomen als een geavanceerd onderzoeksgebied in videogeneratie op basis van diffusiemodellen. De redundantie van latente variabelen in de inferentie van diffusiemodellen biedt een natuurlijk aanknopingspunt voor versnelling. In dit artikel ontleden we het inferentieproces in de fasen van codering, ruisverwijdering en decodering, en merken we op dat cache-gebaseerde versnellingsmethoden vaak leiden tot aanzienlijke geheugenpieken in de laatste twee fasen. Om dit probleem aan te pakken, analyseren we de kenmerken van inferentie in verschillende fasen en stellen we fasenspecifieke strategieën voor om het geheugengebruik te verminderen: 1) Asynchrone Cache-swapping. 2) Feature-chunking. 3) Slicing van latente variabelen voor decodering. Tegelijkertijd zorgen we ervoor dat de tijdsbelasting die door deze drie strategieën wordt geïntroduceerd, lager blijft dan de versnellingswinsten zelf. Vergeleken met de baseline bereikt onze aanpak een snellere inferentiesnelheid en lager geheugengebruik, terwijl de kwaliteitsafname binnen een acceptabel bereik blijft. De code is beschikbaar op https://github.com/NKUShaw/LightCache.
Grote taalmodellen (LLMs) tonen indrukwekkende capaciteiten op een breed scala aan taken, maar het blijft onduidelijk of dit succes voortkomt uit echt redeneren of uit geavanceerd herinneren. We introduceren AInstein, een raamwerk om te testen of LLMs geldige oplossingen kunnen genereren voor AI-onderzoeksproblemen met alleen hun vooraf getrainde parametrische kennis — zonder domeinspecifieke fine-tuning, retrieval-augmentatie of andere externe hulpmiddelen. Onze aanpak destilleert probleemstellingen uit hoogwaardige ICLR 2025 inzendingen en laat gespecialiseerde oplossingsagenten technische oplossingen voorstellen en verfijnen via iteratieve kritiekloops, waarbij de cycli van voorstel, review en revisie die centraal staan in wetenschappelijk onderzoek worden nagebootst. We evalueren AInstein op 1.214 ICLR papers, gestratificeerd op acceptatieniveau (Oral, Spotlight, Poster), met behulp van een LLM-as-a-judge paradigma geleid door een gestructureerde rubric, aangevuld met gerichte handmatige controles. Prestaties worden beoordeeld met drie metrieken: Succespercentage (lost de oplossing het probleem op?), Herontdekking (komt het overeen met door mensen voorgestelde methoden?), en Originaliteit (levert het geldige, originele benaderingen op?). Onze resultaten laten zien dat hoewel LLMs haalbare oplossingen kunnen herontdekken en af en toe creatieve alternatieven kunnen voorstellen, hun probleemoplossend vermogen kwetsbaar blijft en sterk gevoelig is voor formulering. Deze bevindingen bieden het eerste grootschalige bewijs over de mate waarin LLMs als autonome wetenschappelijke probleemoplossers kunnen functioneren, waarbij zowel hun latente potentieel als hun huidige beperkingen worden belicht.
Direct Preference Optimization (DPO) is naar voren gekomen als een eenvoudige en effectieve methode voor het afstemmen van grote taalmodellen. Echter, de afhankelijkheid van een vaste temperatuurparameter leidt tot suboptimale training op diverse voorkeursdata, wat resulteert in overfitting op eenvoudige voorbeelden en onderleren van informatieve voorbeelden. Recente methoden zijn ontwikkeld om dit tegen te gaan. Hoewel IPO algemene overfitting aanpakt, kan de uniforme regularisatie ervan te conservatief zijn. De meer gerichte aanpak van beta-DPO heeft zijn eigen beperkingen: de batchgewijze aanpassing past een enkele, gecompromitteerde temperatuur toe op gemengde-marge paren, de lineaire update-regel kan instabiele negatieve beta-waarden produceren, en het filtermechanisme verwijdert mogelijk nuttige trainingssignalen. In dit werk introduceren we Margin-Adaptive Direct Preference Optimization (MADPO), een methode die een stabiele, data-bewarende en instantiegewijze oplossing biedt. MADPO gebruikt een praktische tweestapsaanpak: het traint eerst een beloningsmodel om voorkeursmarges te schatten en gebruikt vervolgens deze marges om een continue, adaptieve gewichting toe te passen op de DPO-verliesfunctie voor elk individueel trainingsvoorbeeld. Dit herwegingenschema creëert een effectieve doel-marge die wordt versterkt voor moeilijke paren en gedempt voor eenvoudige paren, wat een gedetailleerde controle over het leersignaal mogelijk maakt. We bieden een uitgebreide theoretische analyse, waarin we aantonen dat MADPO een goed gedragd optimalisatielandschap heeft en robuust is tegen schattingsfouten van het beloningsmodel. We valideren onze theorie met experimenten op een sentimentgeneratietaak, waar MADPO consistent en significant beter presteert dan sterke baseline-methoden op datasets van uiteenlopende kwaliteit. Het behaalt prestatieverbeteringen van tot +33,3\% op Hoogwaardige data en +10,5\% op Laagwaardige data ten opzichte van de op een na beste methode. Onze resultaten vestigen MADPO als een robuustere en meer principiële aanpak voor voorkeursafstemming.
We introduceren Equilibrium Matching (EqM), een generatief modelleerkader ontwikkeld vanuit een dynamisch evenwichtsperspectief. EqM verwerpt de niet-evenwichts, tijd-afhankelijke dynamiek in traditionele diffusie- en stroomgebaseerde generatieve modellen en leert in plaats daarvan het evenwichtsgradiënt van een impliciet energielandschap. Via deze aanpak kunnen we een op optimalisatie gebaseerd samplingproces toepassen tijdens inferentie, waarbij samples worden verkregen door gradiëntdaling op het geleerde landschap met instelbare stapgroottes, adaptieve optimalisatoren en adaptieve rekenkracht. EqM overtreft empirisch de generatieprestaties van diffusie/stroommodellen, met een FID van 1,90 op ImageNet 256×256. EqM is ook theoretisch onderbouwd om te leren en te samplen van het datamanifold. Naast generatie is EqM een flexibel kader dat natuurlijk taken aanpakt zoals gedeeltelijk verstoorde beelddenoising, OOD-detectie en beeldcompositie. Door tijd-afhankelijke snelheden te vervangen door een verenigd evenwichtslandschap, biedt EqM een nauwere verbinding tussen stroom- en energiegebaseerde modellen en een eenvoudige route naar optimalisatiegedreven inferentie.
Grote taalmodellen bieden veelbelovende mogelijkheden als wetenschappelijke assistenten, maar bestaande agents vertrouwen uitsluitend op algoritme-evolutie of op diepgaand onderzoek in isolatie, waarbij beide benaderingen kritieke beperkingen kennen. Pure algoritme-evolutie, zoals in AlphaEvolve, is alleen afhankelijk van de interne kennis van taalmodellen en bereikt snel een plateau in complexe domeinen, terwijl puur diepgaand onderzoek ideeën voorstelt zonder validatie, wat resulteert in onrealistische of onuitvoerbare oplossingen. Wij presenteren DeepEvolve, een agent die diepgaand onderzoek integreert met algoritme-evolutie, waarbij externe kennisretrieval, cross-file codebewerking en systematisch debuggen worden verenigd in een feedback-gestuurde iteratieve lus. Elke iteratie stelt niet alleen nieuwe hypothesen voor, maar verfijnt, implementeert en test deze ook, waardoor zowel oppervlakkige verbeteringen als onproductieve oververfijningen worden vermeden. Over negen benchmarks in de chemie, wiskunde, biologie, materialen en patenten verbetert DeepEvolve consistent het initiële algoritme, waarbij uitvoerbare nieuwe algoritmen worden geproduceerd met aanhoudende verbeteringen. Door de kloof te overbruggen tussen ongeleide evolutie en onderzoek zonder gronding, biedt DeepEvolve een betrouwbaar raamwerk voor het bevorderen van wetenschappelijke algoritme-ontdekking. Onze code is beschikbaar op https://github.com/liugangcode/deepevolve.
RAG (Retrieval-Augmented Generation) systemen en webagents worden steeds vaker geëvalueerd op multi-hop diepe zoekopdrachten, maar de huidige praktijk kampt met twee belangrijke beperkingen. Ten eerste lekken de meeste benchmarks het redeneerpad in de vraagtekst, waardoor modellen oppervlakkige aanwijzingen kunnen volgen in plaats van redeneerketens autonoom te ontdekken. Ten tweede wordt de evaluatie meestal gereduceerd tot een enkele slagingspercentage, wat diverse gedragingen samenvat tot één score en verhult of fouten voortkomen uit onvoldoende zoeken, slecht gebruik van kennis of ongepaste weigering. Om deze problemen aan te pakken, presenteren we WebDetective, een benchmark van hint-vrije multi-hop vragen gepaard met een gecontroleerde Wikipedia-sandbox die volledige traceerbaarheid van modelacties garandeert, en een holistisch evaluatiekader dat zoekvoldoende, kennisbenutting en weigeringsgedrag scheidt. Onze evaluatie van 25 state-of-the-art modellen onthult systematische zwaktes in alle architecturen: modellen worstelen met kennisbenutting ondanks voldoende bewijs en tonen bijna geen gepaste weigering wanneer bewijs ontbreekt. Deze patronen blootleggen een fundamentele kloof: de systemen van vandaag blinken uit in het uitvoeren van gegeven redeneerpaden, maar falen wanneer ze deze zelf moeten ontdekken. We ontwikkelen een agentisch workflow, EvidenceLoop, dat expliciet de uitdagingen aanpakt die onze benchmark identificeert, met verificatielussen en systematische bewijstracking die zowel zoek- als synthesemogelijkheden verbeteren. Deze baseline toont aan dat het diagnostische kader van WebDetective concrete architectuurverbeteringen kan sturen, waardoor onze benchmark een cruciaal hulpmiddel wordt voor het ontwikkelen van echt autonome redeneersystemen in plaats van patroonvolgende agents.
De inzet van autonome AI-agenten in gevoelige domeinen, zoals de gezondheidszorg, brengt kritieke risico's met zich mee voor veiligheid, beveiliging en privacy. Deze agenten kunnen afwijken van gebruikersdoelen, gegevensverwerkingsbeleid schenden of worden gecompromitteerd door adversariële aanvallen. Het beperken van deze gevaren vereist een mechanisme om formeel te garanderen dat de acties van een agent voldoen aan vooraf gedefinieerde veiligheidsbeperkingen, een uitdaging die bestaande systemen niet volledig aanpakken. Wij introduceren VeriGuard, een nieuw raamwerk dat formele veiligheidsgaranties biedt voor op LLM gebaseerde agenten via een dual-stage architectuur die is ontworpen voor robuuste en verifieerbare correctheid. De initiële offline fase omvat een uitgebreid validatieproces. Het begint met het verhelderen van de gebruikersintentie om nauwkeurige veiligheidsspecificaties vast te stellen. VeriGuard synthetiseert vervolgens een gedragsbeleid en onderwerpt dit aan zowel testen als formele verificatie om de naleving van deze specificaties te bewijzen. Dit iteratieve proces verfijnt het beleid totdat het als correct wordt beschouwd. Vervolgens biedt de tweede fase online actiemonitoring, waarbij VeriGuard fungeert als een runtime-monitor om elke voorgestelde agentactie te valideren tegen het vooraf geverifieerde beleid voordat deze wordt uitgevoerd. Deze scheiding van de uitgebreide offline validatie en de lichtgewicht online monitoring maakt het mogelijk om formele garanties praktisch toe te passen, wat een robuuste bescherming biedt die de betrouwbaarheid van LLM-agenten aanzienlijk verbetert.
Emotionele Ondersteunende Conversatie (ESC) speelt een cruciale rol in het verlichten van psychologische stress en het bieden van emotionele waarde door middel van dialoog. Hoewel recente studies zich voornamelijk hebben gericht op data-augmentatie en de constructie van synthetische corpora, wordt vaak de diepere cognitieve redeneerprocessen die effectieve emotionele ondersteuning onderbouwen, over het hoofd gezien. Om deze kloof te overbruggen, stellen we CARE voor, een nieuw raamwerk dat het redeneren in ESC versterkt zonder te vertrouwen op grootschalige synthetische data. CARE maakt gebruik van de originele ESC-trainingsset om modellen te begeleiden bij het genereren van logisch coherente en ondersteunende reacties, waardoor het cognitieve redeneren expliciet wordt verbeterd. Op basis van deze fundering passen we verder reinforcement learning toe om het redeneerproces te verfijnen en te versterken. Experimentele resultaten tonen aan dat CARE zowel de logische consistentie als de ondersteunende kwaliteit van reacties aanzienlijk verbetert, wat bijdraagt aan de ontwikkeling van empathische, cognitief robuuste en mensachtige emotionele ondersteuningssystemen.
De meeste bestaande benchmarks voor egocentrisch visueel begrip richten zich voornamelijk op dagscenario's, waarbij de omstandigheden met weinig licht die onvermijdelijk zijn in real-world toepassingen over het hoofd worden gezien. Om deze kloof te onderzoeken, presenteren we EgoNight, de eerste uitgebreide benchmark voor egocentrisch zicht 's nachts, met visuele vraag-antwoordtaken (VQA) als kernactiviteit. Een belangrijk kenmerk van EgoNight is de introductie van dag-nacht uitgelijnde video's, die de kwaliteit van nachtannotaties verbeteren door gebruik te maken van dagdata en duidelijke prestatieverschillen tussen lichtomstandigheden blootleggen. Om dit te bereiken, verzamelen we zowel synthetische video's gegenereerd door Blender als real-world opnames, waarbij we ervoor zorgen dat scènes en acties visueel en temporeel zijn uitgelijnd. Gebruikmakend van deze gepaarde video's, construeren we EgoNight-VQA, ondersteund door een nieuwe dag-augmented nacht auto-labeling engine en verfijnd door uitgebreide menselijke verificatie. Elk vraag-antwoordpaar wordt dubbel gecontroleerd door annotators voor betrouwbaarheid. In totaal bevat EgoNight-VQA 3658 vraag-antwoordparen verspreid over 90 video's, die 12 diverse vraagtypes beslaan, met meer dan 300 uur menselijk werk. Evaluaties van state-of-the-art multimodale grote taalmodellen (MLLMs) onthullen aanzienlijke prestatieverminderingen bij de overgang van dag naar nacht, wat de uitdagingen van redeneren onder omstandigheden met weinig licht benadrukt. Naast VQA introduceert EgoNight ook twee aanvullende taken, dag-nacht correspondentie retrieval en egocentrische diepteschatting 's nachts, die de grenzen van bestaande modellen verder verkennen. Wij geloven dat EgoNight-VQA een sterke basis biedt voor het bevorderen van toepassingsgericht egocentrisch visueel onderzoek en voor het ontwikkelen van modellen die generaliseren over verlichtingsdomeinen. Alle data en code zullen beschikbaar worden gesteld na acceptatie.
Recente multimodale LLM's hebben potentie getoond in visueel vraagbeantwoorden op basis van grafieken, maar hun prestaties nemen sterk af bij niet-geannoteerde grafieken, die een nauwkeurige visuele interpretatie vereisen in plaats van te vertrouwen op tekstuele shortcuts. Om dit aan te pakken, introduceren we ChartAgent, een nieuw agent-gebaseerd framework dat expliciet visueel redeneren uitvoert binnen het ruimtelijke domein van de grafiek. In tegenstelling tot tekstuele chain-of-thought redenering, decomposeert ChartAgent iteratief vragen in visuele subtaken en manipuleert en interageert het actief met grafiekafbeeldingen via gespecialiseerde acties zoals het tekenen van annotaties, het bijsnijden van regio's (bijvoorbeeld het segmenteren van taartpunten, het isoleren van balken) en het lokaliseren van assen, waarbij een bibliotheek van grafiekspecifieke visuele tools wordt gebruikt om elke subtask te voltooien. Dit iteratieve redeneerproces weerspiegelt nauwkeurig menselijke cognitieve strategieën voor grafiekbegrip. ChartAgent behaalt state-of-the-art nauwkeurigheid op de ChartBench en ChartX benchmarks, en overtreft eerdere methoden met een absolute winst van maximaal 16,07% in het algemeen en 17,31% op niet-geannoteerde, numeriek intensieve vragen. Bovendien tonen onze analyses aan dat ChartAgent (a) effectief is over diverse grafiektypen, (b) de hoogste scores behaalt over verschillende niveaus van visuele en redeneercomplexiteit, en (c) fungeert als een plug-and-play framework dat de prestaties verbetert over diverse onderliggende LLM's. Ons werk behoort tot de eerste die visueel verankerd redeneren voor grafiekbegrip demonstreert met tool-augmented multimodale agents.
Embedding vision-language modellen (VLMs) worden doorgaans voorgetraind met korte tekstvensters (<77 tokens), wat de afkapping van lange bijschriften noodzakelijk maakt. Echter, de verdeling van biomedische bijschriften uit grootschalige open-source literatuur laat zien dat een groot deel van de bijschriften ver boven de 77 tokens uitkomt. Daarom onderzoeken we de impact van vooraf trainen op lange biomedische bijschriften door de contextlengte van tekstencoders in VLMs uit te breiden. We ontdekken dat een langere context (en daarmee de extra supervisie die in lange bijschriften wordt geboden) correleert met betere retrievals en classificatieprestaties. Gezien deze bevinding introduceren we BIOMEDICA-LongCAP, een dataset van 1 miljoen afbeelding-bijschriftparen verrijkt met contextbewuste beschrijvingen uit volledige artikelen, die langere en aanvullende tekstuele supervisie bieden. Met BIOMEDICA-LongCAP trainen we BMC-LongCLIP, een biomedisch VLM met lange context en een tekstencoder die vensters van maximaal 512 tokens ondersteunt. Ons model vergroot de contextcapaciteit met 6,6x en reduceert tokenverspilling van 55% naar slechts 2,2%. Op benchmarks voor het ophalen van lange bijschriften behaalt BMC-LongCLIP absolute verbeteringen tot +30% in Recall@1 en gemiddelde verbeteringen van +2% in classificatie, terwijl het ook sneller convergeert dan modellen met korte context. Onze resultaten tonen aan dat modellering met lange context een veelbelovende richting is voor de vooruitgang van biomedische VLMs.
Referring Video Object Segmentation (RVOS) vereist het segmenteren van specifieke objecten in een video aan de hand van een beschrijving in natuurlijke taal. De kernuitdaging van RVOS is het verankeren van abstracte linguïstische concepten aan een specifieke set pixels en deze continu te segmenteren doorheen de complexe dynamiek van een video. Geconfronteerd met deze moeilijkheid hebben eerdere werken de taak vaak opgedeeld in een pragmatische `locate-then-segment'-pipeline. Deze gecascadeerde aanpak creëert echter een informatieknelpunt door semantiek te vereenvoudigen tot grove geometrische prompts (bijv. een punt), en heeft moeite om temporele consistentie te behouden, aangezien het segmentatieproces vaak losstaat van de initiële taalverankering. Om deze fundamentele beperkingen te overwinnen, stellen we FlowRVS voor, een nieuw framework dat RVOS herconceptualiseert als een conditioneel continu stromingsprobleem. Hierdoor kunnen we de inherente sterktes van voorgetrainde T2V-modellen benutten, zoals fijnmazige pixelcontrole, tekst-video semantische uitlijning en temporele samenhang. In plaats van conventioneel te genereren van ruis naar masker of direct een masker te voorspellen, herformuleren we de taak door een directe, taalgestuurde vervorming te leren van de holistische representatie van een video naar het doelmasker. Onze éénstaps, generatieve aanpak behaalt nieuwe state-of-the-art resultaten op alle belangrijke RVOS-benchmarks. Specifiek behalen we een J&F van 51.1 op MeViS (+1.6 ten opzichte van de vorige SOTA) en 73.3 op de zero-shot Ref-DAVIS17 (+2.7), wat het significante potentieel aantoont van het modelleren van videobegripstaken als continue vervormingsprocessen.
Hoewel post-trainingskwantisering veel wordt gebruikt voor de efficiënte implementatie van grote taalmodelen, blijven de onderliggende mechanismen van kwantisatierobustheid onduidelijk. Wij voeren een uitgebreide analyse uit van kwantisatiedegradatie over trainingspaden van open-source taalmodelen tot 32B parameters en 15T trainings-tokens om de relatie tussen trainingsdynamiek en kwantisatieprestaties nauwkeurig te beoordelen. Onze belangrijkste bevinding is dat kwantisatiefouten in grootschalige trainingsruns worden veroorzaakt door een complexe wisselwerking tussen leerratio en andere trainingshyperparameters. Specifiek, zodra leerratio's afnemen, divergeren validatieverlies en kwantisatiefout, grotendeels onafhankelijk van de schaal van de trainingsdata. Om interventies op de trainingsdynamiek te onderzoeken en specifieke configuraties te identificeren die kwantisatierobustheid gunstig kunnen beïnvloeden, trainen we onze eigen modellen in gecontroleerde experimenten tot 100B tokens. Onze resultaten tarten de aanname dat het vergroten van de datasetschaal inherent de effectiviteit van kwantisatie in gevaar brengt, en laten in plaats daarvan zien dat strategische interventies in trainingshyperparameters de kwantisatiekwaliteit op grote schaal kunnen verbeteren.
Gaussiaans proces (GP) regressie biedt een strategie om het zoeken naar zadelpunten op hoogdimensionale energieoppervlakken te versnellen door het aantal keren dat de energie en zijn afgeleiden ten opzichte van atoomcoördinaten moeten worden geëvalueerd te verminderen. De rekenkundige overhead bij de optimalisatie van hyperparameters kan echter groot zijn en de aanpak inefficiënt maken. Fouten kunnen ook optreden als de zoektocht te ver afdwaalt naar regio's die niet goed genoeg worden weergegeven door het GP-model. Hier worden deze uitdagingen opgelost door gebruik te maken van geometrie-bewuste optimale transportmaten en een actieve snoeistrategie die een sommatie van Wasserstein-1 afstanden voor elk atoomtype gebruikt in farthest-point sampling, waarbij een vaste subset van geometrisch diverse configuraties wordt geselecteerd om de snel toenemende kosten van GP-updates te vermijden naarmate meer observaties worden gedaan. De stabiliteit wordt verbeterd door een permutatie-invariante metriek die een betrouwbare vertrouwensradius biedt voor vroegtijdig stoppen en een logaritmische barrière-straf voor de groei van de signaalvariantie. Deze fysiek gemotiveerde algoritmische veranderingen bewijzen hun effectiviteit door de gemiddelde rekentijd te reduceren tot minder dan de helft op een set van 238 uitdagende configuraties uit een eerder gepubliceerde dataset van chemische reacties. Met deze verbeteringen wordt de GP-aanpak gevestigd als een robuust en schaalbaar algoritme voor het versnellen van zadelpuntzoektochten wanneer de evaluatie van de energie en atomaire krachten aanzienlijke rekenkundige inspanning vereist.
In de afgelopen twee decennia heeft spraakemotieherkenning (Speech Emotion Recognition, SER) steeds meer aandacht gekregen. Om SER-systemen te trainen, verzamelen onderzoekers emotionele spraakdatabases die geannoteerd zijn door crowdsourced of interne beoordelaars die emoties selecteren uit vooraf gedefinieerde categorieën. Echter, onenigheid tussen beoordelaars komt vaak voor. Traditionele methoden behandelen deze onenigheid als ruis en aggregeren de labels tot een enkel consensusdoel. Hoewel dit SER vereenvoudigt als een enkel-labeltaak, negeert het de inherente subjectiviteit van menselijke emotieperceptie. Dit proefschrift daagt dergelijke aannames uit en stelt de volgende vragen: (1) Moeten minderheidsemotiebeoordelingen worden weggegooid? (2) Moeten SER-systemen leren van slechts enkele individuele percepties? (3) Moeten SER-systemen slechts één emotie per sample voorspellen? Psychologische studies tonen aan dat emotieperceptie subjectief en ambigu is, met overlappende emotiegrenzen. Wij stellen nieuwe modellerings- en evaluatieperspectieven voor: (1) Behoud alle emotiebeoordelingen en representeer ze met zachte-labeldistributies. Modellen die getraind zijn op individuele annotatorbeoordelingen en gezamenlijk geoptimaliseerd met standaard SER-systemen, verbeteren de prestaties op consensus-gelabelde tests. (2) Herdefinieer SER-evaluatie door alle emotionele data op te nemen en gelijktijdig voorkomende emoties toe te staan (bijvoorbeeld verdrietig en boos). Wij stellen een "all-inclusive regel" voor die alle beoordelingen aggregeert om de diversiteit in labelrepresentatie te maximaliseren. Experimenten op vier Engelse emotiedatabases tonen superieure prestaties aan ten opzichte van meerderheids- en pluraliteitslabeling. (3) Construeer een strafmatrix om onwaarschijnlijke emotiecombinaties tijdens de training te ontmoedigen. Het integreren hiervan in verliesfuncties verbetert de prestaties verder. Over het geheel genomen leidt het omarmen van minderheidsbeoordelingen, meerdere annotators en multi-emotievoorspellingen tot robuustere en meer mensgerichte SER-systemen.
Grote Taalmodellen (LLMs) zijn gevoelig voor hallucinatie, het genereren van plausibel maar feitelijk onjuiste uitspraken. Dit onderzoek bestudeert de intrinsieke, architectonische oorsprong van deze foutmodus via drie primaire bijdragen. Ten eerste stellen we, om het betrouwbaar traceren van interne semantische fouten mogelijk te maken, Distributional Semantics Tracing (DST) voor, een geïntegreerd raamwerk dat gevestigde interpreteerbaarheidstechnieken combineert om een causaal overzicht van het redeneerproces van een model te creëren, waarbij betekenis wordt behandeld als een functie van context (distributionele semantiek). Ten tweede identificeren we de laag in het model waarop een hallucinatie onvermijdelijk wordt, waarbij we een specifieke commitmentlaag aanwijzen waar de interne representaties van een model onomkeerbaar afwijken van de feitelijkheid. Ten derde identificeren we het onderliggende mechanisme voor deze fouten. We observeren een conflict tussen verschillende computationele paden, wat we interpreteren aan de hand van de dual-process theorie: een snel, heuristisch associatief pad (vergelijkbaar met Systeem 1) en een traag, weloverwogen contextueel pad (vergelijkbaar met Systeem 2), wat leidt tot voorspelbare foutmodi zoals Reasoning Shortcut Hijacks. Het vermogen van ons raamwerk om de coherentie van het contextuele pad te kwantificeren, onthult een sterke negatieve correlatie (rho = -0.863) met hallucinatiepercentages, wat impliceert dat deze fouten voorspelbare gevolgen zijn van interne semantische zwakte. Het resultaat is een mechanistische verklaring van hoe, wanneer en waarom hallucinaties optreden binnen de Transformer-architectuur.
Implementaties van grote taalmodellen in de praktijk (bijvoorbeeld conversatie-AI-systemen, codegeneratie-assistenten) genereren van nature overvloedige impliciete signalen van gebruikersontevredenheid (DSAT), aangezien gebruikers iteratief betere antwoorden proberen te bereiken door verfijningen, correcties en uitgedrukte voorkeuren, terwijl expliciete tevredenheidsfeedback (SAT) schaars is. Bestaande benaderingen voor voorkeursleren sluiten slecht aan bij dit gegevensprofiel, omdat ze afhankelijk zijn van kostbare menselijke annotaties of uitgaan van een overvloed aan positieve reacties. In dit artikel introduceren we DRIFT (Dissatisfaction-Refined Iterative preFerence Training), dat de training verankert op real-world DSAT-signalen en positieve voorbeelden dynamisch samplet uit het evoluerende beleid. Empirisch gezien behalen DRIFT-modellen die getraind zijn op real-world WildFeedback-datasets en synthetische UltraFeedback-datasets een verbetering van tot +6,23% (7B) / +7,61% (14B) op de WildBench Task Score en tot +8,95% (7B) / +12,29% (14B) op de AlpacaEval2 win rate ten opzichte van basismodellen, waarbij ze sterke baseline-methoden zoals iteratieve DPO en SPIN overtreffen. Op grotere schalen zijn de verbeteringen bijzonder opvallend: 14B-modellen getraind met DRIFT overtreffen GPT-4o-mini op WildBench. Verdere analyse toont aan dat DRIFT ook de verkenningscapaciteit behoudt, wat resulteert in meer diverse oplossingen met hoge beloning in plaats van te vervallen tot smalle subsets. Theoretisch tonen we aan dat dit ontwerp voorkeursmarges behoudt en gradientdegeneratie vermijdt. Deze resultaten laten zien dat DRIFT een effectief en schaalbaar recept is voor real-world post-training dat gebruikmaakt van het meest overvloedige en informatieve signaal. De code en gegevens zijn beschikbaar op https://github.com/cacayaya/DRIFT.git.
Het is aangetoond dat codedata de redeneervaardigheden van grote taalmmodellen (LLMs) verbetert, maar het blijft onduidelijk welke aspecten van code hier het meest verantwoordelijk voor zijn. Wij onderzoeken deze vraag met een systematisch, data-gecentreerd raamwerk. We construeren parallelle instructiedatasets in tien programmeertalen en passen gecontroleerde verstoringen toe die selectief structurele of semantische eigenschappen van code verstoren. Vervolgens finetunen we LLMs uit vijf modelfamilies en acht schalen op elke variant en evalueren hun prestaties op taken in natuurlijke taal, wiskunde en code. Over 3.331 experimenten tonen onze resultaten aan dat LLMs kwetsbaarder zijn voor structurele verstoringen dan voor semantische, met name bij wiskunde- en codetaken. Geschikte abstracties zoals pseudocode en stroomdiagrammen kunnen even effectief zijn als code, terwijl het coderen van dezelfde informatie met minder tokens zonder zich te houden aan de oorspronkelijke syntax vaak de prestaties kan behouden of zelfs verbeteren. Opmerkelijk genoeg blijft zelfs gecorrumpeerde code met misleidende signalen concurrerend wanneer oppervlakkige regelmatigheden aanwezig blijven. Tot slot beïnvloeden syntactische stijlen ook taakspecifieke winsten, waarbij Python natuurlijke taalredenering bevordert en lagere programmeertalen zoals Java en Rust wiskunde bevorderen. Met ons systematische raamwerk streven we ernaar inzicht te bieden in hoe verschillende eigenschappen van code redenering beïnvloeden en de ontwerprichtlijnen voor trainingsdata te informeren om de redeneervaardigheden van LLMs te verbeteren.
Vision-Language-Action-modellen (VLA's) hebben opmerkelijke prestaties getoond in robotbesturing. Ze blijven echter fundamenteel beperkt in taken die hoge precisie vereisen vanwege hun single-inference-paradigma. Hoewel test-time-schaalbenaderingen met behulp van externe verifiers veelbelovend zijn gebleken, vereisen ze aanvullende training en slagen ze er niet in om te generaliseren naar onbekende omstandigheden. Wij stellen Masking Distribution Guided Selection (MG-Select) voor, een nieuw test-time-schaalraamwerk voor VLA's dat gebruikmaakt van de interne eigenschappen van het model zonder aanvullende training of externe modules. Onze aanpak gebruikt KL-divergentie van een referentie-actietokenverdeling als een betrouwbaarheidsmetriek voor het selecteren van de optimale actie uit meerdere kandidaten. We introduceren een referentieverdeling gegenereerd door hetzelfde VLA, maar met willekeurig gemaskeerde toestanden en taalcondities als invoer, waardoor maximale onzekerheid wordt gegarandeerd terwijl deze in lijn blijft met de doeltaakverdeling. Daarnaast stellen we een gezamenlijke trainingsstrategie voor die het model in staat stelt om zowel conditionele als unconditionele verdelingen te leren door dropout toe te passen op toestands- en taalcondities, waardoor de kwaliteit van de referentieverdeling verder wordt verbeterd. Onze experimenten tonen aan dat MG-Select aanzienlijke prestatieverbeteringen bereikt, waaronder een verbetering van 28%/35% in real-world taken binnen/ buiten de verdeling, samen met een relatieve winst van 168% op RoboCasa pick-and-place taken getraind met 30 demonstraties.
Recente onderzoeken naar context- en geheugenbenchmarking hebben zich voornamelijk gericht op conversatiegevallen, maar de noodzaak om geheugen te evalueren in dynamische bedrijfsomgevingen is cruciaal voor een effectieve toepassing. Wij introduceren MEMTRACK, een benchmark ontworpen om langetermijngeheugen en staatstracking te evalueren in multi-platform agentomgevingen. MEMTRACK modelleert realistische organisatorische workflows door asynchrone gebeurtenissen te integreren over meerdere communicatie- en productiviteitsplatforms zoals Slack, Linear en Git. Elk benchmarkgeval biedt een chronologisch platform-doordrenkte tijdlijn, met ruis, tegenstrijdige, kruisverwijzende informatie, evenals potentieel begrip en exploratie van codebases/bestandssystemen. Als gevolg test onze benchmark geheugencapaciteiten zoals verwerving, selectie en conflictoplossing. Wij stellen de MEMTRACK-dataset samen door zowel handmatig expertgedreven ontwerp als schaalbare agentgebaseerde synthese, waarbij ecologisch valide scenario's worden gegenereerd die gebaseerd zijn op real-world softwareontwikkelingsprocessen. Wij introduceren relevante metrieken voor Correctheid, Efficiëntie en Redundantie die de effectiviteit van geheugenmechanismen vastleggen die verder gaan dan eenvoudige QA-prestaties. Experimenten met state-of-the-art LLM's en geheugenbackends onthullen uitdagingen bij het gebruik van geheugen over lange tijdsperioden, het omgaan met cross-platform afhankelijkheden en het oplossen van tegenstrijdigheden. Opmerkelijk is dat het best presterende GPT-5-model slechts een Correctheidsscore van 60\% behaalt op MEMTRACK. Dit werk biedt een uitbreidbaar raamwerk voor het bevorderen van evaluatieonderzoek voor geheugenversterkte agents, verder dan de bestaande focus op conversatieopstellingen, en zet de toon voor multi-agent, multi-platform geheugenbenchmarking in complexe organisatorische omgevingen.
Moderne technieken voor voorkeursafstemming, zoals Best-of-N (BoN) sampling, berusten op beloningsmodellen die zijn getraind met paarsgewijze vergelijkingsdata. Hoewel deze aanpak effectief is in het leren van relatieve voorkeuren, slaagt het er niet in een signaal van acceptabiliteit van reacties vast te leggen, waardoor systemen kwetsbaar zijn voor het selecteren van de minst slechte van vele onacceptabele opties. Dit is vooral problematisch voor moeilijke prompts, waarbij het risico van dergelijke valse acceptaties toeneemt met het aantal steekproeven. In dit artikel pakken we dit kritieke betrouwbaarheidsgat aan door een nieuw datacollectie- en modelleerframework te introduceren. Door voorkeursdata aan te vullen met een buitenoptie, geïnspireerd door discrete keuzemodellen, trainen we een beloningsmodel dat niet alleen kan onderscheiden wat beter is, maar ook wat goed genoeg is. We benutten deze mogelijkheid om een adaptieve inferentiestrategie te creëren, best of mini-N in-loop, die het generatiebudget verdeelt in sequentiële lussen met een gekalibreerde, vroegtijdige exit-voorwaarde. Onze experimenten tonen aan dat wanneer het wordt afgestemd als een afstemmingsbeveiliging, het betrouwbaarheidsfouten met 70\% vermindert, en wanneer het wordt afgestemd als een inferentieversneller, het de gemiddelde inferentiesnelheid met meer dan 22\% verbetert in de IMDB-sentimentomgeving. We bieden hiermee een principieel en flexibel framework voor beoefenaars om expliciet de afweging tussen betrouwbaarheid en computationele efficiëntie te beheren.
AI-modellen worden steeds vaker gebruikt voor data-analyse en -visualisatie, maar benchmarks richten zich zelden op scatterplot-specifieke taken, wat inzicht in de prestaties beperkt. Om deze leemte voor een van de meest voorkomende grafiektypen aan te pakken, introduceren we een synthetische, geannoteerde dataset van meer dan 18.000 scatterplots afkomstig van zes datageneratoren en 17 grafiekontwerpen, en een benchmark die hierop is gebaseerd. We evalueren propriëtaire modellen van OpenAI en Google met behulp van N-shot prompting op vijf verschillende taken die zijn afgeleid van annotaties van clusterbegrenzingsvakken, hun middelpuntscoördinaten en uitbijtercoördinaten. OpenAI-modellen en Gemini 2.5 Flash, vooral wanneer ze worden geprompt met voorbeelden, zijn geschikte opties voor het tellen van clusters en, in het geval van Flash, uitbijters (90%+ nauwkeurigheid). De resultaten voor taken gerelateerd aan lokalisatie zijn echter onbevredigend: Precision en Recall liggen op of onder de 50%, behalve voor Flash bij uitbijteridentificatie (65,01%). Bovendien lijkt de invloed van grafiekontwerp op de prestaties een secundaire factor te zijn, maar het is aan te raden om scatterplots met brede beeldverhoudingen (16:9 en 21:9) of willekeurig gekleurde scatterplots te vermijden. Aanvullende materialen zijn beschikbaar op https://github.com/feedzai/biy-paper.
De prestaties van machine learning-modellen zijn sterk afhankelijk van trainingsdata. Het gebrek aan grootschalige, goed geannoteerde datasets vormt aanzienlijke uitdagingen bij het creëren van robuuste modellen. Om dit aan te pakken, is synthetische data die wordt gegenereerd via simulaties en generatieve modellen naar voren gekomen als een veelbelovende oplossing, waardoor de diversiteit van datasets wordt vergroot en de prestaties, betrouwbaarheid en veerkracht van modellen worden verbeterd. Het evalueren van de kwaliteit van deze gegenereerde data vereist echter een effectieve metriek. Dit artikel introduceert de Synthetic Dataset Quality Metric (SDQM) om de kwaliteit van data te beoordelen voor objectdetectietaken zonder dat modeltraining hoeft te convergeren. Deze metriek maakt een efficiëntere generatie en selectie van synthetische datasets mogelijk, wat een belangrijke uitdaging aanpakt bij objectdetectietaken met beperkte middelen. In onze experimenten toonde SDQM een sterke correlatie met de mean Average Precision (mAP)-scores van YOLOv11, een toonaangevend objectdetectiemodel, terwijl eerdere metrieken slechts matige of zwakke correlaties vertoonden. Daarnaast biedt het bruikbare inzichten voor het verbeteren van de datasetkwaliteit, waardoor de behoefte aan kostbare iteratieve training wordt geminimaliseerd. Deze schaalbare en efficiënte metriek zet een nieuwe standaard voor het evalueren van synthetische data. De code voor SDQM is beschikbaar op https://github.com/ayushzenith/SDQM.
Automatische akkoordherkenning (ACR) via deep learning-modellen heeft geleidelijk aan veelbelovende herkenningsnauwkeurigheid bereikt, maar twee belangrijke uitdagingen blijven bestaan. Ten eerste heeft eerder werk zich voornamelijk gericht op ACR in het audiodomein, terwijl symbolische muziek (bijvoorbeeld partituren) ACR beperkte aandacht heeft gekregen vanwege een gebrek aan data. Ten tweede negeren bestaande methoden nog steeds strategieën die aansluiten bij menselijke muziekanalytische praktijken. Om deze uitdagingen aan te pakken, doen we twee bijdragen: (1) we introduceren POP909-CL, een verbeterde versie van de POP909-dataset met tempo-uitgelijnde inhoud en door mensen gecorrigeerde labels van akkoorden, beats, toonsoorten en maatsoorten; en (2) we stellen BACHI voor, een symbolisch akkoordherkenningsmodel dat de taak opsplitst in verschillende besluitvormingsstappen, namelijk grensdetectie en iteratieve rangschikking van akkoordwortel, kwaliteit en bas (inversie). Dit mechanisme weerspiegelt de praktijken van menselijke gehoortraining. Experimenten tonen aan dat BACHI state-of-the-art prestaties bereikt in akkoordherkenning op zowel klassieke als popmuziek benchmarks, waarbij ablatiestudies de effectiviteit van elke module valideren.
Haarverzorging is een essentiële dagelijkse activiteit, maar blijft ontoegankelijk voor personen met beperkte mobiliteit en uitdagend voor autonome robotsystemen vanwege de fijnmazige fysieke structuur en complexe dynamiek van haar. In dit werk presenteren we DYMO-Hair, een modelgebaseerd robotisch haarverzorgingssysteem. We introduceren een nieuw paradigma voor dynamica-leren dat geschikt is voor volumetrische grootheden zoals haar, gebaseerd op een actie-geconditioneerd latent state editing-mechanisme, gekoppeld aan een compacte 3D latente ruimte van diverse kapsels om de generaliseerbaarheid te verbeteren. Deze latente ruimte is op grote schaal voorgetraind met behulp van een nieuwe haarfysica-simulator, waardoor generalisatie over voorheen onbekende kapsels mogelijk wordt. Door het dynamische model te gebruiken met een Model Predictive Path Integral (MPPI)-planner, is DYMO-Hair in staat om visueel doel-geconditioneerd haarstyling uit te voeren. Experimenten in simulatie tonen aan dat het dynamische model van DYMO-Hair de baseline-methoden overtreft in het vastleggen van lokale vervorming voor diverse, onbekende kapsels. DYMO-Hair presteert verder beter dan de baseline-methoden in gesloten-lus haarstyling-taken voor onbekende kapsels, met gemiddeld 22% lagere finale geometrische fout en 42% hoger slagingspercentage dan het state-of-the-art systeem. Real-world experimenten tonen de zero-shot overdraagbaarheid van ons systeem aan op pruiken, waarbij consistent succes wordt behaald op uitdagende onbekende kapsels waar het state-of-the-art systeem faalt. Samen introduceren deze resultaten een basis voor modelgebaseerde robotische haarverzorging, wat een stap voorwaarts betekent naar meer generaliseerbare, flexibele en toegankelijke robotische haarstyling in onbeperkte fysieke omgevingen. Meer details zijn beschikbaar op onze projectpagina: https://chengyzhao.github.io/DYMOHair-web/.
Het distilleren van denksporen van een groot taalmodel (LLM) met redeneervaardigheden naar een kleiner model is effectief gebleken. Toch is er weinig onderzoek gedaan naar hoe modelprestaties schalen met de hoeveelheid distillatiedata. In dit werk bestuderen we de schaaltrend van het distilleren van competitieve programmeervaardigheden op twee kleine niet-redenerende LLM's. We valideren de hypothese dat er een dal van coderedenering bestaat: de downstreamprestaties op competitief programmeren nemen eerst af naarmate de hoeveelheid data toeneemt, om vervolgens gestaag toe te nemen in een scherper-dan-log-lineair patroon. Nadat we deze trend hebben geïdentificeerd, fine-tunen we de modellen verder in twee verschillende distillatiefasen op dezelfde data om conclusies te grondvesten over hun respectievelijke leerfasen. We ontdekken dat in de lage en medium-lage dataregimes kleine modellen aanzienlijk meer baat hebben bij eenvoudigere programmeervragen dan bij moeilijkere. Verrassend genoeg vinden we ook dat de correctheid van uitvoer in de trainingsdata geen verschil maakt voor de distillatieresultaten. Ons werk vertegenwoordigt een stap voorwaarts in het begrijpen van de trainingsdynamiek van coderedeneringsdistillatie buiten intuïtie om.
Large Language Models (LLMs) blinken uit in veel NLP-taken, maar blijven vatbaar voor hallucinaties, wat het vertrouwen in real-world toepassingen beperkt. Wij presenteren HalluGuard, een Small Reasoning Model (SRM) met 4B parameters, gericht op het verminderen van hallucinaties in Retrieval-Augmented Generation (RAG). HalluGuard classificeert document-claim paren als gegrond of gehallucineerd en produceert op bewijs gebaseerde rechtvaardigingen voor transparantie. Onze aanpak combineert (i) een domein-agnostische synthetische dataset afgeleid van FineWeb en verfijnd door middel van meerfasige curatie en datahervorming, (ii) synthetische gegronde en gehallucineerde claims, en (iii) voorkeursgebaseerde fine-tuning met Odds Ratio Preference Optimization om de redenering van grote modellen te destilleren in een kleiner backbone model. Op de RAGTruth subset van de LLM-AggreFact benchmark behaalt HalluGuard een gebalanceerde nauwkeurigheid (BAcc) van 84.0%, wat concurreert met gespecialiseerde modellen zoals MiniCheck (7B; 84.0%) en Granite Guardian 3.3 (8B; 82.2%) terwijl het ongeveer de helft van hun parameters gebruikt. Over de volledige benchmark bereikt het een BAcc van 75.7%, wat vergelijkbaar is met grotere general-purpose LLMs zoals GPT-4o (75.9%). Wij zullen HalluGuard en de datasets vrijgeven onder Apache 2.0 na acceptatie.