Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Autonome datawetenschap, van ruwe databronnen tot diepgaande onderzoeksrapporten van analistenkwaliteit, is al lang een uitdaging en wordt nu haalbaar met de opkomst van krachtige grote taalmodellen (LLM's). Recente workflow-gebaseerde data-agents hebben veelbelovende resultaten laten zien voor specifieke datataken, maar blijven fundamenteel beperkt in het bereiken van volledig autonome datawetenschap vanwege hun afhankelijkheid van vooraf gedefinieerde workflows. In dit artikel introduceren we DeepAnalyze-8B, het eerste agentische LLM dat is ontworpen voor autonome datawetenschap, in staat om de end-to-end pijplijn van databronnen tot onderzoeksrapporten van analistenkwaliteit automatisch te voltooien. Om hoogcomplexe datawetenschapstaken aan te pakken, stellen we een curriculum-gebaseerd agentisch trainingsparadigma voor dat het leerpad van menselijke datawetenschappers nabootst, waardoor LLM's geleidelijk meerdere vaardigheden kunnen verwerven en integreren in real-world omgevingen. We introduceren ook een data-gebaseerd traject-syntheseframework dat hoogwaardige trainingsdata construeert. Door agentische training leert DeepAnalyze een breed scala aan datataken uit te voeren, variërend van data-vraagbeantwoording en gespecialiseerde analytische taken tot open-ended dataonderzoek. Experimenten tonen aan dat DeepAnalyze, met slechts 8B parameters, eerdere workflow-gebaseerde agents die zijn gebouwd op de meest geavanceerde propriëtaire LLM's overtreft. Het model, de code en de trainingsdata van DeepAnalyze zijn open-source, wat de weg vrijmaakt naar autonome datawetenschap.
Beeldbewerking heeft recentelijk opmerkelijke vooruitgang geboekt. Moderne bewerkingsmodellen kunnen al complexe instructies volgen om de oorspronkelijke inhoud te manipuleren. Echter, naast het uitvoeren van de bewerkingsinstructies, zijn de begeleidende fysieke effecten cruciaal voor de realiteitsgetrouwheid van de generatie. Bijvoorbeeld, het verwijderen van een object zou ook de schaduw, reflecties en interacties met nabijgelegen objecten moeten verwijderen. Helaas richten bestaande modellen en benchmarks zich voornamelijk op het voltooien van instructies, maar negeren ze deze fysieke effecten. Dus, hoe ver zijn we op dit moment verwijderd van fysiek realistische beeldbewerking? Om dit te beantwoorden, introduceren we PICABench, dat systematisch de fysieke realiteitsgetrouwheid evalueert over acht subdimensies (die optica, mechanica en staatsovergangen omvatten) voor de meeste gangbare bewerkingsoperaties (toevoegen, verwijderen, attribuutwijziging, etc.). We stellen verder PICAEval voor, een betrouwbaar evaluatieprotocol dat gebruikmaakt van VLM-as-a-judge met per geval, regionaal niveau menselijke annotaties en vragen. Naast benchmarking, verkennen we ook effectieve oplossingen door fysica te leren van video's en construeren we een trainingsdataset PICA-100K. Na het evalueren van de meeste mainstream modellen, observeren we dat fysieke realiteitsgetrouwheid een uitdagend probleem blijft met veel ruimte voor verdere verkenning. We hopen dat onze benchmark en voorgestelde oplossingen kunnen dienen als basis voor toekomstig werk, dat zich beweegt van naïeve inhoudsbewerking naar fysiek consistente realiteitsgetrouwheid.
Grote taalmodellen (LLMs) vertrouwen steeds meer op lang-contextmodellering voor taken zoals documentbegrip, code-analyse en meerstaps redeneren. Het schalen van contextvensters naar het niveau van miljoenen tokens brengt echter onhoudbare reken- en geheugenkosten met zich mee, wat de praktische toepasbaarheid van lang-context LLMs beperkt. In dit werk nemen we een ander perspectief aan—visuele contextschaling—om deze uitdaging aan te pakken. In plaats van token-gebaseerde sequenties uit te breiden, stellen we Glyph voor, een framework dat lange teksten omzet in afbeeldingen en deze verwerkt met visie-taalmodellen (VLMs). Deze aanpak comprimeert tekstuele input aanzienlijk terwijl semantische informatie behouden blijft, en we ontwerpen verder een LLM-gestuurde genetische zoektocht om optimale visuele weergaveconfiguraties te identificeren voor het balanceren van nauwkeurigheid en compressie. Door uitgebreide experimenten tonen we aan dat onze methode een 3-4x tokencompressie bereikt terwijl de nauwkeurigheid vergelijkbaar blijft met toonaangevende LLMs zoals Qwen3-8B op verschillende lang-context benchmarks. Deze compressie leidt ook tot ongeveer 4x snellere prefilling en decodering, en ongeveer 2x snellere SFT-training. Bovendien kan een VLM met een context van 128K onder extreme compressie worden geschaald om teksttaken op het niveau van 1M tokens aan te kunnen. Daarnaast profiteren real-world multimodale taken, zoals documentbegrip, van de gerenderde tekstgegevens. Onze code en model zijn vrijgegeven op https://github.com/thu-coai/Glyph.
De vooruitgang van vision-language modellen (VLMs) wordt belemmerd door een gefragmenteerd landschap van inconsistente en vervuilde openbare datasets. Wij introduceren FineVision, een zorgvuldig verzameld, gecureerd en verenigd corpus van 24 miljoen samples - de grootste openbare bron van zijn soort. We verenigen meer dan 200 bronnen in 185 subsets via een semi-geautomatiseerd, human-in-the-loop proces: automatisering voert bulkopname en schemamapping uit, terwijl reviewers de mappings controleren en steekproeven nemen om de getrouwe verwerking van annotaties, juiste opmaak en diversiteit, en veiligheid te verifiëren; problemen leiden tot gerichte correcties en herhalingen. De workflow past verder rigoureuze deduplicatie toe binnen en tussen bronnen en ontdoet de data van vervuiling tegen 66 openbare benchmarks. FineVision omvat ook agentische/GUI-taken met een verenigde actieruimte; reviewers valideren schema's en inspecteren een steekproef van trajecten om de uitvoerbare betrouwbaarheid te bevestigen. Modellen getraind op FineVision presteren consistent beter dan modellen getraind op bestaande openbare mengsels in een breed evaluatiepakket, wat de voordelen onderstreept van schaal, datahygiëne en gebalanceerde automatisering met menselijk toezicht. We geven het corpus en de curatietools vrij om data-gedreven VLM-onderzoek te versnellen.
Een dominante aanname in onderzoek naar Multimodale Taalmodellen (MLLM) is dat de prestaties grotendeels worden geërfd van het LLM-backbone, gezien de enorme parameterschaal en opmerkelijke capaciteiten. Dit heeft een leemte gecreëerd in het begrip van de visuele encoder, die bepaalt hoe MLLM's afbeeldingen waarnemen. De recente verschuiving in MLLM-trainingsparadigma's, van Supervised Finetuning (SFT) naar Reinforcement Learning (RL), vergroot dit gebrek aan aandacht—met name het significante gebrek aan analyse over hoe dergelijke training zowel de visuele encoder als de MLLM hervormt. Om dit aan te pakken, onderzoeken we eerst de impact van trainingsstrategieën op MLLM's, waarbij RL een duidelijk voordeel laat zien ten opzichte van SFT in sterk visueel gerelateerde VQA-benchmarks. Gemotiveerd door dit resultaat, voeren we een kritische maar onderbelichte analyse uit van de visuele encoder van MLLM's via diverse en diepgaande experimenten, variërend van ImageNet-classificatie en segmentatie tot gradientvisualisatie. Onze resultaten tonen aan dat de post-trainingsstrategie van MLLM's (d.w.z. SFT of RL) niet alleen leidt tot verschillende uitkomsten bij downstream taken van MLLM's, maar ook fundamenteel de onderliggende visuele representaties van MLLM's hervormt. Specifiek is de belangrijkste bevinding van ons onderzoek dat RL sterkere en preciezer gelokaliseerde visuele representaties produceert vergeleken met SFT, wat het vermogen van de visuele encoder voor MLLM's versterkt. Vervatten we onze bevindingen in een eenvoudig recept voor het bouwen van sterke visuele encoders voor MLLM's, Preference-Instructed Vision OpTimization (PIVOT). Wanneer geïntegreerd in MLLM's, presteert een met PIVOT getrainde visuele encoder beter dan zelfs grotere en zwaarder getrainde tegenhangers, ondanks dat het minder dan 1% van de rekenkosten van standaard visuele pretraining vereist. Dit resultaat opent een effectief en efficiënt pad voor het verbeteren van de visuele backbones van MLLM's. Projectpagina beschikbaar op https://june-page.github.io/pivot/.
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in complexe redeneertaken, grotendeels mogelijk gemaakt door test-time scaling (TTS) paradigma's die extra rekenkracht toewijzen tijdens inferentie. Onder deze paradigma's levert externe TTS (met name het Best-of-N selectieparadigma) schaalbare prestatieverbeteringen op door te selecteren uit meerdere onafhankelijk gegenereerde redeneertrajecten. Deze aanpak kent echter belangrijke beperkingen: (i) de hoge rekenkosten van het inzetten van procesbeloningsmodellen, (ii) het onderbenutten van de intrinsieke latente representaties van het LLM. Wij introduceren TrajSelector, een efficiënt en effectief Best-of-N raamwerk dat gebruikmaakt van de verborgen toestanden in het sampler LLM voor procesniveau-scoring. Een lichtgewicht verifier (met slechts 0,6B parameters) evalueert de kwaliteit van stapsgewijze trajecten en aggregeert vervolgens deze scores om het optimale redeneertraject te identificeren. Ons raamwerk maakt gebruik van een volledig data-gedreven, end-to-end trainingsmethode die de afhankelijkheid van massale stapniveau-annotaties elimineert. Experimentele resultaten over vijf benchmarks tonen aan dat TrajSelector consistente prestatieverbeteringen levert. In Best-of-32 instellingen overtreft het majority voting met 4,61% nauwkeurigheid en presteert het beter dan bestaande procesbeloningsmodellen met 4,31% tot 12,21%, terwijl het tegelijkertijd lagere inferentiekosten handhaaft.
Retrieval-Augmented Generation (RAG) is naar voren gekomen als een krachtig paradigma voor het verbeteren van grote taalmodelen (LLMs) door relevante documenten op te halen uit een externe corpus. Bestaande RAG-systemen richten zich echter voornamelijk op unimodale tekstdocumenten en schieten vaak tekort in realistische scenario's waarin zowel queries als documenten gemengde modaliteiten kunnen bevatten (zoals tekst en afbeeldingen). In dit artikel gaan we in op de uitdaging van Universal Retrieval-Augmented Generation (URAG), waarbij het gaat om het ophalen en redeneren over gemengd-modale informatie om visie-taalgeneratie te verbeteren. Hiertoe stellen we Nyx voor, een geïntegreerde gemengd-modale naar gemengd-modale retriever die is afgestemd op URAG-scenario's. Om het gebrek aan realistische gemengd-modale data te ondervangen, introduceren we een vierstappen geautomatiseerde pijplijn voor generatie en filtering, waarbij we gebruikmaken van webdocumenten om NyxQA te construeren, een dataset die bestaat uit diverse gemengd-modale vraag-antwoordparen die beter aansluiten bij realistische informatiebehoeften. Op basis van deze hoogwaardige dataset hanteren we een tweestappen trainingsframework voor Nyx: we voeren eerst pre-training uit op NyxQA samen met een verscheidenheid aan open-source retrieval-datasets, gevolgd door supervised fine-tuning met feedback van downstream visie-taalmodelen (VLMs) om de retrieval-uitvoer af te stemmen op generatieve voorkeuren. Experimentele resultaten tonen aan dat Nyx niet alleen competitief presteert op standaard tekst-only RAG-benchmarks, maar ook uitblinkt in de meer algemene en realistische URAG-instelling, waarbij de generatiekwaliteit in visie-taal taken aanzienlijk wordt verbeterd.
Grote Taalmodellen hebben sterke prestaties behaald op redeneertaken, waarbij ze competitieniveau coderings- en wiskundeproblemen oplossen. Hun schaalbaarheid wordt echter beperkt door door mensen gelabelde datasets en het gebrek aan grootschalige, uitdagende trainingsdata voor coderingsproblemen. Bestaande datasets voor competitief programmeren bevatten slechts duizenden tot tienduizenden problemen. Eerdere methoden voor het genereren van synthetische data zijn gebaseerd op het uitbreiden van bestaande instructiedatasets of het selecteren van uitdagende problemen uit door mensen gelabelde data. In dit artikel stellen we QueST voor, een nieuw framework dat moeilijkheidsbewuste grafemonstering combineert met moeilijkheidsbewuste afwijzingsfine-tuning, om gespecialiseerde generatoren direct te optimaliseren voor het creëren van uitdagende coderingsproblemen. Onze getrainde generatoren tonen superieure capaciteiten vergeleken met zelfs GPT-4o in het creëren van uitdagende problemen die de downstreamprestaties ten goede komen. We benutten QueST om grootschalige synthetische coderingsproblemen te genereren, die we vervolgens gebruiken om te destilleren van sterke leraarmodellen met lange ketens van gedachten of om reinforcement learning uit te voeren voor kleinere modellen, wat in beide scenario's effectief blijkt. Onze destillatie-experimenten tonen aanzienlijke prestatieverbeteringen. Specifiek, na het fine-tunen van Qwen3-8B-base op 100K moeilijke problemen gegenereerd door QueST, overtreffen we de prestaties van de originele Qwen3-8B op LiveCodeBench. Met een extra 112K voorbeelden (d.w.z. 28K door mensen geschreven problemen gepaard met meerdere synthetische oplossingen), evenaart ons 8B-model de prestaties van het veel grotere DeepSeek-R1-671B. Deze bevindingen geven aan dat het genereren van complexe problemen via QueST een effectieve en schaalbare aanpak biedt om de grenzen van competitief programmeren en redeneren voor grote taalmodellen te verleggen.
Het combineren van grote taalmodellen (LLM's) heeft aandacht gekregen als een veelbelovende aanpak om de prestaties van individuele modellen te overtreffen door gebruik te maken van hun complementaire sterktes. In het bijzonder is het samenvoegen van de volgende-token waarschijnlijkheidsverdelingen van modellen om de volgende token te selecteren effectief gebleken in diverse taken. Echter, hoewel succesvol voor korte antwoorden, blijft de toepassing ervan bij lange tekstgeneratie onderbelicht. In dit artikel tonen we aan dat het gebruik van bestaande ensemblemethoden bij lange tekstgeneratie een zorgvuldige keuze van ensembleposities vereist, aangezien de standaardpraktijk van ensemblen bij elke token vaak de prestaties verslechtert. We identificeren twee belangrijke factoren voor het bepalen van deze posities: tokenisatiemismatch tussen modellen en consensus in hun volgende-token waarschijnlijkheidsverdelingen. Op basis hiervan stellen we SAFE voor (Stable And Fast LLM Ensembling), een raamwerk dat selectief ensembleert door gezamenlijk rekening te houden met deze factoren. Om de stabiliteit verder te verbeteren, introduceren we een strategie voor waarschijnlijkheidsscherping die waarschijnlijkheden die verspreid zijn over meerdere sub-woordtokens die hetzelfde woord vertegenwoordigen, consolideert in één representatieve token. Onze experimenten op diverse benchmarks, waaronder MATH500 en BBH, tonen aan dat SAFE bestaande methoden overtreft in zowel nauwkeurigheid als efficiëntie, met verbeteringen die worden bereikt zelfs wanneer minder dan 1% van de tokens wordt geënsembleerd.
Hoewel foundation models veelbelovend zijn gebleken in diverse vakgebieden, ontbreekt er in de astronomie nog steeds een uniform raamwerk voor gezamenlijke modellering van de zeer uiteenlopende datamodaliteiten. In dit artikel presenteren we AION-1, een familie van grootschalige multimodale foundation models voor astronomie. AION-1 integreert heterogene beeld-, spectroscopische en scalaire gegevens met behulp van een tweestapsarchitectuur: modaliteit-specifieke tokenisatie gevolgd door transformer-gebaseerde gemaskeerde modellering van kruismodale tokenreeksen. Het model is voorgetraind op vijf grootschalige surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) en Gaia. Deze omvatten meer dan 200 miljoen waarnemingen van sterren, sterrenstelsels en quasars. Met een enkele bevroren encoder behaalt AION-1 sterke resultaten op een breed scala aan downstream taken, waaronder schatting van eigenschappen van sterrenstelsels en sterren, classificatie van sterrenstelselmorfologie, op gelijkenis gebaseerde retrievals, segmentatie van sterrenstelselbeelden en spectrale superresolutie. We brengen AION-1 modelvarianten uit met een bereik van 300 M tot 3,1 B parameters. Naast astronomie biedt AION-1 een schaalbaar blauwdruk voor multimodale wetenschappelijke foundation models die naadloos ruisgevoelige, instrument-specifieke waarnemingen kunnen integreren. Alle code, tokenizers, voorgetrainde gewichten en een lichtgewicht evaluatiesuite worden vrijgegeven onder een open-source licentie.
Hoewel schaling tijdens inferentie door middel van zoekstrategieën een revolutie teweeg heeft gebracht in grote taalmodellen, is het vertalen van deze vooruitgang naar beeldgeneratie moeilijk gebleken. Recente pogingen om zoekstrategieën toe te passen op continue diffusiemodellen laten beperkte voordelen zien, waarbij eenvoudige willekeurige steekproefname vaak het beste presteert. Wij tonen aan dat het discrete, sequentiële karakter van visuele autoregressieve modellen effectief zoeken voor beeldgeneratie mogelijk maakt. We laten zien dat beam search de tekst-naar-beeldgeneratie aanzienlijk verbetert, waardoor een autoregressief model met 2B parameters een diffusiemodel met 12B parameters overtreft op benchmarks. Systematische ablatieonderzoeken tonen aan dat dit voordeel voortkomt uit de discrete tokenruimte, die vroege snoei en hergebruik van berekeningen mogelijk maakt, en onze verifier-analyse benadrukt de afwegingen tussen snelheid en redeneervermogen. Deze bevindingen suggereren dat modelarchitectuur, niet alleen schaal, cruciaal is voor optimalisatie tijdens inferentie in visuele generatie.
Eerlijkheidsafstemming - het vermogen van grote taalmmodellen (LLMs) om hun kennisgrenzen te herkennen en gekalibreerd vertrouwen uit te drukken - is essentieel voor betrouwbare inzet. Bestaande methoden vertrouwen ofwel op trainingsvrije betrouwbaarheidsschatting (bijv., tokenwaarschijnlijkheden, zelfconsistentie) of op trainingsgebaseerde kalibratie met correctheidsannotaties. Hoewel effectief, vereist het bereiken van universele eerlijkheidsafstemming met trainingsgebaseerde kalibratie kostbare, grootschalige labeling. Om annotatie-efficiënte training te ondersteunen, introduceren we Elicitation-Then-Calibration (EliCal), een tweestappenraamwerk dat eerst intern vertrouwen oproept met goedkope zelfconsistentiebegeleiding, en vervolgens dit vertrouwen kalibreert met een kleine set correctheidsannotaties. Om een grootschalige studie te ondersteunen, lanceren we HonestyBench, een benchmark die tien vrije-vraag-antwoorddatasets omvat met 560k trainings- en 70k evaluatie-instanties geannoteerd met correctheids- en zelfconsistentiesignalen. Experimenten tonen aan dat EliCal bijna optimale afstemming bereikt met slechts 1k correctheidsannotaties (0,18% van volledige begeleiding) en betere afstemmingsprestaties op onbekende MMLU-taken dan de alleen-kalibratie-baseline, wat een schaalbare oplossing biedt voor universele eerlijkheidsafstemming in LLMs.
Instructiegebaseerde beeldbewerking heeft opmerkelijke vooruitgang geboekt; modellen die uitsluitend via supervised fine-tuning zijn getraind, passen zich echter vaak te veel aan geannoteerde patronen aan, wat hun vermogen om buiten de trainingsdistributies te verkennen en te generaliseren belemmert. Om dit aan te pakken, introduceren we Edit-R1, een nieuw post-trainingsframework voor instructiegebaseerde beeldbewerking gebaseerd op beleidsoptimalisatie. Specifiek maken we gebruik van Diffusion Negative-aware Finetuning (DiffusionNFT), een waarschijnlijkheidsvrije beleidsoptimalisatiemethode die consistent is met het flow matching forward-proces, waardoor het gebruik van hogere-orde samplers en efficiëntere training mogelijk wordt. Een andere belangrijke uitdaging hier is het ontbreken van een universeel beloningsmodel, wat voortkomt uit de diverse aard van bewerkingsinstructies en taken. Om deze kloof te overbruggen, zetten we een Multimodaal Taalmodel (MLLM) in als een uniform, trainingsvrij beloningsmodel, waarbij we de output-logits benutten om gedetailleerde feedback te geven. Bovendien ontwerpen we zorgvuldig een laag-variantie groepfilteringsmechanisme om MLLM-scoringsruis te verminderen en de optimalisatie te stabiliseren. UniWorld-V2, getraind met dit framework, behaalt state-of-the-art resultaten op de ImgEdit- en GEdit-Bench benchmarks, met scores van respectievelijk 4.49 en 7.83. Cruciaal is dat ons framework model-agnostisch is, wat aanzienlijke prestatieverbeteringen oplevert wanneer het wordt toegepast op diverse basismodellen zoals Qwen-Image-Edit en FLUX-Kontext, wat de brede toepasbaarheid aantoont. Code en modellen zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/UniWorld-V2.
Recente vooruitgang in trainingsvrije aandachtcontrolemethoden heeft flexibele en efficiënte tekstgestuurde bewerkingsmogelijkheden mogelijk gemaakt voor bestaande generatiemodellen. Huidige benaderingen hebben echter moeite om tegelijkertijd sterke bewerkingskracht te leveren en consistentie met de bron te behouden. Deze beperking wordt vooral kritiek bij meervoudige en videobewerkingen, waar visuele fouten zich in de loop van de tijd kunnen opstapelen. Bovendien handhaven de meeste bestaande methoden globale consistentie, wat hun vermogen beperkt om individuele attributen zoals textuur aan te passen terwijl andere behouden blijven, waardoor fijnmazige bewerking wordt belemmerd. Recentelijk heeft de architectonische verschuiving van U-Net naar MM-DiT aanzienlijke verbeteringen in generatieve prestaties gebracht en een nieuw mechanisme geïntroduceerd voor de integratie van tekst- en visiemodaliteiten. Deze vooruitgang opent de weg voor het overwinnen van uitdagingen waar eerdere methoden niet in slaagden. Door een diepgaande analyse van MM-DiT identificeren we drie belangrijke inzichten in zijn aandachtmechanismen. Op basis hiervan stellen we ConsistEdit voor, een nieuwe aandachtcontrolemethode specifiek afgestemd op MM-DiT. ConsistEdit omvat visie-alleen aandachtcontrole, maskergestuurde pre-attentiefusie en gedifferentieerde manipulatie van de query-, key- en value-tokens om consistente, prompt-uitgelijnde bewerkingen te produceren. Uitgebreide experimenten tonen aan dat ConsistEdit state-of-the-art prestaties bereikt in een breed scala aan beeld- en videobewerkingstaken, inclusief zowel structuurconsistente als structuurinconsistente scenario's. In tegenstelling tot eerdere methoden is het de eerste benadering die bewerkingen uitvoert over alle inferentiestappen en aandachtlagen zonder handmatige aanpassingen, wat de betrouwbaarheid en consistentie aanzienlijk verbetert en robuuste meervoudige en meervoudige regio-bewerkingen mogelijk maakt. Bovendien ondersteunt het progressieve aanpassing van structurele consistentie, waardoor fijnere controle mogelijk wordt.
Het repliceren van AI-onderzoek is een cruciale maar uitdagende taak voor grote taalmodel (LLM) agents. Bestaande benaderingen hebben vaak moeite met het genereren van uitvoerbare code, voornamelijk door onvoldoende achtergrondkennis en de beperkingen van retrieval-augmented generation (RAG) methoden, die latente technische details in referentiedocumenten niet kunnen vastleggen. Bovendien negeren eerdere benaderingen vaak waardevolle implementatieniveau code-signalen en ontbreekt het aan gestructureerde kennisrepresentaties die multi-granulaire retrieval en hergebruik ondersteunen. Om deze uitdagingen te overwinnen, stellen we Executable Knowledge Graphs (xKG) voor, een modulaire en pluggable kennisbank die automatisch technische inzichten, codefragmenten en domeinspecifieke kennis integreert die uit wetenschappelijke literatuur zijn geëxtraheerd. Wanneer xKG wordt geïntegreerd in drie agent-frameworks met twee verschillende LLM's, laat het aanzienlijke prestatieverbeteringen zien (10,9% met o3-mini) op PaperBench, wat de effectiviteit ervan aantoont als een algemene en uitbreidbare oplossing voor geautomatiseerde AI-onderzoeksreplicatie. De code zal worden vrijgegeven op https://github.com/zjunlp/xKG.
Langdurige keten-van-gedachten-redenering is een hoeksteen geworden van geavanceerd redeneren in grote taalmodellen. Hoewel recente verificatie-verfijningsframeworks propriëtaire modellen in staat hebben gesteld om Olympiade-niveau problemen op te lossen, hangt hun effectiviteit af van sterke, betrouwbare verificatie- en correctiecapaciteiten, die fragiel blijven in open-weight, kleinschalige modellen. Dit werk toont aan dat zelfs met zwakke verificatie- en verfijningscapaciteiten bij moeilijke taken, de redeneerlimieten van dergelijke modellen aanzienlijk kunnen worden uitgebreid door een probabilistisch paradigma dat we Deep Self-Evolving Reasoning (DSER) noemen. We conceptualiseren iteratief redeneren als een Markov-keten, waarbij elke stap een stochastische overgang in de oplossingsruimte vertegenwoordigt. Het belangrijkste inzicht is dat convergentie naar een correcte oplossing gegarandeerd is zolang de kans op verbetering marginaal groter is dan die van verslechtering. Door meerdere langdurige, zelf-evoluerende processen parallel uit te voeren, versterkt DSER deze kleine positieve tendensen, waardoor het model asymptotisch correcte antwoorden kan benaderen. Empirisch passen we DSER toe op het DeepSeek-R1-0528-Qwen3-8B model. Op de uitdagende AIME 2024-2025 benchmark lost DSER 5 van de 9 voorheen onoplosbare problemen op en verbetert de algehele prestaties, waardoor dit compacte model de single-turn nauwkeurigheid van zijn 600B-parameter leraar overtreft door middel van meerderheidsstemming. Naast de directe bruikbaarheid voor test-time schaling, dient het DSER-framework om de fundamentele beperkingen van huidige open-weight redeneerders te diagnosticeren. Door hun tekortkomingen in zelfverificatie, verfijning en stabiliteit duidelijk af te bakenen, leggen onze bevindingen een duidelijk onderzoeksagenda vast voor de ontwikkeling van next-generation modellen met krachtige, intrinsieke zelf-evoluerende capaciteiten.
Voorgetrainde tijdreeksmodellen hebben inferentie-only voorspellingssystemen mogelijk gemaakt die nauwkeurige voorspellingen produceren zonder taakspecifieke training. Bestaande benaderingen richten zich echter grotendeels op univariate voorspellingen, wat hun toepasbaarheid beperkt in real-world scenario's waar multivariate gegevens en covariaten een cruciale rol spelen. Wij presenteren Chronos-2, een voorgetraind model dat in staat is om univariate, multivariate en covariaat-gestuurde voorspellingstaken op een zero-shot manier te verwerken. Chronos-2 maakt gebruik van een groepsaandachtsmechanisme dat in-context learning (ICL) mogelijk maakt door efficiënte informatie-uitwisseling over meerdere tijdreeksen binnen een groep, die gerelateerde reeksen, variabelen van een multivariate reeks, of doelen en covariaten in een voorspellingstaak kunnen vertegenwoordigen. Deze algemene mogelijkheden worden bereikt door training op synthetische datasets die diverse multivariate structuren opleggen aan univariate reeksen. Chronos-2 levert state-of-the-art prestaties op drie uitgebreide benchmarks: fev-bench, GIFT-Eval en Chronos Benchmark II. Op fev-bench, dat de nadruk legt op multivariate en covariaat-gestuurde voorspellingen, leiden de universele ICL-mogelijkheden van Chronos-2 tot aanzienlijke verbeteringen ten opzichte van bestaande modellen. Bij taken met covariaten presteert het consistent beter dan baseline-modellen met een ruime marge. Casestudies in de energie- en retaildomeinen benadrukken verder de praktische voordelen ervan. De in-context learning-mogelijkheden van Chronos-2 vestigen het als een algemeen toepasbaar voorspellingsmodel dat "as is" kan worden gebruikt in real-world voorspellingspijplijnen.
De snelle evolutie van agent-gebaseerde AI markeert een nieuwe fase in kunstmatige intelligentie, waarbij Large Language Models (LLMs) niet langer slechts reageren, maar handelen, redeneren en zich aanpassen. Dit overzicht traceert de paradigmaverschuiving in het bouwen van agent-gebaseerde AI: van pijplijn-gebaseerde systemen, waar planning, gereedschapsgebruik en geheugen worden georkestreerd door externe logica, naar het opkomende Model-native paradigma, waar deze capaciteiten zijn geïnternaliseerd binnen de parameters van het model. We positioneren eerst Reinforcement Learning (RL) als de algoritmische motor die deze paradigmaverschuiving mogelijk maakt. Door leren te herformuleren van het imiteren van statische data naar uitkomstgedreven exploratie, ondersteunt RL een geïntegreerde oplossing van LLM + RL + Taak over taal, visie en embodied domeinen. Hierop voortbouwend, bespreekt het overzicht systematisch hoe elke capaciteit — Planning, Gereedschapsgebruik en Geheugen — is geëvolueerd van extern gescripte modules naar end-to-end aangeleerd gedrag. Verder onderzoekt het hoe deze paradigmaverschuiving belangrijke agenttoepassingen heeft hervormd, specifiek de Deep Research-agent die zich richt op langetermijnredenering en de GUI-agent die zich richt op embodied interactie. We sluiten af met een bespreking van de voortdurende internalisatie van agentcapaciteiten zoals Multi-agent samenwerking en Reflectie, naast de evoluerende rollen van de systeem- en modellagen in toekomstige agent-gebaseerde AI. Samen schetsen deze ontwikkelingen een coherent traject naar model-native agent-gebaseerde AI als een geïntegreerd leer- en interactiekader, wat de overgang markeert van het bouwen van systemen die intelligentie toepassen naar het ontwikkelen van modellen die intelligentie laten groeien door ervaring.
Het Codec Avatars Lab van Meta introduceert Embody 3D, een multimodale dataset van 500 individuele uren aan 3D-bewegingsgegevens van 439 deelnemers, verzameld in een multi-camera-opstelling, wat neerkomt op meer dan 54 miljoen frames van gevolgde 3D-bewegingen. De dataset bevat een breed scala aan bewegingsgegevens van individuele personen, waaronder opgewekte bewegingen, handgebaren en voortbeweging; evenals gedrags- en gespreksgegevens van meerdere personen, zoals discussies, gesprekken in verschillende emotionele toestanden, samenwerkende activiteiten en samenlevingsscenario's in een appartementachtige ruimte. Wij bieden gevolgde menselijke bewegingen inclusief handtracking en lichaamsvorm, tekstannotaties en een apart audiospoor voor elke deelnemer.
Recente ontwikkelingen in beeldgeneratie, vaak aangedreven door propriëtaire systemen zoals GPT-4o Image Gen, introduceren regelmatig nieuwe mogelijkheden die de manier waarop gebruikers met deze modellen interacteren, hervormen. Bestaande benchmarks blijven vaak achter en slagen er niet in deze opkomende gebruiksscenario's vast te leggen, wat een kloof creëert tussen de perceptie van vooruitgang in de gemeenschap en formele evaluatie. Om dit aan te pakken, presenteren we ECHO, een raamwerk voor het construeren van benchmarks direct op basis van real-world bewijs van modelgebruik: sociale media posts die nieuwe prompts en kwalitatieve gebruikersbeoordelingen tonen. Door dit raamwerk toe te passen op GPT-4o Image Gen, construeren we een dataset van meer dan 31.000 prompts die uit dergelijke posts zijn samengesteld. Onze analyse toont aan dat ECHO (1) creatieve en complexe taken ontdekt die afwezig zijn in bestaande benchmarks, zoals het opnieuw renderen van productlabels in verschillende talen of het genereren van bonnetjes met gespecificeerde totalen, (2) state-of-the-art modellen duidelijker onderscheidt van alternatieven, en (3) feedback uit de gemeenschap naar voren brengt die we gebruiken om de ontwerp van metrieken voor modelkwaliteit te informeren (bijvoorbeeld het meten van waargenomen verschuivingen in kleur, identiteit en structuur). Onze website is te vinden op https://echo-bench.github.io.
Agentisch reinforcement learning (RL) traint grote taalmodellen om autonoom tools aan te roepen tijdens redeneren, waarbij zoeken de meest voorkomende toepassing is. Deze modellen blinken uit in meerstaps redeneertaken, maar hun veiligheidseigenschappen zijn niet goed begrepen. In deze studie tonen we aan dat RL-getrainde zoekmodellen weigeringen overnemen van instructieafstemming en vaak schadelijke verzoeken afbuigen door ze om te zetten in veilige zoekopdrachten. Deze veiligheid is echter fragiel. Twee eenvoudige aanvallen, één die het model dwingt om te beginnen met zoeken (Zoekaanval), en een ander die modellen aanmoedigt om herhaaldelijk te zoeken (Multi-zoekaanval), veroorzaken cascades van schadelijke zoekopdrachten en antwoorden. Over twee modelfamilies (Qwen, Llama) met zowel lokale als webzoekopdrachten, verlagen deze aanvallen de weigeringspercentages met tot 60,0%, de veiligheid van antwoorden met 82,5%, en de veiligheid van zoekopdrachten met 82,4%. De aanvallen slagen door modellen te activeren om schadelijke, verzoekspiegelende zoekopdrachten te genereren voordat ze de overgenomen weigerings-tokens kunnen genereren. Dit onthult een kernzwakte van de huidige RL-training: het beloont het voortdurend genereren van effectieve zoekopdrachten zonder rekening te houden met hun schadelijkheid. Als gevolg hiervan hebben RL-zoekmodellen kwetsbaarheden die gebruikers gemakkelijk kunnen uitbuiten, wat de urgentie benadrukt om veiligheidsbewuste agentische RL-pipelines te ontwikkelen die optimaliseren voor veilig zoeken.
Multimodale agents voor computergebruik vertrouwen uitsluitend op primitieve acties (klikken, typen, scrollen) die nauwkeurige visuele verankering en lange uitvoeringsketens vereisen, wat leidt tot opeenvolgende fouten en prestatieknelpunten. Terwijl andere agents gebruikmaken van uitgebreide programmatische interfaces (API's, MCP-servers, tools), blijven computergebruik-agents (CUAs) geïsoleerd van deze mogelijkheden. Wij presenteren UltraCUA, een foundation-model dat deze kloof overbrugt door middel van hybride acties – waarbij GUI-primitieven naadloos worden gecombineerd met hoogwaardige programmatische tool-aanroepen. Om dit te bereiken, bestaat onze aanpak uit vier belangrijke componenten: (1) een geautomatiseerde pipeline die programmatische tools schaalt op basis van software documentatie, open-source repositories en codegeneratie; (2) een synthetische data-engine die meer dan 17.000 verifieerbare taken produceert die realistische computergebruik- scenario's omvatten; (3) een grootschalige, hoogwaardige verzameling van hybride actietrajecten met zowel laagniveau GUI-acties als hoogwaardige programmatische tool-aanroepen; en (4) een tweefasig trainingspipeline die supervised fine-tuning combineert met online reinforcement learning, waardoor strategische afwisseling tussen laagniveau- en hoogwaardige acties mogelijk wordt. Experimenten met onze 7B- en 32B-modellen tonen aanzienlijke verbeteringen ten opzichte van state-of-the-art agents. Op OSWorld behalen UltraCUA-modellen een gemiddelde relatieve verbetering van 22% ten opzichte van basismodellen, terwijl ze 11% sneller zijn in termen van stappen. Out-of-domain evaluatie op WindowsAgentArena laat zien dat ons model een slagingspercentage van 21,7% bereikt, wat beter is dan baseline-modellen die op Windows-data zijn getraind. Het hybride actiemechanisme blijkt cruciaal, waardoor foutpropagatie wordt verminderd terwijl de uitvoeringsefficiëntie behouden blijft.
Naarmate informatie exponentieel groeit, staan bedrijven onder toenemende druk om ongestructureerde data om te zetten in samenhangende, actiegerichte inzichten. Hoewel autonome agents veelbelovend zijn, hebben ze vaak moeite met domeinspecifieke nuances, intentie-afstemming en bedrijfsintegratie. Wij presenteren Enterprise Deep Research (EDR), een multi-agent systeem dat integreert: (1) een Master Planning Agent voor adaptieve query-decompositie, (2) vier gespecialiseerde zoekagents (Algemeen, Academisch, GitHub, LinkedIn), (3) een uitbreidbaar MCP-gebaseerd tool-ecosysteem dat NL2SQL, bestandsanalyse en bedrijfsprocessen ondersteunt, (4) een Visualisatie Agent voor data-gedreven inzichten, en (5) een reflectiemechanisme dat kennislacunes detecteert en de onderzoeksrichting bijwerkt met optionele menselijke sturing. Deze componenten maken geautomatiseerde rapportgeneratie, real-time streaming en naadloze bedrijfsimplementatie mogelijk, zoals gevalideerd op interne datasets. Op open-einde benchmarks, waaronder DeepResearch Bench en DeepConsult, presteert EDR beter dan state-of-the-art agent-systemen zonder menselijke sturing. Wij maken het EDR-framework en benchmark-trajecten beschikbaar om onderzoek naar multi-agent redeneertoepassingen te bevorderen. Code beschikbaar op https://github.com/SalesforceAIResearch/enterprise-deep-research en Dataset beschikbaar op https://huggingface.co/datasets/Salesforce/EDR-200
Kennisgebaseerd visueel vraag-antwoord (KB-VQA) vereist dat visuele taalmodellen (VLMs) visueel begrip integreren met het ophalen van externe kennis. Hoewel retrieval-augmented generation (RAG) aanzienlijke vooruitgang boekt in deze taak door het combineren van kennisbankquery's, worstelt het nog steeds met de kwaliteit van multimodale query's en de relevantie van opgehaalde resultaten. Om deze uitdagingen te overwinnen, stellen we een nieuwe driestapsmethode voor, genaamd Wiki-PRF, inclusief Verwerking, Ophalen en Filteren. In de verwerkingsfase worden visuele tools dynamisch aangeroepen om precieze multimodale informatie voor het ophalen te extraheren. De ophaalfase integreert visuele en tekstuele kenmerken om multimodale kennisretrieval te bereiken. De filterfase voert relevantiefiltering en concentratie uit op de opgehaalde resultaten. Hiertoe introduceren we een visueel taalmodel dat is getraind met antwoordnauwkeurigheid en formaatconsistentie als beloningssignalen via een reinforcement learning-benadering. Dit verbetert het redeneervermogen van het model, het aanroepen van tools voor nauwkeurige query's en het filteren van irrelevante inhoud. Experimenten op benchmarkdatasets (E-VQA en InfoSeek) tonen significante verbeteringen~(36,0 en 42,8) in de kwaliteit van antwoorden, wat resulteert in state-of-the-art prestaties. Code is beschikbaar op https://github.com/cqu-student/Wiki-PRF.
Grote Taalmodellen (LLMs), zoals OpenAI-o1 en DeepSeek-R1, hebben sterke redeneervaardigheden aangetoond. Om de mogelijkheden van LLMs verder te verbeteren, integreren recente agentische systemen, zoals Deep Research, webinteracties in het redeneren van LLMs om onzekerheden te verminderen en potentiële fouten te minimaliseren. Bestaand onderzoek richt zich echter voornamelijk op redeneerprestaties en negeert vaak de efficiëntie van agentische systemen. In dit werk presenteren we een uitgebreide empirische studie die efficiëntieknelpunten in webinteractieve agentische systemen identificeert. We verdelen de end-to-end latentie in twee primaire componenten: LLM API-latentie en webomgevingslatentie. We voeren een uitgebreide empirische studie uit over 15 modellen en 5 providers om de hoge variabiliteit in API-gebaseerde agentische systemen aan te tonen. We observeren dat webomgevingslatentie tot wel 53,7% kan bijdragen aan de totale latentie in een webgebaseerd agentisch systeem. Om de latentie te verbeteren, stellen we SpecCache voor, een cachingframework versterkt met speculatieve uitvoering, dat de overhead van de webomgeving kan verminderen. Uitgebreide evaluaties op twee standaardbenchmarks tonen aan dat onze aanpak de cache-treffersnelheid tot 58x verbetert in vergelijking met een willekeurige cachingstrategie, terwijl de overhead van de webomgeving tot 3,2x wordt verminderd, zonder de prestaties van het agentische systeem te verslechteren.
Vision-and-Language Models (VLMs) hebben indrukwekkende prestaties getoond op single-turn benchmarks, maar real-world toepassingen vereisen vaak complexere multi-turn dialogen. Bestaande multi-turn datasets (bijv. MMDU, ConvBench) vangen slechts gedeeltelijk de breedte en diepte van conversatiescenario's die gebruikers tegenkomen. In dit werk introduceren we MultiVerse, een nieuwe multi-turn conversatiebenchmark met 647 dialogen - elk gemiddeld vier beurten - afgeleid uit een diverse set van 12 populaire VLM-evaluatiebenchmarks. Met 484 taken en 484 interactiedoelen bestrijkt MultiVerse een breed scala aan onderwerpen, van feitelijke kennis en perceptie tot geavanceerde redeneertaken zoals wiskunde en coderen. Om een robuuste beoordeling mogelijk te maken, stellen we een checklist-gebaseerde evaluatiemethode voor die GPT-4o gebruikt als geautomatiseerde beoordelaar, waarbij prestaties worden gemeten op 37 belangrijke aspecten, waaronder perceptuele nauwkeurigheid, linguïstische helderheid en feitelijke correctheid. We evalueren 18 VLMs op MultiVerse, waaruit blijkt dat zelfs de sterkste modellen (bijv. GPT-4o) slechts een slagingspercentage van 50% behalen in complexe multi-turn conversaties, wat de uitdagende aard van de dataset benadrukt. Opmerkelijk is dat we vaststellen dat het verstrekken van volledige dialoogcontext de prestaties aanzienlijk verbetert voor kleinere of zwakkere modellen, wat het belang van in-context leren onderstreept. Wij geloven dat MultiVerse een landschap biedt voor het evalueren van multi-turn interactievaardigheden voor VLMs.
Recente vooruitgang in grote redeneermodellen (LRMs) heeft opmerkelijke prestaties mogelijk gemaakt bij complexe taken zoals wiskunde en programmeren door het genereren van lange Chain-of-Thought (CoT)-sporen. In dit artikel identificeren en analyseren we systematisch een kritieke kwetsbaarheid die we 'redeneerafleiding' noemen, waarbij LRMs worden afgeleid van hun primaire doel door irrelevante maar complexe taken die kwaadwillig in de prompt zijn ingebed. Door een uitgebreide studie over diverse modellen en benchmarks tonen we aan dat zelfs state-of-the-art LRMs zeer vatbaar zijn, waarbij geïnjecteerde afleiders de taaknauwkeurigheid met tot wel 60% kunnen verminderen. We onthullen verder dat bepaalde alignmenttechnieken deze zwakte kunnen versterken en dat modellen mogelijk heimelijke compliance vertonen, waarbij ze verborgen tegenstrijdige instructies in het redeneren volgen terwijl ze deze in de uiteindelijke uitvoer verbergen. Om deze risico's te beperken, stellen we een op training gebaseerde verdediging voor die Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) combineert op synthetische adversariële data, wat de robuustheid met meer dan 50 punten verbetert bij uitdagende afleideraanvallen. Onze bevindingen vestigen redeneerafleiding als een duidelijk en urgent gevaar voor de betrouwbaarheid van LRMs en bieden een praktische stap naar veiligere en betrouwbaardere redeneersystemen.
Het finetunen van gespecialiseerde generatieve evaluatoren is een populair paradigma geworden om te voldoen aan de toenemende vraag naar schaalbare evaluatie tijdens zowel training als testtijd. Recent werk heeft zich echter vooral gericht op het toepassen van nieuwe methodologieën, zoals reinforcement learning (RL), voor het trainen van evaluatoren, terwijl grootschalige, data-gedreven ontwikkeling werd vermeden. In dit werk richten we ons op data-schaling en cureren we een set van 2,5 miljoen samples die vijf unieke evaluatietaken omvatten (paarsgewijs, stapniveau, referentievrije en referentiegebaseerde verificatie, en enkele beoordeling) en meerdere domeinen gericht op redeneerevaluatie. Met onze data trainen we Foundational Automatic Reasoning Evaluators (FARE), een familie van evaluatoren met 8B en 20B (waarvan 3,6B actief) parameters, met een eenvoudige iteratieve rejection-sampling supervised finetuning (SFT) aanpak. FARE-8B daagt grotere gespecialiseerde RL-getrainde evaluatoren uit en FARE-20B zet een nieuwe standaard voor open-source evaluatoren, waarbij gespecialiseerde 70B+ evaluatoren worden overtroffen. Naast statische benchmarks evalueren we FARE in real-world taken: Als inference-time rerankers bereikt FARE-20B bijna-orakelprestaties op MATH. Als verificatoren in RL-training verbetert FARE de prestaties van het downstream RL-getrainde model met tot 14,1% ten opzichte van string-matching verificatoren. Wanneer geïnitialiseerd vanuit FARE, presteert een continu gefinetunde FARE-Code 65% beter dan gpt-oss-20B bij het evalueren van testcase-kwaliteit.
Als je een AI Walvis-naar-Engels vertaler had, hoe zou je dan kunnen valideren of deze werkt? Moet je interactie hebben met de dieren of vertrouwen op gegronde observaties zoals temperatuur? Wij leveren theoretisch en proof-of-concept experimenteel bewijs dat suggereert dat interactie en zelfs observaties mogelijk niet nodig zijn voor voldoende complexe talen. Men zou vertalers uitsluitend kunnen evalueren op basis van hun Engelse uitvoer, wat potentiële voordelen biedt op het gebied van veiligheid, ethiek en kosten. Dit is een voorbeeld van machinevertaling-kwaliteitsevaluatie (MTQE) zonder enige referentievertalingen beschikbaar. Een belangrijke uitdaging is het identificeren van "hallucinaties," valse vertalingen die vloeiend en plausibel kunnen lijken. Wij stellen voor om segment-voor-segment vertaling te gebruiken samen met de klassieke NLP shuffle-test om vertalers te evalueren. Het idee is om diercommunicatie beurtelings te vertalen en te evalueren hoe vaak de resulterende vertalingen meer zin hebben in volgorde dan wanneer ze door elkaar zijn geschud. Proof-of-concept experimenten op data-schaarse menselijke talen en geconstrueerde talen tonen de potentiële bruikbaarheid van deze evaluatiemethodologie aan. Deze menselijke-taalexperimenten dienen uitsluitend om onze referentievrije metriek te valideren onder data-schaarste. Het blijkt sterk te correleren met een standaard evaluatie gebaseerd op referentievertalingen, die in onze experimenten beschikbaar zijn. We voeren ook een theoretische analyse uit die suggereert dat interactie mogelijk niet nodig noch efficiënt is in de vroege stadia van het leren vertalen.
Dit werk presenteert een systematisch onderzoek naar aangepaste convolutionele neurale netwerkarchitecturen voor satellietclassificatie van landgebruik, waarbij een testnauwkeurigheid van 97,23% wordt behaald op de EuroSAT-dataset zonder gebruik te maken van vooraf getrainde modellen. Door drie progressieve architectuuriteraties (baseline: 94,30%, CBAM-verbeterd: 95,98%, en gebalanceerde multi-task aandacht: 97,23%) identificeren en adresseren we specifieke faalmodi in satellietbeeldclassificatie. Onze belangrijkste bijdrage is een nieuw gebalanceerd multi-task aandachtmechanisme dat Coordinate Attention voor ruimtelijke feature-extractie combineert met Squeeze-Excitation-blokken voor spectrale feature-extractie, verenigd door een leerbare fusieparameter. Experimentele resultaten tonen aan dat deze leerbare parameter autonoom convergeert naar alpha ongeveer 0,57, wat wijst op een bijna gelijk belang van ruimtelijke en spectrale modaliteiten voor satellietbeelden. We gebruiken progressieve DropBlock-regularisatie (5-20% op basis van netwerkdiepte) en klasse-gebalanceerd verliesgewicht om overfitting en onbalans in verwarringspatronen aan te pakken. De uiteindelijke 12-laagse architectuur behaalt een Cohen's Kappa van 0,9692 waarbij alle klassen een nauwkeurigheid van meer dan 94,46% overschrijden, wat vertrouwenscalibratie aantoont met een kloof van 24,25% tussen correcte en incorrecte voorspellingen. Onze aanpak behaalt een prestatieniveau binnen 1,34% van een fijn afgestelde ResNet-50 (98,57%) zonder gebruik van externe data, wat de effectiviteit van systematisch architectuurontwerp voor domeinspecifieke toepassingen valideert. Volledige code, getrainde modellen en evaluatiescripts zijn publiekelijk beschikbaar.
Het ontwerpen van effectieve agentische systemen vereist de naadloze samenstelling en integratie van agents, tools en modellen binnen dynamische en onzekere omgevingen. De meeste bestaande methoden vertrouwen op statische, semantische retrievalbenaderingen voor het ontdekken van tools of agents. Echter blijft effectief hergebruik en samenstelling van bestaande componenten een uitdaging vanwege onvolledige beschrijvingen van capaciteiten en de beperkingen van retrievalmethoden. De selectie van componenten lijdt omdat beslissingen niet gebaseerd zijn op capaciteit, kosten en realtime nut. Om deze uitdagingen aan te pakken, introduceren we een gestructureerd, geautomatiseerd framework voor de samenstelling van agentische systemen dat geïnspireerd is door het knapzakprobleem. Ons framework stelt een componerende agent in staat om systematisch een optimale set van agentische componenten te identificeren, selecteren en assembleren door prestaties, budgetbeperkingen en compatibiliteit gezamenlijk in overweging te nemen. Door dynamisch kandidaat-componenten te testen en hun nut in realtime te modelleren, stroomlijnt onze aanpak de assemblage van agentische systemen en vergemakkelijkt het schaalbaar hergebruik van resources. Empirische evaluatie met Claude 3.5 Sonnet over vijf benchmarkdatasets toont aan dat onze online-knapsack-gebaseerde componist consistent op de Pareto-grens ligt, met hogere slagingspercentages tegen aanzienlijk lagere componentkosten in vergelijking met onze baseline-methoden. In de single-agent-opstelling toont de online knapsack-componist een verbetering van het slagingspercentage tot 31,6% in vergelijking met de retrieval-baselines. In multi-agent-systemen verhoogt de online knapsack-componist het slagingspercentage van 37% naar 87% wanneer agents worden geselecteerd uit een agenteninventaris van 100+ agents. Het aanzienlijke prestatieverschil bevestigt de robuuste aanpasbaarheid van onze methode over diverse domeinen en budgetbeperkingen.
Het overbrengen van uiterlijk naar 3D-assets met behulp van verschillende representaties van het uiterlijksobject - zoals afbeeldingen of tekst - heeft veel belangstelling gewekt vanwege de brede toepassingsmogelijkheden in industrieën zoals gaming, augmented reality en digitale contentcreatie. State-of-the-art methoden falen echter nog steeds wanneer de geometrie tussen het invoerobject en het uiterlijksobject aanzienlijk verschillend is. Een eenvoudige aanpak is om direct een 3D-generatief model toe te passen, maar wij tonen aan dat dit uiteindelijk geen aantrekkelijke resultaten oplevert. In plaats daarvan stellen we een principiële aanpak voor, geïnspireerd door universele begeleiding. Gegeven een vooraf getraind rectified flow-model dat is geconditioneerd op afbeeldingen of tekst, interageert onze trainingsvrije methode met het bemonsteringsproces door periodiek begeleiding toe te voegen. Deze begeleiding kan worden gemodelleerd als een differentieerbare verliesfunctie, en we experimenteren met twee verschillende soorten begeleiding, waaronder deelbewuste verliezen voor uiterlijk en zelfgelijkheid. Onze experimenten tonen aan dat onze aanpak textuur en geometrische details succesvol overbrengt naar het invoer-3D-asset, waarbij de baseline-methoden zowel kwalitatief als kwantitatief worden overtroffen. We laten ook zien dat traditionele metrieken niet geschikt zijn voor het evalueren van deze taak vanwege hun onvermogen om zich te richten op lokale details en ongelijke invoeren te vergelijken bij afwezigheid van grondwaarheidsgegevens. We evalueren daarom de kwaliteit van het uiterlijksoverdracht met een GPT-gebaseerd systeem dat outputs objectief rangschikt, wat zorgt voor een robuuste en mensachtige beoordeling, zoals verder bevestigd door onze gebruikersstudie. Naast de getoonde scenario's is onze methode algemeen en kan deze worden uitgebreid naar verschillende soorten diffusiemodellen en begeleidingsfuncties.
Effectieve samenwerking tussen mens en AI bij complexe redeneertaken vereist dat gebruikers het proces van het model begrijpen en ermee kunnen interacteren, in plaats van alleen een uitvoer te ontvangen. Het monolithische tekstformaat van methoden zoals Chain-of-Thought (CoT) belemmert dit echter, omdat huidige interfaces geen real-time verbalisatie en robuuste onderbrekingsmogelijkheden voor gebruikers bieden. Wij presenteren AsyncVoice Agent, een systeem met een asynchrone architectuur die een streaming LLM-backend ontkoppelt van een conversatiegerichte spraakfrontend. Dit ontwerp maakt het mogelijk om narratie en inferentie parallel uit te voeren, waardoor gebruikers op elk moment het redeneerproces van het model kunnen onderbreken, bevragen en sturen. Objectieve benchmarks tonen aan dat deze aanpak de interactielatentie met meer dan 600x vermindert in vergelijking met monolithische baselines, terwijl een hoge betrouwbaarheid en competitieve taaknauwkeurigheid worden gegarandeerd. Door een tweerichtingsdialoog met het denkproces van een model mogelijk te maken, biedt AsyncVoice Agent een nieuw paradigma voor het bouwen van effectievere, stuurbaardere en betrouwbaardere mens-AI-systemen voor hoogwaardige taken.
Grote taalmodellen internaliseren een structurele afweging tussen waarheidsgetrouwheid en onderdanig gevlei, die voortkomt uit beloningsoptimalisatie die behulpzaamheid verwart met beleefde onderwerping. Deze latente bias, bekend als sycophantie, manifesteert zich als een voorkeur voor gebruikersovereenstemming boven principieel redeneren. Wij introduceren Beacon, een single-turn forced-choice benchmark die deze bias isoleert onafhankelijk van conversatiecontext, waardoor een precieze meting mogelijk wordt van de spanning tussen feitelijke nauwkeurigheid en onderdanige bias. Evaluaties van twaalf state-of-the-art modellen onthullen dat sycophantie uiteenvalt in stabiele linguïstische en affectieve sub-biases, die elk schalen met modelcapaciteit. We stellen verder prompt-level en activatie-level interventies voor die deze biases in tegengestelde richtingen moduleren, waardoor de interne geometrie van alignment wordt blootgelegd als een dynamisch variëteit tussen waarheidsgetrouwheid en sociaal conforme beoordeling. Beacon herdefinieert sycophantie als een meetbare vorm van normatieve misgeneralizatie, en biedt een reproduceerbare basis voor het bestuderen en mitigeren van alignment drift in grootschalige generatieve systemen.
Test-time scaling (TTS) heeft de prestaties van Reasoning Models (RMs) verbeterd bij verschillende taken zoals wiskunde en programmeren, maar de effectiviteit ervan bij machinaal vertalen (MT) is nog onderbelicht. Dit artikel onderzoekt of een verhoogde rekentijd tijdens de inferentie de vertaalkwaliteit verbetert. We evalueren 12 RMs op een diverse set van MT-benchmarks die meerdere domeinen beslaan, waarbij we drie scenario's onderzoeken: directe vertaling, geforceerde redeneringsextrapolatie en post-editing. Onze bevindingen tonen aan dat TTS voor algemene RMs slechts beperkte en inconsistente voordelen biedt voor directe vertaling, waarbij de prestaties snel een plateau bereiken. De effectiviteit van TTS komt echter tot uiting door domeinspecifieke fine-tuning, wat het redeneerproces van een model afstemt op de taakeisen, wat leidt tot consistente verbeteringen tot een optimale, zelfbepaalde redeneerdiepte. We ontdekken ook dat het forceren van een model om verder te redeneren dan zijn natuurlijke stoppunt consequent de vertaalkwaliteit vermindert. Daarentegen blijkt TTS zeer effectief in een post-editing context, waarbij zelfcorrectie betrouwbaar wordt omgezet in een nuttig proces. Deze resultaten geven aan dat de waarde van rekentijd tijdens de inferentie bij MT niet ligt in het verbeteren van eenmalige vertalingen met algemene modellen, maar in gerichte toepassingen zoals meerstaps, zelfcorrigerende workflows en in combinatie met taakspecifieke modellen.
Naarmate AI-systemen zich verder ontwikkelen, vertrouwen we er steeds meer op om beslissingen met ons en voor ons te nemen. Om ervoor te zorgen dat deze beslissingen in lijn zijn met menselijke waarden, is het essentieel dat we niet alleen begrijpen welke beslissingen ze nemen, maar ook hoe ze tot die beslissingen komen. Redenerende taalmodelen, die zowel eindantwoorden als (gedeeltelijk transparante) tussenliggende denksporen bieden, bieden een tijdige mogelijkheid om procedureel redeneren van AI te bestuderen. In tegenstelling tot wiskunde- en codeproblemen, die vaak objectief correcte antwoorden hebben, zijn morele dilemma's een uitstekend testgebied voor procesgerichte evaluatie omdat ze ruimte bieden voor meerdere verdedigbare conclusies. Om dit te faciliteren, presenteren we MoReBench: 1.000 morele scenario's, elk gekoppeld aan een set rubriccriteria die experts essentieel achten om te includeren (of te vermijden) bij het redeneren over de scenario's. MoReBench bevat meer dan 23 duizend criteria, waaronder het identificeren van morele overwegingen, het afwegen van afwegingen en het geven van actiegerichte aanbevelingen om gevallen te dekken waarin AI mensen adviseert bij morele beslissingen, evenals het autonoom nemen van morele beslissingen. Daarnaast hebben we MoReBench-Theory samengesteld: 150 voorbeelden om te testen of AI kan redeneren volgens vijf grote kaders in de normatieve ethiek. Onze resultaten laten zien dat schaalwetten en bestaande benchmarks voor wiskunde-, code- en wetenschappelijk redeneertaken niet in staat zijn om de vaardigheden van modellen om moreel te redeneren te voorspellen. Modellen vertonen ook partijdigheid ten opzichte van specifieke morele kaders (bijv. Benthamiaans Act-Utilitarisme en Kantiaanse Deontologie), wat bijwerkingen kunnen zijn van populaire trainingsparadigma's. Samen bevorderen deze benchmarks procesgerichte redeneerevaluatie richting veiligere en transparantere AI.