Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit rapport presenteert VibeVoice, een nieuw model dat is ontworpen om langdurige spraak met meerdere sprekers te synthetiseren door gebruik te maken van next-token diffusie, een uniforme methode voor het modelleren van continue gegevens door middel van autoregressieve generatie van latente vectoren via diffusie. Om dit mogelijk te maken, introduceren we een nieuwe continue spraak-tokenizer die, in vergelijking met het populaire Encodec-model, de datacompressie met 80 keer verbetert terwijl vergelijkbare prestaties worden behouden. De tokenizer behoudt effectief de audiofideliteit terwijl de computationele efficiëntie voor het verwerken van lange sequenties aanzienlijk wordt verbeterd. Hierdoor kan VibeVoice langdurige spraak synthetiseren van maximaal 90 minuten (in een contextvensterlengte van 64K) met maximaal 4 sprekers, waarbij het authentieke gespreksgevoel wordt vastgelegd en open-source en propriëtaire dialoogmodellen worden overtroffen.
Recente vooruitgang in het afstemmen van grote taalmodellen via reinforcement learning heeft opmerkelijke verbeteringen geboekt in het oplossen van complexe redeneerproblemen, maar tegen de kosten van dure on-policy rollouts en beperkte verkenning van diverse redeneerpaden. In dit werk introduceren we TreePO, waarbij een zelfgeleid rollout-algoritme wordt gebruikt dat sequentiegeneratie ziet als een boomgestructureerd zoekproces. Bestaande uit een dynamisch boomsteekproefbeleid en decodering van vaste-lengte segmenten, benut TreePO lokale onzekerheid om extra vertakkingen te garanderen. Door berekeningen te amortiseren over gemeenschappelijke prefixen en vroegtijdig laagwaardige paden te snoeien, vermindert TreePO in essentie de rekenlast per update terwijl de verkenning diversiteit behouden of verbeterd blijft. Belangrijke bijdragen omvatten: (1) een segmentgewijs steekproefalgoritme dat de KV-cache last verlicht door middel van aaneengesloten segmenten en nieuwe vertakkingen genereert samen met een vroegtijdig-stopmechanisme; (2) een boomgebaseerde segmentniveau voordeelschatting die zowel globale als lokale proximale beleidsoptimalisatie in overweging neemt; en (3) analyse van de effectiviteit van dynamische divergentie en terugvalstrategie gedreven door waarschijnlijkheid en kwaliteit. We valideren empirisch de prestatieverbetering van TreePO op een set redeneerbenchmarks en de efficiëntiewinst van GPU-uren van 22\% tot 43\% van het steekproefontwerp voor de getrainde modellen, terwijl we een reductie van tot 40\% op trajectniveau en 35\% op tokenniveau steekproefberekening laten zien voor bestaande modellen. Terwijl TreePO een gratis efficiëntieverbetering biedt voor inferentie, toont het een praktisch pad naar het schalen van RL-gebaseerde na-training met minder steekproeven en minder rekenkracht. De homepage is te vinden op https://m-a-p.ai/TreePO.
We introduceren CMPhysBench, ontworpen om de vaardigheid van Large Language Models (LLMs) in Vaste Stof Fysica te beoordelen, als een nieuwe benchmark. CMPhysBench bestaat uit meer dan 520 zorgvuldig samengestelde vragen op masterniveau, die zowel representatieve subvelden als fundamentele theoretische kaders van vaste stof fysica beslaan, zoals magnetisme, supergeleiding, sterk gecorreleerde systemen, enz. Om een diepgaand begrip van het probleemoplossingsproces te waarborgen, richten we ons uitsluitend op berekeningsproblemen, waarbij LLMs onafhankelijk uitgebreide oplossingen moeten genereren. Tegelijkertijd introduceren we, door gebruik te maken van boomgebaseerde representaties van uitdrukkingen, de Scalable Expression Edit Distance (SEED) score, die fijnmazige (niet-binaire) gedeeltelijke credits biedt en een nauwkeurigere beoordeling van de gelijkenis tussen voorspelling en grondwaarde mogelijk maakt. Onze resultaten tonen aan dat zelfs de beste modellen, zoals Grok-4, slechts een gemiddelde SEED score van 36 en een nauwkeurigheid van 28% behalen op CMPhysBench, wat een aanzienlijk capaciteitsgat onderstreept, vooral voor dit praktische en grensverleggende domein in vergelijking met traditionele fysica. De code en dataset zijn publiekelijk beschikbaar op https://github.com/CMPhysBench/CMPhysBench.
Bestaande video-avatarmodellen kunnen vloeiende menselijke animaties produceren, maar hebben moeite om verder te gaan dan louter fysieke gelijkenis en de authentieke essentie van een personage vast te leggen. Hun bewegingen synchroniseren doorgaans met laagniveau-signalen zoals audiorytme, zonder een dieper semantisch begrip van emotie, intentie of context. Om deze kloof te overbruggen, stellen we een raamwerk voor dat is ontworpen om karakteranimaties te genereren die niet alleen fysiek plausibel zijn, maar ook semantisch coherent en expressief. Ons model, OmniHuman-1.5, is gebaseerd op twee belangrijke technische bijdragen. Ten eerste maken we gebruik van Multimodale Large Language Models om een gestructureerde tekstuele representatie van condities te synthetiseren die hoogwaardige semantische begeleiding biedt. Deze begeleiding stuurt onze bewegingsgenerator verder dan eenvoudige ritmische synchronisatie, waardoor het mogelijk wordt om acties te produceren die contextueel en emotioneel resonerend zijn. Ten tweede introduceren we, om de effectieve fusie van deze multimodale inputs te waarborgen en intermodaliteitsconflicten te verminderen, een gespecialiseerde Multimodale DiT-architectuur met een nieuw Pseudo Last Frame-ontwerp. De synergie van deze componenten stelt ons model in staat om de gezamenlijke semantiek van audio, afbeeldingen en tekst nauwkeurig te interpreteren, waardoor bewegingen worden gegenereerd die diepgaand coherent zijn met het personage, de scène en de linguïstische inhoud. Uitgebreide experimenten tonen aan dat ons model toonaangevende prestaties behaalt op een uitgebreide set van metrieken, waaronder lip-sync-nauwkeurigheid, videokwaliteit, bewegingsnatuurlijkheid en semantische consistentie met tekstuele prompts. Bovendien toont onze aanpak opmerkelijke uitbreidbaarheid naar complexe scenario's, zoals die met meerdere personen en niet-menselijke onderwerpen. Homepage: https://omnihuman-lab.github.io/v1_5/
3D-lokaal bewerken van gespecificeerde regio's is cruciaal voor de game-industrie en robotinteractie. Recente methoden bewerken doorgaans gerenderde multi-view afbeeldingen en reconstrueren vervolgens 3D-modellen, maar ze kampen met uitdagingen bij het nauwkeurig behouden van onbewerkte regio's en de algehele samenhang. Geïnspireerd door gestructureerde 3D-generatieve modellen, stellen we VoxHammer voor, een nieuwe trainingsvrije aanpak die precies en coherent bewerken in 3D-latente ruimte uitvoert. Gegeven een 3D-model, voorspelt VoxHammer eerst de inversietrajectorie en verkrijgt het de geïnverteerde latente representaties en sleutel-waarde-tokens op elk tijdstip. Vervolgens vervangen we in de fase van ruisverwijdering en bewerking de ruisverwijderingskenmerken van bewaarde regio's met de corresponderende geïnverteerde latente representaties en opgeslagen sleutel-waarde-tokens. Door deze contextuele kenmerken te behouden, zorgt deze aanpak voor een consistente reconstructie van bewaarde gebieden en een samenhangende integratie van bewerkte delen. Om de consistentie van bewaarde regio's te evalueren, hebben we Edit3D-Bench geconstrueerd, een door mensen geannoteerde dataset bestaande uit honderden voorbeelden, elk met zorgvuldig gelabelde 3D-bewerkingsregio's. Experimenten tonen aan dat VoxHammer bestaande methoden aanzienlijk overtreft wat betreft zowel de 3D-consistentie van bewaarde regio's als de algehele kwaliteit. Onze methode belooft hoogwaardige bewerkte gepaarde data te synthetiseren, waardoor de datafundering wordt gelegd voor in-context 3D-generatie. Zie onze projectpagina op https://huanngzh.github.io/VoxHammer-Page/.
Het afleiden van de fysieke eigenschappen van 3D-scènes uit visuele informatie is een cruciaal maar uitdagend probleem voor het creëren van interactieve en realistische virtuele werelden. Terwijl mensen intuïtief materiaaleigenschappen zoals elasticiteit of stijfheid begrijpen, vertrouwen bestaande methoden vaak op trage, per-scène optimalisatie, wat hun generaliseerbaarheid en toepasbaarheid beperkt. Om dit probleem aan te pakken, introduceren we PIXIE, een nieuwe methode die een generaliseerbaar neuraal netwerk traint om fysieke eigenschappen over meerdere scènes te voorspellen vanuit 3D-visuele kenmerken, uitsluitend gebruikmakend van gesuperviseerde verliesfuncties. Eenmaal getraind, kan ons feed-forward netwerk snel plausibele materiaalvelden afleiden, wat, in combinatie met een geleerde statische scène-representatie zoals Gaussian Splatting, realistische fysica-simulatie onder externe krachten mogelijk maakt. Om dit onderzoek te faciliteren, hebben we ook PIXIEVERSE verzameld, een van de grootste bekende datasets van gepaarde 3D-assets en fysieke materiaalannotaties. Uitgebreide evaluaties tonen aan dat PIXIE ongeveer 1,46-4,39x beter en ordes van grootte sneller is dan methoden die tijdens de testtijd optimaliseren. Door gebruik te maken van voorgetrainde visuele kenmerken zoals CLIP, kan onze methode ook zero-shot generaliseren naar real-world scènes, ondanks dat deze alleen op synthetische data is getraind. https://pixie-3d.github.io/
Hoewel Mixture of Experts (MoE)-modellen opmerkelijke efficiëntie bereiken door slechts subsets van parameters te activeren, kampen ze met hoge geheugentoegangskosten tijdens inferentie. Geheugenlaagarchitecturen bieden een aantrekkelijk alternatief met zeer weinig geheugentoegang, maar eerdere pogingen zoals UltraMem hebben alleen de prestaties van 2-expert MoE-modellen geëvenaard, wat aanzienlijk achterblijft bij state-of-the-art 8-expert configuraties. Wij presenteren UltraMemV2, een herontworpen geheugenlaagarchitectuur die deze prestatiekloof dicht. Onze aanpak introduceert vijf belangrijke verbeteringen: het integreren van geheugenlagen in elk transformerblok, het vereenvoudigen van waarde-expansie met enkele lineaire projecties, het overnemen van FFN-gebaseerde waarde-verwerking van PEER, het implementeren van principiële parameterinitialisatie, en het herverdelen van geheugen-naar-FFN berekeningsverhoudingen. Door uitgebreide evaluatie tonen we aan dat UltraMemV2 prestatiepariteit bereikt met 8-expert MoE-modellen onder dezelfde berekening en parameters, maar met aanzienlijk lagere geheugentoegang. Opmerkelijk is dat UltraMemV2 superieure prestaties laat zien op geheugenintensieve taken, met verbeteringen van +1,6 punten op lang-context memorisatie, +6,2 punten op multi-ronde memorisatie, en +7,9 punten op in-context leren. We valideren onze aanpak op schaal met modellen tot 2,5B geactiveerde parameters uit 120B totale parameters, en stellen vast dat activatiedichtheid een grotere impact heeft op prestaties dan het totale aantal sparse parameters. Ons werk brengt geheugenlaagarchitecturen naar prestatiepariteit met state-of-the-art MoE-modellen, en presenteert een overtuigend alternatief voor efficiënte sparse berekening.
Recente ontwikkelingen in LLM's hebben geautomatiseerd wetenschappelijk onderzoek tot het volgende front gemaakt op het pad naar kunstmatige superintelligentie. Deze systemen zijn echter beperkt tot taken met een smalle scope of de beperkte creatieve mogelijkheden van LLM's. Wij stellen Spacer voor, een wetenschappelijk ontdekkingssysteem dat creatieve en feitelijk onderbouwde concepten ontwikkelt zonder externe interventie. Spacer probeert dit te bereiken via 'doelbewuste decontextualisatie', een benadering die informatie ontleedt in atomische eenheden - trefwoorden - en creativiteit put uit onontgonnen verbanden daartussen. Spacer bestaat uit (i) Nuri, een inspiratiemotor die trefwoordsets opbouwt, en (ii) de Manifesting Pipeline die deze sets verfijnt tot uitgewerkte wetenschappelijke uitspraken. Nuri extraheert nieuwe, veelbelovende trefwoordsets uit een trefwoordengrafiek opgebouwd met 180.000 academische publicaties in biologische vakgebieden. De Manifesting Pipeline vindt verbanden tussen trefwoorden, analyseert hun logische structuur, valideert hun plausibiliteit en stelt uiteindelijk originele wetenschappelijke concepten op. Volgens onze experimenten classificeert de evaluatiemetriek van Nuri publicaties met grote impact nauwkeurig met een AUROC-score van 0,737. Onze Manifesting Pipeline reconstrueert ook succesvol kernconcepten uit de nieuwste artikelen in topbladen uitsluitend op basis van hun trefwoordsets. Een op LLM gebaseerd scoringssysteem schat dat deze reconstructie in meer dan 85% van de gevallen correct was. Ten slotte toont onze analyse van de embeddingruimte aan dat de uitvoer van Spacer aanzienlijk meer overeenkomt met toonaangevende publicaties in vergelijking met die van state-of-the-art LLM's.
Recente videofundamentmodellen zoals SAM2 blinken uit in geprompte videosegmentatie door maskers te behandelen als een algemeen primitief. Echter vereisen veel real-world scenario's ongeprompte segmentatie die gericht is op het detecteren en volgen van alle objecten in een video zonder externe aanwijzingen, waardoor het huidige landschap gefragmenteerd blijft over taakspecifieke modellen en pijplijnen. Wij herformuleren streamingvideosegmentatie als sequentiële maskervoorspelling, analoog aan taalmodelering, en introduceren het Autoregressieve Universele Segmentatiemodel (AUSM), een enkele architectuur die zowel geprompte als ongeprompte videosegmentatie verenigt. Gebouwd op recente toestandsruimtemodellen, handhaaft AUSM een vaste grootte van de ruimtelijke toestand en schaalt het naar videostreams van willekeurige lengte. Bovendien zijn alle componenten van AUSM ontworpen voor parallelle training over frames, wat aanzienlijke snelheidswinst oplevert ten opzichte van iteratieve training. Op standaard benchmarks (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, en OVIS) overtreft AUSM eerdere universele streamingvideosegmentatiemethoden en behaalt het tot 2,5x snellere training op 16-frame sequenties.
Visuele diffusiemodellen boeken opmerkelijke vooruitgang, maar worden doorgaans getraind op beperkte resoluties vanwege het gebrek aan hoogresolutiegegevens en beperkte rekenbronnen, wat hun vermogen om hoogwaardige afbeeldingen of video's op hogere resoluties te genereren belemmert. Recente inspanningen hebben tuningvrije strategieën onderzocht om het onbenutte potentieel voor hogere-resolutie visuele generatie van vooraf getrainde modellen te benutten. Deze methoden zijn echter nog steeds gevoelig voor het produceren van visuele inhoud van lage kwaliteit met repetitieve patronen. Het belangrijkste obstakel ligt in de onvermijdelijke toename van hoogfrequente informatie wanneer het model visuele inhoud genereert die de trainingsresolutie overschrijdt, wat leidt tot ongewenste repetitieve patronen als gevolg van opgestapelde fouten. In dit werk stellen we CineScale voor, een nieuw inferentieparadigma om hogere-resolutie visuele generatie mogelijk te maken. Om de verschillende problemen aan te pakken die worden geïntroduceerd door de twee typen videogeneratie-architecturen, stellen we specifieke varianten voor die op maat zijn gemaakt voor elk. In tegenstelling tot bestaande baseline-methoden die beperkt zijn tot hoogresolutie T2I- en T2V-generatie, breidt CineScale het bereik uit door hoogresolutie I2V- en V2V-synthese mogelijk te maken, gebouwd op state-of-the-art open-source videogeneratie-frameworks. Uitgebreide experimenten valideren de superioriteit van ons paradigma in het uitbreiden van de mogelijkheden voor hogere-resolutie visuele generatie voor zowel beeld- als videomodellen. Opmerkelijk is dat onze aanpak 8k-beeldgeneratie mogelijk maakt zonder enige fine-tuning, en 4k-videogeneratie bereikt met slechts minimale LoRA-fine-tuning. Geproduceerde videovoorbeelden zijn beschikbaar op onze website: https://eyeline-labs.github.io/CineScale/.
De huidige state-of-the-art (SOTA) methoden voor audio-gestuurde karakteranimatie tonen veelbelovende prestaties voor scenario's die voornamelijk spraak en zingen omvatten. Echter, schieten ze vaak tekort in complexere film- en televisieproducties, waarbij verfijnde elementen zoals genuanceerde karakterinteracties, realistische lichaamsbewegingen en dynamisch camerawerk vereist zijn. Om deze lang bestaande uitdaging van het bereiken van filmwaardige karakteranimatie aan te pakken, stellen we een audio-gestuurd model voor, dat we Wan-S2V noemen, gebaseerd op Wan. Ons model bereikt een aanzienlijk verbeterde expressiviteit en geloofwaardigheid in cinematische contexten vergeleken met bestaande benaderingen. We hebben uitgebreide experimenten uitgevoerd, waarbij we onze methode benchmarkten tegen geavanceerde modellen zoals Hunyuan-Avatar en Omnihuman. De experimentele resultaten tonen consistent aan dat onze aanpak deze bestaande oplossingen significant overtreft. Daarnaast onderzoeken we de veelzijdigheid van onze methode door toepassingen in lange videogeneratie en precieze video-lip-sync-bewerking.
Recente benaderingen voor mesh-generatie tokeniseren typisch driehoekige meshes in reeksen van tokens en trainen autoregressieve modellen om deze tokens sequentieel te genereren. Ondanks aanzienlijke vooruitgang, hergebruiken dergelijke tokenreeksen onvermijdelijk vertices meerdere keren om manifold meshes volledig weer te geven, aangezien elke vertex wordt gedeeld door meerdere vlakken. Deze redundantie leidt tot excessief lange tokenreeksen en inefficiënte generatieprocessen. In dit artikel stellen we een efficiënt framework voor dat artistieke meshes genereert door vertices en vlakken afzonderlijk te behandelen, waardoor de redundantie aanzienlijk wordt verminderd. We gebruiken een autoregressief model uitsluitend voor vertex-generatie, waardoor het aantal tokens wordt teruggebracht tot ongeveer 23\% van wat vereist is door de meest compacte bestaande tokenizer. Vervolgens benutten we een bidirectionele transformer om de mesh in één stap te voltooien door inter-vertex relaties vast te leggen en de adjacency matrix te construeren die de mesh-vlakken definieert. Om de generatiekwaliteit verder te verbeteren, introduceren we een fidelity enhancer om de positionering van vertices te verfijnen naar meer natuurlijke arrangementen en stellen we een post-processing framework voor om ongewenste edge-verbindingen te verwijderen. Experimentele resultaten tonen aan dat onze methode meer dan 8 keer sneller is in mesh-generatie vergeleken met state-of-the-art benaderingen, terwijl een hogere mesh-kwaliteit wordt geproduceerd.
Grote taalmodellen (LLMs) met keten-van-gedachte-redenering hebben opmerkelijke probleemoplossende capaciteiten getoond, maar het beheersen van hun rekeninspanning blijft een aanzienlijke uitdaging voor praktische inzet. Recente propriëtaire systemen zoals OpenAI's gpt-oss-serie hebben discrete operationele modi geïntroduceerd voor intuïtieve controle over redenering, maar de open-sourcegemeenschap heeft grotendeels gefaald om dergelijke mogelijkheden te realiseren. In dit artikel introduceren we ThinkDial, het eerste open-recept end-to-end framework dat met succes gpt-oss-stijl beheersbare redenering implementeert via discrete operationele modi. Ons systeem maakt naadloos schakelen mogelijk tussen drie verschillende redeneerregimes: Hoge modus (volledige redeneercapaciteit), Medium modus (50 procent tokenreductie met <10 procent prestatieverlies), en Lage modus (75 procent tokenreductie met <15 procent prestatieverlies). We bereiken dit door een end-to-end trainingsparadigma dat budgetmoduscontrole integreert in de gehele pijplijn: budgetmodus supervised fine-tuning dat beheersbare redeneercapaciteiten direct in het leerproces inbedt, en tweefasen budgetbewuste reinforcement learning met adaptieve beloningsvorming. Uitgebreide experimenten tonen aan dat ThinkDial doelgerichte compressie-prestatieafwegingen bereikt met duidelijke reducties in antwoordlengte terwijl prestatiegrenzen worden gehandhaafd. Het framework vertoont ook sterke generalisatiecapaciteiten op taken buiten de distributie.
De opkomst van Deep Research-agents heeft de tijd die nodig is voor het uitvoeren van uitgebreide onderzoeks taken aanzienlijk verkort. Deze taken vereisen echter inherent strenge normen voor feitelijke nauwkeurigheid en volledigheid, wat een grondige evaluatie vereist voordat ze op grote schaal worden geadopteerd. In dit artikel stellen we ReportBench voor, een systematische benchmark die is ontworpen om de inhoudskwaliteit van onderzoeksrapporten gegenereerd door grote taalmodellen (LLMs) te evalueren. Onze evaluatie richt zich op twee kritische dimensies: (1) de kwaliteit en relevantie van geciteerde literatuur, en (2) de betrouwbaarheid en waarheidsgetrouwheid van de uitspraken in de gegenereerde rapporten. ReportBench maakt gebruik van hoogwaardige gepubliceerde overzichtspapers beschikbaar op arXiv als gouden standaardreferenties, waaruit we reverse prompt engineering toepassen om domeinspecifieke prompts af te leiden en een uitgebreid evaluatiecorpus op te zetten. Bovendien ontwikkelen we een agent-gebaseerd geautomatiseerd framework binnen ReportBench dat systematisch gegenereerde rapporten analyseert door citaten en uitspraken te extraheren, de betrouwbaarheid van geciteerde inhoud te controleren tegen de oorspronkelijke bronnen, en niet-geciteerde beweringen te valideren met behulp van webgebaseerde bronnen. Empirische evaluaties tonen aan dat commerciële Deep Research-agents, zoals die ontwikkeld door OpenAI en Google, consistent meer uitgebreide en betrouwbare rapporten genereren dan standalone LLMs die zijn uitgebreid met zoek- of browsetools. Er is echter nog steeds aanzienlijke ruimte voor verbetering wat betreft de breedte en diepte van onderzoeksdekking, evenals feitelijke consistentie. De volledige code en data zullen worden vrijgegeven op de volgende link: https://github.com/ByteDance-BandAI/ReportBench
Geneesmiddelenontdekking is een complex en resource-intensief proces, waardoor vroege voorspelling van goedkeuringsuitkomsten cruciaal is voor het optimaliseren van onderzoeksinvesteringen. Hoewel klassieke machine learning- en deep learning-methoden beloftevol zijn gebleken in het voorspellen van geneesmiddelgoedkeuring, beperkt hun beperkte interpreteerbaarheid hun impact. Hier presenteren we DrugReasoner, een op redenering gebaseerd groot taalmodel (LLM) gebouwd op de LLaMA-architectuur en verfijnd met groep-relatief beleidsoptimalisatie (GRPO) om de waarschijnlijkheid van goedkeuring van kleine moleculen te voorspellen. DrugReasoner integreert moleculaire descriptors met vergelijkende redenering tegen structureel vergelijkbare goedgekeurde en niet-goedgekeurde verbindingen, waarbij voorspellingen worden gegenereerd samen met stapsgewijze redeneringen en betrouwbaarheidsscores. DrugReasoner behaalde robuuste prestaties met een AUC van 0,732 en een F1-score van 0,729 op de validatieset en 0,725 en 0,718 op de testset, respectievelijk. Deze resultaten overtroffen conventionele baseline-methoden, waaronder logistische regressie, support vector machine en k-nearest neighbors, en vertoonden competitieve prestaties ten opzichte van XGBoost. Op een externe onafhankelijke dataset overtrof DrugReasoner zowel de baseline als het recent ontwikkelde ChemAP-model, met een AUC van 0,728 en een F1-score van 0,774, terwijl het hoge precisie en gebalanceerde gevoeligheid behield, wat robuustheid in real-world scenario's aantoont. Deze bevindingen tonen aan dat DrugReasoner niet alleen competitieve voorspellende nauwkeurigheid biedt, maar ook transparantie vergroot door zijn redeneringsoutputs, waardoor een belangrijke bottleneck in AI-ondersteunde geneesmiddelenontdekking wordt aangepakt. Deze studie benadrukt het potentieel van redenering-versterkte LLM's als interpreteerbare en effectieve tools voor farmaceutische besluitvorming.
Empirische schaalwetten hebben de evolutie van grote taalmodelen (LLMs) gestuurd, maar hun coëfficiënten verschuiven telkens wanneer de modelarchitectuur of de datapijplijn verandert. Mixture-of-Experts (MoE) modellen, die nu standaard zijn in state-of-the-art systemen, introduceren een nieuwe dimensie van sparsiteit die de huidige grenzen van dichte modellen over het hoofd zien. Wij onderzoeken hoe MoE-sparsiteit twee verschillende vermogensregimes beïnvloedt: memorisatie en redeneren. We trainen families van MoE Transformers die systematisch variëren in totale parameters, actieve parameters en top-k routing, terwijl het rekenbudget constant blijft. Voor elk model registreren we het pre-training verlies, het verlies op downstream taken en de taaknauwkeurigheid, waardoor we de generalisatiekloof tussen trainen en testen kunnen scheiden van de kloof tussen verlies en nauwkeurigheid. Memoriseerbenchmarks verbeteren monotoon met het totale aantal parameters, wat het trainingsverlies weerspiegelt. Daarentegen bereikt de redeneerprestatie een verzadigingspunt en kan zelfs teruglopen ondanks voortdurende verbeteringen in zowel het totale aantal parameters als het trainingsverlies. Het aanpassen van alleen top-k heeft weinig effect wanneer de actieve parameters constant zijn, en klassieke hyperparameters zoals leerrate en initialisatie moduleren de generalisatiekloof in dezelfde richting als sparsiteit. Noch post-training reinforcement learning (GRPO) noch extra rekenkracht tijdens het testen redt het redeneertekort van te sparse modellen. Onze modelcheckpoints, code en logs zijn open-source beschikbaar op https://github.com/rioyokotalab/optimal-sparsity.
Grote Taalmodellen (LLMs) presteren goed in algemene vraag-antwoordscenario’s, maar hebben vaak moeite in domeinspecifieke situaties. Retrieval-Augmented Generation (RAG) introduceert externe kennis, maar lijdt onder hallucinaties en latentie door onnauwkeurige retrievals. Voortgezette pretraining internaliseert domeinkennis, maar is kostbaar en mist flexibiliteit over domeinen heen. Wij schrijven deze uitdaging toe aan de long-tail distributie van domeinkennis, waardoor gedeeltelijke maar nuttige interne kennis onderbenut blijft. Wij stellen verder dat kennisverwerving progressief zou moeten zijn, vergelijkbaar met menselijk leren: eerst concepten begrijpen, en deze vervolgens toepassen in complexe redeneringen. Om dit aan te pakken, stellen wij Selct2Know (S2K) voor, een kosteneffectief raamwerk dat domeinkennis internaliseert via een interne-externe kennis zelfselectiestrategie en selectieve supervised fine-tuning. We introduceren ook een gestructureerde redeneerdata-generatiepijplijn en integreren GRPO om het redeneervermogen te verbeteren. Experimenten op medische, juridische en financiële vraag-antwoordbenchmarks tonen aan dat S2K consistent beter presteert dan bestaande methoden en domein-gepretrainde LLMs evenaart tegen aanzienlijk lagere kosten.
3D-inpainting is vaak afhankelijk van multi-view 2D-beeldinpainting, waarbij de inherente inconsistenties tussen verschillende ingevulde views kunnen leiden tot vervaagde texturen, ruimtelijke discontinuïteiten en afleidende visuele artefacten. Deze inconsistenties vormen aanzienlijke uitdagingen bij het streven naar nauwkeurige en realistische 3D-objectcompletering, met name in toepassingen die hoge betrouwbaarheid en structurele samenhang vereisen. Om deze beperkingen te overwinnen, stellen we ObjFiller-3D voor, een nieuwe methode ontworpen voor het completeren en bewerken van hoogwaardige en consistente 3D-objecten. In plaats van een conventioneel 2D-beeldinpaintingmodel te gebruiken, maakt onze aanpak gebruik van een zorgvuldig geselecteerde state-of-the-art video-editingmodel om de gemaskeerde gebieden van 3D-objecten in te vullen. We analyseren de representatiekloof tussen 3D en video's en stellen een aanpassing van een video-inpaintingmodel voor 3D-sceneinpainting voor. Daarnaast introduceren we een referentiegebaseerde 3D-inpaintingmethode om de kwaliteit van de reconstructie verder te verbeteren. Experimenten op diverse datasets tonen aan dat ObjFiller-3D, vergeleken met eerdere methoden, meer getrouwe en fijnmazige reconstructies produceert (PSNR van 26,6 vs. NeRFiller (15,9) en LPIPS van 0,19 vs. Instant3dit (0,25)). Bovendien toont het sterke potentie voor praktische implementatie in real-world 3D-editingtoepassingen. Projectpagina: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D.
Wetenschappelijk probleemoplossing stelt unieke uitdagingen voor LLM's, waarbij zowel diepgaande domeinkennis als het vermogen om deze kennis toe te passen via complexe redenering vereist is. Hoewel geautomatiseerde wetenschappelijke redeneerders veelbelovend zijn voor het assisteren van menselijke wetenschappers, is er momenteel geen breed geaccepteerde holistische benchmark voor het evalueren van wetenschappelijk redeneren, en zijn er weinig benaderingen die systematisch de verschillende rollen van kennis en redenering in deze taken ontwarren. Om deze lacunes aan te pakken, introduceren we SciReas, een diverse verzameling van bestaande benchmarks voor wetenschappelijke redeneertaken, en SciReas-Pro, een selectieve subset die complexere redenering vereist. Onze holistische evaluatie brengt inzichten naar voren over wetenschappelijk redeneerprestaties die verborgen blijven wanneer men alleen op individuele benchmarks vertrouwt. Vervolgens stellen we KRUX voor, een onderzoeksraamwerk voor het bestuderen van de verschillende rollen van redenering en kennis in wetenschappelijke taken. Door deze twee te combineren, voeren we een diepgaande analyse uit die verschillende belangrijke bevindingen oplevert: (1) Het ophalen van taakrelevante kennis uit modelparameters is een kritieke bottleneck voor LLM's in wetenschappelijk redeneren; (2) Redeneermodellen profiteren consistent van externe kennis die in-context wordt toegevoegd bovenop de redeneerverbetering; (3) Het verbeteren van verbaal uitgedrukte redenering versterkt het vermogen van LLM's om taakrelevante kennis naar voren te brengen. Ten slotte voeren we een lichtgewicht analyse uit, waarbij we onze wetenschapsgerichte datacompositie vergelijken met gelijktijdige inspanningen op het gebied van lange CoT SFT, en geven we SciLit01 vrij, een sterke 8B-basislijn voor wetenschappelijk redeneren.
Dit artikel introduceert MovieCORE, een nieuwe video question answering (VQA)-dataset die is ontworpen om een dieper cognitief begrip van filminhoud te onderzoeken. In tegenstelling tot bestaande datasets die zich richten op oppervlakkig begrip, benadrukt MovieCORE vragen die System-2-denken stimuleren terwijl ze specifiek gericht blijven op het videomateriaal. We presenteren een innovatieve agentic brainstorming-aanpak, waarbij meerdere grote taalmodellen (LLMs) worden gebruikt als denkagenten om hoogwaardige vraag-antwoordparen te genereren en te verfijnen. Om de kwaliteit van de dataset te evalueren, ontwikkelen we een reeks cognitieve tests die diepte, potentieel om tot nadenken aan te zetten en syntactische complexiteit beoordelen. We stellen ook een uitgebreid evaluatieschema voor om de prestaties van VQA-modellen bij diepere cognitieve taken te beoordelen. Om de beperkingen van bestaande video-taalmodellen (VLMs) aan te pakken, introduceren we een agentic enhancement-module, Agentic Choice Enhancement (ACE), die het redeneervermogen van modellen na de training met tot wel 25% verbetert. Ons werk draagt bij aan het bevorderen van filmbegrip in AI-systemen en biedt waardevolle inzichten in de mogelijkheden en beperkingen van huidige VQA-modellen wanneer ze worden geconfronteerd met uitdagendere, genuanceerde vragen over cinematische inhoud. Onze projectpagina, dataset en code zijn te vinden op https://joslefaure.github.io/assets/html/moviecore.html.
Grote Taalmodellen (LLMs) hebben onze wereld hervormd met aanzienlijke vooruitgang in wetenschap, techniek en maatschappij door toepassingen variërend van wetenschappelijke ontdekkingen en medische diagnostiek tot chatbots. Ondanks hun alomtegenwoordigheid en nut blijven de onderliggende mechanismen van LLMs verborgen in miljarden parameters en complexe structuren, waardoor hun interne architectuur en cognitieve processen moeilijk te begrijpen zijn. Wij pakken deze kloof aan door benaderingen te hanteren om opkomende cognitie in de biologie te begrijpen en een netwerkgebaseerd raamwerk te ontwikkelen dat cognitieve vaardigheden, LLM-architecturen en datasets met elkaar verbindt, wat een paradigmaverschuiving in de analyse van fundamentele modellen inluidt. De vaardigheidsverdeling in de modulegemeenschappen toont aan dat, hoewel LLMs niet strikt parallel lopen aan de gefocuste specialisatie die wordt waargenomen in specifieke biologische systemen, ze unieke gemeenschappen van modules vertonen waarvan de opkomende vaardigheidspatronen gedeeltelijk de gedistribueerde maar onderling verbonden cognitieve organisatie weerspiegelen die wordt gezien in vogel- en kleine zoogdierhersenen. Onze numerieke resultaten benadrukken een belangrijk verschil tussen biologische systemen en LLMs, waar vaardigheidsverwerving aanzienlijk profiteert van dynamische, cross-regionale interacties en neurale plasticiteit. Door principes uit de cognitieve wetenschap te integreren met machine learning, biedt ons raamwerk nieuwe inzichten in de interpreteerbaarheid van LLMs en suggereert het dat effectieve fine-tuningstrategieën gebruik moeten maken van gedistribueerde leer dynamieken in plaats van rigide modulaire interventies.
Geavanceerde redeneervaardigheden in Large Language Models (LLMs) hebben geleid tot een hogere prevalentie van hallucinaties; toch richt het meeste mitigatiewerk zich op achteraf filteren in plaats van het vormgeven van de queries die deze veroorzaken. Wij introduceren QueryBandits, een bandit-framework dat herschrijfstrategieën ontwerpt om een beloningsmodel te maximaliseren, dat de neiging tot hallucinatie weergeeft op basis van de gevoeligheden van 17 linguïstische kenmerken van de input query—en daarmee proactief LLMs wegstuurt van het genereren van hallucinaties. Over 13 diverse QA-benchmarks en 1.050 lexicaal verstoorde queries per dataset, behaalt onze top contextuele QueryBandit (Thompson Sampling) een winstpercentage van 87,5% ten opzichte van een baseline zonder herschrijven en overtreft het ook zero-shot statisch prompten ("parafraseren" of "uitbreiden") met respectievelijk 42,6% en 60,3%. Daarom onderbouwen we empirisch de effectiviteit van QueryBandits in het verminderen van hallucinatie via de interventie die de vorm aanneemt van een query-herschrijving. Interessant is dat bepaalde statische promptstrategieën, die een aanzienlijk deel van de huidige literatuur over query-herschrijven uitmaken, een hogere cumulatieve spijt hebben dan de baseline zonder herschrijven, wat aangeeft dat statische herschrijvingen hallucinatie kunnen verergeren. Bovendien ontdekken we dat de geconvergeerde per-arm regressie kenmerkgewichtvectoren aantonen dat er geen enkele herschrijfstrategie optimaal is voor alle queries. In deze context kan geleid herschrijven via het benutten van semantische kenmerken met QueryBandits aanzienlijke verschuivingen in uitvoergedrag teweegbrengen door forward-pass mechanismen, waardoor de noodzaak voor hertraining of gradient-gebaseerde aanpassing wordt omzeild.
Grote taalmodellen (LLMs) hebben uitzonderlijke capaciteiten getoond wanneer ze worden getraind binnen uitvoerbare runtime-omgevingen, met name uitblinkend bij software-engineeringtaken door middel van geverifieerde feedbackloops. Toch blijven schaalbare en generaliseerbare uitvoeringsgebaseerde omgevingen schaars, wat de vooruitgang in het trainen van capabelere ML-agents beperkt. Wij introduceren CTF-Dojo, de eerste grootschalige uitvoerbare runtime die specifiek is ontworpen voor het trainen van LLMs met verifieerbare feedback, met 658 volledig functionele Capture-The-Flag (CTF)-achtige uitdagingen die zijn gecontaineriseerd in Docker met gegarandeerde reproduceerbaarheid. Om snelle schaalbaarheid mogelijk te maken zonder handmatige interventie, ontwikkelen we CTF-Forge, een geautomatiseerde pijplijn die publiekelijk beschikbare artefacten omzet in direct bruikbare uitvoeringsomgevingen in slechts enkele minuten, waardoor wekenlange expertconfiguratie die traditioneel vereist is, worden geëlimineerd. We hebben LLM-gebaseerde agents getraind op slechts 486 hoogwaardige, uitvoeringsgeverifieerde trajecten van CTF-Dojo, waarbij absolute winsten tot 11,6% werden behaald ten opzichte van sterke basislijnen over drie competitieve benchmarks: InterCode-CTF, NYU CTF Bench en Cybench. Ons best presterende 32B-model bereikt 31,9% Pass@1, waarmee een nieuwe open-weight state-of-the-art wordt gevestigd die kan concurreren met frontiermodellen zoals DeepSeek-V3-0324 en Gemini-2.5-Flash. Door CTF-achtige taken te framen als een benchmark voor uitvoeringsgebaseerd leren, toont CTF-Dojo aan dat uitvoeringsgebaseerde trainingssignalen niet alleen effectief zijn, maar ook cruciaal zijn voor het bevorderen van hoogpresterende ML-agents zonder afhankelijkheid van kostbare propriëtaire systemen.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd bij veel generatietaken. Desalniettemin blijft het effectief afstemmen van deze modellen op gewenst gedrag een aanzienlijke uitdaging. Activatiesturing is een effectieve en kostenefficiënte benadering die de activaties van LLMs direct aanpast tijdens de inferentiefase, waardoor hun reacties worden afgestemd op het gewenste gedrag en de hoge kosten van fine-tuning worden vermeden. Bestaande methoden grijpen doorgaans ongericht in op alle generaties of baseren zich uitsluitend op de vraag om interventie te bepalen, wat een nauwkeurige beoordeling van de interventiesterkte beperkt. Daarom stellen we het Flexible Activation Steering with Backtracking (FASB) framework voor, dat dynamisch zowel de noodzaak als de sterkte van interventie bepaalt door de interne toestanden van de LLMs tijdens de generatie te volgen, waarbij zowel de vraag als de gegenereerde inhoud in overweging worden genomen. Omdat ingrijpen na het detecteren van een afwijking van het gewenste gedrag vaak te laat is, stellen we verder het backtracking-mechanisme voor om de afwijkende tokens te corrigeren en de LLMs naar het gewenste gedrag te sturen. Uitgebreide experimenten op de TruthfulQA-dataset en zes multiple-choice datasets tonen aan dat onze methode de baseline-methoden overtreft. Onze code zal worden vrijgegeven op https://github.com/gjw185/FASB.
Juridische vorderingen verwijzen naar de eisen van de eiser in een zaak en zijn essentieel voor het begeleiden van juridische redenering en zaakafhandeling. Hoewel veel onderzoek zich heeft gericht op het verbeteren van de efficiëntie van juridische professionals, blijft het onderzoek naar het helpen van niet-professionals (bijv. eisers) onderbelicht. Dit artikel onderzoekt het probleem van het genereren van juridische vorderingen op basis van de feiten van een gegeven zaak. Ten eerste construeren we ClaimGen-CN, de eerste dataset voor de taak van het genereren van Chinese juridische vorderingen, gebaseerd op diverse real-world juridische geschillen. Daarnaast ontwerpen we een evaluatiemetric die specifiek is toegesneden op het beoordelen van de gegenereerde vorderingen, waarbij twee essentiële dimensies worden meegenomen: feitelijkheid en duidelijkheid. Hierop voortbouwend voeren we een uitgebreide zero-shot evaluatie uit van state-of-the-art algemene en juridisch gespecialiseerde grote taalmodellen. Onze bevindingen benadrukken de beperkingen van de huidige modellen op het gebied van feitelijke precisie en uitdrukkingskracht, wat wijst op de noodzaak van meer gerichte ontwikkeling in dit domein. Om verder onderzoek naar deze belangrijke taak aan te moedigen, zullen we de dataset openbaar beschikbaar stellen.
Dit onderzoek evalueert deep neural networks voor het voorspellen van kansverdelingen van financiële rendementen. 1D convolutionele neurale netwerken (CNN) en Long Short-Term Memory (LSTM) architecturen worden gebruikt om parameters van drie kansverdelingen te voorspellen: de normale verdeling, de Student's t-verdeling en de scheve Student's t-verdeling. Met behulp van aangepaste negatieve log-waarschijnlijkheidsverliesfuncties worden de distributieparameters direct geoptimaliseerd. De modellen worden getest op zes belangrijke aandelenindices (S\&P 500, BOVESPA, DAX, WIG, Nikkei 225 en KOSPI) met behulp van probabilistische evaluatiemetrics, waaronder Log Predictive Score (LPS), Continuous Ranked Probability Score (CRPS) en Probability Integral Transform (PIT). De resultaten tonen aan dat deep learning-modellen nauwkeurige distributievoorspellingen bieden en competitief presteren in vergelijking met klassieke GARCH-modellen voor Value-at-Risk-schattingen. Het LSTM-model met de scheve Student's t-verdeling presteert het beste volgens meerdere evaluatiecriteria, waarbij zowel zware staarten als asymmetrie in financiële rendementen worden vastgelegd. Dit werk toont aan dat deep neural networks haalbare alternatieven zijn voor traditionele econometrische modellen voor financiële risicobeoordeling en portefeuillebeheer.