Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het label "end-to-end" voor LLM's is een misbenaming. In de praktijk zijn ze afhankelijk van een niet-differentieerbaar decodeerproces dat arbeidsintensieve, handmatige afstemming van hyperparameters zoals temperatuur en top-p vereist. Dit artikel introduceert AutoDeco, een nieuwe architectuur die werkelijk "end-to-end"-generatie mogelijk maakt door het eigen decodeerstrategie te leren beheersen. We breiden de standaard transformer uit met lichtgewicht heads die bij elke stap dynamisch context-specifieke temperatuur- en top-p-waarden voorspellen, naast de logits voor het volgende token. Deze aanpak transformeert decoderen in een parametrisch, token-level proces, waardoor het model zijn eigen samplingstrategie kan reguleren binnen een enkele forward pass. Via uitgebreide experimenten op acht benchmarks tonen we aan dat AutoDeco niet alleen standaard decodeerstrategieën significant overtreft, maar ook prestaties bereikt die vergelijkbaar zijn met een oracle-afgestemde baseline verkregen door "de testset te hacken" – een praktische bovengrens voor elke statische methode. Cruciaal is dat we een emergent vermogen ontdekken voor op instructies gebaseerde decodeercontrole: het model leert natuurlijke-taalinstructies (bijv. "genereer met weinig willekeur") te interpreteren en past zijn voorspelde temperatuur en top-p token-voor-token aan, wat een nieuw paradigma opent voor stuurbaar en interactief LLM-decoderen.
Wij introduceren Kimi Linear, een hybride lineaire aandacht-architectuur die voor het eerst superieure prestaties levert vergeleken met volledige aandacht onder eerlijke vergelijkingen in uiteenlopende scenario's – waaronder kort-context, lang-context en reinforcement learning (RL) schaalregimes. De kern wordt gevormd door Kimi Delta Attention (KDA), een expressieve lineaire aandachtmodule die Gated DeltaNet uitbreidt met een fijnmaziger gatingmechanisme, waardoor het beperkte geheugen van eindige-toestand RNN's effectiever kan worden benut. Ons op maat gemaakte chunkwise-algoritme bereikt een hoge hardware-efficiëntie door een gespecialiseerde variant van de Diagonaal-Plus-Lage-Rang (DPLR) overgangsmatrices, die de rekenkracht aanzienlijk vermindert vergeleken met de algemene DPLR-formulering, terwijl het consistenter blijft met de klassieke delta-regel. Wij pretrainen een Kimi Linear-model met 3B geactiveerde parameters en 48B totale parameters, gebaseerd op een laagsgewijze hybride van KDA en Multi-Head Latent Attention (MLA). Onze experimenten tonen aan dat Kimi Linear, met een identiek trainingsrecept, volledige MLA met een aanzienlijke marge overtreft op alle geëvalueerde taken, terwijl het KV-cachegebruik tot 75% reduceert en een decoderingdoorvoer tot 6 keer hoger bereikt voor een context van 1M. Deze resultaten demonstreren dat Kimi Linear een directe vervanger kan zijn voor architecturen met volledige aandacht, met superieure prestaties en efficiëntie, inclusief taken met langere invoer- en uitvoerlengtes. Om verder onderzoek te ondersteunen, maken wij de KDA-kernel en vLLM-implementaties open source, en geven wij de voorgetrainde en instruction-tuned modelcheckpoints vrij.
Wij introduceren Emu3.5, een grootschalig multimodaal wereldmodel dat van nature de volgende toestand voorspelt in zowel visie als taal. Emu3.5 is end-to-end voorgetraind met een uniforme 'next-token'-voorspellingsdoelstelling op een corpus van door elkaar heen geplaatste visie-taalgegevens met meer dan 10 biljoen tokens, voornamelijk afkomstig van opeenvolgende frames en transcripten van internetvideo's. Het model accepteert van nature door elkaar heen geplaatste visie-taalinput en genereert door elkaar heen geplaatste visie-taaloutput. Emu3.5 is verder nagetrainend met grootschalige reinforcement learning om multimodale redenering en generatie te verbeteren. Om de inferentie-efficiëntie te verbeteren, stellen wij Discrete Diffusion Adaptation (DiDA) voor, welke token-voor-token-decodering omzet in bidirectionele parallelle voorspelling, wat de inferentie per beeld versnelt met ongeveer 20x zonder prestaties in te leveren. Emu3.5 vertoont sterke native multimodale capaciteiten, waaronder langetermijn visie-taalgeneratie, alles-naar-beeld (X2I)-generatie en het genereren van complexe tekstrijke beelden. Het vertoont ook generaliseerbare wereldmodellerende vermogens, waardoor ruimtelijk-tijdelijk consistente wereldverkenning en embodied manipulatie in een open wereld mogelijk wordt in diverse scenario's en taken. Ter vergelijking: Emu3.5 bereikt prestaties vergelijkbaar met Gemini 2.5 Flash Image (Nano Banana) voor beeldgeneratie- en bewerkingstaken en toont superieure resultaten op een reeks door elkaar heen geplaatste generatietaken. Wij maken Emu3.5 open source op https://github.com/baaivision/Emu3.5 om gemeenschapsonderzoek te ondersteunen.
OpenAI's ChatGPT Atlas introduceert nieuwe mogelijkheden voor webinteractie, waardoor het model webpagina's kan analyseren, gebruikersintenties kan verwerken en cursor- en toetsenbordinvoer rechtstreeks in de browser kan uitvoeren. Hoewel zijn capaciteit voor informatieverwerkingstaken is aangetoond, blijft zijn prestaties in dynamische, interactieve omgevingen minder onderzocht. In deze studie voeren we een vroege evaluatie uit van Atlas's webinteractiecapaciteiten met behulp van op browsers gebaseerde spellen als testsituaties, waaronder Google's T-Rex Runner, Sudoku, Flappy Bird en Stein.world. We gebruiken in-game prestatiescores als kwantitatieve metrieken om de prestaties bij verschillende taaktypen te beoordelen. Onze resultaten tonen aan dat Atlas sterk presteert in logische redeneertaken zoals Sudoku, waarbij puzzels aanzienlijk sneller worden voltooid dan menselijke referentieniveaus, maar aanzienlijk moeite heeft met realtime spellen die precieze timing en motorische controle vereisen, waarbij het vaak niet lukt om voorbij de eerste obstakels te komen. Deze bevindingen suggereren dat hoewel Atlas capabele analytische verwerking demonstreert, er nog steeds opmerkelijke beperkingen zijn in dynamische webomgevingen die realtime interactie vereisen. De website van ons project is te vinden op https://atlas-game-eval.github.io.
Grote Taalmodellen (LLM's) worstelen vaak met problemen die meerstaps redeneren vereisen. Voor kleinschalige open-source modellen faalt Reinforcement Learning met Verifieerbare Beloningen (RLVR) wanneer correcte oplossingen zelfs na vele pogingen zelden worden gegenereerd, terwijl Supervised Fine-Tuning (SFT) de neiging heeft om te overfitten op lange demonstraties door rigide imitatie token-voor-token. Om deze kloof te dichten, stellen we Supervised Reinforcement Learning (SRL) voor, een raamwerk dat probleemoplossing herformuleert als het genereren van een reeks logische "acties". SRL traint het model om een interne redeneermonoloog te genereren voordat het zich vastlegt op elke actie. Het biedt vloeiendere beloningen op basis van de gelijkenis tussen de acties van het model en expertacties die stapsgewijs uit de SFT-dataset worden gehaald. Deze supervisie biedt rijkere leer signalen, zelfs wanneer alle gegenereerde trajecten incorrect zijn, en moedigt tegelijkertijd flexibel redeneren aan onder begeleiding van expertdemonstraties. Hierdoor stelt SRL kleine modellen in staat om uitdagende problemen te leren die voorheen niet leerbaar waren met SFT of RLVR. Bovendien levert het initialiseren van de training met SRL, gevolgd door verfijning met RLVR, de sterkste algehele prestaties op. Naast redeneerbenchmarks generaliseert SRL effectief naar agent-gestuurde software-engineeringtaken, wat het vestigt als een robuust en veelzijdig trainingsraamwerk voor op redeneren gerichte LLM's.
Hoewel vooraf getrainde visuele representaties een aanzienlijke vooruitgang hebben geboekt in imitatieleren, zijn ze vaak taakonafhankelijk omdat ze tijdens het beleidsleren bevroren blijven. In dit werk onderzoeken we hoe we vooraf getrainde tekst-naar-beeld diffusiemodellen kunnen benutten om taakadaptieve visuele representaties voor robotbesturing te verkrijgen, zonder het model zelf te fine-tunen. We stellen echter vast dat een naïeve toepassing van tekstuele condities - een succesvolle strategie in andere visiedomeinen - minimale of zelfs negatieve resultaten oplevert bij besturingstaken. Wij schrijven dit toe aan de domeinkloof tussen de trainingsdata van het diffusiemodel en robotbesturingsomgevingen, wat ons doet pleiten voor condities die rekening houden met de specifieke, dynamische visuele informatie die nodig is voor besturing. Hiertoe stellen we ORCA voor, dat leerbare taakprompts introduceert die zich aanpassen aan de besturingsomgeving en visuele prompts die fijnmazige, framespecifieke details vastleggen. Door taakadaptieve representaties mogelijk te maken met onze nieuw ontworpen condities, behaalt onze aanpak state-of-the-art prestaties op diverse robotbesturingsbenchmarks, waarbij eerdere methodes significant worden overtroffen.
Het ontwikkelen van agenten die generaliseren over web-, desktop- en mobiele omgevingen blijft een open uitdaging, omdat bestaande systemen afhankelijk zijn van omgevingsspecifieke interfaces die cross-platform inzet beperken. Wij introduceren Surfer 2, een uniforme architectuur die uitsluitend werkt vanuit visuele observaties en state-of-the-art prestaties behaalt in alle drie de omgevingen. Surfer 2 integreert hiërarchisch contextbeheer, ontkoppelde planning en uitvoering, en zelfverificatie met adaptief herstel, waardoor betrouwbare werking over lange taakhorizons mogelijk wordt. Ons systeem behaalt een nauwkeurigheid van 97,1% op WebVoyager, 69,6% op WebArena, 60,1% op OSWorld en 87,1% op AndroidWorld, en overtreft alle eerdere systemen zonder taakspecifieke fine-tuning. Met meerdere pogingen overstijgt Surfer 2 de menselijke prestaties op alle benchmarks. Deze resultaten tonen aan dat systematische orchestratie de capaciteiten van foundation models versterkt en algemene computerbesturing mogelijk maakt via uitsluitend visuele interactie, terwijl de noodzaak wordt benadrukt voor een volgende generatie vision-language models om Pareto-optimale kostenefficiëntie te bereiken.
Recente videogeneratiemodellen kunnen hoogwaardige, temporeel coherente video's produceren, wat erop wijst dat ze mogelijk aanzienlijke wereldkennis coderen. Naast realistische synthese vertonen ze ook opkomend gedrag dat wijst op visuele perceptie, modellering en manipulatie. Toch blijft een belangrijke vraag onbeantwoord: Zijn videomodellen klaar om te dienen als zero-shot-redeneerders in uitdagende visuele redeneerscenario's? In dit werk voeren we een empirische studie uit om deze vraag uitgebreid te onderzoeken, met focus op het toonaangevende en populaire Veo-3. We evalueren zijn redeneergedrag langs 12 dimensies, waaronder ruimtelijke, geometrische, fysieke, temporele en belichaamde logica, waarbij we systematisch zowel zijn sterktes als faalpatronen in kaart brengen. Om deze studie te standaardiseren, hebben we de evaluatiedata samengebracht in MME-CoF, een compacte benchmark die een diepgaande en grondige beoordeling van Chain-of-Frame (CoF)-redeneren mogelijk maakt. Onze bevindingen tonen aan dat hoewel huidige videomodellen veelbelovende redeneerpatronen vertonen op het gebied van kortetermijnruimtelijke coherentie, fijnmazige grounding en lokaal consistente dynamiek, ze beperkt blijven in langetermijncausaal redeneren, strikte geometrische beperkingen en abstracte logica. Al met al zijn ze nog niet betrouwbaar als zelfstandige zero-shot-redeneerders, maar vertonen ze bemoedigende tekenen als complementaire visuele engines naast toegewijde redeneermodellen. Projectpagina: https://video-cof.github.io
Wij presenteren AMO-Bench, een geavanceerde benchmark voor wiskundig redeneren met problemen van Olympiade-niveau of zelfs hogere moeilijkheidsgraad, bestaande uit 50 door mensen gemaakte problemen. Bestaande benchmarks maken reeds veelvuldig gebruik van wiskundewedstrijden op middelbare schoolniveau om de wiskundige redeneervaardigheden van grote taalmodel(len (LLM's) te evalueren. Veel van deze bestaande wedstrijden worden echter minder effectief voor het beoordelen van top-tier LLM's vanwege prestatiesaturatie (bijv. AIME24/25). Om dit aan te pakken, introduceert AMO-Bench strengere uitdagingen door ervoor te zorgen dat alle 50 problemen (1) cross-gevalideerd zijn door experts om ten minste te voldoen aan de moeilijkheidsnormen van de Internationale Wiskunde Olympiade (IMO), en (2) volledig originele problemen zijn om mogelijke prestatielekken door datamemorisatie te voorkomen. Bovendien vereist elk probleem in AMO-Bench alleen een eindantwoord in plaats van een bewijs, wat automatische en robuuste beoordeling voor evaluatie mogelijk maakt. Experimentele resultaten van 26 LLM's op AMO-Bench tonen aan dat zelfs het best presterende model slechts 52,4% nauwkeurigheid behaalt op AMO-Bench, waarbij de meeste LLM's onder de 40% scoren. Naast deze tegenvallende prestaties onthult onze verdere analyse een veelbelovende schaalwet met toenemende rekencapaciteit tijdens het testen op AMO-Bench. Deze resultaten benadrukken de aanzienlijke ruimte voor verbetering van het wiskundig redeneren in huidige LLM's. Wij geven AMO-Bench vrij om verder onderzoek te faciliteren naar het bevorderen van de redeneervaardigheden van taalmodel(len. https://amo-bench.github.io/
Wij voorzien een nieuw tijdperk van AI, aangeduid als agentische organisatie, waarin agenten complexe problemen oplossen door middel van collaboratief en parallel werken, waardoor resultaten ontstaan die individuele intelligent overstijgen. Om deze visie te realiseren, introduceren we asynchroon denken (AsyncThink) als een nieuw paradigma voor redeneren met grote taalmodellen, waarbij het interne denkproces wordt georganiseerd in parallel uitvoerbare structuren. Concreet stellen we een denkprotocol voor waarin een organisator dynamisch subvragen toewijst aan werkers, tussentijdse kennis integreert en samenhangende oplossingen genereert. Cruciaal is dat de denkstructuur in dit protocol verder geoptimaliseerd kan worden via reinforcement learning. Experimenten tonen aan dat AsyncThink een 28% lagere inferentielatentie bereikt vergeleken met parallel denken, terwijl de nauwkeurigheid bij wiskundig redeneren verbetert. Bovendien generaliseert AsyncThink zijn geleerde asynchrone denkvaardigheden en lost het effectief onbekende taken op zonder aanvullende training.
Ondanks recente vooruitgang in 3D-generatie van menselijke beweging (MoGen) op standaardbenchmarks, kampen bestaande modellen nog steeds met een fundamenteel knelpunt in hun generalisatievermogen. Daarentegen hebben aanverwante generatieve velden, met name videogeneratie (ViGen), een opmerkelijke generalisatie getoond in het modelleren van menselijk gedrag, wat overdraagbare inzichten benadrukt die MoGen kan benutten. Gemotiveerd door deze observatie presenteren we een uitgebreid raamwerk dat systematisch kennis overdraagt van ViGen naar MoGen via drie belangrijke pijlers: data, modellering en evaluatie. Ten eerste introduceren we ViMoGen-228K, een grootschalige dataset bestaande uit 228.000 hoogwaardige bewegingsmonsters die hoogfidelieke optische MoCap-data integreert met semantisch geannoteerde bewegingen uit webvideo's en gesynthetiseerde monsters gegenereerd door state-of-the-art ViGen-modellen. De dataset omvat zowel tekst-beweging-paren als tekst-video-beweging-triplets, waardoor de semantische diversiteit aanzienlijk wordt uitgebreid. Ten tweede stellen we ViMoGen voor, een op flow-matching gebaseerde diffusion transformer die voorkennis uit MoCap-data en ViGen-modellen verenigt door middel van gated multimodale conditionering. Om de efficiëntie te verbeteren, ontwikkelen we verder ViMoGen-light, een gedistilleerde variant die afhankelijkheden van videogeneratie elimineert terwijl sterke generalisatie behouden blijft. Ten slotte presenteren we MBench, een hiërarchische benchmark ontworpen voor fijnmazige evaluatie op het gebied van bewegingskwaliteit, prompttrouw en generalisatievermogen. Uitgebreide experimenten tonen aan dat ons raamwerk bestaande benaderingen significant overtreft in zowel automatische als humane evaluaties. De code, data en benchmark zullen openbaar beschikbaar worden gesteld.
Er bestaan twee gangbare methoden voor het construeren van 3D-scènes: procedurele generatie en 2D-lifting. Panorama-gebaseerde 2D-lifting is hierbij naar voren gekomen als een veelbelovende techniek, waarbij krachtige 2D-generatieve prior kennis wordt benut om immersieve, realistische en diverse 3D-omgevingen te produceren. In dit werk breiden we deze techniek uit om graphics-ready 3D-scènes te genereren die geschikt zijn voor fysiek gebaseerd renderen (PBR), herbelichting en simulatie. Onze belangrijkste inzicht is het hergebruiken van 2D-generatieve modellen voor panoramische perceptie van geometrie, texturen en PBR-materialen. In tegenstelling tot bestaande 2D-lifting benaderingen die de nadruk leggen op het genereren van uiterlijk en de perceptie van intrinsieke eigenschappen negeren, presenteren wij OmniX, een veelzijdig en verenigd framework. Gebaseerd op een lichtgewicht en efficiënte cross-modale adapterstructuur, hergebruikt OmniX 2D-generatieve prior kennis voor een breed scala aan panoramische visietaken, waaronder panoramische perceptie, generatie en voltooiing. Verder construeren we een grootschalige synthetische panoramadataset die hoogwaardige multimodale panorama's bevat uit diverse binnen- en buitenscènes. Uitgebreide experimenten tonen de effectiviteit van ons model aan in panoramische visuele perceptie en graphics-ready 3D-scènegeneratie, wat nieuwe mogelijkheden opent voor de generatie van immersieve en fysiek realistische virtuele werelden.
Huidige generatieve tekst-naar-beeldmodellen worden getraind op grote, ongecurateerde datasets om diverse generatiemogelijkheden mogelijk te maken. Dit sluit echter niet goed aan bij gebruikersvoorkeuren. Recent zijn beloningsmodellen specifiek ontworpen om achteraf gemaakte afbeeldingen te selecteren en af te stemmen op een beloning, doorgaans gebruikersvoorkeur. Deze verwerping van informatieve gegevens, gecombineerd met het optimaliseren voor een enkele beloning, heeft vaak een negatief effect op de diversiteit, semantische trouw en efficiëntie. In plaats van deze nabewerking stellen wij voor om het model tijdens de training te conditioneren op meerdere beloningsmodellen, zodat het model gebruikersvoorkeuren direct kan aanleren. Wij tonen aan dat dit niet alleen de visuele kwaliteit van de gegenereerde afbeeldingen aanzienlijk verbetert, maar ook de trainingssnelheid significant verhoogt. Onze voorgestelde methode, genaamd MIRO, behaalt state-of-the-art prestaties op de GenEval compositionele benchmark en gebruikersvoorkeurscores (PickAScore, ImageReward, HPSv2).
Draagbare apparaten zoals slimme brillen transformeren de manier waarop mensen interageren met hun omgeving, doordat gebruikers informatie kunnen opvragen over entiteiten in hun gezichtsveld. Multi-modale retrieval-augmented generation (MM-RAG) speelt een cruciale rol bij het ondersteunen van dergelijke vragen, maar er bestaat nog steeds geen uitgebreide benchmark voor deze taak, met name voor wearables-scenario's. Om deze leemte op te vullen, presenteren wij CRAG-MM – een uitgebreide RAG-benchmark voor multi-modale, multi-turn gesprekken. CRAG-MM bevat een diverse set van 6,5K (afbeelding, vraag, antwoord)-triplets en 2K visueel gebaseerde multi-turn gesprekken verspreid over 13 domeinen, waaronder 6,2K egocentrische afbeeldingen die zijn ontworpen om opnames van draagbare apparaten na te bootsen. Wij hebben de vragen zorgvuldig geconstrueerd om realistische scenario's en uitdagingen te weerspiegelen, waaronder vijf soorten afbeeldingskwaliteitsproblemen, zes vraagtypen, variërende entiteitenpopulariteit, verschillen in informatie-dynamiek en verschillende gespreksbeurten. Wij ontwerpen drie taken: augmentatie met één bron, augmentatie met meerdere bronnen en multi-turn gesprekken – elk gekoppeld aan een bijbehorend retrieval-corpus en API's voor zowel beeld-KG-retrieval als webpagina-retrieval. Onze evaluatie toont aan dat eenvoudige RAG-benaderingen slechts 32% en 43% waarheidsgetrouwheid behalen op respectievelijk CRAG-MM single-turn en multi-turn QA, terwijl state-of-the-art industriële oplossingen een vergelijkbare kwaliteit (32%/45%) hebben, wat wijst op aanzienlijke ruimte voor verbetering. De benchmark heeft de KDD Cup 2025 gehost, waarbij ongeveer 1K deelnemers en 5K inzendingen werden aangetrokken. Winnende oplossingen verbeterden de baseline-prestaties met 28%, wat de vroege impact op de vooruitgang van het vakgebied onderstreept.
Elektronische Patiëntendossiers (EPD's) bevatten rijke maar complexe informatie, en hun geautomatiseerde analyse is cruciaal voor klinische besluitvorming. Ondanks recente vooruitgang van grote taalmodelen (LLM's) in klinische workflows, blijft hun vermogen om EPD's te analyseren beperkt vanwege smalle taakdekking en een gebrek aan EPD-gerichte redeneervaardigheden. Dit artikel beoogt deze kloof te overbruggen. Concreet presenteren we EHR-Ins, een grootschalige, uitgebreide EPD-redeneerinstructiedataset, bestaande uit 300k hoogwaardige redeneergevallen en 4M niet-redeneergevallen verspreid over 42 verschillende EPD-taken. De kerninnovatie is een denkgrafiek-gestuurd framework dat het mogelijk maakt om op grote schaal hoogwaardige redeneergegevens te genereren. Op basis hiervan ontwikkelen we EHR-R1, een reeks redeneerversterkte LLM's met tot 72B parameters, toegesneden op EPD-analyse. Via een meerfasen-trainingsparadigma, inclusief domeinaanpassing, redeneerversterking en reinforcement learning, verwerft EHR-R1 systematisch domeinkennis en diverse redeneervaardigheden, wat nauwkeurige en robuuste EPD-analyse mogelijk maakt. Ten slotte introduceren we EHR-Bench, een nieuwe benchmark samengesteld uit MIMIC-IV, die 42 taken omvat, om redeneren en voorspellen in EPD-scenario's uitgebreid te evalueren. In experimenten tonen we aan dat het resulterende EHR-R1 consequent superieure prestaties levert vergeleken met state-of-the-art commerciële en open-source LLM's (inclusief DeepSeek-V3 en GPT-4o), GPT-4o met meer dan 30 punten overtreft op MIMIC-Bench en een 10% hogere zero-shot AUROC behaalt op EHRSHOT. Gezamenlijk hebben EHR-Ins, EHR-R1 en EHR-Bench de ontwikkeling richting betrouwbaardere en klinisch relevantere EPD-analyse significant vooruitgeholpen.
Document AI heeft een snelle ontwikkeling doorgemaakt en trekt steeds meer aandacht. Desondanks richten de meeste inspanningen zich op documentlay-outanalyse (DLA), terwijl de generatieve tegenhanger, het genereren van documentlay-outs, onderbelicht blijft. Een grote belemmering is de schaarste aan diverse lay-outs: academische artikelen met Manhattan-stijl structuren domineren bestaande studies, terwijl open-wereldgenres zoals kranten en tijdschriften ernstig ondervertegenwoordigd zijn. Om deze kloof te dichten, hebben we OmniLayout-1M samengesteld, de eerste miljoenenschalige dataset met diverse documentlay-outs, die zes veelvoorkomende documenttypen bestrijkt en hedendaagse lay-outs omvat die uit meerdere bronnen zijn verzameld. Bovendien, aangezien bestaande methoden moeite hebben met complexe domeinen en vaak falen in het coherent ordenen van lange sequenties, introduceren we OmniLayout-LLM, een 0.5B-model met een ontworpen tweefasen Coarse-to-Fine leerparadigma: 1) het leren van universele lay-outprincipes van OmniLayout-1M met grove categorie-definities, en 2) het overdragen van deze kennis naar een specifiek domein met fijnmazige annotaties. Uitgebreide experimenten tonen aan dat onze aanpak sterke prestaties levert in meerdere domeinen van de M⁶Doc-dataset, en daarbij zowel bestaande lay-outgeneratie-experts als verschillende recente algemene LLM's aanzienlijk overtreft. Onze code, modellen en dataset zullen openbaar worden vrijgegeven.
Naarmate LLM-agents zich verder ontwikkelen, bemiddelen zij in toenemende mate in economische beslissingen – van productontdekking tot transacties – namens gebruikers. Dergelijke toepassingen beloven voordelen, maar roepen ook veel vragen op over de aansprakelijkheid van agents en de waarde voor gebruikers. Het beantwoorden van deze vragen vereist inzicht in hoe agents zich gedragen onder realistische marktomstandigheden. Eerder onderzoek evalueerde agents echter grotendeels in beperkte settings, zoals marktplaatsen voor één taak (bijvoorbeeld onderhandeling) of gestructureerde interacties tussen twee agents. Wereldwijde markten zijn fundamenteel anders: zij vereisen dat agents diverse economische activiteiten afhandelen en coördineren binnen grote, dynamische ecosystemen waarin meerdere agents met ondoorzichtige gedragingen kunnen deelnemen aan open-ended dialogen. Om deze kloof te overbruggen, onderzoeken wij tweezijdige agent-marktplaatsen waar Assistant-agents consumenten vertegenwoordigen en Service-agents concurrerende bedrijven. Om deze interacties veilig te bestuderen, ontwikkelen wij Magentic-Marketplace – een gesimuleerde omgeving waar Assistants en Services kunnen opereren. Deze omgeving stelt ons in staat cruciale marktdynamieken te bestuderen: de utility die agents bereiken, gedragsmatige biases, kwetsbaarheid voor manipulatie, en hoe zoekmechanismen marktresultaten vormgeven. Onze experimenten tonen aan dat frontier-modellen optimale welvaart kunnen benaderen – maar alleen onder ideale zoekcondities. De prestaties verslechteren sterk met schaalvergroting, en alle modellen vertonen een ernstige first-proposal bias, wat een 10-30x voordeel creëert voor reactiesnelheid boven kwaliteit. Deze bevindingen onthullen hoe gedrag ontstaat onder verschillende marktomstandigheden, en informeren het ontwerp van eerlijke en efficiënte agent-marktplaatsen.
Op delen gebaseerde 3D-generatie heeft groot potentieel voor diverse toepassingen. Eerdere deelgeneratoren die delen representeren met impliciete vector-set tokens lijden vaak onder onvoldoende geometrische details. Een andere onderzoeksrichting gebruikt een expliciete voxelrepresentatie maar deelt een globaal voxelraster voor alle delen; dit zorgt vaak dat kleine delen te weinig voxels bezetten, wat leidt tot verminderde kwaliteit. In dit artikel stellen we FullPart voor, een nieuw framework dat zowel impliciete als expliciete paradigma's combineert. Het leidt eerst de boundingbox-lay-out af via een impliciet box vector-set diffusieproces, een taak die impliciete diffusie effectief aanpakt aangezien box-tokens weinig geometrische detail bevatten. Vervolgens genereert het gedetailleerde delen, elk binnen een eigen vast voxelraster met volledige resolutie. In plaats van een globale laagresolutieruimte te delen, wordt elk deel in onze methode - zelfs kleine - gegenereerd op volledige resolutie, wat de synthese van complexe details mogelijk maakt. We introduceren verder een centrumpunt-coderingsstrategie om het uitlijningsprobleem aan te pakken bij het uitwisselen van informatie tussen delen van verschillende werkelijke groottes, waardoor globale coherentie behouden blijft. Bovendien presenteren we, om het gebrek aan betrouwbare deeldata aan te pakken, PartVerse-XL, de grootste door mensen geannoteerde 3D-deeldataset tot nu toe met 40K objecten en 320K delen. Uitgebreide experimenten tonen aan dat FullPart state-of-the-art resultaten behaalt in 3D-deelgeneratie. We zullen alle code, data en modellen vrijgeven om toekomstig onderzoek in 3D-deelgeneratie te bevorderen.
Grootschalige multimodale modellen (LMM's) worden steeds beter in staat om medische vragen te beantwoorden die gezamenlijke redenering over afbeeldingen en tekst vereisen. Toch wordt de training van algemene medische VQA-systemen (Visual Question Answering) belemmerd door het gebrek aan grote, openlijk bruikbare, hoogwaardige corpora. Wij presenteren MedVLSynther, een rubriek-gestuurd generator-verificateur raamwerk dat hoogwaardige multiple-choice VQA-items synthetiseert rechtstreeks uit open biomedische literatuur, gebaseerd op figuren, bijschriften en verwijzingen in de tekst. De generator produceert zelfstandige vraagstellingen en parallelle, onderling uitsluitende opties volgens een machine-controleerbaar JSON-schema; een meerfasen verificateur handhaaft essentiële criteria (zelfstandigheid, enkel correct antwoord, klinische validiteit, consistentie tussen beeld en tekst), kent fijnmazige positieve punten toe, en bestraft veelvoorkomende foutmodi vóór acceptatie. Toepassing van deze pijplijn op PubMed Central levert MedSynVQA op: 13.087 gecontroleerde vragen over 14.803 afbeeldingen, verspreid over 13 beeldvormingstechnieken en 28 anatomische regio's. Het trainen van open-gewicht LMM's met reinforcement learning met behulp van verifieerbare beloningen verbetert de nauwkeurigheid op zes medische VQA-ijkpunten, met gemiddelden van 55.85 (3B) en 58.15 (7B), en oplopend tot 77.57 op VQA-RAD en 67.76 op PathVQA, waarmee sterke medische LMM's worden overtroffen. Ablatiestudies verifiëren dat zowel generatie als verificatie noodzakelijk zijn en dat meer geverifieerde data consistent helpt, en een gerichte contaminatieanalyse detecteert geen lekken vanuit evaluatiesets. Door volledig te werken met open literatuur en open-gewicht modellen, biedt MedVLSynther een controleerbaar, reproduceerbaar en privacy-beschermend pad naar schaalbare medische VQA-trainingsdata.
Kunstmatige intelligenties hebben snelle vooruitgang geboekt op onderzoeksgerichte benchmarks voor kennis en redeneren, maar het blijft onduidelijk hoe deze winsten zich vertalen in economische waarde en automatisering. Om dit te meten, introduceren we de Remote Labor Index (RLI), een breed opgezette, multi-sector benchmark bestaande uit realistische, economisch waardevolle projecten die zijn ontworpen om end-to-end prestaties van AI-agenten in praktijksituaties te evalueren. AI-agenten presteren bijna op het minimumniveau op de RLI, waarbij de best presterende agent een automatiseringsgraad van 2,5% bereikt. Deze resultaten helpen discussies over AI-automatisering te gronden in empirisch bewijs, creëren een gemeenschappelijke basis voor het volgen van AI-impact en stellen belanghebbenden in staat proactief om te gaan met AI-gedreven arbeidsautomatisering.
Dit onderzoek onderzoekt of kleinschalige taalmodelle (LM's) kunnen profiteren van instructie-afstemming. We vergelijken conversatie- en vraag-antwoord-instructie-afstemmingsdatasets, toegepast in een samengevoegde of sequentiële curriculumopzet, met decoder-only modellen van 100M en 140M parameters. Evaluatie beslaat zowel fine-tuning (SuperGLUE) als zero-shot (BLiMP, EWoK, WUGs, entiteit-tracking en psycholinguïstische correlatie) scenario's. Resultaten tonen aan dat instructie-afstemming kleine maar consistente verbeteringen oplevert in fine-tuning-scenario's, waarbij sequentiële curricula beter presteren dan samengevoegde data; verbeteringen zetten zich echter niet consistent door naar zero-shot-taken, wat wijst op een afweging tussen interactiegerichte aanpassing en brede linguïstische generalisatie. Deze resultaten belichten zowel de mogelijkheden als de beperkingen van het toepassen van mens-geïnspireerde leerstrategieën op LM's met beperkte resources, en wijzen op hybride, curriculum-gebaseerde benaderingen voor het verbeteren van generalisatie binnen ecologische trainingslimieten.
Huidige grote taalmodellen (LLM's) voor toolgebruik worden getraind op statische datasets, waardoor ze kunnen interageren met externe tools en multi-stap, tool-geïntegreerd redeneren kunnen uitvoeren, wat tool-aanroep trajecten produceert. Deze modellen imiteren echter hoe een query wordt opgelost in een generieke tool-aanroep routine, waardoor ze mogelijke oplossingen niet verkennen en beperkte prestaties vertonen in een geëvolueerde, dynamische tool-aanroep omgeving. In dit werk stellen we PORTool voor, een reinforcement learning (RL) methode die een toolgebruik-LLM aanmoedigt om diverse trajecten te verkennen die tot het correcte antwoord leiden. Specifiek start deze methode met het genereren van meerdere rollouts voor een gegeven query, waarbij sommige de eerste paar tool-aanroep stappen delen, waardoor een boomachtige structuur ontstaat. Vervolgens kennen we beloningen toe aan elke stap, gebaseerd op het vermogen om een correct antwoord te produceren en succesvolle tool-aanroepen te maken. Een gedeelde stap over verschillende trajecten ontvangt dezelfde beloning, terwijl verschillende stappen onder dezelfde vertakking verschillende beloningen ontvangen. Ten slotte worden deze stapgewijze beloningen gebruikt om vertakkingsrelatieve voordelen te berekenen, gemengd met trajectrelatieve voordelen, om het LLM voor toolgebruik te trainen. De experimenten maken gebruik van 17 tools om gebruikersquery's aan te pakken, waarbij zowel tijdsgevoelige als tijdsonafhankelijke onderwerpen worden behandeld. We voeren ablatiestudies uit om systematisch de noodzaak en de ontwerp robuustheid van stapgewijze beloningen te rechtvaardigen. Verder vergelijken we de voorgestelde PORTool met andere trainingsbenaderingen en tonen we significante verbeteringen aan in de uiteindelijke nauwkeurigheid en het aantal tool-aanroep stappen.
Grote Taalmodellen (GTM'en) bieden state-of-the-art prestaties voor taken op het gebied van natuurlijke taalverwerking en tekstgeneratie. De inzet van toonaangevende commerciële modellen voor gespecialiseerde taken, zoals e-commerce, wordt echter vaak belemmerd door hoge rekencosten, latentie en operationele uitgaven. Dit artikel onderzoekt de haalbaarheid van kleinere, open-weight modellen als een resource-efficiënt alternatief. Wij presenteren een methodologie voor het optimaliseren van een Llama 3.2-model met één miljard parameters voor meertalige intentieherkenning in e-commerce. Het model werd *fine-tuned* met behulp van *Quantized Low-Rank Adaptation* (QLoRA) op een synthetisch gegenereerde dataset, ontworpen om real-world gebruikersquery's na te bootsen. Vervolgens pasten we *post-training quantisatie*-technieken toe, waarbij GPU-geoptimaliseerde (GPTQ) en CPU-geoptimaliseerde (GGUF) versies werden gecreëerd. Onze resultaten tonen aan dat het gespecialiseerde 1B-model een nauwkeurigheid van 99% bereikt, wat overeenkomt met de prestaties van het aanzienlijk grotere GPT-4.1-model. Een gedetailleerde prestatieanalyse onthulde kritieke, hardware-afhankelijke *trade-offs*: waar 4-bits GPTQ het VRAM-gebruik met 41% verminderde, vertraagde het paradoxaal genoeg de inferentie met 82% op een oudere GPU-architectuur (NVIDIA T4) als gevolg van *dequantisatie-overhead*. Daarentegen behaalden GGUF-formaten op een CPU een versnelling tot 18x in de inferentie-doorvoer en een vermindering van meer dan 90% in RAM-verbruik in vergelijking met de FP16-basislijn. Wij concluderen dat kleine, goed geoptimaliseerde open-weight modellen niet alleen een haalbaar, maar zelfs een geschikter alternatief zijn voor domeinspecifieke toepassingen, waarbij ze state-of-the-art nauwkeurigheid bieden tegen een fractie van de rekenkosten.
Zelfverbetering is naar voren gekomen als een belangrijk paradigma voor het verbeteren van de redeneervermogens van grote visueel-taalmodelen (LVLMs), waarbij modellen iteratief succesvolle trajecten verkennen en ervan leren. Wij identificeren echter een cruciaal probleem in dit proces: het model blinkt uit in het genereren van hoogwaardige trajecten voor eenvoudige vragen (d.w.z. hoofddata), maar worstelt met complexere vragen (d.w.z. staartdata). Dit leidt tot een onevenwichtige optimalisatie die het model ertoe aanzet eenvoudige redeneervaardigheden te prioriteren, terwijl het vermogen om complexere redeneertaken aan te pakken wordt belemmerd. Over iteraties heen wordt deze onbalans steeds duidelijker – een dynamiek die wij het "Mattheüs-effect" noemen – wat uiteindelijk verdere modelverbetering hindert en tot prestatieknelpunten leidt. Om deze uitdaging het hoofd te bieden, introduceren wij vier efficiënte strategieën vanuit twee perspectieven: distributiehervorming en trajectherbemonstering, om een herverdeling tussen hoofd- en staartdata te bereiken tijdens het verkennings- en leerproces van zelfverbetering. Uitgebreide experimenten met Qwen2-VL-7B-Instruct- en InternVL2.5-4B-modellen voor visuele redeneertaken tonen aan dat onze methoden de visuele redeneervermogen consistent verbeteren, waarbij ze de standaard zelfverbetering met gemiddeld 3,86 punten overtreffen.
Grote taalmodellen hebben opmerkelijke redeneervaardigheden getoond bij uiteenlopende natuurlijke-taaltaken. Vergelijkbare doorbraken in wetenschappelijke ontdekkingen blijven echter beperkter, omdat het begrijpen van complexe fysische verschijnselen veelzijdige representaties vereist die ver voorbij alleen taal gaan. Een sprekend voorbeeld is het ontwerp van functionele materialen zoals MOF's - cruciaal voor toepassingen zoals koolstofafvang en waterstofopslag. Het navigeren door hun uitgestrekte en ingewikkelde ontwerpruimte in op taal gebaseerde representaties die door LLM's interpreteerbaar zijn, is uitdagend vanwege de talloze mogelijke driedimensionale atomaire rangschikkingen en strikte reticulaire regels voor coördinatiegeometrie en topologie. Ondanks veelbelovende vroege resultaten in LLM-gestuurde ontdekking voor eenvoudigere materialsystemen, blijft MOF-ontwerp sterk afhankelijk van impliciete menselijke expertise die zelden alleen in tekstuele informatie is vastgelegd. Om deze barrière te overwinnen, introduceren we L2M3OF, het eerste multimodale LLM voor MOF's. L2M3OF integreert kristalrepresentatieleren met taalbegrip om structurele, tekstuele en kennismodaliteiten gezamenlijk te verwerken. L2M3OF gebruikt een vooraf getrainde kristalencoder met een lichtgewicht projectielaag om structurele informatie te comprimeren naar een tokenruimte, wat efficiënte afstemming met taal-instructies mogelijk maakt. Om training en evaluatie te vergemakkelijken, hebben we een structuur-eigenschap-kennisdatabase van kristallijne materialen samengesteld en vergelijken we L2M3OF met state-of-the-art closed-source LLM's zoals GPT-5, Gemini-2.5-Pro en DeepSeek-R1. Experimenten tonen aan dat L2M3OF toonaangevende op tekst gebaseerde closed-source LLM's overtreft in eigenschapvoorspelling- en kennisgeneratietaken, ondanks het gebruik van aanzienlijk minder parameters. Deze resultaten onderstrepen het belang van multimodale benaderingen voor het begrip van poreuze materialen en vestigen L2M3OF als fundament voor AI-systemen van de volgende generatie in materiaalontdekking.
Het ontwerpen van enzymruggengraten met substraatspecifieke functionaliteit vormt een cruciale uitdaging in computationele eiwitengineering. Bestaande generatieve modellen blinken uit in eiwitontwerp, maar kampen met beperkingen op het gebied van bindingsdata, substraatspecifieke controle en flexibiliteit voor de novo generatie van enzymruggengraten. Om dit aan te pakken, introduceren wij EnzyBind, een dataset met 11.100 experimenteel gevalideerde enzym-substraatparen, specifiek samengesteld uit PDBbind. Hierop voortbordurend presenteren wij EnzyControl, een methode die functionele en substraatspecifieke controle mogelijk maakt bij de generatie van enzymruggengraten. Onze aanpak genereert enzymruggengraten geconditioneerd op MSA-geannoteerde katalytische plaatsen en hun corresponderende substraten, die automatisch worden geëxtraheerd uit gecureerde enzym-substraatgegevens. De kern van EnzyControl wordt gevormd door EnzyAdapter, een lichtgewicht, modulair component geïntegreerd in een vooraf getraind motief-scaffolding-model, waardoor het substraatbewust wordt. Een tweefasig trainingsparadigma verfijnt vervolgens het vermogen van het model om accurate en functionele enzymstructuren te genereren. Experimenten tonen aan dat onze EnzyControl de beste prestaties behaalt op structurele en functionele metrieken voor de EnzyBind- en EnzyBench-referentiekaders, met bijzonder opmerkelijke verbeteringen van 13% in ontwerpbaarheid en 13% in katalytische efficiëntie vergeleken met baseline-modellen. De code is vrijgegeven op https://github.com/Vecteur-libre/EnzyControl.
Recente vooruitgang in gesproken taalverwerking heeft geleid tot aanzienlijke vooruitgang in fonetische taken zoals automatische spraakherkenning (ASR), foneemherkenning (PR), grafeem-naar-foneemconversie (G2P) en foneem-naar-grafeemconversie (P2G). Ondanks hun conceptuele gelijkenis zijn deze taken grotendeels afzonderlijk bestudeerd, waarbij elk vertrouwt op taakspecifieke architecturen en datasets. In dit artikel introduceren we POWSM (Phonetic Open Whisper-style Speech Model), het eerste verenigde raamwerk dat in staat is om meerdere foneemgerelateerde taken gezamenlijk uit te voeren. POWSM maakt naadloze conversie tussen audio, tekst (grafemen) en fonemen mogelijk, wat nieuwe mogelijkheden opent voor universele en data-arme spraakverwerking. Ons model presteert beter dan of even goed als gespecialiseerde PR-modellen van vergelijkbare grootte (Wav2Vec2Phoneme en ZIPA), terwijl het tegelijkertijd G2P, P2G en ASR ondersteunt. Onze trainingsdata, code en modellen worden vrijgegeven om open wetenschap te bevorderen.
Het benutten van openbaar beschikbare, grootschalige webgegevens, zoals streetview- en satellietbeelden, is van cruciaal belang voor stedelijke sociaaleconomische sensing om mondiale duurzame ontwikkelingsdoelen te bereiken. Met de opkomst van Large Vision-Language Models (LVLMs) zijn nieuwe mogelijkheden ontstaan om deze taak aan te pakken door deze te behandelen als een multimodaal perceptie- en begripsprobleem. Recente studies tonen echter aan dat LVLMs nog steeds moeite hebben met accurate en interpreteerbare sociaaleconomische voorspellingen op basis van visuele data. Om deze beperkingen aan te pakken en het potentieel van LVLMs te maximaliseren, introduceren we CityRiSE, een nieuw raamwerk voor het redeneren over stedelijke sociaaleconomische status in LVLMs via pure reinforcement learning (RL). Met zorgvuldig samengestelde multimodale data en verifieerbare beloningsontwerpen leidt onze aanpak de LVLM naar semantisch betekenisvolle visuele aanwijzingen, waardoor gestructureerd en doelgericht redeneren mogelijk wordt voor generalistische sociaaleconomische statusvoorspelling. Experimenten tonen aan dat CityRiSE met zijn emergente redeneerproces significant beter presteert dan bestaande baseline-methoden, waarbij zowel de voorspellingsnauwkeurigheid als de generalisatie over diverse stedelijke contexten verbetert, vooral voor voorspellingen over onbekende steden en onbekende indicatoren. Dit werk belicht de belofte van het combineren van RL en LVLMs voor interpreteerbare en generalistische stedelijke sociaaleconomische sensing.
Grafieken spelen een belangrijke rol bij visualisatie, redenering, data-analyse en de uitwisseling van ideeën tussen mensen. Bestaande vision-language modellen (VLMs) hebben echter nog steeds moeite met het nauwkeurig waarnemen van details en het extraheren van fijnmazige structuren uit grafieken. Deze beperkingen in het grondslagbegrip van grafieken belemmeren ook hun vermogen om meerdere grafieken te vergelijken en erover te redeneren. In dit artikel introduceren we een nieuwe "ChartAlign Benchmark (ChartAB)" om een uitgebreide evaluatie van VLMs te bieden bij taken voor grafiek-grondslag, zoals het extraheren van tabelgegevens, het lokaliseren van visualisatie-elementen en het herkennen van verschillende attributen uit grafieken van uiteenlopende typen en complexiteit. We ontwerpen een JSON-sjabloon om de berekening van evaluatiemetrices te vergemakkelijken die specifiek zijn toegesneden op elke grondslagtaak. Door een nieuwe tweestaps inferentie-workflow te incorporeren, kan de benchmark verder het vermogen van VLMs evalueren om elementen/attributen tussen twee grafieken uit te lijnen en te vergelijken. Onze analyse van evaluaties van verschillende recente VLMs onthult nieuwe inzichten in hun perceptie-vooroordelen, zwaktes, robuustheid en hallucinaties bij het begrijpen van grafieken. Deze bevindingen belichten de fijnmazige discrepanties tussen VLMs bij taken voor grafiekbegrip en wijzen op specifieke vaardigheden die in huidige modellen versterkt moeten worden.