Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren BlenderFusion, een generatief visueel compositing-framework dat nieuwe scènes synthetiseert door objecten, camera en achtergrond opnieuw te componeren. Het volgt een laagbewerkings-compositing-pijplijn: (i) segmenteren en omzetten van visuele invoer naar bewerkbare 3D-entiteiten (lagen), (ii) bewerken ervan in Blender met 3D-gebaseerde controle (bewerken), en (iii) samenvoegen tot een coherente scène met behulp van een generatieve compositor (compositing). Onze generatieve compositor breidt een vooraf getraind diffusiemodel uit om zowel de originele (bron) als bewerkte (doel) scènes parallel te verwerken. Het is afgestemd op videoframes met twee belangrijke trainingsstrategieën: (i) bronmaskering, waardoor flexibele aanpassingen zoals achtergrondvervanging mogelijk zijn; (ii) gesimuleerd objecttrillen, wat ontvlechting van controle over objecten en camera vergemakkelijkt. BlenderFusion overtreft eerdere methoden aanzienlijk in complexe compositorische scènebewerkingstaken.
In dit artikel presenteren we LLaVA-Scissor, een trainingsvrije tokencompressiestrategie die is ontworpen voor multimodale grote taalmodellen voor video. Eerdere methoden proberen meestal tokens te comprimeren op basis van aandachtsscores, maar slagen er niet in om alle semantische regios effectief vast te leggen en leiden vaak tot tokenredundantie. In plaats daarvan stellen we voor om de Semantic Connected Components (SCC)-benadering te benutten, die tokens toewijst aan verschillende semantische regios binnen de tokenset, waardoor een uitgebreide semantische dekking wordt gegarandeerd. Het resultaat is een tweestaps spatio-temporele tokencompressiestrategie die SCC gebruikt in zowel ruimtelijke als temporele domeinen. Deze strategie kan tokens effectief comprimeren door de gehele video weer te geven met een set niet-overlappende semantische tokens. We voeren uitgebreide evaluaties uit van de tokencompressiecapaciteiten van LLaVA-Scissor op diverse video-begripsbenchmarks, waaronder video-vraagbeantwoording, lang video-begrip en uitgebreide meerkeuzebenchmarks. Experimentele resultaten tonen aan dat de voorgestelde LLaVA-Scissor andere tokencompressiemethoden overtreft en superieure prestaties behaalt in verschillende video-begripsbenchmarks, vooral bij lage tokenretentieverhoudingen. Projectpagina: https://github.com/HumanMLLM/LLaVA-Scissor.
Het bereiken van fijnmazige controle over onderwerpidentiteit en semantische attributen (pose, stijl, belichting) in tekst-naar-beeldgeneratie, met name voor meerdere onderwerpen, ondermijnt vaak de bewerkbaarheid en samenhang van Diffusion Transformers (DiTs). Veel benaderingen introduceren artefacten of lijden onder attribuutverstrengeling. Om deze uitdagingen te overwinnen, stellen we een nieuw multi-onderwerp gecontroleerd generatiemodel voor, genaamd XVerse. Door referentiebeelden om te zetten in offsets voor tokenspecifieke tekststroommodulatie, maakt XVerse precieze en onafhankelijke controle mogelijk voor specifieke onderwerpen zonder de beeldlatenten of kenmerken te verstoren. Hierdoor biedt XVerse hoogwaardige, bewerkbare multi-onderwerp beeldgeneratie met robuuste controle over individuele onderwerpkenmerken en semantische attributen. Deze vooruitgang verbetert aanzienlijk de mogelijkheden voor gepersonaliseerde en complexe scènegeneratie.
Interne wereldmodellen (WMs) stellen agents in staat om de toestand van de wereld te begrijpen en overgangen te voorspellen, wat de basis vormt voor geavanceerd beredeneerd denken. Recente grote Vision-Language Models (VLMs), zoals OpenAI o3, GPT-4o en Gemini, tonen potentieel als algemene WMs. Hoewel de nieuwste studies specifieke capaciteiten zoals visueel begrip hebben geëvalueerd en beperkingen hebben aangetoond, ontbreekt een systematische evaluatie van de fundamentele WM-vaardigheden van VLMs. Gebaseerd op vergelijkende psychologie en cognitieve wetenschap, stellen we een tweestappenraamwerk voor dat Perceptie (visueel, ruimtelijk, temporeel, kwantitatief en beweging) en Voorspelling (mechanistische simulatie, transitieve inferentie, compositionele inferentie) beoordeelt om een atomaire evaluatie van VLMs als WMs te bieden. Geleid door dit raamwerk introduceren we WM-ABench, een grootschalige benchmark bestaande uit 23 fijnmazige evaluatiedimensies over 6 diverse gesimuleerde omgevingen met gecontroleerde tegenfactoriële simulaties. Via 660 experimenten op 15 recente commerciële en open-source VLMs, ontdekken we dat deze modellen opvallende beperkingen vertonen in basale wereldmodelleringsvaardigheden. Zo presteren bijna alle modellen op bijna willekeurige nauwkeurigheid bij het onderscheiden van bewegingsbanen. Daarnaast ontbreekt het hen aan ontward begrip – sommige modellen geloven bijvoorbeeld dat blauwe objecten sneller bewegen dan groene. Rijkere resultaten en analyses onthullen aanzienlijke kloof tussen VLMs en menselijk niveau van wereldmodellering.
Cinematografie, de fundamentele visuele taal van film, is essentieel voor het overbrengen van verhaal, emotie en esthetische kwaliteit. Hoewel recente Vision-Language Models (VLMs) een sterke algemene visuele begrip tonen, blijft hun vaardigheid in het begrijpen van de genuanceerde cinematische grammatica die in individuele shots is ingebed grotendeels onontgonnen en ontbreekt het aan robuuste evaluatie. Deze kritische kloof beperkt zowel fijnmazig visueel begrip als de precisie van AI-ondersteunde videogeneratie. Om dit aan te pakken, introduceren we ShotBench, een uitgebreide benchmark specifiek ontworpen voor het begrijpen van cinematische taal. Het bevat meer dan 3,5k door experts geannoteerde QA-paren van afbeeldingen en videofragmenten, zorgvuldig samengesteld uit meer dan 200 geroemde (voornamelijk Oscar-genomineerde) films en beslaat acht belangrijke cinematografische dimensies. Onze evaluatie van 24 toonaangevende VLMs op ShotBench onthult hun aanzienlijke beperkingen: zelfs het best presterende model behaalt minder dan 60% gemiddelde nauwkeurigheid, met name moeite met fijnmazige visuele aanwijzingen en complexe ruimtelijke redenering. Om vooruitgang in dit domein te stimuleren, construeren we ShotQA, een grootschalige multimodale dataset bestaande uit ongeveer 70k cinematische QA-paren. Door gebruik te maken van ShotQA, ontwikkelen we ShotVL via supervised fine-tuning en Group Relative Policy Optimization. ShotVL overtreft aanzienlijk alle bestaande open-source en propriëtaire modellen op ShotBench, en vestigt nieuwe state-of-the-art prestaties. We maken onze modellen, data en code open source om snelle vooruitgang te bevorderen in dit cruciale gebied van AI-gedreven cinematisch begrip en generatie.
Dichte voorspellingstaken zijn van groot belang binnen computervisie, waarbij het doel is om voor een invoerafbeelding een pixelgewijze geannoteerd label te leren. Ondanks vooruitgang in dit veld richten bestaande methoden zich voornamelijk op geïdealiseerde omstandigheden, met beperkte generalisatie naar realistische scenario's en het uitdagende gebrek aan real-world data. Om dit probleem systematisch te bestuderen, introduceren we eerst DenseWorld, een benchmark die een breed scala aan 25 dichte voorspellingstaken omvat die overeenkomen met urgente real-world toepassingen, met een uniforme evaluatie over taken. Vervolgens stellen we DenseDiT voor, dat de visuele voorkennis van generatieve modellen maximaal benut om diverse real-world dichte voorspellingstaken uit te voeren via een uniforme strategie. DenseDiT combineert een parameterhergebruikmechanisme en twee lichtgewicht takken die adaptief multi-schaal context integreren, met minder dan 0,1% extra parameters. Evaluaties op DenseWorld tonen aanzienlijke prestatieverliezen in bestaande algemene en gespecialiseerde baselines, wat hun beperkte real-world generalisatie benadrukt. Daarentegen behaalt DenseDiT superieure resultaten met minder dan 0,01% trainingsdata van de baselines, wat de praktische waarde voor real-world implementatie onderstreept. Onze data, checkpoints en codes zijn beschikbaar op https://xcltql666.github.io/DenseDiTProj.
De opkomst van Mixture of Experts (MoE) in grote taalmodel(len) belooft een lage uitvoeringskosten voor een veel groter aantal modelparameters en leercapaciteit, omdat slechts een kleine fractie van de parameters wordt geactiveerd voor elk invoertoken. Het wordt echter vaak waargenomen dat sommige experts veel vaker worden geactiveerd dan andere, wat leidt tot systeeminefficiëntie wanneer de experts parallel op verschillende apparaten worden uitgevoerd. Daarom introduceren we Mixture of Grouped Experts (MoGE), waarbij de experts tijdens de selectie worden gegroepeerd en de werklast van de experts van nature beter wordt verdeeld dan bij MoE. Het beperkt tokens om een gelijk aantal experts binnen elke vooraf gedefinieerde expertgroep te activeren. Wanneer een modelexecutie wordt verdeeld over meerdere apparaten, zorgt dit architectonische ontwerp voor een gebalanceerde rekenbelasting over de apparaten, wat de doorvoer aanzienlijk verbetert, vooral tijdens de inferentiefase. Verder bouwen we Pangu Pro MoE op Ascend NPU's, een spaarzaam model gebaseerd op MoGE met in totaal 72 miljard parameters, waarvan 16 miljard worden geactiveerd voor elk token. De configuratie van Pangu Pro MoE is geoptimaliseerd voor Ascend 300I Duo en 800I A2 door uitgebreide systeemsimulatiestudies. Onze experimenten tonen aan dat MoGE inderdaad leidt tot een betere belansering van de expertbelasting en efficiëntere uitvoering voor zowel modeltraining als inferentie op Ascend NPU's. De inferentieprestaties van Pangu Pro MoE bereiken 1148 tokens/s per kaart en kunnen verder worden verbeterd tot 1528 tokens/s per kaart door speculatieve versnelling, wat beter presteert dan vergelijkbare 32B en 72B Dense-modellen. Bovendien bereiken we een uitstekende kosten-prestatieverhouding voor modelinferentie op Ascend 300I Duo. Onze studies tonen aan dat Ascend NPU's in staat zijn om Pangu Pro MoE te trainen met massale parallelisatie, waardoor het een toonaangevend model wordt binnen de sub-100B totale parameterklasse, dat prominente open-source modellen zoals GLM-Z1-32B en Qwen3-32B overtreft.
Robotica heeft opmerkelijke vooruitgang geboekt op het gebied van hardware - van DARPA's Urban en Robotics Challenges tot het eerste humanoïde-robot kickbokstoernooi - maar commerciële autonomie blijft achter bij de vooruitgang in machine learning. Een belangrijke bottleneck is software: huidige robotstacks vereisen steile leercurves, expertise in low-level C/C++, gefragmenteerde tools en ingewikkelde hardware-integratie, in schril contrast met de Python-gerichte, goed gedocumenteerde ecosystemen die moderne AI hebben voortgestuwd. Wij introduceren ARK, een open-source, Python-first robotica-framework ontworpen om die kloof te dichten. ARK biedt een Gym-stijl omgevingsinterface waarmee gebruikers gegevens kunnen verzamelen, deze kunnen voorbewerken en beleidsregels kunnen trainen met behulp van state-of-the-art imitatie-leeralgoritmen (bijv. ACT, Diffusion Policy), terwijl ze naadloos kunnen schakelen tussen hoogwaardige simulatie en fysieke robots. Een lichtgewicht client-serverarchitectuur biedt netwerkgebaseerde publisher-subscriber communicatie, en optionele C/C++-bindings zorgen voor real-time prestaties wanneer nodig. ARK wordt geleverd met herbruikbare modules voor controle, SLAM, bewegingsplanning, systeemidentificatie en visualisatie, samen met native ROS-interoperabiliteit. Uitgebreide documentatie en casestudy's - van manipulatie tot mobiele navigatie - demonstreren snelle prototyping, moeiteloze hardware-uitwisseling en end-to-end pipelines die de gemakken van mainstream machine learning-workflows evenaren. Door robotica en AI-praktijken te verenigen onder een gemeenschappelijke Python-paraplu, verlaagt ARK de toegangsdrempels en versnelt het onderzoek en commerciële inzet van autonome robots.
Huidige Vision-Language Models (VLMs) hebben moeite met fijnmazig ruimtelijk redeneren, vooral wanneer multi-staps logica en precieze ruimtelijke uitlijning vereist zijn. In dit werk introduceren we SpatialReasoner-R1, een vision-language redeneermodel dat ontworpen is om deze beperkingen aan te pakken. Om hoogwaardige supervisie voor ruimtelijk redeneren te creëren, ontwikkelen we een Multi-Model Monte Carlo Tree Search (M3CTS) methode die diverse, logisch consistente Long Chain-of-Thought (LongCoT) redeneertrajecten genereert. Daarnaast stellen we fijnmazige Direct Preference Optimization (fDPO) voor, dat segment-specifieke voorkeursgranulariteit introduceert voor beschrijvende verankering en logisch redeneren, geleid door een ruimtelijk beloningsmechanisme dat kandidaatreacties evalueert op basis van visuele consistentie, ruimtelijke verankering en logische samenhang. Experimentele resultaten tonen aan dat fDPO een gemiddelde verbetering van 4,1% behaalt ten opzichte van standaard DPO bij ruimtelijke kwaliteitstaken, en een winst van 9,0% bij ruimtelijke kwantiteitstaken. SpatialReasoner-R1, getraind met fDPO, vestigt een nieuwe state-of-the-art (SoTA) op SPATIALRGPT-Bench, waarbij het de sterkste baseline met 9,8% in gemiddelde nauwkeurigheid overtreft, terwijl het competitieve prestaties behoudt op algemene vision-language taken.
Recente doorbraken in diepgaand generatief modelleren hebben ongekende mogelijkheden voor videosynthese ontsloten. In real-world toepassingen zoeken gebruikers echter vaak naar tools om hun creatieve bewerkingsintenties nauwkeurig en consistent te realiseren. Ondanks de vooruitgang die bestaande methoden hebben geboekt, blijft het waarborgen van fijnmazige afstemming op gebruikersintenties een open en uitdagend probleem. In dit werk presenteren we Shape-for-Motion, een nieuw framework dat een 3D-proxy integreert voor precieze en consistente videobewerking. Shape-for-Motion bereikt dit door het doelobject in de invoervideo om te zetten naar een tijdconsistent mesh, d.w.z. een 3D-proxy, waardoor bewerkingen direct op de proxy kunnen worden uitgevoerd en vervolgens terug kunnen worden afgeleid naar de videoframes. Om het bewerkingsproces te vereenvoudigen, ontwerpen we een nieuwe Dual-Propagation Strategie waarmee gebruikers bewerkingen kunnen uitvoeren op het 3D-mesh van een enkel frame, waarna de bewerkingen automatisch worden doorgevoerd naar de 3D-meshes van de andere frames. De 3D-meshes voor verschillende frames worden verder geprojecteerd op de 2D-ruimte om de bewerkte geometrie en textuurweergaven te produceren, die dienen als invoer voor een ontkoppeld videodiffusiemodel om de bewerkte resultaten te genereren. Ons framework ondersteunt diverse precieze en fysisch consistente manipulaties over de videoframes, waaronder posebewerking, rotatie, schaling, translatie, textuurmodificatie en objectcompositie. Onze aanpak markeert een belangrijke stap richting hoogwaardige, controleerbare videobewerkingsworkflows. Uitgebreide experimenten tonen de superioriteit en effectiviteit van onze aanpak aan. Projectpagina: https://shapeformotion.github.io/
Kunnen Vision Language Models (VLMs) de volledige scène voorstellen vanuit slechts enkele aanzichten, zoals mensen dat doen? Mensen vormen ruimtelijke mentale modellen, interne representaties van onzichtbare ruimte, om te redeneren over lay-out, perspectief en beweging. Onze nieuwe MindCube-benchmark met 21.154 vragen over 3.268 afbeeldingen legt dit kritieke gat bloot, waarbij bestaande VLMs bijna willekeurige prestaties vertonen. Met MindCube evalueren we systematisch hoe goed VLMs robuuste ruimtelijke mentale modellen opbouwen door posities (cognitieve mapping), oriëntaties (perspectiefname) en dynamiek (mentale simulatie voor "wat-als" bewegingen) te representeren. We onderzoeken vervolgens drie benaderingen om VLMs ruimtelijke mentale modellen te laten benaderen, waaronder onzichtbare tussenliggende aanzichten, redeneerketens in natuurlijke taal en cognitieve kaarten. De significante verbetering komt van een synergetische aanpak, "map-then-reason", waarbij het model gezamenlijk wordt getraind om eerst een cognitieve kaart te genereren en vervolgens daarop te redeneren. Door modellen te trainen om te redeneren over deze interne kaarten, verhoogden we de nauwkeurigheid van 37,8% naar 60,8% (+23,0%). Het toevoegen van reinforcement learning duwde de prestaties nog verder naar 70,7% (+32,9%). Onze belangrijkste inzicht is dat dergelijke ondersteuning van ruimtelijke mentale modellen, het actief construeren en gebruiken van interne gestructureerde ruimtelijke representaties met flexibele redeneerprocessen, het begrip van onwaarneembare ruimte aanzienlijk verbetert.
Snelle vooruitgang in grote taalmodellen (LLMs) heeft het potentieel om wetenschappelijke vooruitgang te ondersteunen. Een cruciale vaardigheid voor dit streven is het vermogen om bestaand werk te reproduceren. Om het vermogen van AI-agents om resultaten te reproduceren in een actief onderzoeksgebied te evalueren, introduceren we de Automated LLM Speedrunning Benchmark, waarbij we gebruikmaken van de bijdragen van de onderzoeksgemeenschap aan de NanoGPT-speedrun, een wedstrijd om een GPT-2-model in de kortst mogelijke tijd te trainen. Elk van de 19 speedrun-taken voorziet de agent van het trainingsscript van de vorige records, optioneel aangevuld met een van drie hintformats, variërend van pseudocode tot paper-achtige beschrijvingen van de verbeteringen in de nieuwe records. Records zijn ontworpen om snel uit te voeren, en speedrun-verbeteringen omvatten diverse code-niveau wijzigingen, van hoogwaardige algoritmische vooruitgang tot hardwarebewuste optimalisaties. Deze kenmerken maken de benchmark zowel toegankelijk als realistisch voor het grensverleggende probleem van het verbeteren van LLM-training. We constateren dat recente redenerende LLMs in combinatie met state-of-the-art scaffolds moeite hebben om reeds bekende innovaties in onze benchmark opnieuw te implementeren, zelfs wanneer gedetailleerde hints worden gegeven. Onze benchmark biedt dus een eenvoudige, niet-verzadigde maatstaf voor het vermogen van LLMs om wetenschappelijke reproductie te automatiseren, een noodzakelijke (maar niet voldoende) vaardigheid voor een autonome onderzoeksagent.
Dit onderzoek richt zich op het mogelijk maken van Chain-of-Thought (CoT) redenering om visuele aanwijzingen over meerdere afbeeldingen heen te verbinden. Een eenvoudige oplossing is het aanpassen van op regels gebaseerde reinforcement learning voor Vision-Language Models (VLMs). Dergelijke methoden zijn echter vaak afhankelijk van handmatig samengestelde vraag-antwoordparen, wat vooral uitdagend kan zijn bij het omgaan met fijnmazige visuele details en complexe logica over afbeeldingen heen. Geïnspireerd door zelfgesuperviseerd leren van visuele representaties, merken we op dat afbeeldingen inherente beperkingen bevatten die als supervisie kunnen dienen. Op basis van dit inzicht construeren we afbeeldingstriplets die bestaan uit twee geaugmenteerde weergaven van dezelfde afbeelding en een derde, vergelijkbare maar verschillende afbeelding. Tijdens de training wordt het model aangemoedigd om een redeneerproces te genereren om deze afbeeldingen te vergelijken (d.w.z. te bepalen of ze hetzelfde of verschillend zijn). Vervolgens optimaliseren we het model met op regels gebaseerde reinforcement learning. Door de hoge visuele gelijkenis en de aanwezigheid van augmentaties moet het model aandacht besteden aan subtiele visuele veranderingen en logisch redeneren om succesvol te zijn. Experimenten tonen aan dat, hoewel het model uitsluitend is getraind op visuele vergelijkingstaken, het geleerde redeneervermogen effectief generaliseert naar een breed scala aan vragen. Zonder te vertrouwen op door mensen geannoteerde vraag-antwoordparen, behaalt onze methode aanzienlijke verbeteringen op benchmarks voor redeneren over meerdere afbeeldingen en toont het sterke prestaties op algemene visietaken.
Recent werk dat in-context learning (ICL) analyseert, heeft een breed scala aan strategieën geïdentificeerd die modelgedrag beschrijven onder verschillende experimentele omstandigheden. Wij streven ernaar deze bevindingen te verenigen door te vragen waarom een model deze uiteenlopende strategieën überhaupt leert. Specifiek beginnen we met de observatie dat, wanneer een model wordt getraind om een mix van taken te leren, zoals gebruikelijk is in de literatuur, de strategieën die het model leert voor het uitvoeren van ICL kunnen worden vastgelegd door een familie van Bayesiaanse voorspellers: een memoriserende voorspeller, die uitgaat van een discreet prior over de set van geziene taken, en een generaliserende voorspeller, waarbij het prior overeenkomt met de onderliggende taakverdeling. Door het normatieve perspectief van rationele analyse te hanteren, waarbij het gedrag van een lerend systeem wordt verklaard als een optimale aanpassing aan gegevens gegeven computationele beperkingen, ontwikkelen we een hiërarchisch Bayesiaans raamwerk dat bijna perfect de volgende-token-voorspellingen van Transformers voorspelt gedurende de training — zonder aan te nemen dat we toegang hebben tot de gewichten. Binnen dit raamwerk wordt pretraining gezien als een proces van het bijwerken van de posterior waarschijnlijkheid van verschillende strategieën, en gedrag tijdens inferentie als een posterior-gewogen gemiddelde over de voorspellingen van deze strategieën. Ons raamwerk maakt gebruik van veelvoorkomende aannames over de leer dynamiek van neurale netwerken, die een afweging expliciet maken tussen verlies en complexiteit onder kandidaat-strategieën: naast hoe goed een strategie de gegevens verklaart, wordt de voorkeur van een model voor het implementeren van een strategie bepaald door de complexiteit ervan. Dit helpt bekende ICL-fenomenen te verklaren, terwijl het ook nieuwe voorspellingen biedt: bijvoorbeeld tonen we een superlineaire trend in de tijdschaal voor de overgang van generalisatie naar memorisatie naarmate de taakdiversiteit toeneemt. Over het geheel genomen bevordert ons werk een verklarend en voorspellend begrip van ICL, geworteld in afwegingen tussen strategieverlies en complexiteit.
Multimodaal in-context learning (ICL) blijft onderbelicht ondanks het aanzienlijke potentieel voor domeinen zoals de geneeskunde. Klinisch specialisten komen regelmatig diverse, gespecialiseerde taken tegen die aanpassing vereisen op basis van beperkte voorbeelden, zoals het trekken van inzichten uit een paar relevante eerdere gevallen of het overwegen van een beperkte set differentiële diagnoses. Hoewel multimodale grote taalmodellen (MLLMs) vooruitgang hebben geboekt in medische visuele vraag-antwoordtaken (VQA), is hun vermogen om multimodale taken uit de context te leren grotendeels onbekend. We introduceren SMMILE, de eerste expert-gestuurde multimodale ICL-benchmark voor medische taken. Elf medische experts hebben problemen samengesteld, elk inclusief een multimodale vraag en multimodale in-context voorbeelden als taakdemonstraties. SMMILE omvat 111 problemen (517 vraag-afbeelding-antwoord tripletten) die 6 medische specialismen en 13 beeldvormingsmodaliteiten beslaan. We introduceren verder SMMILE++, een uitgebreide variant met 1038 gepermuteerde problemen. Een uitgebreide evaluatie van 15 MLLMs toont aan dat de meeste modellen matige tot slechte multimodale ICL-vaardigheden vertonen bij medische taken. In open-eindevaluaties draagt ICL slechts een gemiddelde verbetering van 8% bij ten opzichte van zero-shot op SMMILE en 9,4% op SMMILE++. We observeren een gevoeligheid voor irrelevante in-context voorbeelden: zelfs een enkel ruisachtig of irrelevant voorbeeld kan de prestaties met tot wel 9,5% verminderen. Bovendien vertoont de volgorde van voorbeelden een recency bias, d.w.z. het plaatsen van het meest relevante voorbeeld als laatste kan leiden tot aanzienlijke prestatieverbeteringen van tot wel 71%. Onze bevindingen benadrukken kritieke beperkingen en biases in huidige MLLMs bij het leren van multimodale medische taken uit de context.
De meeste taalmodelen worden geconfronteerd met een fundamentele afweging: krachtige mogelijkheden vereisen aanzienlijke rekenbronnen. Wij doorbreken deze beperking met Jan-nano, een taalmodel met 4B parameters dat efficiëntie herdefinieert door radicale specialisatie: in plaats van te proberen alles te weten, beheerst het de kunst om alles direct te vinden. Gefinetuned van Qwen3-4B met behulp van ons innovatieve multi-stage RLVR-systeem, dat de afhankelijkheid van next token prediction training (SFT) volledig elimineert, behaalt Jan-nano 83,2% op de SimpleQA-benchmark met MCP-integratie terwijl het draait op consumentenhardware. Met een contextlengte van 128K bewijst Jan-nano dat intelligentie niet draait om schaal, maar om strategie.
We presenteren Gazal-R1, een taalmodel met 32 miljard parameters dat state-of-the-art prestaties levert in medisch redeneren en tegelijkertijd transparante, stapsgewijze uitleg biedt voor klinische besluitvorming. Gebouwd op Qwen3 32B, toont ons model aan dat strategische training middelgrote modellen in staat stelt om aanzienlijk grotere tegenhangers te overtreffen in gespecialiseerde domeinen. We ontwikkelden een innovatieve tweefasige trainingspijplijn: eerst, supervised fine-tuning op een zorgvuldig samengestelde dataset van 107.033 synthetische voorbeelden van medisch redeneren die gestructureerd klinisch denken aanleert, versterkt door geavanceerde parameter-efficiënte technieken zoals Weight-Decomposed Low-Rank Adaptation (DoRA) en Rank-Stabilized LoRA (rsLoRA); vervolgens, reinforcement learning met Group Relative Policy Optimization (GRPO) met een verfijnd multi-component beloningssysteem dat nauwkeurigheid, formatnaleving en redeneerkwaliteit verbetert. Gazal-R1 behaalt uitzonderlijke prestaties op medische benchmarks, met scores van 87,1% op MedQA, 81,6% op MMLU Pro (Medical) en 79,6% op PubMedQA, en overtreft daarmee modellen tot 12x groter. Naast de sterke empirische resultaten biedt dit werk gedetailleerde inzichten in de uitdagingen van het trainen van redeneervaardige modellen in gespecialiseerde domeinen, waaronder problemen met reward hacking, trainingsinstabiliteit en de fundamentele spanning tussen feitelijke herinnering en gedetailleerd redeneren. Onze methodologie biedt een reproduceerbaar raamwerk voor het ontwikkelen van hoogwaardige, domeinspecifieke taalmodellen die prestaties, efficiëntie en uitlegbaarheid in balans brengen.
In veel sectoren is het voorspellen van metrische uitkomsten van grote systemen een fundamenteel probleem, dat voornamelijk wordt aangepakt met traditionele tabulaire regressie. Dergelijke methoden hebben echter moeite met complexe systeemgegevens in de praktijk, zoals configuratiebestanden of systeemlogboeken, waar feature engineering vaak onuitvoerbaar is. Wij stellen tekst-naar-tekst regressie voor als een algemeen, schaalbaar alternatief. Voor het voorspellen van resource-efficiëntie op Borg, het enorme compute-cluster schedulingsysteem van Google, bereikt een encoder-decoder model met 60M parameters, getraind vanaf een willekeurige initialisatie, een bijna perfecte rankcorrelatie van 0.99 (gemiddeld 0.9) over de hele vloot, en een 100x lagere MSE dan tabulaire benaderingen. Het model past zich ook gemakkelijk aan aan nieuwe taken met slechts 500 few-shot voorbeelden en vangt de dichtheden van complexe uitkomstdistributies. Ablatiestudies benadrukken het belang van het gebruik van encoders, het vergroten van de sequentielengte, en de inherente onzekerheidskwantificering van het model. Deze bevindingen banen de weg voor universele simulatoren van uitkomsten in de echte wereld.
De zoektocht naar efficiënte en controleerbare generatie van hoogwaardige inhoud blijft een centrale uitdaging in kunstmatige intelligentie-gegenereerde inhoud (AIGC). Hoewel éénstapsgeneratoren, mogelijk gemaakt door diffusiedistillatietechnieken, uitstekende generatiekwaliteit en computationele efficiëntie bieden, vormt het aanpassen ervan aan nieuwe controlecondities—zoals structurele beperkingen, semantische richtlijnen of externe inputs—een aanzienlijke uitdaging. Traditionele benaderingen vereisen vaak computationeel dure aanpassingen aan het basismodel en daaropvolgende diffusiedistillatie. Dit artikel introduceert Noise Consistency Training (NCT), een nieuwe en lichtgewicht benadering om nieuwe controlesignalen direct te integreren in vooraf getrainde éénstapsgeneratoren zonder toegang tot originele trainingsafbeeldingen of het opnieuw trainen van het basisdiffusiemodel. NCT werkt door een adaptermodule te introduceren en een ruisconsistentieverlies te gebruiken in de ruisruimte van de generator. Dit verlies stemt het generatiegedrag van het aangepaste model af over ruis die in verschillende mate conditioneel afhankelijk is, waardoor het impliciet wordt gestuurd om zich aan de nieuwe controle te houden. Theoretisch kan dit trainingsdoel worden begrepen als het minimaliseren van de distributieafstand tussen de aangepaste generator en de conditionele distributie die wordt geïnduceerd door de nieuwe condities. NCT is modulair, data-efficiënt en eenvoudig inzetbaar, en vertrouwt alleen op de vooraf getrainde éénstapsgenerator en een controlesignaalmodel. Uitgebreide experimenten tonen aan dat NCT state-of-the-art controleerbare generatie bereikt in een enkele voorwaartse pass, en bestaande meerstaps- en distillatiegebaseerde methoden overtreft in zowel generatiekwaliteit als computationele efficiëntie. Code is beschikbaar op https://github.com/Luo-Yihong/NCT.
We introduceren Confucius3-Math, een open-source groot taalmodel met 14B parameters dat (1) efficiënt draait op een enkele consumenten-GPU; (2) state-of-the-art prestaties behaalt op een reeks wiskundige redeneertaken, waarbij het veel modellen met aanzienlijk grotere omvang overtreft. Als onderdeel van onze missie om onderwijs en kennisverspreiding met AI te verbeteren, is Confucius3-Math specifiek gericht op wiskundeonderwijs voor Chinese K-12 studenten en docenten. Gebouwd via post-training met grootschalige reinforcement learning (RL), sluit Confucius3-Math aan bij het nationale curriculum en blinkt uit in het oplossen van gangbare Chinese K-12 wiskundige problemen tegen lage kosten. In dit rapport delen we ons ontwikkelingsrecept, de uitdagingen die we tegenkomen en de technieken die we ontwikkelen om deze te overwinnen. In het bijzonder introduceren we drie technische innovaties: Gerichte Entropie Regularisatie, Recente Sample Herstel en Beleidsspecifieke Moeilijkheidsweging. Deze innovaties omvatten een nieuwe entropie regularisatie, een nieuw dataschedulingbeleid en een verbeterde groep-relatieve voordeelschatter. Gezamenlijk stabiliseren ze de RL-training aanzienlijk, verbeteren ze de data-efficiëntie en verhogen ze de prestaties. Ons werk toont de haalbaarheid aan van het bouwen van sterke redeneermodellen in een specifiek domein tegen lage kosten. We maken ons model en code openbaar op https://github.com/netease-youdao/Confucius3-Math.
De opkomst van beeldvormingstechnieken zoals optische coherentietomografie (OCT) en de vooruitgang in deep learning (DL) hebben clinici en onderzoekers in staat gesteld om het stadium van netvliesaandoeningen efficiënter te bepalen. Een populaire DL-benadering is zelfgesuperviseerd leren (SSL), waarbij modellen leren van grote hoeveelheden ongelabelde data, waardoor kostbare annotaties worden vermeden. SSL heeft de ontwikkeling van foundationmodellen (FMs) mogelijk gemaakt, grote modellen die voor verschillende downstreamtaken kunnen worden gebruikt. Bestaande FMs voor OCT, die uitsluitend op beelddata zijn getraind, missen echter een uitgebreid en robuust semantisch begrip van beelden, wat blijkt uit hun prestaties bij downstreamtaken (met name voor complexe taken), en vereisen daarom gesuperviseerde fine-tuning (wat mogelijk niet haalbaar is) om zich beter aan te passen aan specifieke toepassingen en populaties. Om dit aan te pakken, stellen we RetFiner voor, een SSL vision-language verfijningsschema dat de representaties van bestaande FMs verbetert en hun efficiënte en directe aanpassing aan specifieke populaties mogelijk maakt voor betere downstreamprestaties. Onze methode maakt gebruik van een diverse set trainingsdoelen die gebruikmaken van het rijke supervisiesignaal in tekstuele data. We hebben RetFiner getest op de retinale FMs RETFound, UrFound en VisionFM, waarbij significante verbeteringen werden aangetoond in de lineaire probingprestaties op zeven zeer diverse OCT-classificatietaken, met een gemiddelde stijging van respectievelijk 5,8, 3,9 en 2,1 procentpunt ten opzichte van hun baselines. Onze code en modelgewichten zijn openbaar beschikbaar op https://github.com/ronnief1/RetFiner.
Moderne Large Language Models, zoals de LLaMA, Qwen en DeepSeek series, adopteren voornamelijk de Pre-LayerNorm (Pre-LN) Transformer-architectuur. Hoewel deze architectuur stabiel is tijdens het vooraf trainen en schaalbaar is naar grote modelgroottes, heeft Pre-LN last van een exponentiële groei in activatievariantie over de lagen heen, waardoor het residupad de overhand krijgt boven de uitvoer van sublagen en het leervermogen van diepere lagen beperkt. Om dit probleem te verlichten, stellen wij Gradient-Preserving Activation Scaling (GPAS) voor, een eenvoudige techniek die kan worden gecombineerd met bestaande benaderingen. GPAS werkt door de tussenliggende activaties te verkleinen terwijl hun gradiënten ongewijzigd blijven. Hierdoor blijft de informatie in de activaties intact en wordt het gradiëntverdwijningsprobleem geassocieerd met gradiëntverkleining vermeden. Uitgebreide experimenten met verschillende modelgroottes van 71M tot 1B tonen aan dat GPAS consistente prestatieverbeteringen bereikt. Naast het verbeteren van Pre-LN Transformers, toont GPAS ook potentie in het verbeteren van alternatieve architecturen zoals Sandwich-LN en DeepNorm, wat zijn veelzijdigheid en potentieel aantoont voor het verbeteren van trainingsdynamieken in een breed scala aan instellingen.
Test-time compute is naar voren gekomen als een krachtig paradigma om de prestaties van grote taalmodellen (LLMs) te verbeteren, waarbij het genereren van meerdere uitvoer of het verfijnen van individuele redeneerketens de nauwkeurigheid van antwoorden aanzienlijk kan verhogen. Bestaande methoden zoals Best-of-N, meerderheidsstemming en zelfreflectie passen echter meestal redenering uniform toe over verschillende invoer, zonder rekening te houden met het feit dat verschillende problemen verschillende niveaus van redeneerdiepte kunnen vereisen. In dit werk stellen we Fractional Reasoning voor, een trainingsvrij en model-agnostisch raamwerk dat continue controle over de intensiteit van redenering mogelijk maakt tijdens inferentie, voorbij de beperkingen van vaste instructieprompts. Onze methode werkt door de latente stuurvector die geassocieerd is met diepere redenering te extraheren en deze opnieuw toe te passen met een instelbare schaalfactor, waardoor het model zijn redeneerproces kan afstemmen op de complexiteit van elke invoer. Dit ondersteunt twee belangrijke modi van test-time schaling: (1) het verbeteren van de uitvoerkwaliteit in breedte-gebaseerde strategieën (bijv. Best-of-N, meerderheidsstemming), en (2) het vergroten van de correctheid van individuele redeneerketens in diepte-gebaseerde strategieën (bijv. zelfreflectie). Experimenten op GSM8K, MATH500 en GPQA tonen aan dat Fractional Reasoning consistent betere prestaties levert over diverse redeneertaken en modellen.
Het leren van de hiërarchische structuur van gegevens in visie-taalmodellen is een aanzienlijke uitdaging. Eerdere werken hebben geprobeerd deze uitdaging aan te pakken door middel van entailment learning. Deze benaderingen slagen er echter niet in om de transitieve aard van entailment expliciet te modelleren, wat de relatie tussen volgorde en semantiek binnen een representatieruimte vaststelt. In dit werk introduceren we Radial Cross-Modal Embeddings (RCME), een raamwerk dat het expliciete modelleren van transitief afgedwongen entailment mogelijk maakt. Ons voorgestelde raamwerk optimaliseert voor de partiële ordening van concepten binnen visie-taalmodellen. Door gebruik te maken van ons raamwerk ontwikkelen we een hiërarchisch visie-taal basis model dat in staat is de hiërarchie in de Tree of Life te representeren. Onze experimenten op het gebied van hiërarchische soortclassificatie en hiërarchische retrievetaak demonstreren de verbeterde prestaties van onze modellen in vergelijking met de bestaande state-of-the-art modellen. Onze code en modellen zijn open-source beschikbaar op https://vishu26.github.io/RCME/index.html.
We introduceren TAPAS (Task-based Adaptation and Planning using AgentS), een multi-agent framework dat Large Language Models (LLM's) integreert met symbolische planning om complexe taken op te lossen zonder handmatig gedefinieerde omgevingsmodellen. TAPAS maakt gebruik van gespecialiseerde LLM-gebaseerde agents die gezamenlijk domeinmodellen, initiële staten en doel specificaties genereren en aanpassen waar nodig, met behulp van gestructureerde tool-aanroepmechanismen. Via deze tool-gebaseerde interactie kunnen downstream agents aanpassingen aanvragen bij upstream agents, waardoor aanpassing aan nieuwe attributen en beperkingen mogelijk is zonder handmatige herdefinitie van het domein. Een ReAct (Reason+Act)-stijl uitvoeringsagent, gekoppeld aan natuurlijke taalplanvertaling, overbrugt de kloof tussen dynamisch gegenereerde plannen en de mogelijkheden van robots in de echte wereld. TAPAS toont sterke prestaties in benchmark planningsdomeinen en in de VirtualHome gesimuleerde real-world omgeving.