Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren een full-stack framework dat redeneren in vision-language modellen (VLMs) opschaalt naar lange video's, waarbij gebruik wordt gemaakt van reinforcement learning. We gaan de unieke uitdagingen van redeneren over lange video's aan door drie kritische componenten te integreren: (1) een grootschalige dataset, LongVideo-Reason, bestaande uit 52K lange video QA-paren met hoogwaardige redeneerannotaties in diverse domeinen zoals sport, games en vlogs; (2) een tweefasig trainingspijplijn die VLMs uitbreidt met chain-of-thought supervised fine-tuning (CoT-SFT) en reinforcement learning (RL); en (3) een trainingsinfrastructuur voor RL op lange video's, genaamd Multi-modal Reinforcement Sequence Parallelism (MR-SP), die sequence parallelism en een op vLLM gebaseerde engine combineert die is afgestemd op lange video's, met gebruik van gecachte video-embeddings voor efficiënte rollout en prefilling. In experimenten behaalt LongVILA-R1-7B sterke prestaties op benchmarks voor lange video QA, zoals VideoMME. Het overtreft ook Video-R1-7B en evenaart zelfs Gemini-1.5-Pro op het gebied van temporeel redeneren, doel- en doeleindenredeneren, ruimtelijk redeneren en plotredeneren op onze LongVideo-Reason-eval benchmark. Opmerkelijk is dat ons MR-SP-systeem een versnelling tot 2,1x bereikt bij RL-training op lange video's. LongVILA-R1 toont consistente prestatieverbeteringen naarmate het aantal invoervideoframes toeneemt. LongVILA-R1 markeert een stevige stap in de richting van redeneren over lange video's in VLMs. Daarnaast maken we ons trainingssysteem publiekelijk beschikbaar, dat RL-training ondersteunt op verschillende modaliteiten (video, tekst en audio), verschillende modellen (VILA en Qwen series), en zelfs beeld- en videogeneratiemodellen. Op een enkele A100-node (8 GPU's) ondersteunt het RL-training op video's van een uur lang (bijvoorbeeld 3.600 frames / ongeveer 256k tokens).
Hoewel fine-tuning van diffusiemodellen een krachtige aanpak biedt om vooraf getrainde modellen aan te passen voor het genereren van specifieke objecten, leidt het vaak tot overfitting wanneer trainingsgegevens beperkt zijn, wat zowel de generalisatiecapaciteit als de outputdiversiteit aantast. Dit artikel richt zich op de uitdagende maar meest impactvolle taak van het aanpassen van een diffusiemodel met slechts één conceptafbeelding, aangezien aanpassing met één afbeelding het grootste praktische potentieel heeft. We introduceren T-LoRA, een Timestep-Dependent Low-Rank Adaptation-framework dat specifiek is ontworpen voor personalisatie van diffusiemodellen. In ons werk tonen we aan dat hogere diffusietimestappen gevoeliger zijn voor overfitting dan lagere, wat een timestapgevoelige fine-tuningstrategie vereist. T-LoRA omvat twee belangrijke innovaties: (1) een dynamische fine-tuningstrategie die rank-beperkte updates aanpast op basis van diffusietimestappen, en (2) een gewichtsparametrisatietechniek die onafhankelijkheid tussen adaptercomponenten garandeert door orthogonale initialisatie. Uitgebreide experimenten tonen aan dat T-LoRA en zijn individuele componenten standaard LoRA en andere personalisatietechnieken voor diffusiemodellen overtreffen. Ze bereiken een superieure balans tussen concepttrouw en tekstuitlijning, wat het potentieel van T-LoRA benadrukt in scenario's met beperkte gegevens en middelen. Code is beschikbaar op https://github.com/ControlGenAI/T-LoRA.
Modellen zoals OpenAI-o3 pionieren visueel onderbouwd redeneren door dynamisch visuele regio's te refereren, net zoals mensen "denken met beelden". Er bestaat echter nog geen benchmark om deze capaciteiten holistisch te evalueren. Om deze kloof te overbruggen, stellen we TreeBench (Traceable Evidence Evaluation Benchmark) voor, een diagnostische benchmark gebouwd op drie principes: (1) gerichte visuele waarneming van subtiele doelen in complexe scènes, (2) traceerbaar bewijs via bounding box-evaluatie, en (3) tweedegraads redeneren om objectinteracties en ruimtelijke hiërarchieën te testen die verder gaan dan eenvoudige objectlokalisatie. Met prioriteit voor afbeeldingen met dichte objecten, nemen we aanvankelijk 1K hoogwaardige afbeeldingen uit SA-1B, en betrekken we acht LMM-experts om handmatig vragen, kandidaatopties en antwoorden voor elke afbeelding te annoteren. Na drie fasen van kwaliteitscontrole bestaat TreeBench uit 405 uitdagende visuele vraag-antwoordparen, waar zelfs de meest geavanceerde modellen moeite mee hebben, waarbij geen van hen een nauwkeurigheid van 60% bereikt, bijvoorbeeld OpenAI-o3 scoort slechts 54,87. Verder introduceren we TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), een trainingsparadigma om lokalisatie en redenering gezamenlijk te begeleiden met reinforcement learning, waardoor nauwkeurige lokalisaties en uitlegbare redeneerpaden mogelijk worden. Geïnitialiseerd vanuit Qwen2.5-VL-7B, verbetert het V* Bench (+16,8), MME-RealWorld (+12,6), en TreeBench (+13,4), wat aantoont dat traceerbaarheid essentieel is voor het bevorderen van visueel onderbouwd redeneren. De code is beschikbaar op https://github.com/Haochen-Wang409/TreeVGR.
Video large language models (LLM's) bereiken een sterk begrip van video's door gebruik te maken van een groot aantal spatio-temporele tokens, maar lijden onder een kwadratische schaalbaarheid van de rekentijd ten opzichte van het aantal tokens. Om dit aan te pakken, stellen we een trainingsvrije methode voor het samenvoegen van spatio-temporele tokens voor, genaamd STTM. Onze belangrijkste inzicht is om gebruik te maken van lokale ruimtelijke en temporele redundantie in videogegevens, wat in eerder werk over het hoofd is gezien. STTM transformeert eerst elk frame in multi-granulaire ruimtelijke tokens door middel van een grof-naar-fijn zoektocht over een quadtree-structuur, en voert vervolgens gerichte paarsgewijze samenvoeging uit over de temporele dimensie. Deze ontbonden samenvoegingsaanpak overtreft bestaande methoden voor tokenreductie over zes video QA-benchmarks. Opmerkelijk is dat STTM een 2x versnelling bereikt met slechts een nauwkeurigheidsdaling van 0,5% onder een tokenbudget van 50%, en een 3x versnelling met slechts een daling van 2% onder een budget van 30%. Bovendien is STTM query-agnostisch, wat hergebruik van de KV-cache over verschillende vragen voor dezelfde video mogelijk maakt. De projectpagina is beschikbaar op https://www.jshyun.me/projects/sttm.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben opmerkelijke capaciteiten getoond in het integreren van visie en taal voor complexe redenering. Terwijl de meeste bestaande benchmarks modellen evalueren onder offline omstandigheden met een vaste set van vooraf opgenomen invoer, introduceren wij OST-Bench, een benchmark ontworpen om Online Spatio-Temporeel begrip te evalueren vanuit het perspectief van een agent die actief een scène verkent. Het Online aspect benadrukt de noodzaak om incrementeel verkregen observaties te verwerken en erover te redeneren, terwijl de Spatio-Temporele component vereist dat huidige visuele invoer wordt geïntegreerd met historisch geheugen om dynamische ruimtelijke redenering te ondersteunen. OST-Bench weerspiegelt beter de uitdagingen van waarneming in de echte wereld. Gebouwd op een efficiënte dataverzamelingspijplijn, bestaat OST-Bench uit 1.4k scènes en 10k vraag-antwoordparen verzameld uit ScanNet, Matterport3D en ARKitScenes. We evalueren verschillende toonaangevende MLLMs op OST-Bench en observeren dat ze tekortschieten bij taken die complexe spatio-temporele redenering vereisen. Onder de online omstandigheden neemt hun nauwkeurigheid af naarmate de verkenningstijd toeneemt en het geheugen groeit. Door verdere experimentele analyse identificeren we veelvoorkomende foutpatronen over modellen heen en vinden we dat zowel complexe aanwijzing-gebaseerde ruimtelijke redeneringseisen als langetermijngeheugenophaaleisen de modelprestaties aanzienlijk verminderen langs twee afzonderlijke assen, wat de kernuitdagingen benadrukt die moeten worden aangepakt om online belichaamde redenering te verbeteren. Om verder onderzoek en ontwikkeling in het veld te bevorderen, zijn onze codes, dataset en benchmark beschikbaar. Onze projectpagina is: https://rbler1234.github.io/OSTBench.github.io/
In dit artikel introduceren we LangSplatV2, dat hoogdimensionale feature splatting bereikt met 476,2 FPS en 3D open-vocabulary tekstquery’s met 384,6 FPS voor hoogresolutiebeelden, wat een versnelling van 42 keer en een verbetering van 47 keer ten opzichte van LangSplat oplevert, samen met een verbeterde querynauwkeurigheid. LangSplat maakt gebruik van Gaussian Splatting om 2D CLIP-taalfeatures in 3D in te bedden, waardoor de snelheid aanzienlijk wordt verhoogd en een precies 3D-taalveld met SAM-semantiek wordt geleerd. Dergelijke vooruitgangen in 3D-taalvelden zijn cruciaal voor toepassingen die taalinteractie binnen complexe scènes vereisen. LangSplat bereikt echter nog geen real-time inferentieprestaties (8,2 FPS), zelfs niet met geavanceerde A100 GPU’s, wat de bredere toepassing ervan ernstig beperkt. In dit artikel voeren we eerst een gedetailleerde tijdanalyse uit van LangSplat, waarbij we de zware decoder identificeren als de belangrijkste snelheidsbeperking. Onze oplossing, LangSplatV2, gaat ervan uit dat elke Gaussiaan fungeert als een sparse code binnen een globaal woordenboek, wat leidt tot het leren van een 3D sparse coëfficiëntenveld dat de noodzaak van een zware decoder volledig elimineert. Door deze sparsity te benutten, stellen we verder een efficiënte sparse coëfficiënten splatting-methode voor met CUDA-optimalisatie, die hoogdimensionale feature maps van hoge kwaliteit weergeeft terwijl slechts de tijdskosten van het splatten van een ultra-laagdimensionaal feature worden gemaakt. Onze experimentele resultaten tonen aan dat LangSplatV2 niet alleen een betere of vergelijkbare querynauwkeurigheid bereikt, maar ook aanzienlijk sneller is. Codes en demo’s zijn beschikbaar op onze projectpagina: https://langsplat-v2.github.io.
Kan een vooraf getraind neuraal netwerk zijn architectuur aanpassen aan verschillende invoerwaarden zonder enige finetuning? Hebben we alle lagen nodig voor eenvoudige taken, en zijn ze voldoende voor uitdagende taken? We ontdekten dat de lagen van een vooraf getraind groot taalmodel (LLM) als afzonderlijke modules kunnen worden gemanipuleerd om een beter en zelfs ondieper model te bouwen dat is aangepast aan elk testsample. In het bijzonder kan elke laag van het vooraf getrainde model worden overgeslagen/gesnoeid of meerdere keren worden herhaald als recurrent neural networks (RNN), en in willekeurige volgorden worden gestapeld met andere lagen, wat resulteert in een keten-van-lagen (CoLa) per sample. Deze compositorische ruimte breidt de reikwijdte van bestaande werken aan geloopte/recurrente vooraf getrainde modules, laagsnoei of early-exit netwerken aanzienlijk uit. We ontwikkelen een Monte Carlo Tree Search (MCTS)-protocol om de optimale CoLa voor elk sample te verkennen en te identificeren op basis van benchmarks voor wiskundig en gezond verstand redeneren. Vergeleken met een statisch model van een vaste diepte, biedt CoLa snelkoppelingen (snel denken), herhaling van dezelfde laag(en) (langzaam denken), en een combinatie van beide, wat meer flexibele, dynamische architecturen biedt voor verschillende invoerwaarden. We voeren een uitgebreide analyse uit van de MCTS-geoptimaliseerde CoLa, wat leidt tot twee belangrijke bevindingen: (1) Voor >75% van de samples met correcte voorspellingen door het originele LLM, kunnen we een kortere CoLa vinden, wat wijst op een grote ruimte voor het verbeteren van de inferentie-efficiëntie; (2) Voor >60% van de samples met oorspronkelijk incorrecte voorspellingen, kunnen we CoLa identificeren die correcte voorspellingen bereiken, wat wijst op een grote ruimte voor prestatieverbetering. Onze resultaten benadrukken de tekortkomingen van het gebruik van een vaste architectuur van vooraf getrainde LLM's voor inferentie op verschillende samples en banen de weg om de generalisatiekracht van diepte-aanpassing tijdens testtijd te ontsluiten.
Video's vertegenwoordigen inherent 2D-projecties van een dynamische 3D-wereld. Onze analyse suggereert echter dat videodiffusiemodellen die uitsluitend zijn getraind op ruwe videogegevens vaak geen betekenisvolle geometrisch bewuste structuur in hun geleerde representaties vastleggen. Om deze kloof tussen videodiffusiemodellen en de onderliggende 3D-natuur van de fysieke wereld te overbruggen, stellen we Geometry Forcing voor, een eenvoudige maar effectieve methode die videodiffusiemodellen aanmoedigt om latente 3D-representaties te internaliseren. Onze belangrijkste inzicht is om de tussenliggende representaties van het model te sturen naar een geometrisch bewuste structuur door ze af te stemmen op kenmerken van een voorgetraind geometrisch basis model. Hiertoe introduceren we twee complementaire afstemmingsdoelen: Hoekafstemming, die richtingsconsistentie afdwingt via cosinusgelijkenis, en Schaalafstemming, die schaalgerelateerde informatie behoudt door niet-genormaliseerde geometrische kenmerken te regresseren vanuit genormaliseerde diffusie-representatie. We evalueren Geometry Forcing op zowel camerabeeld-geconditioneerde als actie-geconditioneerde videogeneratietaken. Experimentele resultaten tonen aan dat onze methode de visuele kwaliteit en 3D-consistentie aanzienlijk verbetert ten opzichte van de baseline-methoden. Projectpagina: https://GeometryForcing.github.io.
LLM's worden steeds vaker ingezet als agents, systemen die in staat zijn tot plannen, redeneren en het dynamisch aanroepen van externe tools. Echter, in visueel redeneren blijven eerdere benaderingen grotendeels beperkt door vooraf gedefinieerde workflows en statische toolsets. In dit rapport presenteren we PyVision, een interactief, multi-turn framework dat MLLM's in staat stelt om autonoom Python-gebaseerde tools te genereren, uit te voeren en te verfijnen die zijn afgestemd op de taak waarvoor ze worden gebruikt, waardoor flexibel en interpreteerbaar probleemoplossen mogelijk wordt. We ontwikkelen een taxonomie van de tools die door PyVision worden gecreëerd en analyseren hun gebruik over een diverse set benchmarks. Kwantitatief behaalt PyVision consistente prestatieverbeteringen, met een stijging van +7,8% voor GPT-4.1 op V* en +31,1% voor Claude-4.0-Sonnet op VLMsAreBlind-mini. Deze resultaten wijzen op een bredere verschuiving: dynamische tooling stelt modellen niet alleen in staat om tools te gebruiken, maar ook om ze uit te vinden, wat leidt tot meer agentisch visueel redeneren.
Ondanks de ongelooflijke vooruitgang in taalmodelen (LMs) in recente jaren, grotendeels het gevolg van de overstap van gespecialiseerde modellen die voor specifieke taken zijn ontworpen naar algemene modellen gebaseerd op krachtige architecturen (bijv. de Transformer) die alles leren uit ruwe data, blijven voorbewerkingsstappen zoals tokenisatie een barrière voor echte end-to-end foundation modellen. We introduceren een verzameling nieuwe technieken die een dynamisch chunking-mechanisme mogelijk maken, dat automatisch inhouds- en contextafhankelijke segmentatiestrategieën leert, gezamenlijk met de rest van het model. Door dit te integreren in een expliciet hiërarchisch netwerk (H-Net) kan de (impliciet hiërarchische) tokenisatie-LM-detokenisatie-pijplijn worden vervangen door een enkel model dat volledig end-to-end wordt geleerd. Wanneer rekencapaciteit en data worden afgestemd, presteert een H-Net met één hiërarchiestap op byte-niveau beter dan een sterk Transformer-taalmodel dat werkt met BPE-tokens. Het herhalen van de hiërarchie naar meerdere stappen verhoogt de prestaties verder door meerdere abstractieniveaus te modelleren, wat een aanzienlijk betere schaalbaarheid met data aantoont en een token-gebaseerde Transformer van tweemaal zijn grootte evenaart. H-Nets die vooraf zijn getraind op Engels tonen een aanzienlijk verhoogde robuustheid op karakterniveau, en leren kwalitatief zinvolle data-afhankelijke chunking-strategieën zonder heuristieken of expliciete supervisie. Ten slotte wordt de verbetering van het H-Net ten opzichte van getokeniseerde pijplijnen verder vergroot in talen en modaliteiten met zwakkere tokenisatieheuristieken, zoals Chinees en code, of DNA-sequenties (bijna 4x verbetering in data-efficiëntie ten opzichte van baselines), wat het potentieel toont van echte end-to-end modellen die beter leren en schalen vanuit onbewerkte data.
Ondanks de aanzienlijke vooruitgang die is geboekt in videogeneratieve modellen, kunnen bestaande state-of-the-art methoden alleen video's produceren die 5-16 seconden duren, vaak aangeduid als "lange-video's". Bovendien hebben video's die langer dan 16 seconden duren moeite om consistente karakterverschijningen en scène-indelingen gedurende het verhaal te behouden. In het bijzonder slagen multi-subject lange video's er nog steeds niet in om karakterconsistentie en bewegingscoherentie te behouden. Hoewel sommige methoden video's van maximaal 150 seconden kunnen genereren, lijden deze vaak aan frame-redundantie en lage temporele diversiteit. Recent werk heeft geprobeerd lange-video's te produceren met meerdere karakters, narratieve coherentie en hoogwaardige details. We hebben 32 papers over videogeneratie grondig bestudeerd om belangrijke architectonische componenten en trainingsstrategieën te identificeren die consistent deze kwaliteiten opleveren. We construeren ook een uitgebreide nieuwe taxonomie van bestaande methoden en presenteren vergelijkende tabellen die papers categoriseren op basis van hun architectonische ontwerpen en prestatiekenmerken.
Het afleiden van compacte en temporeel bewuste visuele representaties uit dynamische scènes is essentieel voor het succesvol uitvoeren van sequentiële scènebegriptaken, zoals visueel volgen en robotmanipulatie. In dit artikel introduceren we Token Bottleneck (ToBo), een eenvoudig maar intuïtief zelfsuperviserend leerproces dat een scène samendrukt tot een bottleneck-token en de daaropvolgende scène voorspelt met behulp van minimale patches als hints. Het ToBo-proces vergemakkelijkt het leren van sequentiële scènerrepresentaties door de referentiescène conservatief te coderen in een compact bottleneck-token tijdens de compressiestap. In de expansiestap leiden we het model om temporele dynamiek vast te leggen door de doelscène te voorspellen met behulp van het bottleneck-token samen met enkele doelpatches als hints. Dit ontwerp moedigt het visuele backbone-netwerk aan om temporele afhankelijkheden in te bedden, waardoor het begrip van dynamische overgangen tussen scènes wordt mogelijk gemaakt. Uitgebreide experimenten in diverse sequentiële taken, waaronder videolabelpropagatie en robotmanipulatie in gesimuleerde omgevingen, tonen de superioriteit van ToBo ten opzichte van baseline-methoden. Bovendien bevestigt de implementatie van ons vooraf getrainde model op fysieke robots de robuustheid en effectiviteit ervan in real-world omgevingen. We valideren verder de schaalbaarheid van ToBo over verschillende modelschalen.
Bullshit, zoals geconceptualiseerd door filosoof Harry Frankfurt, verwijst naar uitspraken die worden gedaan zonder rekening te houden met hun waarheidsgehalte. Terwijl eerder onderzoek zich heeft gericht op hallucinatie en slaafs gedrag van grote taalmodellen (LLM's), stellen wij machine bullshit voor als een overkoepelend conceptueel raamwerk waarmee onderzoekers het bredere fenomeen van emergent verlies van waarachtigheid in LLM's kunnen karakteriseren en inzicht kunnen krijgen in de onderliggende mechanismen. We introduceren de Bullshit Index, een nieuwe metriek die de onverschilligheid van LLM's ten opzichte van de waarheid kwantificeert, en stellen een complementaire taxonomie voor die vier kwalitatieve vormen van bullshit analyseert: holle retoriek, misleidende informatie, wezelwoorden en onverifieerbare claims. We voeren empirische evaluaties uit op de Marketplace-dataset, de Political Neutrality-dataset en onze nieuwe BullshitEval-benchmark (2.400 scenario's verspreid over 100 AI-assistenten), die expliciet is ontworpen om machine bullshit te evalueren. Onze resultaten tonen aan dat model fine-tuning met reinforcement learning from human feedback (RLHF) bullshit aanzienlijk verergert en dat inference-time chain-of-thought (CoT) prompting specifieke vormen van bullshit, met name holle retoriek en misleidende informatie, opvallend versterkt. We observeren ook veelvoorkomende machine bullshit in politieke contexten, waarbij wezelwoorden de dominante strategie zijn. Onze bevindingen benadrukken systematische uitdagingen in AI-alignment en bieden nieuwe inzichten voor waarachtiger gedrag van LLM's.
De meeste state-of-the-art Visueel-Taalmodellen (VLMs) lijken beperkt te worden door de lineaire scheidbaarheid van hun visuele embeddings bij abstracte redeneertaken. Dit onderzoek verkent dit "lineaire redeneerknelpunt" door het introduceren van het Lineaire Scheidbaarheidsplafond (LSC), de prestaties van een eenvoudige lineaire classifier op de visuele embeddings van een VLM. We ontdekken dat dit knelpunt wijdverspreid is en niet voortkomt uit slechte perceptie, maar uit tekortkomingen in de redeneerpaden van het taalmodel. We tonen aan dat dit een oplosbaar aligneringsprobleem is. De benodigde interventie is echter taakafhankelijk: het activeren van bestaande paden volstaat voor semantische concepten, terwijl complex relationeel redeneren aanpassing van de kernmodelgewichten vereist. Door postfix-tuning als methodologische controle te gebruiken, vinden we sterke aanwijzingen voor krachtige, sluimerende redeneerpaden binnen VLMs. Voor complexe relationele taken die diepere aanpassing vereisen, leidt het expliciet verbeteren van de representatiekwaliteit echter tot falen van het model bij nieuwe promptformaten, ondanks dat de embeddings goed gescheiden blijven. Uiteindelijk biedt dit werk een nieuwe lens voor VLM-analyse, waaruit blijkt dat robuust redeneren een kwestie is van gerichte alignering, niet simpelweg van verbeterd representatieleren.
De snelle vooruitgang van AI-agenten heeft de lang gekoesterde ambitie aangewakkerd om ze in te zetten om wetenschappelijke ontdekkingen te versnellen. Het bereiken van dit doel vereist een diepgaand begrip van de grenzen van de menselijke kennis. Daarom biedt 'Humanity's Last Exam' (HLE) een uitzonderlijk uitdagend ijkpunt voor het evalueren van wetenschappelijke AI-agenten. In dit werk streven we ernaar de fundamentele architectuur voor algemene AI-agenten te construeren en de capaciteiten te valideren door toonaangevende prestaties op HLE. Om dit te bereiken, introduceren we X-Master, een tool-augmented redeneeragent die is ontworpen om menselijke onderzoekers na te bootsen door flexibel te interageren met externe tools tijdens het redeneerproces. Deze agent, geleid door de conceptualisering van code als een interactietaal, kan flexibel gebruikmaken van ingebouwde Python-bibliotheken en onze aangepaste tools om het redeneren te versterken. We schalen de capaciteiten verder op via X-Masters, een verspreide en gestapelde agentworkflow die systematisch de breedte en diepte van het redeneren verbetert. Onze open-source oplossing, X-Masters, vestigt een nieuw state-of-the-art record op HLE met een score van 32,1%, waarmee het OpenAI's en Google's Deep Research (26,6% en 26,9%) overtreft en als eerste de 30%-drempel overschrijdt. Dit werk stelt ons in staat een dieper inzicht te krijgen in het oplossen van complexe taken en verzamelt waardevolle ervaring die toekomstige vooruitgang kan informeren, waardoor het de training van volgende modellen kan begeleiden.
Het heersende paradigma voor het schalen van grote taalmodellen (LLM's) omvat monolithische, end-to-end training, een resource-intensief proces dat weinig flexibiliteit biedt. Dit artikel onderzoekt een alternatieve, constructieve benadering voor modelontwikkeling, gebaseerd op niet-trainbare, deterministische invoer-embeddings. In eerder werk [1] hebben we aangetoond dat hoogwaardige semantische redenering kan ontstaan in Transformers met behulp van bevroren embeddings afgeleid van de visuele structuur van Unicode-glyphs. Hier demonstreren we dat dit vaste representatiesubstraat fungeert als een universele "aansluitpoort," waardoor twee krachtige en efficiënte schaalparadigma's mogelijk worden: naadloze modulaire compositie en progressieve laaggewijze groei. Ten eerste tonen we aan dat specialistische modellen die zijn getraind op verschillende datasets (bijvoorbeeld Russische en Chinese tekst) na de training kunnen worden samengevoegd tot één, krachtiger Mixture-of-Experts (MoE)-model, zonder architectonische aanpassingen. Dit wordt bereikt door simpelweg hun uitvoerlogits te middelen. Het resulterende MoE-model vertoont directe prestatieverbeteringen op redeneerbenchmarks zoals MMLU, waarbij het zijn samenstellende experts overtreft zonder catastrofale vergetelheid. Ten tweede introduceren we een laaggewijze constructieve trainingsmethodologie, waarbij een diepe Transformer wordt "gegroeid" door progressief één laag per keer te stapelen en te trainen. Deze methode toont stabiele convergentie en een duidelijke correlatie tussen modeldiepte en het ontstaan van complexe redeneervaardigheden, zoals vereist voor SQuAD. Onze bevindingen suggereren een paradigmaverschuiving van monolithische optimalisatie naar een meer biologische of constructieve benadering van AI-ontwikkeling, waarbij complexiteit incrementeel wordt opgebouwd en modules vrij kunnen worden samengesteld. Dit opent nieuwe mogelijkheden voor resource-efficiënt schalen, continu leren en een meer gedemocratiseerd ecosysteem voor het bouwen van krachtige AI-systemen. We maken alle code en modellen beschikbaar om verder onderzoek te faciliteren.
Het begrijpen van de locatie van semantische representatie in grote taalmodellen (LLMs) is cruciaal voor interpreteerbaarheid en architectonische innovatie. Het dominante paradigma stelt dat trainbare invoer-embeddings fungeren als fundamentele "betekenisvectoren." Dit artikel daagt die visie uit. We construeren Transformer-modellen waarbij de embeddinglaag volledig bevroren is, met vectoren die niet afgeleid zijn van data, maar van de visuele structuur van Unicode-glyphs. Deze niet-semantische, vooraf berekende visuele embeddings blijven gedurende de training vast. Onze methode is compatibel met elke tokenizer, inclusief een nieuwe Unicode-gerichte tokenizer die we introduceren om universele tekstdekking te garanderen. Ondanks het ontbreken van trainbare, semantisch geïnitialiseerde embeddings, convergeren onze modellen, genereren ze coherente tekst en presteren ze, cruciaal, beter dan architectonisch identieke modellen met trainbare embeddings op de MMLU-redeneerbenchmark. We schrijven dit toe aan "representatie-interferentie" in conventionele modellen, waarbij de embeddinglaag belast wordt met het leren van zowel structurele als semantische kenmerken. Onze resultaten geven aan dat hoogwaardige semantiek niet inherent is aan invoer-embeddings, maar een emergent eigenschap zijn van de compositionele architectuur en dataschaal van de Transformer. Dit herdefinieert de rol van embeddings van betekeniscontainers naar structurele primitieven. We geven alle code en modellen vrij om verder onderzoek te bevorderen.
Neurale audiocodecs en auto-encoders zijn naar voren gekomen als veelzijdige modellen voor audiocompressie, transmissie, feature-extractie en latent-ruimtegeneratie. Een belangrijke beperking is echter dat de meeste zijn getraind om de reconstructiekwaliteit te maximaliseren, waarbij vaak de specifieke latentestructuur die nodig is voor optimale prestaties in diverse downstream-toepassingen wordt verwaarloosd. Wij stellen een eenvoudig, achteraf toegepast raamwerk voor om dit aan te pakken door de bottleneck van een vooraf getrainde auto-encoder aan te passen. Onze methode introduceert een "Re-Bottleneck", een interne bottleneck die uitsluitend wordt getraind via latent-ruimteverliezen om een door de gebruiker gedefinieerde structuur te creëren. We demonstreren de effectiviteit van het raamwerk in drie experimenten. Ten eerste leggen we een ordening op aan latentekanalen zonder de reconstructiekwaliteit op te offeren. Ten tweede aligneren we latenties met semantische embeddings, waarbij we de impact op downstream diffusiemodellering analyseren. Ten derde introduceren we equivariantie, waardoor een filteroperatie op het invoergolfvorm direct overeenkomt met een specifieke transformatie in de latentruimte. Uiteindelijk biedt ons Re-Bottleneck-raamwerk een flexibele en efficiënte manier om representaties van neurale audiomodellen aan te passen, waardoor ze naadloos kunnen voldoen aan de uiteenlopende eisen van verschillende toepassingen met minimale aanvullende training.