Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in tekst-naar-beeld (T2I) generatie heeft indrukwekkende resultaten geboekt, maar bestaande modellen worstelen nog steeds met prompts die rijke wereldkennis en impliciete redenering vereisen: beide zijn cruciaal voor het produceren van semantisch accurate, coherente en contextueel passende beelden in realistische scenario's. Om deze kloof te overbruggen, introduceren we WorldGenBench, een benchmark ontworpen om T2I-modellen systematisch te evalueren op hun wereldkennis en impliciete inferentiemogelijkheden, waarbij zowel de geesteswetenschappen als de natuurwetenschappen worden bestreken. We stellen de Knowledge Checklist Score voor, een gestructureerde metriek die meet in hoeverre gegenereerde beelden aan belangrijke semantische verwachtingen voldoen. Experimenten met 21 state-of-the-art modellen tonen aan dat, hoewel diffusiemodellen de leiding hebben onder open-source methoden, propriëtaire autoregressieve modellen zoals GPT-4o aanzienlijk sterkere redeneer- en kennisintegratiecapaciteiten vertonen. Onze bevindingen benadrukken de noodzaak van dieper begrip en inferentiemogelijkheden in de volgende generatie T2I-systemen. Projectpagina: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Transformers hebben grote successen behaald in tal van NLP-taken, maar vertonen nog steeds aanzienlijke tekortkomingen in meerstaps feitelijk redeneren, vooral wanneer kennis van de echte wereld schaars is. Recente vooruitgang in grokking heeft aangetoond dat neurale netwerken kunnen overgaan van memoriseren naar perfect generaliseren zodra ze onderliggende logische patronen detecteren - maar deze studies hebben voornamelijk gebruikgemaakt van kleine, synthetische taken. In dit artikel breiden we voor het eerst grokking uit naar feitelijke gegevens uit de echte wereld en pakken we de uitdaging van datasetschaarste aan door bestaande kennisgrafieken aan te vullen met zorgvuldig ontworpen synthetische gegevens om de verhouding phi_r van afgeleide feiten tot atomische feiten boven de drempelwaarde te brengen die nodig is voor grokking. Verrassend genoeg ontdekken we dat zelfs feitelijk onjuiste synthetische gegevens de opkomende redeneercircuits kunnen versterken in plaats van de nauwkeurigheid te verminderen, omdat het model gedwongen wordt om te vertrouwen op relationele structuren in plaats van op memorisatie. Bij evaluatie op meerstaps redeneerbenchmarks behaalt onze aanpak tot 95-100% nauwkeurigheid op 2WikiMultiHopQA - een aanzienlijke verbetering ten opzichte van sterke baselines en gelijk aan of beter dan de huidige state-of-the-art resultaten. We bieden verder een diepgaande analyse van hoe het verhogen van phi_r de vorming van generaliserende circuits binnen Transformers aanstuurt. Onze bevindingen suggereren dat grokking-gebaseerde data-augmentatie impliciete meerstaps redeneercapaciteiten kan ontgrendelen, wat de deur opent naar robuuster en interpreteerbaarder feitelijk redeneren in grootschalige taalmodelen.
Een stem-AI-agent die naadloos in het dagelijks leven integreert, zou op een autonome, real-time en emotioneel expressieve manier met mensen interacteren. In plaats van slechts te reageren op commando’s, zou het continu luisteren, redeneren en proactief reageren, waardoor vloeiende, dynamische en emotioneel resonerende interacties ontstaan. Wij introduceren Voila, een familie van grote stem-taal foundation-modellen die een stap zetten in de richting van deze visie. Voila gaat verder dan traditionele pipelinesystemen door een nieuwe end-to-end architectuur te hanteren die volledig-duplex, low-latency gesprekken mogelijk maakt, terwijl rijke vocale nuances zoals toon, ritme en emotie behouden blijven. Het bereikt een reactietijd van slechts 195 milliseconden, wat de gemiddelde menselijke reactietijd overtreft. De hiërarchische multi-schaal Transformer integreert de redeneercapaciteiten van grote taalmodellen (LLM’s) met krachtige akoestische modellering, waardoor natuurlijke, persona-bewuste stemgeneratie mogelijk wordt – waarbij gebruikers eenvoudig tekstinstructies kunnen schrijven om de identiteit, toon en andere kenmerken van de spreker te definiëren. Bovendien ondersteunt Voila meer dan een miljoen vooraf gebouwde stemmen en efficiënte aanpassing van nieuwe stemmen op basis van korte audiovoorbeelden van slechts 10 seconden. Naast gesproken dialoog is Voila ontworpen als een uniform model voor een breed scala aan stemgebaseerde toepassingen, waaronder automatische spraakherkenning (ASR), tekst-naar-spraak (TTS) en, met minimale aanpassing, meertalige spraakvertaling. Voila is volledig open-source om open onderzoek te ondersteunen en de vooruitgang naar de volgende generatie mens-machine-interacties te versnellen.
Beloningsmodellering is essentieel voor het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren, met name via reinforcement learning met menselijke feedback (RLHF). Om nauwkeurige beloningssignalen te bieden, zou een beloningsmodel (RM) diep nadenken moeten stimuleren en interpreteerbare redeneringen moeten uitvoeren voordat het een score of oordeel toekent. Bestaande RM's produceren echter ofwel ondoorzichtige scalaire scores of genereren direct de voorspelling van een voorkeursantwoord, waardoor ze moeite hebben om natuurlijktaalkritieken te integreren en daardoor interpreteerbaarheid missen. Geïnspireerd door recente vooruitgang in lange ketens van gedachten (CoT) bij taken die intensief redeneren vereisen, stellen we de hypothese op en valideren we dat het integreren van redeneervaardigheden in beloningsmodellering de interpreteerbaarheid en prestaties van RM's aanzienlijk verbetert. In dit werk introduceren we een nieuwe klasse van generatieve beloningsmodellen — Redeneer Beloningsmodellen (ReasRMs) — die beloningsmodellering formuleren als een redeneertaak. We stellen een redeneergerichte trainingspijplijn voor en trainen een familie van ReasRMs, RM-R1. De training bestaat uit twee belangrijke fasen: (1) destillatie van hoogwaardige redeneerketens en (2) reinforcement learning met verifieerbare beloningen. RM-R1 verbetert LLM-rollouts door zelf redeneersporen of chatspecifieke rubrieken te genereren en kandidaatantwoorden daartegen te evalueren. Empirisch bereiken onze modellen state-of-the-art of bijna state-of-the-art prestaties van generatieve RM's op meerdere uitgebreide beloningsmodelbenchmarks, waarbij ze veel grotere open-weight modellen (bijv. Llama3.1-405B) en propriëtaire modellen (bijv. GPT-4o) met tot wel 13,8% overtreffen. Naast de uiteindelijke prestaties voeren we een grondige empirische analyse uit om de belangrijkste ingrediënten van succesvolle ReasRM-training te begrijpen. Om toekomstig onderzoek te faciliteren, geven we zes ReasRM-modellen vrij, samen met code en data op https://github.com/RM-R1-UIUC/RM-R1.
We tonen aan dat Muon, de eenvoudigste implementatie van een tweede-orde optimalisator, het Pareto-front expliciet uitbreidt ten opzichte van AdamW in de afweging tussen rekentijd en prestaties. We constateren dat Muon effectiever is dan AdamW in het behouden van data-efficiëntie bij grote batchgroottes, ver boven de zogenaamde kritische batchgrootte, terwijl het rekenkundig efficiënt blijft, wat economischer trainen mogelijk maakt. We onderzoeken de combinatie van Muon en de maximale update-parameterisatie (muP) voor efficiënte hyperparameteroverdracht en presenteren een eenvoudig telescopisch algoritme dat rekening houdt met alle bronnen van fouten in muP, terwijl het slechts een bescheiden overhead in resources introduceert. We valideren onze bevindingen door middel van uitgebreide experimenten met modelgroottes tot vier miljard parameters en ablatiestudies op de dataverdeling en architectuur.
Grote taalmodellen (LLMs) worden veelvuldig toegepast in chatbots, codegeneratoren en zoekmachines. Workloads zoals chain-of-thought, complex redeneren en agentservices verhogen de inferentiekosten aanzienlijk door het model herhaaldelijk aan te roepen. Optimalisatiemethoden zoals parallelisatie, compressie en caching zijn ingezet om de kosten te verlagen, maar de diverse servicerequirements maken het moeilijk om de juiste methode te selecteren. Recent zijn gespecialiseerde LLM-inferentie-engines opgekomen als een cruciaal onderdeel voor het integreren van de optimalisatiemethoden in servicegerichte infrastructuur. Een systematische studie naar inferentie-engines ontbreekt echter nog. Dit paper biedt een uitgebreide evaluatie van 25 open-source en commerciële inferentie-engines. We onderzoeken elke inferentie-engine op gebruiksvriendelijkheid, implementatiegemak, ondersteuning voor algemene doeleinden, schaalbaarheid en geschiktheid voor doorvoer- en latentiebewuste berekeningen. Daarnaast verkennen we de ontwerpdoelen van elke inferentie-engine door de ondersteunde optimalisatietechnieken te onderzoeken. Bovendien beoordelen we de ecosysteemrijpheid van open-source inferentie-engines en behandelen we het prestatie- en kostenbeleid van commerciële oplossingen. We schetsen toekomstige onderzoeksrichtingen, waaronder ondersteuning voor complexe LLM-gebaseerde services, ondersteuning van diverse hardware en verbeterde beveiliging, en bieden praktische richtlijnen voor onderzoekers en ontwikkelaars bij het selecteren en ontwerpen van geoptimaliseerde LLM-inferentie-engines. We bieden ook een openbare repository om ontwikkelingen in dit snel evoluerende veld continu te volgen: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in complexe redeneertaken, maar blijven fundamenteel beperkt door hun afhankelijkheid van statische interne kennis en tekstueel redeneren. Probleemoplossing in de echte wereld vereist vaak dynamisch, meerstaps redeneren, adaptieve besluitvorming en het vermogen om te interageren met externe tools en omgevingen. In dit werk introduceren we ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), een uniform raamwerk dat agentisch redeneren, reinforcement learning en toolintegratie nauw koppelt voor LLM's. ARTIST stelt modellen in staat om autonoom te beslissen wanneer, hoe en welke tools ze moeten inzetten binnen meerstaps redeneerketens, waarbij outcome-based RL wordt benut om robuuste strategieën te leren voor toolgebruik en omgevingsinteractie zonder stap-voor-stap supervisie. Uitgebreide experimenten op het gebied van wiskundig redeneren en meerstaps functieaanroepbenchmarks tonen aan dat ARTIST consistent beter presteert dan state-of-the-art baselines, met een absolute verbetering van tot 22% ten opzichte van basismodellen en sterke winsten op de meest uitdagende taken. Gedetailleerde studies en metrische analyses onthullen dat agentische RL-training leidt tot dieper redeneren, effectiever toolgebruik en hogere kwaliteit oplossingen. Onze resultaten vestigen agentische RL met toolintegratie als een krachtig nieuw front voor robuuste, interpreteerbare en generaliseerbare probleemoplossing in LLM's.
Formeel wiskundig redeneren blijft een cruciale uitdaging voor kunstmatige intelligentie, gehinderd door de beperkingen van bestaande benchmarks in omvang en schaal. Om dit aan te pakken, presenteren we FormalMATH, een grootschalige Lean4-benchmark bestaande uit 5.560 formeel geverifieerde problemen, variërend van middelbare school Olympiade-uitdagingen tot bachelor-niveau stellingen in diverse domeinen (bijv. algebra, toegepaste wiskunde, calculus, getaltheorie en discrete wiskunde). Om de inefficiëntie van handmatige formalisering te verminderen, introduceren we een innovatieve human-in-the-loop autoformalisering-pipeline die integreert: (1) gespecialiseerde grote taalmodellen (LLM's) voor het autoformaliseren van stellingen, (2) multi-LLM semantische verificatie, en (3) negatie-gebaseerde weerleggingsfilterstrategieën met behulp van kant-en-klare LLM-gebaseerde bewijzers. Deze aanpak verlaagt de kosten van expertannotatie door 72,09% van de stellingen te behouden vóór handmatige verificatie, terwijl de trouw aan de oorspronkelijke natuurlijke-taakproblemen wordt gewaarborgd. Onze evaluatie van state-of-the-art LLM-gebaseerde stellingbewijzers onthult aanzienlijke beperkingen: zelfs de sterkste modellen behalen slechts een slagingspercentage van 16,46% binnen praktische steekproefbudgetten, met een uitgesproken domeinvooroordeel (bijv. uitblinken in algebra maar falen in calculus) en een overmatige afhankelijkheid van vereenvoudigde automatiseringsstrategieën. Opmerkelijk is dat we een contra-intuïtieve omgekeerde relatie identificeren tussen natuurlijke-taakoplossingsbegeleiding en bewijssucces in keten-van-redenering-scenario's, wat suggereert dat door mensen geschreven informeel redeneren ruis introduceert in plaats van duidelijkheid in formele redeneersettings. Wij geloven dat FormalMATH een robuuste benchmark biedt voor het beoordelen van formeel wiskundig redeneren.
Multimodale Beloningsmodellen (MRMs) spelen een cruciale rol bij het verbeteren van de prestaties van Multimodale Grote Taalmodellen (MLLMs). Hoewel recente vooruitgang zich voornamelijk heeft gericht op het verbeteren van de modelstructuur en trainingsdata van MRMs, is er beperkt onderzoek gedaan naar de effectiviteit van langetermijnredeneervaardigheden voor beloningsmodellering en hoe deze vaardigheden in MRMs geactiveerd kunnen worden. In dit artikel onderzoeken we hoe Reinforcement Learning (RL) kan worden gebruikt om beloningsmodellering te verbeteren. Specifiek herformuleren we het beloningsmodelleringsprobleem als een op regels gebaseerde RL-taak. We merken echter op dat het direct toepassen van bestaande RL-algoritmen, zoals Reinforce++, op beloningsmodellering vaak leidt tot trainingsinstabiliteit of zelfs instorting vanwege de inherente beperkingen van deze algoritmen. Om dit probleem aan te pakken, stellen we het StableReinforce-algoritme voor, dat de trainingsverliesfunctie, de strategie voor het schatten van voordelen en het beloningsontwerp van bestaande RL-methoden verfijnt. Deze verfijningen resulteren in stabielere trainingsdynamiek en superieure prestaties. Om de training van MRMs te vergemakkelijken, verzamelen we 200K voorkeursdata uit diverse datasets. Ons beloningsmodel, R1-Reward, getraind met het StableReinforce-algoritme op deze dataset, verbetert de prestaties aanzienlijk op benchmarks voor multimodale beloningsmodellering. In vergelijking met eerdere SOTA-modellen behaalt R1-Reward een verbetering van 8,4% op de VL Reward-Bench en een verbetering van 14,3% op de Multimodale Beloningsbench. Bovendien wordt de prestaties van R1-Reward verder verbeterd met meer rekencapaciteit tijdens inferentie, wat het potentieel van RL-algoritmen bij het optimaliseren van MRMs benadrukt.
We introduceren ReplaceMe, een algemene trainingsvrije dieptesnoeimethode die transformerblokken effectief vervangt door een lineaire operatie, terwijl hoge prestaties worden behouden bij lage compressieverhoudingen. In tegenstelling tot conventionele snoeiaanpakken die aanvullende training of fine-tuning vereisen, vereist onze aanpak slechts een kleine kalibratiedataset die wordt gebruikt om een lineaire transformatie te schatten om de gesnoeide blokken te benaderen. Deze geschatte lineaire afbeelding kan naadloos worden samengevoegd met de overgebleven transformerblokken, waardoor de noodzaak van aanvullende netwerkparameters wordt geëlimineerd. Onze experimenten tonen aan dat ReplaceMe consistent beter presteert dan andere trainingsvrije benaderingen en zeer concurrerend blijft met state-of-the-art snoeimethoden die uitgebreide hertraining/fine-tuning en architectonische aanpassingen omvatten. Toegepast op verschillende grote taalmodelen (LLM's), bereikt ReplaceMe tot 25% snoei terwijl ongeveer 90% van de oorspronkelijke prestaties van het model wordt behouden op open benchmarks - zonder enige training of herstelstappen, wat resulteert in minimale rekenoverhead (zie Fig.1). We bieden een open-source bibliotheek die ReplaceMe implementeert, samen met verschillende state-of-the-art dieptesnoeitechnieken, beschikbaar in deze repository.
Chain-of-thought (CoT) redeneren in grote taalmodellen (LLMs) kan worden geformaliseerd als een latent variabelenprobleem, waarbij het model tussenliggende redeneerstappen moet genereren. Hoewel eerdere benaderingen zoals iteratieve beloning-gestuurde fine-tuning (RAFT) op dergelijke formuleringen hebben vertrouwd, passen ze meestal uniforme inferentiebudgetten toe voor alle prompts, wat geen rekening houdt met variabiliteit in moeilijkheidsgraad en convergentiegedrag. Dit werk identificeert het belangrijkste knelpunt in CoT-training als inefficiënte schatting van stochastische gradienten door statische steekproefstrategieën. Wij stellen GVM-RAFT voor, een promptspecifieke Dynamische Steekproefallocatiestrategie die is ontworpen om de variantie van stochastische gradienten te minimaliseren onder een rekeningkundig budgetbeperking. De methode wijst rekenkundige middelen dynamisch toe door acceptatiepercentages van prompts en normen van stochastische gradienten te monitoren, waardoor wordt gegarandeerd dat de resulterende gradientvariantie wordt geminimaliseerd. Onze theoretische analyse toont aan dat de voorgestelde dynamische steekproefstrategie onder geschikte voorwaarden leidt tot versnelde convergentiegaranties. Experimenten op het gebied van wiskundig redeneren laten zien dat GVM-RAFT een 2-4x versnelling en aanzienlijke nauwkeurigheidsverbeteringen bereikt ten opzichte van standaard RAFT. De voorgestelde dynamische steekproefstrategie is algemeen en kan worden geïntegreerd in andere reinforcement learning-algoritmen, zoals GRPO, wat leidt tot vergelijkbare verbeteringen in convergentie en testnauwkeurigheid. Onze code is beschikbaar op https://github.com/RLHFlow/GVM.
Real-time, intelligente en natuurlijke spraakinteractie is een essentieel onderdeel van de volgende generatie mens-computerinteractie. Recente vooruitgang heeft het potentieel getoond van het bouwen van intelligente spraakchatbots gebaseerd op grote taalmodellen (LLMs). In dit artikel introduceren we LLaMA-Omni 2, een reeks spraaktaalmodellen (SpeechLMs) variërend van 0,5B tot 14B parameters, die in staat zijn om hoogwaardige real-time spraakinteractie te bereiken. LLaMA-Omni 2 is gebouwd op de Qwen2.5-serie modellen en integreert een spraakencoder en een autoregressieve streaming spraakdecoder. Ondanks dat het getraind is op slechts 200K multi-turn spraakdialoogvoorbeelden, toont LLaMA-Omni 2 sterke prestaties op verschillende benchmarks voor gesproken vraag-antwoordtaken en spraakinstructievolging, waarbij het eerdere state-of-the-art SpeechLMs zoals GLM-4-Voice overtreft, die getraind waren op miljoenen uren spraakdata.
Effectieve simulatie van sociale intelligentie vereist dat taalagentschappen dynamisch de redeneerdiepte kunnen aanpassen, een capaciteit die opvallend afwezig is in huidige benaderingen. Terwijl bestaande methodes ofwel dit soort redeneervermogen missen ofwel een uniforme lange keten-van-gedachten-redenering afdwingen in alle scenario's, wat resulteert in excessief tokengebruik en ongepaste sociale simulatie. In dit artikel stellen we Adaptieve Modus Leren (AML) voor, dat strategisch selecteert uit vier denkmodi (intuïtieve reactie → diepe contemplatie) op basis van real-time context. De kerninnovatie van ons framework, het Adaptieve Modus Beleidsoptimalisatie (AMPO) algoritme, introduceert drie belangrijke verbeteringen ten opzichte van bestaande methodes: (1) Multi-granulaire denkmodusontwerp, (2) Contextbewuste modusschakeling tijdens sociale interactie, en (3) Token-efficiënt redeneren via diepte-adaptieve verwerking. Uitgebreide experimenten op taken voor sociale intelligentie bevestigen dat AML een 15,6% hogere taakprestatie bereikt dan state-of-the-art methodes. Opmerkelijk is dat onze methode GRPO met 7,0% overtreft met 32,8% kortere redeneerketens. Deze resultaten tonen aan dat contextgevoelige selectie van denkmodi, zoals geïmplementeerd in AMPO, mensachtiger adaptief redeneren mogelijk maakt dan de vaste-diepte benadering van GRPO.
We behandelen een fundamentele uitdaging in Reinforcement Learning from Interaction Demonstration (RLID): demonstratieruis en beperkte dekking. Hoewel bestaande methoden voor gegevensverzameling waardevolle interactiedemonstraties opleveren, resulteren ze vaak in spaarzame, onsamenhangende en ruisachtige trajecten die het volledige spectrum van mogelijke vaardigheidsvariaties en overgangen niet vastleggen. Onze belangrijkste inzicht is dat ondanks ruisachtige en spaarzame demonstraties, er oneindig veel fysiek haalbare trajecten bestaan die natuurlijk bruggen vormen tussen gedemonstreerde vaardigheden of voortkomen uit hun naburige toestanden, waardoor een continuüm van mogelijke vaardigheidsvariaties en overgangen ontstaat. Gebaseerd op dit inzicht presenteren we twee technieken voor gegevensaugmentatie: een Gestikt Trajectoriegrafiek (STG) die potentiële overgangen tussen demonstratievaardigheden ontdekt, en een Toestandsovergangsveld (STF) die unieke verbindingen legt voor willekeurige toestanden binnen de demonstratieomgeving. Om effectieve RLID met uitgebreide gegevens mogelijk te maken, ontwikkelen we een Adaptieve Trajectoriebemonsteringsstrategie (ATS) voor dynamische curriculumgeneratie en een historisch coderingsmechanisme voor geheugenafhankelijk vaardigheidsleren. Onze aanpak maakt robuuste vaardigheidsverwerving mogelijk die aanzienlijk generaliseert buiten de referentiedemonstraties. Uitgebreide experimenten over diverse interactietaken tonen aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden op het gebied van convergentiestabiliteit, generalisatievermogen en herstelrobustheid.
Vanwege de uitdagingen bij het handmatig verzamelen van nauwkeurige bewerkingsgegevens, worden bestaande datasets doorgaans geconstrueerd met behulp van verschillende geautomatiseerde methoden, wat leidt tot ruis in de supervisiesignalen als gevolg van de mismatch tussen bewerkingsinstructies en origineel-bewerkte beeldparen. Recente pogingen proberen bewerkingsmodellen te verbeteren door het genereren van hogere kwaliteit bewerkte beelden, pre-training op herkennings taken, of het introduceren van vision-language modellen (VLMs), maar slagen er niet in dit fundamentele probleem op te lossen. In dit artikel bieden we een nieuwe oplossing door effectievere bewerkingsinstructies te construeren voor gegeven beeldparen. Dit omvat het corrigeren van de bewerkingsinstructies om deze beter af te stemmen op de origineel-bewerkte beeldparen en het gebruik van contrastieve bewerkingsinstructies om hun effectiviteit verder te vergroten. Specifiek vinden we dat bewerkingsmodellen specifieke generatiekenmerken vertonen op verschillende inferentiestappen, onafhankelijk van de tekst. Op basis van deze voorafgaande kenmerken definiëren we een uniforme gids voor VLMs om bewerkingsinstructies te corrigeren. Er zijn echter enkele uitdagende bewerkingsscenario's die niet alleen met gecorrigeerde instructies kunnen worden opgelost. Daarom construeren we verder contrastieve supervisiesignalen met positieve en negatieve instructies en introduceren deze in de modeltraining met behulp van triplet loss, waardoor de supervisie-effectiviteit verder wordt bevorderd. Onze methode vereist niet de VLM-modules of pre-training taken die in eerder werk werden gebruikt, en biedt een meer directe en efficiënte manier om betere supervisiesignalen te leveren, en biedt een nieuwe, eenvoudige en effectieve oplossing voor instructie-gebaseerde beeldbewerking. Resultaten op meerdere benchmarks tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen. In vergelijking met de vorige SOTA SmartEdit, behalen we 9,19% verbeteringen op de Real-Edit benchmark met 30x minder trainingsgegevens en 13x kleinere modelgrootte.
We introduceren Ming-Lite-Uni, een open-source multimodale framework met een nieuw ontworpen geïntegreerde visuele generator en een native multimodale autoregressieve model, speciaal ontwikkeld voor het verenigen van visie en taal. Dit project biedt een open-source implementatie van het geïntegreerde MetaQueries- en M2-omni-framework, terwijl het ook de nieuwe multi-schaal leerbare tokens en multi-schaal representatie-uitlijningsstrategie introduceert. Door gebruik te maken van een vast MLLM en een leerbaar diffusiemodel, stelt Ming-Lite-Uni native multimodale AR-modellen in staat om zowel tekst-naar-beeldgeneratie als instructiegebaseerde beeldbewerkingstaken uit te voeren, waardoor hun mogelijkheden verder reiken dan puur visueel begrip. Onze experimentele resultaten tonen de sterke prestaties van Ming-Lite-Uni aan en illustreren de indrukwekkende vloeiende aard van het interactieve proces. Alle code en modelgewichten zijn open-source gemaakt om verdere verkenning binnen de gemeenschap te bevorderen. Opmerkelijk is dat dit werk aansluit bij gelijktijdige multimodale AI-mijlpalen – zoals ChatGPT-4o met native beeldgeneratie, bijgewerkt op 25 maart 2025 – wat de bredere betekenis van geünificeerde modellen zoals Ming-Lite-Uni onderstreept op het pad naar AGI. Ming-Lite-Uni bevindt zich in de alfafase en zal binnenkort verder worden verfijnd.
Grote taalmodellen (LLMs) hebben indrukwekkende prestaties geleverd in verschillende domeinen. De aanzienlijke hardwarebronnen die nodig zijn voor hun training vormen echter een belangrijke belemmering voor efficiëntie en schaalbaarheid. Om deze uitdaging te mitigeren, zijn technieken voor training met lage precisie breed toegepast, wat heeft geleid tot aanzienlijke vooruitgang in trainings efficiëntie. Ondanks deze verbeteringen omvat training met lage precisie verschillende componenten—zoals gewichten, activaties en gradienten—die elk in verschillende numerieke formaten kunnen worden weergegeven. De resulterende diversiteit heeft een gefragmenteerd landschap gecreëerd in het onderzoek naar training met lage precisie, waardoor het voor onderzoekers moeilijk is om een overkoepelend overzicht van het veld te krijgen. Dit overzicht biedt een uitgebreide evaluatie van bestaande methoden voor training met lage precisie. Om deze benaderingen systematisch te organiseren, categoriseren we ze in drie primaire groepen op basis van hun onderliggende numerieke formaten, wat een sleutelfactor is die hardwarecompatibiliteit, computationele efficiëntie en het gemak van referentie voor lezers beïnvloedt. De categorieën zijn: (1) methoden gebaseerd op vaste komma en gehele getallen, (2) methoden gebaseerd op zwevendekommagetallen, en (3) methoden gebaseerd op aangepaste formaten. Daarnaast bespreken we benaderingen voor kwantisatiebewuste training, die belangrijke overeenkomsten vertonen met training met lage precisie tijdens voorwaartse propagatie. Tot slot belichten we verschillende veelbelovende onderzoeksrichtingen om dit veld verder te ontwikkelen. Een verzameling van de in dit overzicht besproken artikelen is beschikbaar op https://github.com/Hao840/Awesome-Low-Precision-Training.
Het begrijpen van causale gebeurtenisrelaties en het bereiken van fijnmazige temporele verankering in video's blijven uitdagingen voor vision-language-modellen. Bestaande methoden comprimeren ofwel videotokens om de temporele resolutie te verlagen, of behandelen video's als ongesegmenteerde stromen, wat fijnmazige gebeurtenisgrenzen verdoezelt en de modellering van causale afhankelijkheden beperkt. Wij stellen TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) voor, een tweestaps trainingsframework dat het temporele begrip van video's verbetert. TEMPURA past eerst gemaskeerde gebeurtenisvoorspellingsredenering toe om ontbrekende gebeurtenissen te reconstrueren en stapsgewijze causale verklaringen te genereren op basis van gedetailleerde gebeurtenisaantekeningen, waarbij inspiratie wordt geput uit effectieve infill-technieken. Vervolgens leert TEMPURA videosegmentatie en dense captioning uit te voeren om video's te ontbinden in niet-overlappende gebeurtenissen met gedetailleerde, tijdstempel-uitgelijnde beschrijvingen. We trainen TEMPURA op VER, een grootschalige dataset die door ons is samengesteld en bestaat uit 1 miljoen trainingsinstanties en 500.000 video's met temporeel uitgelijnde gebeurtenisbeschrijvingen en gestructureerde redeneerstappen. Experimenten op benchmarks voor temporele verankering en highlightdetectie tonen aan dat TEMPURA sterke basismodellen overtreft, wat bevestigt dat de integratie van causaal redeneren met fijnmazige temporele segmentatie leidt tot een verbeterd videobegrip.
Huidige benaderingen voor multi-subject aanpassing staan voor twee kritieke uitdagingen: de moeilijkheid om diverse multi-subject trainingsdata te verkrijgen, en attribuutverstrengeling tussen verschillende onderwerpen. Om deze kloof te overbruggen, stellen we MUSAR voor - een eenvoudig maar effectief raamwerk om robuuste multi-subject aanpassing te bereiken terwijl alleen single-subject trainingsdata nodig is. Ten eerste introduceren we, om de databeperking te doorbreken, debiased diptych leren. Het construeert diptych trainingsparen uit single-subject afbeeldingen om multi-subject leren te faciliteren, terwijl het actief de distributie-bias die door diptych constructie wordt geïntroduceerd corrigeert via statische aandacht routing en dual-branch LoRA. Ten tweede introduceren we, om kruis-subject verstrengeling te elimineren, een dynamisch aandacht routing mechanisme, dat adaptief bijectieve mappingen tussen gegenereerde afbeeldingen en conditionele onderwerpen vaststelt. Dit ontwerp bereikt niet alleen ontkoppeling van multi-subject representaties, maar behoudt ook schaalbare generalisatieprestaties met toenemende referentieonderwerpen. Uitgebreide experimenten tonen aan dat onze MUSAR bestaande methoden overtreft - zelfs die getraind op multi-subject datasets - in beeldkwaliteit, onderwerpconsistentie en interactienaturaliteit, ondanks dat het alleen single-subject datasets vereist.
Aandachtsmechanismen zijn cruciaal voor het succes van grote taalmodellen (LLM's) en hebben aanzienlijke vooruitgang geboekt in meerdere vakgebieden. Voor grafgestructureerde gegevens, waarbij de nadruk ligt op topologische verbindingen, schieten ze echter tekort in vergelijking met berichtdoorgeefmechanismen via vaste koppelingen, zoals die worden gebruikt door Grafische Neurale Netwerken (GNN's). Dit roept de vraag op: ``Faalt aandacht voor grafieken in natuurlijke taalcontexten?'' Gemotiveerd door deze observaties zijn we een empirische studie gestart vanuit het perspectief van aandachtsmechanismen om te onderzoeken hoe LLM's grafgestructureerde gegevens verwerken. Het doel is om dieper inzicht te krijgen in het aandachtsgedrag van LLM's over grafstructuren. We hebben unieke fenomenen ontdekt over hoe LLM's aandacht toepassen op grafgestructureerde gegevens en hebben deze bevindingen geanalyseerd om de modellering van dergelijke gegevens door LLM's te verbeteren. De belangrijkste bevindingen van ons onderzoek zijn: 1) Hoewel LLM's grafgegevens kunnen herkennen en tekst-knooppuntinteracties kunnen vastleggen, hebben ze moeite met het modelleren van inter-knooppuntrelaties binnen grafstructuren vanwege inherente architectuurbeperkingen. 2) De aandachtsverdeling van LLM's over grafknooppunten komt niet overeen met ideale structurele patronen, wat wijst op een falen om zich aan te passen aan de nuances van graf-topologie. 3) Noch volledig verbonden aandacht, noch vaste connectiviteit is optimaal; elk heeft specifieke beperkingen in zijn toepassingsscenario's. In plaats daarvan verbeteren aandachtsvensters in een tussenstadium de trainingsprestaties van LLM's en gaan ze naadloos over naar volledig verbonden vensters tijdens inferentie. Broncode: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
Recente NeRF-methoden voor grootschalige scènes hebben het belang van scène-decompositie voor schaalbare NeRF's benadrukt. Hoewel redelijke schaalbaarheid wordt bereikt, blijven er verschillende kritieke problemen onontgonnen, zoals leerbare decompositie, het modelleren van scène-heterogeniteit en modellerings-efficiëntie. In dit artikel introduceren we Switch-NeRF++, een Heterogeneous Mixture of Hash Experts (HMoHE)-netwerk dat deze uitdagingen aanpakt binnen een uniform raamwerk. Het is een zeer schaalbare NeRF die heterogene decompositie en heterogene NeRF's efficiënt leert voor grootschalige scènes op een end-to-end manier. In ons raamwerk leert een gating-netwerk scènes te decomposeren en 3D-punten toe te wijzen aan gespecialiseerde NeRF-experts. Dit gating-netwerk wordt geoptimaliseerd samen met de experts, door ons voorgestelde Sparsely Gated Mixture of Experts (MoE) NeRF-raamwerk. We integreren een hash-gebaseerd gating-netwerk en verschillende heterogene hash-experts. Het hash-gebaseerde gating leert efficiënt de decompositie van de grootschalige scène. De verschillende heterogene hash-experts bestaan uit hash-grids met verschillende resolutiebereiken, waardoor effectief leren van de heterogene representatie van verschillende scène-onderdelen mogelijk wordt. Deze ontwerpkeuzes maken ons raamwerk een end-to-end en zeer schaalbare NeRF- oplossing voor het modelleren van realistische grootschalige scènes om zowel kwaliteit als efficiëntie te bereiken. We evalueren onze nauwkeurigheid en schaalbaarheid op bestaande grootschalige NeRF-datasets en een nieuwe dataset met zeer grootschalige scènes (>6,5 km^2) van UrbanBIS. Uitgebreide experimenten tonen aan dat onze aanpak eenvoudig kan worden geschaald naar verschillende grootschalige scènes en state-of-the-art scène-rendering nauwkeurigheid bereikt. Bovendien toont onze methode aanzienlijke efficiëntie, met een 8x versnelling in training en een 16x versnelling in rendering vergeleken met Switch-NeRF. Codes zullen worden vrijgegeven op https://github.com/MiZhenxing/Switch-NeRF.
LLM's die getraind zijn op enorme datasets kunnen onbedoeld gevoelige informatie verwerven, zoals persoonlijke gegevens en potentieel schadelijke inhoud. Dit risico wordt verder versterkt bij multimodale LLM's, aangezien zij informatie uit meerdere modaliteiten (beeld en tekst) integreren. Tegenstanders kunnen deze kennis uitbuiten via multimodale prompts om gevoelige details te extraheren. Het evalueren van hoe effectief MLLM's dergelijke informatie kunnen vergeten (gericht afleren) vereist het creëren van hoogwaardige, goed geannoteerde beeld-tekstparen. Terwijl eerder werk over afleren zich op tekst heeft gericht, blijft multimodaal afleren onderbelicht. Om deze kloof te dichten, introduceren we eerst een multimodaal afleren-benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), evenals een aanvals- en verdedigingsframework om methoden te evalueren voor het verwijderen van specifieke multimodale kennis uit MLLM's. We breiden een visuele vraag-antwoorddataset uit met behulp van een geautomatiseerde pijplijn die variërende nabijheidsmonsters genereert voor het testen van generalisatie en specificiteit, gevolgd door handmatige filtering om een hoge kwaliteit te behouden. Vervolgens evalueren we zes verdedigingsdoelen tegen zeven aanvallen (vier whitebox, drie blackbox), inclusief een nieuwe whitebox-methode die gebruikmaakt van de interpreteerbaarheid van verborgen toestanden. Onze resultaten tonen aan dat multimodale aanvallen beter presteren dan aanvallen die alleen op tekst of beeld zijn gericht, en dat de meest effectieve verdediging antwoordinformatie uit interne modeltoestanden verwijdert. Daarnaast vertonen grotere modellen een grotere robuustheid na bewerking, wat suggereert dat schaal veiligheid versterkt. UnLOK-VQA biedt een rigoureuze benchmark voor het bevorderen van afleren in MLLM's.
Event camera's vangen bewegingsdynamiek vast en bieden een unieke modaliteit met groot potentieel in diverse computervisietaken. Echter, RGB-Event fusie kampt met drie intrinsieke uitlijningproblemen: (i) temporele, (ii) ruimtelijke, en (iii) modale uitlijning. Bestaande voxelgridrepresentaties negeren temporele correlaties tussen opeenvolgende eventvensters, en hun formulering met een eenvoudige accumulatie van asynchrone en sparse events is incompatibel met de synchrone en dense aard van de RGB-modaliteit. Om deze uitdagingen aan te pakken, stellen we een nieuwe eventrepresentatie voor, de Motion-enhanced Event Tensor (MET), die sparse eventvoxels transformeert naar een dense en temporeel coherente vorm door gebruik te maken van dense optische stromen en temporele eventkenmerken. Daarnaast introduceren we een Frequency-aware Bidirectional Flow Aggregation Module (BFAM) en een Temporal Fusion Module (TFM). BFAM benut het frequentiedomein en MET om modale uitlijning te verminderen, terwijl bidirectionele stroomaggregatie en temporele fusiemechanismen spatiotemporele uitlijning oplossen. Experimentele resultaten op twee grootschalige datasets tonen aan dat ons framework aanzienlijk beter presteert dan state-of-the-art RGB-Event semantische segmentatiebenaderingen. Onze code is beschikbaar op: https://github.com/zyaocoder/BRENet.