Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit technische rapport presenteren we de Ring-linear modelreeks, met name Ring-mini-linear-2.0 en Ring-flash-linear-2.0. Ring-mini-linear-2.0 bestaat uit 16B parameters en 957M activaties, terwijl Ring-flash-linear-2.0 104B parameters en 6.1B activaties bevat. Beide modellen gebruiken een hybride architectuur die lineaire aandacht en softmax-aandacht effectief integreert, waardoor de I/O- en rekenkosten aanzienlijk worden verminderd in langetermijn-inferentiescenario's. Vergeleken met een dicht model van 32 miljard parameters, reduceert deze reeks de inferentiekosten tot 1/10, en vergeleken met de originele Ring-reeks zijn de kosten ook met meer dan 50% verlaagd. Bovendien hebben we door systematische exploratie van de verhouding tussen verschillende aandachtmechanismen in de hybride architectuur de huidige optimale modelstructuur geïdentificeerd. Daarnaast is door het gebruik van onze zelfontwikkelde high-performance FP8 operatorbibliotheek - linghe - de algehele trainings efficiëntie met 50% verbeterd. Dankzij de hoge afstemming tussen de trainings- en inferentie-engine-operators kunnen de modellen tijdens de reinforcement learning-fase langdurig, stabiel en zeer efficiënt worden geoptimaliseerd, waardoor ze consistent state-of-the-art (SOTA) prestaties behouden op meerdere uitdagende complexe redeneerbenchmarks.
Reinforcement learning (RL) is recentelijk uitgegroeid tot het kernparadigma voor het uitlijnen en versterken van grote taalmodelen (LLMs). Toch blijft het toepassen van RL in off-policy settings—waarbij verouderde gegevens van eerdere beleidsregels worden gebruikt voor training—de sample-efficiëntie verbeteren, maar ook uitdagend: de entropie van het beleid neemt sterk af, de optimalisatie wordt vaak instabiel en kan zelfs instorten. Door theoretische en empirische analyse identificeren we twee belangrijke inzichten: (i) een onbalans in de optimalisatie, waarbij negatieve-voordeelmonsters de beleidsgradiënt domineren, nuttig gedrag onderdrukken en het risico op gradiëntexplosies vergroten; en (ii) de afgeleide Entropie-Clip Regel, die onthult dat het vaste clippingmechanisme in PPO-achtige doelen systematisch entropie-verhogende updates blokkeert, waardoor het beleid wordt gedreven naar over-exploitatie ten koste van exploratie. Op basis van deze inzichten stellen we BAlanced Policy Optimization with Adaptive Clipping (BAPO) voor, een eenvoudige maar effectieve methode die dynamisch clippinggrenzen aanpast om positieve en negatieve bijdragen adaptief in balans te brengen, entropie te behouden en RL-optimalisatie te stabiliseren. In diverse off-policy scenario's—inclusief sample replay en gedeeltelijke rollouts—bereikt BAPO snelle, stabiele en data-efficiënte training. Op de AIME 2024 en AIME 2025 benchmarks overtreft ons 7B BAPO-model open-source tegenhangers zoals SkyWork-OR1-7B, terwijl ons 32B BAPO-model niet alleen state-of-the-art resultaten behaalt onder modellen van dezelfde schaal, maar ook toonaangevende propriëtaire systemen zoals o3-mini en Gemini-2.5-Flash-Thinking overtreft.
Redeneren over lange contexten is essentieel voor grote taalmodellen. Hoewel reinforcement learning (RL) kort-context redeneren verbetert door "Aha"-momenten te induceren in ketens van gedachten, blijven de geavanceerde denkpatronen die nodig zijn voor lang-context redeneren grotendeels onontgonnen, en zijn hoogcomplexe RL-data schaars. In dit artikel introduceren we LoongRL, een data-gedreven RL-methode voor geavanceerd lang-context redeneren. Centraal in LoongRL staat KeyChain, een synthesemethode die korte multi-hop QA omzet in hoogcomplexe lang-context taken door UUID-ketens in te voegen die de echte vraag verbergen tussen grote verzamelingen afleidende documenten. Het oplossen van deze taken vereist dat het model de juiste keten stap-voor-stap volgt, de echte vraag identificeert, relevante feiten ophaalt en hierover redeneert om correct te antwoorden. RL-training op KeyChain-data induceert een emergent plan-retrieve-reason-recheck redeneerpatroon dat ver generaliseert buiten de trainingslengte. Modellen getraind op 16K lossen effectief 128K taken op zonder verbijsterende volledige RL-rolloutkosten. Op Qwen2.5-7B en 14B verbetert LoongRL de nauwkeurigheid van lang-context multi-hop QA aanzienlijk met absolute winsten van +23.5% en +21.1%. Het resulterende LoongRL-14B bereikt een score van 74.2, wat concurreert met veel grotere frontiermodellen zoals o3-mini (74.5) en DeepSeek-R1 (74.9). Het verbetert ook lang-context retrieval, doorstaat alle 128K naald-in-een-hooiberg stresstests, en behoudt kort-context redeneervaardigheden.
Het trainen van Vision-Language-Action (VLA) modellen voor generalistische robots vereist doorgaans grootschalige real-world robotdata, die kostbaar en tijdrovend zijn om te verzamelen. De inefficiëntie van fysieke dataverzameling beperkt de schaalbaarheid en generalisatiecapaciteit van huidige VLA-systemen aanzienlijk. Om deze uitdaging aan te pakken, introduceren we GigaBrain-0, een nieuw VLA-foundationmodel dat wordt aangedreven door wereldmodel-gegenereerde data (bijv. videogeneratie, real2real transfer, human transfer, view transfer, sim2real transfer data). Door wereldmodellen te gebruiken om op grote schaal diverse data te genereren, vermindert GigaBrain-0 de afhankelijkheid van echte robotdata aanzienlijk, terwijl de generalisatie over taken wordt verbeterd. Onze aanpak verbetert verder de robuustheid van het beleid door RGBD-invoermodellering en embodied Chain-of-Thought (CoT) supervisie, waardoor het model in staat is om te redeneren over ruimtelijke geometrie, objecttoestanden en langetermijnafhankelijkheden tijdens de uitvoering van taken. Dit leidt tot aanzienlijke verbeteringen in de prestaties in de echte wereld bij behendige, langetermijn- en mobiele manipulatietaken. Uitgebreide experimenten tonen aan dat GigaBrain-0 superieure generalisatie bereikt over variaties in uiterlijk (bijv. texturen, kleuren), objectplaatsing en camerastandpunten. Daarnaast presenteren we GigaBrain-0-Small, een geoptimaliseerde lichtgewicht variant die is ontworpen om efficiënt te draaien op apparaten zoals de NVIDIA Jetson AGX Orin.
Transformer-componenten zoals niet-lineaire activaties en normalisatie zijn inherent niet-injectief, wat suggereert dat verschillende invoeren naar dezelfde uitvoer kunnen worden afgebeeld en daarmee een exacte reconstructie van de invoer vanuit de representaties van een model verhinderen. In dit artikel dagen we deze opvatting uit. Ten eerste bewijzen we wiskundig dat transformer-taalmodellen die discrete invoerreeksen afbeelden naar hun corresponderende reeks continue representaties injectief en dus verliesloos zijn, een eigenschap die bij initialisatie wordt vastgesteld en tijdens de training behouden blijft. Ten tweede bevestigen we dit resultaat empirisch door miljarden botsingstests uit te voeren op zes state-of-the-art taalmodellen, waarbij we geen botsingen waarnemen. Ten derde operationaliseren we injectiviteit: we introduceren SipIt, het eerste algoritme dat bewezen en efficiënt de exacte invoertekst reconstrueert vanuit verborgen activaties, waarbij lineaire-tijdgaranties worden vastgesteld en exacte inverteerbaarheid in de praktijk wordt aangetoond. Over het geheel genomen vestigt ons werk injectiviteit als een fundamentele en exploiteerbare eigenschap van taalmodelen, met directe implicaties voor transparantie, interpreteerbaarheid en veilige implementatie.
Het trainen van computergebruik-agents vereist enorme hoeveelheden GUI-interactiedata, maar het handmatig annoteren van actietrajecten op grote schaal is onbetaalbaar duur. Wij presenteren VideoAgentTrek, een schaalbare pijplijn die automatisch trainingsdata uit openbaar beschikbare schermopnamevideo's op webschaal haalt, waardoor de noodzaak voor handmatige annotatie wordt geëlimineerd. Onze aanpak lost een belangrijke uitdaging op: ruwe video's bevatten impliciete demonstraties maar missen expliciete actielabels. Om dit op te lossen, ontwikkelen we Video2Action, een inverse dynamiekmodule (IDM) met twee componenten: (1) een videogroundingmodel dat GUI-acties detecteert en lokaliseert met precieze temporele grenzen en context, en (2) een actie-inhoudherkenner die gestructureerde parameters zoals klikcoördinaten en getypte tekst met hoge nauwkeurigheid extraheert. Toegepast op 39.000 YouTube-tutorialvideo's genereert onze pijplijn automatisch 1,52 miljoen interactiestappen. We benutten deze data door middel van voortgezette pretraining gevolgd door supervised fine-tuning. Op OSWorld-Verified verbetert onze aanpak de taak-succespercentages van 9,3% (alleen SFT-baseline) naar 15,8%, een relatieve verbetering van 70%. Op AgentNetBench neemt de stapnauwkeurigheid toe van 64,1% naar 69,3%. Onze resultaten tonen aan dat passieve internetvideo's kunnen worden omgezet in hoogwaardige supervisie voor computergebruik-agents, wat een schaalbare alternatief biedt voor dure handmatige annotatie.
Mobile Phone Agents (MPA's) zijn ontstaan als een veelbelovende onderzoeksrichting vanwege hun brede toepasbaarheid in diverse scenario's. Hoewel Multimodale Large Language Models (MLLM's) de basis vormen voor MPA's, blijft hun effectiviteit in het gelijktijdig uitvoeren van meerdere mobiele telefoontaken beperkt. Hoewel multitask supervised fine-tuning (SFT) veel wordt gebruikt voor multitask learning, hebben bestaande benaderingen moeite om optimale trainingsdatasamenstellingen te bepalen voor maximale prestaties. Om deze uitdaging aan te pakken, stellen we DaMo (Data Mixture Optimizer) voor – een innovatieve oplossing die gebruikmaakt van een trainbaar netwerk dat optimale datamengsels voorspelt door de prestaties van downstream taken te voorspellen voor elke gegeven datasetratio. Om een uitgebreide evaluatie mogelijk te maken, introduceren we PhoneAgentBench, de eerste gespecialiseerde benchmark om MLLM's te evalueren op multimodale mobiele telefoontaken, bestaande uit 1235 vraag-antwoordparen die diverse real-world industriële mobiele applicatiescenario's beslaan. DaMo toont een sterke voorspellende capaciteit (R^2=0.81) in kleinschalige pilootexperimenten en extrapoleert efficiënt optimale datamengconfiguraties. Onze resultaten laten zien dat DaMo een prestatieverbetering van 3,38% behaalt op PhoneAgentBench in vergelijking met alternatieve methoden. Bovendien onthullen uitgebreide experimenten op gevestigde benchmarks, waaronder BFCL-v3, MME-Reasoning, MME-Perception en OCRBench, de superieure generalisatie van DaMo, die andere benaderingen met 2,57% overtreft in termen van gemiddelde score. Wanneer DaMo uitsluitend wordt gebruikt voor MLLM-optimalisatie op de BFCL-v3-taak, verbetert het de metingen met 12,47% ten opzichte van andere methoden. Opmerkelijk is dat DaMo robuuste schaalbaarheid behoudt en zijn effectiviteit behoudt wanneer het wordt toegepast op andere modelarchitecturen. De code en dataset zijn beschikbaar op https://github.com/OPPO-Mente-Lab/DaMo.git.
Vision-Language Models (VLMs) hebben opmerkelijke vooruitgang geboekt, maar hun grote schaal maakt ze vaak onpraktisch voor omgevingen met beperkte middelen. Dit artikel introduceert Unified Reinforcement and Imitation Learning (RIL), een nieuw en efficiënt trainingsalgoritme ontworpen om krachtige, lichtgewicht VLMs te creëren. RIL combineert op unieke wijze de sterke punten van reinforcement learning met adversarial imitation learning. Hierdoor kunnen kleinere student-VLMs niet alleen de geavanceerde tekstgeneratie van grote leraar-modellen nabootsen, maar ook hun generatieve capaciteiten systematisch verbeteren via reinforcement-signalen. Centraal in ons imitatieraamwerk staat een op LLM gebaseerde discriminator die vaardig onderscheid maakt tussen de uitvoer van studenten en leraren, aangevuld met begeleiding van meerdere grote leraar-VLMs om divers leren te garanderen. Deze geïntegreerde leerstrategie, die zowel reinforcement als imitatie benut, stelt student-modellen in staat aanzienlijke prestatieverbeteringen te behalen, waardoor ze concurrerend worden met toonaangevende closed-source VLMs. Uitgebreide experimenten op diverse vision-language benchmarks tonen aan dat RIL de prestatiekloof met state-of-the-art open- en closed-source VLMs aanzienlijk verkleint en in verschillende gevallen zelfs overtreft.
Recente ontwikkelingen in multimodale modellen hebben opmerkelijke tekstgestuurde beeldbewerkingsmogelijkheden aangetoond, waarbij systemen zoals GPT-4o en Nano-Banana nieuwe standaarden hebben gezet. De vooruitgang van de onderzoeksgemeenschap blijft echter beperkt door het ontbreken van grootschalige, hoogwaardige en openbaar toegankelijke datasets die zijn opgebouwd uit echte afbeeldingen. Wij introduceren Pico-Banana-400K, een uitgebreide dataset van 400K afbeeldingen voor instructiegestuurde beeldbewerking. Onze dataset is geconstrueerd door Nano-Banana te gebruiken om diverse bewerkingsparen te genereren uit echte foto's in de OpenImages-collectie. Wat Pico-Banana-400K onderscheidt van eerdere synthetische datasets is onze systematische aanpak voor kwaliteit en diversiteit. We gebruiken een fijnmazige taxonomie voor beeldbewerking om een uitgebreide dekking van bewerkingstypes te garanderen, terwijl we nauwkeurige inhoudsbehoud en instructietrouw waarborgen via MLLM-gebaseerde kwaliteitsscores en zorgvuldige curatie. Naast enkelvoudige bewerkingen maakt Pico-Banana-400K onderzoek naar complexe bewerkingsscenario's mogelijk. De dataset omvat drie gespecialiseerde subsets: (1) een collectie van 72K voorbeelden voor meervoudige bewerkingen, om sequentiële bewerkingen, redenering en planning over opeenvolgende aanpassingen te bestuderen; (2) een voorkeursubset van 56K voorbeelden voor aligneringsonderzoek en training van beloningsmodellen; en (3) gepaarde lange-korte bewerkingsinstructies voor het ontwikkelen van instructieherformulering en samenvattingsmogelijkheden. Door deze grootschalige, hoogwaardige en taakrijke bron te bieden, legt Pico-Banana-400K een robuuste basis voor het trainen en benchmarken van de volgende generatie tekstgestuurde beeldbewerkingsmodellen.
Het genereren van professionele financiële rapporten is een arbeidsintensief en intellectueel veeleisend proces waar huidige AI-systemen moeite mee hebben om volledig te automatiseren. Om deze uitdaging aan te pakken, introduceren we FinSight (Financial InSight), een innovatief multi-agent framework voor het produceren van hoogwaardige, multimodale financiële rapporten. De basis van FinSight is de Code Agent with Variable Memory (CAVM) architectuur, die externe data, ontworpen tools en agents verenigt in een programmeerbare variabele ruimte, waardoor flexibele dataverzameling, analyse en rapportgeneratie via uitvoerbare code mogelijk wordt. Om professionele visualisatie te garanderen, stellen we een Iterative Vision-Enhanced Mechanism voor dat ruwe visuele uitvoer geleidelijk verfijnt tot gepolijste financiële grafieken. Bovendien breidt een tweefasen Schrijf Framework beknopte Chain-of-Analysis segmenten uit tot samenhangende, citaatbewuste en multimodale rapporten, waardoor zowel analytische diepte als structurele consistentie wordt gewaarborgd. Experimenten op verschillende bedrijfs- en industrieniveau taken tonen aan dat FinSight alle baseline-systemen, waaronder toonaangevende diepgaande onderzoekssystemen, significant overtreft op het gebied van feitelijke nauwkeurigheid, analytische diepte en presentatiekwaliteit, wat een duidelijk pad toont naar het genereren van rapporten die de kwaliteit van menselijke experts benaderen.
Naarmate grote taalmodellen (LLMs) steeds vaker worden ingezet in mens-AI-interacties, zijn hun sociale redeneervaardigheden in interpersoonlijke contexten cruciaal. Wij introduceren SCRIPTS, een dataset van 1.000 dialogen in het Engels en Koreaans, afkomstig uit filmscripts. De taak bestaat uit het evalueren van de sociale redeneervaardigheid van modellen om de interpersoonlijke relaties (bijvoorbeeld vrienden, zussen, geliefden) tussen sprekers in elke dialoog af te leiden. Elke dialoog is geannoteerd met probabilistische relationele labels (Zeer Waarschijnlijk, Minder Waarschijnlijk, Onwaarschijnlijk) door moedertaalsprekers (of equivalenten) van Koreaans en Engels uit Korea en de VS. Bij de evaluatie van negen modellen op onze taak behalen huidige propriëtaire LLMs ongeveer 75-80% op de Engelse dataset, terwijl hun prestaties op Koreaans dalen tot 58-69%. Opvallender is dat modellen in 10-25% van hun antwoorden Onwaarschijnlijke relaties selecteren. Bovendien ontdekken we dat denkmodellen en chain-of-thought prompting, die effectief zijn voor algemeen redeneren, minimale voordelen bieden voor sociaal redeneren en soms sociale vooroordelen versterken. Onze bevindingen onthullen aanzienlijke beperkingen in de sociale redeneervaardigheden van huidige LLMs, wat de noodzaak benadrukt om inspanningen te leveren voor de ontwikkeling van sociaal bewuste taalmodellen.
Autonome rijsysteem-wereldmodellen worden verwacht effectief te werken op drie kern dimensies: toestand, actie en beloning. Bestaande modellen zijn echter typisch beperkt tot beperkte toestandsmodaliteiten, korte videosequenties, onnauwkeurige actiecontrole en een gebrek aan beloningsbewustzijn. In dit artikel introduceren we OmniNWM, een alwetend panoramisch navigatiewereldmodel dat alle drie dimensies binnen een uniform raamwerk aanpakt. Voor toestand genereert OmniNWM gezamenlijk panoramische video's van RGB, semantiek, metrische diepte en 3D-bezetting. Een flexibele forceringsstrategie maakt hoogwaardige autoregressieve generatie op lange termijn mogelijk. Voor actie introduceren we een genormaliseerde panoramische Plucker-stralenkaartrepresentatie die invoertrajecten codeert in pixelgebaseerde signalen, waardoor zeer nauwkeurige en generaliseerbare controle over panoramische videogeneratie mogelijk wordt. Wat betreft beloning gaan we verder dan het leren van beloningsfuncties met externe beeldgebaseerde modellen: in plaats daarvan benutten we de gegenereerde 3D-bezetting om direct regelgebaseerde dichte beloningen te definiëren voor rijcompliance en veiligheid. Uitgebreide experimenten tonen aan dat OmniNWM state-of-the-art prestaties bereikt in videogeneratie, controle-nauwkeurigheid en stabiliteit op lange termijn, terwijl het een betrouwbaar gesloten-lus evaluatieraamwerk biedt via bezetting-gebaseerde beloningen. De projectpagina is beschikbaar op https://github.com/Arlo0o/OmniNWM.
Gemaskerde Diffusie Taalmodellen (DLMs) zijn recent naar voren gekomen als een veelbelovend alternatief voor traditionele Autoregressieve Modellen (ARMs). DLMs maken gebruik van transformer-encoders met bidirectionele aandacht, waardoor parallelle token-generatie mogelijk is terwijl ze competitieve prestaties behouden. Hoewel hun efficiëntie en effectiviteit uitgebreid zijn bestudeerd, blijven de interne mechanismen die DLMs sturen grotendeels onontgonnen. In dit werk voeren we een empirische analyse uit van DLM-aandachtspatronen, met een focus op het aandachtssink-fenomeen, een effect dat eerder is waargenomen in verschillende transformer-gebaseerde architecturen. Onze bevindingen onthullen dat DLMs ook aandachtssinks vertonen, maar met onderscheidende kenmerken. Ten eerste, in tegenstelling tot bij ARMs, hebben de sink-posities in DLMs de neiging te verschuiven gedurende het generatieproces, wat een dynamisch gedrag vertoont. Ten tweede, terwijl ARMs zeer gevoelig zijn voor het verwijderen van aandachtssinks, blijven DLMs robuust: het maskeren van sinks leidt slechts tot een geringe prestatievermindering. Deze resultaten bieden nieuwe inzichten in de interne werking van diffusie-gebaseerde taalmodellen en benadrukken fundamentele verschillen in hoe ze aandacht toewijzen en gebruiken in vergelijking met autoregressieve modellen.
We introduceren Chart2Code, een nieuwe benchmark voor het evalueren van de grafiekbegrip- en codegeneratiecapaciteiten van grote multimodale modellen (LMMs). Chart2Code is expliciet ontworpen vanuit een gebruikersgedreven perspectief, waarbij diverse real-world scenario's worden vastgelegd en de taakmoeilijkheid geleidelijk toeneemt. Het bestaat uit drie niveaus: Niveau 1 (Grafiekreproductie) reproduceert grafieken vanuit een referentiefiguur en gebruikersvraag; Niveau 2 (Grafiekbewerking) omvat complexe aanpassingen zoals het wijzigen van grafiektypen of het toevoegen van elementen; en Niveau 3 (Lange-tabel-naar-grafiekgeneratie) vereist dat modellen lange, informatie-dichte tabellen omzetten in nauwkeurige grafieken volgens gebruikersinstructies. Voor zover wij weten, is dit de eerste hiërarchische benchmark die praktisch grafiek-naar-code-gebruik weerspiegelt terwijl de taakcomplexiteit systematisch wordt opgeschaald. In totaal bevat Chart2Code 2.023 taken over 22 grafiektypen, gekoppeld aan meerdelige evaluatiemetrics die zowel de codecorrectheid als de visuele trouw van gerenderde grafieken beoordelen. We benchmarken 25 state-of-the-art (SoTA) LMMs, waaronder zowel propriëtaire als de nieuwste open-source modellen zoals GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL en Seed-1.6-VL. Experimentele resultaten tonen aan dat zelfs het SoTA-model GPT-5 gemiddeld slechts 0.57 scoort op codegebaseerde evaluatie en 0.22 op grafiekkwaliteitsbeoordeling over de bewerkingstaken, wat de moeilijkheidsgraad van Chart2Code onderstreept. We verwachten dat deze benchmark vooruitgang zal stimuleren in multimodale redenering en de ontwikkeling van robuustere en meer algemene LMMs zal bevorderen. Onze code en data zijn beschikbaar op Chart2Code.
Grote multimodale modellen coderen uitgebreide feitelijke kennis in hun vooraf getrainde gewichten. Deze kennis blijft echter statisch en beperkt, en kan de ontwikkelingen in de echte wereld niet bijhouden, wat een belemmering vormt voor continue kennisverwerving. Effectieve kennisinjectie wordt daarom cruciaal, waarbij twee doelen centraal staan: kennisadaptatie (het injecteren van nieuwe kennis) en kennisretentie (het behouden van oude kennis). Bestaande methoden hebben vaak moeite met het leren van nieuwe kennis en lijden onder catastrofaal vergeten. Om dit aan te pakken, stellen we KORE voor, een synergetische methode van KnOwledge-oRientEd augmentaties en beperkingen voor het injecteren van nieuwe kennis in grote multimodale modellen, terwijl oude kennis behouden blijft. In tegenstelling tot algemene tekst- of beelddata-augmentatie, zet KORE individuele kennisitems automatisch om in gestructureerde en uitgebreide kennis om ervoor te zorgen dat het model nieuwe kennis nauwkeurig leert, wat een accurate adaptatie mogelijk maakt. Tegelijkertijd slaat KORE eerdere kennis op in de covariantiematrix van de lineaire laagactivaties van het LMM en initialiseert het de adapter door de oorspronkelijke gewichten te projecteren in de nulruimte van de matrix, waardoor een fijnafstemrichting wordt gedefinieerd die de interferentie met eerdere kennis minimaliseert, wat een krachtige retentie mogelijk maakt. Uitgebreide experimenten met verschillende LMM's, waaronder LLaVA-v1.5-7B, LLaVA-v1.5-13B en Qwen2.5-VL-7B, tonen aan dat KORE superieure prestaties levert bij het injecteren van nieuwe kennis en catastrofaal vergeten effectief vermindert.
Wij presenteren olmOCR 2, de nieuwste in onze familie van krachtige OCR-systemen voor het omzetten van gedigitaliseerde printdocumenten, zoals PDF's, naar schone, natuurlijk geordende platte tekst. olmOCR 2 wordt aangedreven door olmOCR-2-7B-1025, een gespecialiseerd, 7B vision language model (VLM) getraind met reinforcement learning met verifieerbare beloningen (RLVR), waarbij onze beloningen bestaan uit een diverse set van binaire unittests. Om het maken van unittests te schalen, ontwikkelen we een pijplijn voor het genereren van synthetische documenten met diverse en uitdagende lay-outs, bekende ground-truth HTML-broncode en geëxtraheerde testgevallen. We tonen aan dat RL-training op deze testgevallen resulteert in state-of-the-art prestaties op olmOCR-Bench, onze Engelstalige OCR-benchmark, met de grootste verbeteringen in de conversie van wiskundige formules, het parsen van tabellen en multi-kolom lay-outs in vergelijking met eerdere versies. We geven ons model, data en code vrij onder permissieve open licenties.
Sinds de introductie van het Model Context Protocol (MCP) is het aantal beschikbare tools voor Large Language Models (LLM's) aanzienlijk toegenomen. Deze taakspecifieke toolset biedt een alternatief voor algemene tools zoals webbrowsers, terwijl ze eenvoudiger te ontwikkelen en te onderhouden zijn dan GUI's. Huidige algemene agents vertrouwen echter voornamelijk op webbrowsers om met de omgeving te interacteren. Hier introduceren we TheMCPCompany, een benchmark voor het evalueren van tool-aanroepende agents bij taken die interactie met verschillende real-world services omvatten. We gebruiken de REST API's van deze services om MCP-servers te creëren, die meer dan 18.000 tools bevatten. We bieden ook handmatig geannoteerde grondwaarheid-tools voor elke taak. In onze experimenten gebruiken we de grondwaarheid-tools om het potentieel van tool-aanroepende agents te laten zien, zowel voor het verbeteren van prestaties als het verlagen van kosten, uitgaande van perfecte toolretrieval. Vervolgens onderzoeken we de prestaties van agents met toolretrieval om de praktische bruikbaarheid van tool-gebaseerde agents in de echte wereld te bestuderen. Hoewel alle modellen met toolretrieval vergelijkbaar of beter presteren dan browser-gebaseerde agents, kunnen kleinere modellen niet volledig profiteren van de beschikbare tools via retrieval. Aan de andere kant ligt de prestatie van GPT-5 met toolretrieval zeer dicht bij zijn prestatie met grondwaarheid-tools. Over het algemeen toont ons werk aan dat de meest geavanceerde redeneermodellen effectief zijn in het ontdekken van tools in eenvoudigere omgevingen, maar ernstig worstelen met het navigeren in complexe bedrijfsomgevingen. TheMCPCompany onthult dat het navigeren door tienduizenden tools en het combineren ervan op niet-triviale manieren om complexe problemen op te lossen nog steeds een uitdagende taak is voor huidige modellen en zowel betere redeneer- als betere retrievalmodellen vereist.
Multimodale grote taalmodellen (MLLMs) tonen een sterk begrip van video's door aandacht te besteden aan visuele tokens die relevant zijn voor tekstuele queries. Om dit direct aan te passen voor lokalisatie op een trainingsvrije manier, formuleren we videoredeneersegmentatie als een video-QA-taak en extraheren we aandachtkaarten via een rollout-mechanisme. Echter, ruwe aandachtkaarten zijn ongestructureerd en slecht uitgelijnd met objectregio's. Wij stellen Decomposed Attention Fusion (DecAF) voor, dat deze kaarten verfijnt via twee mechanismen: (1) contrastieve object-achtergrondfusie en (2) complementaire video-frame-fusie. Deze methode onderdrukt irrelevante activaties en versterkt objectgerichte signalen, waardoor directe conversie van aandachtkaarten naar grove segmentatiemaskers mogelijk wordt. Daarnaast introduceren we aandacht-gestuurde SAM2-prompting voor het verkrijgen van fijnmazige maskers. In tegenstelling tot bestaande methoden die MLLMs gezamenlijk trainen met SAM, werkt onze methode volledig zonder hertraining. DecAF overtreft trainingsvrije methoden en bereikt prestaties die vergelijkbaar zijn met trainingsgebaseerde methoden op zowel verwijzende als redenerende VOS-benchmarks. De code zal beschikbaar zijn op https://github.com/HYUNJS/DecAF.
Met de vooruitgang in hardware, software en grote taalmodellen is de interactie tussen mensen en besturingssystemen geëvolueerd van de opdrachtregelinterface naar de snel opkomende AI-agentinteracties. Het bouwen van een besturingssysteem (OS) agent die gebruikersinstructies kan uitvoeren en trouw gebruikerswensen kan volgen, wordt steeds meer een realiteit. In dit technische rapport presenteren we ColorAgent, een OS-agent die is ontworpen voor langdurige, robuuste interacties met de omgeving, terwijl hij ook gepersonaliseerde en proactieve gebruikersinteractie mogelijk maakt. Om langdurige interacties met de omgeving mogelijk te maken, verbeteren we de mogelijkheden van het model door middel van stapsgewijze reinforcement learning en zelf-evoluerende training, terwijl we ook een op maat gemaakt multi-agent framework ontwikkelen dat algemeenheid, consistentie en robuustheid garandeert. Wat betreft gebruikersinteractie onderzoeken we gepersonaliseerde herkenning van gebruikersintenties en proactieve betrokkenheid, waardoor de OS-agent niet slechts een automatiseringsinstrument is, maar een warme, collaboratieve partner. We evalueren ColorAgent op de AndroidWorld- en AndroidLab-benchmarks, waarbij we succespercentages van respectievelijk 77,2% en 50,7% behalen, wat een nieuwe standaard zet. Desalniettemin merken we op dat de huidige benchmarks onvoldoende zijn voor een uitgebreide evaluatie van OS-agenten en stellen we voor om in toekomstig werk verdere onderzoeksrichtingen te verkennen, met name op het gebied van evaluatieparadigma's, agent-samenwerking en beveiliging. Onze code is beschikbaar op https://github.com/MadeAgents/mobile-use.
Grote Multimodale Modellen (LMMs) coderen rijke feitelijke kennis via cross-modale voorafgaande training, maar hun statische representaties hebben moeite om een nauwkeurig begrip van tijdgevoelige feitelijke kennis te behouden. Bestaande benchmarks blijven beperkt door statische ontwerpen, waardoor ze onvoldoende in staat zijn om het vermogen van LMMs om tijdgevoelige kennis te begrijpen te evalueren. Om dit gat te dichten, stellen we MINED voor, een uitgebreide benchmark die temporeel bewustzijn evalueert langs 6 belangrijke dimensies en 11 uitdagende taken: cognitie, bewustzijn, betrouwbaarheid, begrip, redeneren en robuustheid. MINED is geconstrueerd vanuit Wikipedia door twee professionele annotators en bevat 2.104 tijdgevoelige kennismonsters die zes kennissoorten omvatten. Evaluatie van 15 veelgebruikte LMMs op MINED toont aan dat Gemini-2.5-Pro de hoogste gemiddelde CEM-score van 63.07 behaalt, terwijl de meeste open-source LMMs nog steeds een gebrek aan tijd-begripvermogen vertonen. Tegelijkertijd presteren LMMs het beste op organisatiekennis, terwijl hun prestaties het zwakst zijn op sport. Om deze uitdagingen aan te pakken, onderzoeken we de haalbaarheid van het bijwerken van tijdgevoelige kennis in LMMs via kennisbewerkingsmethoden en observeren we dat LMMs effectief kennis kunnen bijwerken via kennisbewerkingsmethoden in enkele bewerkingsscenario's.
Optimalisatiemodellering maakt cruciale beslissingen mogelijk in verschillende sectoren, maar blijft moeilijk te automatiseren: informele taal moet worden omgezet in precieze wiskundige formuleringen en uitvoerbare solvercode. Eerdere LLM-benaderingen vertrouwen op kwetsbare prompting of kostbare hertraining met beperkte generalisatie. Wij presenteren AlphaOPT, een zelfverbeterende ervaringsbibliotheek die een LLM in staat stelt te leren van beperkte demonstraties (zelfs alleen antwoorden, zonder gouden-standaardprogramma's) en solverfeedback - zonder geannoteerde redeneersporen of parameterupdates. AlphaOPT werkt in een voortdurende tweefasige cyclus: (i) een Bibliotheekleerfase die reflecteert op mislukte pogingen, waarbij solver-geverifieerde, gestructureerde inzichten worden geëxtraheerd als {taxonomie, conditie, uitleg, voorbeeld}; en (ii) een Bibliotheekevolutiefase die retrieval-misalignments diagnosticeert en de toepassingsvoorwaarden van opgeslagen inzichten verfijnt, waardoor de overdracht tussen taken wordt verbeterd. Dit ontwerp (1) leert efficiënt van beperkte demonstraties zonder gecureerde redeneringen, (2) breidt zich voortdurend uit zonder kostbare hertraining door de bibliotheek bij te werken in plaats van modelgewichten, en (3) maakt kennis expliciet en interpreteerbaar voor menselijke inspectie en interventie. Experimenten tonen aan dat AlphaOPT gestaag verbetert met meer data (65% tot 72% van 100 tot 300 trainingsitems) en de sterkste baseline met 7,7% overtreft op de out-of-distribution OptiBench-dataset wanneer alleen op antwoorden getraind. Code en data zijn beschikbaar op: https://github.com/Minw913/AlphaOPT.
Bestaande parameter-efficiënte fine-tuning (PEFT) methoden vallen voornamelijk in twee categorieën: op toevoeging gebaseerde en selectieve in-situ aanpassing. De eerste, zoals LoRA, introduceert aanvullende modules om het model aan te passen aan downstream taken, wat een sterke geheugenefficiëntie biedt. Hun representatiecapaciteit is echter vaak beperkt, waardoor ze minder geschikt zijn voor fijnmazige aanpassing. Daarentegen past de tweede categorie direct een zorgvuldig gekozen subset van de originele modelparameters aan, wat een preciezere en effectievere aanpassing mogelijk maakt, maar ten koste van een aanzienlijk hoger geheugengebruik. Om deze afweging te verzoenen, stellen we NeuroAda voor, een nieuwe PEFT-methode die fijnmazige model-finetuning mogelijk maakt terwijl een hoge geheugenefficiëntie behouden blijft. Onze aanpak identificeert eerst belangrijke parameters (d.w.z. verbindingen binnen het netwerk) zoals bij selectieve aanpassing, en introduceert vervolgens bypass-verbindingen voor deze geselecteerde parameters. Tijdens het finetunen worden alleen de bypass-verbindingen bijgewerkt, terwijl de originele modelparameters bevroren blijven. Empirische resultaten op meer dan 23 taken, variërend van natuurlijke taalgeneratie tot -begrip, tonen aan dat NeuroAda state-of-the-art prestaties bereikt met slechts ≤ 0,02% trainbare parameters, terwijl het CUDA-geheugengebruik met tot wel 60% wordt verminderd. We hebben onze code hier vrijgegeven: https://github.com/FightingFighting/NeuroAda.git.
Multimodale grote taalmodellen (MLLMs) maken een snelle vooruitgang, maar hun redeneervermogen blijft vaak achter bij dat van sterke tekstgebaseerde tegenhangers. Bestaande methoden om deze kloof te overbruggen, zijn gebaseerd op supervised fine-tuning over grootschalige multimodale redeneergegevens of reinforcement learning, die beide resource-intensief zijn. Een veelbelovend alternatief is modelmerging, waarbij parameters worden geïnterpoleerd tussen redenering-versterkte LLMs en multimodale varianten. Uit onze analyse blijkt echter dat naïeve merging niet altijd een "gratis voordeel" biedt: de effectiviteit ervan varieert sterk tussen modelfamilies, waarbij sommige (bijv. LLaVA, Idefics) profiteren terwijl andere (bijv. Qwen) prestatieverlies ondervinden. Om dit aan te pakken, stellen we Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs voor, een lichtgewicht methode die redeneerkennis overdraagt in de gradientruimte, zonder de multimodale uitlijning te destabiliseren. DRIFT berekent vooraf een redeneerprior als het parameterruimteverschil tussen redenering- en multimodale varianten, en gebruikt dit om de gradients te beïnvloeden tijdens multimodale fine-tuning. Deze benadering behoudt de eenvoud van standaard supervised fine-tuning pijplijnen, terwijl efficiënte kennisoverdracht mogelijk wordt. Uitgebreide experimenten op multimodale redeneerbenchmarks, waaronder MathVista en MathVerse, tonen aan dat DRIFT consistent betere redeneerprestaties levert dan naïeve merging en supervised fine-tuning, en tegelijkertijd zware trainingsmethoden evenaart of overtreft tegen een fractie van de kosten.
Hoogwaardige pre-trainingsgegevens zijn cruciaal voor grote taalmodelen, waarbij kwaliteit verwijst naar feitelijke betrouwbaarheid en semantische waarde, en diversiteit zorgt voor brede dekking en distributieheterogeniteit. Bestaande benaderingen vertrouwen doorgaans op selectie op basis van scores in één of meerdere dimensies. Het direct selecteren van data met de hoogste scores leidt echter vaak tot prestatieverlies, en steekproeven uit een breder bereik zijn nodig om resultaten te herstellen. De bovengenoemde niet-monotone relatie tussen datasetscores en downstream benchmarkresultaten onthult een fundamentele bias: op scores gebaseerde methoden laten gecorreleerde dimensies samenvallen, waardoor data met de hoogste scores hoogwaardig lijken terwijl diversiteit systematisch over het hoofd wordt gezien. Wij stellen dat het waarborgen van diversiteit vereist dat gecorreleerde metrieken worden ontbonden in orthogonale featuredimensies, waaruit de data met de hoogste scores direct kan worden geselecteerd. Daarom hebben we het Orthogonal Diversity-Aware Selection (ODiS)-algoritme voorgesteld, dat zowel kwaliteit als diversiteit behoudt tijdens dataselectie. Ten eerste evalueert ODiS data vanuit meerdere dimensies, waaronder taal kwaliteit, kennis kwaliteit en begripsmoeilijkheid. De multidimensionale scores worden vervolgens gedecorreleerd via Principal Component Analysis (PCA), wat orthogonale evaluatiedimensies oplevert. Voor elke dimensie wordt een Roberta-gebaseerde scorer getraind om de data te regresseren op PCA-geprojecteerde scores, waardoor schaalbare inferentie op grote corpora mogelijk wordt. Ten slotte construeert ODiS de trainingsdataset door data met de hoogste scores binnen elke orthogonale dimensie te selecteren, waardoor zowel kwaliteit als diversiteit worden gewaarborgd. Empirische resultaten tonen aan dat door ODiS geselecteerde data minder dan 2% overlap tussen dimensies vertonen, wat de orthogonaliteit tussen dimensies bevestigt. Belangrijker is dat modellen getraind met door ODiS geselecteerde data significant beter presteren dan andere baselines op downstream benchmarks, wat het belang onderstreept van orthogonale, diversiteitsbewuste dataselectie voor LLM's.
Kamerimpulsresponsen vormen een essentiële bron voor dereverberatie, robuuste spraakherkenning, bronlokalisatie en schatting van ruimteakoestiek. Wij presenteren RIR-Mega, een grote verzameling gesimuleerde RIR's die worden beschreven door een compact, machinevriendelijk metadatenschema en worden gedistribueerd met eenvoudige tools voor validatie en hergebruik. De dataset wordt geleverd met een Hugging Face Datasets-loader, scripts voor metadata-controles en checksums, en een referentie-regressiebaseline die RT60-doelwaarden voorspelt uit golfvormen. Op een trainings- en validatieset van respectievelijk 36.000 en 4.000 voorbeelden bereikt een kleine Random Forest op lichtgewicht tijds- en spectrale kenmerken een gemiddelde absolute fout van ongeveer 0,013 s en een wortelgemiddelde kwadratische fout van ongeveer 0,022 s. We hosten een subset met 1.000 RIR's voor lineaire arrays en 3.000 RIR's voor circulaire arrays op Hugging Face voor streaming en snelle tests, en bewaren het complete archief van 50.000 RIR's op Zenodo. De dataset en code zijn openbaar om reproduceerbare studies te ondersteunen.
Het evalueren van vooruitgang in grote taalmodellen (LLMs) wordt vaak beperkt door de uitdaging om antwoorden te verifiëren, waardoor beoordelingen beperkt blijven tot taken zoals wiskunde, programmeren en kort-antwoordvragen. Echter, veel real-world toepassingen vereisen het evalueren van LLMs in het verwerken van professionele documenten, het synthetiseren van informatie en het genereren van uitgebreide rapporten in reactie op gebruikersvragen. Wij introduceren ProfBench: een set van meer dan 7000 respons-criteriumparen zoals beoordeeld door menselijke experts met professionele kennis op het gebied van Physics PhD, Chemistry PhD, Finance MBA en Consulting MBA. We ontwikkelen robuuste en betaalbare LLM-Judges om de ProfBench-rubrics te evalueren, door zelfversterkingsbias te verminderen en de evaluatiekosten met 2-3 grootteordes te verlagen, om het eerlijk en toegankelijk te maken voor een bredere gemeenschap. Onze bevindingen tonen aan dat ProfBench aanzienlijke uitdagingen biedt, zelfs voor state-of-the-art LLMs, waarbij topmodellen zoals GPT-5-high slechts 65,9\% algehele prestaties behalen. Bovendien identificeren we opmerkelijke prestatieverschillen tussen propriëtaire en open-weight modellen en bieden we inzichten in de rol die uitgebreid denken speelt bij het aanpakken van complexe, professionele-domeintaken. Data: https://huggingface.co/datasets/nvidia/ProfBench en Code: https://github.com/NVlabs/ProfBench
Mensen zien tekst. Mensen lezen door woorden te herkennen als visuele objecten, inclusief hun vormen, lay-outs en patronen, voordat ze deze verbinden aan betekenis, wat ons in staat stelt om effectief om te gaan met typefouten, vervormde lettertypen en verschillende schriften. Moderne grote taalmmodellen (LLMs) vertrouwen echter op subwoord-tokenisatie, waarbij tekst wordt opgesplitst in fragmenten uit een vaste woordenschat. Hoewel deze aanpak effectief is voor talen met veel bronnen, leidt dit tot overmatige segmentatie van talen met weinig bronnen, wat resulteert in lange, taalkundig betekenisloze reeksen en een toename van de rekenkracht. In dit werk dagen we dit gevestigde paradigma uit en bewegen we naar een visie-gerichte alternatieve benadering. Onze methode, SeeTok, zet tekst om in afbeeldingen (visuele tekst) en maakt gebruik van vooraf getrainde multimodale LLMs om deze te interpreteren, waarbij sterke OCR- en tekst-visie-uitlijningsvaardigheden worden hergebruikt die zijn geleerd uit grootschalige multimodale training. Over drie verschillende taaltaken heen presteert SeeTok even goed of beter dan subwoord-tokenizers, terwijl het 4,43 keer minder tokens vereist en de FLOPs met 70,5% vermindert, met extra voordelen in cross-linguale generalisatie, robuustheid tegen typografische ruis en taalkundige hiërarchie. SeeTok markeert een verschuiving van symbolische tokenisatie naar menselijk visueel lezen en zet een stap in de richting van natuurlijkere en cognitief geïnspireerde taalmmodellen.
Text-to-Image (T2I) modellen hebben een snelle vooruitgang geboekt, maar blijven kwetsbaar voor semantisch lekken, de onbedoelde overdracht van semantisch gerelateerde kenmerken tussen verschillende entiteiten. Bestaande mitigatiestrategieën zijn vaak gebaseerd op optimalisatie of afhankelijk van externe inputs. Wij introduceren DeLeaker, een lichtgewicht, optimalisatievrije aanpak tijdens de inferentie die lekken vermindert door direct in te grijpen op de aandachtkaarten van het model. Gedurende het diffusieproces herweegt DeLeaker dynamisch de aandachtkaarten om excessieve interacties tussen entiteiten te onderdrukken, terwijl de identiteit van elke entiteit wordt versterkt. Om systematische evaluatie mogelijk te maken, introduceren we SLIM (Semantic Leakage in IMages), de eerste dataset die specifiek gericht is op semantisch lekken, bestaande uit 1.130 door mensen geverifieerde voorbeelden die diverse scenario's bestrijken, samen met een nieuw automatisch evaluatieraamwerk. Experimenten tonen aan dat DeLeaker consistent alle referentiemodellen overtreft, zelfs wanneer deze externe informatie krijgen, en effectief lekken vermindert zonder in te leveren op trouw of kwaliteit. Deze resultaten onderstrepen de waarde van aandachtcontrole en openen de weg naar semantisch preciezere T2I-modellen.
Hoewel membership inference attacks (MIAs) en detectie van machinaal gegenereerde tekst verschillende doelen nastreven, namelijk het identificeren van trainingsvoorbeelden en synthetische teksten, maken hun methoden vaak gebruik van vergelijkbare signalen gebaseerd op de waarschijnlijkheidsverdeling van een taalmodel. Ondanks deze gedeelde methodologische basis zijn de twee taken onafhankelijk van elkaar bestudeerd, wat kan leiden tot conclusies die sterkere methoden en waardevolle inzichten die in de andere taak zijn ontwikkeld over het hoofd zien. In dit werk onderzoeken we theoretisch en empirisch de overdraagbaarheid, d.w.z. hoe goed een methode die oorspronkelijk voor de ene taak is ontwikkeld presteert op de andere, tussen MIAs en detectie van machinaal gegenereerde tekst. Voor onze theoretische bijdrage bewijzen we dat de metriek die de asymptotisch hoogste prestaties op beide taken bereikt, dezelfde is. We verenigen een groot deel van de bestaande literatuur in de context van deze optimale metriek en stellen de hypothese op dat de nauwkeurigheid waarmee een bepaalde methode deze metriek benadert, direct gecorreleerd is met de overdraagbaarheid ervan. Onze grootschalige empirische experimenten, met 7 state-of-the-art MIA-methoden en 5 state-of-the-art detectiemethoden voor machinaal gegenereerde tekst over 13 domeinen en 10 generatoren, tonen een zeer sterke rangcorrelatie (rho > 0,6) in kruistakenprestaties. We merken opvallend genoeg op dat Binoculars, oorspronkelijk ontworpen voor detectie van machinaal gegenereerde tekst, ook state-of-the-art prestaties behaalt op MIA-benchmarks, wat de praktische impact van de overdraagbaarheid aantoont. Onze bevindingen benadrukken de noodzaak van een grotere kruistakenbewustwording en samenwerking tussen de twee onderzoeksgemeenschappen. Om kruistakenontwikkelingen en eerlijke evaluaties te vergemakkelijken, introduceren we MINT, een geïntegreerd evaluatiepakket voor MIAs en detectie van machinaal gegenereerde tekst, met implementaties van 15 recente methoden uit beide taken.
Transformers slagen er vaak niet in om generaliseerbare algoritmen te leren, en vertrouwen in plaats daarvan op broze heuristieken. Met behulp van grafconnectiviteit als testomgeving verklaren we dit fenomeen zowel theoretisch als empirisch. We beschouwen een vereenvoudigde Transformer-architectuur, de ontwarde Transformer, en bewijzen dat een model met L lagen de capaciteit heeft om grafen met diameters tot precies 3^L op te lossen, waarbij een algoritme wordt geïmplementeerd dat equivalent is aan het berekenen van machten van de adjacency-matrix. We analyseren de trainingsdynamiek en laten zien dat de geleerde strategie afhangt van de vraag of de meeste trainingsinstanties binnen deze modelcapaciteit vallen. Binnen-capaciteit grafen (diameter ≤ 3^L) leiden tot het leren van een correct algoritmisch oplossing, terwijl buiten-capaciteit grafen het leren van een eenvoudige heuristiek op basis van knooppuntgraden stimuleren. Tot slot tonen we empirisch aan dat het beperken van trainingsgegevens binnen de capaciteit van een model ertoe leidt dat zowel standaard als ontwarde Transformers het exacte algoritme leren in plaats van de graad-gebaseerde heuristiek.