Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit rapport introduceren we Ovis-U1, een uniform model met 3 miljard parameters dat multimodale begripsvorming, tekst-naar-beeldgeneratie en beeldbewerkingsmogelijkheden integreert. Voortbouwend op de basis van de Ovis-serie, bevat Ovis-U1 een op diffusie gebaseerde visuele decoder in combinatie met een bidirectionele tokenverfijner, waardoor het beeldgeneratietaken kan uitvoeren die vergelijkbaar zijn met toonaangevende modellen zoals GPT-4o. In tegenstelling tot sommige eerdere modellen die een bevroren MLLM gebruiken voor generatietaken, maakt Ovis-U1 gebruik van een nieuwe uniforme trainingsaanpak die start vanuit een taalmodel. Vergeleken met training die zich uitsluitend richt op begrips- of generatietaken, levert uniforme training betere prestaties op, wat de verbetering aantoont die wordt bereikt door deze twee taken te integreren. Ovis-U1 behaalt een score van 69,6 op de OpenCompass Multimodale Academische Benchmark, waarmee het recente state-of-the-art modellen zoals Ristretto-3B en SAIL-VL-1.5-2B overtreft. Bij tekst-naar-beeldgeneratie blinkt het uit met scores van 83,72 en 0,89 op respectievelijk de DPG-Bench en GenEval benchmarks. Voor beeldbewerking behaalt het scores van 4,00 en 6,42 op respectievelijk de ImgEdit-Bench en GEdit-Bench-EN. Als de eerste versie van de Ovis uniforme modelreeks, verlegt Ovis-U1 de grenzen van multimodale begripsvorming, generatie en bewerking.
Recente vooruitgang in reinforcement learning heeft aangetoond dat taalmodellen geavanceerd redeneervermogen kunnen ontwikkelen door training op taken met verifieerbare beloningen, maar deze benaderingen zijn afhankelijk van door mensen samengestelde probleem-antwoordparen en domeinspecifieke beloningsengineering. Wij introduceren SPIRAL, een zelfspelraamwerk waarin modellen leren door multi-turn, zero-sum spellen te spelen tegen continu verbeterende versies van zichzelf, waardoor menselijk toezicht overbodig wordt. Door zelfspel genereert SPIRAL een oneindig curriculum van progressief uitdagende problemen, aangezien modellen zich constant moeten aanpassen aan sterkere tegenstanders. Om deze zelfspeltraining op grote schaal mogelijk te maken, implementeren we een volledig online, multi-turn, multi-agent reinforcement learning-systeem voor LLM's en stellen we rol-geconditioneerde voordeelschatting (RAE) voor om multi-agent training te stabiliseren. Met SPIRAL leidt zelfspel op zero-sum spellen tot redeneervermogen dat breed overdraagbaar is. Het trainen van Qwen3-4B-Base op alleen Kuhn Poker resulteert in een verbetering van 8,6% op wiskunde en 8,4% op algemeen redeneervermogen, wat beter presteert dan SFT op 25.000 expertspeltrajecten. Analyse toont aan dat deze overdracht plaatsvindt via drie cognitieve patronen: systematische decompositie, verwachtingswaardeberekening en geval-voor-geval analyse. Multi-spel training (TicTacToe, Kuhn Poker, Simple Negotiation) verbetert de prestaties verder, aangezien elk spel verschillende redeneerkracht ontwikkelt. Het toepassen van SPIRAL op een sterk redeneermodel (DeepSeek-R1-Distill-Qwen-7B) kan nog steeds leiden tot een gemiddelde verbetering van 2,0%. Deze resultaten tonen aan dat zero-sum spellen van nature overdraagbaar redeneervermogen ontwikkelen, wat een veelbelovende richting voor autonome redeneerontwikkeling benadrukt.
We introduceren Calligrapher, een innovatief op diffusie gebaseerd raamwerk dat geavanceerde tekstcustomisatie op een vernieuwende manier integreert met artistieke typografie voor digitale kalligrafie en ontwerptoepassingen. Om de uitdagingen van precieze stijlcontrole en data-afhankelijkheid bij typografische customisatie aan te pakken, omvat ons raamwerk drie belangrijke technische bijdragen. Ten eerste ontwikkelen we een zelfdistillatiemechanisme dat gebruikmaakt van het vooraf getrainde tekst-naar-beeld generatieve model zelf, samen met het grote taalmodel, om automatisch een stijlgericht typografiebenchmark te construeren. Ten tweede introduceren we een gelokaliseerd stijlinjectieraamwerk via een trainbare stijlcoderingsmodule, die zowel Qformer- als lineaire lagen omvat, om robuuste stijlkenmerken uit referentiebeelden te extraheren. Een in-context generatiemechanisme wordt ook ingezet om referentiebeelden direct in het denoisingsproces in te bedden, wat de verfijnde afstemming van doelstijlen verder verbetert. Uitgebreide kwantitatieve en kwalitatieve evaluaties over diverse lettertypen en ontwerpcontexten bevestigen dat Calligrapher ingewikkelde stilistische details en precieze glyphpositionering nauwkeurig reproduceert. Door hoogwaardige, visueel consistente typografie te automatiseren, overtreft Calligrapher traditionele modellen en ondersteunt het creatieve professionals in digitale kunst, branding en contextuele typografische ontwerpen.
De kwadratische complexiteit van volledige aandachtmechanismen vormt een aanzienlijk knelpunt voor Video Diffusion Models (VDMs) die gericht zijn op het genereren van lange, hoogwaardige video's. Hoewel verschillende sparse aandachtmethoden zijn voorgesteld, zijn veel ervan ontworpen als trainingsvrije inferentieversnellers of vangen ze niet optimaal de unieke ruimtelijk-temporele kenmerken van videogegevens wanneer ze natieve training ondergaan. Dit artikel introduceert Video Mixture of Block Attention (VMoBA), een nieuw sparse aandachtmechanisme specifiek aangepast voor VDMs. Geïnspireerd door een diepgaande analyse van aandachtspatronen in vooraf getrainde videotransformers, die sterke ruimtelijk-temporele lokaliteit, variërende query-belangrijkheid en kop-specifieke concentratieniveaus aan het licht brachten, verbetert VMoBA het originele MoBA-raamwerk met drie belangrijke aanpassingen: (1) een laaggewijs recurrent blokpartitieschema (1D-2D-3D) om dynamisch aan te passen aan diverse ruimtelijk-temporele aandachtspatronen en de efficiëntie te verbeteren; (2) globale blokselectie om de meest opvallende query-key blokinteracties over een volledige aandachtkop te prioriteren; en (3) drempelgebaseerde blokselectie om dynamisch het aantal geattendeerde blokken te bepalen op basis van hun cumulatieve gelijkenis. Uitgebreide experimenten tonen aan dat VMoBA de training van VDMs op langere sequenties aanzienlijk versnelt, met een 2,92x FLOPs- en 1,48x latentieversnelling, terwijl het vergelijkbare of zelfs superieure generatiekwaliteit bereikt ten opzichte van volledige aandacht. Bovendien toont VMoBA competitieve prestaties in trainingsvrije inferentie, met een 2,40x FLOPs- en 1,35x latentieversnelling voor het genereren van hoogwaardige video's.
Recente vooruitgang in optische stroomberekening heeft prioriteit gegeven aan nauwkeurigheid ten koste van een toenemend GPU-geheugengebruik, vooral voor hoogwaardige (FullHD) invoer. Wij introduceren MEMFOF, een geheugenefficiënte multi-frame optische stroommethode die een gunstige balans vindt tussen multi-frame berekening en GPU-geheugengebruik. Opmerkelijk is dat MEMFOF slechts 2,09 GB GPU-geheugen vereist tijdens runtime voor 1080p-invoer, en 28,5 GB tijdens training, wat onze methode uniek positioneert om op native 1080p te worden getraind zonder de noodzaak van bijsnijden of downsampling. We herzien systematisch ontwerpkeuzes van RAFT-achtige architecturen, waarbij we gereduceerde correlatievolumes en hoogwaardige trainingsprotocollen integreren naast multi-frame berekening, om state-of-the-art prestaties te bereiken over meerdere benchmarks terwijl het geheugengebruik aanzienlijk wordt verminderd. Onze methode overtreft meer resource-intensieve alternatieven in zowel nauwkeurigheid als runtime-efficiëntie, wat de robuustheid voor stroomberekening op hoge resoluties bevestigt. Op het moment van indiening staat onze methode op de eerste plaats op de Spring-benchmark met een 1-pixel (1px) outlierpercentage van 3,289, leidt Sintel (clean) met een eindpuntfout (EPE) van 0,963, en behaalt de beste Fl-all fout op KITTI-2015 met 2,94%. De code is beschikbaar op https://github.com/msu-video-group/memfof.
Het trainen van robuuste en generaliseerbare beloningsmodellen voor menselijke visuele voorkeuren is essentieel om tekst-naar-beeld en tekst-naar-video generatieve modellen af te stemmen op menselijke intenties. Huidige beloningsmodellen slagen er echter vaak niet in om te generaliseren, en supervised fine-tuning leidt tot memorisatie, wat complexe annotatiepijplijnen vereist. Hoewel reinforcement learning (RL), specifiek Group Relative Policy Optimization (GRPO), de generalisatie verbetert, ontdekken we een belangrijk falingspunt: een significante daling in redeneernauwkeurigheid treedt op wanneer het redeneerspoor van een model in tegenspraak is met dat van een onafhankelijk, bevroren vision-language model ("listener") dat dezelfde output evalueert. Om dit aan te pakken, introduceren we een listener-augmented GRPO-framework. Hierbij her-evalueert de listener de redeneerketen van de reasoner om een dicht, gekalibreerd vertrouwensscore te bieden, wat het RL-beloningssignaal vormt. Dit moedigt de reasoner niet alleen aan om correct te antwoorden, maar ook om uitleg te produceren die overtuigend is voor een onafhankelijk model. Ons listener-gestuurde beloningsschema behaalt de beste nauwkeurigheid op de ImageReward-benchmark (67,4%), verbetert de out-of-distribution (OOD) prestaties aanzienlijk op een grootschalige dataset van menselijke voorkeuren (1,2M stemmen, tot +6% boven een naïeve reasoner), en vermindert redeneer-tegenspraken in vergelijking met sterke GRPO- en SFT-baselines. Deze resultaten tonen aan dat listener-gebaseerde beloningen een schaalbare, data-efficiënte weg bieden om vision-language modellen af te stemmen op genuanceerde menselijke voorkeuren. We zullen ons redeneermodel hier vrijgeven: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
We stellen een nieuw promptontwerpparadigma voor dat de conventionele wijsheid uitdaagt bij het aansturen van grote taalmodellen (LLM's). Terwijl conventionele wijsheid goed geformuleerde instructies en demonstraties benadrukt voor in-context learning (ICL), laten we zien dat het snoeien van willekeurige demonstraties tot schijnbaar onsamenhangende "onzin" de prestaties op diverse taken opmerkelijk kan verbeteren. Opvallend is dat de "onzin" altijd even goed of beter presteert dan state-of-the-art automatische promptoptimalisatietechnieken, met aanzienlijke verbeteringen ongeacht de afstemming van het LLM. Het ontdekken van een effectieve snoeistrategie is echter niet triviaal, aangezien bestaande attributiemethoden en promptcompressiealgoritmen geen robuuste resultaten opleveren, laat staan menselijke intuïtie. In dit verband stellen we een zelfontdekkend promptoptimalisatieraamwerk voor, PromptQuine, een evolutionair zoekraamwerk dat automatisch de snoeistrategie zoekt met slechts weinig data. Net zoals de emergente complexiteit in de natuur—zoals symbiose en zelforganisatie—ontstaat als reactie op beperkte middelen, evolueert en verfijnt ons raamwerk onconventionele maar zeer effectieve prompts door alleen de tokens binnen de context te benutten. We demonstreren de effectiviteit ervan bij classificatie-, meerkeuzevragen-, generatie- en wiskundige redeneertaken over verschillende LLM's, terwijl we een behoorlijke runtime-efficiëntie behalen. We hopen dat onze bevindingen mechanistische studies over in-context learning kunnen begeleiden en een oproep tot actie bieden om de weg te effenen voor meer open-ended zoekalgoritmen voor effectievere LLM-prompting.
Het finetunen van LLM's is zowel rekenkundig als geheugenintensief. Hoewel parameter-efficiënte finetunemethoden, zoals QLoRA en DoRA, het aantal trainbare parameters verminderen en het geheugengebruik verlagen, verlagen ze niet de rekenkosten. In sommige gevallen kunnen ze het finetunen zelfs vertragen. In dit artikel introduceren we SparseLoRA, een methode die het finetunen van LLM's versnelt door middel van contextuele sparsity. We stellen een lichtgewicht, trainingsvrije SVD-sparsityschatter voor die dynamisch een sparse subset van gewichten selecteert voor verlies- en gradientberekening. Daarnaast analyseren en behandelen we systematisch gevoeligheid over lagen, tokens en trainingsstappen heen. Onze experimentele resultaten tonen aan dat SparseLoRA de rekenkosten tot 2,2 keer vermindert en een gemeten versnelling tot 1,6 keer bereikt, terwijl de nauwkeurigheid behouden blijft over verschillende downstream taken, waaronder gezond verstand en rekenkundig redeneren, codegeneratie en instructieopvolging.
Diepte-afbeeldingen die worden vastgelegd door Time-of-Flight (ToF) sensoren zijn gevoelig voor ruis, waardoor denoising nodig is voor betrouwbare downstream toepassingen. Eerdere werken richten zich ofwel op single-frame verwerking, of voeren multi-frame verwerking uit zonder rekening te houden met dieptevariaties bij corresponderende pixels over frames, wat leidt tot ongewenste temporele inconsistentie en ruimtelijke ambiguïteit. In dit artikel stellen we een nieuw ToF diepte-denoising netwerk voor dat gebruik maakt van motion-invariant graph fusion om tegelijkertijd temporele stabiliteit en ruimtelijke scherpte te verbeteren. Specifiek, ondanks diepteveranderingen over frames, vertonen grafiekstructuren temporele zelfgelijkvormigheid, wat cross-frame geometrische aandacht voor grafiekfusie mogelijk maakt. Vervolgens formuleren we, door een beeldgladheidsprior op de gefuseerde grafiek en een data-fidelity term afgeleid van de ToF-ruisverdeling te integreren, een maximum a posteriori probleem voor ToF-denoising. Ten slotte wordt de oplossing uitgevouwen tot iteratieve filters waarvan de gewichten adaptief worden geleerd uit de grafiek-geïnformeerde geometrische aandacht, wat resulteert in een hoogwaardig maar interpreteerbaar netwerk. Experimentele resultaten tonen aan dat het voorgestelde schema state-of-the-art prestaties bereikt in termen van nauwkeurigheid en consistentie op de synthetische DVToF dataset en robuuste generalisatie vertoont op de echte Kinectv2 dataset. Broncode zal worden vrijgegeven op https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
Het vermogen om informatie uit meerdere modaliteiten te verwerken en stap voor stap te redeneren blijft een cruciale uitdaging in de vooruitgang van kunstmatige intelligentie. Bestaande redeneerbenchmarks richten zich echter alleen op tekstueel redeneren of gebruiken multimodale vragen die beantwoord kunnen worden door informatie rechtstreeks uit een niet-tekstuele modaliteit op te halen. Hierdoor blijft complex redeneren in multimodale domeinen slecht begrepen. Hier presenteren we MARBLE, een uitdagende multimodale redeneerbenchmark die is ontworpen om multimodale taalmodellen (MLLMs) te testen op hun vermogen om zorgvuldig stap voor stap te redeneren door complexe multimodale problemen en omgevingen. MARBLE bestaat uit twee zeer uitdagende taken, M-Portal en M-Cube, die het opstellen en begrijpen van meerstappenplannen vereisen onder ruimtelijke, visuele en fysieke beperkingen. We constateren dat huidige MLLMs slecht presteren op MARBLE — alle 12 geavanceerde modellen behalen bijna willekeurige prestaties op M-Portal en 0% nauwkeurigheid op M-Cube. Alleen in vereenvoudigde subtaken presteren sommige modellen beter dan de willekeurige basislijn, wat aangeeft dat complex redeneren nog steeds een uitdaging is voor bestaande MLLMs. Bovendien tonen we aan dat perceptie een knelpunt blijft, waarbij MLLMs soms falen om informatie uit de visuele invoer te extraheren. Door de beperkingen van MLLMs te belichten, hopen we dat MARBLE de ontwikkeling van de volgende generatie modellen zal stimuleren, met het vermogen om te redeneren en te plannen over vele, multimodale redeneerstappen.
Agents gebaseerd op Large Language Models (LLMs) hebben potentie getoond voor het autonoom uitvoeren van geavanceerde software engineering taken. Daarnaast is er vooruitgang geboekt bij het ontwikkelen van agents die delen van de onderzoekspijplijn in machine learning en de natuurwetenschappen kunnen uitvoeren. Wij stellen dat het uitbreiden van onderzoek en de implementatie daarvan een cruciale vaardigheid is voor dergelijke systemen, en introduceren RExBench om de evaluatie van deze vaardigheid te ondersteunen. RExBench is een benchmark die bestaat uit 12 realistische onderzoeksexperimentimplementatietaken die gericht zijn op het onderzoeken van onderzoekshypothesen die nog niet eerder zijn geïmplementeerd. Elke taak is opgezet als een uitbreiding van een bestaand onderzoekspaper en codebase, vergezeld van instructies geschreven door domeinexperts. RExBench is robuust tegen datacontaminatie en ondersteunt een automatische evaluatie-infrastructuur die de uitvoer van agents uitvoert om te bepalen of de succescriteria worden gehaald. We gebruiken deze benchmark om negen LLM-agents te evalueren die zijn geïmplementeerd met behulp van drie verschillende frameworks: aider, Claude Code en OpenHands. We constateren dat alle geëvalueerde agents er niet in slagen om de meerderheid van de uitbreidingen autonoom te implementeren. Hoewel het slagingspercentage verbetert met aanvullende door mensen geschreven hints, blijft de beste prestatie onder deze instelling onder de 40%. Dit geeft aan dat huidige agents nog niet in staat zijn om realistische onderzoeksuitbreidingstaken aan te kunnen zonder aanzienlijke menselijke begeleiding.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben aangetoond dat inferentie-tijd rekentechnieken, zoals schalen tijdens decodering en zelfverfijning, de redeneervaardigheden aanzienlijk kunnen verbeteren zonder afhankelijk te zijn van externe kennis. Een belangrijke drijfveer van dit succes is het ontstaan van zelfcorrectie- en zelfverificatiegedrag, vaak uitgelokt door reinforcement learning (RL). In dit artikel onderzoeken we of deze inferentie-tijd technieken effectief kunnen worden uitgebreid naar visie-taalmodellen (VLMs), met name die getraind zijn met RL. We ontdekken dat hoewel decoderingsstrategieën zoals meerderheidsstemming en best-of-N selectie met zelfverificatie allemaal de redeneerprestaties van VLMs verbeteren, generatie-afhankelijke methoden zoals de eerste aanzienlijk hogere winsten behalen in vergelijking met verificatie-afhankelijke methoden zoals de laatste. Daarnaast leidt het zelfcorrectiegedrag dat vaak geassocieerd wordt met RL-getrainde modellen, zoals een aha-moment, niet tot meetbare verbeteringen. We tonen via uitgebreide experimenten binnen het inferentie-tijd schalingskader een belangrijke oorzaak aan: RL-getrainde VLMs missen nog steeds robuuste zelfverificatiecapaciteiten over zowel visuele als tekstuele modaliteiten.
Stedelijk onderzoek omvat een breed scala aan scenario's en taken die het begrip van multimodale data vereisen. Huidige methoden richten zich vaak op specifieke datatypes en missen een uniform raamwerk in het stedelijke domein om deze uitgebreid te verwerken. Het recente succes van multimodale grote taalmodellen (MLLMs) biedt een veelbelovende mogelijkheid om deze beperking te overwinnen. In dit artikel introduceren we UrbanLLaVA, een multimodaal groot taalmodel dat is ontworpen om deze vier typen data gelijktijdig te verwerken en sterke prestaties te leveren bij diverse stedelijke taken in vergelijking met algemene MLLMs. In UrbanLLaVA stellen we eerst een diverse stedelijke instructiedataset samen die zowel unimodale als cross-modale stedelijke data omvat, variërend van een locatieweergave tot een globaal overzicht van de stedelijke omgeving. Daarnaast stellen we een meerfasig trainingsraamwerk voor dat ruimtelijk redeneren loskoppelt van domeinkennisleren, waardoor de compatibiliteit en downstream prestaties van UrbanLLaVA bij diverse stedelijke taken worden verbeterd. Tot slot breiden we de bestaande benchmark voor stedelijk onderzoek uit om de prestaties van MLLMs bij een breed scala aan stedelijke taken te beoordelen. Experimentele resultaten uit drie steden tonen aan dat UrbanLLaVA zowel open-source als propriëtaire MLLMs overtreft in zowel unimodale taken als complexe cross-modale taken en robuuste generalisatiecapaciteiten over steden laat zien. Broncodes en data zijn openbaar toegankelijk voor de onderzoeksgemeenschap via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Hoewel end-to-end video-naar-audio-generatie aanzienlijk is verbeterd, blijft het produceren van hoogwaardige audio die de nuances van visuele inhoud authentiek vastlegt een uitdaging. Net als professionals in de creatieve industrieën vereist dergelijke generatie geavanceerd redeneervermogen over aspecten zoals visuele dynamiek, akoestische omgevingen en temporele relaties. Wij presenteren ThinkSound, een nieuw framework dat gebruikmaakt van Chain-of-Thought (CoT)-redenering om stapsgewijze, interactieve audio-generatie en -bewerking voor video's mogelijk te maken. Onze aanpak deelt het proces op in drie complementaire fasen: fundamentele foley-generatie die semantisch samenhangende soundscapes creëert, interactieve objectgerichte verfijning via precieze gebruikersinteracties, en gerichte bewerking geleid door natuurlijke taal instructies. In elke fase genereert een multimodaal groot taalmodel contextueel afgestemde CoT-redenering die een geïntegreerd audio-foundationmodel aanstuurt. Bovendien introduceren we AudioCoT, een uitgebreide dataset met gestructureerde redeneringsannotaties die verbanden legt tussen visuele inhoud, tekstuele beschrijvingen en geluidssynthese. Experimenten tonen aan dat ThinkSound state-of-the-art prestaties bereikt in video-naar-audio-generatie, zowel op audio- als CoT-metrics, en uitblinkt in de out-of-distribution Movie Gen Audio-benchmark. De demopagina is beschikbaar op https://ThinkSound-Project.github.io.
Wereldmodellen zijn onmisbare tools geworden voor belichaamde intelligentie, die dienen als krachtige simulatoren die realistische robotvideo's kunnen genereren en tegelijkertijd cruciale uitdagingen op het gebied van dataschaarste aanpakken. Huidige belichaamde wereldmodellen vertonen echter beperkt fysiek bewustzijn, met name in het modelleren van 3D-geometrie en bewegingsdynamiek, wat resulteert in onrealistische videogeneratie voor contactrijke robotscenario's. In dit artikel presenteren we RoboScape, een geünificeerd fysica-geïnformeerd wereldmodel dat RGB-videogeneratie en fysicakennis gezamenlijk leert binnen een geïntegreerd raamwerk. We introduceren twee belangrijke fysica-geïnformeerde gezamenlijke trainings taken: tijdelijke dieptevoorspelling die de 3D-geometrische consistentie in videoweergave verbetert, en keypoint-dynamiekleren dat impliciet fysieke eigenschappen (bijv. objectvorm en materiaalkenmerken) codeert terwijl het complexe bewegingsmodellering verbetert. Uitgebreide experimenten tonen aan dat RoboScape video's genereert met superieure visuele kwaliteit en fysieke geloofwaardigheid in diverse robotscenario's. We valideren verder de praktische bruikbaarheid door downstream toepassingen, inclusief robotbeleidstraining met gegenereerde data en beleidsevaluatie. Ons werk biedt nieuwe inzichten voor het bouwen van efficiënte fysica-geïnformeerde wereldmodellen om onderzoek naar belichaamde intelligentie vooruit te helpen. De code is beschikbaar op: https://github.com/tsinghua-fib-lab/RoboScape.
Externe toolintegratie via functie-aanroepen is essentieel voor praktische taalmodeltoepassingen, maar de meeste meertalige modellen beschikken niet over betrouwbare toolgebruiksmogelijkheden in niet-Engelse talen. Zelfs state-of-the-art meertalige modellen hebben moeite met het bepalen van wanneer tools moeten worden gebruikt en het genereren van de gestructureerde uitvoer die nodig is voor functie-aanroepen, waarbij vaak taalverwarring optreedt bij prompts in minder-ondersteunde talen. Dit werk presenteert een methodologie voor het aanpassen van bestaande taalmmodellen om robuust toolgebruik in elke doeltaal mogelijk te maken, met Bulgaars als casestudy. De aanpak omvat voortgezette training van de BgGPT-modelreeks (2,6B, 9B, 27B parameters) op een nieuwe tweetalige dataset van 10.035 voorbeelden van functie-aanroepen, ontworpen om gestandaardiseerde protocollen zoals MCP (Model Context Protocol) te ondersteunen. Het onderzoek introduceert TUCAN (Tool-Using Capable Assistant Navigator), dat een verbetering tot 28,75% bereikt in de nauwkeurigheid van functie-aanroepen vergeleken met basismodellen, terwijl het kernbegrip van de taal behouden blijft, zoals geverifieerd op gevestigde Bulgaarse benchmarks. Naast nauwkeurigheidswinst tonen TUCAN-modellen productieklaar antwoordformattering met schone, parseerbare functie-aanroepen, in contrast met de uitgebreide en inconsistente uitvoer van basismodellen. De modellen, evaluatieraamwerk en dataset worden vrijgegeven om replicatie voor andere talen mogelijk te maken. Dit werk demonstreert een praktische aanpak voor het uitbreiden van tool-augmented mogelijkheden buiten Engels-centrische systemen.
In dit artikel introduceren we een eenvoudige, trainingsvrije techniek om de prestaties van drafter-gebaseerde speculatieve decodering (SpD) methoden te verbeteren, waarbij de language modeling head (LM head) wordt geïntegreerd tijdens het draftingproces. Drafter-gebaseerde speculatieve decodering maakt gebruik van een of meer kleinere taalmodellen, ook wel drafters of draftmodellen genoemd, om een draftsequentie of -boom met meerdere tokens te genereren, gevolgd door verificatie door een basis-LLM, het doelmodel, dat een subset accepteert als geldige generatie. Aangezien speculatieve decodering doorgaans een één-op-één-mapping vereist tussen de vocabulaire van het doelmodel en het draftmodel, is het van nature gebruikelijk om de vocabulaire tussen hen te delen, of zelfs de LM head te delen, zoals in EAGLE of Medusa. We identificeren eerst dat dit draft-token-samplingschema inherent een onnodige inferentie-overhead bevat tijdens het draftingproces, vooral voor sommige doel-LLM's met zeer grote vocabulaire. Vervolgens stellen we een eenvoudige techniek voor, VocabTrim, om de drafting-overhead te verminderen en de generatiesnelheid te verbeteren in een geheugengebonden omgeving. VocabTrim reconstrueert de drafter LM head om slechts een beperkte set tokens te bevatten, geselecteerd op basis van de meest frequent gesampelde tokens uit de vocabulaire van het doelmodel. Hoewel het beperken van de vocabulaire tijdens het draftingproces de acceptatiegraad enigszins vermindert, verlaagt het de drafting-latentie aanzienlijk in een geheugengebonden proces, wat vaak het geval is op edge devices, wat resulteert in een hogere geheugengebonden snelheidsverbetering (MBSU). We tonen aan dat onze methode de geheugengebonden snelheidsverbetering voor Llama-3-modellen op Spec-Bench kan verhogen, specifiek met 16% voor Llama-3.2-3B-Instruct.
Het finetunen van vooraf getrainde grote taalmodellen (LLMs) is een effectieve strategie gebleken om state-of-the-art prestaties te bereiken voor specifieke taken zoals machinaal vertalen. Dit aanpassingsproces gaat echter vaak ten koste van algemene vaardigheden, zoals conversatieel redeneren en het volgen van instructies, wat de bruikbaarheid van het systeem in real-world toepassingen die een mix van vaardigheden vereisen, belemmert. In dit artikel introduceren we Tower+, een reeks modellen die zijn ontworpen om sterke prestaties te leveren op zowel vertalingen als meertalige algemene tekstvaardigheden. We bereiken een Pareto-frontier tussen vertaalspecialisatie en meertalige algemene vaardigheden door een nieuw trainingsrecept te introduceren dat voortbouwt op Tower (Alves et al., 2024), bestaande uit voortgezet vooraf trainen, supervised finetunen, voorkeursoptimalisatie en reinforcement learning met verifieerbare beloningen. In elke fase van de training genereren en cureren we zorgvuldig data om de prestaties te versterken op zowel vertalingen als algemene taken zoals codegeneratie, wiskundeproblemen oplossen en het volgen van instructies. We ontwikkelen modellen op meerdere schalen: 2B, 9B en 72B. Onze kleinere modellen overtreffen vaak grotere algemene open-weight en propriëtaire LLMs (bijv. Llama 3.3 70B, GPT-4o). Ons grootste model levert topprestaties in vertalingen voor hoog-resource talen en behaalt topresultaten in meertalige Arena Hard-evaluaties en in IF-MT, een benchmark die we introduceren om zowel vertalingen als het volgen van instructies te evalueren. Onze bevindingen benadrukken dat het mogelijk is om frontier-modellen te evenaren in algemene vaardigheden, terwijl we optimaliseren voor specifieke bedrijfsdomeinen, zoals vertaling en lokalisatie.
Metalenzen bieden aanzienlijk potentieel voor ultra-compacte computationele beeldvorming, maar worden geconfronteerd met uitdagingen door complexe optische degradatie en moeilijkheden bij computationele restauratie. Bestaande methoden zijn doorgaans afhankelijk van nauwkeurige optische kalibratie of enorme gepaarde datasets, wat niet triviaal is voor beeldvormingssystemen in de echte wereld. Bovendien resulteert een gebrek aan controle over het inferentieproces vaak in ongewenste hallucinatie-artefacten. Wij introduceren Degradation-Modeled Multipath Diffusion voor afstembare metalensfotografie, waarbij krachtige natuurlijke beeldprioriteiten van vooraf getrainde modellen worden benut in plaats van grote datasets. Ons framework gebruikt positieve, neutrale en negatieve-prompt-paden om de generatie van hoogfrequente details, structurele trouw en onderdrukking van metalens-specifieke degradatie in balans te brengen, naast pseudo-data-augmentatie. Een afstembare decoder maakt gecontroleerde afwegingen mogelijk tussen trouw en perceptuele kwaliteit. Daarnaast modelleert een ruimtelijk variërend degradatiebewust aandacht (SVDA) module adaptief complexe optische en sensor-geïnduceerde degradatie. Tot slot ontwerpen en bouwen we een millimeter-schaal MetaCamera voor validatie in de echte wereld. Uitgebreide resultaten tonen aan dat onze aanpak state-of-the-art methoden overtreft, met hoogwaardige en scherpe beeldreconstructie. Meer materialen: https://dmdiff.github.io/.