Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De prestaties van Large Language Models (LLM's) worden fundamenteel bepaald door de contextuele informatie die tijdens inferentie wordt verstrekt. Dit overzicht introduceert Context Engineering, een formeel vakgebied dat verder gaat dan eenvoudige promptontwerp en zich richt op de systematische optimalisatie van informatiepayloads voor LLM's. We presenteren een uitgebreide taxonomie die Context Engineering ontleedt in zijn fundamentele componenten en de geavanceerde implementaties die deze integreren in intelligente systemen. We onderzoeken eerst de fundamentele componenten: contextretrieval en -generatie, contextverwerking en contextbeheer. Vervolgens verkennen we hoe deze componenten architectonisch worden geïntegreerd om geavanceerde systeemimplementaties te creëren: retrieval-augmented generation (RAG), geheugensystemen en tool-geïntegreerd redeneren, en multi-agent systemen. Door deze systematische analyse van meer dan 1300 onderzoeksartikelen, stelt ons overzicht niet alleen een technische routekaart voor het vakgebied vast, maar onthult het ook een kritieke onderzoekskloof: er bestaat een fundamentele asymmetrie tussen modelmogelijkheden. Hoewel huidige modellen, versterkt door geavanceerd context engineering, opmerkelijke vaardigheid tonen in het begrijpen van complexe contexten, vertonen ze duidelijke beperkingen in het genereren van even geavanceerde, langlopende outputs. Het aanpakken van deze kloof is een bepalende prioriteit voor toekomstig onderzoek. Uiteindelijk biedt dit overzicht een uniform raamwerk voor zowel onderzoekers als ingenieurs die contextbewuste AI verder ontwikkelen.
Recente vooruitgang in visie-taalmodellen (VLMs) heeft de prestaties verbeterd door het aantal visuele tokens te vergroten, die vaak aanzienlijk langer zijn dan teksttokens. We merken echter op dat de meeste real-world scenario's niet zo'n uitgebreid aantal visuele tokens vereisen. Hoewel de prestaties aanzienlijk dalen in een kleine subset van OCR-gerelateerde taken, presteren modellen nog steeds nauwkeurig in de meeste andere algemene VQA-taken met slechts 1/4 resolutie. Daarom stellen we voor om verschillende samples dynamisch te verwerken met verschillende resoluties, en presenteren we een nieuw paradigma voor visuele tokencompressie, genaamd VisionThink. Het begint met een verkleinde afbeelding en beslist slim of deze voldoende is voor probleemoplossing. Anders kan het model een speciaal token uitvoeren om de hogere resolutie afbeelding aan te vragen. In vergelijking met bestaande Efficient VLM-methoden die tokens comprimeren met vaste snoeiverhoudingen of drempelwaarden, beslist VisionThink autonoom of tokens geval per geval moeten worden gecomprimeerd. Als gevolg toont het sterke fijnmazige visuele begripscapaciteiten op OCR-gerelateerde taken, en bespaart het tegelijkertijd aanzienlijke visuele tokens op eenvoudigere taken. We nemen reinforcement learning over en stellen de LLM-as-Judge-strategie voor om RL succesvol toe te passen op algemene VQA-taken. Bovendien ontwerpen we zorgvuldig een beloningsfunctie en strafmechanisme om een stabiele en redelijke verhouding van afbeeldingsresize-aanroepen te bereiken. Uitgebreide experimenten demonstreren de superioriteit, efficiëntie en effectiviteit van onze methode. Onze code is beschikbaar op https://github.com/dvlab-research/VisionThink.
We introduceren pi^3, een feedforward neuraal netwerk dat een nieuwe benadering biedt voor visuele geometrie-reconstructie, waardoor de afhankelijkheid van een conventioneel vast referentiebeeld wordt doorbroken. Eerdere methodes verankeren hun reconstructies vaak aan een specifiek gezichtspunt, een inductieve bias die kan leiden tot instabiliteit en mislukkingen als het referentiepunt suboptimaal is. In tegenstelling hiermee gebruikt pi^3 een volledig permutatie-equivariante architectuur om affiene-invariante cameraposities en schaal-invariante lokale puntkaarten te voorspellen zonder enige referentiekaders. Dit ontwerp maakt ons model inherent robuust tegen de volgorde van de invoer en zeer schaalbaar. Deze voordelen stellen onze eenvoudige en bias-vrije benadering in staat om state-of-the-art prestaties te behalen op een breed scala aan taken, waaronder camerapositie-schatting, monoscopische/video-diepteschatting en dichte puntkaartreconstructie. Code en modellen zijn publiekelijk beschikbaar.
Dit artikel behandelt de uitdaging van hoogwaardige viewsynthese van mensen met behulp van spaarzame videobeelden als invoer. Eerdere methoden lossen het probleem van onvoldoende observatie op door gebruik te maken van 4D diffusiemodellen om video's vanuit nieuwe gezichtspunten te genereren. De gegenereerde video's van deze modellen missen echter vaak ruimtelijk-temporele consistentie, wat de kwaliteit van de viewsynthese aantast. In dit artikel introduceren we een nieuw glijdend iteratief denoisingsproces om de ruimtelijk-temporele consistentie van het 4D diffusiemodel te verbeteren. Specifiek definiëren we een latent grid waarin elke latent de afbeelding, camerapositie en menselijke houding voor een bepaald gezichtspunt en tijdstip codeert, waarna we het latent grid afwisselend denoizen langs ruimtelijke en temporele dimensies met een glijdend venster, en uiteindelijk de video's op doelgezichtspunten decoderen vanuit de corresponderende gedenoiseerde latents. Door het iteratieve glijden stroomt informatie voldoende door het latent grid, waardoor het diffusiemodel een groot receptief veld verkrijgt en zo de 4D consistentie van de output verbetert, terwijl het GPU-geheugenverbruik betaalbaar blijft. De experimenten op de DNA-Rendering en ActorsHQ datasets tonen aan dat onze methode in staat is hoogwaardige en consistente video's vanuit nieuwe gezichtspunten te synthetiseren en significant beter presteert dan bestaande benaderingen. Zie onze projectpagina voor interactieve demo's en videoresultaten: https://diffuman4d.github.io/.
Lengtegeneralizatie, het vermogen om problemen met langere sequenties op te lossen dan die welke tijdens de training zijn waargenomen, vormt een kernuitdaging voor Transformer-gebaseerde grote taalmodellen (LLM's). Hoewel bestaande studies zich voornamelijk hebben gericht op data-gedreven benaderingen voor rekenkundige bewerkingen en symbolische manipulatie taken, zijn deze benaderingen vaak taakspecifiek met beperkte algehele prestaties. Om een meer algemene oplossing na te streven, richt dit artikel zich op een breder geval van redeneerproblemen die berekenbaar zijn, d.w.z. problemen die algoritmen kunnen oplossen en dus kunnen worden opgelost door de Turing Machine. Vanuit dit perspectief stelt dit artikel Turing Machine Imitation Learning (TAIL) voor om de lengtegeneralizatiecapaciteit van LLM's te verbeteren. TAIL synthetiseert chain-of-thoughts (CoT)-data die het uitvoeringsproces van een Turing Machine imiteren door computerprogramma's, waarbij de redeneerstappen lineair worden uitgebreid naar atomische staten om shortcut learning te verminderen en een expliciet geheugenophaalmechanisme om de moeilijkheden van dynamische en langetermijntoegang tot data in elementaire bewerkingen te verminderen. Om de betrouwbaarheid en universaliteit van TAIL te valideren, hebben we een uitdagende synthetische dataset geconstrueerd die 8 klassen van algoritmen en 18 taken omvat. Zonder franje verbetert TAIL de lengtegeneralizatiecapaciteit en de prestaties van Qwen2.5-7B aanzienlijk op verschillende taken met alleen synthetische data, waardoor eerdere methoden en DeepSeek-R1 worden overtroffen. De experimentele resultaten onthullen dat de sleutelconcepten in de Turing Machine, in plaats van de denkstijlen, onmisbaar zijn voor TAIL voor lengtegeneralizatie, waardoor het model lees- en schrijfgedrag vertoont dat consistent is met de eigenschappen van de Turing Machine in hun aandachtslagen. Dit werk biedt een veelbelovende richting voor toekomstig onderzoek naar het leren van LLM-redenering uit synthetische data.
Beheersbare bijschriften zijn essentieel voor precieze multimodale uitlijning en instructievolging, maar bestaande modellen missen vaak fijnmijnerige controle en betrouwbare evaluatieprotocollen. Om deze kloof te dichten, presenteren we het AnyCap Project, een geïntegreerde oplossing die model, dataset en evaluatie omvat. We introduceren AnyCapModel (ACM), een lichtgewicht plug-and-play raamwerk dat de beheersbaarheid van bestaande basis modellen voor omnimodale bijschriften verbetert zonder het basismodel opnieuw te trainen. ACM hergebruikt de originele bijschriften van basis modellen terwijl het gebruikersinstructies en modaliteitskenmerken integreert om verbeterde bijschriften te genereren. Om het gebrek aan data in beheersbare multimodale bijschriften te verhelpen, bouwen we AnyCapDataset (ACD), dat drie modaliteiten, 28 gebruikersinstructietypen en 300.000 hoogwaardige data-entries omvat. We stellen verder AnyCapEval voor, een nieuwe benchmark die betrouwbaardere evaluatiemetrics biedt voor beheersbare bijschriften door inhoudelijke nauwkeurigheid en stilistische trouw te ontkoppelen. ACM verbetert de kwaliteit van bijschriften aanzienlijk over een diverse set van basis modellen op AnyCapEval. Opmerkelijk is dat ACM-8B de inhoudsscores van GPT-4o met 45% en de stijlscores met 12% verhoogt, en het behaalt ook aanzienlijke winsten op veelgebruikte benchmarks zoals MIA-Bench en VidCapBench.
Low-Rank Adaptation (LoRA) is uitgegroeid tot een breed geaccepteerde standaard voor parameter-efficiënte fine-tuning van grote taalmodellen (LLMs), wat het geheugen- en rekenverbruik aanzienlijk vermindert. Er blijven echter uitdagingen bestaan, zoals het vinden van optimale initialisatiestrategieën of het beperken van overparametrisatie in low-rank matrixfactorisatie. In dit werk presenteren we een nieuwe aanpak die beide uitdagingen tegelijkertijd aanpakt binnen een geïntegreerd raamwerk. Onze methode behandelt een set van LoRA-matrices met vaste rang als een gladde variëteit. Door adapters te beschouwen als elementen op deze variëteit wordt overparametrisatie geëlimineerd, terwijl het bepalen van de richting van de snelste afname van de verliesfunctie langs de variëteit de initialisatie biedt. Er is speciale aandacht besteed aan het verkrijgen van een numeriek stabiele en rekenkundig efficiënte implementatie van onze methode, waarbij gebruik wordt gemaakt van best practices uit de numerieke lineaire algebra en Riemanniaanse optimalisatie. Experimentele resultaten op LLM- en diffusiemodelarchitecturen laten zien dat RiemannLoRA consistent zowel de convergentiesnelheid als de uiteindelijke prestaties verbetert ten opzichte van standaard LoRA en zijn state-of-the-art aanpassingen.
We presenteren Voxtral Mini en Voxtral Small, twee multimodale audio-chatmodellen. Voxtral is getraind om zowel gesproken audio als tekstdocumenten te begrijpen, en behaalt state-of-the-art prestaties op een breed scala aan audio-benchmarks, terwijl het sterke tekstmogelijkheden behoudt. Voxtral Small overtreft een aantal closed-source modellen, terwijl het klein genoeg is om lokaal te draaien. Een contextvenster van 32K stelt het model in staat om audiobestanden tot 40 minuten lang te verwerken en lange, meerzijdige gesprekken te voeren. We dragen ook drie benchmarks bij voor het evalueren van spraakbegripmodellen op kennis en trivia. Beide Voxtral-modellen worden vrijgegeven onder de Apache 2.0-licentie.
Ruimtelijk redeneren in 3D-ruimte is essentieel voor de menselijke cognitie en onmisbaar voor belichaamde taken zoals navigatie en manipulatie. Toch worstelen state-of-the-art vision-language-modellen (VLMs) vaak met taken die zo eenvoudig zijn als het voorspellen hoe een scène eruit zal zien na een egocentrische beweging: ze nemen 2D-beelden waar, maar missen een intern model van 3D-dynamiek. Daarom stellen we MindJourney voor, een test-time schalingsframework dat een VLM deze ontbrekende capaciteit geeft door het te koppelen aan een bestuurbaar wereldmodel gebaseerd op videodiffusie. De VLM schetst iteratief een beknopte cameratrajectorie, terwijl het wereldmodel het corresponderende beeld bij elke stap synthetiseert. De VLM redeneert vervolgens over dit multi-view bewijsmateriaal dat tijdens de interactieve verkenning is verzameld. Zonder enige fine-tuning behaalt onze MindJourney een gemiddelde prestatieverbetering van meer dan 8% op de representatieve ruimtelijke redeneerbenchmark SAT, wat aantoont dat het koppelen van VLMs aan wereldmodellen voor test-time schaling een eenvoudige, plug-and-play route biedt naar robuust 3D-redeneren. Tegelijkertijd verbetert onze methode ook de test-time inferentie van VLMs die zijn getraind via reinforcement learning, wat het potentieel van onze methode onderstreept die wereldmodellen gebruikt voor test-time schaling.
Het produceren van expressieve gezichtsanimaties vanuit statische afbeeldingen is een uitdagende taak. Bestaande methoden die vertrouwen op expliciete geometrische priors (bijvoorbeeld gezichtslandmarken of 3DMM) lijden vaak onder artefacten bij cross-reenactment en hebben moeite met het vastleggen van subtiele emoties. Bovendien bieden bestaande benaderingen geen ondersteuning voor multi-character animatie, omdat sturende kenmerken van verschillende individuen elkaar vaak verstoren, wat de taak bemoeilijkt. Om deze uitdagingen aan te pakken, stellen we FantasyPortrait voor, een op diffusie-transformers gebaseerd framework dat in staat is om hoogwaardige en emotierijke animaties te genereren voor zowel single- als multi-character scenario's. Onze methode introduceert een expressie-augmented leerstrategie die gebruikmaakt van impliciete representaties om identiteits-agnostische gezichtsdynamiek vast te leggen, waardoor het vermogen van het model om fijnmazige emoties weer te geven wordt verbeterd. Voor multi-character controle ontwerpen we een gemaskeerd cross-attention mechanisme dat onafhankelijke maar gecoördineerde expressiegeneratie garandeert, waardoor kenmerkinterferentie effectief wordt voorkomen. Om onderzoek op dit gebied te bevorderen, stellen we de Multi-Expr dataset en ExprBench voor, specifiek ontworpen datasets en benchmarks voor het trainen en evalueren van multi-character portretanimaties. Uitgebreide experimenten tonen aan dat FantasyPortrait aanzienlijk beter presteert dan state-of-the-art methoden in zowel kwantitatieve metingen als kwalitatieve evaluaties, met name in uitdagende cross-reenactment en multi-character contexten. Onze projectpagina is te vinden op https://fantasy-amap.github.io/fantasy-portrait/.
We introduceren AbGen, de eerste benchmark die is ontworpen om de mogelijkheden van LLM's te evalueren bij het ontwerpen van ablatiestudies voor wetenschappelijk onderzoek. AbGen bestaat uit 1.500 door experts geannoteerde voorbeelden afkomstig uit 807 NLP-artikelen. In deze benchmark krijgen LLM's de taak om gedetailleerde ontwerpen voor ablatiestudies te genereren voor een gespecificeerde module of procedure, gebaseerd op de gegeven onderzoekscontext. Onze evaluatie van toonaangevende LLM's, zoals DeepSeek-R1-0528 en o4-mini, laat een aanzienlijk prestatieverschil zien tussen deze modellen en menselijke experts wat betreft het belang, de trouwheid en de degelijkheid van de ontworpen ablatiestudies. Bovendien tonen we aan dat huidige geautomatiseerde evaluatiemethoden niet betrouwbaar zijn voor onze taak, omdat ze een significante discrepantie vertonen in vergelijking met menselijke beoordelingen. Om dit beter te onderzoeken, ontwikkelen we AbGen-Eval, een meta-evaluatiebenchmark die is ontworpen om de betrouwbaarheid van veelgebruikte geautomatiseerde evaluatiesystemen te beoordelen bij het meten van de prestaties van LLM's voor onze taak. We onderzoeken verschillende LLM-as-Judge-systemen op AbGen-Eval, wat inzichten biedt voor toekomstig onderzoek naar het ontwikkelen van effectievere en betrouwbaardere LLM-gebaseerde evaluatiesystemen voor complexe wetenschappelijke taken.
Sparse Autoencoders zijn krachtige hulpmiddelen gebleken voor het interpreteren van de interne representaties van Large Language Models, maar ze slagen er vaak niet in domeinspecifieke kenmerken vast te leggen die niet prominent aanwezig zijn in hun trainingscorpora. Dit artikel introduceert een residual learning-benadering die deze kenmerkonwetendheid aanpakt zonder volledige hertraining te vereisen. Wij stellen voor om een secundaire SAE specifiek te trainen om de reconstructiefout van een voorgetrainde SAE op domeinspecifieke teksten te modelleren, waardoor kenmerken die door het primaire model worden gemist effectief worden vastgelegd. Door de uitvoer van beide modellen tijdens inferentie op te tellen, laten we significante verbeteringen zien in zowel de kruisentropie van LLM als de verklaarde variantie-metingen over meerdere gespecialiseerde domeinen. Onze experimenten tonen aan dat deze methode efficiënt nieuwe domeinkennis in bestaande SAE's integreert, terwijl hun prestaties op algemene taken behouden blijven. Deze aanpak stelt onderzoekers in staat om de interpreteerbaarheid van SAE's selectief te verbeteren voor specifieke interessegebieden, wat nieuwe mogelijkheden opent voor gerichte mechanistische interpreteerbaarheid van LLM's.
Taalmodelen (LMs) zijn moeilijk aan te passen aan nieuwe datadistributies door middel van eenvoudige finetuning. Dit komt door de rigiditeit van hun subwoord-tokenizers, die meestal ongewijzigd blijven tijdens de aanpassing. Deze inflexibiliteit leidt vaak tot inefficiënte tokenisatie, wat resulteert in overmatige fragmentatie van domeinen buiten de distributie, onbekende talen of schriften. In dit werk ontwikkelen we byte-level LMs met leerbare tokenizers om tokenisatie adaptief te maken. Onze modellen bevatten een submodule die leert om grenzen tussen de invoer-bytevolgorde te voorspellen, waardoor deze wordt gecodeerd in variabele-lengte segmenten. Bestaande tokenizer-vrije methoden trainen deze grensvoorspeller met behulp van een hulploss die een vaste compressiesnelheid afdwingt over de trainingscorpus, wat een nieuw soort rigiditeit introduceert. Wij stellen FLEXITOKENS voor, een vereenvoudigd trainingsdoel dat aanzienlijk meer flexibiliteit mogelijk maakt tijdens de aanpassing. Door evaluatie over meerdere meertalige benchmarks, morfologisch diverse taken en domeinen, tonen we aan dat FLEXITOKENS consistent tokenoverfragmentatie vermindert en tot 10\% verbeteringen bereikt in de prestaties van downstream taken in vergelijking met subwoord- en andere op gradienten gebaseerde tokenizers. Code en data voor onze experimenten zullen worden vrijgegeven op https://github.com/owos/flexitokens.
We introduceren Einstein Fields, een neurale representatie die is ontworpen om rekenintensieve vierdimensionale numerieke relativiteitssimulaties te comprimeren tot compacte impliciete neurale netwerkgewichten. Door de metriek, het centrale tensorveld van de algemene relativiteitstheorie, te modelleren, maken Einstein Fields het mogelijk om fysische grootheden af te leiden via automatische differentiatie. In tegenstelling tot conventionele neurale velden (bijvoorbeeld signed distance, occupancy of radiance fields) zijn Einstein Fields echter Neural Tensor Fields, met als belangrijk verschil dat bij het coderen van de ruimtetijdgeometrie van de algemene relativiteitstheorie in neurale veldrepresentaties, dynamiek van nature ontstaat als een bijproduct. Einstein Fields tonen opmerkelijke potentie, waaronder continuümmodellering van 4D-ruimtetijd, mesh-agnostiekheid, opslagefficiëntie, nauwkeurigheid van afgeleiden en gebruiksgemak. We gaan deze uitdagingen aan in verschillende canonieke testomgevingen van de algemene relativiteitstheorie en brengen een open-source JAX-gebaseerde bibliotheek uit, wat de weg vrijmaakt voor meer schaalbare en expressieve benaderingen van numerieke relativiteit. De code is beschikbaar op https://github.com/AndreiB137/EinFields.
Video Frame Interpolation (VFI) heeft als doel het tussenliggende frame I_n te voorspellen (we gebruiken n om tijd in video's aan te duiden om verwarring te voorkomen met de tijdstap t in diffusiemodellen) op basis van twee opeenvolgende naburige frames I_0 en I_1. Recente benaderingen passen diffusiemodellen (zowel op afbeeldingen als video's gebaseerd) toe in deze taak en behalen sterke prestaties. Afbeelding-gebaseerde diffusiemodellen zijn echter niet in staat om temporele informatie te extraheren en zijn relatief inefficiënt vergeleken met niet-diffusiemethoden. Video-gebaseerde diffusiemodellen kunnen wel temporele informatie extraheren, maar ze zijn te groot wat betreft trainingsschaal, modelgrootte en inferentietijd. Om deze problemen te verlichten, stellen we Temporal-Aware Latent Brownian Bridge Diffusion voor Video Frame Interpolation (TLB-VFI) voor, een efficiënt video-gebaseerd diffusiemodel. Door rijke temporele informatie uit video-invoer te extraheren via onze voorgestelde 3D-wavelet gating en temporeel bewuste autoencoder, behaalt onze methode een verbetering van 20% in FID op de meest uitdagende datasets vergeleken met recente state-of-the-art afbeelding-gebaseerde diffusiemodellen. Tegelijkertijd, dankzij de aanwezigheid van rijke temporele informatie, behaalt onze methode sterke prestaties terwijl het 3 keer minder parameters heeft. Een dergelijke parameterreductie resulteert in een 2,3x snellere verwerking. Door optische stroombegeleiding te integreren, vereist onze methode 9000x minder trainingsdata en behaalt het meer dan 20x minder parameters dan video-gebaseerde diffusiemodellen. Codes en resultaten zijn beschikbaar op onze projectpagina: https://zonglinl.github.io/tlbvfi_page.
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft krachtige cross-modale redeneervaardigheden ontsloten, maar heeft ook nieuwe veiligheidszorgen opgeworpen, met name bij het omgaan met adversariële multimodale invoer. Om de veiligheid van MLLMs tijdens inferentie te verbeteren, introduceren we een modulaire en adaptieve interventietechnologie tijdens inferentie, AutoSteer, zonder dat fine-tuning van het onderliggende model nodig is. AutoSteer omvat drie kerncomponenten: (1) een nieuwe Veiligheidsbewustzijnsscore (SAS) die automatisch de meest veiligheidsrelevante onderscheidingen tussen de interne lagen van het model identificeert; (2) een adaptieve veiligheidsonderzoeker die is getraind om de waarschijnlijkheid van giftige uitvoer te schatten op basis van tussenliggende representaties; en (3) een lichtgewicht Weigeringskop die selectief ingrijpt om de generatie te moduleren wanneer veiligheidsrisico's worden gedetecteerd. Experimenten op LLaVA-OV en Chameleon over diverse veiligheidskritieke benchmarks tonen aan dat AutoSteer de Aanval Succesratio (ASR) voor tekstuele, visuele en cross-modale bedreigingen aanzienlijk verlaagt, terwijl de algemene vaardigheden behouden blijven. Deze bevindingen positioneren AutoSteer als een praktisch, interpreteerbaar en effectief raamwerk voor een veiligere inzet van multimodale AI-systemen.