Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren CameraBench, een grootschalige dataset en benchmark ontworpen om het begrip van camerabewegingen te beoordelen en te verbeteren. CameraBench bestaat uit ~3.000 diverse internetvideo's, geannoteerd door experts via een rigoureus meerfasig kwaliteitscontroleproces. Een van onze bijdragen is een taxonomie van camerabewegingsprimitieven, ontwikkeld in samenwerking met cinematografen. We ontdekken bijvoorbeeld dat sommige bewegingen zoals "volgen" (of tracking) inzicht vereisen in scène-inhoud zoals bewegende onderwerpen. We voeren een grootschalig menselijk onderzoek uit om de prestaties van menselijke annotaties te kwantificeren, wat aantoont dat domeinexpertise en tutorialgebaseerde training de nauwkeurigheid aanzienlijk kunnen verbeteren. Een beginner kan bijvoorbeeld een zoom-in (een verandering van intrinsieke parameters) verwarren met naar voren bewegen (een verandering van extrinsieke parameters), maar kan worden getraind om deze twee te onderscheiden. Met CameraBench evalueren we Structure-from-Motion (SfM) en Video-Language Models (VLMs), waarbij we vaststellen dat SfM-modellen moeite hebben met het vastleggen van semantische primitieven die afhankelijk zijn van scène-inhoud, terwijl VLMs moeite hebben met het vastleggen van geometrische primitieven die een precieze schatting van trajecten vereisen. Vervolgens fine-tunen we een generatief VLM op CameraBench om het beste van beide werelden te bereiken en demonstreren we de toepassingen, waaronder beweging-augmented captioning, video-vraagbeantwoording en video-tekstretrieval. We hopen dat onze taxonomie, benchmark en tutorials toekomstige inspanningen zullen stimuleren richting het ultieme doel van het begrijpen van camerabewegingen in elke video.
Wij presenteren Skywork R1V2, een next-generation multimodaal redeneermodel en een grote sprong voorwaarts ten opzichte van zijn voorganger, Skywork R1V. De kern van R1V2 introduceert een hybride reinforcement learning-paradigma dat beloningsmodelbegeleiding combineert met regelgebaseerde strategieën, waardoor het lang bestaande probleem van het balanceren van geavanceerde redeneervaardigheden met brede generalisatie wordt aangepakt. Om de trainingsefficiëntie verder te verbeteren, stellen we het Selective Sample Buffer (SSB)-mechanisme voor, dat het "Verdwijnende Voordelen"-dilemma dat inherent is aan Group Relative Policy Optimization (GRPO) effectief tegengaat door hoogwaardige samples prioriteit te geven gedurende het optimalisatieproces. Opmerkelijk is dat we waarnemen dat overmatige reinforcement-signalen visuele hallucinaties kunnen veroorzaken—een fenomeen dat we systematisch monitoren en mitigeren door middel van gekalibreerde beloningsdrempels gedurende het trainingsproces. Empirische resultaten bevestigen de uitzonderlijke capaciteit van R1V2, met benchmarkleidende prestaties zoals 62.6 op OlympiadBench, 79.0 op AIME2024, 63.6 op LiveCodeBench, en 74.0 op MMMU. Deze resultaten onderstrepen de superioriteit van R1V2 ten opzichte van bestaande open-source modellen en tonen significante vooruitgang in het dichten van de prestatiekloof met toonaangevende propriëtaire systemen, waaronder Gemini 2.5 en OpenAI o4-mini. De Skywork R1V2 modelgewichten zijn openbaar vrijgegeven om openheid en reproduceerbaarheid te bevorderen: https://huggingface.co/Skywork/Skywork-R1V2-38B.
Efficiënte implementatie van 1-bit Large Language Models (LLMs) wordt belemmerd door activeringsuitbijters, die kwantisering naar lage bitbreedtes bemoeilijken. We introduceren BitNet v2, een nieuw framework dat native 4-bit activeringskwantisering mogelijk maakt voor 1-bit LLMs. Om uitbijters in activeringen van aandacht en feed-forward netwerken aan te pakken, stellen we H-BitLinear voor, een module die een online Hadamard-transformatie toepast vóór activeringskwantisering. Deze transformatie maakt scherpe activeringsverdelingen gladder en meer Gaussiaans, wat geschikt is voor representatie met lage bitbreedte. Experimenten tonen aan dat BitNet v2, getraind vanaf nul met 8-bit activeringen, de prestaties van BitNet b1.58 evenaart. Cruciaal is dat BitNet v2 minimale prestatievermindering vertoont wanneer het wordt getraind met native 4-bit activeringen, wat het geheugengebruik en de rekenkosten voor batchgewijze inferentie aanzienlijk vermindert.
Het beoordelen van de video-begripsvaardigheden van multimodale AI-systemen kan effectief hun begrip en redeneervermogen meten. De meeste video-evaluatiebenchmarks zijn beperkt tot één taal, meestal Engels, en bevatten voornamelijk video's die geworteld zijn in westerse culturele contexten. In dit artikel presenteren we VideoVista-CulturalLingo, de eerste video-evaluatiebenchmark die is ontworpen om de culturele, linguïstische en domeinkloof in videobegrip te overbruggen. Ons werk onderscheidt zich van bestaande benchmarks op de volgende manieren: 1) Culturele diversiteit, met inbegrip van culturen uit China, Noord-Amerika en Europa; 2) Meertaligheid, met vragen die in het Chinees en Engels worden gepresenteerd – twee van de meest gesproken talen; en 3) Breed domein, met video's afkomstig uit honderden door mensen gecreëerde domeinen. VideoVista-CulturalLingo bevat 1.389 video's en 3.134 vraag-antwoordparen, en we hebben 24 recente open-source of propriëtaire video-large models geëvalueerd. Uit de experimentresultaten observeren we dat: 1) Bestaande modellen slechter presteren op Chinees-gerichte vragen dan op westers-gerichte vragen, met name die gerelateerd aan Chinese geschiedenis; 2) Huidige open-source modellen nog steeds beperkingen vertonen in temporeel begrip, vooral in de Event Localization-taak, met een maximale score van slechts 45,2%; 3) Mainstream modellen sterke prestaties laten zien in algemene wetenschappelijke vragen, terwijl open-source modellen zwak presteren in wiskunde.
We presenteren Kimi-Audio, een open-source audio-foundationmodel dat uitblinkt in audio-begrip, -generatie en -conversatie. We gaan in detail in op de praktijken bij het bouwen van Kimi-Audio, inclusief modelarchitectuur, datacuratie, trainingsrecept, inferentie-implementatie en evaluatie. Specifiek maken we gebruik van een 12,5Hz audio-tokenizer, ontwerpen we een nieuwe LLM-gebaseerde architectuur met continue kenmerken als invoer en discrete tokens als uitvoer, en ontwikkelen we een chunk-wise streaming detokenizer gebaseerd op flow matching. We hebben een pre-trainingsdataset samengesteld die bestaat uit meer dan 13 miljoen uur aan audiogegevens die een breed scala aan modaliteiten omvatten, waaronder spraak, geluid en muziek, en hebben een pijplijn gebouwd om hoogwaardige en diverse post-trainingsdata te construeren. Geïnitialiseerd vanuit een voorgetraind LLM, wordt Kimi-Audio voortdurend voorgetraind op zowel audio- als tekstgegevens met verschillende zorgvuldig ontworpen taken, en vervolgens afgestemd om een diverse reeks audio-gerelateerde taken te ondersteunen. Uitgebreide evaluatie toont aan dat Kimi-Audio state-of-the-art prestaties behaalt op een reeks audio-benchmarks, waaronder spraakherkenning, audio-begrip, audio-vraagbeantwoording en spraakconversatie. We hebben de codes, modelcheckpoints en de evaluatietoolkits vrijgegeven op https://github.com/MoonshotAI/Kimi-Audio.
Multimodale taalanalyse is een snel evoluerend vakgebied dat gebruikmaakt van meerdere modaliteiten om het begrip van de hoogwaardige semantiek achter menselijke gespreksuitingen te verbeteren. Ondanks het belang ervan is er weinig onderzoek gedaan naar het vermogen van multimodale grote taalmodellen (MLLMs) om cognitieve semantiek te begrijpen. In dit artikel introduceren we MMLA, een uitgebreide benchmark die specifiek is ontworpen om deze kloof te dichten. MMLA omvat meer dan 61K multimodale uitingen afkomstig uit zowel geënsceneerde als realistische scenario's, en bestrijkt zes kernaspecten van multimodale semantiek: intentie, emotie, dialooghandeling, sentiment, spreekstijl en communicatiegedrag. We evalueren acht hoofdstromingen van LLMs en MLLMs met behulp van drie methoden: zero-shot inferentie, supervised fine-tuning en instructie-tuning. Uitgebreide experimenten tonen aan dat zelfs fijn afgestemde modellen slechts een nauwkeurigheid van ongeveer 60%~70% bereiken, wat de beperkingen van huidige MLLMs in het begrijpen van complexe menselijke taal onderstreept. Wij geloven dat MMLA een solide basis zal vormen voor het verkennen van het potentieel van grote taalmodellen in multimodale taalanalyse en waardevolle bronnen zal bieden om dit vakgebied vooruit te helpen. De datasets en code zijn openbaar beschikbaar op https://github.com/thuiar/MMLA.
Het aantal vooraf getrainde Large Language Models (LLM's) neemt gestaag toe, hoewel de meeste voornamelijk zijn ontworpen voor de Engelse taal. Hoewel state-of-the-art LLM's andere talen aankunnen, dankzij taalvervuiling of een zekere mate van meertalige voorafgaande trainingsdata, zijn ze niet geoptimaliseerd voor niet-Engelse talen, wat leidt tot inefficiënte codering (hoge token-"vruchtbaarheid") en tragere inferentiesnelheid. In dit werk vergelijken we grondig een verscheidenheid aan vocabulaire-aanpassingstechnieken voor het optimaliseren van Engelse LLM's voor de Italiaanse taal, en introduceren we Semantic Alignment Vocabulary Adaptation (SAVA), een nieuwe methode die neurale mapping benut voor vocabulaire-substitutie. SAVA behaalt competitieve prestaties over meerdere downstream-taken en versterkt gegronde uitlijningsstrategieën. We passen twee LLM's aan: Mistral-7b-v0.1, waarbij de token-vruchtbaarheid met 25\% wordt verminderd, en Llama-3.1-8B, waarbij het vocabulaire wordt geoptimaliseerd en het aantal parameters met 1 miljard wordt verminderd. We tonen aan dat, na de aanpassing van het vocabulaire, deze modellen hun prestaties kunnen herstellen met een relatief beperkte fase van voortgezette training in de doeltaal. Tot slot testen we de mogelijkheden van de aangepaste modellen op verschillende meerkeuze- en generatieve taken.
Sparse attention biedt een veelbelovende strategie om de lange-contextmogelijkheden van Transformer LLMs uit te breiden, maar de haalbaarheid, de efficiëntie-nauwkeurigheid afwegingen en systematische schaalstudies blijven onontgonnen. Om deze leemte aan te pakken, voeren we een zorgvuldige vergelijking uit van trainingsvrije sparse attention methoden op verschillende modelschalen, sequentielengtes en sparsiteitsniveaus op een diverse verzameling lange-sequentietaken – inclusief nieuwe taken die vertrouwen op natuurlijke taal terwijl ze controleerbaar en eenvoudig te evalueren blijven. Op basis van onze experimenten rapporteren we een reeks belangrijke bevindingen: 1) een isoFLOPS-analyse toont aan dat voor zeer lange sequenties grotere en sterk gesparseerde modellen de voorkeur hebben boven kleinere en dichte modellen. 2) Het niveau van sparsiteit dat haalbaar is terwijl statistisch gegarandeerd wordt dat de nauwkeurigheid behouden blijft, is hoger tijdens decodering dan tijdens prefilling, en correleert met de modelschaal in het eerste geval. 3) Er is geen duidelijke strategie die het beste presteert over taken en fasen heen, waarbij verschillende eenheden van sparsificatie of budgetadaptiviteit nodig zijn voor verschillende scenario's. Zelfs matige sparsiteitsniveaus resulteren vaak in aanzienlijke prestatievermindering op ten minste één taak, wat benadrukt dat sparse attention geen universele oplossing is. 4) We introduceren en valideren nieuwe schaalwetten die specifiek zijn afgestemd op sparse attention, wat bewijs levert dat onze bevindingen waarschijnlijk gelden buiten het bereik van onze experimenten. Door deze inzichten tonen we aan dat sparse attention een belangrijk instrument is om de mogelijkheden van Transformer LLMs voor het verwerken van langere sequenties te verbeteren, maar dat zorgvuldige evaluatie van afwegingen vereist is voor prestatiegevoelige toepassingen.
We introduceren een nieuwe generatie van kleine redeneermodellen voor RAG, zoeken en bronnensamenvatting. Pleias-RAG-350m en Pleias-RAG-1B zijn getraind op een grote synthetische dataset die het ophalen van een breed scala aan meertalige open bronnen uit het Common Corpus nabootst. Ze bieden native ondersteuning voor citaten en verankering met letterlijke citaten en integreren meerdere functies die geassocieerd worden met RAG-workflows, zoals query routing, queryherformulering en bronherrangschikking. Pleias-RAG-350m en Pleias-RAG-1B presteren beter dan SLM's met minder dan 4 miljard parameters op gestandaardiseerde RAG-benchmarks (HotPotQA, 2wiki) en zijn concurrerend met populaire grotere modellen, waaronder Qwen-2.5-7B, Llama-3.1-8B en Gemma-3-4B. Het zijn tot nu toe de enige SLM's die consistente RAG-prestaties behouden over de belangrijkste Europese talen en systematische referentieverankering voor uitspraken garanderen. Door hun omvang en gemakkelijke implementatie op beperkte infrastructuur en hogere feitelijkheid door ontwerp, ontsluiten de modellen een reeks nieuwe use cases voor generatieve AI.
Wij stellen voor om een onderwerp-gedreven, aangepast videogeneratiemodel te trainen door het onderwerp-specifieke leren te ontkoppelen van temporele dynamiek in zero-shot zonder aanvullende afstemming. Een traditionele methode voor videopersonalisatie die afstemmingsvrij is, vertrouwt vaak op grote, geannoteerde videodatasets, wat rekenintensief is en uitgebreide annotatie vereist. In tegenstelling tot deze eerdere aanpak introduceren wij het gebruik van een beeldpersonalisatiedataset direct voor het trainen van videopersonalisatiemodellen, waarbij de videopersonalisatie wordt opgesplitst in twee aspecten: (1) identiteitsinjectie via de beeldpersonalisatiedataset en (2) behoud van temporele modellering met een kleine set ongeannoteerde video's via de beeld-naar-video-trainingsmethode. Daarnaast passen wij willekeurige beeldtokenverwijdering toe met gerandomiseerde beeldinitialisatie tijdens beeld-naar-video-finetuning om het copy-and-paste-probleem te verminderen. Om het leren verder te verbeteren, introduceren wij stochastisch schakelen tijdens de gezamenlijke optimalisatie van onderwerp-specifieke en temporele kenmerken, wat catastrofaal vergeten vermindert. Onze methode bereikt sterke onderwerpconsistentie en schaalbaarheid, presteert beter dan bestaande videopersonalisatiemodellen in zero-shot-instellingen, en demonstreert de effectiviteit van ons framework.
Effectief redeneren blijft een kernuitdaging voor grote taalmodellen (LLMs) in het financiële domein, waar taken vaak domeinspecifieke kennis, precieze numerieke berekeningen en strikte naleving van compliance-regels vereisen. Wij stellen DianJin-R1 voor, een raamwerk voor verbeterd redeneren dat deze uitdagingen aanpakt door middel van redeneringsondersteund toezicht en reinforcement learning. Centraal in onze aanpak staat DianJin-R1-Data, een hoogwaardige dataset samengesteld uit CFLUE, FinQA en een propriëtaire compliance-corpus (Chinese Compliance Check, CCC), die diverse financiële redeneerscenario's combineert met geverifieerde annotaties. Onze modellen, DianJin-R1-7B en DianJin-R1-32B, zijn afgestemd op Qwen2.5-7B-Instruct en Qwen2.5-32B-Instruct met behulp van een gestructureerd formaat dat zowel redeneerstappen als eindantwoorden genereert. Om de redeneerkwaliteit verder te verfijnen, passen we Group Relative Policy Optimization (GRPO) toe, een reinforcement learning-methode die dubbele beloningssignalen incorporeert: één die gestructureerde uitvoer aanmoedigt en een andere die de juistheid van het antwoord beloont. We evalueren onze modellen op vijf benchmarks: drie financiële datasets (CFLUE, FinQA en CCC) en twee algemene redeneerbenchmarks (MATH-500 en GPQA-Diamond). Experimentele resultaten tonen aan dat de DianJin-R1-modellen consistent beter presteren dan hun niet-redenerende tegenhangers, vooral op complexe financiële taken. Bovendien presteren onze single-call redeneermodellen op de real-world CCC-dataset even goed of zelfs beter dan multi-agent systemen die aanzienlijk meer rekenkracht vereisen. Deze bevindingen demonstreren de effectiviteit van DianJin-R1 in het verbeteren van financieel redeneren door gestructureerd toezicht en beloningsgericht leren, en bieden een schaalbare en praktische oplossing voor real-world toepassingen.
Gegeven een enkel gelabeld voorbeeld, heeft in-context segmentatie als doel om overeenkomstige objecten te segmenteren. Deze instelling, bekend als one-shot segmentatie in few-shot learning, onderzoekt het generalisatievermogen van het segmentatiemodel en is toegepast op diverse visuele taken, waaronder scènebegrip en beeld-/videobewerking. Hoewel recente Segment Anything Models state-of-the-art resultaten hebben behaald in interactieve segmentatie, zijn deze benaderingen niet direct toepasbaar op in-context segmentatie. In dit werk stellen we de Dual Consistency SAM (DC-SAM) methode voor, gebaseerd op prompt-tuning, om SAM en SAM2 aan te passen voor in-context segmentatie van zowel afbeeldingen als video's. Onze belangrijkste inzichten zijn het verbeteren van de kenmerken van de prompt-encoder van SAM in segmentatie door het aanbieden van hoogwaardige visuele prompts. Bij het genereren van een maskerprior, fuseren we de SAM-kenmerken om de prompt-encoder beter uit te lijnen. Vervolgens ontwerpen we een cyclus-consistente cross-attentie op gefuseerde kenmerken en initiële visuele prompts. Daarna wordt een dual-branch ontwerp geboden door het gebruik van discriminerende positieve en negatieve prompts in de prompt-encoder. Bovendien ontwerpen we een eenvoudige mask-tube trainingsstrategie om onze voorgestelde dual consistency methode in de mask-tube te integreren. Hoewel de voorgestelde DC-SAM primair is ontworpen voor afbeeldingen, kan het naadloos worden uitgebreid naar het videodomein met de ondersteuning van SAM2. Gezien het ontbreken van in-context segmentatie in het videodomein, hebben we handmatig de eerste benchmark samengesteld en geconstrueerd uit bestaande videosegmentatiedatasets, genaamd In-Context Video Object Segmentation (IC-VOS), om het in-context vermogen van het model beter te beoordelen. Uitgebreide experimenten tonen aan dat onze methode 55.5 (+1.4) mIoU behaalt op COCO-20i, 73.0 (+1.1) mIoU op PASCAL-5i, en een J&F-score van 71.52 op de voorgestelde IC-VOS benchmark. Onze broncode en benchmark zijn beschikbaar op https://github.com/zaplm/DC-SAM.