Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Zuidoost-Azië (SEA) is een regio met een buitengewone linguïstische en culturele diversiteit, maar het blijft aanzienlijk ondervertegenwoordigd in onderzoek naar visie-taal (VL). Dit resulteert vaak in kunstmatige intelligentie (AI) modellen die de culturele nuances van SEA niet goed weergeven. Om deze kloof te dichten, presenteren we SEA-VL, een open-source initiatief dat zich richt op het ontwikkelen van hoogwaardige, cultureel relevante data voor SEA-talen. Door bijdragers uit SEA-landen te betrekken, streeft SEA-VL ernaar om een betere culturele relevantie en diversiteit te waarborgen, waardoor de inclusiviteit van ondervertegenwoordigde talen in VL-onderzoek wordt bevorderd. Naast crowdsourcing gaat ons initiatief een stap verder in het verkennen van de automatische verzameling van cultureel relevante afbeeldingen via webcrawling en beeldgeneratie. Ten eerste constateren we dat webcrawling ongeveer ~85% culturele relevantie bereikt, terwijl het kostenefficiënter en tijdbesparender is dan crowdsourcing. Ten tweede, ondanks de aanzienlijke vooruitgang in generatieve beeldmodellen, blijven synthetische afbeeldingen onbetrouwbaar in het nauwkeurig weergeven van SEA-culturen. De gegenereerde afbeeldingen slagen er vaak niet in om de genuanceerde tradities en culturele contexten van de regio te weerspiegelen. In totaal verzamelen we 1,28 miljoen cultureel relevante afbeeldingen van SEA, wat meer dan 50 keer groter is dan andere bestaande datasets. Met SEA-VL streven we ernaar om de representatiekloof in SEA te overbruggen, waardoor de ontwikkeling van meer inclusieve AI-systemen wordt bevorderd die authentiek de diverse culturen in heel SEA weergeven.
Het verbeteren van redeneervaardigheden in Grote Multimodale Modellen (LMMs) wordt geconfronteerd met unieke uitdagingen door de complexe interactie tussen visuele waarneming en logisch redeneren, vooral in compacte 3B-parameterarchitecturen waar architectonische beperkingen de redeneercapaciteit en modale afstemming beperken. Hoewel op regels gebaseerd reinforcement learning (RL) uitblinkt in tekstuele domeinen, wordt de multimodale uitbreiding ervan geconfronteerd met twee kritieke barrières: (1) databeperkingen door dubbelzinnige antwoorden en schaarse voorbeelden van complex redeneren, en (2) verminderd fundamenteel redeneren veroorzaakt door multimodale voorpretraining. Om deze uitdagingen aan te pakken, stellen we \method voor, een tweestappenraamwerk dat op regels gebaseerd RL aanpast voor multimodaal redeneren via Foundational Reasoning Enhancement (FRE) gevolgd door Multimodal Generalization Training (MGT). In de FRE-fase worden eerst redeneervaardigheden versterkt met alleen tekstuele gegevens en op regels gebaseerd RL, waarna de MGT-fase deze redeneervaardigheden generaliseert naar multimodale domeinen. Experimenten op Qwen2.5-VL-Instruct-3B tonen aan dat \method gemiddelde verbeteringen van 4,83% en 4,5% behaalt ten opzichte van baseline-modellen in multimodale en tekstuele benchmarks, respectievelijk, met een winst van 3,63% in complexe Football Game-taken. Deze resultaten valideren dat tekstgebaseerde redeneerversterking effectieve multimodale generalisatie mogelijk maakt, wat een data-efficiënt paradigma biedt dat kostbare hoogwaardige multimodale trainingsgegevens omzeilt.
We pakken de taak van lange-muziekgeneratie aan—met name het uitdagende tekst-naar-liedprobleem—door YuE te introduceren, een familie van open foundation-modellen gebaseerd op de LLaMA2-architectuur. Specifiek schaalt YuE naar biljoenen tokens en genereert het tot vijf minuten muziek terwijl het tekstuele afstemming, coherente muzikale structuur en boeiende vocale melodieën met passende begeleiding behoudt. Dit wordt bereikt door (1) track-ontkoppelde volgende-tokenvoorspelling om dichte mengsignalen te overwinnen, (2) structurele progressieve conditionering voor lange-context tekstuele afstemming, en (3) een multitask, multifase pre-trainingsrecept om te convergeren en te generaliseren. Daarnaast herontwerpen we de in-context learning-techniek voor muziekgeneratie, waardoor veelzijdige stijloverdracht mogelijk wordt (bijvoorbeeld het omzetten van Japanse city pop naar een Engelse rap terwijl de originele begeleiding behouden blijft) en bidirectionele generatie. Door uitgebreide evaluatie tonen we aan dat YuE enkele propriëtaire systemen evenaart of zelfs overtreft in muzikaliteit en vocale behendigheid. Bovendien maakt fine-tuning van YuE extra controles en verbeterde ondersteuning voor minder gebruikte talen mogelijk. Verder laten we zien dat de geleerde representaties van YuE goed presteren op muziekbegripstaken, waarbij de resultaten van YuE de state-of-the-art methoden op de MARBLE-benchmark evenaren of overtreffen. Trefwoorden: tekst2lied, liedgeneratie, lange-vorm, foundation-model, muziekgeneratie.
Het trainen van modellen om rekentijd tijdens het testen effectief te benutten, is cruciaal voor het verbeteren van het redeneervermogen van LLM's (Large Language Models). Huidige methoden doen dit voornamelijk via fine-tuning op zoeksporen of door reinforcement learning (RL) uit te voeren met een 0/1 beloning voor het resultaat, maar maken deze benaderingen efficiënt gebruik van de rekentijd tijdens het testen? Zouden deze benaderingen blijven schalen naarmate het budget toeneemt? In dit artikel proberen we deze vragen te beantwoorden. We formaliseren het probleem van het optimaliseren van rekentijd tijdens het testen als een meta-reinforcement learning (RL) probleem, wat een principieel perspectief biedt op het besteden van rekentijd tijdens het testen. Dit perspectief stelt ons in staat om de lange uitvoerstroom van de LLM te zien als bestaande uit meerdere episodes die tijdens het testen worden uitgevoerd, en leidt ons ertoe om een notie van cumulatieve spijt over uitvoertokens te gebruiken als een manier om de effectiviteit van rekentijd tijdens het testen te meten. Net zoals RL-algoritmen de beste afweging kunnen maken tussen exploratie en exploitatie tijdens de training, zou het minimaliseren van cumulatieve spijt ook de beste balans bieden tussen exploratie en exploitatie in de tokenstroom. Hoewel we aantonen dat state-of-the-art modellen geen spijt minimaliseren, kan dit wel worden bereikt door een dichte beloningsbonus te maximaliseren in combinatie met de 0/1 resultaatbeloning van RL. Deze bonus is de "voortgang" die wordt gemaakt door elk volgend blok in de uitvoerstroom, gekwantificeerd door de verandering in de waarschijnlijkheid van uiteindelijk succes. Met deze inzichten ontwikkelen we Meta Reinforcement Fine-Tuning, of MRT, een nieuwe klasse van fine-tuning methoden voor het optimaliseren van rekentijd tijdens het testen. MRT leidt tot een relatieve prestatieverbetering van 2-3x en een ruwweg 1.5x hogere token-efficiëntie voor wiskundig redeneren in vergelijking met RL met resultaatbeloning.
In dit rapport introduceren we Gemini Embedding, een state-of-the-art embeddingmodel dat gebruikmaakt van de kracht van Gemini, het meest geavanceerde grote taalmodel van Google. Door gebruik te maken van de inherente meertalige en codebegripcapaciteiten van Gemini, produceert Gemini Embedding zeer generaliseerbare embeddings voor tekst die zich uitstrekt over talrijke talen en tekstuele modaliteiten. De representaties die door Gemini Embedding worden gegenereerd, kunnen vooraf worden berekend en toegepast op een verscheidenheid aan downstreamtaken, waaronder classificatie, gelijkenis, clustering, rangschikking en retrieval. Geëvalueerd op de Massive Multilingual Text Embedding Benchmark (MMTEB), die meer dan honderd taken omvat in meer dan 250 talen, presteert Gemini Embedding aanzienlijk beter dan eerdere state-of-the-art modellen, wat aanzienlijke verbeteringen in de kwaliteit van de embeddings aantoont. Door state-of-the-art prestaties te behalen op de meertalige, Engelse en codebenchmarks van MMTEB, toont ons unificatiemodel sterke capaciteiten over een breed scala aan taken en overtreft het gespecialiseerde domeinspecifieke modellen.
De snelle vooruitgang van diffusiemodellen heeft een opmerkelijke vooruitgang in het veld van beeldgeneratie teweeggebracht. Toch worstelen gangbare modellen zoals Flux, SD3.5 en Midjourney nog steeds met problemen zoals modelbias, beperkte tekstweergavecapaciteiten en onvoldoende begrip van Chinese culturele nuances. Om deze beperkingen aan te pakken, presenteren we Seedream 2.0, een native Chinees-Engels tweetalig beeldgeneratie-basismodel dat uitblinkt op diverse dimensies, en dat tekstprompts in zowel Chinees als Engels vakkundig verwerkt, waardoor het tweetalige beeldgeneratie en tekstweergave ondersteunt. We ontwikkelen een krachtig datasysteem dat kennisintegratie vergemakkelijkt, en een bijschriftsysteem dat een balans vindt tussen nauwkeurigheid en rijkdom in beeldbeschrijvingen. In het bijzonder is Seedream geïntegreerd met een zelfontwikkeld tweetalig groot taalmodel als tekstencoder, waardoor het native kennis rechtstreeks kan leren uit enorme hoeveelheden data. Dit stelt het in staat om hoogwaardige afbeeldingen te genereren met nauwkeurige culturele nuances en esthetische uitdrukkingen, beschreven in zowel Chinees als Engels. Daarnaast wordt Glyph-Aligned ByT5 toegepast voor flexibele teken-niveau tekstweergave, terwijl een Scaled ROPE goed generaliseert naar ongetrainde resoluties. Multi-fase post-trainingsoptimalisaties, inclusief SFT en RLHF-iteraties, verbeteren de algehele capaciteit verder. Door uitgebreide experimenten tonen we aan dat Seedream 2.0 state-of-the-art prestaties bereikt op meerdere aspecten, waaronder prompt-volgen, esthetiek, tekstweergave en structurele correctheid. Bovendien is Seedream 2.0 geoptimaliseerd door meerdere RLHF-iteraties om de uitvoer nauwkeurig af te stemmen op menselijke voorkeuren, zoals blijkt uit de uitstekende ELO-score. Daarnaast kan het gemakkelijk worden aangepast naar een instructie-gebaseerd beeldbewerkingsmodel, zoals SeedEdit, met sterke bewerkingscapaciteiten die een balans vinden tussen instructie-volgen en beeldconsistentie.
We presenteren MagicInfinite, een nieuw diffusion Transformer (DiT) framework dat traditionele beperkingen van portretanimatie overwint en hoogwaardige resultaten levert voor diverse karaktersoorten - realistische mensen, volledige lichaamsfiguren en gestileerde anime-personages. Het ondersteunt verschillende gezichtshoudingen, inclusief achterwaartse aanzichten, en animeert één of meerdere karakters met invoermaskers voor precieze sprekeraanwijzing in scènes met meerdere personages. Onze aanpak adresseert belangrijke uitdagingen met drie innovaties: (1) 3D volledige-attentiemechanismen met een sliding window denoising-strategie, waardoor oneindige videogeneratie mogelijk wordt met temporele coherentie en visuele kwaliteit voor diverse karakterstijlen; (2) een tweefasen curriculumleerschema, dat audio integreert voor lipsynchronisatie, tekst voor expressieve dynamiek en referentiebeelden voor identiteitsbehoud, waardoor flexibele multimodale controle over lange sequenties mogelijk wordt; en (3) regiospecifieke maskers met adaptieve verliesfuncties om globale tekstuele controle en lokale audiogestuurde begeleiding in balans te brengen, wat sprekerspecifieke animaties ondersteunt. De efficiëntie wordt verbeterd via onze innovatieve unified step en cfg-distillatietechnieken, wat een 20x versnelling van de inferentiesnelheid oplevert ten opzichte van het basismodel: het genereren van een 10 seconden durende 540x540p video in 10 seconden of 720x720p in 30 seconden op 8 H100 GPU's, zonder kwaliteitsverlies. Evaluaties op onze nieuwe benchmark tonen de superioriteit van MagicInfinite aan op het gebied van audio-lipsynchronisatie, identiteitsbehoud en bewegingsnatuurlijkheid in diverse scenario's. Het is publiekelijk beschikbaar op https://www.hedra.com/, met voorbeelden op https://magicinfinite.github.io/.
Hoe verschillen twee individuen wanneer ze dezelfde handeling uitvoeren? In dit werk introduceren we Video Action Differencing (VidDiff), de nieuwe taak om subtiele verschillen tussen video's van dezelfde handeling te identificeren, wat veel toepassingen heeft, zoals coaching en vaardigheidsleren. Om ontwikkeling op deze nieuwe taak mogelijk te maken, creëren we eerst VidDiffBench, een benchmarkdataset met 549 videoparen, voorzien van menselijke annotaties van 4.469 fijnmazige actieverschillen en 2.075 lokalisatietimestamps die aangeven waar deze verschillen optreden. Onze experimenten tonen aan dat VidDiffBench een aanzienlijke uitdaging vormt voor state-of-the-art grote multimodale modellen (LMMs), zoals GPT-4o en Qwen2-VL. Door falende gevallen van LMMs op VidDiffBench te analyseren, belichten we twee belangrijke uitdagingen voor deze taak: het lokaliseren van relevante subacties over twee video's en fijnmazige frame-vergelijking. Om deze te overwinnen, stellen we de VidDiff-methode voor, een agent-gebaseerde workflow die de taak opdeelt in drie fasen: actieverschilvoorstel, sleutelframe-lokalisatie en frameverschillen, waarbij elke fase gespecialiseerde foundationmodellen gebruikt. Om toekomstig onderzoek in deze nieuwe taak aan te moedigen, maken we de benchmark beschikbaar op https://huggingface.co/datasets/jmhb/VidDiffBench en de code op http://jmhb0.github.io/viddiff.
Unified multimodal models (UMMs) zijn naar voren gekomen als een krachtig paradigma in fundamenteel computer vision-onderzoek, waarbij ze aanzienlijk potentieel hebben getoond op het gebied van zowel beeldbegrip als beeldgeneratie. Bestaand onderzoek in het domein van gezichten richt zich echter voornamelijk op het begrijpen van grove gezichtskenmerken, met beperkte capaciteit om fijnmazige gezichtskenmerken te verwerken en zonder aandacht voor generatiemogelijkheden. Om deze beperkingen te overwinnen, stellen we UniF^2ace voor, de eerste UMM die specifiek is ontworpen voor fijnmazig gezichtsbegrip en -generatie. Over het algemeen trainen we UniF^2ace op een zelfsamengestelde, gespecialiseerde dataset met behulp van twee elkaar versterkende diffusietechnieken en een twee niveaus tellende mixture-of-experts-architectuur. Concreet bouwen we eerst een grootschalige gezichtsdataset, UniF^2ace-130K, die 130K afbeelding-tekst-paren bevat met één miljoen vraag-antwoord-paren die een breed scala aan gezichtskenmerken bestrijken. Ten tweede leggen we een theoretische verbinding tussen discrete diffusie score matching en gemaskerde generatieve modellen, waarbij we beide evidence lower bounds gelijktijdig optimaliseren, wat het vermogen van het model om gezichtsdetails te synthetiseren aanzienlijk verbetert. Tot slot introduceren we zowel token-level als sequence-level mixture-of-experts, wat efficiënt fijnmazige representatie leren mogelijk maakt voor zowel begrips- als generatietaken. Uitgebreide experimenten op UniF^2ace-130K tonen aan dat UniF^2ace bestaande UMMs en generatieve modellen overtreft, met superieure prestaties op zowel begrips- als generatietaken.
Hoewel MLLM's adequate beeldbegrip hebben getoond, worstelen ze nog steeds met begrip op pixelniveau, wat hun praktische toepassingen beperkt. Huidige evaluatietaken zoals VQA en visuele verankering blijven te grof om een nauwkeurige beoordeling van fijnmazig pixelbegrip mogelijk te maken. Hoewel segmentatie fundamenteel is voor begrip op pixelniveau, vereisen bestaande methoden vaak dat MLLM's impliciete tokens genereren, die worden gedecodeerd via externe pixeldecoders. Deze aanpak verstoort de tekstuitvoerruimte van de MLLM, wat mogelijk de taalvaardigheden aantast en de flexibiliteit en uitbreidbaarheid vermindert, terwijl het intrinsieke pixelbegrip van het model niet accuraat wordt weergegeven. Daarom introduceren we de Human-Like Mask Annotation Task (HLMAT), een nieuw paradigma waarbij MLLM's menselijke annotators nabootsen met behulp van interactieve segmentatietools. Door segmentatie te modelleren als een meerstaps Markov-beslissingsproces, stelt HLMAT MLLM's in staat om iteratief tekstgebaseerde klikpunten te genereren, waardoor hoogwaardige maskers worden bereikt zonder architectuurwijzigingen of impliciete tokens. Via deze opzet ontwikkelen we SegAgent, een model dat is afgestemd op mensachtige annotatietrajecten, dat prestaties bereikt die vergelijkbaar zijn met state-of-the-art (SOTA) methoden en aanvullende taken ondersteunt zoals maskerverfijning en annotatiefiltering. HLMAT biedt een protocol voor het beoordelen van fijnmazig pixelbegrip in MLLM's en introduceert een visiegerichte, meerstaps besluitvormingstaak die het verkennen van de visuele redeneervaardigheden van MLLM's vergemakkelijkt. Onze aanpassingen van de beleidsverbeteringsmethode StaR en PRM-geleide boomzoektocht versterken verder de robuustheid van het model in complexe segmentatietaken, wat een basis legt voor toekomstige vooruitgang in fijnmazige visuele perceptie en meerstaps besluitvorming voor MLLM's.
Hoewel recente vooruitgang in tekst-naar-video diffusiemodellen het mogelijk maakt om hoogwaardige korte video's te genereren vanuit een enkele prompt, blijft het genereren van realistische lange video's in één keer een uitdaging vanwege beperkte data en hoge rekenkosten. Om dit aan te pakken, stellen verschillende werken tuning-vrije benaderingen voor, waarbij bestaande modellen worden uitgebreid voor het genereren van lange video's, specifiek door gebruik te maken van meerdere prompts om dynamische en gecontroleerde inhoudsveranderingen mogelijk te maken. Deze methoden richten zich echter voornamelijk op het waarborgen van soepele overgangen tussen aangrenzende frames, wat vaak leidt tot inhoudsverschuiving en een geleidelijk verlies van semantische samenhang over langere sequenties. Om dit probleem aan te pakken, stellen wij Synchronized Coupled Sampling (SynCoS) voor, een nieuw inferentiekader dat de denoising-paden over de gehele video synchroniseert, waardoor langetermijnconsistentie wordt gewaarborgd tussen zowel aangrenzende als verre frames. Onze aanpak combineert twee complementaire samplingstrategieën: reverse sampling en optimalisatiegebaseerd sampling, die respectievelijk naadloze lokale overgangen waarborgen en globale samenhang afdwingen. Direct afwisselen tussen deze samplingmethoden leidt echter tot een verkeerde uitlijning van de denoising-trajecten, wat de promptbegeleiding verstoort en onbedoelde inhoudsveranderingen introduceert, aangezien ze onafhankelijk van elkaar werken. Om dit op te lossen, synchroniseert SynCoS deze methoden via een gegronde tijdsstap en een vast basislawaai, waardoor volledig gekoppelde sampling met uitgelijnde denoising-paden wordt gegarandeerd. Uitgebreide experimenten tonen aan dat SynCoS de generatie van lange video's met meerdere gebeurtenissen aanzienlijk verbetert, met soepelere overgangen en superieure langetermijnsamenhang, en daarmee zowel kwantitatief als kwalitatief beter presteert dan eerdere benaderingen.
Test-time compute ontwikkelt zich als een nieuw paradigma om de complexe, meerstaps redeneervaardigheden van taalmodelen te verbeteren, zoals blijkt uit het succes van OpenAI's o1 en o3, evenals DeepSeek's R1. In vergelijking met expliciet redeneren tijdens test-time compute, is impliciet redeneren efficiënter in inferentie, omdat het minder gegenereerde tokens vereist. Waarom komt de geavanceerde redeneervaardigheid echter niet tot uiting in de impliciete redeneerstijl? In dit werk trainen we GPT-2 vanaf nul op een gecureerde dataset voor meerstaps wiskundig redeneren en voeren we analytische experimenten uit om te onderzoeken hoe taalmodelen impliciet redeneren in meerstaps taken. Onze bevindingen onthullen: 1) Taalmodelen kunnen stap-voor-stap redeneren en hoge nauwkeurigheid bereiken in zowel in-domein als out-of-domein tests via impliciet redeneren. Deze vaardigheid komt echter alleen naar voren wanneer getraind op data met een vast patroon. 2) Aan de andere kant neigen impliciete redeneervaardigheden die ontstaan uit training op data zonder vast patroon tot overfitting op een specifiek patroon en slagen ze er niet in om verder te generaliseren. Opmerkelijk is dat deze beperking ook wordt waargenomen in state-of-the-art grote taalmodelen. Deze bevindingen suggereren dat taalmodelen impliciet redeneren verwerven via shortcut learning, wat sterke prestaties mogelijk maakt op taken met vergelijkbare patronen, maar generalisatie ontbreekt.
Recente vooruitgang in tekst-naar-beeldgeneratie heeft voornamelijk vertrouwd op uitgebreide datasets en architecturen met veel parameters. Deze vereisten beperken de toegankelijkheid aanzienlijk voor onderzoekers en praktijkmensen die niet over aanzienlijke rekenkracht beschikken. In dit artikel introduceren we \model, een efficiënt trainingsparadigma voor beeldgeneratiemodellen dat gebruikmaakt van kennisdistillatie (KD) en Direct Preference Optimization (DPO). Geïnspireerd door het succes van data-KD-technieken die veel worden toegepast in Multi-Modale Large Language Models (MLLMs), distilleert LightGen kennis uit state-of-the-art (SOTA) tekst-naar-beeldmodellen in een compacte Masked Autoregressive (MAR)-architectuur met slechts 0,7B parameters. Met behulp van een compacte synthetische dataset van slechts 2M hoogwaardige afbeeldingen gegenereerd uit diverse bijschriften, tonen we aan dat datadiversiteit een veel grotere invloed heeft op modelprestaties dan datavolume. Deze strategie vermindert de rekenkundige eisen aanzienlijk en verkort de voorbereidingstijd van potentieel duizenden GPU-dagen tot slechts 88 GPU-dagen. Bovendien, om de inherente tekortkomingen van synthetische data aan te pakken, met name slechte hoogfrequente details en ruimtelijke onnauwkeurigheden, integreren we de DPO-techniek die de beeldkwaliteit en positionele nauwkeurigheid verfijnt. Uitgebreide experimenten bevestigen dat LightGen beeldgeneratiekwaliteit bereikt die vergelijkbaar is met SOTA-modellen, terwijl het rekenkundige middelen aanzienlijk reduceert en de toegankelijkheid voor omgevingen met beperkte middelen vergroot. Code is beschikbaar op https://github.com/XianfengWu01/LightGen.
Recente vooruitgang in geünificeerde multimodale begrips- en visuele generatie (of multimodale generatie) modellen is belemmerd door hun kwadratische computationale complexiteit en afhankelijkheid van grootschalige trainingsdata. Wij presenteren OmniMamba, het eerste lineair-architectuurgebaseerde multimodale generatie- model dat zowel tekst als afbeeldingen genereert via een geünificeerd next-token voorspellingsparadigma. Het model benut volledig de hoge computationale en geheugen- efficiëntie van Mamba-2, en breidt de mogelijkheden uit van tekstgeneratie naar multimodale generatie. Om de data-inefficiëntie van bestaande geünificeerde modellen aan te pakken, stellen we twee belangrijke innovaties voor: (1) ontkoppelde vocabulaire om modaal-specifieke generatie te sturen, en (2) taakspecifieke LoRA voor parameter-efficiënte aanpassing. Verder introduceren we een ontkoppelde tweefasen- trainingsstrategie om data-onbalans tussen twee taken te verminderen. Uitgerust met deze technieken behaalt OmniMamba competitieve prestaties met JanusFlow terwijl het Show-o overtreft op benchmarks, ondanks dat het getraind is op slechts 2M afbeelding-tekst paren, wat 1.000 keer minder is dan Show-o. Opmerkelijk is dat OmniMamba uitblinkt met uitstekende inferentie-efficiëntie, met een versnelling tot 119,2 keer en een GPU-geheugenreductie van 63% voor lange-sequentiegeneratie in vergelijking met Transformer-gebaseerde tegenhangers. Code en modellen zijn vrijgegeven op https://github.com/hustvl/OmniMamba.
Instructievolgende retrievers worden veelvuldig naast LLM's toegepast in praktische toepassingen, maar er is weinig onderzoek gedaan naar de veiligheidsrisico's rondom hun toenemende zoekcapaciteiten. We bestuderen empirisch het vermogen van retrievers om kwaadaardige queries te bevredigen, zowel bij direct gebruik als bij gebruik in een op retrieval-augmented generation gebaseerde opzet. Concreet onderzoeken we zes toonaangevende retrievers, waaronder NV-Embed en LLM2Vec, en constateren dat de meeste retrievers bij kwaadaardige verzoeken (voor >50% van de queries) relevante schadelijke passages kunnen selecteren. Zo selecteert LLM2Vec bijvoorbeeld correcte passages voor 61,35% van onze kwaadaardige queries. We ontdekken verder een opkomend risico bij instructievolgende retrievers, waarbij zeer relevante schadelijke informatie naar voren kan worden gebracht door hun instructievolgende capaciteiten te misbruiken. Tenslotte tonen we aan dat zelfs veiligheidsafgestemde LLM's, zoals Llama3, kwaadaardige verzoeken kunnen bevredigen wanneer ze schadelijke opgehaalde passages in-context krijgen aangeboden. Kortom, onze bevindingen benadrukken de risico's van kwaadwillig misbruik die gepaard gaan met de toenemende capaciteit van retrievers.
Codelokalisatie—het precies identificeren waar in een codebase wijzigingen moeten worden aangebracht—is een fundamentele maar uitdagende taak in softwareonderhoud. Bestaande benaderingen hebben moeite om efficiënt door complexe codebases te navigeren bij het identificeren van relevante codesecties. De uitdaging ligt in het overbruggen van natuurlijke taalprobleembeschrijvingen met de juiste code-elementen, wat vaak redenering vereist over hiërarchische structuren en meerdere afhankelijkheden. Wij introduceren LocAgent, een framework dat codelokalisatie aanpakt via een op grafieken gebaseerde representatie. Door codebases te parseren in gerichte heterogene grafieken, creëert LocAgent een lichtgewicht representatie die codestructuren (bestanden, klassen, functies) en hun afhankelijkheden (imports, aanroepen, overerving) vastlegt, waardoor LLM-agents effectief kunnen zoeken en relevante entiteiten kunnen lokaliseren via krachtige multi-hop redenering. Experimentele resultaten op real-world benchmarks tonen aan dat onze aanpak de nauwkeurigheid van codelokalisatie aanzienlijk verbetert. Opmerkelijk is dat onze methode met het fijn afgestelde Qwen-2.5-Coder-Instruct-32B model vergelijkbare resultaten behaalt met SOTA propriëtaire modellen tegen sterk gereduceerde kosten (ongeveer 86% reductie), met een nauwkeurigheid van tot 92,7% op bestandsniveau lokalisatie, terwijl het succespercentage van downstream GitHub-issue-oplossingen met 12% verbetert voor meerdere pogingen (Pass@10). Onze code is beschikbaar op https://github.com/gersteinlab/LocAgent.
De interactie van mensen met de externe wereld omvat fundamenteel de uitwisseling van persoonlijke herinneringen, of dit nu is met andere individuen, websites, applicaties of, in de toekomst, AI-agents. Een aanzienlijk deel van deze interactie is redundant, waarbij gebruikers herhaaldelijk dezelfde informatie moeten verstrekken in verschillende contexten. Bestaande oplossingen, zoals in browsers opgeslagen inloggegevens, automatische invulmechanismen en geünificeerde authenticatiesystemen, hebben geprobeerd deze redundantie te verminderen door als tussenpersonen te fungeren die veelgebruikte gebruikersgegevens opslaan en ophalen. De opkomst van grote taalmodelen (LLMs) biedt een kans om geheugenbeheer opnieuw te definiëren via een AI-native paradigma: SECOND ME. SECOND ME fungeert als een intelligent, persistent geheugenoffloadsysteem dat gebruikersspecifieke kennis behoudt, organiseert en dynamisch benut. Door als tussenpersoon te dienen in gebruikersinteracties, kan het autonoom contextbewuste reacties genereren, vereiste informatie vooraf invullen en naadloze communicatie met externe systemen faciliteren, waardoor de cognitieve belasting en interactiewrijving aanzienlijk worden verminderd. In tegenstelling tot traditionele geheugenopslagoplossingen gaat SECOND ME verder dan statische gegevensretentie door gebruik te maken van LLM-gebaseerde geheugenparameterisatie. Dit maakt gestructureerde organisatie, contextueel redeneren en adaptieve kennisretrieval mogelijk, wat leidt tot een meer systematische en intelligente benadering van geheugenbeheer. Naarmate AI-gedreven persoonlijke agents zoals SECOND ME steeds meer worden geïntegreerd in digitale ecosystemen, vertegenwoordigt SECOND ME een cruciale stap naar het versterken van mens-wereldinteractie met persistente, contextbewuste en zelfoptimaliserende geheugensystemen. We hebben het volledig lokaliseerbare implementatiesysteem openbaar gemaakt op GitHub: https://github.com/Mindverse/Second-Me.
We introduceren een nieuw visueel tokenisatiekader dat een bewijsbare PCA-achtige structuur in de latente tokenruimte incorporeert. Terwijl bestaande visuele tokenizers voornamelijk optimaliseren voor reconstructiefideliteit, verwaarlozen ze vaak de structurele eigenschappen van de latente ruimte — een cruciaal aspect voor zowel interpreteerbaarheid als downstream taken. Onze methode genereert een 1D causale tokenreeks voor afbeeldingen, waarbij elke opeenvolgende token niet-overlappende informatie bijdraagt met wiskundig gegarandeerde afnemende verklaarde variantie, analoog aan hoofdcomponentenanalyse. Deze structurele beperking zorgt ervoor dat de tokenizer eerst de meest opvallende visuele kenmerken extraheert, waarbij elke volgende token afnemende maar complementaire informatie toevoegt. Daarnaast hebben we een semantisch-spectrumkoppelingseffect geïdentificeerd en opgelost dat ongewenste verstrengeling van hoogwaardige semantische inhoud en laagwaardige spectrale details in de tokens veroorzaakt, door gebruik te maken van een diffusiedecoder. Experimenten tonen aan dat onze aanpak state-of-the-art reconstructieprestaties bereikt en een betere interpreteerbaarheid mogelijk maakt die aansluit bij het menselijk visuele systeem. Bovendien bereiken autoregressieve modellen die getraind zijn op onze tokenreeksen prestaties die vergelijkbaar zijn met de huidige state-of-the-art methoden, terwijl ze minder tokens nodig hebben voor training en inferentie.
Naarmate multimodale fundamentele modellen experimenteel worden ingezet in zelfrijdende auto's, is een redelijke vraag die we ons stellen: hoe vergelijkbaar reageren deze systemen met mensen in bepaalde rijomstandigheden – vooral in situaties die buiten de distributie vallen? Om dit te bestuderen, hebben we de Robusto-1 dataset gecreëerd, die gebruik maakt van dashcam-videogegevens uit Peru, een land met een van de meest agressieve bestuurders ter wereld, een hoge verkeersindex en een hoog aandeel van bizarre tot niet-bizarre straatobjecten die waarschijnlijk nooit in de training zijn gezien. In het bijzonder, om op een cognitief niveau voorlopig te testen hoe goed fundamentele visuele taalmodellen (VLMs) zich verhouden tot mensen in rijomstandigheden, stappen we af van begrenzingsvakken, segmentatiekaarten, bezettingskaarten of trajectschattingen naar multimodale visuele vraag-antwoordtaken (VQA), waarbij we zowel mensen als machines vergelijken via een populaire methode in systeemneurowetenschappen, bekend als Representational Similarity Analysis (RSA). Afhankelijk van het type vragen dat we stellen en de antwoorden die deze systemen geven, zullen we laten zien in welke gevallen VLMs en mensen convergeren of divergeren, wat ons in staat stelt hun cognitieve uitlijning te onderzoeken. We ontdekken dat de mate van uitlijning aanzienlijk varieert afhankelijk van het type vragen dat aan elk type systeem wordt gesteld (mensen versus VLMs), wat een kloof in hun uitlijning benadrukt.
In dit artikel introduceren we CineBrain, de eerste grootschalige dataset met gelijktijdige EEG- en fMRI-opnames tijdens dynamische audiovisuele stimulatie. Erkennend dat EEG een hoge temporele resolutie biedt en fMRI een diepe ruimtelijke dekking van de hersenen, bevat CineBrain ongeveer zes uur aan narratief gedreven content van de populaire televisieserie The Big Bang Theory voor elk van de zes deelnemers. Op basis van deze unieke dataset stellen we CineSync voor, een innovatief multimodaal decodeerframework dat een Multi-Modal Fusion Encoder integreert met een op diffusie gebaseerde Neural Latent Decoder. Onze aanpak combineert EEG- en fMRI-signalen effectief en verbetert de reconstructiekwaliteit van complexe audiovisuele stimuli aanzienlijk. Om een rigoureuze evaluatie mogelijk te maken, introduceren we Cine-Benchmark, een uitgebreid evaluatieprotocol dat reconstructies beoordeelt op zowel semantische als perceptuele dimensies. Experimentele resultaten tonen aan dat CineSync state-of-the-art videoreconstructieprestaties bereikt en benadrukken ons initiële succes in het combineren van fMRI en EEG voor het reconstrueren van zowel video- als audiostimuli. Projectpagina: https://jianxgao.github.io/CineBrain.
Grote visueel-taalkundige modellen (LVLMs) hebben opmerkelijke prestaties laten zien, maar het genereren van niet-feitelijke antwoorden blijft veelvoorkomend bij feitenzoekende vraag-antwoordtaken (QA). Huidige multimodale benchmarks voor feitenzoekende taken richten zich voornamelijk op het vergelijken van modeluitvoer met grondwaarheid-antwoorden, wat beperkte inzichten biedt in de prestaties van modalitiespecifieke modules. Om deze kloof te overbruggen, introduceren we VisualSimpleQA, een multimodale benchmark voor feitenzoekende taken met twee belangrijke kenmerken. Ten eerste maakt het een gestroomlijnde en ontkoppelde evaluatie van LVLMs in visuele en taalkundige modaliteiten mogelijk. Ten tweede bevat het goed gedefinieerde moeilijkheidscriteria om menselijke annotatie te begeleiden en vergemakkelijkt het de extractie van een uitdagende subset, VisualSimpleQA-hard. Experimenten met 15 LVLMs tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o slechts 60%+ correctheid behalen in multimodale feitenzoekende QA op VisualSimpleQA en 30%+ op VisualSimpleQA-hard. Bovendien laat de ontkoppelde evaluatie over deze modellen aanzienlijke verbeteringsmogelijkheden zien in zowel visuele als taalkundige modules. De dataset is beschikbaar op https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Benchmarks zijn essentieel voor consistente evaluatie en reproduceerbaarheid. De integratie van Kunstmatige Intelligentie in Software Engineering (AI4SE) heeft geleid tot talrijke benchmarks voor taken zoals codegeneratie en bugfixing. Deze toename brengt echter uitdagingen met zich mee: (1) verspreide benchmarkkennis over verschillende taken, (2) moeilijkheden bij het selecteren van relevante benchmarks, (3) het ontbreken van een uniforme standaard voor benchmarkontwikkeling, en (4) beperkingen van bestaande benchmarks. In dit artikel bespreken we 173 studies en identificeren we 204 AI4SE-benchmarks. We classificeren deze benchmarks, analyseren hun beperkingen en leggen hiaten in de praktijken bloot. Op basis van onze review hebben we BenchScout ontwikkeld, een semantisch zoekinstrument om relevante benchmarks te vinden, door middel van geautomatiseerde clustering van de contexten uit bijbehorende studies. We hebben een gebruikersstudie uitgevoerd met 22 deelnemers om de bruikbaarheid, effectiviteit en intuïtiviteit van BenchScout te evalueren, wat resulteerde in gemiddelde scores van 4.5, 4.0 en 4.1 op een schaal van 5. Om benchmarkstandaarden te bevorderen, stellen we BenchFrame voor, een uniforme methode om de kwaliteit van benchmarks te verbeteren. Als casestudy hebben we BenchFrame toegepast op de HumanEval-benchmark en de belangrijkste beperkingen ervan aangepakt. Dit leidde tot HumanEvalNext, met (1) gecorrigeerde fouten, (2) verbeterde taalconversie, (3) uitgebreide testdekking en (4) verhoogde moeilijkheidsgraad. Vervolgens hebben we tien state-of-the-art code-taalmodellen geëvalueerd op HumanEval, HumanEvalPlus en HumanEvalNext. Op HumanEvalNext lieten de modellen een daling zien in de pass@1-score van respectievelijk 31.22% en 19.94% vergeleken met HumanEval en HumanEvalPlus.
Neuronen in grote taalmodelen vertonen vaak polysemantie, waarbij ze tegelijkertijd meerdere ongerelateerde concepten coderen en de interpreteerbaarheid bemoeilijken. In plaats van te vertrouwen op post-hoc methoden, presenteren we MoE-X, een Mixture-of-Experts (MoE) taalmodel dat ontworpen is om intrinsiek interpreteerbaar te zijn. Onze aanpak is gemotiveerd door de observatie dat in taalmodelen bredere netwerken met sparse activaties meer geneigd zijn interpreteerbare factoren vast te leggen. Het direct trainen van dergelijke grote, sparse netwerken is echter computationeel onhaalbaar. MoE-architecturen bieden een schaalbare alternatief door slechts een subset van experts te activeren voor een gegeven invoer, wat inherent aansluit bij interpreteerbaarheidsdoelen. In MoE-X leggen we deze verbinding door de MoE-laag te herschrijven als een equivalente sparse, grote MLP. Deze aanpak maakt efficiënte schaalvergroting van de verborgen grootte mogelijk terwijl de sparsiteit behouden blijft. Om de interpreteerbaarheid verder te verbeteren, dwingen we sparse activatie af binnen elke expert en herontwerpen we het routeringsmechanisme om experts met de hoogste activatiesparsiteit te prioriteren. Deze ontwerpen zorgen ervoor dat alleen de meest opvallende kenmerken worden doorgestuurd en verwerkt door de experts. We evalueren MoE-X op schaak- en natuurlijke-taaltaken, waarbij we aantonen dat het prestaties bereikt die vergelijkbaar zijn met die van dense modellen, terwijl de interpreteerbaarheid aanzienlijk verbetert. MoE-X behaalt een perplexiteit die beter is dan GPT-2, met een interpreteerbaarheid die zelfs sparse autoencoder (SAE)-gebaseerde benaderingen overtreft.
Gezamenlijke audio-video (AV) generatie blijft een aanzienlijke uitdaging in generatieve AI, voornamelijk vanwege drie kritieke vereisten: de kwaliteit van de gegenereerde samples, naadloze multimodale synchronisatie en temporele samenhang, waarbij audiosporen overeenkomen met de visuele data en vice versa, en onbeperkte videoduur. In dit artikel presenteren we een nieuwe transformer-gebaseerde architectuur die alle belangrijke uitdagingen van AV-generatie aanpakt. We onderzoeken drie verschillende cross-modale interactiemodules, waarbij onze lichtgewicht temporele fusiemodule naar voren komt als de meest effectieve en computationeel efficiënte aanpak voor het afstemmen van audio- en visuele modaliteiten. Onze experimentele resultaten tonen aan dat de bestaande state-of-the-art modellen overtreft in multimodale AV-generatietaken. Onze code en checkpoints zijn beschikbaar op https://github.com/ErgastiAlex/R-FLAV.
Ondanks recente vooruitgang in op leren gebaseerde bewegingstussenvoeging, is een belangrijke beperking over het hoofd gezien: de vereiste voor karakter-specifieke datasets. In dit werk introduceren we AnyMoLe, een nieuwe methode die deze beperking aanpakt door gebruik te maken van videodiffusiemodellen om bewegings-tussenframes te genereren voor willekeurige karakters zonder externe data. Onze aanpak hanteert een tweestaps frame-generatieproces om het contextuele begrip te verbeteren. Bovendien introduceren we ICAdapt, een fine-tuningtechniek voor videodiffusiemodellen, om de domeinkloof tussen real-world en gerenderde karakteranimaties te overbruggen. Daarnaast stellen we een "bewegings-video nabootsing" optimalisatietechniek voor, die naadloze bewegingsgeneratie mogelijk maakt voor karakters met willekeurige gewrichtsstructuren door gebruik te maken van 2D- en 3D-bewuste kenmerken. AnyMoLe vermindert de data-afhankelijkheid aanzienlijk terwijl het vloeiende en realistische overgangen genereert, waardoor het toepasbaar is op een breed scala aan bewegingstussenvoegingstaken.
Eerdere studies hebben aangetoond dat taalmodellen stereotypen en vooroordelen vertonen. Bestaande strategieën om vooroordelen te verminderen, zoals het opnieuw trainen van een model met tegenstrijdige gegevens, representatieprojectie en prompting, slagen er vaak niet in om vooroordelen efficiënt te elimineren of de bevooroordeelde interne representaties van de modellen direct te wijzigen. Om deze problemen aan te pakken, stellen we BiasEdit voor, een efficiënte methode voor modelbewerking om stereotypische vooroordelen uit taalmodellen te verwijderen door middel van lichtgewicht netwerken die fungeren als editors om parameterupdates te genereren. BiasEdit maakt gebruik van een verliesfunctie voor het verminderen van vooroordelen, die editor-netwerken begeleidt om lokale aanpassingen uit te voeren op een deel van de parameters van een taalmodel om vooroordelen te verminderen, terwijl de taalmodelleringsvaardigheden tijdens het bewerken behouden blijven door middel van een retentieverlies. Experimenten op StereoSet en Crows-Pairs demonstreren de effectiviteit, efficiëntie en robuustheid van BiasEdit in het elimineren van vooroordelen in vergelijking met tangentiële debiasing-baselines, met weinig tot geen impact op de algemene capaciteiten van de taalmodellen. Daarnaast voeren we bias tracing uit om vooroordelen in verschillende modules te onderzoeken en verkennen we de impact van biasbewerkingen op verschillende componenten van taalmodellen.
Mensen zijn ongetwijfeld de belangrijkste deelnemers in computervisie, en het vermogen om een individu te detecteren op basis van een natuurlijke taal beschrijving, een taak die we definiëren als verwijzen naar een persoon, heeft aanzienlijke praktische waarde. We constateren echter dat bestaande modellen over het algemeen niet in staat zijn om real-world bruikbaarheid te bereiken, en huidige benchmarks worden beperkt door hun focus op één-op-één verwijzingen, wat de vooruitgang op dit gebied belemmert. In dit werk benaderen we deze taak vanuit drie kritische perspectieven: taakdefinitie, datasetontwerp en modelarchitectuur. We identificeren eerst vijf aspecten van verwijzingen en drie onderscheidende kenmerken van deze taak. Vervolgens introduceren we HumanRef, een nieuwe dataset die ontworpen is om deze uitdagingen aan te pakken en real-world toepassingen beter te weerspiegelen. Vanuit een modelontwerpperspectief integreren we een multimodaal groot taalmodel met een objectdetectiekader, waardoor we een robuust verwijsmodel construeren genaamd RexSeek. Experimentele resultaten laten zien dat state-of-the-art modellen, die goed presteren op veelgebruikte benchmarks zoals RefCOCO/+/g, moeite hebben met HumanRef vanwege hun onvermogen om meerdere individuen te detecteren. In tegenstelling daarmee blinkt RexSeek niet alleen uit in het verwijzen naar mensen, maar generaliseert het ook effectief naar het verwijzen naar gewone objecten, waardoor het breed toepasbaar is in verschillende perceptietaken. Code is beschikbaar op https://github.com/IDEA-Research/RexSeek.
Diffusiemodellen en Flow Matching genereren hoogwaardige samples, maar zijn traag tijdens inferentie, en het destilleren ervan naar modellen met weinig stappen leidt vaak tot instabiliteit en uitgebreide afstemming. Om deze afwegingen op te lossen, stellen we Inductive Moment Matching (IMM) voor, een nieuwe klasse van generatieve modellen voor één of weinig-staps sampling met een enkelvoudig trainingsproces. In tegenstelling tot destillatie, vereist IMM geen voorafgaande training, initialisatie en optimalisatie van twee netwerken; en in tegenstelling tot Consistentiemodellen garandeert IMM convergentie op distributieniveau en blijft stabiel onder verschillende hyperparameters en standaard model architecturen. IMM overtreft diffusiemodellen op ImageNet-256x256 met een FID van 1,99 met slechts 8 inferentiestappen en behaalt een state-of-the-art 2-staps FID van 1,98 op CIFAR-10 voor een model dat vanaf nul is getraind.
Eerdere studies hebben aangetoond dat op PLM gebaseerde retrievalsystemen een voorkeur vertonen voor door LLM gegenereerde inhoud, waarbij ze hogere relevantiescores toekennen aan deze documenten, zelfs wanneer hun semantische kwaliteit vergelijkbaar is met door mensen geschreven documenten. Dit fenomeen, bekend als bronbias, vormt een bedreiging voor de duurzame ontwikkeling van het ecosysteem voor informatie toegang. De onderliggende oorzaken van bronbias zijn echter nog niet onderzocht. In dit artikel verklaren we het proces van informatie retrieval met een causaal diagram en ontdekken we dat op PLM gebaseerde retrievers perplexiteitskenmerken leren voor relevantieschatting, wat bronbias veroorzaakt door documenten met een lage perplexiteit hoger te rangschikken. Theoretische analyse onthult verder dat het fenomeen voortkomt uit de positieve correlatie tussen de gradiënten van de verliesfuncties in de taak van taalmodellering en de retrievetaak. Op basis van de analyse wordt een causaal geïnspireerde debiasingmethode tijdens inferentie voorgesteld, genaamd Causal Diagnosis and Correction (CDC). CDC diagnosticeert eerst het biaseffect van de perplexiteit en scheidt vervolgens het biaseffect van de totale geschatte relevantiescore. Experimentele resultaten in drie domeinen tonen de superieure debiasing effectiviteit van CDC aan, wat de geldigheid van ons voorgestelde verklaringskader benadrukt. Broncodes zijn beschikbaar op https://github.com/WhyDwelledOnAi/Perplexity-Trap.
Diffusiemodellen hebben opmerkelijke successen behaald in verschillende domeinen. Hun trage generatiesnelheid blijft echter een kritieke uitdaging. Bestaande versnellingsmethoden, hoewel gericht op het verminderen van stappen, gaan vaak ten koste van de samplekwaliteit, beheersbaarheid, of introduceren trainingscomplexiteiten. Daarom stellen wij RayFlow voor, een nieuw diffusiekader dat deze beperkingen aanpakt. In tegenstelling tot vorige methoden leidt RayFlow elk sample langs een uniek pad naar een instantiespecifieke doeldistributie. Deze methode minimaliseert de samplingstappen terwijl de generatiediversiteit en stabiliteit behouden blijven. Bovendien introduceren we Time Sampler, een importance sampling-techniek om de trainings efficiëntie te verbeteren door te focussen op cruciale tijdstappen. Uitgebreide experimenten tonen de superioriteit van RayFlow aan in het genereren van hoogwaardige afbeeldingen met verbeterde snelheid, controle en trainings efficiëntie in vergelijking met bestaande versnellings technieken.
Het vakgebied van neurale machinaalvertaling (NMT) is veranderd met de opkomst van grote taalmodelen (LLMs). Veel van de recente aandacht in natuurlijke taalverwerking (NLP) is uitgegaan naar het modelleren van machinaalvertaling en vele andere problemen met behulp van een enkele vooraf getrainde Transformer-decoder, terwijl encoder-decoder-architecturen, die eerder de standaard waren in NMT-modellen, relatief minder aandacht hebben gekregen. In dit artikel onderzoeken we vertaalmodellen die universeel, efficiënt en eenvoudig te optimaliseren zijn, door de wereld van LLMs te combineren met de wereld van NMT. We passen LLMs toe op NMT-codering en laten de NMT-decoder ongewijzigd. We ontwikkelen ook methoden om LLMs beter te laten samenwerken met de NMT-decoder. Bovendien construeren we een nieuwe dataset met meerdere taken om te beoordelen hoe goed het machinaalvertalingssysteem generaliseert over verschillende taken. Evaluaties op de WMT en onze datasets laten zien dat resultaten met onze methode gelijk zijn aan of een reeks baselines overtreffen wat betreft vertaalkwaliteit, maar ze bereiken een versnelling van de inferentiesnelheid met een factor 2,4 tot 6,5 en een reductie van 75% in het geheugengebruik van de KV-cache. Het toont ook sterke generalisatie over een verscheidenheid aan vertaalgerelateerde taken.
Recente vooruitgang in het begrijpen van lange video's vermindert doorgaans visuele redundantie door visuele token pruning op basis van aandachtverdeling. Echter, hoewel bestaande methoden post-hoc pruning van tokens met lage respons in decoderlagen toepassen, negeren ze de semantische correlatie op invoerniveau tussen visuele tokens en instructies (query). In dit artikel stellen we QuoTA voor, een ante-hoc training-vrij module dat bestaande grote video-taalmodellen (LVLMs) uitbreidt voor visuele token toewijzing op basis van query-gerichte frame-level belangrijkheidsbeoordeling. De query-gerichte token selectie is cruciaal omdat het visuele verwerking afstemt op taakspecifieke vereisten, waardoor het tokenbudget optimaal wordt benut terwijl semantisch relevante inhoud behouden blijft. Specifiek (i) wijst QuoTA strategisch frame-level belangrijkheidsscores toe op basis van query relevantie, waardoor eenmalige visuele token toewijzing mogelijk is vóór cross-modale interacties in decoderlagen, (ii) ontkoppelen we de query via Chain-of-Thoughts redenering om nauwkeurigere LVLM-gebaseerde frame belangrijkheidsscores te faciliteren, en (iii) biedt QuoTA een plug-and-play functionaliteit die uitbreidt naar bestaande LVLMs. Uitgebreide experimentele resultaten tonen aan dat het implementeren van QuoTA met LLaVA-Video-7B een gemiddelde prestatieverbetering van 3,2% oplevert over zes benchmarks (inclusief Video-MME en MLVU) terwijl het opereert binnen een identiek visueel tokenbudget als de baseline. Codes zijn open-source beschikbaar op https://github.com/MAC-AutoML/QuoTA.
Hoe eenvoudig het ook lijkt, het verplaatsen van een object naar een andere locatie binnen een afbeelding is in feite een uitdagende beeldbewerkingstaak die het herharmoniseren van de belichting, het aanpassen van de pose op basis van perspectief, het nauwkeurig invullen van verborgen gebieden en het zorgen voor een coherente synchronisatie van schaduwen en reflecties vereist, terwijl de objectidentiteit behouden blijft. In dit artikel presenteren we ObjectMover, een generatief model dat objectverplaatsing kan uitvoeren in zeer uitdagende scènes. Onze belangrijkste inzicht is dat we deze taak modelleren als een sequentie-naar-sequentieprobleem en een videogeneratiemodel finetunen om gebruik te maken van zijn kennis over consistente objectgeneratie over videoframes. We laten zien dat ons model met deze aanpak kan inspelen op complexe real-world scenario's, waarbij extreme belichtingsharmonisatie en objecteffectverplaatsing worden afgehandeld. Omdat grootschalige gegevens voor objectverplaatsing niet beschikbaar zijn, construeren we een datageneratiepijplijn met behulp van een moderne game-engine om hoogwaardige gegevensparen te synthetiseren. We stellen verder een multi-task leerstrategie voor die training op real-world videogegevens mogelijk maakt om de modelgeneralisatie te verbeteren. Door middel van uitgebreide experimenten tonen we aan dat ObjectMover uitstekende resultaten behaalt en zich goed aanpast aan real-world scenario's.
Het Mixture of Experts (MoE) is een effectieve architectuur voor het schalen van grote taalmodelen door gebruik te maken van sparse expert-activering, waardoor de afweging tussen prestaties en efficiëntie wordt geoptimaliseerd. Echter, onder expert-parallelisme lijdt MoE aan inefficiënties tijdens inferentie als gevolg van een onbalans in token-to-expert-toewijzing, waarbij sommige experts overbelast zijn terwijl anderen onderbenut blijven. Deze onbalans leidt tot slechte resourcebenutting en verhoogde latentie, aangezien de meest belaste expert de totale vertraging bepaalt, een fenomeen dat we definiëren als het \textit{Straggler Effect}. Om dit te mitigeren, stellen we Capacity-Aware Inference voor, inclusief twee belangrijke technieken: (1) \textit{Capacity-Aware Token Drop}, die overbelaste tokens verwijdert om de maximale latentie van MoE te reguleren, en (2) \textit{Capacity-Aware Token Reroute}, die overbelaste tokens herverdeelt naar onderbenutte experts, waardoor de tokenverdeling wordt gebalanceerd. Deze technieken optimaliseren gezamenlijk zowel het gebruik van zwaar belaste als licht belaste experts, wat resulteert in een efficiëntere MoE-inferentiepijplijn. Uitgebreide experimenten tonen de effectiviteit van onze methoden aan, met significante verbeteringen in inferentie-efficiëntie, zoals een gemiddelde prestatieverbetering van 0,2\% en een inferentieversnelling van 1,94 keer op Mixtral-8x7B-Instruct.
Dichte retrievalsystemen worden vaak gebruikt in Informatie Retrieval (IR)-toepassingen, zoals Retrieval-Augmented Generation (RAG). Omdat ze meestal de eerste stap in deze systemen vormen, is hun robuustheid cruciaal om fouten te voorkomen. In dit werk ontwerpen we, door een dataset voor relatie-extractie (bijv. Re-DocRED) te hergebruiken, gecontroleerde experimenten om de impact van heuristische biases, zoals het bevoordelen van kortere documenten, in retrievers zoals Dragon+ en Contriever te kwantificeren. Onze bevindingen onthullen significante kwetsbaarheden: retrievers vertrouwen vaak op oppervlakkige patronen zoals het overmatig prioriteren van het begin van documenten, kortere documenten, herhaalde entiteiten en letterlijke overeenkomsten. Daarnaast negeren ze vaak of het document het antwoord op de query bevat, wat wijst op een gebrek aan diepgaand semantisch begrip. Opmerkelijk is dat wanneer meerdere biases zich combineren, modellen een catastrofale prestatievermindering vertonen, waarbij ze in minder dan 3% van de gevallen het document met het antwoord selecteren boven een bevooroordeeld document zonder het antwoord. Bovendien tonen we aan dat deze biases directe gevolgen hebben voor downstream-toepassingen zoals RAG, waarbij door de retriever geprefereerde documenten grote taalmodellen (LLMs) kunnen misleiden, wat resulteert in een prestatievermindering van 34% in vergelijking met het niet verstrekken van documenten.
Intelligentie is een cruciaal kenmerk voor soorten om oplossingen te vinden binnen een beperkt aantal trial-and-error pogingen. Op basis van dit idee introduceren we Survival Game als een raamwerk om intelligentie te evalueren op basis van het aantal mislukte pogingen in een trial-and-error proces. Minder mislukkingen duiden op een hogere intelligentie. Wanneer zowel de verwachting als de variantie van het aantal mislukkingen eindig zijn, geeft dit het vermogen aan om consistent oplossingen te vinden voor nieuwe uitdagingen, wat wij definiëren als het Autonome Niveau van intelligentie. Met behulp van Survival Game evalueren we bestaande AI-systemen uitgebreid. Onze resultaten laten zien dat hoewel AI-systemen het Autonome Niveau bereiken in eenvoudige taken, ze hier nog ver van verwijderd zijn in complexere taken, zoals visie, zoeken, aanbevelingen en taal. Hoewel het opschalen van huidige AI-technologieën zou kunnen helpen, zou dit tegen astronomische kosten gaan. Projecties suggereren dat het bereiken van het Autonome Niveau voor algemene taken 10^{26} parameters zou vereisen. Om dit in perspectief te plaatsen: het laden van zo'n enorm model vereist zoveel H100 GPU's dat hun totale waarde 10^{7} keer de marktwaarde van Apple Inc. is. Zelfs met de Wet van Moore zou het ondersteunen van zo'n parameterschaal 70 jaar duren. Deze verbijsterende kosten benadrukken de complexiteit van menselijke taken en de tekortkomingen van huidige AI-technologieën. Om dit fenomeen verder te onderzoeken, voeren we een theoretische analyse uit van Survival Game en de experimentele resultaten. Onze bevindingen suggereren dat menselijke taken een kritieke eigenschap bezitten. Als gevolg hiervan vereist het Autonome Niveau een diep begrip van de onderliggende mechanismen van de taak. Huidige AI-systemen begrijpen deze mechanismen echter niet volledig en vertrouwen in plaats daarvan op oppervlakkige nabootsing, waardoor het moeilijk voor hen is om een autonoom niveau te bereiken. Wij geloven dat Survival Game niet alleen de toekomstige ontwikkeling van AI kan sturen, maar ook diepgaande inzichten kan bieden in menselijke intelligentie.
Hallucinaties in de uitvoer van taalmodellen vormen risico's in het medische domein, vooral voor leken die gezondheidsgerelateerde beslissingen nemen. Bestaande methoden voor feitelijkheidsevaluatie, zoals op entailment en vraag-antwoord (QA) gebaseerde methoden, worstelen met het genereren van samenvattingen in begrijpelijke taal (Plain Language Summary, PLS) vanwege het fenomeen van uitgebreide uitleg, waarbij externe inhoud (bijv. definities, achtergrondinformatie, voorbeelden) die niet in het brondocument voorkomt, wordt toegevoegd om het begrip te vergroten. Om dit aan te pakken, introduceren we PlainQAFact, een raamwerk getraind op een fijnmazige, door mensen geannoteerde dataset genaamd PlainFact, om de feitelijkheid van zowel vereenvoudigde als uitgebreid uitgelegde zinnen te evalueren. PlainQAFact classificeert eerst het type feitelijkheid en beoordeelt vervolgens de feitelijkheid met behulp van een op QA gebaseerde scoringsmethode die retrieval-augmented is. Onze aanpak is lichtgewicht en computationeel efficiënt. Empirische resultaten laten zien dat bestaande feitelijkheidsmetrieken niet effectief de feitelijkheid in PLS kunnen evalueren, vooral bij uitgebreide uitleg, terwijl PlainQAFact state-of-the-art prestaties behaalt. We analyseren verder de effectiviteit ervan over verschillende externe kennisbronnen, antwoordextractiestrategieën, overlapmaten en documentgranulariteitsniveaus, waardoor de algehele feitelijkheidsbeoordeling wordt verfijnd.
Privacyzorgen rondom het steeds toenemende aantal camera's nemen toe in het huidige digitale tijdperk. Hoewel bestaande anonimiseringsmethoden in staat zijn om identiteitsinformatie te verbergen, hebben ze vaak moeite om de bruikbaarheid van de afbeeldingen te behouden. In dit werk introduceren we een trainingsvrije methode voor gezichtsanonymisering die belangrijke niet-identiteitsgerelateerde attributen behoudt. Onze aanpak maakt gebruik van een vooraf getraind tekst-naar-beeld diffusiemodel zonder optimalisatie of training te vereisen. Het begint met het inverteren van de invoerafbeelding om het initiële ruis te herstellen. De ruis wordt vervolgens gedenoised via een identiteitsgeconditioneerd diffusieproces, waarbij aangepaste identiteitsembeddingen ervoor zorgen dat het geanonimiseerde gezicht verschilt van de oorspronkelijke identiteit. Onze aanpak ondersteunt ook gelokaliseerde anonymisering, waardoor gebruikers controle hebben over welke gezichtsregio's worden geanonimiseerd of intact blijven. Uitgebreide evaluaties in vergelijking met state-of-the-art methoden laten zien dat onze aanpak uitblinkt in anonymisering, attribuutbehoud en beeldkwaliteit. De flexibiliteit, robuustheid en praktische bruikbaarheid maken het geschikt voor real-world toepassingen. Code en data zijn te vinden op https://github.com/hanweikung/nullface.
De afgelopen jaren hebben we aanzienlijke vooruitgang gezien in foundation models door generatieve voorafgaande training, maar de algoritmische innovatie op dit gebied is grotendeels gestagneerd rond autoregressieve modellen voor discrete signalen en diffusiemodellen voor continue signalen. Deze stagnatie creëert een knelpunt dat ons ervan weerhoudt het volledige potentieel van rijke multimodale data te benutten, wat op zijn beurt de vooruitgang op het gebied van multimodale intelligentie beperkt. Wij beargumenteren dat een inferentie-eerst perspectief, dat schaalbaarheidsefficiëntie tijdens inferentietijd over sequentielengte en verfijningsstappen prioriteert, nieuwe generatieve voorafgaande trainingsalgoritmen kan inspireren. Met Inductive Moment Matching (IMM) als concreet voorbeeld demonstreren we hoe het aanpakken van beperkingen in het inferentieproces van diffusiemodellen door gerichte aanpassingen resulteert in een stabiel, enkelstaps algoritme dat superieure samplekwaliteit bereikt met meer dan een orde van grootte hogere inferentie-efficiëntie.
Vision-Language-Action (VLA) modellen hebben als doel om robotacties te voorspellen op basis van visuele waarnemingen en taal instructies. Bestaande benaderingen vereisen het finetunen van vooraf getrainde vision-language modellen (VLMs), omdat visuele en taal kenmerken onafhankelijk worden ingevoerd in downstream beleidsfuncties, wat de vooraf getrainde semantische afstemmingen aantast. Wij stellen OTTER voor, een nieuwe VLA architectuur die gebruik maakt van deze bestaande afstemmingen door expliciete, tekstbewuste visuele kenmerk extractie. In plaats van alle visuele kenmerken te verwerken, selecteert en geeft OTTER alleen taakrelevante visuele kenmerken door die semantisch zijn afgestemd op de taal instructie aan de policy transformer. Hierdoor kan OTTER de vooraf getrainde vision-language encoders bevroren houden. Daardoor behoudt en benut OTTER het rijke semantische begrip dat is geleerd uit grootschalige voorafgaande training, wat sterke zero-shot generalisatie mogelijkheden mogelijk maakt. In simulaties en real-world experimenten presteert OTTER aanzienlijk beter dan bestaande VLA modellen, wat sterke zero-shot generalisatie naar nieuwe objecten en omgevingen aantoont. Video, code, checkpoints en dataset: https://ottervla.github.io/.