Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Inferentie-tijd optimalisatie schaalt de berekening om weloverwogen redeneerstappen af te leiden voor effectieve prestaties. Hoewel eerder op zoek gebaseerde strategieën de kortzichtigheid van auto-regressieve generatie aanpakken, leidt de enorme zoekruimte tot overmatige exploratie en onvoldoende exploitatie. Om een efficiënt evenwicht te vinden om de optimale stap af te leiden, formuleren we de decodeerstrategie als vooruitziende steekproefname, waarbij gesimuleerde toekomstige stappen worden benut om een globaal optimale stapschatting te verkrijgen. Hierop voortbouwend stellen we een nieuwe decodeerstrategie voor, genaamd phi-Decoding. Om een nauwkeurige en expressieve schatting van de stapwaarde te bieden, benadert phi-Decoding twee verdelingen via vooruitziendheid en clustering. Door steekproeven te nemen uit de gezamenlijke verdeling kunnen de optimale stappen worden geselecteerd voor exploitatie. Om adaptieve berekeningsallocatie te ondersteunen, stellen we in-breedte en in-diepte snoeistrategieën voor, met een lichtgewicht oplossing om inferentie-efficiëntie te bereiken. Uitgebreide experimenten over zeven benchmarks tonen aan dat phi-Decoding sterke basislijnen overtreft in zowel prestaties als efficiëntie. Aanvullende analyse toont de generalisatie over verschillende LLM's en schaalbaarheid over een breed scala aan rekenbudgetten. De code zal worden vrijgegeven op https://github.com/xufangzhi/phi-Decoding, en het open-source PyPI-pakket komt binnenkort beschikbaar.
Ondanks het recente succes van beeld-tekst contrastieve modellen zoals CLIP en SigLIP, hebben deze modellen vaak moeite met visiegerichte taken die een hoogwaardig beeldbegrip vereisen, zoals tellen, diepteschatting en fijnmazige objectherkenning. Deze modellen, door het uitvoeren van taalafstemming, hebben de neiging om hoogwaardige semantiek te prioriteren boven visueel begrip, wat hun beeldbegrip verzwakt. Aan de andere kant zijn visiegerichte modellen uitstekend in het verwerken van visuele informatie, maar hebben ze moeite met het begrijpen van taal, wat hun flexibiliteit voor taalaangedreven taken beperkt. In dit werk introduceren we TULIP, een open-source, drop-in vervanging voor bestaande CLIP-achtige modellen. Onze methode maakt gebruik van generatieve data-augmentatie, verbeterde beeld-beeld en tekst-tekst contrastief leren, en beeld/tekst reconstructie regularisatie om fijnmazige visuele kenmerken te leren terwijl globale semantische afstemming behouden blijft. Onze aanpak, die schaalt tot meer dan 1B parameters, overtreft bestaande state-of-the-art (SOTA) modellen op meerdere benchmarks, en vestigt een nieuwe SOTA zero-shot prestatie op ImageNet-1K, levert tot een 2x verbetering op SigLIP op RxRx1 in lineaire probing voor few-shot classificatie, en verbetert visie-taalmodellen, met meer dan 3x hogere scores dan SigLIP op MMVP. Onze code/checkpoints zijn beschikbaar op https://tulip-berkeley.github.io.
Driehoekige meshes spelen een cruciale rol in 3D-toepassingen voor efficiënte manipulatie en rendering. Hoewel autoregressieve methoden gestructureerde meshes genereren door discrete hoekpunttokens te voorspellen, worden ze vaak beperkt door een beperkt aantal vlakken en onvolledigheid van het mesh. Om deze uitdagingen aan te pakken, stellen we DeepMesh voor, een raamwerk dat mesh-generatie optimaliseert door middel van twee belangrijke innovaties: (1) een efficiënte voorafgaande trainingsstrategie die een nieuw tokenisatie-algoritme omvat, samen met verbeteringen in datacuratie en -verwerking, en (2) de introductie van Reinforcement Learning (RL) in 3D-meshgeneratie om afstemming op menselijke voorkeuren te bereiken via Direct Preference Optimization (DPO). We ontwerpen een scoringsstandaard die menselijke evaluatie combineert met 3D-metrics om voorkeursparen voor DPO te verzamelen, waardoor zowel visuele aantrekkelijkheid als geometrische nauwkeurigheid worden gewaarborgd. Gekoppeld aan puntenwolken en afbeeldingen genereert DeepMesh meshes met ingewikkelde details en precieze topologie, wat zowel in precisie als kwaliteit de state-of-the-art methoden overtreft. Projectpagina: https://zhaorw02.github.io/DeepMesh/
Foundation models die getraind zijn op enorme hoeveelheden data hebben opmerkelijke redeneer- en generatiecapaciteiten getoond op het gebied van tekst, afbeeldingen, audio en video. Ons doel bij Roblox is om zo'n foundation model te bouwen voor 3D-intelligentie, een model dat ontwikkelaars kan ondersteunen bij het produceren van alle aspecten van een Roblox-ervaring, van het genereren van 3D-objecten en scènes tot het riggen van karakters voor animatie en het produceren van programmatische scripts die objectgedrag beschrijven. We bespreken drie belangrijke ontwerpvereisten voor zo'n 3D-foundation model en presenteren vervolgens onze eerste stap naar het bouwen van zo'n model. We verwachten dat 3D-geometrische vormen een kerngegevenstype zullen zijn en beschrijven onze oplossing voor een 3D-vorm-tokenizer. We laten zien hoe ons tokenisatieschema kan worden gebruikt in toepassingen voor tekst-naar-vorm-generatie, vorm-naar-tekst-generatie en tekst-naar-scène-generatie. We demonstreren hoe deze toepassingen kunnen samenwerken met bestaande grote taalmodellen (LLM's) om scèneanalyse en redenering uit te voeren. We sluiten af met een discussie die ons pad schetst naar het bouwen van een volledig geïntegreerd foundation model voor 3D-intelligentie.
De constructie van een Algemeen Kennisgrafiek (Generalized Knowledge Graph, GKG), inclusief kennisgrafieken, gebeurteniskennisgrafieken en gezondverstandkennisgrafieken, is fundamenteel voor diverse natuurlijke taalverwerkingstaken. Huidige studies construeren deze typen grafieken doorgaans afzonderlijk, waarbij holistische inzichten en mogelijke unificatie die voordelig zouden kunnen zijn vanuit het oogpunt van computerbronnen en gebruik, over het hoofd worden gezien. Een belangrijke uitdaging bij het ontwikkelen van een uniform raamwerk voor GKG zijn echter obstakels die voortkomen uit taakspecifieke verschillen. In deze studie stellen we een uniform raamwerk voor voor de constructie van algemene kennisgrafieken om deze uitdaging aan te pakken. Eerst verzamelen we gegevens van 15 subtaken in 29 datasets over de drie typen grafieken, waarbij we deze categoriseren in in-sample, tegenstrijdige taak- en out-of-distribution (OOD) gegevens. Vervolgens stellen we een driedelig curriculumleren-finetuningraamwerk voor, waarbij iteratief kennis uit de drie typen grafieken wordt geïnjecteerd in grote taalmodelmodellen. Uitgebreide experimenten tonen aan dat ons voorgestelde model de constructie van alle drie de grafiektypen verbetert voor in-domein, OOD en tegenstrijdige taakgegevens.
Tijdelijke kwaliteit is een cruciaal aspect van videogeneratie, omdat het zorgt voor consistente beweging en realistische dynamiek tussen frames. Het bereiken van hoge temporele coherentie en diversiteit blijft echter een uitdaging. In dit werk onderzoeken we voor het eerst temporele augmentatie in videogeneratie en introduceren we FluxFlow als een eerste verkenning, een strategie die is ontworpen om de temporele kwaliteit te verbeteren. FluxFlow werkt op dataniveau en past gecontroleerde temporele verstoringen toe zonder dat architectuurwijzigingen nodig zijn. Uitgebreide experimenten op de UCF-101 en VBench benchmarks tonen aan dat FluxFlow de temporele coherentie en diversiteit aanzienlijk verbetert bij verschillende videogeneratiemodellen, waaronder U-Net, DiT en AR-gebaseerde architecturen, terwijl de ruimtelijke nauwkeurigheid behouden blijft. Deze bevindingen benadrukken het potentieel van temporele augmentatie als een eenvoudige maar effectieve aanpak om de kwaliteit van videogeneratie te verbeteren.
De snelle vooruitgang in generatieve technologie is naar voren gekomen als een tweesnijdend zwaard. Hoewel het krachtige tools biedt die het gemak vergroten, brengt het ook aanzienlijke sociale zorgen met zich mee. Als verdedigers schieten de huidige methoden voor het detecteren van synthetische afbeeldingen vaak tekort op het gebied van tekstuele interpreteerbaarheid op artefactniveau en zijn ze te veel gericht op het detecteren van beeldmanipulatie, en de huidige datasets lijden meestal onder verouderde generatoren en een gebrek aan gedetailleerde annotaties. In dit artikel introduceren we SynthScars, een hoogwaardige en diverse dataset bestaande uit 12.236 volledig synthetische afbeeldingen met annotaties door menselijke experts. Het bevat 4 verschillende typen beeldinhoud, 3 categorieën artefacten en gedetailleerde annotaties die pixelgewijze segmentatie, uitgebreide tekstuele uitleg en labels voor artefactcategorieën omvatten. Verder stellen we LEGION voor (LEarning to Ground and explain for Synthetic Image detectiON), een multimodaal groot taalmodel (MLLM)-gebaseerd raamwerk voor analyse van beeldvervalsing dat artefactdetectie, segmentatie en uitleg integreert. Op basis van deze mogelijkheid verkennen we LEGION verder als een controller, waarbij we het integreren in beeldverfijningspijplijnen om de generatie van hogere kwaliteit en realistischer afbeeldingen te begeleiden. Uitgebreide experimenten tonen aan dat LEGION bestaande methoden overtreft op meerdere benchmarks, waarbij het met name de op een na beste traditionele expert op SynthScars overtreft met 3,31% in mIoU en 7,75% in F1-score. Bovendien vertonen de verfijnde afbeeldingen die onder zijn begeleiding worden gegenereerd een sterkere afstemming op menselijke voorkeuren. De code, het model en de dataset zullen worden vrijgegeven.
Grote Taalmodellen (LLMs) hebben veelbelovende capaciteiten getoond bij het oplossen van wiskundige redeneertaken, waarbij Chain-of-Thought (CoT) data een cruciale rol speelt bij het begeleiden van het genereren van antwoorden. Huidige paradigma's genereren doorgaans direct CoT en antwoorden voor een gegeven probleem, wat enigszins afwijkt van menselijke probleemoplossingsstrategieën. Mensen lossen problemen vaak op door analoge gevallen te herinneren en hun oplossingen te gebruiken om over de huidige taak na te denken. Geïnspireerd door dit cognitieve proces stellen we MetaLadder voor, een nieuw raamwerk dat LLMs expliciet aanmoedigt om meta-problemen, problemen die structureel of semantisch analoog zijn, samen met hun CoT-oplossingen te herinneren en te overdenken voordat het doelprobleem wordt aangepakt. Daarnaast introduceren we een mechanisme voor het herformuleren van problemen om het begrip van het model van het doelprobleem te verbeteren door de oorspronkelijke vraag opnieuw te genereren, wat de nauwkeurigheid van het redeneren verder verbetert. Hierdoor kan het model redeneertransfer bereiken vanuit analoge problemen, wat menselijk "leren van voorbeelden" en generalisatievermogen nabootst. Uitgebreide experimenten op wiskundige benchmarks tonen aan dat onze MetaLadder de probleemoplossingsnauwkeurigheid van LLMs aanzienlijk verbetert, waarbij het standaard CoT-gebaseerde methoden (10,3% nauwkeurigheidswinst) en andere methoden ruimschoots overtreft. Onze code en gegevens zijn vrijgegeven op https://github.com/LHL3341/MetaLadder.
Visueel redeneren staat centraal in de menselijke cognitie en stelt individuen in staat om hun omgeving te interpreteren en abstract te begrijpen. Hoewel recente Multimodale Grote Taalmodellen (MLLMs) indrukwekkende prestaties hebben laten zien op het gebied van taal- en visueel-taaltaken, meten bestaande benchmarks voornamelijk herkenningsvaardigheden en beoordelen ze de echte visuele redeneervaardigheden onvoldoende. Om deze kritieke kloof te overbruggen, introduceren we VERIFY, een benchmark die expliciet is ontworpen om de visuele redeneervaardigheden van state-of-the-art MLLMs te isoleren en rigoureus te evalueren. VERIFY dwingt modellen om voornamelijk vanuit visuele informatie te redeneren, waarbij minimale tekstuele context wordt geboden om de afhankelijkheid van domeinspecifieke kennis en linguïstische vooroordelen te verminderen. Elk probleem wordt vergezeld door een door mensen geannoteerd redeneerpad, waardoor het de eerste benchmark is die een diepgaande evaluatie biedt van de besluitvormingsprocessen van modellen. Daarnaast stellen we nieuwe metrieken voor die de betrouwbaarheid van visueel redeneren beoordelen, verdergaand dan alleen nauwkeurigheid, en die kritieke onevenwichtigheden in de huidige redeneerpatronen van modellen belichten. Onze uitgebreide benchmarking van toonaangevende MLLMs onthult aanzienlijke beperkingen, wat de noodzaak onderstreept van een gebalanceerde en holistische benadering van zowel perceptie als redeneren. Voor meer teasers en tests, bezoek onze projectpagina (https://verify-eqh.pages.dev/).
Diffusiemodellen hebben opmerkelijke prestaties getoond in beeldgeneratie, maar ze vereisen uitgebreide reken- en geheugenbronnen voor training, fine-tuning en inferentie. Hoewel geavanceerde kwantisatietechnieken het geheugengebruik voor inferentie succesvol hebben geminimaliseerd, vereisen training en fine-tuning van deze gekwantiseerde modellen nog steeds veel geheugen, mogelijk vanwege dequantisatie voor nauwkeurige berekening van gradiënten en/of backpropagatie voor op gradiënten gebaseerde algoritmen. Efficiënt geheugengebruik bij fine-tuning is echter bijzonder wenselijk voor toepassingen zoals personalisatie, die vaak op edge-apparaten zoals mobiele telefoons met privédata moeten worden uitgevoerd. In dit werk pakken we deze uitdaging aan door een diffusiemodel te kwantiseren met personalisatie via Textual Inversion en door gebruik te maken van een nulde-orde optimalisatie op personalisatietokens zonder dequantisatie, zodat er geen opslag van gradiënten en activaties voor backpropagatie nodig is, wat aanzienlijk geheugen verbruikt. Omdat een gradiëntschatting met nulde-orde optimalisatie behoorlijk ruisachtig is voor één of enkele afbeeldingen bij personalisatie, stellen we voor om de geschatte gradiënt te denoizen door deze te projecteren op een deelruimte die is geconstrueerd met de eerdere geschiedenis van de tokens, genaamd Subspace Gradient. Daarnaast hebben we de invloed van tekstembedding op beeldgeneratie onderzocht, wat leidde tot onze voorgestelde tijdstapbemonstering, genaamd Partial Uniform Timestep Sampling, voor bemonstering met effectieve diffusietijdstappen. Onze methode bereikt vergelijkbare prestaties als eerdere methoden in beeld- en tekstuitlijningsscores voor het personaliseren van Stable Diffusion met alleen forward passes, terwijl het geheugengebruik tijdens de training tot 8,2 keer wordt verminderd.
Huidig onderzoek naar het Decompose-Then-Verify paradigma voor het evalueren van de feitelijkheid van lange teksten behandelt decompositie en verificatie doorgaans in isolatie, waarbij de interacties en mogelijke misalignering over het hoofd worden gezien. We constateren dat bestaande decompositiebeleidsregels, meestal handmatig gemaakte demonstraties, niet goed aansluiten bij downstream verificatoren in termen van atomiciteit -- een nieuwe maatstaf die de informatiedichtheid kwantificeert -- wat leidt tot suboptimale verificatieresultaten. We formuleren het vinden van het optimale decompositiebeleid voor optimale verificatie als een bilevel optimalisatieprobleem. Om een oplossing voor dit sterk NP-moeilijke probleem te benaderen, stellen we dynamische decompositie voor, een reinforcement learning raamwerk dat gebruikmaakt van feedback van de verificator om een beleid te leren voor het dynamisch decomponeren van claims naar de door de verificator geprefereerde atomiciteit. Experimentele resultaten tonen aan dat dynamische decompositie bestaande decompositiebeleidsregels overtreft, waarbij het verificatievertrouwen met 0,07 en de nauwkeurigheid met 0,12 (op een schaal van 0-1) gemiddeld verbetert over verschillende verificatoren, datasets en atomiciteiten van inputclaims.
Het ontwikkelen van AI-agents die grafische gebruikersinterfaces autonoom kunnen manipuleren, is een langdurige en uitdagende taak. Recente vooruitgang in de schaalwetten van data inspireert ons om computergebruik-agents te trainen met een geschaalde instructieset, maar het gebruik van gedragsklonen om agents te trainen vereist nog steeds een enorme hoeveelheid hoogwaardige trajecten. Om aan de schaalbaarheidsbehoefte te voldoen, hebben we STEVE ontworpen, een stapverificatiepijplijn voor het trainen van computergebruik-agents. Eerst stellen we een grote instructieset op voor computergebruik-agents en verzamelen we trajectgegevens met enkele suboptimale agents. GPT-4o wordt gebruikt om de correctheid van elke stap in de trajecten te verifiëren op basis van de schermen voor en na de uitvoering van de actie, waarbij elke stap wordt voorzien van een binaire label. Ten slotte passen we de Kahneman en Tversky Optimalisatie toe om de agent te optimaliseren vanuit de binaire stapsgewijze labels. Uitgebreide experimenten tonen aan dat onze agent supervised finetuning overtreft door zowel positieve als negatieve acties binnen een traject te benutten. Bovendien stelt STEVE ons in staat om een 7B vision-language model te trainen als een computergebruik-agent, wat leidende prestaties oplevert in de uitdagende live desktopomgeving WinAgentArena met grote efficiëntie tegen lagere kosten. Code en data: https://github.com/FanbinLu/STEVE.
Grote taalmodellen (LLM) agents moeten in staat zijn om multi-turn interacties uit te voeren in real-world taken. Echter, bestaande multi-turn RL-algoritmen voor het optimaliseren van LLM agents slagen er niet in om effectieve krediettoewijzing over meerdere beurten te realiseren, terwijl ze tegelijkertijd de generalisatiecapaciteiten van LLM's benutten, en het blijft onduidelijk hoe dergelijke algoritmen ontwikkeld kunnen worden. Om dit te bestuderen, introduceren we eerst een nieuwe benchmark, ColBench, waarbij een LLM agent over meerdere beurten interacteert met een menselijke collaborator om realistische taken op het gebied van backend-programmering en frontend-ontwerp op te lossen. Op basis van deze benchmark stellen we een nieuw RL-algoritme voor, SWEET-RL (RL met Step-WisE Evaluation op basis van trainingsinformatie), dat een zorgvuldig ontworpen optimalisatiedoel gebruikt om een critic-model te trainen met toegang tot aanvullende trainingsinformatie. De critic biedt stapniveau beloningen voor het verbeteren van het policy-model. Onze experimenten tonen aan dat SWEET-RL een absolute verbetering van 6% behaalt in succes- en winpercentages op ColBench in vergelijking met andere state-of-the-art multi-turn RL-algoritmen, waardoor Llama-3.1-8B in staat is om de prestaties van GPT4-o te evenaren of te overtreffen in realistische collaboratieve contentcreatie.
Recente vooruitgang in het vooraf trainen van LLM's heeft steeds grotere contextvensters gekend om langere sequenties te verwerken. Uit onze pilotstudie blijkt echter dat modellen die zijn voorgetraind met kortere contextvensters consequent beter presteren dan hun tegenhangers met lange contextvensters, binnen een vast tokenbudget. Deze bevinding motiveert ons om een optimale strategie voor het plannen van contextvensters te onderzoeken, om zo een betere balans te vinden tussen de mogelijkheid om lange contexten te verwerken en de efficiëntie van het vooraf trainen. Hiertoe stellen we SkyLadder voor, een eenvoudige maar effectieve aanpak die een overgang van kort naar lang contextvenster implementeert. SkyLadder behoudt een sterke prestatie op standaard benchmarks, terwijl het de basislijnresultaten op taken met lange context evenaart of overtreft. Door middel van uitgebreide experimenten hebben we modellen met 1B parameters (tot 32K context) en 3B parameters (8K context) voorgetraind op 100B tokens, waarbij we aantonen dat SkyLadder consistente verbeteringen oplevert van tot 3,7% op gangbare benchmarks, terwijl het tot 22% snellere trainingssnelheden bereikt in vergelijking met de basislijnen. De code is beschikbaar op https://github.com/sail-sg/SkyLadder.
We introduceren MusicInfuser, een aanpak voor het genereren van hoogwaardige dansvideo's die gesynchroniseerd zijn met een opgegeven muzieknummer. In plaats van te proberen een nieuw multimodaal audio-videomodel te ontwerpen en te trainen, laten we zien hoe bestaande videodiffusiemodellen kunnen worden aangepast om af te stemmen op muzikale invoer door het introduceren van lichtgewicht muziek-video cross-attentie en een low-rank adapter. In tegenstelling tot eerder werk dat bewegingscaptuurdata vereist, fine-tunt onze aanpak alleen op dansvideo's. MusicInfuser bereikt hoogwaardige muziekgedreven videogeneratie terwijl de flexibiliteit en generatieve mogelijkheden van de onderliggende modellen behouden blijven. We introduceren een evaluatieraamwerk met behulp van Video-LLM's om meerdere dimensies van de kwaliteit van dansgeneratie te beoordelen. De projectpagina en code zijn beschikbaar op https://susunghong.github.io/MusicInfuser.
Decompositionele reconstructie van 3D-scènes, met volledige vormen en gedetailleerde textuur van alle objecten daarin, is intrigerend voor downstream-toepassingen maar blijft uitdagend, vooral met schaarse views als invoer. Recente benaderingen integreren semantische of geometrische regularisatie om dit probleem aan te pakken, maar ze lijden aan significante degradatie in ondergeconstrueerde gebieden en slagen er niet in om verborgen regio's te herstellen. Wij stellen dat de sleutel tot het oplossen van dit probleem ligt in het aanvullen van ontbrekende informatie voor deze gebieden. Hiertoe stellen we DP-Recon voor, dat diffusiepriors gebruikt in de vorm van Score Distillation Sampling (SDS) om de neurale representatie van elk individueel object onder nieuwe views te optimaliseren. Dit biedt aanvullende informatie voor de ondergeconstrueerde gebieden, maar het direct incorporeren van diffusieprior leidt tot potentiële conflicten tussen de reconstructie en de generatieve begeleiding. Daarom introduceren we verder een zichtbaarheidsgeleide aanpak om de per-pixel SDS-verliesgewichten dynamisch aan te passen. Samen verbeteren deze componenten zowel de geometrie- als de uiterlijkherstel, terwijl ze trouw blijven aan de invoerbeelden. Uitgebreide experimenten op Replica en ScanNet++ tonen aan dat onze methode de state-of-the-art methoden significant overtreft. Opmerkelijk is dat het betere objectreconstructie bereikt onder 10 views dan de baseline-methoden onder 100 views. Onze methode maakt naadloze tekstgebaseerde bewerking van geometrie en uiterlijk mogelijk via SDS-optimalisatie en produceert gedecentraliseerde objectmeshes met gedetailleerde UV-maps die fotorealistische Visual Effects (VFX)-bewerking ondersteunen. De projectpagina is beschikbaar op https://dp-recon.github.io/.
Recente ontwikkelingen in Grote Multimodale Modellen (LMMs) richten zich voornamelijk op offline videobegrip. Daarentegen stelt streaming videobegrip recente modellen voor grote uitdagingen vanwege de tijdsgevoelige, omnimodale en interactieve kenmerken. In dit werk streven we ernaar om streaming videobegrip vanuit een nieuw perspectief uit te breiden en stellen we een nieuwe taak voor genaamd Visuele Instructie Feedback, waarbij modellen zich bewust moeten zijn van visuele inhoud en moeten leren om instructies hieruit te extraheren. Bijvoorbeeld, wanneer gebruikers met hun handen zwaaien naar agents, moeten agents het gebaar herkennen en gesprekken starten met welkomstinformatie. Het volgen van instructies in de visuele modaliteit verbetert dus de interactie tussen gebruiker en agent aanzienlijk. Om onderzoek te faciliteren, definiëren we zeven belangrijke subtaken die sterk relevant zijn voor de visuele modaliteit en verzamelen we de ViSpeak-Instruct dataset voor training en de ViSpeak-Bench voor evaluatie. Verder stellen we het ViSpeak-model voor, een state-of-the-art streaming videobegrip LMM met GPT-4o-niveau prestaties op verschillende streaming videobegrip benchmarks. Na fine-tuning op onze ViSpeak-Instruct dataset, is ViSpeak uitgerust met een basisvaardigheid voor visuele instructie feedback, wat een solide basis vormt voor toekomstig onderzoek.
Geautomatiseerde feature engineering speelt een cruciale rol bij het verbeteren van de prestaties van voorspellende modellen voor tabelleer taken. Traditionele geautomatiseerde feature engineering methoden worden beperkt door hun afhankelijkheid van vooraf gedefinieerde transformaties binnen vaste, handmatig ontworpen zoekruimtes, waarbij domeinkennis vaak wordt verwaarloosd. Recente vooruitgang met behulp van Large Language Models (LLMs) heeft de integratie van domeinkennis in het feature engineering proces mogelijk gemaakt. Bestaande LLM-gebaseerde benaderingen gebruiken echter directe prompting of vertrouwen uitsluitend op validatiescores voor feature selectie, waardoor inzichten uit eerdere feature discovery experimenten niet worden benut en er geen betekenisvolle redenering wordt gevestigd tussen feature generatie en data-gedreven prestaties. Om deze uitdagingen aan te pakken, stellen we LLM-FE voor, een nieuw framework dat evolutionaire zoekmethoden combineert met de domeinkennis en redeneervaardigheden van LLMs om automatisch effectieve features te ontdekken voor tabelleer taken. LLM-FE formuleert feature engineering als een programma zoekprobleem, waarbij LLMs iteratief nieuwe feature transformatieprogramma's voorstellen en data-gedreven feedback het zoekproces begeleidt. Onze resultaten tonen aan dat LLM-FE consistent beter presteert dan state-of-the-art baseline methoden, waardoor de prestaties van tabelvoorspellingsmodellen aanzienlijk worden verbeterd op diverse classificatie- en regressiebenchmarks.
Audio-gestuurde generatie van pratende portretten uit één afbeelding speelt een cruciale rol in virtual reality, het creëren van digitale mensen en filmproductie. Bestaande benaderingen worden over het algemeen ingedeeld in keypoint-gebaseerde en beeld-gebaseerde methoden. Keypoint-gebaseerde methoden behouden effectief de identiteit van het personage, maar hebben moeite met het vastleggen van fijne gezichtsdetails vanwege de beperkingen van vaste punten in het 3D Morphable Model. Bovendien hebben traditionele generatieve netwerken moeite met het vaststellen van causaliteit tussen audio en keypoints op beperkte datasets, wat resulteert in een lage diversiteit in poses. Daarentegen produceren beeld-gebaseerde benaderingen hoogwaardige portretten met diverse details door gebruik te maken van het diffusienetwerk, maar lijden onder identiteitsvervorming en hoge rekenkosten. In dit werk stellen we KDTalker voor, het eerste framework dat unsupervised impliciete 3D keypoints combineert met een spatiotemporeel diffusiemodel. Door gebruik te maken van unsupervised impliciete 3D keypoints past KDTalker de dichtheid van gezichtsinformatie aan, waardoor het diffusieproces diverse hoofdposities kan modelleren en fijne gezichtsdetails flexibel kan vastleggen. Het speciaal ontworpen spatiotemporele aandachtmechanisme zorgt voor nauwkeurige lipsynchronisatie, wat temporeel consistente, hoogwaardige animaties oplevert terwijl de rekenkwaliteit wordt verbeterd. Experimentele resultaten tonen aan dat KDTalker state-of-the-art prestaties bereikt op het gebied van nauwkeurigheid van lipsynchronisatie, diversiteit in hoofdposities en uitvoeringsefficiëntie. Onze codes zijn beschikbaar op https://github.com/chaolongy/KDTalker.
We presenteren ELTEX (Efficient LLM Token Extraction), een domeingericht raamwerk voor het genereren van hoogwaardige synthetische trainingsdata in gespecialiseerde domeinen. Hoewel Large Language Models (LLMs) indrukwekkende algemene capaciteiten hebben getoond, blijft hun prestaties in gespecialiseerde domeinen zoals cybersecurity beperkt door de schaarste aan domeinspecifieke trainingsdata. ELTEX lost deze uitdaging op door expliciete domeinindicator-extractie systematisch te integreren met dynamische prompting om kritieke domeinkennis gedurende het generatieproces te behouden. We demonstreren de effectiviteit van ELTEX in de context van blockchain-gerelateerde cyberaanvaldetectie, waarbij we Gemma-2B finetunen met verschillende combinaties van echte en door ELTEX gegenereerde data. Onze resultaten laten zien dat het ELTEX-verbeterde model prestaties behaalt die competitief zijn met GPT-4, zowel op standaard classificatiemetrics als op onzekerheidskalibratie, terwijl aanzienlijk minder rekenbronnen worden gebruikt. We publiceren een gecureerde synthetische dataset van social media-teksten voor cyberaanvaldetectie in blockchain. Ons werk toont aan dat domeingerichte synthetische datageneratie effectief de prestatiekloof kan overbruggen tussen resource-efficiënte modellen en grotere architecturen in gespecialiseerde domeinen.
Recente ontwikkelingen in Large Language Models (LLMs) hebben verbeterde redeneervaardigheden aangetoond, waarbij de evolutie is gegaan van Chain-of-Thought (CoT) prompting naar geavanceerde, productgerichte oplossingen zoals OpenAI o1. Tijdens onze herimplementatie van dit model merkten we op dat bij multimodale taken die visuele invoer vereisen (bijvoorbeeld geometrieproblemen), Multimodale LLMs (MLLMs) moeite hebben om de focus op de visuele informatie te behouden. Met andere woorden, MLLMs vertonen een geleidelijke afname in aandacht voor visuele informatie naarmate het redeneren vordert, wat leidt tot tekstgedomineerde uitvoer. Om dit te onderzoeken, hebben we de beeldinvoer tijdens langere redeneerprocessen geablateerd. Concreet hebben we het redeneerproces halverwege afgebroken en vervolgens het redeneerproces opnieuw voltooid zonder de invoerafbeelding. We observeren slechts een nauwelijks merkbare daling van ~2% in nauwkeurigheid op de test-hard subset van MathVista, wat aantoont dat de tekstuele uitvoer van het model het verdere redeneerproces domineert. Gemotiveerd door deze bevinding stellen we Take-along Visual Conditioning (TVC) voor, een strategie die de beeldinvoer naar kritieke redeneerfasen verplaatst en overbodige visuele tokens comprimeert via dynamisch snoeien. Deze methodologie helpt het model om aandacht te blijven besteden aan de visuele componenten gedurende het hele redeneerproces. Onze aanpak behaalt state-of-the-art prestaties gemiddeld over vijf wiskundige redeneerbenchmarks (+3,4% ten opzichte van de vorige sota), wat de effectiviteit van TVC aantoont in het verbeteren van multimodale redeneersystemen.
Wetenschappelijk probleemoplossen omvat het synthetiseren van informatie terwijl expertkennis wordt toegepast. Wij introduceren CURIE, een wetenschappelijke benchmark voor Lang-Context Begrip, Redeneren en Informatie-extractie, om het potentieel van Large Language Models (LLMs) in wetenschappelijk probleemoplossen en het ondersteunen van wetenschappers in realistische workflows te meten. Deze benchmark introduceert tien uitdagende taken met in totaal 580 probleem- en oplossingsparen, samengesteld door experts in zes disciplines - materiaalkunde, gecondenseerde materie-fysica, quantumcomputing, geospatiale analyse, biodiversiteit en eiwitten - die zowel experimentele als theoretische workflows in de wetenschap bestrijken. We evalueren een reeks gesloten en open LLMs op taken in CURIE die domeinkennis, begrip van lange contextinformatie en meerstaps redeneren vereisen. Terwijl Gemini Flash 2.0 en Claude-3 consistent hoog begrip tonen over verschillende domeinen, falen de populaire GPT-4o en command-R+ dramatisch bij eiwitsequentietaken. Met de beste prestatie op 32% is er nog veel ruimte voor verbetering voor alle modellen. We hopen dat de inzichten die uit CURIE worden verkregen, de toekomstige ontwikkeling van LLMs in de wetenschap kunnen sturen. Evaluatiecode en gegevens zijn beschikbaar op https://github.com/google/curie.
In complexe multi-agent omgevingen is het bereiken van efficiënt leren en gewenst gedrag een aanzienlijke uitdaging voor Multi-Agent Reinforcement Learning (MARL) systemen. Dit onderzoek verkent het potentieel van het combineren van MARL met interventies die worden bemiddeld door Large Language Models (LLM's) om agenten naar gewenst gedrag te sturen. Specifiek onderzoeken we hoe LLM's kunnen worden gebruikt om interventies te interpreteren en te faciliteren die de leerprocessen van meerdere agenten vormgeven. We hebben geëxperimenteerd met twee soorten interventies, aangeduid als controllers: een Natural Language (NL) Controller en een Rule-Based (RB) Controller. De NL Controller, die een LLM gebruikt om mensachtige interventies te simuleren, toonde een sterker effect dan de RB Controller. Onze bevindingen geven aan dat agenten vooral baat hebben bij vroege interventies, wat leidt tot efficiëntere training en hogere prestaties. Beide interventietypen presteren beter dan de baseline zonder interventies, wat het potentieel van LLM-gemedieerde begeleiding benadrukt om training te versnellen en MARL-prestaties in uitdagende omgevingen te verbeteren.