Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De snelle vooruitgang van Grote Taalmodellen (GTM's) heeft opmerkelijke vooruitgang aangetoond in complexe redeneertaken. Er blijft echter een aanzienlijke discrepantie bestaan tussen benchmarkprestaties en praktische toepassingen. We identificeren dit verschil voornamelijk als voortkomend uit de huidige evaluatieprotocollen en -metrieken, die niet volledig het volledige spectrum van GTM-capaciteiten vastleggen, met name in complexe redeneertaken waar zowel nauwkeurigheid als consistentie cruciaal zijn. Dit werk levert twee belangrijke bijdragen. Ten eerste introduceren we G-Pass@k, een nieuw evaluatiemetricum dat een continue beoordeling van modelprestaties biedt over meerdere bemonsteringspogingen, waarbij zowel het piekprestatiepotentieel van het model als zijn stabiliteit worden gekwantificeerd. Ten tweede presenteren we LiveMathBench, een dynamische benchmark bestaande uit uitdagende, hedendaagse wiskundige problemen die zijn ontworpen om datarisico's tijdens evaluatie te minimaliseren. Door uitgebreide experimenten uit te voeren met G-Pass@k op toonaangevende GTM's met LiveMathBench, bieden we uitgebreide inzichten in zowel hun maximale capaciteiten als operationele consistentie. Onze bevindingen onthullen aanzienlijke ruimte voor verbetering in de "realistische" redeneercapaciteiten van GTM's, waarbij de noodzaak van robuustere evaluatiemethoden wordt benadrukt. De benchmark en gedetailleerde resultaten zijn beschikbaar op: https://github.com/open-compass/GPassK.
Het snel ontwikkelende veld van grote multimodale modellen (LMM's) heeft geleid tot de opkomst van diverse modellen met opmerkelijke mogelijkheden. Bestaande benchmarks falen echter om op een allesomvattende, objectieve en nauwkeurige manier te evalueren of LMM's aansluiten bij de diverse behoeften van mensen in realistische scenario's. Om deze kloof te overbruggen, stellen wij de Multi-Dimensionale Inzichten (MDI) benchmark voor, die meer dan 500 afbeeldingen omvat die zes veelvoorkomende scenario's van menselijk leven bestrijken. Opmerkelijk is dat de MDI-Benchmark twee significante voordelen biedt ten opzichte van bestaande evaluaties: (1) Elke afbeelding wordt vergezeld door twee soorten vragen: eenvoudige vragen om het begrip van het model van de afbeelding te beoordelen, en complexe vragen om het vermogen van het model te evalueren om te analyseren en redeneren voorbij de basisinhoud. (2) Erkennend dat mensen van verschillende leeftijdsgroepen uiteenlopende behoeften en perspectieven hebben wanneer ze worden geconfronteerd met hetzelfde scenario, verdeelt onze benchmark vragen in drie leeftijdscategorieën: jongeren, mensen van middelbare leeftijd en ouderen. Deze opzet maakt een gedetailleerde beoordeling mogelijk van de mogelijkheden van LMM's om te voldoen aan de voorkeuren en behoeften van verschillende leeftijdsgroepen. Met de MDI-Benchmark behaalt een krachtig model zoals GPT-4o 79% nauwkeurigheid op leeftijdsgerelateerde taken, wat aangeeft dat bestaande LMM's nog aanzienlijke ruimte hebben voor verbetering bij het aanpakken van realistische toepassingen. Vooruitkijkend verwachten we dat de MDI-Benchmark nieuwe wegen zal openen voor het afstemmen van personalisatie in LMM's op de echte wereld. De MDI-Benchmark data en evaluatiecode zijn beschikbaar op https://mdi-benchmark.github.io/
Als een typische en praktische toepassing van Grote Taalmodellen (GTM's) hebben Retrieval-Augmented Generation (RAG) technieken uitgebreide aandacht gekregen, vooral in verticale domeinen waar GTM's mogelijk geen domeinspecifieke kennis hebben. In dit artikel introduceren we een omnidirectionele en automatische RAG benchmark, OmniEval, in het financiële domein. Onze benchmark wordt gekenmerkt door zijn multidimensionale evaluatiekader, waaronder (1) een op matrices gebaseerd RAG scenario evaluatiesysteem dat zoekopdrachten in vijf taakklassen en 16 financiële onderwerpen categoriseert, wat leidt tot een gestructureerde beoordeling van diverse queryscenario's; (2) een multidimensionale evaluatiedatageneratiebenadering, die GPT-4-gebaseerde automatische generatie en menselijke annotatie combineert, met een acceptatieratio van 87,47% in menselijke evaluaties van gegenereerde instanties; (3) een meertraps evaluatiesysteem dat zowel de ophaal- als generatieprestaties evalueert, wat resulteert in een uitgebreide evaluatie van de RAG-pijplijn; en (4) robuuste evaluatiemetrics afgeleid van op regels gebaseerde en GTM-gebaseerde metrics, die de betrouwbaarheid van beoordelingen verbeteren door middel van handmatige annotaties en begeleid finetunen van een GTM-beoordelaar. Onze experimenten tonen de alomvattendheid van OmniEval aan, met uitgebreide testdatasets en benadrukken de prestatievariaties van RAG-systemen over diverse onderwerpen en taken, waarbij significante mogelijkheden worden onthuld voor RAG-modellen om hun capaciteiten in verticale domeinen te verbeteren. We stellen de code van onze benchmark open source beschikbaar op https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}.
Chain-of-thought (CoT) decoderen stelt taalmodellen in staat om redeneerprestaties te verbeteren ten koste van een hoge generatielatentie bij decodering. Recente voorstellen hebben varianten van contemplatietokens verkend, een term die we introduceren en die verwijst naar speciale tokens die tijdens inferentie worden gebruikt om extra berekeningen toe te staan. Eerder onderzoek heeft vaste reeksen van een discrete set van insluitingen overwogen als contemplatietokens. Hier stellen we Compressed Chain-of-Thought (CCoT) voor, een raamwerk om betekenisvolle en continue contemplatietokens van variabele reeks lengte te genereren. De gegenereerde contemplatietokens zijn gecomprimeerde representaties van expliciete redeneerketens, en onze methode kan worden toegepast op decoder-taalmodellen van de plank. Via experimenten illustreren we hoe CCoT extra redenering mogelijk maakt over dichte betekenisvolle representaties om overeenkomstige verbeteringen in nauwkeurigheid te bereiken. Bovendien kunnen de redeneerverbeteringen op aanvraag adaptief worden aangepast door het aantal gegenereerde contemplatietokens te regelen.
Het begrijpen van informatie uit een verzameling van meerdere documenten, met name die met visueel rijke elementen, is belangrijk voor vraagbeantwoording op basis van documenten. Dit artikel introduceert VisDoMBench, de eerste uitgebreide benchmark ontworpen om QA-systemen te evalueren in multi-document instellingen met rijke multimodale inhoud, waaronder tabellen, grafieken en presentaties. We stellen VisDoMRAG voor, een nieuw multimodaal Retrieval Augmented Generation (RAG) benadering die gelijktijdig visuele en tekstuele RAG gebruikt, waarbij robuuste visuele ophaalmogelijkheden worden gecombineerd met geavanceerde linguïstische redenering. VisDoMRAG maakt gebruik van een meerstaps redeneerproces dat bewijscuratie en keten-van-gedachten redenering omvat voor gelijktijdige tekstuele en visuele RAG-pipelines. Een belangrijke nieuwigheid van VisDoMRAG is het consistentie-beperkte modaliteitenfusie mechanisme, dat de redeneerprocessen over modaliteiten afstemt op inferentietijd om een coherente uiteindelijke antwoord te produceren. Dit leidt tot verbeterde nauwkeurigheid in scenario's waar kritieke informatie over modaliteiten is verdeeld en verbeterde antwoordverifieerbaarheid door impliciete contexttoewijzing. Via uitgebreide experimenten met open-source en eigen grote taalmodellen, benchmarken we state-of-the-art document QA-methoden op VisDoMBench. Uitgebreide resultaten tonen aan dat VisDoMRAG beter presteert dan unimodale en lange-context LLM-baselines voor end-to-end multimodale document QA met 12-20%.
Mensen destilleren complexe ervaringen tot fundamentele abstracties die snelle leerprocessen en aanpassing mogelijk maken. Op dezelfde manier vertonen autoregressieve transformers adaptief leren door middel van in-context leren (ICL), wat de vraag oproept hoe dit gebeurt. In dit artikel stellen we een conceptcodering-ontcijferingsmechanisme voor om ICL te verklaren door te bestuderen hoe transformers interne abstracties vormen en gebruiken in hun representaties. Op synthetische ICL-taken analyseren we de trainingsdynamiek van een kleine transformer en rapporteren we de gelijktijdige opkomst van conceptcodering en -ontcijfering. Naarmate het model leert om verschillende latente concepten (bijv. "Het eerste zelfstandig naamwoord in een zin vinden") in afzonderlijke, onderscheidbare representaties te coderen, bouwt het tegelijkertijd conditionele ontcijferingsalgoritmen op en verbetert het zijn ICL-prestaties. We bevestigen het bestaan van dit mechanisme bij vooraf getrainde modellen van verschillende schalen (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Verder tonen we door mechanistische ingrepen en gecontroleerde finetuning aan dat de kwaliteit van conceptcodering oorzakelijk gerelateerd is aan en voorspellend is voor ICL-prestaties. Onze empirische inzichten werpen licht op een beter begrip van de succes- en faalmodi van grote taalmodellen via hun representaties.
Recente werken over het versnellen van Vision-Language Modellen tonen aan dat sterke prestaties behouden kunnen blijven over verschillende vision-language taken ondanks het sterk comprimeren van visuele informatie. In dit werk onderzoeken we de populaire versnellingsbenadering van vroeg snoeien van visuele tokens binnen het taalmodel en vinden dat de sterke prestatie over vele taken niet te wijten is aan een uitzonderlijke mogelijkheid om visuele informatie te comprimeren, maar eerder aan de beperkte mogelijkheid van de benchmarks om fijnmazige visuele capaciteiten te beoordelen. We tonen specifiek een kernprobleem met de versnellingsbenadering waarbij de meeste tokens naar de bovenkant van de afbeelding worden weggesnoeid. Toch komt dit probleem alleen tot uiting in prestaties voor een kleine subset van taken zoals lokalisatie. Voor de andere geëvalueerde taken blijven sterke prestaties behouden met de gebrekkige snoeistrategie. Met inachtneming van de beperkte visuele capaciteiten van de bestudeerde versnellings techniek, stellen we FEATHER (Snelle en Effectieve Versnelling met Ensemble Criteria) voor, een eenvoudige benadering die (1) het geïdentificeerde probleem met vroeg-laag snoeien oplost, (2) uniforme steekproeven integreert om dekking over alle afbeeldingsgebieden te garanderen, en (3) snoeien in twee fasen toepast om de criteria effectiever te maken in een latere laag terwijl nog steeds aanzienlijke versnelling wordt bereikt door vroeg-laag snoeien. Met vergelijkbare computationele besparingen vinden we dat FEATHER meer dan 5 keer betere prestaties heeft op de visie-gecentreerde lokalisatie benchmarks in vergelijking met de oorspronkelijke versnellingsbenadering.
De visie van een breed capabele en doelgerichte agent, zoals een internetbrowser-agent in de digitale wereld en een huishoudelijke humanoïde in de fysieke wereld, is snel vooruitgegaan, dankzij de generalisatiecapaciteit van foundation modellen. Zo'n generalistische agent moet beschikken over een grote en diverse vaardighedenrepertoire, zoals het vinden van routebeschrijvingen tussen twee reislocaties en het kopen van specifieke items van het internet. Als elke vaardigheid handmatig moet worden gespecificeerd via een vastgestelde reeks door mensen geannoteerde instructies, zal het vaardighedenrepertoire van de agent noodzakelijkerwijs beperkt zijn vanwege de hoeveelheid en diversiteit van door mensen geannoteerde instructies. In dit werk pakken we deze uitdaging aan door Proposer-Agent-Evaluator voor te stellen, een effectief leersysteem dat foundation model agents in staat stelt om autonoom vaardigheden te ontdekken en te oefenen in het wild. In het hart van PAE bevindt zich een contextbewuste taakvoorsteller die autonoom taken voorstelt voor de agent om te oefenen met contextinformatie van de omgeving, zoals gebruikersdemo's of zelfs alleen de naam van de website zelf voor internetbrowser-agents. Vervolgens probeert het agentbeleid die taken met gedachten en daadwerkelijke grondoperaties in de echte wereld met resulterende trajecten geëvalueerd door een autonome VLM-gebaseerde succesbeoordelaar. De succesbeoordeling dient als beloningssignaal voor de agent om zijn beleid te verfijnen via RL. We valideren PAE op uitdagende visie-gebaseerde webnavigatie, met behulp van zowel echte wereld als zelf-gehoste websites van WebVoyager en WebArena. Voor zover wij weten, vertegenwoordigt dit werk het eerste effectieve leersysteem dat autonome taakvoorstelling toepast met RL voor agents die real-world door mensen geannoteerde benchmarks generaliseren met SOTA-prestaties. Onze open-source checkpoints en code zijn te vinden op https://yanqval.github.io/PAE/
Dieptecompletie verbetert schaarse dieptemetingen naar dichte dieptekaarten, geleid door een conventioneel beeld. Bestaande methoden voor deze zeer slecht gestelde taak werken in sterk beperkte omgevingen en hebben moeite wanneer ze worden toegepast op beelden buiten het trainingsdomein of wanneer de beschikbare dieptemetingen schaars, onregelmatig verdeeld of van variërende dichtheid zijn. Geïnspireerd door recente ontwikkelingen in monoculair diepteschatting, herschalen we dieptecompletie als een beeld-voorwaardelijke dieptekaartgeneratie geleid door schaarse metingen. Onze methode, Marigold-DC, bouwt voort op een voorgeleerd latent diffusiemodel voor monoculair diepteschatting en injecteert de dieptewaarnemingen als testtijdbegeleiding via een optimalisatieschema dat parallel loopt met de iteratieve inferentie van denoising diffusie. De methode vertoont uitstekende generalisatie zonder training over een divers scala aan omgevingen en kan zelfs extreem schaarse begeleiding effectief verwerken. Onze resultaten suggereren dat hedendaagse monoculaire diepteprioriteiten dieptecompletie aanzienlijk robuuster maken: het is wellicht beter om de taak te zien als het herstellen van dichte diepte uit (dichte) beeldpixels, geleid door schaarse diepte; in plaats van als het inpakken van (schaarse) diepte, geleid door een beeld. Projectwebsite: https://MarigoldDepthCompletion.github.io/
In de softwareontwikkeling in de echte wereld kan onjuiste of ontbrekende uitzonderingsafhandeling een ernstige invloed hebben op de robuustheid en betrouwbaarheid van code. Uitzonderingsafhandelingsmechanismen vereisen van ontwikkelaars dat ze uitzonderingen detecteren, vastleggen en beheren volgens hoge normen, maar veel ontwikkelaars worstelen met deze taken, wat leidt tot kwetsbare code. Dit probleem is met name duidelijk in open-source projecten en heeft invloed op de algehele kwaliteit van het software-ecosysteem. Om deze uitdaging aan te pakken, onderzoeken we het gebruik van grote taalmodellen (LLM's) om de uitzonderingsafhandeling in code te verbeteren. Door uitgebreide analyse identificeren we drie belangrijke problemen: Ongevoelige Detectie van Kwetsbare Code, Onnauwkeurige Vastlegging van Uitzonderingsblok en Verstoorde Afhandelingsoplossing. Deze problemen komen veel voor in repositories in de echte wereld, wat suggereert dat robuuste uitzonderingsafhandelingspraktijken vaak over het hoofd worden gezien of verkeerd worden behandeld. Als reactie hierop stellen we Seeker voor, een multi-agent framework geïnspireerd door strategieën van ervaren ontwikkelaars voor uitzonderingsafhandeling. Seeker maakt gebruik van agenten: Scanner, Detector, Predator, Ranker en Handler om LLM's te helpen bij het effectiever detecteren, vastleggen en oplossen van uitzonderingen. Ons werk is de eerste systematische studie naar het benutten van LLM's om uitzonderingsafhandelingspraktijken in echte ontwikkelscenario's te verbeteren, en biedt waardevolle inzichten voor toekomstige verbeteringen in codebetrouwbaarheid.
We presenteren SUGAR, een zero-shot methode voor op onderwerp gedreven videoaanpassing. Gegeven een invoerafbeelding is SUGAR in staat om video's te genereren voor het onderwerp dat in de afbeelding is opgenomen en om de generatie af te stemmen op willekeurige visuele kenmerken zoals stijl en beweging die zijn gespecificeerd door gebruikersinvoertekst. In tegenstelling tot eerdere methoden, die fijnafstemming op testtijd vereisen of er niet in slagen om tekst-uitgelijnde video's te genereren, behaalt SUGAR superieure resultaten zonder de noodzaak van extra kosten op testtijd. Om zero-shot mogelijk te maken, introduceren we een schaalbare pipeline om een synthetische dataset te construeren die specifiek is ontworpen voor op onderwerp gedreven aanpassing, resulterend in 2,5 miljoen afbeelding-video-tekst triplets. Daarnaast stellen we verschillende methoden voor om ons model te verbeteren, waaronder speciale aandachtsontwerpen, verbeterde trainingsstrategieën en een verfijnd bemonsteringsalgoritme. Uitgebreide experimenten worden uitgevoerd. Vergeleken met eerdere methoden behaalt SUGAR state-of-the-art resultaten op het gebied van identiteitsbehoud, videodynamiek en video-tekstuitlijning voor op onderwerp gedreven videoaanpassing, waarbij de effectiviteit van onze voorgestelde methode wordt aangetoond.
Recente op AI gebaseerde videobewerking heeft gebruikers in staat gesteld om video's te bewerken via eenvoudige tekstopdrachten, waardoor het bewerkingsproces aanzienlijk wordt vereenvoudigd. Echter, recente zero-shot videobewerkingstechnieken richten zich voornamelijk op wereldwijde of enkelvoudige objectbewerkingen, wat kan leiden tot onbedoelde veranderingen in andere delen van de video. Wanneer meerdere objecten lokale bewerkingen vereisen, worden bestaande methoden geconfronteerd met uitdagingen zoals ontrouwe bewerking, bewerkingslekken en een gebrek aan geschikte evaluatiedatasets en -metrieken. Om deze beperkingen te overwinnen, stellen we een zero-shot Multi-Instance Video Editing raamwerk voor, genaamd MIVE. MIVE is een algemeen maskergebaseerd raamwerk, niet toegewijd aan specifieke objecten (bijv. mensen). MIVE introduceert twee sleutelmodules: (i) Ontkoppelde Multi-instance Bemonstering (DMS) om bewerkingslekken te voorkomen en (ii) Instantiegerichte Waarschijnlijkheidsherziening (IPR) om nauwkeurige lokaliseren en trouwe bewerking te garanderen. Daarnaast presenteren we onze nieuwe MIVE Dataset met diverse videoscenario's en introduceren we de Cross-Instance Nauwkeurigheid (CIA) Score om bewerkingslekken te evalueren bij multi-instance videobewerkingstaken. Onze uitgebreide kwalitatieve, kwantitatieve en gebruikersstudies tonen aan dat MIVE aanzienlijk beter presteert dan recente state-of-the-art methoden op het gebied van bewerkingsgetrouwheid, nauwkeurigheid en lekpreventie, waarmee een nieuwe benchmark wordt vastgesteld voor multi-instance videobewerking. De projectpagina is beschikbaar op https://kaist-viclab.github.io/mive-site/
Grote Taalmodellen (LLM's) tonen uitzonderlijke prestaties op diverse taken door zowel gebruik te maken van vooraf getrainde kennis (d.w.z. parametrische kennis) als externe kennis (d.w.z. contextuele kennis). Hoewel er aanzienlijke inspanningen zijn geleverd om beide vormen van kennis te benutten, blijven scenario's waarin het model geen relevante kennis heeft grotendeels onverkend. Dergelijke beperkingen kunnen leiden tot problemen zoals hallucinatie, wat kan resulteren in verminderde betrouwbaarheid en potentiële risico's in toepassingen met hoge inzet. Om dergelijke beperkingen aan te pakken, breidt dit artikel de taakomvang uit om gevallen te omvatten waarin het verzoek van de gebruiker niet kan worden ingewilligd vanwege het ontbreken van relevante kennis. Hiertoe introduceren we Contrastieve Decodering met Onthouding (CDA), een decoderingsmethode zonder training die LLM's in staat stelt om reacties te genereren wanneer relevante kennis beschikbaar is en zich anders te onthouden. CDA evalueert de relevantie van elke kennis voor een gegeven query, waarbij adaptief wordt bepaald welke kennis prioriteit heeft of volledig genegeerd moet worden. Uitgebreide experimenten met vier LLM's op drie vraag-antwoorddatasets tonen aan dat CDA effectief nauwkeurige generatie en onthouding tegelijkertijd kan uitvoeren. Deze bevindingen benadrukken het potentieel van CDA om de toepasbaarheid van LLM's te verbreden, de betrouwbaarheid te verbeteren en het vertrouwen van de gebruiker te behouden.