Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In grote visie-taalmodellen (LVLM's) dienen afbeeldingen als invoer die een schat aan informatie bevatten. Zoals het gezegde "Een foto zegt meer dan duizend woorden" impliceert, kan het representeren van een enkele afbeelding in huidige LVLM's honderden of zelfs duizenden tokens vereisen. Dit resulteert in aanzienlijke computationele kosten, die kwadratisch toenemen naarmate de resolutie van de invoerafbeelding toeneemt, waardoor de efficiëntie van zowel training als inferentie ernstig wordt beïnvloed. Eerdere benaderingen hebben geprobeerd het aantal afbeeldingstokens te verminderen, ofwel vóór of binnen de vroege lagen van LVLM's. Deze strategieën resulteren echter onvermijdelijk in het verlies van cruciale beeldinformatie, wat uiteindelijk de modelprestaties vermindert. Om deze uitdaging aan te gaan, voeren we een empirische studie uit waaruit blijkt dat alle visuele tokens noodzakelijk zijn voor LVLM's in de ondiepe lagen, en dat token redundantie progressief toeneemt in de diepere lagen van het model. Daartoe stellen we PyramidDrop voor, een strategie voor het verminderen van visuele redundantie in LVLM's om hun efficiëntie in zowel training als inferentie te verhogen met verwaarloosbaar prestatieverlies. Specifiek verdelen we de LVLM in verschillende fasen en laten we aan het einde van elke fase een deel van de afbeeldingstokens vallen met een vooraf gedefinieerde verhouding, waardoor piramide-achtige visuele tokens ontstaan over modellagen. Het laten vallen is gebaseerd op een lichtgewicht gelijkheidsberekening met een verwaarloosbare tijdsbelasting. Uitgebreide experimenten tonen aan dat PyramidDrop een versnelling van 40% in trainingstijd en 55% in inferentie-FLOPs kan bereiken van LLaVA-NeXT met vergelijkbare prestaties. Bovendien kan PyramidDrop ook dienen als een plug-and-play strategie voor inferentieversnelling zonder training, met betere prestaties en lagere inferentiekosten dan tegenhangers. We hopen dat de inzichten en benadering geïntroduceerd door PyramidDrop toekomstig onderzoek zullen inspireren om verder te onderzoeken wat de rol van afbeeldingstokens is in LVLM's.
We presenteren SpectroMotion, een nieuwe benadering die 3D Gaussian Splatting (3DGS) combineert met op fysica gebaseerde rendering (PBR) en vervormingsvelden om dynamische spiegelende scènes te reconstrueren. Eerdere methoden die 3DGS uitbreiden om dynamische scènes te modelleren, hebben moeite gehad om spiegelende oppervlakken nauwkeurig weer te geven. Onze methode lost dit op door een restcorrectietechniek te introduceren voor nauwkeurige berekening van oppervlaktenormalen tijdens vervorming, aangevuld met een vervormbare omgevingskaart die zich aanpast aan veranderende lichtomstandigheden. We passen een grof-naar-fijne trainingsstrategie toe die zowel de scènegeometrie als de voorspelling van spiegelende kleuren aanzienlijk verbetert. We tonen aan dat ons model beter presteert dan eerdere methoden voor het synthetiseren van weergaven van scènes met dynamische spiegelende objecten en dat het de enige bestaande 3DGS-methode is die in staat is fotorealistische dynamische spiegelende scènes uit de echte wereld te synthetiseren, waarbij het de state-of-the-art methoden overtreft in het renderen van complexe, dynamische en spiegelende scènes.
Keten-van-gedachten (CoT) redeneren in visuele taalmodellen (VLM's) is cruciaal voor het verbeteren van de interpreteerbaarheid en betrouwbaarheid. Echter, de huidige trainingsmethoden missen robuuste CoT redeneergegevens en vertrouwen op datasets gedomineerd door korte annotaties met minimale rechtvaardigingen. In dit werk laten we zien dat het trainen van VLM op korte antwoorden niet goed generaliseert naar redeneertaken die meer gedetailleerde antwoorden vereisen. Om dit aan te pakken, stellen we een tweeledige aanpak voor. Ten eerste destilleren we rechtvaardigingen van het GPT-4o model om de trainingsgegevens te verrijken en VLM's verder af te stemmen, waardoor hun CoT-prestaties worden verbeterd. Ten tweede passen we versterkend leren toe om de redeneerkwaliteit verder te kalibreren. Specifiek construeren we positieve (correcte) en negatieve (incorrecte) paren van door het model gegenereerde redeneerketens door hun voorspellingen te vergelijken met geannoteerde korte antwoorden. Met behulp van deze paar-gegevens passen we het Directe VoorkeursOptimalisatie-algoritme toe om de redeneervaardigheden van het model te verfijnen. Onze experimenten tonen significante verbeteringen in CoT redeneren op benchmarkdatasets en een betere generalisatie naar directe antwoordvoorspellingen. Dit werk benadrukt het belang van het opnemen van gedetailleerde rechtvaardigingen in de training en het benutten van versterkend leren om de redeneermogelijkheden van VLM's te versterken.
Geautomatiseerde afstemming ontwikkelt afstemmingssystemen met minimale menselijke tussenkomst. De sleutel tot geautomatiseerde afstemming ligt in het verschaffen van leerzame en nauwkeurige voorkeursignalen voor voorkeursleren zonder menselijke annotatie. In dit artikel introduceren we Zelfsturende Optimalisatie (SSO), een algoritme dat autonoom hoogwaardige voorkeursignalen genereert op basis van vooraf gedefinieerde principes tijdens iteratieve training, waardoor de noodzaak voor handmatige annotatie wordt geëlimineerd. SSO handhaaft de nauwkeurigheid van signalen door ervoor te zorgen dat er een consistente kloof is tussen gekozen en afgewezen reacties, terwijl ze beide on-policy worden gehouden om aan te sluiten bij de leercapaciteit van het huidige beleidsmodel. SSO kan profiteren van de online en offline training van het beleidsmodel, evenals het verbeteren van de training van beloningsmodellen. We valideren de effectiviteit van SSO met twee basismodellen, Qwen2 en Llama3.1, wat aangeeft dat het nauwkeurige, on-policy voorkeursignalen biedt gedurende iteratieve training. Zonder enige handmatige annotatie of externe modellen leidt SSO tot aanzienlijke prestatieverbeteringen over zes subjectieve of objectieve benchmarks. Bovendien heeft de voorkeursdata gegenereerd door SSO aanzienlijk de prestaties van het beloningsmodel op Rewardbench verbeterd. Ons werk presenteert een schaalbare aanpak voor voorkeursoptimalisatie, waardoor de weg wordt vrijgemaakt voor efficiëntere en effectievere geautomatiseerde afstemming.
We presenteren xGen-MM-Vid (BLIP-3-Video): een multimodaal taalmodel voor video's, speciaal ontworpen om efficiënt temporele informatie over meerdere frames vast te leggen. BLIP-3-Video maakt gebruik van de 'temporale encoder' naast de conventionele visuele tokenizer, die een reeks tokens over meerdere frames in een compacte set visuele tokens in kaart brengt. Dit stelt BLIP3-Video in staat om veel minder visuele tokens te gebruiken dan zijn concurrerende modellen (bijv. 32 vs. 4608 tokens). We verkennen verschillende soorten temporale encoders, waaronder leerbaar spatio-temporeel poolen en sequentiële modellen zoals Token Turing Machines. We bevestigen experimenteel dat BLIP-3-Video video-vraag-antwoordnauwkeurigheden behaalt die vergelijkbaar zijn met veel grotere state-of-the-art modellen (bijv. 34B), terwijl het veel kleiner is (d.w.z. 4B) en efficiënter door minder visuele tokens te gebruiken. De projectwebsite is te vinden op https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
Recente Grote Vision Language Modellen (GVLM's) vertonen opmerkelijke zero-shot conversatie- en redeneervaardigheden bij multimodale vragen. Desalniettemin hebben ze last van objecthallucinatie, een fenomeen waarbij GVLM's geneigd zijn tekstuele antwoorden te genereren die niet feitelijk in lijn zijn met de beeldinvoer. Onze pilotstudie onthult dat objecthallucinatie nauw verbonden is met Rotatie Positie Codering (RoPE), een veelgebruikt positioneel afhankelijkheidsmodel in bestaande GVLM's. Door de langetermijnafname in RoPE hebben GVLM's de neiging meer te hallucineren wanneer relevante visuele aanwijzingen ver verwijderd zijn van instructietokens in de multimodale invoersequentie. Daarnaast observeren we een vergelijkbaar effect wanneer de sequentiële volgorde van visuele tokens wordt omgekeerd tijdens multimodale uitlijning. Onze tests geven aan dat langetermijnafname in RoPE uitdagingen vormt voor GVLM's bij het vastleggen van visueel-instructie-interacties over lange afstanden. We stellen Concentrische Causale Aandacht (CCA) voor, een eenvoudige maar effectieve positionele uitlijningsstrategie die de impact van langetermijnafname in RoPE in GVLM's vermindert door de relatieve afstand tussen visuele en instructietokens natuurlijk te verkleinen. Met CCA kunnen visuele tokens beter interageren met instructietokens, waardoor de perceptievermogen van het model wordt verbeterd en objecthallucinatie wordt verlicht. Zonder franje overtreft onze positionele uitlijningsmethode bestaande hallucinatie-mitigatiestrategieën ruimschoots op meerdere objecthallucinatie-benchmarks.
Kennisdistillatie (KD) wordt veel gebruikt om kleine, hoog presterende student-taalmodellen (LM's) te trainen met behulp van grote docent-LM's. Hoewel effectief bij fine-tuning, staat KD tijdens pre-training voor uitdagingen op het gebied van efficiëntie, flexibiliteit en effectiviteit. Bestaande methoden brengen hoge computationele kosten met zich mee door online docentinferentie, vereisen tokenisatie-matching tussen docent- en student-LM's, of lopen het risico om de moeilijkheid en diversiteit van de door de docent gegenereerde trainingsgegevens te verliezen. Om deze problemen aan te pakken, stellen we MiniPLM voor, een KD-framework voor het vooraf trainen van LM's door de trainingsgegevensverdeling te verfijnen met de kennis van de docent. Voor efficiëntie voert MiniPLM offline docentinferentie uit, waardoor KD voor meerdere student-LM's mogelijk is zonder extra trainingskosten. Voor flexibiliteit werkt MiniPLM uitsluitend op het trainingscorpus, waardoor KD mogelijk is tussen modelfamilies. Voor effectiviteit benut MiniPLM de verschillen tussen grote en kleine LM's om de moeilijkheid en diversiteit van de trainingsgegevens te verbeteren, waardoor student-LM's veelzijdige en geavanceerde kennis kunnen verwerven. Uitgebreide experimenten tonen aan dat MiniPLM de prestaties van student-LM's op 9 veelgebruikte downstreamtaken verbetert, de taalmodelleringsmogelijkheden verbetert en de berekening van vooraf training vermindert. Het voordeel van MiniPLM strekt zich uit tot grote vooraf trainingsschalen, zoals blijkt uit de extrapoleerbaarheid van de schaalcurven. Verder onderzoek onthult dat MiniPLM KD tussen modelfamilies ondersteunt en het gebruik van vooraf training gegevens verbetert. Ons model, code en gegevens zijn beschikbaar op https://github.com/thu-coai/MiniPLM.
In een samengesteld AI-systeem zijn componenten zoals een LLM-oproep, een retriever, een code-interpreter of tools met elkaar verbonden. Het gedrag van het systeem wordt voornamelijk gestuurd door parameters zoals instructies of tooldefinities. Recente ontwikkelingen maken end-to-end optimalisatie van deze parameters mogelijk met behulp van een LLM. Met name het benutten van een LLM als optimizer is bijzonder efficiënt omdat het gradiëntberekening vermijdt en complexe code en instructies kan genereren. Dit artikel presenteert een overzicht van de principes en opkomende trends in LLM-gebaseerde optimalisatie van samengestelde AI-systemen. Het behandelt archetypen van samengestelde AI-systemen, benaderingen voor LLM-gebaseerde end-to-end optimalisatie, en inzichten in toekomstige richtingen en bredere impact. Belangrijk is dat dit overzicht concepten uit programma-analyse gebruikt om een geünificeerd beeld te geven van hoe een LLM-optimizer wordt aangespoord om een samengesteld AI-systeem te optimaliseren. De uitgebreide lijst van artikelen is te vinden op https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
Het versnellen van onderzoek naar Grote Multimodale Modellen (LMM's) in niet-Engelstalige talen is cruciaal voor het verbeteren van gebruikerservaringen over bredere populaties. In dit artikel introduceren we JMMMU (Japanse MMMU), de eerste grootschalige Japanse benchmark die is ontworpen om LMM's te evalueren op expertniveau taken gebaseerd op de Japanse culturele context. Om een uitgebreide, cultuurbewuste evaluatie te vergemakkelijken, bevat JMMMU twee aanvullende subsets: (i) de cultuuragnostische (CA) subset, waarbij de cultuur-onafhankelijke onderwerpen (bijv. Wiskunde) zijn geselecteerd en vertaald naar het Japans, waardoor een één-op-één vergelijking mogelijk is met zijn Engelse tegenhanger MMMU; en (ii) de cultuurspecifieke (CS) subset, bestaande uit nieuw gecreëerde onderwerpen die de Japanse culturele context weerspiegelen. Met behulp van de CA subset observeren we een prestatiedaling bij veel LMM's wanneer geëvalueerd in het Japans, wat puur toe te schrijven is aan taalvariatie. Met behulp van de CS subset onthullen we hun ontoereikende begrip van de Japanse cultuur. Verder, door beide subsets te combineren, identificeren we dat sommige LMM's goed presteren op de CA subset maar niet op de CS subset, waarbij een oppervlakkig begrip van de Japanse taal wordt blootgelegd dat diepgang mist in cultureel begrip. We hopen dat dit werk niet alleen zal helpen bij het verbeteren van de prestaties van LMM's in het Japans, maar ook zal dienen als richtlijn voor het creëren van hoogwaardige, cultureel diverse benchmarks voor de ontwikkeling van meertalige LMM's. De projectpagina is https://mmmu-japanese-benchmark.github.io/JMMMU/.
De hoge rekenkundige kosten van grote taalmodellen (LLM's) hebben geleid tot een golf van onderzoek naar LLM-compressie, via methoden zoals kwantisering, sparsheden, of gestructureerd snoeien. Een nieuwe frontlinie op dit gebied wordt gevormd door dynamische, niet-uniforme compressiemethoden, die de compressieniveaus (bijv. sparsheden) per blok of zelfs per laag aanpassen om nauwkeurigheidsverlies te minimaliseren, terwijl ze een globale compressiedrempel garanderen. Toch vertrouwen huidige methoden op heuristieken om de "belangrijkheid" van een bepaalde laag voor het verlies te identificeren, gebaseerd op aannames zoals foutmonotonie, d.w.z. dat de compressiefout van het end-to-end model evenredig is met de som van de fouten per laag. In dit artikel herzien we dit gebied en stellen we een nieuwe en algemene benadering voor dynamische compressie voor die aantoonbaar optimaal is binnen een gegeven invoerbereik. We vertrekken vanuit de motiverende observatie dat, over het algemeen, foutmonotonie niet geldt voor LLM's: gecomprimeerde modellen met een lagere som van per-laag fouten kunnen slechter presteren dan modellen met hogere foutensommen. Om dit aan te pakken, stellen we een nieuw algemeen evolutionair kader voor dynamische LLM-compressie voor genaamd EvoPress, dat aantoonbare convergentie heeft, en lage steekproef- en evaluatiecomplexiteit. We tonen aan dat deze theoretische garanties leiden tot zeer competitieve praktische prestaties voor dynamische compressie van Llama, Mistral en Phi modellen. Via EvoPress behalen we nieuwe state-of-the-art resultaten voor alle compressiebenaderingen: structureel snoeien (blok/laag laten vallen), ongestructureerde sparsheden, evenals kwantisering met dynamische bitbreedtes. Onze code is beschikbaar op https://github.com/IST-DASLab/EvoPress.
Wiskundig redeneren is een zeer actief onderzoeksgebied binnen Large Language Models (LLM) omdat het een kenmerk is van kunstmatige intelligentie. Er zijn echter weinig werken die hebben onderzocht hoe wiskundig redeneren wordt gecodeerd binnen de parameters van LLM's en of het een vaardigheid is die geïsoleerd kan worden binnen een model. Door dit te doen, zou gerichte interventie mogelijk zijn om de wiskundige prestaties te verbeteren zonder niet-wiskundig gedrag te veranderen en om inzicht te krijgen in hoe modellen wiskundig redeneren coderen. We introduceren Math Neurochirurgie (MathNeuro), een methode om wiskunde-specifieke parameters in LLM's te isoleren met behulp van alleen voorwaartse passes. MathNeuro bouwt voort op bestaand werk door gewichten en activaties te gebruiken om de belangrijkheid van parameters te berekenen, maar isoleert wiskunde-specifieke parameters door die belangrijk zijn voor algemene taak in taal te verwijderen. Het snoeien van parameters die MathNeuro identificeert, verwijdert de wiskundige redeneervaardigheid van een LLM zonder de algemene taalvaardigheid te vernietigen. Het schalen van deze parameters met een kleine constante verbetert de prestaties van een vooraf getraind of instructie-aangepast LLM met 4-17% op GSM8K, terwijl niet-wiskundig gedrag onveranderd blijft. MathNeuro is ook data-efficiënt: het grootste deel van de effectiviteit blijft behouden bij het identificeren van wiskunde-specifieke parameters met behulp van een enkel voorbeeld. MathNeuro benadrukt het potentieel voor toekomstig werk om in te grijpen op wiskunde-specifieke parameters.
Het genereren van nieuwe weergaven heeft als doel om nieuwe weergaven van een scène te genereren vanuit meerdere invoerbeelden of video's, en recente ontwikkelingen zoals 3D Gaussisch spatten (3DGS) hebben opmerkelijk succes behaald in het produceren van fotorealistische renderings met efficiënte pipelines. Het genereren van hoogwaardige nieuwe weergaven onder uitdagende omstandigheden, zoals schaarse invoerweergaven, blijft echter moeilijk vanwege onvoldoende informatie in onderbemonsterde gebieden, wat vaak resulteert in opvallende artefacten. Dit artikel presenteert 3DGS-Enhancer, een nieuwe pipeline voor het verbeteren van de representatiekwaliteit van 3DGS-representaties. We maken gebruik van 2D video diffusiepriora om het uitdagende probleem van 3D-weergaveconsistentie aan te pakken, waarbij het wordt geherformuleerd als het bereiken van temporele consistentie binnen een videogeneratieproces. 3DGS-Enhancer herstelt weergave-consistente latente kenmerken van gerenderde nieuwe weergaven en integreert ze met de invoerweergaven door middel van een ruimtelijk-temporele decoder. De verbeterde weergaven worden vervolgens gebruikt om het initiële 3DGS-model bij te stellen, waardoor de renderprestaties aanzienlijk worden verbeterd. Uitgebreide experimenten op grootschalige datasets van onbegrensde scènes tonen aan dat 3DGS-Enhancer superieure reconstructieprestaties en hoogwaardige renderresultaten oplevert in vergelijking met state-of-the-art methoden. De projectwebpagina is https://xiliu8006.github.io/3DGS-Enhancer-project.
Een colonoscopie is momenteel een van de meest gevoelige screeningsmethoden voor dikkedarmkanker. Deze studie onderzoekt de grenzen van intelligente colonoscopietechnieken en hun toekomstige implicaties voor multimodale medische toepassingen. Met dit doel beginnen we met het beoordelen van de huidige op data en modellen gerichte landschappen door middel van vier taken voor colonoscopische scèneperceptie, waaronder classificatie, detectie, segmentatie en visie-taalbegrip. Deze beoordeling stelt ons in staat om domeinspecifieke uitdagingen te identificeren en onthult dat multimodaal onderzoek in colonoscopie open blijft staan voor verdere verkenning. Om de komende multimodale periode te omarmen, stellen we drie fundamentele initiatieven vast: een grootschalige multimodale instructie-afstemmingsdataset ColonINST, een colonoscopie-ontworpen multimodaal taalmodel ColonGPT, en een multimodale benchmark. Om voortdurende monitoring van dit snel evoluerende vakgebied te vergemakkelijken, bieden we een openbare website voor de laatste updates: https://github.com/ai4colonoscopy/IntelliScope.