Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel evalueert geopolitieke vooroordelen in grote taalmodellen (LLMs) ten aanzien van verschillende landen door een analyse van hun interpretatie van historische gebeurtenissen met tegenstrijdige nationale perspectieven (VS, VK, USSR en China). We introduceren een nieuwe dataset met neutrale beschrijvingen van gebeurtenissen en contrasterende standpunten vanuit verschillende landen. Onze bevindingen tonen significante geopolitieke vooroordelen aan, waarbij de modellen specifieke nationale narratieven bevoordelen. Daarnaast hadden eenvoudige debiasing-prompten een beperkt effect in het verminderen van deze vooroordelen. Experimenten met gemanipuleerde deelnemerslabels onthullen de gevoeligheid van de modellen voor attributie, waarbij vooroordelen soms worden versterkt of inconsistenties worden herkend, vooral bij verwisselde labels. Dit werk belicht nationale narratieve vooroordelen in LLMs, stelt de effectiviteit van eenvoudige debiasing-methoden ter discussie en biedt een raamwerk en dataset voor toekomstig onderzoek naar geopolitieke vooroordelen.
Typische grote vision-language modellen (LVLMs) passen autoregressieve supervisie uitsluitend toe op tekstuele sequenties, zonder de visuele modaliteit volledig te integreren in het leerproces. Dit resulteert in drie belangrijke beperkingen: (1) het onvermogen om afbeeldingen zonder bijbehorende bijschriften te gebruiken, (2) het risico dat bijschriften kritieke visuele details weglaten, en (3) de uitdaging dat bepaalde visiegerichte inhoud niet adequaat via tekst kan worden overgebracht. Als gevolg hiervan leggen huidige LVLMs vaak de nadruk op de afstemming tussen visie en taal, terwijl fijnmazige visuele informatie mogelijk over het hoofd wordt gezien. Hoewel sommige eerdere werken autoregressieve beeldgeneratie hebben onderzocht, blijft het effectief benutten van autoregressieve visuele supervisie om beeldbegrip te verbeteren een open uitdaging. In dit artikel introduceren we Autoregressive Semantic Visual Reconstruction (ASVR), wat gezamenlijk leren van visuele en tekstuele modaliteiten mogelijk maakt binnen een uniform autoregressief raamwerk. We tonen aan dat het autoregressief reconstrueren van de ruwe visuele verschijning van afbeeldingen het multimodale begrip niet verbetert en zelfs kan schaden. Daarentegen verbetert het autoregressief reconstrueren van de semantische representatie van afbeeldingen het begrip consistent. Opmerkelijk is dat we ontdekken dat zelfs wanneer modellen continue beeldkenmerken als invoer krijgen, ze effectief discrete semantische tokens kunnen reconstrueren, wat resulteert in stabiele en consistente verbeteringen over een breed scala aan multimodale begripstests. Onze aanpak levert aanzienlijke prestatieverbeteringen op over verschillende dataschaal (556k-2M) en soorten LLM-backbones. Specifiek verbetert ASVR LLaVA-1.5 met 5% in gemiddelde scores over 14 multimodale benchmarks. De code is beschikbaar op https://github.com/AlenjandroWang/ASVR.
Regelgebaseerd redeneren wordt erkend als een van de fundamentele problemen in redeneren, terwijl afwijkingen in regelformaten, typen en complexiteit in real-world toepassingen ernstige uitdagingen vormen. Recente studies hebben aangetoond dat grote redeneermodellen (LRMs) opmerkelijke redeneervaardigheden hebben, en hun prestaties aanzienlijk worden verbeterd door reinforcement learning (RL). Het blijft echter een open vraag of kleine redeneermodellen (SRMs) effectief regelgebaseerd redeneren kunnen leren met robuuste generalisatie over diverse taken en domeinen. Om dit aan te pakken, introduceren we Reinforced Rule-based Reasoning, ook wel bekend als RuleReasoner, een eenvoudige maar effectieve methode om regelgebaseerd redeneren uit te voeren via een brede verzameling gecureerde taken en een nieuwe domeinbewuste dynamische steekproefbenadering. Specifiek hermonstert RuleReasoner elke trainingsbatch door de steekproefgewichten van verschillende domeinen bij te werken op basis van historische beloningen. Dit vergemakkelijkt domeinaugmentatie en flexibele online leerschema's voor RL, waardoor de noodzaak van vooraf door mensen ontworpen mix-trainingsrecepten die in bestaande methoden worden gebruikt, wordt weggenomen. Empirische evaluaties op in-distributie (ID) en out-of-distributie (OOD) benchmarks onthullen dat RuleReasoner frontier LRMs met een aanzienlijke marge overtreft (Delta4,1% gemiddelde punten op acht ID-taken en Delta10,4% gemiddelde punten op drie OOD-taken ten opzichte van OpenAI-o1). Opmerkelijk is dat onze aanpak ook een hogere computationele efficiëntie vertoont in vergelijking met eerdere dynamische steekproefmethoden voor RL.
Van professionele filmproductie tot door gebruikers gegenereerde inhoud, makers en consumenten hebben lang erkend dat de kracht van video afhangt van de harmonieuze integratie van wat we horen (de audiotrack van de video) met wat we zien (de beeldsequentie van de video). Huidige benaderingen voor videogeneratie negeren geluid om zich te richten op algemene maar stille beeldsequentiegeneratie, of behandelen zowel visuele als auditieve elementen maar richten zich op beperkte toepassingsdomeinen zoals nasynchronisatie. Wij introduceren Mirage, een audio-naar-video foundation-model dat uitblinkt in het genereren van realistische, expressieve beeldmateriaal vanaf nul, gegeven een audio-input. Wanneer geïntegreerd met bestaande methoden voor spraaksynthese (tekst-naar-spraak, of TTS), resulteert Mirage in overtuigende multimodale video. Wanneer getraind op audio-videobeelden van pratende mensen (A-roll) en geconditioneerd op audio die spraak bevat, genereert Mirage video's van mensen die een geloofwaardige interpretatie geven van de uitvoering die impliciet is in de inputaudio. Onze centrale technische bijdrage is een uniforme methode voor het trainen van zelf-attentiegebaseerde audio-naar-video generatiemodellen, zowel vanaf nul als met bestaande gewichten. Deze methodologie stelt Mirage in staat om algemeen te blijven als een benadering voor audio-naar-video generatie, terwijl het uitvoer produceert van superieure subjectieve kwaliteit in vergelijking met methoden die audio-specifieke architecturen of verliescomponenten bevatten die specifiek zijn voor mensen, spraak, of details van hoe beelden of audio worden vastgelegd. Wij moedigen lezers aan om de resultaten van Mirage zelf te bekijken en beluisteren (zie het artikel en de opmerkingen voor links).
Vooruitgang in diffusiemodellen heeft de videokwaliteit aanzienlijk verbeterd, waarbij de aandacht wordt gericht op fijnmazige bestuurbaarheid. Veel bestaande methoden zijn echter afhankelijk van het finetunen van grootschalige videomodellen voor specifieke taken, wat steeds onpraktischer wordt naarmate de modelgroottes blijven toenemen. In dit werk presenteren we Frame Guidance, een trainingsvrije begeleiding voor bestuurbare videogeneratie op basis van frame-level signalen, zoals keyframes, stijlreferentiebeelden, schetsen of dieptekaarten. Voor praktische trainingsvrije begeleiding stellen we een eenvoudige latente verwerkingsmethode voor die het geheugengebruik aanzienlijk vermindert, en passen we een nieuwe latente optimalisatiestrategie toe die is ontworpen voor wereldwijd coherente videogeneratie. Frame Guidance maakt effectieve controle mogelijk over diverse taken, waaronder keyframe-begeleiding, stilisering en looping, zonder enige training, en is compatibel met alle videomodellen. Experimentele resultaten tonen aan dat Frame Guidance hoogwaardige gecontroleerde video's kan produceren voor een breed scala aan taken en invoersignalen.
Ongelijkheden bewijzen, cruciaal in diverse wetenschappelijke en wiskundige gebieden, test geavanceerde redeneervaardigheden zoals het ontdekken van strakke grenzen en strategische toepassing van stellingen. Dit maakt het een uniek, uitdagend front voor grote taalmodellen (LLMs), wat inzichten biedt die verder gaan dan algemeen wiskundig probleemoplossen. Vooruitgang op dit gebied wordt belemmerd door bestaande datasets die vaak schaars, synthetisch of rigide formeel zijn. Wij pakken dit aan door een informele maar verifieerbare taakformulering voor te stellen, waarbij het bewijzen van ongelijkheden wordt omgezet in twee automatisch controleerbare subtaken: grensschatting en relatievoorspelling. Hierop voortbouwend, brengen we IneqMath uit, een door experts samengestelde dataset van Olympiade-niveau ongelijkheden, inclusief een testset en een trainingscorpus verrijkt met stapsgewijze oplossingen en stellingannotaties. We ontwikkelen ook een nieuw LLM-as-judge evaluatieraamwerk, dat een eindantwoordrechter combineert met vier stapsgewijze rechters die zijn ontworpen om veelvoorkomende redeneerfouten te detecteren. Een systematische evaluatie van 29 toonaangevende LLMs op IneqMath onthult een verrassende realiteit: zelfs topmodellen zoals o1 behalen minder dan 10% algehele nauwkeurigheid onder stapsgewijze controle; dit is een daling van tot 65,5% ten opzichte van hun nauwkeurigheid wanneer alleen naar eindantwoordequivalentie wordt gekeken. Dit verschil bloot kwetsbare deductieve ketens en een kritieke kloof voor huidige LLMs tussen slechts een antwoord vinden en een rigoureus bewijs construeren. Het opschalen van de modelgrootte en het verhogen van de rekentijd tijdens het testen leveren beperkte winst op in de algehele bewijscorrectheid. In plaats daarvan benadrukken onze bevindingen veelbelovende onderzoeksrichtingen zoals stellinggestuurd redeneren en zelfverfijning. Code en data zijn beschikbaar op https://ineqmath.github.io/.
We introduceren Self Forcing, een nieuw trainingsparadigma voor autoregressieve videodiffusiemodellen. Het lost het lang bestaande probleem van exposure bias op, waarbij modellen die getraind zijn op grondwaarheid-context tijdens inferentie sequenties moeten genereren die gebaseerd zijn op hun eigen onvolmaakte uitvoer. In tegenstelling tot eerdere methoden die toekomstige frames denoizen op basis van grondwaarheid-contextframes, conditioneert Self Forcing de generatie van elk frame op eerder zelf gegenereerde uitvoer door tijdens de training autoregressieve rollout uit te voeren met key-value (KV) caching. Deze strategie maakt supervisie mogelijk via een holistisch verlies op videoniveau dat direct de kwaliteit van de volledige gegenereerde sequentie evalueert, in plaats van uitsluitend te vertrouwen op traditionele framegewijze doelstellingen. Om de trainings efficiëntie te waarborgen, gebruiken we een diffusiemodel met een beperkt aantal stappen samen met een stochastische gradient truncatiestrategie, waardoor een effectieve balans tussen rekenkosten en prestaties wordt bereikt. We introduceren verder een rollend KV cache-mechanisme dat efficiënte autoregressieve video-extrapolatie mogelijk maakt. Uitgebreide experimenten tonen aan dat onze aanpak real-time streaming videogeneratie met subseconde latentie op een enkele GPU bereikt, terwijl de generatiekwaliteit van aanzienlijk tragere en niet-causale diffusiemodellen wordt geëvenaard of zelfs overtroffen. Projectwebsite: http://self-forcing.github.io/
Het creëren van machines die de wereld in 3D kunnen begrijpen, is essentieel om ontwerpers te ondersteunen die 3D-omgevingen bouwen en bewerken, en om robots te helpen navigeren en interacteren in een driedimensionale ruimte. Geïnspireerd door vooruitgang in taal- en beeldmodellering, onderzoeken we het potentieel van autoregressieve modellen voor een nieuwe modaliteit: gestructureerde 3D-scènes. Hiertoe stellen we een geïntegreerd LLM-framework voor dat taal, beelden en 3D-scènes op elkaar afstemt, en bieden we een gedetailleerd 'kookboek' met kritieke ontwerpkeuzes voor optimale training en prestaties, waarbij we belangrijke vragen behandelen met betrekking tot datarepresentatie, modaliteit-specifieke doelstellingen en meer. We evalueren de prestaties op vier kern 3D-taken – rendering, herkenning, instructie-opvolging en vraag-beantwoording – en vier 3D-datasets, zowel synthetisch als uit de echte wereld. We breiden onze aanpak uit om complexe 3D-objectvormen te reconstrueren door onze 3D-modaliteit te verrijken met gekwantiseerde vormcoderingen, en tonen de effectiviteit van ons model aan bij 3D-objectherkenningstaken in de echte wereld. Projectwebpagina: https://glab-caltech.github.io/kyvo/
De afgelopen jaren zijn Multimodale Grote Taalmodellen (MLLMs) uitgebreid gebruikt voor multimodale redeneertaken, waaronder de automatisering van Grafische Gebruikersinterfaces (GUI's). In tegenstelling tot algemene offline multimodale taken wordt GUI-automatisering uitgevoerd in online interactieve omgevingen, wat stap-voor-stap besluitvorming vereist op basis van de real-time status van de omgeving. Deze taak heeft een lagere tolerantie voor besluitvormingsfouten bij elke stap, aangezien eventuele fouten cumulatief het proces kunnen verstoren en mogelijk kunnen leiden tot onomkeerbare uitkomsten zoals verwijderingen of betalingen. Om deze problemen aan te pakken, introduceren we een pre-operatief criticusmechanisme dat effectieve feedback geeft vóór de daadwerkelijke uitvoering, door te redeneren over het potentiële resultaat en de juistheid van acties. Specifiek stellen we een Suggestion-aware Gradient Relative Policy Optimization (S-GRPO)-strategie voor om ons pre-operatieve criticusmodel GUI-Critic-R1 te construeren, waarbij een nieuwe suggestiebeloning wordt geïntegreerd om de betrouwbaarheid van de feedback van het model te vergroten. Bovendien ontwikkelen we een op redenering gebaseerde dataverzamelingspijplijn om een GUI-Critic-Train en een GUI-Critic-Test te creëren, waardoor bestaande lacunes in GUI-criticusdata worden opgevuld. Statische experimenten op de GUI-Critic-Test in zowel mobiele als webdomeinen laten zien dat onze GUI-Critic-R1 aanzienlijke voordelen biedt op het gebied van criticusnauwkeurigheid in vergelijking met huidige MLLMs. Dynamische evaluatie op een GUI-automatiseringsbenchmark benadrukt verder de effectiviteit en superioriteit van ons model, zoals blijkt uit verbeterde slagingspercentages en operationele efficiëntie.
Wij stellen Squeeze3D voor, een nieuw raamwerk dat gebruikmaakt van impliciete voorkennis die is geleerd door bestaande vooraf getrainde 3D-generatieve modellen om 3D-data te comprimeren met extreem hoge compressieverhoudingen. Onze aanpak verbindt de latente ruimtes tussen een vooraf getrainde encoder en een vooraf getraind generatiemodel via trainbare mapping-netwerken. Elk 3D-model dat wordt weergegeven als een mesh, puntenwolk of radiance field wordt eerst gecodeerd door de vooraf getrainde encoder en vervolgens getransformeerd (d.w.z. gecomprimeerd) naar een zeer compacte latente code. Deze latente code kan effectief worden gebruikt als een extreem gecomprimeerde representatie van de mesh of puntenwolk. Een mapping-netwerk transformeert de gecomprimeerde latente code naar de latente ruimte van een krachtig generatiemodel, dat vervolgens wordt geconditioneerd om het originele 3D-model te reconstrueren (d.w.z. decompressie). Squeeze3D wordt volledig getraind op gegenereerde synthetische data en vereist geen 3D-datasets. De Squeeze3D-architectuur kan flexibel worden gebruikt met bestaande vooraf getrainde 3D-encoders en bestaande generatieve modellen. Het kan flexibel verschillende formaten ondersteunen, waaronder meshes, puntenwolken en radiance fields. Onze experimenten tonen aan dat Squeeze3D compressieverhoudingen bereikt van tot 2187x voor textuurmeshes, 55x voor puntenwolken en 619x voor radiance fields, terwijl de visuele kwaliteit vergelijkbaar blijft met veel bestaande methoden. Squeeze3D veroorzaakt slechts een kleine compressie- en decompressielatentie, aangezien het geen object-specifieke netwerken traint om een object te comprimeren.
Large Language Models (LLMs) hebben opmerkelijke prestaties getoond in Open-Domain Question Answering (ODQA) door gebruik te maken van externe documenten via Retrieval-Augmented Generation (RAG). Om de overhead van RAG te verminderen, is contextcompressie noodzakelijk bij langere contexten. Eerdere compressiemethoden richten zich echter niet op het filteren van niet-bewijzende informatie, wat de prestaties van LLM-gebaseerde RAG beperkt. Daarom stellen we Evidentiality-guided RAG voor, ofwel het ECoRAG-framework. ECoRAG verbetert de prestaties van LLM's door opgehaalde documenten te comprimeren op basis van bewijskracht, waarbij wordt gegarandeerd dat de antwoordgeneratie wordt ondersteund door het juiste bewijs. Als aanvullende stap evalueert ECoRAG of de gecomprimeerde inhoud voldoende bewijs levert, en zo niet, wordt er meer opgehaald totdat dit wel het geval is. Experimenten tonen aan dat ECoRAG de prestaties van LLM's bij ODQA-taken verbetert en bestaande compressiemethoden overtreft. Bovendien is ECoRAG zeer kostenefficiënt, omdat het niet alleen de latentie vermindert, maar ook het tokengebruik minimaliseert door alleen de noodzakelijke informatie te behouden om het juiste antwoord te genereren. De code is beschikbaar op https://github.com/ldilab/ECoRAG.
Retrieval Augmented Generation (RAG) is een veelgebruikte aanpak om grote taalmmodellen (LLMs) te verrijken met relevante en actuele informatie. De opgehaalde bronnen kunnen echter vaak tegenstrijdige informatie bevatten, en het blijft onduidelijk hoe modellen dergelijke discrepanties moeten aanpakken. In dit werk stellen we eerst een nieuwe taxonomie voor van kennisconflicttypen in RAG, samen met het gewenste modelgedrag voor elk type. Vervolgens introduceren we CONFLICTS, een hoogwaardige benchmark met expertannotaties van conflicttypen in een realistische RAG-omgeving. CONFLICTS is de eerste benchmark die het mogelijk maakt om de voortgang te volgen in hoe modellen een breed scala aan kennisconflicten aanpakken. We voeren uitgebreide experimenten uit op deze benchmark, waaruit blijkt dat LLMs vaak moeite hebben om conflicten tussen bronnen op een gepaste manier op te lossen. Hoewel het aanmoedigen van LLMs om expliciet te redeneren over het potentiële conflict in de opgehaalde documenten de kwaliteit en geschiktheid van hun antwoorden aanzienlijk verbetert, blijft er aanzienlijke ruimte voor verbetering in toekomstig onderzoek.
De snelle vooruitgang van beeldgeneratietechnologieën verhoogt de vraag naar interpreteerbare en robuuste detectiemethoden. Hoewel bestaande benaderingen vaak een hoge nauwkeurigheid bereiken, functioneren ze meestal als black boxes zonder menselijk begrijpelijke rechtvaardigingen te bieden. Multi-modale Large Language Models (MLLMs), hoewel oorspronkelijk niet bedoeld voor vervalsingsdetectie, vertonen sterke analytische en redeneervaardigheden. Wanneer ze goed worden afgestemd, kunnen ze effectief AI-gegenereerde beelden identificeren en zinvolle verklaringen bieden. Bestaande MLLMs worstelen echter nog steeds met hallucinatie en slagen er vaak niet in hun visuele interpretaties af te stemmen op de werkelijke beeldinhoud en menselijk redeneren. Om deze kloof te overbruggen, construeren we een dataset van AI-gegenereerde beelden die zijn geannoteerd met begrenzingsvakken en beschrijvende bijschriften die synthese-artefacten benadrukken, waardoor een basis wordt gelegd voor menselijk-afgestemd visueel-tekstueel onderbouwd redeneren. Vervolgens stellen we MLLMs af via een meerfasige optimalisatiestrategie die de doelstellingen van nauwkeurige detectie, visuele lokalisatie en coherente tekstuele uitleg geleidelijk in balans brengt. Het resulterende model behaalt superieure prestaties in zowel het detecteren van AI-gegenereerde beelden als het lokaliseren van visuele gebreken, en overtreft baseline-methoden aanzienlijk.
Grote taalmodellen (LLMs) gebruiken data om over de wereld te leren, zodat ze zinvolle correlaties en voorspellingen kunnen produceren. Daarom hebben de aard, schaal, kwaliteit en diversiteit van de datasets die gebruikt worden om deze modellen te trainen, of om hun werk tijdens inferentie te ondersteunen, een directe invloed op hun kwaliteit. De snelle ontwikkeling en adoptie van LLMs van uiteenlopende kwaliteit heeft de schaarste aan publiek beschikbare, hoogwaardige trainingsdata onder de aandacht gebracht en een dringende behoefte blootgelegd om het beheer van deze datasets te verankeren in duurzame praktijken met duidelijke herkomstketens. Met dit doel voor ogen introduceert dit technische rapport Institutional Books 1.0, een grote collectie van boeken in het publieke domein die oorspronkelijk gedigitaliseerd zijn via de deelname van Harvard Library aan het Google Books-project, beginnend in 2006. In samenwerking met Harvard Library hebben we deze volumes geëxtraheerd, geanalyseerd en verwerkt tot een uitgebreid gedocumenteerde dataset van historische teksten. Deze analyse omvat de volledige collectie van Harvard Library die als onderdeel van dat project gescand is, oorspronkelijk bestaande uit 1.075.899 volumes geschreven in meer dan 250 verschillende talen, met in totaal ongeveer 250 miljard tokens. Als onderdeel van deze eerste release zijn de OCR-geëxtraheerde tekst (origineel en na verwerking) evenals de metadata (bibliografisch, bron en gegenereerd) van de 983.004 volumes, of 242 miljard tokens, die geïdentificeerd zijn als zijnde in het publieke domein, beschikbaar gemaakt. Dit rapport beschrijft de doelen en methoden van dit project, evenals de resultaten van de analyses die we hebben uitgevoerd, alles in dienst van het toegankelijker en gemakkelijker maken van deze historische collectie voor zowel mensen als machines om te filteren, te lezen en te gebruiken.
Het huidige paradigma van schaling tijdens testtijd is gebaseerd op het genereren van lange redeneersporen ("meer nadenken") voordat een antwoord wordt geproduceerd. Bij agentproblemen die interactie vereisen, kan dit worden gedaan door redeneersporen te genereren voordat er in de wereld wordt gehandeld. Dit proces staat echter niet toe dat agenten nieuwe informatie uit de omgeving verkrijgen of hun gedrag in de loop van de tijd aanpassen. In dit werk stellen we voor om de interactie tijdens testtijd te schalen, een onbenutte dimensie van schaling tijdens testtijd die de interactiehorizon van de agent vergroot om rijke gedragingen zoals exploratie, terugkeer en dynamische herplanning binnen een enkele rollout mogelijk te maken. Om de belofte van deze schalingsdimensie aan te tonen, bestuderen we het domein van webagents. We laten eerst zien dat zelfs interactieschaling op basis van prompting zonder enige training de taaksucces op webbenchmarks aanzienlijk kan verbeteren. Hierop voortbouwend introduceren we TTI (Test-Time Interaction), een curriculumgebaseerde online reinforcement learning (RL)-benadering die agenten traint door hun rollout-lengtes adaptief aan te passen. Met behulp van een Gemma 3 12B-model produceert TTI state-of-the-art open-source, open-data webagents op de WebVoyager- en WebArena-benchmarks. We laten verder zien dat TTI agenten in staat stelt om exploratie en exploitatie adaptief in balans te brengen. Onze resultaten vestigen interactieschaling als een krachtige, complementaire as naast het schalen van rekenkracht per stap, wat nieuwe mogelijkheden biedt voor het trainen van adaptieve agenten.
De parameter-efficiënte aanpassing van het beeld-tekst vooraf getrainde model CLIP voor video-tekst retrieval is een belangrijk onderzoeksgebied. Terwijl CLIP zich richt op beeldniveau visie-taal matching, vereist video-tekst retrieval een uitgebreid begrip op videoniveau. Drie belangrijke discrepanties komen naar voren bij de overgang van beeldniveau naar videoniveau: visie, taal en uitlijning. Bestaande methoden richten zich echter voornamelijk op visie, terwijl taal en uitlijning worden verwaarloosd. In dit artikel stellen we Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA) voor, dat gelijktijdig alle drie de discrepanties vermindert. Specifiek introduceren we Image-Video Features Fusion om beeldniveau en videoniveau kenmerken te integreren, waardoor zowel visie- als taaldiscrepanties effectief worden aangepakt. Daarnaast genereren we pseudo beeldbijschriften om fijnmazige beeldniveau uitlijning te leren. Om uitlijningsdiscrepanties te verminderen, stellen we Image-to-Video Alignment Distillation voor, dat kennis van beeldniveau uitlijning benut om videoniveau uitlijning te verbeteren. Uitgebreide experimenten tonen de superioriteit van onze DiscoVLA aan. In het bijzonder presteert DiscoVLA op MSRVTT met CLIP (ViT-B/16) 1,5% beter in R@1 dan eerdere methoden, met een eindscore van 50,5% R@1. De code is beschikbaar op https://github.com/LunarShen/DsicoVLA.
Recente ontwikkelingen in grote taalmodellen tonen veelbelovende mogelijkheden voor formeel redeneren. De meeste op LLM gebaseerde theoremaproeven zijn echter lange tijd beperkt geweest door de noodzaak van door experts geschreven formele statements als invoer, wat hun toepasbaarheid op real-world problemen uitgedrukt in natuurlijke taal beperkt. Wij pakken deze kloof aan met Mathesis, de eerste end-to-end theoremaproefpijplijn die informele probleemstellingen verwerkt. Het introduceert Mathesis-Autoformalizer, de eerste autoformalizer die reinforcement learning gebruikt om het formalisatievermogen van problemen in natuurlijke taal te verbeteren, ondersteund door ons nieuwe LeanScorer-framework voor genuanceerde kwaliteitsbeoordeling van formalisatie. Het stelt ook een Mathesis-Prover voor, die formele bewijzen genereert uit de geformaliseerde statements. Om de real-world toepasbaarheid van end-to-end formele theoremaproeven te evalueren, introduceren we Gaokao-Formal, een benchmark van 488 complexe problemen uit het nationale toelatingsexamen voor universiteiten in China. Onze aanpak is zorgvuldig ontworpen, met een grondige studie van elke component. Experimenten tonen de effectiviteit van Mathesis aan, waarbij de autoformalizer de beste baseline met 22% overtreft in slaagpercentage op Gaokao-Formal. Het volledige systeem overtreft andere modelcombinaties, met een nauwkeurigheid van 64% op MiniF2F met pass@32 en een state-of-the-art 18% op Gaokao-Formal.
Recente studies integreren Low-Rank Adaptation (LoRA) en Mixture-of-Experts (MoE) om de prestaties van parameter-efficiënte fine-tuningmethoden (PEFT) in toepassingen van Large Language Models (LLM) verder te verbeteren. Bestaande methoden gebruiken homogene MoE-LoRA-architecturen die bestaan uit LoRA-experts met vergelijkbare of identieke structuren en capaciteiten. Deze benaderingen hebben echter vaak last van representatiecollaps en onbalans in de belasting van experts, wat een negatieve invloed heeft op het potentieel van LLM's. Om deze uitdagingen aan te pakken, stellen we een heterogene Mixture-of-Adapters (MoA)-benadering voor. Deze methode integreert dynamisch PEFT-adapterexperts met diverse structuren, waarbij gebruik wordt gemaakt van hun complementaire representatiecapaciteiten om expertspecialisatie te bevorderen, waardoor de effectieve overdracht van vooraf getrainde kennis naar downstream taken wordt verbeterd. MoA ondersteunt twee varianten: (i) Soft MoA bereikt een fijnmazige integratie door een gewogen fusie van alle expertoutputs uit te voeren; (ii) Sparse MoA activeert adapterexperts spaarzaam op basis van hun bijdrage, wat wordt bereikt met verwaarloosbare prestatievermindering. Experimentele resultaten tonen aan dat heterogene MoA zowel in prestaties als parameter-efficiëntie beter presteert dan homogene MoE-LoRA-methoden. Ons project is beschikbaar op https://github.com/DCDmllm/MoA.
Recente ontwikkelingen in grote taalmodellen (LLMs) bieden veelbelovende mogelijkheden voor financiële toepassingen, maar introduceren tegelijkertijd kritieke uitdagingen op het gebied van nauwkeurigheid en naleving in Digitale Regelgevende Rapportage (DRR). Om deze problemen aan te pakken, stellen we RKEFino1 voor, een regelgevingskennis-versterkt financieel redeneermodel gebaseerd op Fino1, dat is afgestemd met domeinkennis uit XBRL, CDM en MOF. We formuleren twee QA-taken—kennisgebaseerd en wiskundig redeneren—en introduceren een nieuwe Numerieke NER-taak die financiële entiteiten in zowel zinnen als tabellen omvat. Experimentele resultaten tonen de effectiviteit en generalisatiecapaciteit van RKEFino1 aan in nalevingskritieke financiële taken. We hebben ons model vrijgegeven op Hugging Face.
Dit artikel introduceert MMRefine, een MultiModal Refinement benchmark die is ontworpen om de fijnregelingscapaciteiten van Multimodale Grote Taalmodellen (MLLMs) te evalueren. Naarmate de nadruk verschuift naar het verbeteren van redenering tijdens inferentie, biedt MMRefine een raamwerk dat de vaardigheden van MLLMs beoordeelt om fouten te detecteren en te corrigeren in zes verschillende scenario's, verdergaand dan alleen het vergelijken van de uiteindelijke nauwkeurigheid voor en na verfijning. Bovendien analyseert de benchmark de verfijningsprestaties door fouten in zes fouttypes te categoriseren. Experimenten met verschillende open en gesloten MLLMs onthullen knelpunten en factoren die de verfijningsprestaties belemmeren, en benadrukken gebieden voor verbetering in effectieve redeneringsverbetering. Onze code en dataset zijn openbaar beschikbaar op https://github.com/naver-ai/MMRefine.
Review-based Product Question Answering (PQA) stelt e-commerceplatforms in staat om klantvragen automatisch te beantwoorden door gebruik te maken van inzichten uit gebruikersrecensies. Bestaande PQA-systemen genereren echter antwoorden met slechts één perspectief, waardoor de diversiteit aan klantopvattingen niet wordt vastgelegd. In dit artikel introduceren we een nieuwe taak genaamd Quantitative Query-Focused Summarization (QQSUM), die als doel heeft om diverse klantopvattingen samen te vatten in representatieve Kernpunten (KPs) en hun prevalentie te kwantificeren om gebruikersvragen effectief te beantwoorden. Hoewel Retrieval-Augmented Generation (RAG) veelbelovend is voor PQA, voldoen de gegenereerde antwoorden nog steeds niet aan de volledige diversiteit van standpunten. Om deze uitdaging aan te pakken, gebruikt ons model QQSUM-RAG, dat RAG uitbreidt, few-shot learning om een KP-georiënteerde retriever en een KP-samenvattingsgenerator gezamenlijk te trainen, waardoor KP-gebaseerde samenvattingen mogelijk worden die diverse en representatieve opvattingen vastleggen. Experimentele resultaten tonen aan dat QQSUM-RAG superieure prestaties behaalt in vergelijking met state-of-the-art RAG-baselines, zowel wat betreft tekstuele kwaliteit als de nauwkeurigheid van opiniekwantificatie. Onze broncode is beschikbaar op: https://github.com/antangrocket1312/QQSUMM.