Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Visueel redeneren is een kerncomponent van menselijke intelligentie en een cruciale vaardigheid voor geavanceerde multimodale modellen. Toch baseren huidige evaluaties van multimodale grote taalmodellen (MLLMs) zich vaak op tekstbeschrijvingen en staan ze taalgebaseerde redeneersnelwegen toe, waardoor ze niet in staat zijn om echt visiegericht redeneren te meten. Om dit aan te pakken, introduceren we VisuLogic: een benchmark van 1.000 door mensen geverifieerde problemen in zes categorieën (bijv. kwantitatieve verschuivingen, ruimtelijke relaties, attribuutvergelijkingen). Deze verschillende soorten vragen kunnen worden geëvalueerd om de visuele redeneervaardigheden van MLLMs vanuit meerdere perspectieven te beoordelen. We evalueren toonaangevende MLLMs op deze benchmark en analyseren hun resultaten om veelvoorkomende foutmodi te identificeren. De meeste modellen scoren onder de 30% nauwkeurigheid – slechts iets boven de 25% willekeurige basislijn en ver onder de 51,4% die door mensen wordt behaald – wat significante tekortkomingen in visueel redeneren aan het licht brengt. Bovendien bieden we een aanvullende trainingsdataset en een reinforcement-learning basislijn om verdere vooruitgang te ondersteunen.
Hoe kosteneffectief kunnen sterke redeneervaardigheden worden bereikt in taalmodel- len? Gedreven door deze fundamentele vraag presenteren we Tina, een familie van kleine redeneermodellen die met hoge kostenefficiëntie zijn gerealiseerd. Opmerkelijk is dat Tina aantoont dat aanzienlijke redeneerprestaties kunnen worden ontwikkeld met slechts minimale middelen, door parameter-efficiënte updates toe te passen tijdens reinforcement learning (RL), met behulp van low-rank adaptation (LoRA), op een al klein basis- model van 1,5B parameters. Deze minimalistische aanpak produceert modellen die redeneerprestaties bereiken die concurrerend zijn met, en soms zelfs overtreffen, SOTA RL-redeneermodellen die op hetzelfde basismodel zijn gebouwd. Cruciaal is dat dit wordt bereikt tegen een fractie van de computationele kosten na de training die worden gebruikt door bestaande SOTA-modellen. Sterker nog, het beste Tina-model behaalt een >20\% verbetering in redeneerprestaties en 43,33\% Pass@1 nauwkeurigheid op AIME24, tegen slechts \$9 USD aan kosten na de training en evaluatie (d.w.z. een geschatte 260x kostenreductie). Ons werk onthult de verrassende effectiviteit van efficiënt RL-redeneren via LoRA. We valideren dit over meerdere open-source redeneerdatasets en diverse ablatiesettings, uitgaande van een enkele, vaste set hyperparameters. Bovendien hypotheseren we dat deze effectiviteit en efficiëntie voortkomen uit het feit dat LoRA het model snel aanpast aan de structurele vorm van redeneren die door RL wordt beloond, terwijl de onderliggende kennis van het basismodel grotendeels behouden blijft. In het belang van toegankelijkheid en open onderzoek maken we alle code, trainingslogs en modelgewichten \& checkpoints volledig open source.
In dit artikel introduceren we DreamID, een diffusiegebaseerd model voor gezichtsverwisseling dat een hoog niveau van ID-gelijkenis, attribuutbehoud, beeldkwaliteit en snelle inferentiesnelheid bereikt. In tegenstelling tot het typische trainingsproces voor gezichtsverwisseling, dat vaak afhankelijk is van impliciete supervisie en moeite heeft om bevredigende resultaten te behalen, stelt DreamID expliciete supervisie in voor gezichtsverwisseling door het construeren van Triplet ID Group data, wat de identiteitsgelijkenis en attribuutbehoud aanzienlijk verbetert. De iteratieve aard van diffusiemodellen vormt een uitdaging voor het gebruik van efficiënte beeldruimte-verliesfuncties, omdat het uitvoeren van tijdrovende multi-stap sampling om het gegenereerde beeld tijdens de training te verkrijgen onpraktisch is. Om dit probleem aan te pakken, maken we gebruik van het versnelde diffusiemodel SD Turbo, dat de inferentiestappen reduceert tot een enkele iteratie, waardoor efficiënte pixelgewijze end-to-end training met expliciete Triplet ID Group supervisie mogelijk wordt. Daarnaast stellen we een verbeterde diffusiegebaseerde modelarchitectuur voor, bestaande uit SwapNet, FaceNet en ID Adapter. Deze robuuste architectuur benut volledig de kracht van de expliciete supervisie van de Triplet ID Group. Tot slot passen we de Triplet ID Group data tijdens de training expliciet aan om specifieke attributen, zoals brillen en gezichtsvorm, te finetunen en te behouden. Uitgebreide experimenten tonen aan dat DreamID state-of-the-art methoden overtreft op het gebied van identiteitsgelijkenis, houding- en expressiebehoud, en beeldkwaliteit. Over het geheel genomen bereikt DreamID hoogwaardige resultaten voor gezichtsverwisseling bij een resolutie van 512*512 in slechts 0,6 seconden en presteert het uitstekend in uitdagende scenario's zoals complexe belichting, grote hoeken en occlusies.
We introduceren Trillion-7B, het meest token-efficiënte Koreaans-gerichte meertalige LLM dat beschikbaar is. Ons nieuwe Cross-lingual Document Attention (XLDA) mechanisme maakt zeer efficiënte en effectieve kennisoverdracht mogelijk van Engels naar doeltalen zoals Koreaans en Japans. In combinatie met geoptimaliseerde datamengsels, taal-specifieke filtering en maatwerk tokenizer-constructie, bereikt Trillion-7B een competitieve prestatieniveau terwijl slechts 10\% van zijn 2T trainings-tokens aan meertalige data wordt besteed en slechts 59.4K H100 GPU-uren (\$148K) nodig zijn voor volledige training. Uitgebreide evaluaties over 27 benchmarks in vier talen tonen de robuuste meertalige prestaties en uitzonderlijke cross-linguale consistentie van Trillion-7B aan.
We introduceren PHYBench, een nieuwe, hoogwaardige benchmark ontworpen voor het evalueren van de redeneervaardigheden van grote taalmodellen (LLMs) in fysische contexten. PHYBench bestaat uit 500 zorgvuldig samengestelde natuurkundeproblemen gebaseerd op realistische fysische scenario's, ontworpen om het vermogen van modellen te beoordelen om realistische fysische processen te begrijpen en te redeneren. De benchmark bestrijkt mechanica, elektromagnetisme, thermodynamica, optica, moderne natuurkunde en geavanceerde natuurkunde, met moeilijkheidsgraden variërend van middelbare schooloefeningen tot universitaire problemen en uitdagingen uit de Natuurkunde Olympiade. Daarnaast introduceren we de Expression Edit Distance (EED) Score, een nieuwe evaluatiemetriek gebaseerd op de bewerkingsafstand tussen wiskundige uitdrukkingen, die effectief verschillen in redeneerprocessen en resultaten van modellen vastlegt, verdergaand dan traditionele binaire scoringsmethoden. We evalueren verschillende LLMs op PHYBench en vergelijken hun prestaties met die van menselijke experts. Onze resultaten laten zien dat zelfs state-of-the-art redeneermodellen aanzienlijk achterblijven bij menselijke experts, wat hun beperkingen en de noodzaak voor verbetering in complexe fysische redeneerscenario's benadrukt. Onze benchmarkresultaten en dataset zijn publiekelijk beschikbaar op https://phybench-official.github.io/phybench-demo/.
Naarmate het vakgebied van representatieleren groeit, is er een toename van verschillende verliesfuncties om verschillende klassen van problemen op te lossen. Wij introduceren een enkele informatie-theoretische vergelijking die een grote verzameling moderne verliesfuncties in machine learning generaliseert. In het bijzonder introduceren we een raamwerk dat aantoont dat verschillende brede klassen van machine learning-methoden precies een geïntegreerde KL-divergentie tussen twee conditionele verdelingen minimaliseren: de superviserende en geleerde representaties. Dit perspectief onthult een verborgen informatiegeometrie die ten grondslag ligt aan clustering, spectrale methoden, dimensiereductie, contrastief leren en superviserend leren. Dit raamwerk maakt de ontwikkeling van nieuwe verliesfuncties mogelijk door succesvolle technieken uit de literatuur te combineren. We presenteren niet alleen een breed scala aan bewijzen, die meer dan 23 verschillende benaderingen met elkaar verbinden, maar we benutten deze theoretische resultaten ook om state-of-the-art ongeclassificeerde beeldclassificatoren te creëren die een verbetering van +8% bereiken ten opzichte van de vorige state-of-the-art op het gebied van ongeclassificeerde classificatie op ImageNet-1K. We tonen ook aan dat I-Con kan worden gebruikt om principiële debiasing-methoden af te leiden die contrastieve representatieleren verbeteren.
Recentelijk heeft uitgebreid onderzoek naar beeldaanpassing (bijv. identiteit, onderwerp, stijl, achtergrond, enz.) sterke aanpassingsmogelijkheden aangetoond in grootschalige generatieve modellen. De meeste benaderingen zijn echter ontworpen voor specifieke taken, wat hun generaliseerbaarheid beperkt om verschillende soorten voorwaarden te combineren. Het ontwikkelen van een uniform raamwerk voor beeldaanpassing blijft een open uitdaging. In dit artikel presenteren we DreamO, een raamwerk voor beeldaanpassing dat is ontworpen om een breed scala aan taken te ondersteunen en tegelijkertijd een naadloze integratie van meerdere voorwaarden mogelijk te maken. Specifiek maakt DreamO gebruik van een diffusie-transformer (DiT) raamwerk om invoer van verschillende typen uniform te verwerken. Tijdens de training construeren we een grootschalige trainingsdataset die verschillende aanpassingstaken omvat, en introduceren we een feature routing-beperking om het precieze opvragen van relevante informatie uit referentiebeelden te vergemakkelijken. Daarnaast ontwerpen we een placeholder-strategie die specifieke placeholders associeert met voorwaarden op bepaalde posities, waardoor controle over de plaatsing van voorwaarden in de gegenereerde resultaten mogelijk wordt. Bovendien gebruiken we een progressieve trainingsstrategie die bestaat uit drie fasen: een initiële fase gericht op eenvoudige taken met beperkte data om basisconsistentie te bereiken, een grootschalige trainingsfase om de aanpassingsmogelijkheden uitgebreid te verbeteren, en een laatste kwaliteitsafstemmingsfase om kwaliteitsvooroordelen te corrigeren die door data van lage kwaliteit zijn geïntroduceerd. Uitgebreide experimenten tonen aan dat de voorgestelde DreamO effectief verschillende beeldaanpassingstaken kan uitvoeren met hoge kwaliteit en flexibel verschillende soorten controlecondities kan integreren.
Dit artikel presenteert onze winnende inzending voor de AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competitie. Onze aanpak voor het bouwen van state-of-the-art modellen voor wiskundig redeneren steunt op drie belangrijke pijlers. Ten eerste creëren we een grootschalige dataset bestaande uit 540K unieke hoogwaardige wiskundige problemen, waaronder olympiadeniveau problemen, en hun 3.2M lange-redenering oplossingen. Ten tweede ontwikkelen we een nieuwe methode om code-uitvoering te integreren met lange-redenering modellen door middel van iteratieve training, generatie en kwaliteitsfiltering, wat resulteert in 1.7M hoogwaardige Tool-Integrated Reasoning oplossingen. Ten derde creëren we een pijplijn om modellen te trainen om de meest veelbelovende oplossing te selecteren uit vele kandidaten. We tonen aan dat dergelijke generatieve oplossingsselectie (GenSelect) aanzienlijk kan verbeteren ten opzichte van een meerderheidsstemming baseline. Door deze ideeën te combineren, trainen we een reeks modellen die state-of-the-art resultaten behalen op benchmarks voor wiskundig redeneren. Om verder onderzoek te faciliteren, maken we onze code, modellen en de volledige OpenMathReasoning dataset beschikbaar onder een commercieel toelaatbare licentie.
Direct Preference Optimization (DPO) vereenvoudigt reinforcement learning vanuit menselijke feedback (RLHF) voor grote taalmmodellen (LLMs) door menselijke voorkeuren direct te optimaliseren zonder een expliciet beloningsmodel. We ontdekken dat tijdens DPO-training het referentiemodel fungeert als een aanpasser van data-gewichten. Echter, de gangbare praktijk om het beleidsmodel en het referentiemodel identiek te initialiseren in DPO kan leiden tot inefficiënt data-gebruik en een plafond opleggen aan de prestaties. Tegelijkertijd vermindert het ontbreken van een referentiemodel in Simple Preference Optimization (SimPO) de robuustheid van de training en vereist het strengere voorwaarden om catastrofaal vergeten te voorkomen. In dit werk stellen we Pre-DPO voor, een eenvoudig maar effectief op DPO gebaseerd trainingsparadigma dat de prestaties van voorkeursoptimalisatie verbetert door gebruik te maken van een begeleidend referentiemodel. Dit referentiemodel biedt inzicht in de optimale beleidsstatus die bereikbaar is via de trainingsvoorkeursdata, en fungeert als een begeleidingsmechanisme dat adaptief hogere gewichten toekent aan samples die beter geschikt zijn voor het model en lagere gewichten aan minder geschikte samples. Uitgebreide experimenten op de AlpacaEval 2.0 en Arena-Hard v0.1 benchmarks tonen aan dat Pre-DPO consistent de prestaties van zowel DPO als SimPO verbetert, zonder afhankelijk te zijn van externe modellen of aanvullende data.
Contrastive Language-Image Pre-training (CLIP) heeft succes behaald bij meerdere downstream taken door beeld- en tekstmodaliteiten uit te lijnen. Echter, de aard van globaal contrastief leren beperkt CLIP's vermogen om compositionele concepten, zoals relaties en attributen, te begrijpen. Hoewel recente studies globale harde negatieve voorbeelden gebruiken om compositioneel begrip te verbeteren, gaan deze methoden ten koste van de inherente algemene capaciteiten van het model door tekstuele negatieve voorbeelden geforceerd te verwijderen van beelden in de embeddingruimte. Om deze beperking te overwinnen, introduceren we een Decoupled Global-Local Alignment (DeGLA) framework dat compositioneel begrip verbetert terwijl het verlies aan algemene capaciteiten aanzienlijk vermindert. Om het behoud van de inherente capaciteiten van het model te optimaliseren, integreren we een zelf-distillatiemechanisme binnen het globale uitlijningsproces, waarbij de leerbare beeld-tekst encoder wordt uitgelijnd met een bevroren leraarmodel afgeleid van een exponentieel voortschrijdend gemiddelde. Onder de beperking van zelf-distillatie wordt het catastrofale vergeten van vooraf getrainde kennis tijdens fine-tuning effectief gemitigeerd. Om compositioneel begrip te verbeteren, benutten we eerst de in-context leercapaciteit van Large Language Models (LLMs) om ongeveer 2M hoogwaardige negatieve bijschriften te construeren over vijf typen. Vervolgens stellen we de Image-Grounded Contrast (IGC) loss en Text-Grounded Contrast (TGC) loss voor om visie-taal compositioneel te versterken. Uitgebreide experimentele resultaten demonstreren de effectiviteit van het DeGLA framework. Vergeleken met eerdere state-of-the-art methoden, behaalt DeGLA een gemiddelde verbetering van 3,5% over de VALSE, SugarCrepe en ARO benchmarks. Tegelijkertijd behaalt het een gemiddelde prestatieverbetering van 13,0% op zero-shot classificatietaken over elf datasets. Onze code zal worden vrijgegeven op https://github.com/xiaoxing2001/DeGLA.
De opmerkelijke successen van Large Language Models (LLMs) hebben een veelbelovend pad verlicht naar het bereiken van Artificial General Intelligence (AGI) voor zowel academische als industriële gemeenschappen, dankzij hun ongekende prestaties in diverse toepassingen. Naarmate LLMs steeds meer aanzien krijgen in zowel onderzoeks- als commerciële domeinen, zijn de veiligheids- en beveiligingsimplicaties ervan een groeiende zorg geworden, niet alleen voor onderzoekers en bedrijven, maar ook voor elke natie. Momenteel richten bestaande overzichten over LLM-veiligheid zich voornamelijk op specifieke fasen van de LLM-levenscyclus, zoals de implementatiefase of de fine-tuningfase, waardoor een uitgebreid begrip van de volledige "levensketen" van LLMs ontbreekt. Om deze kloof te dichten, introduceert dit artikel voor het eerst het concept van "full-stack" veiligheid om veiligheidskwesties systematisch te overwegen gedurende het hele proces van LLM-training, implementatie en uiteindelijke commercialisering. Vergeleken met standaard LLM-veiligheidsrapporten toont ons werk verschillende onderscheidende voordelen: (I) Uitgebreid Perspectief. We definiëren de volledige LLM-levenscyclus als het omvatten van data-voorbereiding, pre-training, post-training, implementatie en uiteindelijke commercialisering. Voor zover wij weten, is dit het eerste veiligheidsrapport dat de volledige levenscyclus van LLMs omvat. (II) Uitgebreide Literatuurondersteuning. Ons onderzoek is gebaseerd op een uitgebreide review van meer dan 800+ papers, wat zorgt voor een uitgebreide dekking en systematische organisatie van beveiligingskwesties binnen een meer holistisch begrip. (III) Unieke Inzichten. Door systematische literatuuranalyse hebben we betrouwbare routekaarten en perspectieven ontwikkeld voor elk hoofdstuk. Ons werk identificeert veelbelovende onderzoeksrichtingen, waaronder veiligheid in data-generatie, alignment-technieken, modelbewerking en LLM-gebaseerde agentsystemen. Deze inzichten bieden waardevolle richtlijnen voor onderzoekers die toekomstig werk op dit gebied nastreven.
Onlangs heeft DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) zijn uitstekende redeneervermogen aangetoond in complexe taken en heeft het zijn methodologie openbaar gemaakt. Dit biedt potentieel hoogwaardige chain-of-thought (CoT)-gegevens voor het stimuleren van de redeneervermogens van kleine grote taalmodellen (LLM's). Om hoogwaardige CoT-gegevens te genereren voor verschillende LLM's, zoeken we naar een efficiënte methode voor het genereren van hoogwaardige CoT-gegevens met LLM-Adaptieve vraagmoeilijkheidsniveaus. Ten eerste beoordelen we de moeilijkheid van de vragen op basis van het redeneervermogen van de LLM's zelf en construeren we een LLM-Adaptieve vraagdatabase. Ten tweede nemen we een steekproef uit de probleemdatabase op basis van een verdeling van de moeilijkheidsniveaus van de vragen en gebruiken we vervolgens DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) om de corresponderende hoogwaardige CoT-gegevens met correcte antwoorden te genereren. Dankzij de constructie van CoT-gegevens met LLM-Adaptieve moeilijkheidsniveaus hebben we de kosten van gegevensgeneratie aanzienlijk verlaagd en de efficiëntie van model supervised fine-tuning (SFT) verbeterd. Tot slot hebben we de effectiviteit en generaliseerbaarheid van de voorgestelde methode gevalideerd op het gebied van complexe wiskundige wedstrijden en codegeneratietaken. Opmerkelijk is dat met slechts 2k hoogwaardige wiskundige CoT-gegevens, onze ZMath-32B DeepSeek-Distill-32B overtreft in wiskundige redeneertaken. Evenzo overtreft onze ZCode-32B met slechts 2k hoogwaardige code CoT-gegevens DeepSeek-Distill-32B in coderedeneertaken.
Omdat data-annotatie kostbaar is, nemen benchmarkdatasets vaak labels over van gevestigde beelddatasets. In dit werk evalueren we de impact van labelfouten in MSCOCO op het veelgebruikte benchmark voor objecthallucinatie, POPE. We herannoteren de benchmarkafbeeldingen en identificeren een onbalans in annotatiefouten tussen verschillende subsets. Door meerdere modellen te evalueren op de herziene labels, die we aanduiden als RePOPE, observeren we opmerkelijke verschuivingen in modelrangschikkingen, wat het belang van labelkwaliteit onderstreept. Code en data zijn beschikbaar op https://github.com/YanNeu/RePOPE.
Causale analyse speelt een fundamentele rol in wetenschappelijke ontdekkingen en betrouwbare besluitvorming, maar blijft grotendeels ontoegankelijk voor domeinexperts vanwege de conceptuele en algoritmische complexiteit. Deze kloof tussen causale methodologie en praktische bruikbaarheid vormt een dubbele uitdaging: domeinexperts kunnen geen gebruik maken van recente vooruitgang in causaal leren, terwijl causale onderzoekers brede, real-world implementaties missen om hun methoden te testen en te verfijnen. Om dit aan te pakken, introduceren we Causal-Copilot, een autonome agent die expertniveau causale analyse operationaliseert binnen een framework van grote taalmodellen. Causal-Copilot automatiseert de volledige pijplijn van causale analyse voor zowel tabelgegevens als tijdreeksgegevens – inclusief causale ontdekking, causale inferentie, algoritmeselectie, hyperparameteroptimalisatie, resultaatinterpretatie en het genereren van actiegerichte inzichten. Het ondersteunt interactieve verfijning via natuurlijke taal, waardoor de drempel voor niet-specialisten wordt verlaagd terwijl methodologische strengheid behouden blijft. Door meer dan 20 state-of-the-art causale analysetechnieken te integreren, bevordert ons systeem een vicieuze cirkel – het vergroot de toegang tot geavanceerde causale methoden voor domeinexperts terwijl het rijke, real-world toepassingen genereert die de causale theorie informeren en vooruithelpen. Empirische evaluaties tonen aan dat Causal-Copilot superieure prestaties bereikt in vergelijking met bestaande baselines, en biedt een betrouwbare, schaalbare en uitbreidbare oplossing die de kloof overbrugt tussen theoretische verfijning en real-world toepasbaarheid in causale analyse. Een live interactieve demo van Causal-Copilot is beschikbaar op https://causalcopilot.com/.
C-naar-Rust transpilatie is essentieel voor het moderniseren van verouderde C-code terwijl de veiligheid en interoperabiliteit met moderne Rust-ecosystemen wordt verbeterd. Er bestaat echter momenteel geen dataset om te evalueren of een systeem C kan transpileren naar veilige Rust die een reeks testgevallen doorstaat. Wij introduceren CRUST-Bench, een dataset van 100 C-repositories, elk gekoppeld aan handmatig geschreven interfaces in veilige Rust, evenals testgevallen die kunnen worden gebruikt om de correctheid van de transpilatie te valideren. Door hele repositories te beschouwen in plaats van geïsoleerde functies, vangt CRUST-Bench de uitdagingen van het vertalen van complexe projecten met afhankelijkheden over meerdere bestanden. De geleverde Rust-interfaces bieden expliciete specificaties die zorgen voor naleving van idiomatische, geheugenveilige Rust-patronen, terwijl de bijbehorende testgevallen functionele correctheid afdwingen. Wij evalueren state-of-the-art grote taalmodellen (LLMs) voor deze taak en concluderen dat het genereren van veilige en idiomatische Rust nog steeds een uitdagend probleem is voor verschillende state-of-the-art methoden en technieken. We bieden ook inzichten in de fouten die LLMs meestal maken bij het transpileren van code van C naar veilige Rust. Het best presterende model, OpenAI o1, is in staat slechts 15 taken op te lossen in een single-shot setting. Verbeteringen op CRUST-Bench zouden leiden tot verbeterde transpilatiesystemen die kunnen redeneren over complexe scenario's en helpen bij het migreren van verouderde codebases van C naar talen zoals Rust die geheugenveiligheid garanderen. U kunt de dataset en code vinden op https://github.com/anirudhkhatry/CRUST-bench.
Selectievakjes zijn cruciaal in de verwerking van documenten in de praktijk, waar de aanwezigheid of afwezigheid van vinkjes direct van invloed is op gegevensextractie en besluitvormingsprocessen. Desondanks hebben grote visuele en taalmodelen, ondanks hun sterke prestaties op een breed scala aan taken, moeite met het interpreteren van aankruisbare inhoud. Deze uitdaging wordt vooral urgent in sectoren waar een enkel over het hoofd gezien selectievakje kan leiden tot kostbare regelgevende of contractuele fouten. Om dit gat te dichten, introduceren we de CheckboxQA-dataset, een gerichte bron die is ontworpen om de prestaties van modellen op taken gerelateerd aan selectievakjes te evalueren en te verbeteren. Het onthult de beperkingen van huidige modellen en dient als een waardevol hulpmiddel voor het bevorderen van documentbegripsystemen, met aanzienlijke implicaties voor toepassingen in sectoren zoals juridische technologie en financiën. De dataset is publiekelijk beschikbaar op: https://github.com/Snowflake-Labs/CheckboxQA
Multi-task visuele grounding (MTVG) omvat twee sub-taken, namelijk Referring Expression Comprehension (REC) en Referring Expression Segmentation (RES). De bestaande representatieve benaderingen volgen over het algemeen de onderzoekspijplijn die voornamelijk bestaat uit drie kernprocedures, waaronder onafhankelijke feature-extractie voor respectievelijk visuele en linguïstische modaliteiten, een cross-modale interactiemodule, en onafhankelijke voorspellingskoppen voor verschillende sub-taken. Hoewel deze onderzoekslijn opmerkelijke prestaties behaalt, heeft het twee beperkingen: 1) De linguïstische inhoud is niet volledig geïnjecteerd in de gehele visuele backbone om effectievere visuele feature-extractie te bevorderen en het vereist een extra cross-modale interactiemodule; 2) De relatie tussen REC- en RES-taken wordt niet effectief benut om de collaboratieve voorspelling voor een nauwkeurigere output te ondersteunen. Om deze problemen aan te pakken, stellen we in dit artikel een Progressive Language-guided Visual Learning-framework voor multi-task visuele grounding voor, genaamd PLVL, dat niet alleen de inherente feature-expressie van de visuele modaliteit zelf fijnmijnt, maar ook progressief taalinformatie injecteert om linguïstisch-gerelateerde visuele features te helpen leren. Op deze manier heeft onze PLVL geen extra cross-modale fusiemodule nodig terwijl de taalbegeleiding volledig wordt geïntroduceerd. Verder analyseren we dat het lokalisatiecentrum voor REC in zekere mate zou helpen bij het identificeren van het te segmenteren objectgebied voor RES. Geïnspireerd door dit onderzoek ontwerpen we een multi-task kop om collaboratieve voorspellingen voor deze twee sub-taken te realiseren. Uitgebreide experimenten uitgevoerd op verschillende benchmark-datasets ondersteunen uitgebreid dat onze PLVL duidelijk beter presteert dan de representatieve methoden in zowel REC- als RES-taken. https://github.com/jcwang0602/PLVL