Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren InternVL 3.5, een nieuwe familie van open-source multimodale modellen die een aanzienlijke vooruitgang boeken op het gebied van veelzijdigheid, redeneervermogen en inferentie-efficiëntie binnen de InternVL-serie. Een belangrijke innovatie is het Cascade Reinforcement Learning (Cascade RL) framework, dat het redeneervermogen verbetert via een tweestapsproces: offline RL voor stabiele convergentie en online RL voor verfijnde afstemming. Deze coarse-to-fine trainingsstrategie leidt tot aanzienlijke verbeteringen op downstream redeneertaken, zoals MMMU en MathVista. Om de efficiëntie te optimaliseren, stellen we een Visual Resolution Router (ViR) voor die dynamisch de resolutie van visuele tokens aanpast zonder de prestaties te compromitteren. In combinatie met ViR scheidt onze Decoupled Vision-Language Deployment (DvD)-strategie de vision-encoder en het taalmodel over verschillende GPU's, waardoor de rekenlast effectief wordt verdeeld. Deze bijdragen zorgen er gezamenlijk voor dat InternVL3.5 een verbetering van tot wel +16,0% in het algehele redeneervermogen en een 4,05-voudige versnelling van de inferentie bereikt in vergelijking met zijn voorganger, InternVL3. Daarnaast ondersteunt InternVL3.5 nieuwe mogelijkheden zoals GUI-interactie en embodied agency. Opmerkelijk is dat ons grootste model, InternVL3.5-241B-A28B, state-of-the-art resultaten behaalt onder open-source MLLM's voor algemene multimodale, redeneer-, tekst- en agenttaken, waardoor de prestatiekloof met toonaangevende commerciële modellen zoals GPT-5 wordt verkleind. Alle modellen en code zijn openbaar vrijgegeven.
Ondanks de veelbelovende vooruitgang van recente autoregressieve modellen in tekst-naar-beeld (T2I) generatie, blijft hun vermogen om multi-attribuut en dubbelzinnige prompts te verwerken beperkt. Om deze beperkingen aan te pakken, hebben bestaande werken chain-of-thought (CoT) toegepast om fasebewuste visuele synthese mogelijk te maken en reinforcement learning (RL) ingezet om redeneervaardigheden te verbeteren. De meeste modellen bieden echter alleen beloningssignalen aan het einde van de generatiefase. Deze monolithische eindbegeleiding maakt het moeilijk om te identificeren welke fasen positief bijdragen aan het eindresultaat en kan leiden tot suboptimale beleidskeuzes. Om dit probleem aan te pakken, stellen we een Visual-Chain of Guidance (Visual-CoG) paradigma voor, bestaande uit drie fasen: semantisch redeneren, procesverfijning en uitkomstbeoordeling, waarbij fasebewuste beloningen directe begeleiding bieden gedurende de beeldgeneratiepijplijn. We construeren verder een visueel cognitiebenchmark, VisCog-Bench, dat vier subtaken omvat om de effectiviteit van semantisch redeneren te evalueren. Uitgebreide evaluaties op GenEval, T2I-CompBench en de voorgestelde VisCog-Bench laten verbeteringen zien van respectievelijk 15%, 5% en 19%, wat de superieure prestaties van het voorgestelde Visual-CoG aantoont. We zullen alle bronnen binnenkort vrijgeven.
We presenteren Hermes 4, een familie van hybride redeneermodellen die gestructureerd, meerfasig redeneren combineren met brede instructievolgcapaciteit. We beschrijven de uitdagingen die zich voordeden tijdens de datacuratie, synthese, training en evaluatie, en schetsen de oplossingen die op grote schaal zijn ingezet om deze uitdagingen aan te pakken. We evalueren uitgebreid op benchmarks voor wiskundig redeneren, programmeren, kennis, begrip en afstemming, en rapporteren zowel kwantitatieve prestaties als kwalitatieve gedragsanalyses. Om open onderzoek te ondersteunen, zijn alle modelgewichten openbaar gepubliceerd op https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728.
Text-naar-3D-generatiebenaderingen hebben aanzienlijke vooruitgang geboekt door gebruik te maken van vooraf getrainde 2D-diffusieprioriteiten, wat hoogwaardige en 3D-consistente resultaten oplevert. Ze slagen er echter vaak niet in om out-of-domain (OOD) of zeldzame concepten te produceren, wat resulteert in inconsistente of onnauwkeurige uitkomsten. Daarom stellen we MV-RAG voor, een nieuwe text-naar-3D-pipeline die eerst relevante 2D-afbeeldingen ophaalt uit een grote 2D-database in het wild en vervolgens een multiview-diffusiemodel conditioneert op deze afbeeldingen om consistente en nauwkeurige multiview-uitkomsten te synthetiseren. Het trainen van zo'n retrieval-geconditioneerd model wordt bereikt via een nieuwe hybride strategie die gestructureerde multiview-data en diverse 2D-afbeeldingscollecties overbrugt. Dit omvat training op multiview-data met behulp van geaugmenteerde conditioneringsviews die retrieval-variantie simuleren voor viewspecifieke reconstructie, naast training op sets van opgehaalde real-world 2D-afbeeldingen met behulp van een onderscheidend held-out-view-voorspellingsdoel: het model voorspelt de held-out-view vanuit de andere views om 3D-consistentie af te leiden uit 2D-data. Om een rigoureuze OOD-evaluatie mogelijk te maken, introduceren we een nieuwe verzameling uitdagende OOD-prompts. Experimenten in vergelijking met state-of-the-art text-naar-3D, image-naar-3D en personalisatie-baselines tonen aan dat onze aanpak de 3D-consistentie, fotorealisme en tekstnaleving voor OOD/zeldzame concepten aanzienlijk verbetert, terwijl competitieve prestaties op standaardbenchmarks worden behouden.
We onderzoeken waarom Tool-Integrated Reasoning (TIR) Large Language Models (LLMs) bekwaamer maakt. Hoewel LLMs die geïntegreerd zijn met tools zoals Python-code-interpreters veelbelovend zijn, ontbrak tot nu toe een principieel theorie die verklaart waarom dit paradigma effectief is. Dit werk biedt het eerste formele bewijs dat TIR de mogelijkheden van een LLM fundamenteel uitbreidt. We tonen aan dat tools een strikte uitbreiding mogelijk maken van het empirische en haalbare ondersteuningsbereik van het model, waardoor het plafond van pure-tekstmodellen wordt doorbroken door probleemoplossende strategieën mogelijk te maken die anders onmogelijk of onhandelbaar omslachtig zouden zijn. Om het modelgedrag te sturen zonder de trainingsstabiliteit en prestaties in gevaar te brengen, introduceren we ook Advantage Shaping Policy Optimization (ASPO), een nieuw algoritme dat de advantage-functie direct aanpast om het beleidsgedrag te sturen. We voeren uitgebreide experimenten uit op uitdagende wiskundige benchmarks, waarbij we een Python-interpreter als externe tool gebruiken. Onze resultaten laten zien dat het TIR-model beslissend beter presteert dan zijn pure-tekst-tegenhanger op de pass@k-metric. Cruciaal is dat dit voordeel niet beperkt blijft tot rekenintensieve problemen, maar zich ook uitstrekt tot problemen die aanzienlijk abstract inzicht vereisen. We identificeren verder de opkomende cognitieve patronen die illustreren hoe modellen leren denken met tools. Ten slotte rapporteren we verbeterd toolgebruiksgedrag met vroege code-aanroeping en veel interactievere beurten met ASPO. Over het geheel genomen biedt ons werk de eerste principiële verklaring voor het succes van TIR, waarbij de focus verschuift van het loutere feit dat tools werken naar waarom en hoe ze krachtiger redeneren mogelijk maken.
Redeneren is een kernvaardigheid van grote taalmodellen, maar het begrijpen van hoe ze leren en meerstaps redeneren uitvoeren, blijft een open probleem. In deze studie onderzoeken we hoe verschillende architecturen en trainingsmethoden de meerstaps redeneervaardigheden van modellen beïnvloeden binnen een raamwerk van cellulaire automaten. Door te trainen op toestandssequenties die gegenereerd zijn met willekeurige Booleaanse functies voor willekeurige begincondities om memorisering uit te sluiten, tonen we aan dat de meeste neurale architecturen leren om de onderliggende regels te abstraheren. Hoewel modellen een hoge nauwkeurigheid bereiken in het voorspellen van de volgende toestand, neemt hun prestatie sterk af als meerstaps redeneren vereist is. We bevestigen dat het vergroten van de modeldiepte een cruciale rol speelt voor sequentiële berekeningen. We demonstreren dat een uitbreiding van de effectieve modeldiepte met recurrentie, geheugen en schaling van rekentijd tijdens het testen de redeneervaardigheden aanzienlijk verbetert.
Wij stellen T2I-ReasonBench voor, een benchmark die de redeneervaardigheden van tekst-naar-beeld (T2I) modellen evalueert. Deze bestaat uit vier dimensies: Idiominterpretatie, Tekstuele Beeldontwerp, Entiteit-Redenering en Wetenschappelijke Redenering. Wij introduceren een tweestaps evaluatieprotocol om de redeneernauwkeurigheid en beeldkwaliteit te beoordelen. Wij testen diverse T2I-generatiemodellen en bieden een uitgebreide analyse van hun prestaties.
Vision-Language Models (VLMs) tonen indrukwekkende prestaties in het begrijpen van visuele inhoud met taal instructies door visuele invoer om te zetten in visuele tokens. Echter, redundantie in visuele tokens leidt tot een verminderde inferentie-efficiëntie van VLMs. Hoewel veel algoritmen zijn voorgesteld om het aantal visuele tokens te verminderen, maken de meeste alleen gebruik van unimodale informatie (d.w.z. visueel/text) voor het snoeien en negeren ze de inherente multimodale eigenschap van visie-taal taken. Bovendien ontbreekt een generiek criterium dat kan worden toegepast op verschillende modaliteiten. Om deze beperking te verhelpen, stellen we in dit werk voor om zowel visuele als teksttokens te gebruiken om informatieve visuele tokens te selecteren op basis van het criterium van dekking. We formuleren eerst het subsetselectieprobleem als een maximal coverage probleem. Vervolgens wordt een subset van visuele tokens geoptimaliseerd om zowel de teksttokens als de originele set visuele tokens tegelijkertijd te dekken. Ten slotte kan een VLM-agent worden ingezet om de kwaliteit van teksttokens verder te verbeteren voor het begeleiden van visueel snoeien. De voorgestelde methode MMTok wordt uitgebreid geëvalueerd op benchmark datasets met verschillende VLMs. De vergelijking laat zien dat visuele en tekstuele informatie complementair zijn, en het combineren van multimodale informatie kan de unimodale baseline met een duidelijke marge overtreffen. Bovendien behaalt onze methode onder het maximal coverage criterium op de POPE dataset een versnelling van 1,87x terwijl 98,7% van de originele prestatie op LLaVA-NeXT-13B behouden blijft. Verder behoudt het met slechts vier visuele tokens nog steeds 87,7% van de originele prestatie op LLaVA-1.5-7B. Deze resultaten benadrukken de effectiviteit van dekking in tokenselectie.
Recente ontwikkelingen in Large Language Models (LLMs) hebben het potentieel van Reinforcement Learning (RL) benadrukt om het ontstaan van redeneervaardigheden te faciliteren. Ondanks de bemoedigende resultaten blijft een fundamenteel dilemma bestaan, aangezien RL-verbetering afhankelijk is van leren van hoogwaardige voorbeelden, terwijl de exploratie van dergelijke voorbeelden beperkt blijft door de inherente beperkingen van LLMs. Dit creëert in feite een ongewenste cyclus waarin wat niet verkend kan worden, ook niet geleerd kan worden. In dit werk stellen we Rubric-Scaffolded Reinforcement Learning (RuscaRL) voor, een nieuw instructioneel steigersysteem ontworpen om de exploratiebottleneck voor algemeen LLM-redeneren te doorbreken. Specifiek introduceert RuscaRL checklist-stijl rubrics als (1) expliciete steigers voor exploratie tijdens het genereren van rollouts, waarbij verschillende rubrics worden aangeboden als externe begeleiding binnen taakinstructies om diverse hoogwaardige reacties te sturen. Deze begeleiding wordt geleidelijk afgebouwd, waardoor het model wordt aangemoedigd de onderliggende redeneerpatronen te internaliseren; (2) verifieerbare beloningen voor exploitatie tijdens modeltraining, waarbij we robuuste LLM-as-a-Judge-scores kunnen verkrijgen door rubrics als referentie te gebruiken, wat effectieve RL op algemene redeneertaken mogelijk maakt. Uitgebreide experimenten tonen de superioriteit van het voorgestelde RuscaRL aan over verschillende benchmarks, waarbij de redeneergrenzen effectief worden uitgebreid onder de best-of-N-evaluatie. Opmerkelijk is dat RuscaRL Qwen-2.5-7B-Instruct aanzienlijk verbetert van 23.6 naar 50.3 op HealthBench-500, wat GPT-4.1 overtreft. Bovendien behaalt onze fijn afgestelde variant op Qwen3-30B-A3B-Instruct een score van 61.1 op HealthBench-500, wat toonaangevende LLMs, waaronder OpenAI-o3, overtreft.
Multi-agent systemen gebouwd op grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond bij het aanpakken van complexe compositionele taken. In dit werk passen we dit paradigma toe op het probleem van paper-naar-poster generatie, een praktisch maar tijdrovend proces waar onderzoekers mee te maken hebben bij de voorbereiding van conferenties. Hoewel recente benaderingen hebben geprobeerd deze taak te automatiseren, negeren de meeste kernontwerp- en esthetische principes, wat resulteert in posters die aanzienlijke handmatige verfijning vereisen. Om deze ontwerpbeperkingen aan te pakken, stellen we PosterGen voor, een multi-agent raamwerk dat de werkwijze van professionele posterontwerpers nabootst. Het bestaat uit vier samenwerkende gespecialiseerde agents: (1) Parser en Curator agents extraheren inhoud uit het paper en organiseren het storyboard; (2) Layout agent ordent de inhoud in een samenhangende ruimtelijke lay-out; (3) Stylist agents passen visuele ontwerpelementen toe zoals kleur en typografie; en (4) Renderer stelt de uiteindelijke poster samen. Samen produceren deze agents posters die zowel semantisch onderbouwd als visueel aantrekkelijk zijn. Om de ontwerpkwaliteit te evalueren, introduceren we een rubric gebaseerd op een vision-language model (VLM) die lay-outbalans, leesbaarheid en esthetische samenhang meet. Experimentele resultaten tonen aan dat PosterGen consistent overeenkomt in inhoudelijke trouw, en aanzienlijk beter presteert dan bestaande methoden in visueel ontwerp, waarbij het posters genereert die presentatieklaar zijn met minimale menselijke verfijningen.
Benchmarks sturen de vooruitgang in AI-onderzoek. Een nuttige benchmark moet zowel uitdagend als realistisch zijn: vragen moeten grensverleggende modellen testen en tegelijkertijd realistisch gebruik weerspiegelen. Toch kampen huidige paradigma's met een spanning tussen moeilijkheid en realisme: examenstijlbenchmarks zijn vaak kunstmatig moeilijk gemaakt met beperkte waarde in de praktijk, terwijl benchmarks gebaseerd op echte gebruikersinteracties vaak neigen naar eenvoudige, veelvoorkomende problemen. In dit werk verkennen we een radicaal ander paradigma: het beoordelen van modellen op onopgeloste vragen. In plaats van een statische benchmark die eenmaal wordt gescoord, cureren we onopgeloste vragen en evalueren we modellen asynchroon in de tijd met validator-ondersteunde screening en gemeenschapsverificatie. We introduceren UQ, een testomgeving van 500 uitdagende, diverse vragen afkomstig van Stack Exchange, die onderwerpen beslaan van CS-theorie en wiskunde tot sci-fi en geschiedenis, en die vaardigheden onderzoeken zoals redeneren, feitelijkheid en browsen. UQ is per definitie moeilijk en realistisch: onopgeloste vragen zijn vaak lastig en ontstaan van nature wanneer mensen antwoorden zoeken, waardoor het oplossen ervan directe waarde in de praktijk oplevert. Onze bijdragen zijn drievoudig: (1) UQ-Dataset en de verzamelpijplijn die regelgebaseerde filters, LLM-beoordelaars en menselijke beoordeling combineert om de kwaliteit van vragen te waarborgen (bijvoorbeeld goed gedefinieerd en moeilijk); (2) UQ-Validators, samengestelde validatiestrategieën die gebruikmaken van de kloof tussen generator en validator om evaluatiesignalen te leveren en kandidaatoplossingen voor te screenen voor menselijke beoordeling; en (3) UQ-Platform, een open platform waar experts gezamenlijk vragen en oplossingen verifiëren. Het beste model slaagt voor UQ-validatie op slechts 15% van de vragen, en voorlopige menselijke verificatie heeft al correcte antwoorden geïdentificeerd onder degenen die slaagden. UQ wijst de weg naar het evalueren van grensverleggende modellen op realistische, open uitdagingen, waarbij succes de grenzen van menselijke kennis verlegt. We maken UQ beschikbaar op https://uq.stanford.edu.
Spraaktokenizers vormen de fundamentele bouwstenen voor spraaktaalmodellen, maar huidige ontwerpen vertonen verschillende beperkingen, waaronder: 1) afhankelijkheid van meerlaagse restvectorkwantiseringsstructuren of hoge framesnelheden, 2) afhankelijkheid van hulpmodellen die vooraf zijn getraind voor semantische distillatie, en 3) vereisten voor complexe tweefasige trainingsprocessen. In dit werk introduceren we de Text-aware Diffusion Transformer Speech Codec (TaDiCodec), een nieuwe aanpak die ontworpen is om deze uitdagingen te overwinnen. TaDiCodec maakt gebruik van end-to-end optimalisatie voor kwantisering en reconstructie via een diffusie-autoencoder, terwijl tekstbegeleiding wordt geïntegreerd in de diffusiedecoder om de reconstructiekwaliteit te verbeteren en optimale compressie te bereiken. TaDiCodec bereikt een extreem lage framesnelheid van 6,25 Hz en een bijbehorende bitrate van 0,0875 kbps met een enkelelaagscodeboek voor 24 kHz spraak, terwijl het superieure prestaties behoudt op kritieke evaluatiemetrics voor spraakgeneratie, zoals Word Error Rate (WER), sprekersgelijkenis (SIM) en spraakkwaliteit (UTMOS). Opmerkelijk is dat TaDiCodec een eenfasig, end-to-end trainingsparadigma gebruikt en de noodzaak voor hulpmodellen die vooraf zijn getraind overbodig maakt. We valideren ook de compatibiliteit van TaDiCodec in taalmodelgebaseerde zero-shot tekst-naar-spraak met zowel autoregressieve modellering als gemaskeerde generatieve modellering, wat de effectiviteit en efficiëntie ervan voor spraaktaalmodellering aantoont, evenals een aanzienlijk kleine reconstructie-generatiekloof. We zullen onze code en modelcheckpoints opensourcen. Audiovoorbeelden zijn beschikbaar op https:/tadicodec.github.io/. We geven code en modelcheckpoints vrij op https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Recente vooruitgang in grote visueel-taalmodelen (VLMs) heeft zich voornamelijk gericht op het Engels, met beperkte aandacht voor andere talen. Om dit gat te dichten, introduceren we MEENA (ook bekend als PersianMMMU), de eerste dataset die is ontworpen om Perzische VLMs te evalueren op wetenschappelijke, redeneer- en menselijk begripsniveau taken. Onze dataset bestaat uit ongeveer 7.500 Perzische en 3.000 Engelse vragen, die een breed scala aan onderwerpen beslaan, zoals redeneren, wiskunde, natuurkunde, diagrammen, grafieken, en Perzische kunst en literatuur. Belangrijke kenmerken van MEENA zijn: (1) diverse onderwerpsdekking die verschillende onderwijs niveaus omvat, van basis- tot bovenbouw middelbare school, (2) rijke metadata, inclusief moeilijkheidsgraden en beschrijvende antwoorden, (3) originele Perzische data die culturele nuances behouden, (4) een tweetalige structuur om cross-linguïstische prestaties te beoordelen, en (5) een reeks diverse experimenten die verschillende capaciteiten beoordelen, waaronder algemene prestaties, het vermogen van het model om aandacht te besteden aan afbeeldingen, en de neiging om hallucinaties te genereren. We hopen dat deze benchmark bijdraagt aan het verbeteren van VLM-capaciteiten buiten het Engels.
Dit artikel onderzoekt de beperkingen van normalisatie in aandachtmechanismen. We beginnen met een theoretisch kader dat het mogelijk maakt om het selectieve vermogen van het model en de geometrische scheiding bij tokenselectie te identificeren. Onze analyse omvat expliciete grenzen voor afstanden en scheidingscriteria voor tokenvectoren onder softmax-schaalvergroting. Door experimenten met het vooraf getrainde GPT-2-model valideren we onze theoretische resultaten empirisch en analyseren we belangrijke gedragingen van het aandachtmechanisme. Opmerkelijk is dat we aantonen dat naarmate het aantal geselecteerde tokens toeneemt, het vermogen van het model om informatieve tokens te onderscheiden afneemt, vaak convergerend naar een uniform selectiepatroon. We laten ook zien dat gevoeligheid voor gradiënten onder softmax-normalisatie uitdagingen oplevert tijdens het trainen, vooral bij lage temperatuurinstellingen. Deze bevindingen bevorderen het huidige begrip van softmax-gebaseerde aandachtmechanismen en motiveren de behoefte aan robuustere normalisatie- en selectiestrategieën in toekomstige aandachtarchitecturen.
Semi-gestructureerde tabellen, die veel worden gebruikt in real-world toepassingen (bijv. financiële rapporten, medische dossiers, transactieorders), hebben vaak flexibele en complexe lay-outs (bijv. hiërarchische koppen en samengevoegde cellen). Deze tabellen zijn doorgaans afhankelijk van menselijke analisten om de tabelindelingen te interpreteren en relevante vragen in natuurlijke taal te beantwoorden, wat kostbaar en inefficiënt is. Om dit proces te automatiseren, staan bestaande methoden voor aanzienlijke uitdagingen. Ten eerste vereisen methoden zoals NL2SQL het omzetten van semi-gestructureerde tabellen in gestructureerde tabellen, wat vaak tot aanzienlijk informatieverlies leidt. Ten tweede hebben methoden zoals NL2Code en multi-modale LLM QA moeite met het begrijpen van de complexe lay-outs van semi-gestructureerde tabellen en kunnen ze de bijbehorende vragen niet nauwkeurig beantwoorden. Daarom stellen we ST-Raptor voor, een op bomen gebaseerd raamwerk voor het beantwoorden van vragen over semi-gestructureerde tabellen met behulp van grote taalmodellen. Ten eerste introduceren we de Hierarchical Orthogonal Tree (HO-Tree), een structureel model dat complexe lay-outs van semi-gestructureerde tabellen vastlegt, samen met een effectief algoritme voor het construeren van de boom. Ten tweede definiëren we een set basisboomoperaties om LLM's te begeleiden bij het uitvoeren van veelvoorkomende QA-taken. Gegeven een gebruikersvraag, deelt ST-Raptor deze op in eenvoudigere subvragen, genereert het bijbehorende boomoperatiepijplijnen en voert het operatie-tabeluitlijning uit voor nauwkeurige pijplijnuitvoering. Ten derde integreren we een tweestaps validatiemechanisme: voorwaartse validatie controleert de juistheid van uitvoeringsstappen, terwijl achterwaartse validatie de betrouwbaarheid van antwoorden evalueert door queries te reconstrueren uit voorspelde antwoorden. Om de prestaties te benchmarken, presenteren we SSTQA, een dataset van 764 vragen over 102 real-world semi-gestructureerde tabellen. Experimenten tonen aan dat ST-Raptor negen baseline-methoden overtreft met een verbetering van tot 20% in antwoorden nauwkeurigheid. De code is beschikbaar op https://github.com/weAIDB/ST-Raptor.
Het evalueren van systemen voor natuurlijke taalgeneratie (NLG) blijft een kernuitdaging binnen natuurlijke taalverwerking (NLP), wat verder wordt bemoeilijkt door de opkomst van grote taalmodel(len) (LLMs) die algemeen toepasbaar willen zijn. Recentelijk zijn grote taalmodel(len) als beoordelaars (LLJs) naar voren gekomen als een veelbelovend alternatief voor traditionele metrieken, maar hun validiteit blijft onderbelicht. Dit position paper betoogt dat het huidige enthousiasme rond LLJs mogelijk voorbarig is, aangezien hun adoptie de rigoureuze controle van hun betrouwbaarheid en validiteit als evaluatoren heeft overtroffen. Gebaseerd op meettheorie uit de sociale wetenschappen, identificeren en beoordelen we kritisch vier kernveronderstellingen die ten grondslag liggen aan het gebruik van LLJs: hun vermogen om als proxy voor menselijk oordeel te fungeren, hun capaciteiten als evaluatoren, hun schaalbaarheid en hun kosteneffectiviteit. We onderzoeken hoe elk van deze veronderstellingen kan worden uitgedaagd door de inherente beperkingen van LLMs, LLJs of huidige praktijken in NLG-evaluatie. Om onze analyse te onderbouwen, verkennen we drie toepassingen van LLJs: tekstsamenvatting, data-annotatie en veiligheidsafstemming. Tot slot benadrukken we de noodzaak van meer verantwoorde evaluatiepraktijken bij de evaluatie van LLJs, om ervoor te zorgen dat hun groeiende rol in het veld de vooruitgang in NLG ondersteunt in plaats van ondermijnt.
Oppervlakte-reconstructie is uitgebreid bestudeerd in computervisie en grafische technieken. Echter, bestaande methoden voor oppervlakte-reconstructie hebben moeite om nauwkeurige scène-geometrie te herstellen wanneer de invoerbeelden extreem schaars zijn. Om dit probleem aan te pakken, stellen we MeshSplat voor, een generaliseerbaar raamwerk voor oppervlakte-reconstructie met schaarse beelden via Gaussian Splatting. Onze kernidee is om 2DGS te gebruiken als een brug, die nieuwe beeld-synthese verbindt met geleerde geometrische voorkennis en deze voorkennis vervolgens overbrengt om oppervlakte-reconstructie te bereiken. Specifiek integreren we een feed-forward netwerk om per-beeld pixel-uitgelijnde 2DGS te voorspellen, wat het netwerk in staat stelt nieuwe beelden te synthetiseren en zo de noodzaak voor directe 3D grondwaarheid-supervisie elimineert. Om de nauwkeurigheid van de positie- en oriëntatievoorspelling van 2DGS te verbeteren, stellen we een Gewogen Chamfer Afstand Verlies voor om de dieptekaarten te regulariseren, vooral in overlappende gebieden van invoerbeelden, en ook een normaalvoorspellingsnetwerk om de oriëntatie van 2DGS uit te lijnen met normaalvectoren voorspeld door een monokulaire normaal-schatter. Uitgebreide experimenten valideren de effectiviteit van onze voorgestelde verbeteringen, en tonen aan dat onze methode state-of-the-art prestaties bereikt in generaliseerbare oppervlakte-reconstructietaken met schaarse beelden. Projectpagina: https://hanzhichang.github.io/meshsplat_web
Compositioneel visueel redeneren is naar voren gekomen als een belangrijk onderzoeksgebied binnen multimodale AI, met als doel machines te voorzien van een mensachtig vermogen om visuele scènes te ontleden, tussenliggende concepten te verankeren en meerstaps logische inferentie uit te voeren. Terwijl eerdere overzichten zich richten op monolithische visie-taalmodellen of algemeen multimodaal redeneren, ontbreekt nog steeds een toegewijde synthese van de snel uitbreidende literatuur over compositioneel visueel redeneren. Wij vullen deze leemte met een uitgebreid overzicht dat de periode van 2023 tot 2025 beslaat en systematisch 260+ papers uit toonaangevende conferenties (CVPR, ICCV, NeurIPS, ICML, ACL, etc.) bespreekt. We formaliseren eerst kerndefinities en beschrijven waarom compositionele benaderingen voordelen bieden op het gebied van cognitieve afstemming, semantische trouw, robuustheid, interpreteerbaarheid en data-efficiëntie. Vervolgens schetsen we een paradigmaverschuiving in vijf fasen: van prompt-versterkte taalgerichte pijplijnen, via tool-versterkte LLM's en tool-versterkte VLM's, tot recentelijk geïntroduceerde chain-of-thought redenering en geünificeerde agent-gebaseerde VLM's, waarbij we hun architectonische ontwerpen, sterke punten en beperkingen belichten. Daarna catalogiseren we 60+ benchmarks en bijbehorende metrieken die compositioneel visueel redeneren onderzoeken langs dimensies zoals verankeringsnauwkeurigheid, chain-of-thought trouw en hoogresolutie perceptie. Op basis van deze analyses destilleren we belangrijke inzichten, identificeren we openstaande uitdagingen (bijv. beperkingen van LLM-gebaseerd redeneren, hallucinatie, een bias naar deductief redeneren, schaalbare supervisie, toolintegratie en benchmarkbeperkingen) en schetsen we toekomstige richtingen, waaronder wereldmodelintegratie, mens-AI collaboratief redeneren en rijkere evaluatieprotocollen. Door een geünificeerde taxonomie, historische routekaart en kritisch perspectief te bieden, beoogt dit overzicht te dienen als een fundamenteel referentiewerk en de volgende generatie van onderzoek naar compositioneel visueel redeneren te inspireren.
Visueel-gestuurde beeldbewerking, waarbij bewerkingen worden bepaald door zowel visuele aanwijzingen als tekstuele prompts, is naar voren gekomen als een krachtig paradigma voor fijnmazige, controleerbare inhoudsgeneratie. Hoewel recente generatieve modellen opmerkelijke capaciteiten hebben getoond, blijven bestaande evaluaties eenvoudig en onvoldoende representatief voor real-world bewerkingsuitdagingen. Wij presenteren SpotEdit, een uitgebreide benchmark die is ontworpen om visueel-gestuurde beeldbewerkingsmethoden systematisch te beoordelen over diverse diffusie-, autoregressieve en hybride generatieve modellen, waarbij aanzienlijke prestatieverschillen aan het licht komen. Om een kritieke maar onderbelichte uitdaging aan te pakken, bevat onze benchmark een specifieke component over hallucinatie, die benadrukt hoe toonaangevende modellen, zoals GPT-4o, vaak het bestaan van een visuele aanwijzing hallucineren en de bewerkingstaak foutief uitvoeren. Onze code en benchmark zijn openbaar vrijgegeven op https://github.com/SaraGhazanfari/SpotEdit.
Eerder onderzoek heeft aangetoond dat vooronderstellingen in gegenereerde vragen ongeverifieerde aannames kunnen introduceren, wat leidt tot inconsistenties in claimverificatie. Daarnaast blijft promptgevoeligheid een belangrijke uitdaging voor grote taalmmodellen (LLMs), wat resulteert in prestatieverschillen van wel 3-6%. Hoewel recente vooruitgang deze kloof heeft verkleind, toont onze studie aan dat promptgevoeligheid een hardnekkig probleem blijft. Om dit aan te pakken, stellen we een gestructureerd en robuust claimverificatiekader voor dat redeneert via vooronderstellingsvrije, gedecentraliseerde vragen. Uitgebreide experimenten met meerdere prompts, datasets en LLMs laten zien dat zelfs state-of-the-art modellen vatbaar blijven voor promptvariatie en vooronderstellingen. Onze methode vermindert deze problemen consistent en behaalt een verbetering van tot wel 2-5%.
Het vermogen om teksten op verschillende complexiteitsniveaus te parafraseren is essentieel voor het creëren van toegankelijke teksten die kunnen worden afgestemd op diverse lezersgroepen. Daarom introduceren we German4All, de eerste grootschalige Duitse dataset van uitgelijnde, leesbaarheidsgecontroleerde, paragraafniveau parafrases. De dataset beslaat vijf leesbaarheidsniveaus en omvat meer dan 25.000 voorbeelden. De dataset is automatisch gesynthetiseerd met behulp van GPT-4 en grondig geëvalueerd door zowel menselijke als LLM-gebaseerde beoordelingen. Met German4All trainen we een open-source, leesbaarheidsgecontroleerd parafrasemodel dat state-of-the-art prestaties behaalt in Duitse tekstvereenvoudiging, waardoor meer genuanceerde en lezerspecifieke aanpassingen mogelijk worden. We maken zowel de dataset als het model openbaar om verder onderzoek naar multi-level parafraseren te stimuleren.
Echocardiografie speelt een centrale rol in cardiale beeldvorming en biedt dynamische beelden van het hart die essentieel zijn voor diagnose en monitoring. De beeldkwaliteit kan echter aanzienlijk worden aangetast door nevel die ontstaat door multipath-reverberaties, vooral bij moeilijk te visualiseren patiënten. In dit werk stellen we een semantisch geleid, op diffusie gebaseerd ontnevelingsalgoritme voor, ontwikkeld voor de MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025). Onze methode integreert een pixelgewijs ruismodel, afgeleid van semantische segmentatie van wazige invoer, in een diffusie posterior sampling-framework dat wordt geleid door een generatieve prior getraind op schone echografiegegevens. Kwantitatieve evaluatie op de challenge-dataset toont sterke prestaties op het gebied van contrast en getrouwheid. De code voor het ingediende algoritme is beschikbaar op https://github.com/tristan-deep/semantic-diffusion-echo-dehazing.
Fotorealisme is een belangrijk aspect van moderne videogames, omdat het de spelervaring kan vormgeven en tegelijkertijd de immersie, narratieve betrokkenheid en visuele kwaliteit kan beïnvloeden. Hoewel recente doorbraken in hardwaretechnologie, samen met state-of-the-art renderingtechnologieën, de visuele realiteit van videogames aanzienlijk hebben verbeterd, blijft het bereiken van echt fotorealisme in dynamische omgevingen met real-time frame rates een grote uitdaging vanwege de afweging tussen visuele kwaliteit en prestaties. In dit korte artikel presenteren we een nieuwe aanpak om het fotorealisme van gerenderde gameframes te verbeteren met behulp van generatieve adversariële netwerken. Hiertoe stellen we Real-time Photorealism Enhancement in Games via een dual-stage gEnerative Network framework (REGEN) voor, dat een robuust ongepaard beeld-naar-beeld vertaalmodel gebruikt om semantisch consistente fotorealistische frames te produceren, waardoor het probleem wordt omgezet in een eenvoudiger gepaard beeld-naar-beeld vertaaltaak. Dit maakt training mogelijk met een lichtgewicht methode die real-time inferentietijd kan bereiken zonder in te leveren op visuele kwaliteit. We demonstreren de effectiviteit van ons framework op Grand Theft Auto V, waarbij we laten zien dat de aanpak visuele resultaten bereikt die vergelijkbaar zijn met die geproduceerd door het robuuste ongepaarde Im2Im-model, terwijl de inferentiesnelheid met 32,14 keer wordt verbeterd. Onze bevindingen geven ook aan dat de resultaten de fotorealistische frames overtreffen die worden geproduceerd door direct een lichtgewicht ongepaard Im2Im-vertaalmodel te trainen om de videogameframes te vertalen naar de visuele kenmerken van real-world beelden. Code, vooraf getrainde modellen en demo's voor dit werk zijn beschikbaar op: https://github.com/stefanos50/REGEN.