Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk presenteren we de eerste studie die inference-time scaling onderzoekt voor tabelredeneertaken. We ontwikkelen en evalueren twee post-trainingsstrategieën om inference-time scaling mogelijk te maken: distillatie van redeneersporen van frontiermodellen en reinforcement learning met verifieerbare beloningen (RLVR). Voor distillatie introduceren we een grootschalige dataset van redeneersporen gegenereerd door DeepSeek-R1, die we gebruiken om LLM's te fine-tunen tot het Table-R1-SFT-model. Voor RLVR stellen we taakspecifieke verifieerbare beloningsfuncties voor en passen we het GRPO-algoritme toe om het Table-R1-Zero-model te verkrijgen. We evalueren onze Table-R1-serie modellen op diverse tabelredeneertaken, waaronder kort-antwoordvragen, feitenverificatie en vrije-vormvragen. Opmerkelijk is dat het Table-R1-Zero-model de prestaties van GPT-4.1 en DeepSeek-R1 evenaart of overtreft, terwijl het slechts een 7B-parameter LLM gebruikt. Het toont ook sterke generalisatie naar out-of-domain datasets. Uitgebreide ablatie- en kwalitatieve analyses onthullen de voordelen van instructie-tuning, keuzes in modelarchitectuur en cross-task generalisatie, evenals het ontstaan van essentiële tabelredeneervaardigheden tijdens RL-training.
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft de prestaties op 2D-visuele taken aanzienlijk verbeterd. Het verbeteren van hun ruimtelijke intelligentie blijft echter een uitdaging. Bestaande 3D-MLLMs zijn altijd afhankelijk van aanvullende 3D- of 2.5D-gegevens om ruimtelijk bewustzijn te integreren, wat hun bruikbaarheid beperkt in scenario's met alleen 2D-inputs, zoals afbeeldingen of video's. In dit artikel presenteren we Spatial-MLLM, een nieuw raamwerk voor visueel gebaseerd ruimtelijk redeneren vanuit puur 2D-waarnemingen. In tegenstelling tot conventionele video-MLLMs die vertrouwen op CLIP-gebaseerde visuele encoders die zijn geoptimaliseerd voor semantisch begrip, is onze belangrijkste inzicht het benutten van het sterke structuurvooroordeel van het feedforward visuele geometrie-foundationmodel. Specifiek stellen we een dual-encoder-architectuur voor: een vooraf getrainde 2D-visuele encoder om semantische kenmerken te extraheren, en een ruimtelijke encoder – geïnitialiseerd vanuit de backbone van het visuele geometriemodel – om 3D-structuurkenmerken te extraheren. Een connector integreert vervolgens beide kenmerken in geünificeerde visuele tokens voor een verbeterd ruimtelijk begrip. Bovendien stellen we een ruimtebewuste frame-samplingstrategie voor tijdens de inferentie, die de ruimtelijk informatieve frames van een videosequentie selecteert, waardoor het model zich zelfs bij een beperkte tokenlengte richt op frames die cruciaal zijn voor ruimtelijk redeneren. Naast architectuurverbeteringen construeren we de Spatial-MLLM-120k dataset en trainen we het model daarop met behulp van supervised fine-tuning en GRPO. Uitgebreide experimenten op verschillende real-world datasets tonen aan dat onze Spatial-MLLM state-of-the-art prestaties behaalt in een breed scala aan visueel gebaseerde ruimtelijke begrips- en redeneertaken. Projectpagina: https://diankun-wu.github.io/Spatial-MLLM/.
Recente studies over het na-trainen van grote taalmodellen (LLMs) voor redeneren door middel van reinforcement learning (RL) richten zich doorgaans op taken die nauwkeurig kunnen worden geverifieerd en beloond, zoals het oplossen van wiskundige problemen. Daarentegen onderzoekt ons onderzoek de impact van ruis in beloningen, een meer praktische overweging voor realistische scenario's die betrekking hebben op het na-trainen van LLMs met behulp van beloningsmodellen. We ontdekten dat LLMs een sterke robuustheid vertonen ten opzichte van aanzienlijke ruis in beloningen. Zo kan het handmatig omdraaien van 40% van de uitkomsten van de beloningsfunctie in wiskundige taken een Qwen-2.5-7B-model nog steeds snelle convergentie laten bereiken, waarbij de prestaties op wiskundige taken verbeteren van 5% naar 72%, vergeleken met de 75% nauwkeurigheid die wordt behaald door een model dat is getraind met ruisvrije beloningen. Verrassend genoeg bereikte het model, door alleen het voorkomen van sleutelredeneringszinnen te belonen (namelijk reasoning pattern reward, RPR), zoals "eerst moet ik"-zonder de juistheid van antwoorden te verifiëren, een piek in downstreamprestaties (meer dan 70% nauwkeurigheid voor Qwen-2.5-7B) die vergelijkbaar is met modellen die zijn getraind met strikte correctheidsverificatie en nauwkeurige beloningen. Erkennend het belang van het redeneerproces boven de eindresultaten, combineerden we RPR met ruisige beloningsmodellen. RPR hielp bij het kalibreren van de ruisige beloningsmodellen, het verminderen van potentiële fout-negatieven en het verbeteren van de prestaties van het LLM op open-eindtaken. Deze bevindingen suggereren het belang van het verbeteren van de fundamentele vaardigheden van modellen tijdens de pre-trainingsfase, terwijl ze inzichten bieden voor het bevorderen van na-trainings-technieken. Onze code en scripts zijn beschikbaar op https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
MLLM's zijn recentelijk uitgebreid bestudeerd voor video-vraagbeantwoording. De meeste bestaande evaluaties richten zich echter op natuurlijke video's en negeren synthetische video's, zoals AI-gegenereerde inhoud (AIGC). Tegelijkertijd zijn er enkele werken in videogeneratie die afhankelijk zijn van MLLM's om de kwaliteit van gegenereerde video's te beoordelen, maar de mogelijkheden van MLLM's om AIGC-video's te interpreteren blijven grotendeels onderbelicht. Om dit aan te pakken, stellen we een nieuwe benchmark voor, VF-Eval, die vier taken introduceert: coherentievalidatie, foutbewustzijn, fouttypedetectie en redeneerevaluatie, om de vaardigheden van MLLM's op AIGC-video's uitgebreid te beoordelen. We evalueren 13 vooraanstaande MLLM's op VF-Eval en ontdekken dat zelfs het best presterende model, GPT-4.1, moeite heeft om consistent goede prestaties te leveren over alle taken. Dit benadrukt de uitdagende aard van onze benchmark. Daarnaast voeren we, om de praktische toepassingen van VF-Eval bij het verbeteren van videogeneratie te onderzoeken, een experiment uit, RePrompt, dat aantoont dat het beter afstemmen van MLLM's op menselijke feedback voordelig kan zijn voor videogeneratie.
De snelle vooruitgang van grote Vision-Language Models (VLMs) heeft de ontwikkeling van puur visueel gebaseerde GUI Agents gestimuleerd, die in staat zijn om Grafische Gebruikersinterfaces (GUI) waar te nemen en te bedienen om gebruikersinstructies autonoom uit te voeren. Bestaande benaderingen hanteren echter meestal een offline leerframework, dat te maken heeft met twee kernbeperkingen: (1) een sterke afhankelijkheid van hoogwaardige handmatige annotaties voor elementlocatie en actietoezicht, en (2) beperkte aanpassingsvermogen aan dynamische en interactieve omgevingen. Om deze beperkingen aan te pakken, stellen we ZeroGUI voor, een schaalbaar, online leerframework voor het automatiseren van GUI Agent training zonder menselijke kosten. Specifiek integreert ZeroGUI (i) VLM-gebaseerde automatische taakgeneratie om diverse trainingsdoelen te produceren vanuit de huidige omgevingsstatus, (ii) VLM-gebaseerde automatische beloningsschatting om taaksucces te beoordelen zonder handmatig gemaakte evaluatiefuncties, en (iii) tweefasen online reinforcement learning om continu te interageren met en te leren van GUI-omgevingen. Experimenten met twee geavanceerde GUI Agents (UI-TARS en Aguvis) tonen aan dat ZeroGUI de prestaties aanzienlijk verbetert in zowel OSWorld- als AndroidLab-omgevingen. De code is beschikbaar op https://github.com/OpenGVLab/ZeroGUI.
Diffusion-gebaseerde grote taalmodellen (Diffusion LLMs) hebben potentie getoond voor niet-autoregressieve tekstgeneratie met parallelle decodeermogelijkheden. Echter blijft de praktische inferentiesnelheid van open-source Diffusion LLMs vaak achter bij autoregressieve modellen vanwege het ontbreken van een Key-Value (KV) Cache en kwaliteitsverlies bij het gelijktijdig decoderen van meerdere tokens. Om deze kloof te overbruggen, introduceren we een nieuw bloksgewijs benaderend KV Cache-mechanisme, speciaal ontworpen voor bidirectionele diffusiemodellen, dat cache-hergebruik mogelijk maakt met een verwaarloosbare prestatievermindering. Daarnaast identificeren we de oorzaak van kwaliteitsverlies bij parallel decoderen als de verstoring van tokenafhankelijkheden onder de aanname van conditionele onafhankelijkheid. Om dit aan te pakken, stellen we een vertrouwensbewuste parallelle decodeerstrategie voor die selectief tokens decodeert die een vertrouwensdrempel overschrijden, waardoor afhankelijkheidschendingen worden beperkt en de generatiekwaliteit behouden blijft. Experimentele resultaten op LLaDA- en Dream-modellen over meerdere LLM-benchmarks tonen een doorvoerverbetering tot 27,6 keer met minimaal nauwkeurigheidsverlies, waardoor de prestatiekloof met autoregressieve modellen wordt gedicht en de weg wordt geëffend voor praktische implementatie van Diffusion LLMs.
Recente studies hebben aangetoond dat lange ketens van gedachtegangen (CoT) de prestaties van grote taalmodellen (LLMs) aanzienlijk kunnen verbeteren bij complexe taken. Dit voordeel moet echter nog worden aangetoond op het gebied van videobegrip, aangezien de meeste bestaande benchmarks niet de vereiste redeneerdiepte hebben om de voordelen van uitgebreide CoT-ketens te demonstreren. Hoewel recente inspanningen benchmarks hebben voorgesteld die gericht zijn op videoredenering, zijn de taken vaak kennisgedreven en niet sterk afhankelijk van visuele inhoud. Om deze kloof te overbruggen, introduceren we VideoReasonBench, een benchmark ontworpen om visiegerichte, complexe videoredenering te evalueren. Om visuele rijkdom en hoge redeneercomplexiteit te garanderen, toont elke video in VideoReasonBench een reeks fijnmazige handelingen op een latente toestand die slechts in een deel van de video zichtbaar is. De vragen evalueren drie oplopende niveaus van videoredeneervaardigheden: het herinneren van waargenomen visuele informatie, het afleiden van de inhoud van latente toestanden en het voorspellen van informatie die verder gaat dan de video. In een dergelijke taakopstelling moeten modellen meerdere handelingen in de video precies herinneren en stap-voor-stap redeneren om de juiste eindantwoorden op deze vragen te krijgen. Met behulp van VideoReasonBench evalueren we uitgebreid 18 state-of-the-art multimodale LLMs (MLLMs), waarbij we vaststellen dat de meeste slecht presteren op complexe videoredenering, bijvoorbeeld GPT-4o behaalt slechts 6,9% nauwkeurigheid, terwijl het denk-verbeterde Gemini-2.5-Pro anderen significant overtreft met 56,0% nauwkeurigheid. Onze onderzoeken naar "test-time scaling" onthullen verder dat een uitgebreid denkbudget, hoewel het geen of minimale voordelen biedt op bestaande videobenchmarks, essentieel is voor het verbeteren van de prestaties op VideoReasonBench.
Computer-Aided Design (CAD) speelt een centrale rol in engineering en productie, waardoor het mogelijk wordt om precieze en bewerkbare 3D-modellen te creëren. Het gebruik van verschillende sensoren of door gebruikers aangeleverde gegevens als invoer voor CAD-reconstructie kan de toegang tot ontwerptoepassingen democratiseren. Bestaande methoden richten zich echter meestal op één enkele invoermodaliteit, zoals puntenwolken, afbeeldingen of tekst, wat hun generaliseerbaarheid en robuustheid beperkt. Door gebruik te maken van recente vooruitgang in vision-language-modellen (VLM), stellen we een multi-modale CAD-reconstructiemethode voor die alle drie de invoermodaliteiten gelijktijdig verwerkt. Geïnspireerd door de trainingsparadigma's van grote taalmodellen (LLM), hanteren we een tweefasenpijplijn: supervised fine-tuning (SFT) op grootschalige procedureel gegenereerde gegevens, gevolgd door reinforcement learning (RL) fine-tuning met behulp van online feedback, die programmatisch wordt verkregen. Bovendien zijn we de eersten die RL fine-tuning van LLM's voor CAD-taken onderzoeken, waarbij we aantonen dat online RL-algoritmen zoals Group Relative Preference Optimization (GRPO) offline alternatieven overtreffen. In de DeepCAD-benchmark presteert ons SFT-model beter dan bestaande single-modale benaderingen in alle drie de invoermodaliteiten tegelijkertijd. Nog belangrijker is dat cadrille, na RL fine-tuning, nieuwe state-of-the-art resultaten behaalt op drie uitdagende datasets, waaronder een real-world dataset.
Dit artikel presenteert Diffusion via Autoregressive models (D-AR), een nieuw paradigma dat het beelddiffusieproces herformuleert als een standaard autoregressieve procedure in de gebruikelijke next-token-predictie-stijl. We beginnen met het ontwerpen van de tokenizer die afbeeldingen omzet in sequenties van discrete tokens, waarbij tokens op verschillende posities kunnen worden gedecodeerd naar verschillende diffusie-denoising-stappen in de pixelruimte. Dankzij de eigenschappen van diffusie volgen deze tokens van nature een grof-naar-fijn volgorde, wat zich direct leent voor autoregressieve modellering. Daarom passen we standaard next-token-predictie toe op deze tokens, zonder enige onderliggende ontwerpen te wijzigen (zoals causale masks of trainings-/inferentiestrategieën), en zo'n sequentiële autoregressieve token-generatie weerspiegelt direct het diffusieproces in de beeldruimte. Dat wil zeggen, zodra het autoregressieve model een toename van tokens genereert, kunnen we deze tokens direct decoderen naar de corresponderende diffusie-denoising-stap op een streaming-manier. Onze pijplijn onthult van nature verschillende intrigerende eigenschappen, bijvoorbeeld ondersteunt het consistente voorbeelden bij het genereren van slechts een subset van tokens en maakt het zero-shot layout-gestuurde synthese mogelijk. Op de standaard ImageNet-benchmark behaalt onze methode een FID van 2,09 met een 775M Llama-backbone en 256 discrete tokens. We hopen dat ons werk toekomstig onderzoek kan inspireren naar geünificeerde autoregressieve architecturen voor visuele synthese, vooral met grote taalmodelmodellen. Code en modellen zullen beschikbaar zijn op https://github.com/showlab/D-AR.
We introduceren AnySplat, een feedforward-netwerk voor de synthese van nieuwe gezichtspunten uit ongecalibreerde beeldcollecties. In tegenstelling tot traditionele neurale renderingspijplijnen die bekende cameraposities en per-scène optimalisatie vereisen, of recente feedforward-methoden die bezwijken onder de rekenkundige last van dichte gezichtspunten, voorspelt ons model alles in één keer. Een enkele forward pass levert een set van 3D Gaussische primitieven op die zowel scènegeometrie als uiterlijk coderen, evenals de bijbehorende camera-intrinsieken en extrinsieken voor elke invoerafbeelding. Dit verenigde ontwerp schaalt moeiteloos naar casual vastgelegde, multi-view datasets zonder enige pose-annotaties. In uitgebreide zero-shot evaluaties evenaart AnySplat de kwaliteit van pose-bewuste baseline-methoden in zowel schaarse als dichte gezichtspuntscenario's, terwijl het bestaande pose-vrije benaderingen overtreft. Bovendien vermindert het de renderlatentie aanzienlijk in vergelijking met optimalisatie-gebaseerde neurale velden, waardoor real-time synthese van nieuwe gezichtspunten binnen handbereik komt voor onbeperkte vastleggingsomstandigheden. Projectpagina: https://city-super.github.io/anysplat/
Sparse Autoencoders (SAEs) hebben aanzienlijke belofte getoond in het interpreteren van de verborgen toestanden van taalmodel(len) door deze te ontbinden in interpreteerbare latente richtingen. Het trainen van SAEs op grote schaal blijft echter een uitdaging, vooral wanneer grote woordenboekgroottes worden gebruikt. Hoewel decoders gebruik kunnen maken van sparse-aware kernels voor efficiëntie, vereisen encoders nog steeds rekenintensieve lineaire operaties met grote uitvoerdimensies. Om dit aan te pakken, stellen we KronSAE voor, een nieuwe architectuur die de latente representatie factoriseert via Kronecker-productontbinding, waardoor het geheugen- en rekenoverhead aanzienlijk wordt verminderd. Bovendien introduceren we mAND, een differentieerbare activatiefunctie die de binaire AND-bewerking benadert, wat de interpreteerbaarheid en prestaties in ons gefactoriseerde raamwerk verbetert.
Onlangs ontwikkelde grote redeneermodellen (LRMs) tonen krachtige prestaties bij het oplossen van complexe taken met een lange keten-van-gedachten (CoT) redeneercapaciteit. Omdat deze LRMs voornamelijk zijn ontwikkeld door post-training op formele redeneertaken, blijft het onduidelijk en onderwerp van debat of ze de redeneercapaciteit generaliseren om hallucinaties te helpen verminderen in feitenzoekende taken. Zo meldt DeepSeek-R1 een verbeterde prestatie op SimpleQA, een feitenzoekende benchmark, terwijl OpenAI-o3 zelfs ernstigere hallucinaties waarneemt. Deze tegenstrijdigheid roept van nature de volgende onderzoeksvraag op: Zijn redeneermodellen gevoeliger voor hallucinaties? Dit artikel behandelt deze vraag vanuit drie perspectieven. (1) We voeren eerst een holistische evaluatie uit van hallucinaties in LRMs. Onze analyse toont aan dat LRMs die een volledige post-training pijplijn ondergaan met cold start supervised fine-tuning (SFT) en verifieerbare beloning RL over het algemeen hun hallucinaties verminderen. Daarentegen introduceren zowel distillatie alleen als RL-training zonder cold start fine-tuning meer subtiele hallucinaties. (2) Om te onderzoeken waarom verschillende post-training pijplijnen de impact op hallucinaties in LRMs veranderen, voeren we gedragsanalyses uit. We karakteriseren twee kritieke cognitieve gedragingen die de feitelijkheid van een LRM direct beïnvloeden: Foutherhaling, waarbij oppervlakkige redeneerpogingen herhaaldelijk dezelfde onderliggende foutieve logica volgen, en Denk-Antwoord Mismatch, waarbij het uiteindelijke antwoord niet trouw overeenkomt met het voorgaande CoT-proces. (3) Verder onderzoeken we het mechanisme achter de hallucinaties van LRMs vanuit het perspectief van modelonzekerheid. We constateren dat toegenomen hallucinaties van LRMs meestal samenhangen met de misalignering tussen modelonzekerheid en feitelijke nauwkeurigheid. Ons werk biedt een eerste inzicht in de hallucinaties van LRMs.
Taalmodellen (LMs) presteren goed op gestandaardiseerde codeerbenchmarks, maar hebben moeite met real-world software-engineeringtaken, zoals het oplossen van GitHub-issues in SWE-Bench, vooral wanneer de modelparameters minder dan 100B zijn. Hoewel kleinere modellen in de praktijk de voorkeur hebben vanwege hun lagere rekenkosten, blijft het verbeteren van hun prestaties een uitdaging. Bestaande benaderingen zijn voornamelijk gebaseerd op supervised fine-tuning (SFT) met hoogwaardige data, wat duur is om op grote schaal te verzamelen. Een alternatief is test-time scaling: het genereren van meerdere uitvoer, deze scoren met een verifier en de beste selecteren. Hoewel effectief, vereist deze strategie vaak excessieve sampling en kostbare scoring, wat de praktische toepassing beperkt. Wij stellen Evolutionary Test-Time Scaling (EvoScale) voor, een sample-efficiënte methode die generatie behandelt als een evolutionair proces. Door uitvoer iteratief te verfijnen via selectie en mutatie, verschuift EvoScale de uitvoerdistributie naar hoger scorende regio's, waardoor het aantal benodigde samples om correcte oplossingen te vinden wordt verminderd. Om de overhead van herhaaldelijk sampling en selectie te verminderen, trainen we het model om zichzelf te evolueren met behulp van reinforcement learning (RL). In plaats van te vertrouwen op externe verifiers tijdens inferentie, leert het model om de scores van zijn eigen generaties iteratief te verbeteren. Geëvalueerd op SWE-Bench-Verified, stelt EvoScale ons 32B-model, Satori-SWE-32B, in staat om de prestaties van modellen met meer dan 100B parameters te evenaren of te overtreffen, terwijl slechts enkele samples worden gebruikt. Code, data en modellen zullen volledig open-source worden gemaakt.
We introduceren LoRAShop, het eerste raamwerk voor multi-concept beeldbewerking met LoRA-modellen. LoRAShop bouwt voort op een belangrijk inzicht over de interactiepatronen van kenmerken binnen Flux-style diffusietransformers: concept-specifieke transformerkenmerken activeren ruimtelijk coherente regio's vroeg in het denoisingsproces. We benutten dit inzicht om een ontward latent masker af te leiden voor elk concept in een voorwaartse pass en mengen de bijbehorende LoRA-gewichten alleen binnen de regio's die de te personaliseren concepten begrenzen. De resulterende bewerkingen integreren naadloos meerdere onderwerpen of stijlen in de oorspronkelijke scène, terwijl de globale context, belichting en fijne details behouden blijven. Onze experimenten tonen aan dat LoRAShop betere identiteitsbehoud biedt in vergelijking met baseline-methoden. Door hertraining en externe beperkingen te elimineren, transformeert LoRAShop gepersonaliseerde diffusiemodellen in een praktisch 'photoshop-met-LoRA's'-gereedschap en opent het nieuwe mogelijkheden voor compositorisch visueel vertellen en snelle creatieve iteratie.
Transformers zijn gevestigd als de meest populaire backbones in sequentiemodellering, voornamelijk vanwege hun effectiviteit in in-context retrieval taken en het vermogen om op grote schaal te leren. Hun kwadratische geheugen- en tijdscomplexiteit beperkt echter hun toepasbaarheid in langere sequenties, wat onderzoekers heeft gemotiveerd om effectieve alternatieve architecturen te verkennen, zoals moderne recurrent neural networks (ook wel long-term recurrent memory modules genoemd). Ondanks hun recente succes in diverse downstream taken, worstelen ze met taken die een langetermijncontextbegrip en extrapolatie naar langere sequenties vereisen. We observeren dat deze tekortkomingen voortkomen uit drie losstaande aspecten in hun ontwerp: (1) beperkte geheugencapaciteit die wordt begrensd door de architectuur van het geheugen en de feature mapping van de input; (2) de online aard van updates, waarbij het geheugen alleen wordt geoptimaliseerd met betrekking tot de laatste input; en (3) minder expressief beheer van hun vaste geheugengrootte. Om deze drie aspecten te verbeteren, presenteren we ATLAS, een long-term memory module met hoge capaciteit die leert om de context te onthouden door het geheugen te optimaliseren op basis van de huidige en vorige tokens, waardoor de online aard van long-term memory modellen wordt overwonnen. Op basis van dit inzicht presenteren we een nieuwe familie van Transformer-achtige architecturen, genaamd DeepTransformers, die strikte generalisaties zijn van de originele Transformer-architectuur. Onze experimentele resultaten op het gebied van taalmodellering, gezond verstand redeneren, recall-intensieve en langetermijncontextbegrip taken laten zien dat ATLAS de prestaties van Transformers en recente lineaire recurrent modellen overtreft. ATLAS verbetert verder de langetermijncontextprestaties van Titans, met een nauwkeurigheid van +80\% in een contextlengte van 10M van de BABILong benchmark.
Unified multimodale grote taalmodellen zoals Show-o en Janus hebben sterke prestaties behaald in zowel generatie- als begripstaken. Deze modellen zijn echter doorgaans afhankelijk van grootschalige datasets en vereisen aanzienlijke rekenkracht tijdens de pretrainingsfase. Daarnaast zijn verschillende post-trainingsmethoden voorgesteld, maar deze zijn vaak afhankelijk van externe data of beperkt tot taakspecifieke aanpassingen. In dit werk introduceren we UniRL, een zelfverbeterende post-trainingsaanpak. Onze aanpak stelt het model in staat om afbeeldingen te genereren vanuit prompts en deze als trainingsdata te gebruiken in elke iteratie, zonder afhankelijk te zijn van externe beelddata. Bovendien maakt het de twee taken mogelijk om elkaar te versterken: de gegenereerde afbeeldingen worden gebruikt voor begrip, en de begripsresultaten worden gebruikt om de generatie te begeleiden. We onderzoeken supervised fine-tuning (SFT) en Group Relative Policy Optimization (GRPO) om de modellen te optimaliseren. UniRL biedt drie belangrijke voordelen: (1) het vereist geen externe beelddata, aangezien alle trainingsvoorbeelden door het model zelf worden gegenereerd tijdens de training; (2) het verbetert niet alleen de prestaties van individuele taken, maar vermindert ook de onbalans tussen generatie en begrip; en (3) het vereist slechts enkele aanvullende trainingsstappen tijdens de post-trainingsfase. We evalueren UniRL op basis van Show-o en Janus, waarbij we een GenEval-score van 0.77 behalen voor Show-o en 0.65 voor Janus. Code en modellen zullen worden vrijgegeven op https://github.com/showlab/UniRL.
De taak van het oplossen van problemen, waarbij een model patches genereert om bugs in de echte wereld te verhelpen, is naar voren gekomen als een cruciale benchmark voor het evalueren van de mogelijkheden van grote taalmodellen (LLM's). Hoewel SWE-bench en zijn varianten standaard zijn geworden in dit domein, hebben ze belangrijke beperkingen: ze zijn niet bijgewerkt sinds hun eerste release, bestrijken een beperkte set repositories en zijn sterk afhankelijk van handmatige inspanningen voor het construeren van instanties en het opzetten van omgevingen. Deze factoren belemmeren de schaalbaarheid en introduceren risico's van overfitting en datacontaminatie. In dit werk presenteren we SWE-bench-Live, een live bij te werken benchmark die ontworpen is om deze uitdagingen te overwinnen. Onze eerste release bestaat uit 1.319 taken afgeleid van echte GitHub-issues die sinds 2024 zijn gemaakt, verspreid over 93 repositories. Elke taak wordt vergezeld door een toegewijde Docker-image om reproduceerbare uitvoering te garanderen. Centraal in onze benchmark staat \method, een geautomatiseerde curatiepijplijn die het hele proces stroomlijnt, van het creëren van instanties tot het opzetten van omgevingen, waardoor handmatige knelpunten worden verwijderd en schaalbaarheid en continue updates mogelijk worden gemaakt. We evalueren een reeks state-of-the-art agentframeworks en LLM's op SWE-bench-Live, wat een aanzienlijk prestatiegat aan het licht brengt in vergelijking met statische benchmarks zoals SWE-bench, zelfs onder gecontroleerde evaluatieomstandigheden. Om dit verschil beter te begrijpen, voeren we gedetailleerde analyses uit over repositoryoorsprong, recentheid van issues en taakmoeilijkheid. Door een frisse, diverse en uitvoerbare benchmark te bieden die gebaseerd is op live repositoryactiviteit, faciliteert SWE-bench-Live rigoureuze, contaminatiebestendige evaluatie van LLM's en agents in dynamische, real-world softwareontwikkelingsomgevingen.
Voorkeursmechanismen, zoals menselijke voorkeur, LLM-as-a-Judge (LaaJ) en beloningsmodellen, zijn cruciaal voor het afstemmen en evalueren van grote taalmodellen (LLM's). Toch blijven de onderliggende concepten die deze voorkeuren sturen slecht begrepen. In dit werk stellen we een volledig geautomatiseerde methode voor voor het genereren van lokale en globale op concepten gebaseerde verklaringen van voorkeuren over meerdere domeinen. Onze methode maakt gebruik van een LLM om concepten te identificeren die gekozen en afgewezen reacties onderscheiden, en om deze weer te geven met op concepten gebaseerde vectoren. Om de relaties tussen concepten en voorkeuren te modelleren, stellen we een white-box Hiërarchisch Multi-Domein Regressiemodel voor dat zowel domeingenerieke als domeinspecifieke effecten vastlegt. Om onze methode te evalueren, stellen we een dataset samen die acht uitdagende en diverse domeinen omvat en verklaren we twaalf mechanismen. Onze methode behaalt sterke voorspellingsprestaties voor voorkeuren, overtreft de baseline-methoden en blijft tegelijkertijd verklaarbaar. Daarnaast beoordelen we de verklaringen in twee toepassingsgerichte situaties. Ten eerste leidt het sturen van LLM-uitvoer met concepten uit LaaJ-verklaringen tot reacties die die beoordelaars consistent prefereren. Ten tweede verbetert het aanbieden van concepten die menselijke voorkeuren verklaren aan LaaJ's hun voorspellingen van voorkeuren. Samen vestigt ons werk een nieuw paradigma voor verklaarbaarheid in het tijdperk van LLM's.
Visuele teksten die in video's zijn ingebed, bevatten rijke semantische informatie, wat cruciaal is voor zowel een holistisch begrip van video's als voor gedetailleerde redeneringen over lokale menselijke acties. Bestaande benchmarks voor videobegrip negeren echter grotendeels tekstuele informatie, terwijl OCR-specifieke benchmarks beperkt zijn tot statische afbeeldingen, wat hun vermogen beperkt om de interactie tussen tekst en dynamische visuele contexten vast te leggen. Om deze kloof te overbruggen, stellen we VidText voor, een nieuwe benchmark die is ontworpen voor een uitgebreide en diepgaande evaluatie van tekstbegrip in video's. VidText biedt de volgende belangrijke kenmerken: 1) Het bestrijkt een breed scala aan realistische scenario's en ondersteunt meertalige inhoud, waarbij diverse omgevingen worden omvat waar tekst van nature in video's voorkomt. 2) Het introduceert een hiërarchisch evaluatiekader met taken op videoniveau, clipniveau en instantieniveau, waardoor zowel globale samenvatting als lokale retrievability kunnen worden beoordeeld. 3) De benchmark introduceert ook een reeks gepaarde perceptie-redeneertaken, variërend van visuele tekstperceptie tot cross-modale redenering tussen tekstuele en visuele informatie. Uitgebreide experimenten met 18 state-of-the-art Large Multimodal Models (LMM's) laten zien dat huidige modellen moeite hebben met de meeste taken, met aanzienlijke ruimte voor verbetering. Verdere analyse benadrukt de impact van zowel modelintrinsieke factoren, zoals invoerresolutie en OCR-capaciteit, als externe factoren, waaronder het gebruik van aanvullende informatie en Chain-of-Thought-redeneerstrategieën. We hopen dat VidText de huidige kloof in benchmarks voor videobegrip zal opvullen en als basis zal dienen voor toekomstig onderzoek naar multimodale redenering met videotekst in dynamische omgevingen.
De ontwikkeling van spraakfundamentmodellen (SFM's) zoals Whisper en SeamlessM4T heeft het vakgebied van spraakverwerking aanzienlijk vooruitgebracht. Hun gesloten karakter—met ontoegankelijke trainingsdata en code—vormt echter grote uitdagingen voor reproduceerbaarheid en eerlijke evaluatie. Terwijl andere domeinen aanzienlijke vooruitgang hebben geboekt richting open wetenschap door volledig transparante modellen te ontwikkelen die getraind zijn op open-source (OS) code en data, blijven soortgelijke inspanningen op het gebied van spraak beperkt. Om deze leemte te vullen, introduceren we FAMA, de eerste familie van open wetenschap SFM's voor Engels en Italiaans, getraind op meer dan 150.000 uur aan OS-spraakdata. Daarnaast presenteren we een nieuwe dataset met 16.000 uur aan opgeschoonde en pseudo-gelabelde spraak voor beide talen. Resultaten tonen aan dat FAMA competitieve prestaties behaalt in vergelijking met bestaande SFM's, terwijl het tot 8 keer sneller is. Alle artefacten, inclusief code, datasets en modellen, worden vrijgegeven onder OS-conforme licenties, wat openheid in spraaktechnologieonderzoek bevordert.
Veiligheidsredenering is een recent paradigma waarbij grote taalmodellen (LLMs) redeneren over veiligheidsbeleid voordat ze reacties genereren, waardoor beperkingen in bestaande veiligheidsmaatregelen, zoals overmatige weigering en jailbreak-kwetsbaarheden, worden gemitigeerd. Het implementeren van dit paradigma is echter uitdagend vanwege het arbeidsintensieve proces van het creëren van hoogwaardige datasets met beleidsingebedde ketens van gedachten (CoT), terwijl wordt gegarandeerd dat de redenering accuraat blijft en vrij is van hallucinaties of beleidsconflicten. Om dit aan te pakken, stellen we AIDSAFE voor: Agentic Iterative Deliberation for Safety Reasoning, een nieuwe datageneratiemethode die gebruikmaakt van multi-agent deliberatie om iteratief redenering over veiligheidsbeleid uit te breiden. Een dataverfijnerstap in AIDSAFE zorgt voor hoogwaardige uitvoer door repetitieve, redundante en misleidende gedachten te elimineren. AIDSAFE-gegenereerde CoT's bieden een sterke basis voor veiligheidstraining op basis van supervised fine-tuning (SFT). Daarnaast introduceren we, om de behoefte aan voorkeursdata in uitlijningsfasen, zoals DPO-training, aan te pakken, een aanvullende methode die gebruikmaakt van geloofsaugmentatie om duidelijke geselecteerde en afgewezen CoT-monsters te creëren. Onze evaluaties tonen aan dat AIDSAFE-gegenereerde CoT's superieure beleidsadherentie en redeneerkwaliteit bereiken. Hieruit blijkt dat het finetunen van open-source LLM's op deze CoT's de veiligheidsgeneralisatie en jailbreak-robuustheid aanzienlijk kan verbeteren, terwijl aanvaardbare bruikbaarheid en nauwkeurigheid bij overmatige weigering behouden blijven. AIDSAFE-gegenereerde CoT-datasets zijn hier te vinden: https://huggingface.co/datasets/AmazonScience/AIDSAFE
Zinsaccent verwijst naar de nadruk die wordt gelegd op specifieke woorden binnen een gesproken uiting om een idee te benadrukken of te contrasteren, of om nieuwe informatie te introduceren. Het wordt vaak gebruikt om een onderliggende bedoeling te impliceren die niet expliciet wordt uitgesproken. Recente vooruitgang in spraakbewuste taalmodelen (SLMs) heeft directe verwerking van audio mogelijk gemaakt, waardoor modellen transcriptie kunnen omzeilen en de volledige rijkdom van het spraaksignaal kunnen benutten, en taken zoals gesproken vraagbeantwoording kunnen uitvoeren. Ondanks de cruciale rol van zinsaccent bij het vormgeven van betekenis en sprekersintentie, wordt het grotendeels over het hoofd gezien bij de evaluatie en ontwikkeling van dergelijke modellen. In dit werk pakken we deze leemte aan door StressTest te introduceren, een benchmark die specifiek is ontworpen om het vermogen van een model te evalueren om interpretaties van gesproken zinnen te onderscheiden op basis van het accentpatroon. We beoordelen de prestaties van verschillende toonaangevende SLMs en constateren dat ze, ondanks hun algehele capaciteiten, slecht presteren op dergelijke taken. Om deze beperking te overwinnen, stellen we een nieuwe pijplijn voor synthetische datageneratie voor en creëren we Stress17k, een trainingsset die verandering van betekenis simuleert die wordt geïmpliceerd door accentvariatie. Vervolgens tonen we empirisch aan dat het optimaliseren van modellen met deze synthetische dataset goed aansluit bij echte opnames en effectieve finetuning van SLMs mogelijk maakt. De resultaten suggereren dat ons gefinetunede model, StresSLM, bestaande modellen aanzienlijk overtreft op zowel taken voor zinsaccentredenering als detectie. Code, modellen, data en audiovoorbeelden zijn beschikbaar op pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Sequence-modellen zoals transformers vereisen dat invoergegevens worden weergegeven als eendimensionale sequenties. In visuele toepassingen houdt dit doorgaans in dat afbeeldingen worden afgevlakt met behulp van een vaste rij-voor-rij (raster-scan) volgorde. Hoewel volledige self-attention permutatie-equivariant is, vertrouwen moderne transformers voor lange sequenties steeds meer op architectonische benaderingen die deze invariantie doorbreken en gevoeligheid introduceren voor de volgorde van patches. Wij tonen aan dat de volgorde van patches de modelprestaties in dergelijke situaties aanzienlijk beïnvloedt, waarbij eenvoudige alternatieven zoals kolom-voor-kolom of Hilbert-curven opmerkelijke verschuivingen in nauwkeurigheid veroorzaken. Gemotiveerd door dit inzicht stellen we REOrder voor, een tweestappenraamwerk voor het ontdekken van taakoptimale patchvolgordes. Eerst leiden we een informatie-theoretische prior af door de comprimeerbaarheid van verschillende patchsequenties te evalueren. Vervolgens leren we een beleid over permutaties door een Plackett-Luce-beleid te optimaliseren met behulp van REINFORCE. Deze aanpak maakt efficiënt leren mogelijk in een combinatorische permutatieruimte. REOrder verbetert de top-1 nauwkeurigheid ten opzichte van rij-voor-rij ordening op ImageNet-1K met maximaal 3,01% en op Functional Map of the World met 13,35%.
Theoriebewijzen dient als een belangrijke testomgeving voor het evalueren van complexe redeneervaardigheden in grote taalmodellen (LLM's). Traditionele benaderingen van automatisch theoriebewijzen (ATP) zijn echter sterk afhankelijk van formele bewijssystemen die slecht aansluiten bij de kracht van LLM's, die voortkomt uit informele, natuurlijke taal kennis die is opgedaan tijdens pre-training. In dit werk stellen we DeepTheorem voor, een uitgebreid informeel theoriebewijskader dat natuurlijke taal benut om het wiskundig redeneren van LLM's te verbeteren. DeepTheorem omvat een grootschalige benchmarkdataset bestaande uit 121K hoogwaardige informele theorema's en bewijzen op IMO-niveau, die diverse wiskundige domeinen bestrijken, rigoureus geannoteerd op correctheid, moeilijkheidsgraad en onderwerpcategorieën, en vergezeld gaan van systematisch geconstrueerde verifieerbare theorema-varianten. We ontwikkelen een nieuwe reinforcement learning strategie (RL-Zero) die expliciet is afgestemd op informeel theoriebewijzen, waarbij gebruik wordt gemaakt van de geverifieerde theorema-varianten om robuust wiskundig redeneren te stimuleren. Daarnaast stellen we uitgebreide evaluatiemetrics voor resultaten en processen voor, die de correctheid van bewijzen en de kwaliteit van redeneerstappen onderzoeken. Uitgebreide experimentele analyses tonen aan dat DeepTheorem de prestaties van LLM's op het gebied van theoriebewijzen aanzienlijk verbetert in vergelijking met bestaande datasets en supervised fine-tuning protocollen, waarbij state-of-the-art nauwkeurigheid en redeneerkwaliteit worden bereikt. Onze bevindingen benadrukken het potentieel van DeepTheorem om geautomatiseerd informeel theoriebewijzen en wiskundige exploratie fundamenteel vooruit te helpen.
Unified generation models streven ernaar diverse taken over verschillende modaliteiten te behandelen -- zoals tekstgeneratie, beeldgeneratie en visueel-taalkundig redeneren -- binnen een enkele architectuur en decodeerparadigma. Autoregressieve unified models lijden aan trage inferentie door sequentiële decodering, en niet-autoregressieve unified models hebben last van zwakke generalisatie door beperkte voorgetrainde backbones. Wij introduceren Muddit, een unified discrete diffusion transformer die snelle en parallelle generatie mogelijk maakt over zowel tekst- als beeldmodaliteiten. In tegenstelling tot eerdere unified diffusion models die vanaf nul worden getraind, integreert Muddit sterke visuele priors van een voorgetrainde tekst-naar-beeld-backbone met een lichtgewicht tekstdecoder, waardoor flexibele en hoogwaardige multimodale generatie mogelijk wordt onder een unified architectuur. Empirische resultaten tonen aan dat Muddit concurrerende of superieure prestaties behaalt in vergelijking met aanzienlijk grotere autoregressieve modellen, zowel in kwaliteit als efficiëntie. Het werk benadrukt het potentieel van puur discrete diffusie, wanneer uitgerust met sterke visuele priors, als een schaalbare en effectieve backbone voor unified generatie.
Reinforcement learning-algoritmen zijn essentieel om grote taalmodellen af te stemmen op menselijke voorkeuren en hun redeneervermogen te verbeteren. Huidige reinforcement learning-algoritmen kampen echter vaak met trainingsinstabiliteit door losse on-policy-beperkingen en computationele inefficiëntie door het gebruik van aanvullende modellen. In dit werk introduceren we On-Policy RL met een optimale beloningsbaseline (OPO), een nieuw en vereenvoudigd reinforcement learning-algoritme dat deze uitdagingen aanpakt. OPO benadrukt het belang van exacte on-policy-training, wat empirisch gezien het trainingsproces stabiliseert en de exploratie verbetert. Bovendien introduceert OPO de optimale beloningsbaseline, die theoretisch de variantie van de gradiënt minimaliseert. We evalueren OPO op benchmarks voor wiskundig redeneren. De resultaten tonen de superieure prestaties en trainingsstabiliteit aan, zonder extra modellen of regularisatietermen. Verder bereikt OPO lagere policy-verschuivingen en een hogere output-entropie, wat meer diverse en minder repetitieve reacties stimuleert. Deze resultaten benadrukken OPO als een veelbelovende richting voor stabiele en effectieve reinforcement learning bij het afstemmen van grote taalmodellen en redeneertaken. De implementatie is beschikbaar op https://github.com/microsoft/LMOps/tree/main/opo.
Diffusiemodellen hebben een opmerkelijke generatiekwaliteit getoond, maar tegen de kosten van talrijke functie-evaluaties. Recentelijk zijn geavanceerde ODE-gebaseerde oplossers ontwikkeld om de aanzienlijke rekenkundige eisen van reverse-diffusie-oplossing bij beperkte steekproefstappen te verminderen. Deze oplossers, die sterk geïnspireerd zijn door Adams-achtige meerstapsmethoden, vertrouwen echter uitsluitend op t-gerelateerde Lagrange-interpolatie. Wij tonen aan dat t-gerelateerde Lagrange-interpolatie suboptimaal is voor diffusiemodellen en onthullen een compacte zoekruimte die bestaat uit tijdstappen en oplossercoëfficiënten. Op basis van onze analyse stellen we een nieuw differentieerbaar oplosserzoekalgoritme voor om een meer optimale oplosser te identificeren. Uitgerust met de gezochte oplosser behalen rectified-flow-modellen, zoals SiT-XL/2 en FlowDCN-XL/2, respectievelijk FID-scores van 2.40 en 2.35 op ImageNet256 met slechts 10 stappen. Tegelijkertijd bereikt het DDPM-model, DiT-XL/2, een FID-score van 2.33 met slechts 10 stappen. Opmerkelijk is dat onze gezochte oplosser traditionele oplossers met een aanzienlijke marge overtreft. Bovendien toont onze gezochte oplosser generaliseerbaarheid over verschillende modelarchitecturen, resoluties en modelgroottes.
Chain-of-thought (CoT) redeneren stelt grote taalmodellen (LLMs) in staat om verder te gaan dan snelle System-1 reacties en zich bezig te houden met doordacht System-2 redeneren. Dit gaat echter gepaard met aanzienlijke inefficiëntie vanwege uitgebreide tussenliggende output. Recente latent-space redeneermethoden verbeteren de efficiëntie door te werken op verborgen toestanden zonder deze te decoderen naar taal, maar ze behandelen alle stappen uniform, waardoor kritieke deducties niet worden onderscheiden van hulpstappen, wat resulteert in een suboptimaal gebruik van rekenbronnen. In dit artikel stellen we System-1.5 Redeneren voor, een adaptief redeneerkader dat dynamisch rekenkracht toewijst over redeneerstappen via snelkoppelingen in de latent space. Specifiek introduceert System-1.5 Redeneren twee soorten dynamische snelkoppelingen. De modeldiepte-snelkoppeling (DS) redeneert adaptief langs de verticale diepte door vroegtijdig uit te stappen bij niet-kritieke tokens via lichtgewicht adaptertakken, terwijl kritieke tokens worden toegestaan om door te gaan via diepere Transformer-lagen. De stapsnelkoppeling (SS) hergebruikt verborgen toestanden over de decodeerstappen om triviale stappen over te slaan en horizontaal te redeneren in de latent space. Het trainen van System-1.5 Redeneren omvat een tweestaps zelfdistillatieproces: eerst wordt natuurlijke taal CoT gedistilleerd naar continue gedachten in de latent space, en vervolgens wordt volledig pad System-2 latent redeneren gedistilleerd naar adaptieve snelkoppelingspaden (System-1.5 Redeneren). Experimenten op redeneertaken demonstreren de superieure prestaties van onze methode. Op GSM8K bereikt System-1.5 Redeneren bijvoorbeeld redeneerprestaties die vergelijkbaar zijn met traditionele CoT fine-tuning methoden, terwijl de inferentie met meer dan 20x wordt versneld en de token-generatie met gemiddeld 92,31% wordt verminderd.
Transformer-gebaseerde grote taalmodellen (LLM's) slaan context op als sleutel-waarde (KV) paren tijdens inferentie. Naarmate de contextlengte toeneemt, nemen de KV-cachegroottes toe, wat leidt tot aanzienlijke geheugenoverhead en verhoogde aandachtslatentie. Dit artikel introduceert KVzip, een query-agnostische KV-cache-evictiemethode die effectief hergebruik van gecomprimeerde KV-caches mogelijk maakt bij diverse queries. KVzip kwantificeert het belang van een KV-paar door het onderliggende LLM te gebruiken om originele contexten te reconstrueren uit gecachete KV-paren, waarna paren met een lager belang worden verwijderd. Uitgebreide empirische evaluaties tonen aan dat KVzip de KV-cachegrootte met 3-4 keer reduceert en de FlashAttention-decoderinglatentie met ongeveer 2 keer verlaagt, met verwaarloosbaar prestatieverlies bij taken zoals vraag-antwoord, retrieval, redeneren en codebegrip. Evaluaties omvatten diverse modellen zoals LLaMA3.1-8B, Qwen2.5-14B en Gemma3-12B, met contextlengtes tot 170K tokens. KVzip overtreft aanzienlijk bestaande query-aware KV-evictiemethoden, die te lijden hebben onder prestatieverlies zelfs bij een cachebudgetratio van 90% in multi-query scenario's.
Bestaande benchmarks voor videobegrip verwarren vaak kennisgebaseerde en puur beeldgebaseerde vragen, in plaats van het temporele redeneervermogen van een model duidelijk te isoleren, wat het cruciale aspect is dat videobegrip onderscheidt van andere modaliteiten. We identificeren twee belangrijke beperkingen die verhullen of hogere scores daadwerkelijk een beter begrip van de dynamische inhoud in video's aangeven: (1) sterke taalprioriteiten, waarbij modellen vragen kunnen beantwoorden zonder de video te bekijken; en (2) schud-invariantie, waarbij modellen vergelijkbare prestaties behouden op bepaalde vragen, zelfs wanneer videoframes tijdelijk door elkaar worden geschud. Om deze problemen te verlichten, stellen we VBenchComp voor, een geautomatiseerde pipeline die vragen categoriseert in verschillende domeinen: LLM-beantwoordbaar, Semantisch en Temporeel. Specifiek kunnen LLM-beantwoordbare vragen worden beantwoord zonder de video te bekijken; Semantische vragen blijven beantwoordbaar, zelfs wanneer de videoframes door elkaar worden geschud; en Temporele vragen vereisen begrip van de juiste temporele volgorde van frames. De overige vragen worden gelabeld als Overig. Dit maakt een gedetailleerde evaluatie mogelijk van verschillende capaciteiten van een video-LLM. Onze analyse onthult subtiele modelzwaktes die verborgen blijven door traditionele algemene scores, en we bieden inzichten en aanbevelingen voor het ontwerpen van toekomstige benchmarks die video-LLM's nauwkeuriger beoordelen.
Recente vooruitgang in grote taalmodel (LLM) agents heeft de automatisering van wetenschappelijke ontdekkingen aanzienlijk versneld, maar tegelijkertijd ook kritische ethische en veiligheidskwesties opgeworpen. Om deze uitdagingen systematisch aan te pakken, introduceren we SafeScientist, een innovatief AI-wetenschapper framework dat expliciet is ontworpen om veiligheid en ethische verantwoordelijkheid te vergroten in AI-gedreven wetenschappelijke exploratie. SafeScientist weigert proactief ethisch ongepaste of hoogrisicotaken en benadrukt strikt veiligheid gedurende het onderzoeksproces. Om een uitgebreid veiligheidstoezicht te bereiken, integreren we meerdere defensiemechanismen, waaronder promptmonitoring, agent-samenwerkingsmonitoring, toolgebruiksmonitoring en een ethische beoordelingscomponent. Als aanvulling op SafeScientist stellen we SciSafetyBench voor, een nieuwe benchmark die specifiek is ontworpen om AI-veiligheid in wetenschappelijke contexten te evalueren, bestaande uit 240 hoogrisicowetenschappelijke taken verspreid over 6 domeinen, naast 30 speciaal ontworpen wetenschappelijke tools en 120 toolgerelateerde risicotaken. Uitgebreide experimenten tonen aan dat SafeScientist de veiligheidsprestaties met 35\% verbetert in vergelijking met traditionele AI-wetenschapper frameworks, zonder in te leveren op de kwaliteit van wetenschappelijke output. Daarnaast valideren we grondig de robuustheid van onze veiligheidspijplijn tegen diverse adversariële aanvalsmethoden, wat de effectiviteit van onze geïntegreerde aanpak verder bevestigt. De code en data zullen beschikbaar zijn op https://github.com/ulab-uiuc/SafeScientist. **Waarschuwing: dit artikel bevat voorbeeldgegevens die aanstootgevend of schadelijk kunnen zijn.**
Recente ontwikkelingen in wereldmodellen hebben een revolutie teweeggebracht in de simulatie van dynamische omgevingen, waardoor systemen toekomstige toestanden kunnen voorzien en potentiële acties kunnen beoordelen. In autonoom rijden helpen deze mogelijkheden voertuigen om het gedrag van andere weggebruikers te anticiperen, risicobewuste planning uit te voeren, training in simulatie te versnellen en zich aan te passen aan nieuwe scenario's, waardoor de veiligheid en betrouwbaarheid worden verbeterd. Huidige benaderingen vertonen tekortkomingen in het handhaven van robuuste 3D-geometrische consistentie of het accumuleren van artefacten tijdens het omgaan met occlusies, beide cruciaal voor een betrouwbare veiligheidsbeoordeling in autonome navigatietaken. Om dit aan te pakken, introduceren we GeoDrive, dat expliciet robuuste 3D-geometrievoorwaarden integreert in rijdende wereldmodellen om het ruimtelijk begrip en de actiebeheersbaarheid te verbeteren. Specifiek extraheren we eerst een 3D-representatie uit het invoerframe en verkrijgen we vervolgens de 2D-weergave op basis van de door de gebruiker gespecificeerde ego-auto-traject. Om dynamische modellering mogelijk te maken, stellen we een dynamische bewerkingsmodule voor tijdens de training om de weergaven te verbeteren door de posities van de voertuigen te bewerken. Uitgebreide experimenten tonen aan dat onze methode bestaande modellen aanzienlijk overtreft in zowel actienauwkeurigheid als 3D-ruimtelijk bewustzijn, wat leidt tot realistischer, aanpasbaarder en betrouwbaarder scènemodellering voor veiliger autonoom rijden. Daarnaast kan ons model generaliseren naar nieuwe trajecten en biedt het interactieve scènebewerkingsmogelijkheden, zoals objectbewerking en objecttrajectcontrole.
Arts-patiënt consultaties vereisen een meerzijdige, contextbewuste communicatie die is afgestemd op diverse patiëntpersona's. Het trainen of evalueren van arts-LLM's in dergelijke situaties vereist realistische patiëntinteractiesystemen. Echter, bestaande simulatoren slagen er vaak niet in het volledige scala aan persona's uit de klinische praktijk te weerspiegelen. Om dit aan te pakken, introduceren we PatientSim, een patiëntsimulator die realistische en diverse patiëntpersona's genereert voor klinische scenario's, gebaseerd op medische expertise. PatientSim werkt met: 1) klinische profielen, inclusief symptomen en medische geschiedenis, afgeleid uit real-world data in de MIMIC-ED en MIMIC-IV datasets, en 2) persona's gedefinieerd door vier assen: persoonlijkheid, taalvaardigheid, niveau van medische geschiedenisherinnering en niveau van cognitieve verwarring, wat resulteert in 37 unieke combinaties. We evalueerden acht LLM's op feitelijke nauwkeurigheid en persona-consistentie. Het best presterende open-source model, Llama 3.3, werd gevalideerd door vier clinici om de robuustheid van ons raamwerk te bevestigen. Als een open-source, aanpasbaar platform biedt PatientSim een reproduceerbare en schaalbare oplossing die kan worden aangepast aan specifieke trainingsbehoeften. Het biedt een privacy-compliant omgeving en fungeert als een robuust testbed voor het evalueren van medische dialoogsystemen bij diverse patiëntpresentaties en toont potentie als een educatief hulpmiddel voor de gezondheidszorg.
Videogeneratie heeft aanzienlijke vooruitgang geboekt met de opkomst van diepe generatieve modellen, met name diffusiegebaseerde benaderingen. Echter blijft videogeneratie op basis van meerdere referentieonderwerpen aanzienlijke uitdagingen ondervinden bij het handhaven van multi-onderwerpconsistentie en het waarborgen van hoge generatiekwaliteit. In dit artikel stellen we MAGREF voor, een uniform raamwerk voor videogeneratie met elke referentie, dat gemaskeerde begeleiding introduceert om coherente multi-onderwerp videosynthese mogelijk te maken, gebaseerd op diverse referentiebeelden en een tekstuele prompt. Specifiek stellen we (1) een regio-bewust dynamisch maskeringsmechanisme voor dat een enkel model in staat stelt flexibel om te gaan met verschillende onderwerpinferenties, waaronder mensen, objecten en achtergronden, zonder architectuurwijzigingen, en (2) een pixelgewijs kanaalconcatenatiemechanisme dat werkt op de kanaaldimensie om uiterlijkkenmerken beter te behouden. Ons model levert state-of-the-art videogeneratiekwaliteit, generaliserend van training met één onderwerp naar complexe multi-onderwerpscenario's met coherente synthese en precieze controle over individuele onderwerpen, waarbij het bestaande open-source en commerciële baselines overtreft. Om evaluatie te vergemakkelijken, introduceren we ook een uitgebreide multi-onderwerp videobenchmark. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan, waardoor de weg wordt vrijgemaakt voor schaalbare, controleerbare en hoogwaardige multi-onderwerp videosynthese. Code en model zijn te vinden op: https://github.com/MAGREF-Video/MAGREF
Grote Taalmodellen (LLMs) genereren functioneel correcte oplossingen, maar schieten vaak tekort in code-efficiëntie, een kritieke bottleneck voor implementatie in de praktijk. In dit artikel introduceren we een nieuw testtijd iteratief optimalisatiekader om dit aan te pakken, waarbij we een gesloten systeem gebruiken waarin LLMs code iteratief verfijnen op basis van empirische prestatiefeedback vanuit een uitvoeringssandbox. We onderzoeken drie trainingsstrategieën: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) en Group Relative Policy Optimization (GRPO). Experimenten op onze Venus-dataset en de APPS-benchmark laten zien dat SFT en DPO snel verzadigen in efficiëntiewinsten. In tegenstelling daartoe optimaliseert GRPO, dat gebruikmaakt van reinforcement learning (RL) met uitvoeringsfeedback, de code-prestaties continu, wat zowel de pass@1 aanzienlijk verbetert (van 47% naar 62%) als de kans vergroot om menselijke inzendingen in efficiëntie te overtreffen (van 31% naar 45%). Ons werk toont effectieve testtijd verbetering van code-efficiëntie aan en onthult kritisch de kracht van RL in het leren van LLMs om code-efficiëntie daadwerkelijk zelf te verbeteren.
Grote taalmodellen (LLMs) hebben veelbelovend potentieel getoond in overtuiging, maar bestaande werken over het trainen van LLM-overtuigers zijn nog voorlopig. Opmerkelijk is dat, terwijl mensen bedreven zijn in het proactief en dynamisch modelleren van de gedachten en meningen van hun tegenstander, huidige LLMs moeite hebben met dergelijke Theory of Mind (ToM)-redenering, wat resulteert in beperkte diversiteit en bewustzijn van de tegenstander. Om deze beperking aan te pakken, introduceren we Theory of Mind Augmented Persuader (ToMAP), een nieuwe benadering voor het bouwen van flexibelere overtuigingsagenten door het incorporeren van twee Theory of Mind-modules die het bewustzijn en de analyse van de mentale toestand van de tegenstander verbeteren. Specifiek beginnen we door de overtuiger te stimuleren om mogelijke bezwaren tegen de centrale claim te overwegen, en gebruiken vervolgens een tekstencoder in combinatie met een getrainde MLP-classificator om de huidige standpunt van de tegenstander over deze tegenclaims te voorspellen. Ons zorgvuldig ontworpen reinforcement learning-schema stelt de overtuiger in staat om te leren hoe hij tegenstander-gerelateerde informatie kan analyseren en gebruiken om effectievere argumenten te genereren. Experimenten tonen aan dat de ToMAP-overtuiger, hoewel deze slechts 3B parameters bevat, veel grotere baselines, zoals GPT-4o, overtreft met een relatieve winst van 39,4% over meerdere overtuigingsmodellen en diverse corpora. Opmerkelijk is dat ToMAP complexe redeneerketens en verminderde herhaling tijdens de training vertoont, wat leidt tot meer diverse en effectieve argumenten. Het tegenstander-bewuste kenmerk van ToMAP maakt het ook geschikt voor lange gesprekken en stelt het in staat om meer logische en tegenstander-bewuste strategieën te hanteren. Deze resultaten onderstrepen de effectiviteit van onze methode en benadrukken het potentieel voor het ontwikkelen van meer overtuigende taalagenten. Code is beschikbaar op: https://github.com/ulab-uiuc/ToMAP.
Recente vooruitgang in Large Vision-Language Models (LVLMs) heeft veelbelovende toepassingen mogelijk gemaakt in medische taken, zoals rapportgeneratie en visuele vraagbeantwoording. Bestaande benchmarks richten zich echter voornamelijk op het uiteindelijke diagnostische antwoord, wat beperkt inzicht biedt in of modellen klinisch zinvolle redeneringen toepassen. Om dit aan te pakken, presenteren we CheXStruct en CXReasonBench, een gestructureerde pijplijn en benchmark gebaseerd op het publiek beschikbare MIMIC-CXR-JPG-dataset. CheXStruct leidt automatisch een reeks tussenliggende redeneerstappen af direct uit thoraxfoto's, zoals het segmenteren van anatomische regio's, het afleiden van anatomische oriëntatiepunten en diagnostische metingen, het berekenen van diagnostische indices en het toepassen van klinische drempelwaarden. CXReasonBench maakt gebruik van deze pijplijn om te evalueren of modellen klinisch valide redeneerstappen kunnen uitvoeren en in hoeverre ze kunnen leren van gestructureerde begeleiding, waardoor een gedetailleerde en transparante beoordeling van diagnostische redenering mogelijk wordt. De benchmark omvat 18.988 vraag-antwoordparen over 12 diagnostische taken en 1.200 gevallen, elk gekoppeld aan maximaal 4 visuele invoeren, en ondersteunt multi-path, multi-stage evaluatie, inclusief visuele verankering via anatomische regioselectie en diagnostische metingen. Zelfs de sterkste van de 10 geëvalueerde LVLMs worstelen met gestructureerd redeneren en generalisatie, waarbij ze vaak falen om abstracte kennis te koppelen aan anatomisch verankerde visuele interpretatie. De code is beschikbaar op https://github.com/ttumyche/CXReasonBench.
In dit artikel verenigen we meer dan 10 bestaande één-staps diffusiedistillatiebenaderingen, zoals Diff-Instruct, DMD, SIM, SiD, f-distill, etc., binnen een theoriegedreven raamwerk dat we \emph{Uni-Instruct} noemen. Uni-Instruct is geïnspireerd door onze voorgestelde diffusie-uitbreidingstheorie van de f-divergentiefamilie. Vervolgens introduceren we sleuteltheorieën die de onhanteerbaarheidskwestie van de originele uitgebreide f-divergentie overwinnen, wat resulteert in een equivalente maar hanteerbare verliesfunctie die één-staps diffusiemodellen effectief traint door de uitgebreide f-divergentiefamilie te minimaliseren. De nieuwe unificatie die door Uni-Instruct wordt geïntroduceerd, biedt niet alleen nieuwe theoretische bijdragen die helpen om bestaande benaderingen vanuit een hoog niveau te begrijpen, maar leidt ook tot state-of-the-art prestaties in één-staps diffusiegeneratie. Op de CIFAR10-generatiebenchmark behaalt Uni-Instruct recordbrekende Frechet Inception Distance (FID)-waarden van \emph{1.46} voor onvoorwaardelijke generatie en \emph{1.38} voor voorwaardelijke generatie. Op de ImageNet-64x64-generatiebenchmark behaalt Uni-Instruct een nieuwe SoTA één-staps generatie-FID van \emph{1.02}, wat zijn 79-staps leraar-diffusie overtreft met een significante verbeteringsmarge van 1.33 (1.02 vs 2.35). We passen Uni-Instruct ook toe op bredere taken zoals tekst-naar-3D-generatie. Voor tekst-naar-3D-generatie geeft Uni-Instruct behoorlijke resultaten, die eerdere methoden, zoals SDS en VSD, lichtjes overtreffen in termen van zowel generatiekwaliteit als diversiteit. Zowel de solide theoretische als empirische bijdragen van Uni-Instruct zullen mogelijk toekomstige studies over één-staps diffusiedistillatie en kennisoverdracht van diffusiemodellen helpen.
Wij stellen een uniform raamwerk voor voor bewegingscontrole in videogeneratie dat naadloos camerabeweging, objectniveau vertaling en fijnmazige lokale beweging integreert met behulp van trajectgebaseerde invoer. In tegenstelling tot eerdere methoden die deze bewegingsvormen via afzonderlijke modules of taakspecifieke ontwerpen aanpakken, biedt onze aanpak een samenhangende oplossing door door de gebruiker gedefinieerde trajecten te projecteren in de latente ruimte van vooraf getrainde beeld-naar-video generatiemodellen via een lichtgewicht beweginginjector. Gebruikers kunnen sleutelpunten en hun bewegingspaden specificeren om gelokaliseerde vervormingen, volledige objectbeweging, virtuele cameradynamiek of combinaties hiervan te controleren. De geïnjecteerde trajectsignalen begeleiden het generatieve proces om temporeel consistente en semantisch uitgelijnde bewegingssequenties te produceren. Ons raamwerk toont superieure prestaties over meerdere videobewegingscontroletaken, waaronder gestileerde bewegingseffecten (bijv. bewegingpenselen), dynamische gezichtspuntveranderingen en precieze lokale bewegingsmanipulatie. Experimenten tonen aan dat onze methode aanzienlijk betere bestuurbaarheid en visuele kwaliteit biedt in vergelijking met eerdere benaderingen en commerciële oplossingen, terwijl het breed compatibel blijft met verschillende state-of-the-art videogeneratie backbones. Projectpagina: https://anytraj.github.io/.
Diffusion Transformers (DiT) zijn inmiddels het standaardmodel geworden voor het genereren van hoogwaardige visuele content zoals video's en afbeeldingen. Een groot knelpunt is het aandachtmechanisme, waarvan de complexiteit kwadratisch toeneemt met de resolutie en de lengte van de video. Een logische manier om deze belasting te verminderen is sparse attention, waarbij slechts een subset van tokens of patches wordt meegenomen in de berekening. Bestaande technieken slagen er echter niet in om de visuele kwaliteit te behouden bij extreem hoge sparsity-niveaus en kunnen zelfs aanzienlijke rekenkosten met zich meebrengen. % Om dit probleem aan te pakken, stellen we Re-ttention voor, dat zeer hoge sparse attention implementeert voor visuele generatiemodellen door gebruik te maken van de temporele redundantie van Diffusion Models om de probabilistische normalisatieverschuiving binnen het aandachtmechanisme te overwinnen. Specifiek hervormt Re-ttention de aandachtsscores op basis van de eerdere softmax-distributiegeschiedenis om de visuele kwaliteit van de volledige kwadratische aandacht te behouden bij zeer hoge sparsity-niveaus. % Experimentele resultaten op T2V/T2I-modellen zoals CogVideoX en de PixArt DiTs laten zien dat Re-ttention slechts 3,1\% van de tokens nodig heeft tijdens inferentie, wat beter presteert dan hedendaagse methoden zoals FastDiTAttn, Sparse VideoGen en MInference. Verder meten we de latentie om aan te tonen dat onze methode een end-to-end reductie van meer dan 45\% % en een reductie van meer dan 92\% in de latentie van self-attention kan bereiken op een H100 GPU tegen verwaarloosbare overheadkosten. Code is online beschikbaar hier: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
We trainden 13.440 grote taalmodellen en ontdekten dat entropieminimalisatie slechts één ongelabeld datapunt en 10 optimalisatiestappen vereist om prestatieverbeteringen te bereiken die vergelijkbaar zijn met of zelfs groter dan die verkregen met duizenden datapunten en zorgvuldig ontworpen beloningen in regelgebaseerde reinforcement learning. Dit opvallende resultaat kan aanleiding geven tot een herziening van post-trainingsparadigma's voor grote taalmodellen. Onze code is beschikbaar op https://github.com/zitian-gao/one-shot-em.
Audioscheiding is fundamenteel voor machines om complexe akoestische omgevingen te begrijpen en vormt de basis voor talrijke audio-toepassingen. Huidige, door diep leren aangestuurde benaderingen, hoewel krachtig, worden beperkt door de noodzaak van uitgebreide, taakspecifieke gelabelde data en hebben moeite om te generaliseren naar de enorme variabiliteit en open-set aard van real-world akoestische scènes. Geïnspireerd door het succes van generatieve foundation-modellen, onderzoeken we of vooraf getrainde tekstgestuurde audio-diffusiemodellen deze beperkingen kunnen overwinnen. We doen een verrassende ontdekking: zero-shot audioscheiding kan worden bereikt puur door een vooraf getraind tekstgestuurd audio-diffusiemodel onder de juiste configuratie. Onze methode, genaamd ZeroSep, werkt door het gemengde audio-signaal om te keren in de latente ruimte van het diffusiemodel en vervolgens tekstconditionering te gebruiken om het denoisingsproces te sturen om individuele bronnen te herstellen. Zonder enige taakspecifieke training of fine-tuning, hergebruikt ZeroSep het generatieve diffusiemodel voor een discriminerende scheidingstaak en ondersteunt het inherent open-set scenario's door zijn rijke tekstuele priors. ZeroSep is compatibel met een verscheidenheid aan vooraf getrainde tekstgestuurde audio-diffusiebackbones en levert sterke scheidingsprestaties op meerdere scheidingsbenchmarks, waarbij het zelfs gesuperviseerde methoden overtreft.
Recente Large Reasoning Models (LRMs) met denksporen hebben sterke prestaties getoond op Engelse redeneertaken. Hun vermogen om in andere talen te denken is echter minder bestudeerd. Deze capaciteit is net zo belangrijk als antwoordnauwkeurigheid voor praktische toepassingen, omdat gebruikers het redeneerspoor mogelijk alleen nuttig vinden voor toezicht wanneer het in hun eigen taal wordt uitgedrukt. We evalueren twee toonaangevende families van LRMs uitgebreid op ons XReasoning-benchmark en ontdekken dat zelfs de meest geavanceerde modellen vaak terugvallen op Engels of gefragmenteerd redeneren in andere talen produceren, wat een aanzienlijke kloof in meertalig redeneren blootlegt. Prompt-gebaseerde interventies die modellen dwingen om in de taal van de gebruiker te redeneren, verbeteren de leesbaarheid en het toezicht, maar verminderen de antwoordnauwkeurigheid, wat een belangrijke afweging blootlegt. We laten verder zien dat gerichte na-training op slechts 100 voorbeelden deze mismatch vermindert, hoewel enig verlies aan nauwkeurigheid blijft bestaan. Onze resultaten benadrukken de beperkte meertalige redeneercapaciteiten van huidige LRMs en schetsen richtingen voor toekomstig onderzoek. Code en data zijn beschikbaar op https://github.com/Betswish/mCoT-XReasoning.
De opmerkelijke groei in de mogelijkheden van grote taalmodellen (LLM's) heeft geleid tot verkenning van multi-agent systemen, waarbij debatkaders naar voren komen als een veelbelovende benadering voor verbeterd probleemoplossen. Deze multi-agent debat (MAD) methoden, waarbij agenten samen argumenten presenteren, bekritiseren en verfijnen, bieden mogelijk verbeterde redenering, robuustheid en diverse perspectieven in vergelijking met monolithische modellen. Ondanks eerdere studies die MAD benutten, blijft een systematisch begrip van de effectiviteit ervan in vergelijking met zelf-agent methoden, vooral onder wisselende omstandigheden, ongrijpbaar. Dit artikel tracht deze leemte te vullen door MAD te conceptualiseren als een testtijd computationele schaaltechniek, gekenmerkt door collaboratieve verfijning en diverse verkenningmogelijkheden. We voeren een uitgebreid empirisch onderzoek uit waarin MAD wordt vergeleken met sterke zelf-agent testtijd schaalbenchmarks op wiskundig redeneren en veiligheidsgerelateerde taken. Onze studie onderzoekt systematisch de invloed van taakmoeilijkheid, modelschaal en agentdiversiteit op de prestaties van MAD. Belangrijke bevindingen tonen aan dat, voor wiskundig redeneren, MAD beperkte voordelen biedt ten opzichte van zelf-agent schaling, maar effectiever wordt met toenemende probleemmoeilijkheid en afnemende modelcapaciteit, terwijl agentdiversiteit weinig voordeel biedt. Daarentegen kan voor veiligheidstaken de collaboratieve verfijning van MAD de kwetsbaarheid vergroten, maar het opnemen van diverse agentconfiguraties vergemakkelijkt een geleidelijke vermindering van de aanvalssucces door het collaboratieve verfijningsproces. Wij geloven dat onze bevindingen cruciale richtlijnen bieden voor de toekomstige ontwikkeling van effectiever en strategischer ingezette MAD-systemen.
Rebusraadsels, visuele puzzels die taal coderen door middel van beeldtaal, ruimtelijke ordening en symbolische substitutie, vormen een unieke uitdaging voor huidige vision-language modellen (VLMs). In tegenstelling tot traditionele beeldbeschrijvingen of vraag-antwoordtaken vereist het oplossen van rebusraadsels multi-modale abstractie, symbolisch redeneren en een begrip van culturele, fonetische en taalkundige woordspelingen. In dit artikel onderzoeken we het vermogen van hedendaagse VLMs om rebusraadsels te interpreteren en op te lossen door het construeren van een handmatig gegenereerde en geannoteerde benchmark van diverse Engelstalige rebusraadsels, variërend van eenvoudige pictografische substituties tot ruimtelijk afhankelijke aanwijzingen ("hoofd" boven "hielen"). We analyseren hoe verschillende VLMs presteren, en onze bevindingen laten zien dat hoewel VLMs enkele verrassende capaciteiten vertonen in het decoderen van eenvoudige visuele aanwijzingen, ze aanzienlijk moeite hebben met taken die abstract redeneren, lateraal denken en het begrijpen van visuele metaforen vereisen.
We presenteren UniTEX, een innovatief tweestaps 3D-textuurgeneratieframework voor het creëren van hoogwaardige, consistente texturen voor 3D-assets. Bestaande benaderingen vertrouwen voornamelijk op UV-gebaseerde inpainting om texturen te verfijnen na het opnieuw projecteren van de gegenereerde multi-view afbeeldingen op de 3D-vormen, wat uitdagingen met zich meebrengt gerelateerd aan topologische ambiguïteit. Om dit aan te pakken, stellen we voor om de beperkingen van UV-mapping te omzeilen door direct te werken in een verenigde 3D-functionele ruimte. Specifiek stellen we eerst voor om textuurgeneratie naar 3D-ruimte te tillen via Texture Functions (TFs)—een continue, volumetrische representatie die elk 3D-punt mapt naar een textuurwaarde op basis van oppervlakteproximiteit, onafhankelijk van mesh-topologie. Vervolgens stellen we voor om deze TFs direct te voorspellen vanuit afbeeldingen en geometrie-invoer met behulp van een transformer-gebaseerd Large Texturing Model (LTM). Om de textuurkwaliteit verder te verbeteren en krachtige 2D-priors te benutten, ontwikkelen we een geavanceerde LoRA-gebaseerde strategie voor het efficiënt aanpassen van grootschalige Diffusion Transformers (DiTs) voor hoogwaardige multi-view textuursynthese als onze eerste fase. Uitgebreide experimenten tonen aan dat UniTEX superieure visuele kwaliteit en textuurintegriteit bereikt in vergelijking met bestaande benaderingen, en biedt een generaliseerbare en schaalbare oplossing voor geautomatiseerde 3D-textuurgeneratie. Code zal beschikbaar zijn op: https://github.com/YixunLiang/UniTEX.
Feed-forward 3D Gaussian Splatting (3DGS) modellen zijn recent naar voren gekomen als een veelbelovende oplossing voor het synthetiseren van nieuwe gezichtspunten, waarbij ze eenmalige inferentie mogelijk maken zonder de noodzaak van per-scene 3DGS optimalisatie. Hun schaalbaarheid wordt echter fundamenteel beperkt door de beperkte capaciteit van hun encoders, wat leidt tot verminderde prestaties of excessief geheugengebruik naarmate het aantal invoerbeelden toeneemt. In dit werk analyseren we feed-forward 3DGS frameworks vanuit het perspectief van het Information Bottleneck-principe en introduceren we ZPressor, een lichtgewicht architectuuronafhankelijke module die efficiënte compressie van multi-view invoer mogelijk maakt in een compacte latente toestand Z die essentiële scène-informatie behoudt terwijl redundantie wordt verwijderd. Concreet stelt ZPressor bestaande feed-forward 3DGS modellen in staat om te schalen naar meer dan 100 invoerbeelden bij 480P resolutie op een 80GB GPU, door de beelden te verdelen in anker- en ondersteuningssets en cross attention te gebruiken om de informatie van de ondersteuningsbeelden te comprimeren in ankerbeelden, waardoor de gecomprimeerde latente toestand Z wordt gevormd. We laten zien dat de integratie van ZPressor in verschillende state-of-the-art feed-forward 3DGS modellen consistent de prestaties verbetert bij een matig aantal invoerbeelden en de robuustheid verhoogt onder dichte beeldinstellingen op twee grootschalige benchmarks, DL3DV-10K en RealEstate10K. De videoresultaten, code en getrainde modellen zijn beschikbaar op onze projectpagina: https://lhmd.top/zpressor.
Gaussian Splatting (GS) is recentelijk naar voren gekomen als een efficiënte representatie voor het renderen van 3D-scènes vanuit 2D-afbeeldingen en is uitgebreid naar afbeeldingen, video's en dynamische 4D-inhoud. Het toepassen van stijloverdracht op GS-gebaseerde representaties, vooral verdergaand dan eenvoudige kleuraanpassingen, blijft echter een uitdaging. In dit werk introduceren we CLIPGaussians, het eerste geïntegreerde stijloverdrachtsframework dat tekst- en afbeelding-gestuurde stilisering ondersteunt over meerdere modaliteiten: 2D-afbeeldingen, video's, 3D-objecten en 4D-scènes. Onze methode werkt direct op Gaussiaanse primitieven en integreert als een plug-in module in bestaande GS-pipelines, zonder grote generatieve modellen of hertraining vanaf nul te vereisen. De CLIPGaussians-benadering maakt gezamenlijke optimalisatie van kleur en geometrie mogelijk in 3D- en 4D-omgevingen, en bereikt temporele coherentie in video's, terwijl de modelgrootte behouden blijft. We demonstreren superieure stijltrouw en consistentie over alle taken, wat CLIPGaussians valideert als een universele en efficiënte oplossing voor multimodale stijloverdracht.
Bestaande chain-of-thought (CoT) distillatiemethoden kunnen redeneervaardigheden effectief overbrengen naar basismodellen, maar hebben te kampen met twee belangrijke beperkingen: overmatige uitgebreidheid van redeneersporen en onvoldoende aanpassingsvermogen aan probleemcomplexiteit. Lange redeneersporen verhogen de inferentiekosten aanzienlijk, en uniforme-lengte oplossingen voorkomen dat basismodellen adaptieve redeneerstrategieën leren. Om deze problemen aan te pakken, stellen we een difficulty-aware prompting (DAP) methode voor om redeneersporen dynamisch te verkorten zonder prestatieverlies. In onze aanpak beoordeelt een groot leraarmodel eerst de complexiteit van elk probleem en herschrijft vervolgens zijn redeneersporen naar een geschikte kortere lengte, wat resulteert in beknopte maar complete redeneersporen. Door gebruik te maken van de DAP-pipeline hebben we een gedistilleerde dataset genaamd LiteCoT samengesteld, bestaande uit 100K beknopte redeneervoorbeelden, met oplossingen die gemiddeld slechts 720 tokens bevatten (een orde van grootte korter dan typische CoTs). Met LiteCoT hebben we een nieuwe familie van redeneermodellen gedistilleerd, genaamd Liter (1.5B, 7B en 32B), gebaseerd op de Qwen2.5-architectuur. Experimenten tonen aan dat een studentmodel dat is afgestemd op slechts 100K van deze op complexiteit gesnoeide CoT-voorbeelden, een model overtreft dat is gedistilleerd op 800K originele Lange CoT-voorbeelden, terwijl de trainings- en inferentiekosten aanzienlijk worden verlaagd. Onze methode generaliseert ook goed: over 11 diverse benchmarks bereiken de kortere difficulty-aware CoTs een gelijke of betere nauwkeurigheid dan Lange ketens, met veel minder tokens. Bijvoorbeeld, op de uitdagende AIME24-examens bereikt onze aanpak 74.2% Pass@1 met slechts ongeveer 5K inferentietokens, wat andere methoden overtreft die veel meer tokens verbruiken. Onze code en data zijn beschikbaar op https://github.com/Evanwu1125/LiteCoT.
Vision-Language Models (VLMs) hebben sterke capaciteiten getoond in het afstemmen van visuele en tekstuele modaliteiten, wat een breed scala aan toepassingen mogelijk maakt in multimodale begripsvorming en generatie. Hoewel ze uitblinken in zero-shot en transfer learning-scenario's, blijven VLMs gevoelig voor misclassificatie, wat vaak resulteert in zelfverzekerde maar incorrecte voorspellingen. Deze beperking vormt een aanzienlijk risico in veiligheidskritieke domeinen, waar foutieve voorspellingen tot ernstige gevolgen kunnen leiden. In dit werk introduceren we TrustVLM, een trainingsvrij framework dat ontworpen is om de cruciale uitdaging aan te pakken van het inschatten wanneer de voorspellingen van een VLM betrouwbaar zijn. Gemotiveerd door het waargenomen modaliteitsgat in VLMs en het inzicht dat bepaalde concepten duidelijker worden weergegeven in de beeldembeddingruimte, stellen we een nieuwe vertrouwensscore-functie voor die deze ruimte benut om de detectie van misclassificatie te verbeteren. We evalueren onze aanpak grondig op 17 diverse datasets, waarbij we 4 architecturen en 2 VLMs gebruiken, en demonstreren state-of-the-art prestaties, met verbeteringen tot 51,87% in AURC, 9,14% in AUROC en 32,42% in FPR95 vergeleken met bestaande baselines. Door de betrouwbaarheid van het model te verbeteren zonder hertraining te vereisen, opent TrustVLM de weg voor een veiligere inzet van VLMs in real-world toepassingen. De code zal beschikbaar zijn op https://github.com/EPFL-IMOS/TrustVLM.
Radiologieverslagen geven gedetailleerde klinische observaties weer en vangen diagnostische redeneringen vast die zich in de loop van de tijd ontwikkelen. Bestaande evaluatiemethoden zijn echter beperkt tot individuele verslagen en maken gebruik van grove metrieken die geen rekening houden met fijnmazige klinische semantiek en temporele afhankelijkheden. Wij introduceren LUNGUAGE, een benchmarkdataset voor het genereren van gestructureerde radiologieverslagen die zowel evaluatie van individuele verslagen als longitudinale patiëntniveau-assessments over meerdere studies ondersteunt. De dataset bevat 1.473 geannoteerde thoraxfoto-verslagen, elk beoordeeld door experts, waarvan 80 longitudinale annotaties bevatten om ziekteprogressie en intervallen tussen studies vast te leggen, eveneens beoordeeld door experts. Met behulp van deze benchmark ontwikkelen we een tweestapsraamwerk dat gegenereerde verslagen omzet in fijnmazige, schema-afgestemde gestructureerde representaties, waardoor longitudinale interpretatie mogelijk wordt. We introduceren ook LUNGUAGESCORE, een interpreteerbare metriek die gestructureerde uitvoer vergelijkt op het niveau van entiteiten, relaties en attributen, terwijl temporele consistentie over patiënttijdlijnen wordt gemodelleerd. Deze bijdragen vormen de eerste benchmarkdataset, structureringsraamwerk en evaluatiemetriek voor sequentiële radiologieverslaggeving, waarbij empirische resultaten aantonen dat LUNGUAGESCORE gestructureerde verslagevaluatie effectief ondersteunt. De code is beschikbaar op: https://github.com/SuperSupermoon/Lunguage
We presenteren een keyframe-gebaseerd raamwerk voor het genereren van muziekgesynchroniseerde, choreografiebewuste dieren-dansvideo's. Uitgaande van enkele keyframes die verschillende dierenposes vertegenwoordigen – gegenereerd via tekst-naar-beeld-prompting of GPT-4 – formuleren we danssynthese als een grafoptimalisatieprobleem: vind de optimale keyframe-structuur die voldoet aan een gespecificeerd choreografiepatroon van beats, dat automatisch kan worden geschat vanuit een referentie-dansvideo. We introduceren ook een benadering voor het genereren van gespiegelde posebeelden, essentieel voor het vastleggen van symmetrie in dans. Tussenliggende frames worden gesynthetiseerd met behulp van een video-diffusiemodel. Met slechts zes invoer-keyframes kan onze methode dansvideo's van maximaal 30 seconden produceren voor een breed scala aan dieren en muziektracks.
De toenemende capaciteiten van multimodale grote taalmodelen (MLLMs) hebben taken zoals grafiekbegrip verder ontwikkeld. Deze modellen lijden echter vaak aan hallucinaties, waarbij gegenereerde tekstreeksen in conflict zijn met de aangeleverde visuele gegevens. Om dit aan te pakken, introduceren we Post-Hoc Visuele Attributie voor Grafieken, die fijnmazige grafiekelementen identificeert die een gegeven grafiek-geassocieerd antwoord valideren. We stellen ChartLens voor, een nieuw algoritme voor grafiekattributie dat op segmentatie gebaseerde technieken gebruikt om grafiekobjecten te identificeren en set-of-marks prompting met MLLMs inzet voor fijnmazige visuele attributie. Daarnaast presenteren we ChartVA-Eval, een benchmark met synthetische en real-world grafieken uit diverse domeinen zoals financiën, beleid en economie, voorzien van fijnmazige attributieannotaties. Onze evaluaties tonen aan dat ChartLens fijnmazige attributies met 26-66% verbetert.
De afgelopen jaren zijn er snelle vooruitgangen geboekt in AI-gestuurde beeldgeneratie. Vroege diffusiemodellen legden de nadruk op perceptuele kwaliteit, terwijl nieuwere multimodale modellen zoals GPT-4o-image hoogwaardig redeneren integreren, wat het semantisch begrip en de structurele compositie verbetert. De generatie van wetenschappelijke illustraties illustreert deze evolutie: in tegenstelling tot algemene beeldgeneratie vereist dit een nauwkeurige interpretatie van technische inhoud en de transformatie van abstracte ideeën naar duidelijke, gestandaardiseerde visuals. Deze taak is aanzienlijk kennisintensiever en arbeidsintensiever, waarbij vaak uren handmatig werk en gespecialiseerde tools nodig zijn. Het automatiseren hiervan op een controleerbare, intelligente manier zou aanzienlijke praktische waarde bieden. Toch bestaat er momenteel geen benchmark om AI op dit gebied te evalueren. Om deze leemte op te vullen, introduceren we SridBench, de eerste benchmark voor wetenschappelijke figuurgeneratie. Deze bestaat uit 1.120 gevallen, samengesteld uit toonaangevende wetenschappelijke artikelen uit 13 natuur- en computerwetenschappelijke disciplines, verzameld door menselijke experts en MLLMs. Elk monster wordt geëvalueerd langs zes dimensies, waaronder semantische trouw en structurele nauwkeurigheid. Experimentele resultaten tonen aan dat zelfs topmodellen zoals GPT-4o-image achterblijven bij menselijke prestaties, met veelvoorkomende problemen in tekst/visuele helderheid en wetenschappelijke correctheid. Deze bevindingen benadrukken de noodzaak voor meer geavanceerde, redeneringsgestuurde visuele generatiecapaciteiten.
Hoewel vooraf getrainde multimodale representaties (bijv. CLIP) indrukwekkende mogelijkheden hebben getoond, vertonen ze aanzienlijke compositionele kwetsbaarheden die leiden tot contra-intuïtieve beoordelingen. We introduceren Multimodal Adversarial Compositionality (MAC), een benchmark die grote taalmodellen (LLMs) benut om misleidende tekstvoorbeelden te genereren om deze kwetsbaarheden over verschillende modaliteiten te exploiteren en deze evalueert via zowel een op voorbeelden gebaseerd aanvalsuccespercentage als een op groepen gebaseerde entropie-gestuurde diversiteit. Om zero-shot methoden te verbeteren, stellen we een zelf-trainingsbenadering voor die gebruikmaakt van rejection-sampling fine-tuning met diversiteit-bevorderende filtering, wat zowel het aanvalsuccespercentage als de voorbeelddiversiteit verbetert. Met kleinere taalmodellen zoals Llama-3.1-8B toont onze benadering superieure prestaties in het blootleggen van compositionele kwetsbaarheden over verschillende multimodale representaties, waaronder afbeeldingen, video's en audio.
Het evalueren van creativiteit blijft een uitdagend gebied voor grote taalmodelen (LLMs). Huidige evaluaties zijn sterk afhankelijk van inefficiënte en kostbare menselijke beoordelingen, wat de vooruitgang in het verbeteren van machinecreativiteit belemmert. Hoewel er geautomatiseerde methoden bestaan, variërend van psychologische tests tot heuristische of op prompts gebaseerde benaderingen, missen deze vaak generaliseerbaarheid of overeenstemming met menselijk oordeel. Om deze problemen aan te pakken, stellen we in dit artikel een nieuw framework voor op basis van paarsgewijze vergelijkingen om tekstuele creativiteit te beoordelen, waarbij gedeelde contextuele instructies worden gebruikt om de consistentie van de evaluatie te verbeteren. We introduceren CreataSet, een grootschalige dataset met meer dan 100K menselijke en 1M+ synthetische creatieve instructie-responsparen die diverse open-domeintaken omvatten. Door training op CreataSet ontwikkelen we een LLM-gebaseerde evaluator genaamd CrEval. CrEval toont een opmerkelijke superioriteit ten opzichte van bestaande methoden in overeenstemming met menselijke beoordelingen. Experimentele resultaten benadrukken het onmisbare belang van het integreren van zowel door mensen gegenereerde als synthetische data bij het trainen van zeer robuuste evaluators, en demonstreren de praktische bruikbaarheid van CrEval bij het stimuleren van de creativiteit van LLMs. We zullen binnenkort alle data, code en modellen openbaar vrijgeven om verder onderzoek te ondersteunen.
Ruimtelijke intelligentie is essentieel voor multimodale grote taalmodellen (MLLMs) die opereren in de complexe fysieke wereld. Bestaande benchmarks onderzoeken echter alleen relaties binnen één afbeelding en slagen er daardoor niet in om de ruimtelijke redenering over meerdere afbeeldingen te beoordelen die in real-world toepassingen vereist is. Wij introduceren MMSI-Bench, een VQA-benchmark die gewijd is aan ruimtelijke intelligentie over meerdere afbeeldingen. Zes 3D-visieonderzoekers besteedden meer dan 300 uur aan het zorgvuldig samenstellen van 1.000 uitdagende, eenduidige meerkeuzevragen op basis van meer dan 120.000 afbeeldingen, elk gepaard met zorgvuldig ontworpen afleiders en een stapsgewijs redeneerproces. We voeren uitgebreide experimenten uit en evalueren grondig 34 open-source en propriëtaire MLLMs, waarbij we een grote kloof waarnemen: het sterkste open-source model behaalt ongeveer 30% nauwkeurigheid en OpenAI's o3 redeneermodel bereikt 40%, terwijl mensen een score van 97% halen. Deze resultaten onderstrepen de uitdagende aard van MMSI-Bench en de aanzienlijke ruimte voor toekomstig onderzoek. Gebruikmakend van de geannoteerde redeneerprocessen, bieden we ook een geautomatiseerde foutenanalysepipeline die vier dominante faalmodi diagnosticeert, waaronder (1) grondingsfouten, (2) overlap-matching en scene-reconstructiefouten, (3) situatie-transformatie redeneerfouten, en (4) ruimtelijke-logicafouten, wat waardevolle inzichten biedt voor het bevorderen van ruimtelijke intelligentie over meerdere afbeeldingen. Projectpagina: https://runsenxu.com/projects/MMSI_Bench.
Grote taalmodelen zijn uitgebreid bestudeerd als neurale kennisbanken vanwege hun kennis toegankelijkheid, bewerkbaarheid, redeneervermogen en verklaarbaarheid. Echter, weinig onderzoek richt zich op de structurele patronen van hun kennis. Gemotiveerd door deze leemte onderzoeken wij deze structurele patronen vanuit een grafisch perspectief. We kwantificeren de kennis van LLM's op zowel triplet- als entiteitsniveau, en analyseren hoe deze gerelateerd is aan grafische structurele eigenschappen zoals de graad van een knooppunt. Daarnaast ontdekken we kennis homofilie, waarbij topologisch dichtbijgelegen entiteiten vergelijkbare niveaus van kennisbaarheid vertonen, wat ons verder motiveert om grafische machine learning modellen te ontwikkelen om entiteitskennis te schatten op basis van zijn lokale buren. Dit model maakt waardevolle kenniscontrole mogelijk door triplets te selecteren die minder bekend zijn bij LLM's. Empirische resultaten tonen aan dat het gebruik van geselecteerde triplets voor fine-tuning leidt tot superieure prestaties.
Het ontwikkelen van hoogwaardige software is een complexe taak die gespecialiseerde expertise vereist. Wij introduceren GSO, een benchmark voor het evalueren van de capaciteiten van taalmodellen bij het ontwikkelen van hoogwaardige software. We ontwikkelen een geautomatiseerde pipeline die prestatie tests genereert en uitvoert om repository commitgeschiedenissen te analyseren, waarbij 102 uitdagende optimalisatietaken worden geïdentificeerd over 10 codebases, die diverse domeinen en programmeertalen omvatten. Een agent krijgt een codebase en een prestatie test als precieze specificatie, en krijgt de taak om de runtime-efficiëntie te verbeteren, wat wordt gemeten tegen de optimalisatie van een expertontwikkelaar. Onze kwantitatieve evaluatie toont aan dat toonaangevende SWE-Agents aanzienlijk moeite hebben, met een slagingspercentage van minder dan 5%, en slechts beperkte verbeteringen, zelfs bij schaling tijdens inferentie. Onze kwalitatieve analyse identificeert belangrijke faalmodi, waaronder moeilijkheden met low-level talen, het toepassen van luie optimalisatiestrategieën, en uitdagingen bij het nauwkeurig lokaliseren van knelpunten. We publiceren de code en artefacten van onze benchmark, samen met agenttrajecten, om toekomstig onderzoek mogelijk te maken.
Direct Preference Optimization (DPO) is uitgegroeid tot een standaardtechniek voor het afstemmen van taalmodellen op menselijke voorkeuren op een gesuperviseerde manier. Ondanks het empirische succes ervan, blijft de theoretische onderbouwing achter de log-ratio beloningsparameterisatie onvolledig. In dit werk vullen we deze leemte aan door gebruik te maken van de Differentiële Informatie Distributie (DID): een verdeling over tokenreeksen die de informatie vastlegt die wordt verkregen tijdens beleidsupdates. Ten eerste tonen we aan dat wanneer voorkeurslabels de differentiële informatie coderen die nodig is om een referentiebeleid om te zetten in een doelbeleid, de log-ratio beloning in DPO naar voren komt als de uniek optimale vorm voor het leren van het doelbeleid via voorkeursoptimalisatie. Dit resultaat leidt van nature tot een gesloten uitdrukking voor de optimale steekproefverdeling over afgewezen reacties. Ten tweede ontdekken we dat de voorwaarde voor voorkeuren om differentiële informatie te coderen fundamenteel verbonden is aan een impliciete aanname met betrekking tot log-marge geordende beleidsvoeringen – een inductieve bias die veel wordt gebruikt in voorkeursoptimalisatie maar voorheen niet werd herkend. Tot slot karakteriseren we, door de entropie van de DID te analyseren, hoe het leren van differentiële informatie met lage entropie de beleidsverdeling versterkt, terwijl differentiële informatie met hoge entropie een gladmakend effect induceert, wat het log-waarschijnlijkheidsverplaatsingsfenomeen verklaart. We valideren onze theoretische bevindingen in synthetische experimenten en breiden deze uit naar real-world datasets voor instructievolging. Onze resultaten suggereren dat het leren van differentiële informatie met hoge entropie cruciaal is voor algemene instructievolging, terwijl het leren van differentiële informatie met lage entropie voordelig is voor kennisintensieve vraag-antwoordtaken. Over het geheel genomen biedt ons werk een verenigend perspectief op het DPO-doel, de structuur van voorkeursdata en het resulterende beleidsgedrag door de lens van differentiële informatie.
Grote taalmodellen (LLM's) hebben aanzienlijk potentieel getoond in wetenschappelijke disciplines zoals biomedische wetenschappen, met name bij het genereren van hypothesen, waarbij ze uitgebreide literatuur kunnen analyseren, patronen kunnen identificeren en onderzoeksrichtingen kunnen suggereren. Een belangrijke uitdaging ligt echter in het evalueren van de waarheidsgetrouwheid van gegenereerde hypothesen, aangezien het verifiëren van hun nauwkeurigheid vaak aanzienlijke tijd en middelen vereist. Bovendien kan het hallucinatieprobleem in LLM's leiden tot het genereren van hypothesen die plausibel lijken maar uiteindelijk onjuist zijn, wat hun betrouwbaarheid ondermijnt. Om het systematische onderzoek naar deze uitdagingen te vergemakkelijken, introduceren we TruthHypo, een benchmark voor het beoordelen van de mogelijkheden van LLM's bij het genereren van waarheidsgetrouwe biomedische hypothesen, en KnowHD, een kennisgebaseerde hallucinatiedetector om te evalueren hoe goed hypothesen zijn verankerd in bestaande kennis. Onze resultaten tonen aan dat LLM's moeite hebben om waarheidsgetrouwe hypothesen te genereren. Door hallucinaties in redeneerstappen te analyseren, laten we zien dat de verankeringsscores die door KnowHD worden geleverd, een effectieve maatstaf vormen voor het filteren van waarheidsgetrouwe hypothesen uit de diverse uitvoer van LLM's. Menselijke evaluaties valideren verder de bruikbaarheid van KnowHD bij het identificeren van waarheidsgetrouwe hypothesen en het versnellen van wetenschappelijke ontdekkingen. Onze gegevens en broncode zijn beschikbaar op https://github.com/Teddy-XiongGZ/TruthHypo.
In dit werk onthullen we de beperkingen van visuele tokenizers en VAEs bij het behouden van fijnmazige kenmerken, en stellen we een benchmark voor om de reconstructieprestatie te evalueren voor twee uitdagende visuele inhoudstypen: tekst en gezichten. Visuele tokenizers en VAEs hebben visuele generatie en multimodale modellering aanzienlijk vooruitgeholpen door efficiëntere gecomprimeerde of gekwantiseerde beeldrepresentaties te bieden. Echter, hoewel ze productiemodellen helpen om de computationele last te verminderen, beperkt het informatieverlies door beeldcompressie fundamenteel de bovengrens van de kwaliteit van visuele generatie. Om deze bovengrens te evalueren, richten we ons op het beoordelen van gereconstrueerde tekst- en gezichtskenmerken, omdat deze doorgaans: 1) op kleinere schaal voorkomen, 2) dichte en rijke texturen bevatten, 3) gevoelig zijn voor instorting, en 4) zeer gevoelig zijn voor het menselijk zicht. We verzamelen en cureren eerst een diverse set van duidelijke tekst- en gezichtsafbeeldingen uit bestaande datasets. In tegenstelling tot benaderingen die VLM-modellen gebruiken, zetten we gevestigde OCR- en gezichtsherkenningsmodellen in voor evaluatie, wat nauwkeurigheid waarborgt terwijl een uitzonderlijk lichtgewicht beoordelingsproces wordt gehandhaafd <span style="font-weight: bold; color: rgb(214, 21, 21);">dat slechts 2GB geheugen en 4 minuten vereist</span> om te voltooien. Met behulp van onze benchmark analyseren we de kwaliteit van tekst- en gezichtsreconstructie op verschillende schalen voor verschillende beeldtokenizers en VAEs. Onze resultaten tonen aan dat moderne visuele tokenizers nog steeds moeite hebben om fijnmazige kenmerken te behouden, vooral op kleinere schalen. We breiden dit evaluatiekader verder uit naar video, waarbij we een uitgebreide analyse uitvoeren van videotokenizers. Daarnaast laten we zien dat traditionele metrieken niet accuraat de reconstructieprestatie voor gezichten en tekst weergeven, terwijl onze voorgestelde metrieken een effectieve aanvulling vormen.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij vraag-antwoordtaken (QA) vanwege hun superieure vermogens in natuurlijke taalverwerking en -generatie. LLM-gebaseerde QA worstelt echter met complexe QA-taken vanwege beperkte redeneervaardigheden, verouderde kennis en hallucinaties. Verschillende recente studies combineren LLMs en kennisgrafieken (KGs) voor QA om de bovengenoemde uitdagingen aan te pakken. In dit overzicht stellen we een nieuwe gestructureerde taxonomie voor die de methodologie van het combineren van LLMs en KGs voor QA categoriseert volgens de soorten QA en de rol van de KG bij integratie met LLMs. We onderzoeken systematisch de meest recente ontwikkelingen in het combineren van LLMs en KGs voor QA en vergelijken en analyseren deze benaderingen in termen van sterke punten, beperkingen en KG-vereisten. Vervolgens koppelen we de benaderingen aan QA en bespreken we hoe deze benaderingen de belangrijkste uitdagingen van verschillende complexe QA aanpakken. Tot slot vatten we de vooruitgang, evaluatiemetrics en benchmarkdatasets samen en belichten we openstaande uitdagingen en kansen.
Het hoofddoel van post-training kwantisatie (PTQ) is om een gecomprimeerd model te produceren waarvan de uitvoerdistributie zo dicht mogelijk bij die van het originele model ligt. Om dit op een uitvoerbare manier te doen, kwantiseren bijna alle LLM PTQ-algoritmen lineaire lagen door onafhankelijk de directe activatiefout te minimaliseren. Dit gelokaliseerde doel negeert echter het effect van daaropvolgende lagen, waardoor het verminderen ervan niet noodzakelijkerwijs een nauwkeuriger model oplevert. In dit werk introduceren we Yet Another Quantization Algorithm (YAQA), een adaptief afrondingsalgoritme dat Kronecker-gefactoriseerde benaderingen gebruikt van de Hessiaan van elke lineaire laag met betrekking tot de volledige model KL-divergentie. YAQA bestaat uit twee componenten: Kronecker-gefactoriseerde schetsen van de volledige laaggewijze Hessiaan die uitvoerbaar kunnen worden berekend voor LLM's met honderden miljarden parameters, en een kwantiseerder-onafhankelijk afrondingsalgoritme dat deze schetsen gebruikt en voorzien is van theoretische garanties. Over een breed scala aan modellen en kwantiseerders reduceert YAQA empirisch de KL-divergentie naar het originele model met ongeveer 30%, terwijl het state-of-the-art prestaties behaalt op downstream taken.
Hoewel reinforcement learning (RL) over gedachteketens taalmodellen aanzienlijk heeft verbeterd in taken zoals wiskunde en coderen, introduceert visueel redeneren extra complexiteit door modellen te vereisen om visuele aandacht te sturen, perceptuele inputs te interpreteren en abstract redeneren te verankeren in ruimtelijk bewijs. We introduceren ViGoRL (Visually Grounded Reinforcement Learning), een visie-taalmodel getraind met RL om elke redeneerstap expliciet te verankeren aan specifieke visuele coördinaten. Geïnspireerd door menselijk visueel besluitvormingsproces, leert ViGoRL ruimtelijk verankerde redeneersporen te produceren, waarbij visuele aandacht wordt geleid naar taakrelevante regio's bij elke stap. Wanneer fijnmazige exploratie vereist is, stelt ons nieuwe multi-turn RL-framework het model in staat om dynamisch in te zoomen op voorspelde coördinaten terwijl het redeneren zich ontvouwt. Over een diverse set van visuele redeneerbenchmarks—inclusief SAT-2 en BLINK voor ruimtelijk redeneren, V*bench voor visueel zoeken, en ScreenSpot en VisualWebArena voor webgebaseerde verankering—presteert ViGoRL consistent beter dan zowel supervised fine-tuning als conventionele RL-baselines die expliciete verankeringsmechanismen missen. Het incorporeren van multi-turn RL met ingezoomde visuele feedback verbetert de prestaties van ViGoRL aanzienlijk bij het lokaliseren van kleine GUI-elementen en visueel zoeken, met een score van 86,4% op V*Bench. Daarnaast ontdekken we dat verankering andere visuele gedragingen versterkt, zoals regio-exploratie, verankerde subdoelstellingen en visuele verificatie. Tot slot tonen menselijke evaluaties aan dat de visuele referenties van het model niet alleen ruimtelijk accuraat zijn, maar ook nuttig voor het begrijpen van de redeneerstappen van het model. Onze resultaten tonen aan dat visueel verankerde RL een sterk paradigma is voor het uitrusten van modellen met algemeen toepasbaar visueel redeneren.
Bestaande benaderingen voor redeneersegmentatie stemmen doorgaans multimodale grote taalmodellen (MLLMs) af met behulp van beeld-tekstparen en bijbehorende maskerlabels. Ze vertonen echter beperkte generalisatie naar out-of-distributiescenario's zonder een expliciet redeneerproces. Hoewel recente inspanningen reinforcement learning gebruiken via group-relative policy optimization (GRPO) om het redeneervermogen te verbeteren, lijden ze vaak aan overdenken - het produceren van uniform uitgebreide redeneerketens, ongeacht de taakcomplexiteit. Dit resulteert in hogere computatiekosten en beperkte controle over de redeneerkwaliteit. Om dit probleem aan te pakken, stellen we PixelThink voor, een eenvoudig maar effectief schema dat extern geschatte taakmoeilijkheid en intern gemeten modelonzekerheid integreert om de redeneergeneratie binnen een reinforcement learning-paradigma te reguleren. Het model leert om de redeneerlengte te comprimeren in overeenstemming met de scènecomplexiteit en voorspellingszekerheid. Om een uitgebreide evaluatie te ondersteunen, introduceren we ReasonSeg-Diff, een uitgebreide benchmark met geannoteerde redeneerreferenties en moeilijkheidsscores, samen met een reeks metrieken die zijn ontworpen om segmentatienauwkeurigheid, redeneerkwaliteit en efficiëntie gezamenlijk te beoordelen. Experimentele resultaten tonen aan dat de voorgestelde aanpak zowel de redeneerefficiëntie als de algehele segmentatieprestatie verbetert. Ons werk draagt bij aan nieuwe perspectieven op efficiënte en interpreteerbare multimodale begripsvorming. De code en het model zullen openbaar beschikbaar worden gesteld.
Woordniveau-kwaliteitsschatting (WQE) heeft als doel om fijnmazige foutsporen in machinaal vertaalde uitvoer automatisch te identificeren en kent vele toepassingen, waaronder het assisteren van vertalers tijdens het nabewerken. Moderne WQE-technieken zijn vaak kostbaar, waarbij grote taalmodellen worden ingezet of ad-hoc training plaatsvindt op grote hoeveelheden door mensen gelabelde data. In dit werk onderzoeken we efficiënte alternatieven die gebruikmaken van recente vooruitgang in de interpreteerbaarheid van taalmodellen en onzekerheidskwantificering om vertaalfouten te identificeren vanuit de interne werking van vertaalmodellen. In onze evaluatie, die 14 metrieken omvat over 12 vertaalrichtingen, kwantificeren we de impact van variatie in menselijke labels op de prestaties van metrieken door gebruik te maken van meerdere sets menselijke labels. Onze resultaten benadrukken het onbenutte potentieel van onbewaakte metrieken, de tekortkomingen van bewaakte methoden bij onzekerheid in labels, en de kwetsbaarheid van evaluatiepraktijken met één annotator.
Classifier-Free Guidance (CFG) verbetert de bestuurbaarheid van generatieve modellen aanzienlijk door conditionele en ongeconditioneerde voorspellingen te interpoleren. Echter, standaard CFG maakt vaak gebruik van een statische ongeconditioneerde invoer, wat suboptimaal kan zijn voor iteratieve generatieprocessen waarbij de onzekerheid van het model dynamisch varieert. Wij introduceren Adaptive Classifier-Free Guidance (A-CFG), een nieuwe methode die de ongeconditioneerde invoer aanpast door gebruik te maken van de directe voorspellingszekerheid van het model. Bij elke stap van een iteratief (gemaskeerd) diffusietaalmodel identificeert A-CFG tokens in de huidig gegenereerde reeks waarvoor het model een lage zekerheid vertoont. Deze tokens worden tijdelijk opnieuw gemaskeerd om een dynamische, gelokaliseerde ongeconditioneerde invoer te creëren. Hierdoor richt de corrigerende invloed van CFG zich precies op gebieden van ambiguïteit, wat leidt tot effectievere begeleiding. We integreren A-CFG in een state-of-the-art gemaskeerd diffusietaalmodel en tonen de effectiviteit ervan aan. Experimenten op diverse taalgeneratiebenchmarks laten zien dat A-CFG aanzienlijke verbeteringen oplevert ten opzichte van standaard CFG, bijvoorbeeld een winst van 3,9 punten op GPQA. Ons werk benadrukt het voordeel van het dynamisch aanpassen van begeleidingsmechanismen aan modelonzekerheid bij iteratieve generatie.