Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit technisch rapport introduceert EXAONE 4.0, dat een Niet-redeneermodus en een Redeneermodus integreert om zowel de uitstekende bruikbaarheid van EXAONE 3.5 als de geavanceerde redeneervaardigheden van EXAONE Deep te bereiken. Om de weg te effenen voor het tijdperk van agent-gebaseerde AI, bevat EXAONE 4.0 essentiële functies zoals het gebruik van agent-gebaseerde tools, en zijn meertalige mogelijkheden zijn uitgebreid om naast Engels en Koreaans ook Spaans te ondersteunen. De EXAONE 4.0-modelreeks bestaat uit twee formaten: een middelgroot 32B-model geoptimaliseerd voor hoge prestaties, en een klein 1.2B-model ontworpen voor toepassingen op apparaten. EXAONE 4.0 toont superieure prestaties in vergelijking met open-weight modellen in zijn klasse en blijft zelfs competitief tegen frontier-class modellen. De modellen zijn publiekelijk beschikbaar voor onderzoeksdoeleinden en kunnen eenvoudig worden gedownload via https://huggingface.co/LGAI-EXAONE.
Het ontwikkelen van state-of-the-art Vision-Language Models (VLMs) met sterke captioning-capaciteiten vereist doorgaans training op miljarden hoogwaardige afbeelding-tekstparen, wat miljoenen GPU-uren vergt. Dit artikel introduceert het Vision-Language-Vision (VLV) auto-encoder framework, dat strategisch gebruikmaakt van belangrijke vooraf getrainde componenten: een vision-encoder, de decoder van een Text-to-Image (T2I) diffusiemodel, en vervolgens een Large Language Model (LLM). Specifiek creëren we een informatiebottleneck door de taalrepresentatieruimte te regulariseren, wat wordt bereikt door de vooraf getrainde T2I diffusiedecoder te bevriezen. Onze VLV-pipeline destilleert effectief kennis uit het tekst-geconditioneerde diffusiemodel met behulp van continue embeddings, wat een uitgebreid semantisch begrip aantoont via hoogwaardige reconstructies. Bovendien construeren we een state-of-the-art (SoTA) captioner die vergelijkbaar is met toonaangevende modellen zoals GPT-4o en Gemini 2.0 Flash, door een vooraf getraind LLM te finetunen om de tussenliggende taalrepresentaties te decoderen in gedetailleerde beschrijvingen. Onze methode toont uitzonderlijke kostenefficiëntie en vermindert de databehoeften aanzienlijk; door voornamelijk gebruik te maken van eenduidige afbeeldingen voor training en het nut van bestaande vooraf getrainde modellen (image-encoder, T2I diffusiemodel en LLM) te maximaliseren, omzeilt het de noodzaak van enorme gepaarde afbeelding-tekst datasets, waardoor de totale trainingskosten onder $1.000 USD blijven.
Grote foundationmodellen worden doorgaans getraind op gegevens uit meerdere domeinen, waarbij de datamix—de verhouding van elk gebruikt domein—een cruciale rol speelt in de modelprestaties. De standaardaanpak voor het selecteren van deze mix is gebaseerd op trial and error, wat onpraktisch wordt voor grootschalige voorafgaande training. Wij stellen een systematische methode voor om de optimale datamix voor elk doeldomein te bepalen met behulp van schaalwetten. Onze aanpak voorspelt nauwkeurig het verlies van een model van grootte N getraind met D tokens en een specifiek domeingewichtsvector h. We valideren de universaliteit van deze schaalwetten door hun voorspellende kracht aan te tonen in drie verschillende en grootschalige settings: voorafgaande training van grote taalmodel (LLM), native multimodale model (NMM) en grote visionmodellen (LVM). We laten verder zien dat deze schaalwetten kunnen extrapoleren naar nieuwe datamixen en over verschillende schalen: hun parameters kunnen nauwkeurig worden geschat met behulp van enkele kleinschalige trainingsruns, en gebruikt worden om de prestaties op grotere schalen en onbekende domeingewichten te schatten. De schaalwetten maken het mogelijk om de optimale domeingewichten voor elk doeldomein af te leiden onder een bepaald trainingsbudget (N,D), wat een principiële alternatief biedt voor kostbare trial-and-error methoden.
Recente vooruitgang in redeneringsgebaseerde Large Language Models (LLMs), met name hun potentieel door schaling tijdens testtijd, heeft aanzienlijke mogelijkheden gecreëerd voor distillatie in codegeneratie en -kritiek. Vooruitgang op beide gebieden is echter fundamenteel afhankelijk van grootschalige, hoogwaardige datasets. In dit werk introduceren we OpenCodeReasoning-II, een dataset die bestaat uit 2,5 miljoen vraag-oplossing-kritiek-triples (ongeveer 35.000 unieke programmeervragen), waardoor deze bijna twee keer zo groot is als de eerder grootste publiek beschikbare code-redeneringsdataset. In dit werk hanteren we een tweestapsstrategie voor supervised fine-tuning. De eerste stap richt zich op fine-tuning voor codegeneratie, terwijl de tweede stap gezamenlijke training van modellen voor zowel codegeneratie als kritiek omvat. Onze resulterende gefinetunde Qwen2.5-Instruct-modellen behalen prestaties in codegeneratie die de beste eerdere open-gewicht gedistilleerde modellen overtreffen of evenaren. Opmerkelijk is dat de integratie van onze codegeneratie- en kritiekmodellen leidt tot aanzienlijke verbeteringen in competitieve codeprestaties. Bovendien presenteren we een uitbreiding van de LiveCodeBench-benchmark om specifiek de programmeertaal C++ te ondersteunen, waardoor een uitgebreidere evaluatie van LLMs met behulp van deze benchmark mogelijk wordt.
Grote-taalmodellen (LLMs) hebben krachtige probleemoplossende vermogens getoond, met name wanneer ze worden georganiseerd in multi-agent systemen. De opkomst van dergelijke systemen roept echter ook verschillende vragen op over het vermogen van een complex netwerk van agenten om effectief zelforganisatie en samenwerking te realiseren. Hoewel het meten van prestaties op standaard redeneerbenchmarks aangeeft hoe goed multi-agent systemen redeneertaken kunnen oplossen, is het onduidelijk of deze systemen in staat zijn om hun topologie effectief te benutten. Hier stellen we AgentsNet voor, een nieuwe benchmark voor multi-agent redenering. Door inspiratie te putten uit klassieke problemen in gedistribueerde systemen en grafentheorie, meet AgentsNet het vermogen van multi-agent systemen om gezamenlijk strategieën te vormen voor probleemoplossing, zelforganisatie en effectieve communicatie gegeven een netwerktopologie. We evalueren een verscheidenheid aan basismethoden op AgentsNet, waaronder homogene netwerken van agenten die eerst overeenstemming moeten bereiken over basisprotocollen voor organisatie en communicatie. We constateren dat sommige geavanceerde LLMs al sterke prestaties laten zien voor kleine netwerken, maar beginnen af te nemen zodra de grootte van het netwerk toeneemt. Terwijl bestaande multi-agent benchmarks maximaal 2-5 agenten omvatten, is AgentsNet in principe onbeperkt in omvang en kan het meeschalen met nieuwe generaties LLMs. Daarom onderzoeken we ook geavanceerde modellen in een opstelling met tot wel 100 agenten.
Het extraheren van optische flow uit video's blijft een kernprobleem in de computer vision. Geïnspireerd door het succes van grote, algemene modellen, onderzoeken we of bevroren, zelf-superviserende videomodellen die alleen zijn getraind voor toekomstige frame-voorspelling, zonder fine-tuning, kunnen worden aangestuurd om flow te produceren. Eerder werk dat diepte of belichting uit videogeneratoren uitleesde, vereiste fine-tuning, wat onpraktisch is voor flow waar labels schaars zijn en synthetische datasets lijden onder een sim-to-real kloof. Geïnspireerd door het Counterfactual World Model (CWM)-paradigma, dat punt-voor-punt correspondenties kan verkrijgen door een kleine tracer-verstoring in een volgende-frame-voorspeller te injecteren en de voortplanting ervan te volgen, breiden we dit idee uit naar generatieve videomodellen. We onderzoeken verschillende populaire architecturen en ontdekken dat succesvolle zero-shot flow-extractie op deze manier wordt ondersteund door drie model-eigenschappen: (1) distributieve voorspelling van toekomstige frames (het vermijden van wazige of ruisachtige uitvoer); (2) gefactoriseerde latente variabelen die elke ruimtelijk-temporele patch onafhankelijk behandelen; en (3) random-access decodering die kan conditioneren op elke subset van toekomstige pixels. Deze eigenschappen zijn uniek aanwezig in de recente Local Random Access Sequence (LRAS)-architectuur. Op basis van LRAS stellen we KL-tracing voor: een nieuwe test-time procedure die een gelokaliseerde verstoring in het eerste frame injecteert, het model één stap uitrolt, en de Kullback-Leibler-divergentie berekent tussen verstoorde en onverstoorde voorspellingsdistributies. Zonder enige flow-specifieke fine-tuning presteert onze methode beter dan state-of-the-art modellen op de real-world TAP-Vid DAVIS-dataset (16,6% relatieve verbetering voor endpoint error) en de synthetische TAP-Vid Kubric (4,7% relatieve verbetering). Onze resultaten geven aan dat counterfactual prompting van controleerbare generatieve videomodellen een schaalbare en effectieve alternatieve benadering is voor begeleide of fotometrische-verliesmethoden voor hoogwaardige flow.
Dit artikel introduceert MISS-QA, de eerste benchmark die specifiek is ontworpen om het vermogen van modellen om schematische diagrammen in wetenschappelijke literatuur te interpreteren te evalueren. MISS-QA bestaat uit 1.500 door experts geannoteerde voorbeelden uit 465 wetenschappelijke artikelen. In deze benchmark krijgen modellen de taak om schematische diagrammen die onderzoeksoverzichten illustreren te interpreteren en bijbehorende informatiezoekvragen te beantwoorden op basis van de bredere context van het artikel. We beoordelen de prestaties van 18 toonaangevende multimodale foundationmodellen, waaronder o4-mini, Gemini-2.5-Flash en Qwen2.5-VL. We onthullen een aanzienlijk prestatieverschil tussen deze modellen en menselijke experts op MISS-QA. Onze analyse van de modelprestaties op onbeantwoordbare vragen en onze gedetailleerde foutenanalyse benadrukken verder de sterke en zwakke punten van huidige modellen, wat belangrijke inzichten biedt om modellen te verbeteren in het begrijpen van multimodale wetenschappelijke literatuur.
Knowledge graph question answering (KGQA) brengt aanzienlijke uitdagingen met zich mee vanwege de structurele en semantische variaties in invoergrafieken. Bestaande werken vertrouwen op Large Language Model (LLM)-agentschappen voor grafiekdoorlopen en -retrieval; een benadering die gevoelig is voor de initialisatie van het doorlopen, omdat deze vatbaar is voor entiteitskoppelingsfouten en mogelijk niet goed generaliseert naar aangepaste ("bring-your-own") KG's. Wij introduceren BYOKG-RAG, een raamwerk dat KGQA verbetert door LLM's synergetisch te combineren met gespecialiseerde grafiekretrievaltools. In BYOKG-RAG genereren LLM's cruciale grafiekartefacten (vraagentiteiten, kandidaatantwoorden, redeneerpaden en OpenCypher-query's), en koppelen grafiektools deze artefacten aan de KG en halen relevante grafiekcontext op. De opgehaalde context stelt de LLM in staat om iteratief zijn grafieklinking en -retrieval te verfijnen, voordat het uiteindelijke antwoord wordt gegenereerd. Door context op te halen uit verschillende grafiektools, biedt BYOKG-RAG een meer algemene en robuuste oplossing voor QA over aangepaste KG's. Door experimenten op vijf benchmarks die diverse KG-types omvatten, tonen we aan dat BYOKG-RAG de op een na beste grafiekretrievalmethode met 4,5 procentpunt overtreft, terwijl het betere generalisatie naar aangepaste KG's laat zien. Het BYOKG-RAG-raamwerk is open-source beschikbaar op https://github.com/awslabs/graphrag-toolkit.
Real-world door gebruikers gegenereerde video's, vooral op platforms zoals TikTok, bevatten vaak rijke en verweven audiovisuele content. Bestaande benchmarks en modellen voor videobijschriften blijven echter voornamelijk visueel gericht, waarbij de cruciale rol van audio bij het overbrengen van scènedynamiek, sprekersintentie en narratieve context over het hoofd wordt gezien. Dit gebrek aan omni-datasets en lichte, capabele modellen belemmert de vooruitgang in fijnmazige, multimodale videobegrip. Om deze uitdagingen aan te pakken, introduceren we UGC-VideoCap, een nieuwe benchmark en modelraamwerk specifiek ontworpen voor gedetailleerde omnimodale bijschriften van kortdurende door gebruikers gegenereerde video's. In tegenstelling tot eerdere datasets, benadrukt UGC-VideoCap een gebalanceerde integratie van audio- en visuele modaliteiten, met 1000 TikTok-video's die zijn geannoteerd via een gestructureerd drietraps human-in-the-loop-proces dat audio alleen, visueel alleen en gezamenlijke audiovisuele semantiek omvat. De benchmark omvat ook 4000 zorgvuldig samengestelde vraag-antwoordparen die zowel unimodale als cross-modale begrip onderzoeken. Naast de dataset stellen we UGC-VideoCaptioner(3B) voor, een bijschriftenmodel met 3B parameters gedistilleerd uit Gemini 2.5 Flash. Met behulp van een nieuwe tweefasige trainingsstrategie - supervised fine-tuning gevolgd door Group Relative Policy Optimization (GRPO) - maakt onze aanpak efficiënte aanpassing mogelijk op basis van beperkte data, terwijl competitieve prestaties worden behouden. Samen bieden onze benchmark en model een hoogwaardige basis en een data-efficiënte oplossing voor het bevorderen van omnimodale videobijschriften in onbeperkte real-world UGC-omgevingen.
Audio inpainting verwijst naar de taak van het reconstrueren van ontbrekende segmenten in beschadigde audio-opnames. Hoewel eerdere benaderingen, waaronder diffusi modellen gebaseerd op golfvormen en spectrogrammen, veelbelovende resultaten hebben laten zien voor korte gaten, gaat de kwaliteit vaak achteruit wanneer de gaten langer zijn dan 100 milliseconden (ms). In dit werk introduceren we een nieuwe inpainting-methode gebaseerd op discreet diffusi modelleren, dat werkt over getokeniseerde audio-representaties geproduceerd door een vooraf getrainde audio-tokenizer. Onze aanpak modelleert het generatieve proces direct in de discrete latente ruimte, waardoor een stabiele en semantisch samenhangende reconstructie van ontbrekende audio mogelijk wordt. We evalueren de methode op de MusicNet-dataset met behulp van zowel objectieve als perceptuele metingen voor gatduur tot 300 ms. We hebben onze aanpak verder geëvalueerd op de MTG-dataset, waarbij de gatduur werd uitgebreid tot 500 ms. Experimentele resultaten tonen aan dat onze methode concurrerende of superieure prestaties bereikt in vergelijking met bestaande baselines, vooral voor langere gaten, en biedt zo een robuuste oplossing voor het herstellen van gedegradeerde muziekopnames. Audio-voorbeelden van onze voorgestelde methode zijn te vinden op https://iftach21.github.io/
Grote Taalmodellen (LLMs) hebben softwareontwikkeling en geautomatiseerde codegeneratie getransformeerd. Gemotiveerd door deze vooruitgang onderzoekt dit artikel de haalbaarheid van LLMs bij het aanpassen van malwarebroncode om varianten te genereren. We introduceren LLMalMorph, een semi-geautomatiseerd framework dat gebruikmaakt van semantisch en syntactisch codebegrip door LLMs om nieuwe malwarevarianten te genereren. LLMalMorph extraheert functieniveau-informatie uit de malwarebroncode en maakt gebruik van speciaal ontworpen prompts in combinatie met strategisch gedefinieerde codetransformaties om het LLM te begeleiden bij het genereren van varianten zonder resource-intensieve fine-tuning. Om LLMalMorph te evalueren, verzamelden we 10 diverse Windows-malwaremonsters van verschillende typen, complexiteit en functionaliteit en genereerden we 618 varianten. Onze grondige experimenten tonen aan dat het mogelijk is om de detectiepercentages van antivirusengines van deze malwarevarianten tot op zekere hoogte te verlagen terwijl de functionaliteit van de malware behouden blijft. Daarnaast behaalden, ondanks het niet optimaliseren tegen op Machine Learning (ML) gebaseerde malware-detectoren, verschillende varianten ook opmerkelijke aanvalssuccespercentages tegen een op ML gebaseerde malwareclassificator. We bespreken ook de beperkingen van de huidige LLM-mogelijkheden bij het genereren van malwarevarianten uit broncode en beoordelen waar deze opkomende technologie staat in de bredere context van malwarevariantgeneratie.
Moderne Kunstmatige Intelligentie (AI) maakt steeds meer gebruik van multi-agent architecturen die visueel en taalkundig begrip combineren. Toch blijft er een dringende uitdaging bestaan: Hoe kunnen we deze agenten vertrouwen, vooral in zero-shot situaties zonder fine-tuning? We introduceren een nieuw modulair Agentic AI-visueel classificatiekader dat generalistische multimodale agenten integreert met een niet-visuele redeneerorchestrator en een Retrieval-Augmented Generation (RAG)-module. Toegepast op de diagnose van appelschimmelziekten, vergelijken we drie configuraties: (I) zero-shot met vertrouwensgebaseerde orchestratie, (II) fine-tuned agenten met verbeterde prestaties, en (III) vertrouwensgekalibreerde orchestratie versterkt door CLIP-gebaseerde beeldretrieval en herbeoordelingslussen. Met behulp van vertrouwenskalibratiemetrics (ECE, OCR, CCC) moduleert de orchestrator het vertrouwen tussen agenten. Onze resultaten tonen een nauwkeurigheidsverbetering van 77,94% in de zero-shot setting door gebruik te maken van vertrouwensbewuste orchestratie en RAG, wat resulteert in een algehele nauwkeurigheid van 85,63%. GPT-4o toonde betere kalibratie, terwijl Qwen-2.5-VL overmatig zelfvertrouwen vertoonde. Bovendien verankerde image-RAG voorspellingen met visueel vergelijkbare gevallen, waardoor overmatig zelfvertrouwen van agenten gecorrigeerd kon worden via iteratieve herbeoordeling. Het voorgestelde systeem scheidt perceptie (visieagenten) van meta-redenering (orchestrator), wat schaalbare en interpreteerbare multi-agent AI mogelijk maakt. Dit blauwdruk is uitbreidbaar naar diagnostiek, biologie en andere vertrouwenskritieke domeinen. Alle modellen, prompts, resultaten en systeemcomponenten, inclusief de complete softwarebroncode, zijn openbaar vrijgegeven ter ondersteuning van reproduceerbaarheid, transparantie en community benchmarking op Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
Grote taalmodellen (LLM's) vertonen cognitieve biases -- systematische neigingen tot irrationele besluitvorming, vergelijkbaar met die bij mensen. Eerder onderzoek heeft aangetoond dat deze biases variëren tussen modellen en kunnen worden versterkt door instructieafstemming. Het blijft echter onduidelijk of deze verschillen in biases voortkomen uit voorafgaande training, afstemming, of zelfs willekeurige ruis door de stochastiek van het trainingsproces. Wij stellen een tweestaps causale experimentele aanpak voor om deze factoren te ontrafelen. Ten eerste stemmen we modellen meerdere keren af met verschillende willekeurige seeds om te bestuderen hoe trainingswillekeur meer dan 30 cognitieve biases beïnvloedt. Ten tweede introduceren we cross-tuning -- het uitwisselen van instructiedatasets tussen modellen om bronnen van bias te isoleren. Deze uitwisseling gebruikt datasets die tot verschillende biaspatronen hebben geleid, wat direct test of biases datasetafhankelijk zijn. Onze bevindingen laten zien dat hoewel trainingswillekeur enige variabiliteit introduceert, biases voornamelijk worden gevormd door voorafgaande training: modellen met dezelfde vooraf getrainde backbone vertonen meer vergelijkbare biaspatronen dan modellen die alleen afstemmingsdata delen. Deze inzichten suggereren dat het begrijpen van biases in afgestemde modellen vereist dat hun oorsprong in de voorafgaande training wordt overwogen, naast de effecten van afstemming. Dit perspectief kan toekomstige inspanningen begeleiden om principiële strategieën te ontwikkelen voor het evalueren en verminderen van bias in LLM's.