Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het unificeren van multimodale interpretatie en generatie heeft indrukwekkende mogelijkheden getoond in geavanceerde propriëtaire systemen. In dit werk introduceren we BAGEL, een open-source fundamenteel model dat van nature multimodale interpretatie en generatie ondersteunt. BAGEL is een geünificeerd, decoder-only model dat voorgetraind is op biljoenen tokens, samengesteld uit grootschalige interleaved tekst-, beeld-, video- en webdata. Wanneer het wordt geschaald met dergelijke diverse multimodale interleaved data, vertoont BAGEL opkomende capaciteiten in complexe multimodale redenering. Als resultaat presteert het aanzienlijk beter dan open-source geünificeerde modellen in zowel multimodale generatie als interpretatie op standaard benchmarks, terwijl het geavanceerde multimodale redeneervaardigheden vertoont, zoals vrije beeldmanipulatie, voorspelling van toekomstige frames, 3D-manipulatie en wereldnavigatie. In de hoop verdere mogelijkheden voor multimodaal onderzoek te faciliteren, delen we de belangrijkste bevindingen, details over de voorafgaande training, het protocol voor datacreatie, en geven we onze code en checkpoints vrij aan de gemeenschap. De projectpagina is te vinden op https://bagel-ai.org/.
De efficiëntie van aandacht is belangrijk vanwege de kwadratische tijdscomplexiteit. We verbeteren de efficiëntie van aandacht door twee belangrijke bijdragen: Ten eerste maken we gebruik van de nieuwe FP4 Tensor Cores in Blackwell GPU's om de aandachtberekening te versnellen. Onze implementatie behaalt 1038 TOPS op de RTX5090, wat een 5x versnelling is ten opzichte van de snelste FlashAttention op de RTX5090. Experimenten tonen aan dat onze FP4-attentie de inferentie van verschillende modellen op een plug-and-play manier kan versnellen. Ten tweede introduceren we low-bit aandacht voor trainings taken. Bestaande low-bit aandachtswerken zoals FlashAttention3 en SageAttention richten zich alleen op inferentie. Echter, de efficiëntie van het trainen van grote modellen is ook belangrijk. Om te onderzoeken of low-bit aandacht effectief kan worden toegepast op trainings taken, ontwerpen we een nauwkeurige en efficiënte 8-bit aandacht voor zowel voorwaartse als achterwaartse propagatie. Experimenten geven aan dat 8-bit aandacht verliesloze prestaties behaalt bij fine-tuning taken, maar langzamere convergentie vertoont bij pre-training taken. De code zal beschikbaar zijn op https://github.com/thu-ml/SageAttention.
Beloningsmodellen spelen een cruciale rol bij het sturen van grote taalmodellen naar uitvoer die aansluit bij menselijke verwachtingen. Een openstaande uitdaging blijft echter het effectief benutten van rekentijd tijdens het testen om de prestaties van beloningsmodellen te verbeteren. In dit werk introduceren we Beloningsredeneermodellen (Reward Reasoning Models, RRMs), die specifiek zijn ontworpen om een weloverwogen redeneerproces uit te voeren voordat ze definitieve beloningen genereren. Door middel van keten-van-gedachten-redenering benutten RRMs extra rekentijd tijdens het testen voor complexe vragen waarbij passende beloningen niet direct duidelijk zijn. Om RRMs te ontwikkelen, implementeren we een reinforcement learning-raamwerk dat zelfontwikkelde redeneervermogen voor beloningen bevordert, zonder expliciete redeneersporen als trainingsdata te vereisen. Experimentele resultaten tonen aan dat RRMs superieure prestaties behalen op benchmarks voor beloningsmodellering in diverse domeinen. Opmerkelijk is dat we aantonen dat RRMs adaptief rekentijd tijdens het testen kunnen benutten om de nauwkeurigheid van beloningen verder te verbeteren. De vooraf getrainde beloningsredeneermodellen zijn beschikbaar op https://huggingface.co/Reward-Reasoning.
Het schalen van testtijdberekeningen is cruciaal voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Bestaande benaderingen maken doorgaans gebruik van reinforcement learning (RL) om een verifieerbare beloning te maximaliseren die aan het einde van redeneersporen wordt verkregen. Dergelijke methoden optimaliseren echter alleen de eindprestatie onder een groot en vast tokenbudget, wat de efficiëntie in zowel training als implementatie belemmert. In dit werk presenteren we een nieuw raamwerk, AnytimeReasoner, om de redeneerprestatie op elk moment te optimaliseren, met als doel de token-efficiëntie en de flexibiliteit van redeneren onder variërende tokenbudgetbeperkingen te verbeteren. Om dit te bereiken, korten we het volledige denkproces in om het binnen steekproefsgewijze tokenbudgets uit een priorverdeling te laten passen, waardoor het model gedwongen wordt het optimale antwoord voor elk ingekort denken samen te vatten voor verificatie. Dit introduceert verifieerbare dichte beloningen in het redeneerproces, wat een effectievere krediettoewijzing in RL-optimalisatie mogelijk maakt. Vervolgens optimaliseren we het denk- en samenvattingsbeleid op een ontkoppelde manier om de cumulatieve beloning te maximaliseren. Daarnaast introduceren we een nieuwe techniek voor variantiereductie, Budget Relative Policy Optimization (BRPO), om de robuustheid en efficiëntie van het leerproces te verbeteren bij het versterken van het denkbeleid. Empirische resultaten in wiskundige redeneertaken tonen aan dat onze methode consistent beter presteert dan GRPO bij alle denkbudgets onder verschillende priorverdelingen, waardoor zowel de training als de token-efficiëntie worden verbeterd.
Neurosymbolische (NeSy) voorspellers combineren neurale perceptie met symbolisch redeneren om taken zoals visueel redeneren op te lossen. Standaard NeSy-voorspellers gaan echter uit van conditionele onafhankelijkheid tussen de symbolen die ze extraheren, wat hun vermogen beperkt om interacties en onzekerheid te modelleren – wat vaak leidt tot overmoedige voorspellingen en slechte generalisatie buiten de verdeling. Om de beperkingen van de onafhankelijkheidsaanname te overwinnen, introduceren we neurosymbolische diffusiemodellen (NeSyDMs), een nieuwe klasse van NeSy-voorspellers die discrete diffusie gebruiken om afhankelijkheden tussen symbolen te modelleren. Onze aanpak hergebruikt de onafhankelijkheidsaanname van NeSy-voorspellers bij elke stap van het diffusieproces, waardoor schaalbare leerprocessen mogelijk zijn terwijl symbolische afhankelijkheden en onzekerheidskwantificering worden vastgelegd. Op zowel synthetische als real-world benchmarks – inclusief hoogdimensionale visuele padplanning en regelgebaseerd autonoom rijden – behalen NeSyDMs state-of-the-art nauwkeurigheid onder NeSy-voorspellers en tonen ze sterke kalibratie aan.
Een belangrijke trend in Large Reasoning Models (bijvoorbeeld OpenAI's o3) is de inherente agentische mogelijkheid om externe tools te gebruiken, zoals webbrowsers voor zoeken en het schrijven/uitvoeren van code voor beeldmanipulatie om met afbeeldingen te denken. In de open-source onderzoeksgemeenschap is, hoewel aanzienlijke vooruitgang is geboekt in agentische vaardigheden die alleen op taal zijn gericht, zoals functie-aanroepen en toolintegratie, de ontwikkeling van multimodale agentische capaciteiten die echt met afbeeldingen denken, en hun bijbehorende benchmarks, nog steeds minder onderzocht. Dit werk benadrukt de effectiviteit van Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) voor het mogelijk maken van flexibele en adaptieve redeneervaardigheden voor Large Vision-Language Models (LVLMs). Met Visual-ARFT krijgen open-source LVLMs de mogelijkheid om websites te browsen voor real-time informatie-updates en code te schrijven om invoerafbeeldingen te manipuleren en te analyseren door middel van bijsnijden, roteren en andere beeldverwerkingstechnieken. We presenteren ook een Multi-modal Agentic Tool Bench (MAT) met twee instellingen (MAT-Search en MAT-Coding) die zijn ontworpen om de agentische zoek- en codeervaardigheden van LVLMs te evalueren. Onze experimentele resultaten tonen aan dat Visual-ARFT zijn baseline overtreft met +18,6% F1 / +13,0% EM op MAT-Coding en +10,3% F1 / +8,7% EM op MAT-Search, en uiteindelijk GPT-4o overstijgt. Visual-ARFT behaalt ook +29,3 F1% / +25,9% EM winst op bestaande multi-hop QA benchmarks zoals 2Wiki en HotpotQA, wat sterke generalisatiecapaciteiten aantoont. Onze bevindingen suggereren dat Visual-ARFT een veelbelovende weg biedt voor het bouwen van robuuste en generaliseerbare multimodale agents.
DeepSeek-R1 heeft opmerkelijke effectiviteit getoond in het stimuleren van redeneer- en generalisatievaardigheden van grote taalmodel(len) (LLM's) door middel van reinforcement learning. Desalniettemin is het potentieel van redenering-geïnduceerd computationeel modelleren nog niet grondig onderzocht in de context van beeldkwaliteitsbeoordeling (IQA), een taak die cruciaal afhankelijk is van visueel redeneren. In dit artikel introduceren we VisualQuality-R1, een redenering-geïnduceerd no-reference IQA (NR-IQA) model, en trainen we het met reinforcement learning to rank, een leeralgoritme dat is afgestemd op de intrinsiek relatieve aard van visuele kwaliteit. Specifiek gebruiken we voor een paar afbeeldingen group relative policy optimization om meerdere kwaliteitsscores voor elke afbeelding te genereren. Deze schattingen worden vervolgens gebruikt om vergelijkende waarschijnlijkheden te berekenen dat de ene afbeelding een hogere kwaliteit heeft dan de andere onder het Thurstone-model. Beloningen voor elke kwaliteitsschatting worden gedefinieerd met behulp van continue betrouwbaarheidsmaten in plaats van gediscretiseerde binaire labels. Uitgebreide experimenten tonen aan dat het voorgestelde VisualQuality-R1 consistent beter presteert dan discriminerende deep learning-gebaseerde NR-IQA-modellen, evenals een recente redenering-geïnduceerde kwaliteitsregressiemethode. Bovendien is VisualQuality-R1 in staat om contextueel rijke, op mensen afgestemde kwaliteitsbeschrijvingen te genereren en ondersteunt het multi-dataset training zonder dat er een herschaling van de perceptuele schaal nodig is. Deze eigenschappen maken VisualQuality-R1 bijzonder geschikt voor het betrouwbaar meten van voortgang in een breed scala aan beeldverwerkingstaken zoals superresolutie en beeldgeneratie.
Transformers, de standaardimplementatie voor grote taalmodellen (LLMs), bestaan doorgaans uit tientallen tot honderden discrete lagen. Hoewel meer lagen tot betere prestaties kunnen leiden, wordt deze aanpak bekritiseerd als verre van efficiënt, vooral gezien de superioriteit van continue lagen die is aangetoond door diffusie- en stroomgebaseerde modellen voor beeldgeneratie. Wij stellen de Latent Flow Transformer (LFT) voor, die een blok lagen vervangt door een enkele geleerde transportoperator die wordt getraind via flow matching, wat aanzienlijke compressie biedt terwijl compatibiliteit met de oorspronkelijke architectuur behouden blijft. Daarnaast pakken we de beperkingen van bestaande stroomgebaseerde methoden in het behouden van koppeling aan door de introductie van het Flow Walking (FW)-algoritme. Op het Pythia-410M-model comprimeert LFT, getraind met flow matching, 6 van de 24 lagen en presteert het beter dan het direct overslaan van 2 lagen (KL-divergentie van LM-logits op 0.407 vs. 0.529), wat de haalbaarheid van dit ontwerp aantoont. Wanneer LFT wordt getraind met FW, destilleert het verder 12 lagen tot één terwijl de KL wordt teruggebracht tot 0.736, wat beter is dan het overslaan van 3 lagen (0.932), waardoor de kloof tussen autoregressieve en stroomgebaseerde generatieparadigma's aanzienlijk wordt verkleind.
Doel: Met de vooruitgang in Grote Taalmodellen (LLM's) voor de gezondheidszorg ontstaat de behoefte aan concurrerende open-source modellen om het publieke belang te beschermen. Dit werk draagt bij aan het veld van open medische LLM's door cruciale fasen van gegevensvoorbewerking en training te optimaliseren, terwijl wordt getoond hoe de veiligheid van modellen kan worden verbeterd (via DPO) en de effectiviteit (via RAG). De gebruikte evaluatiemethodologie, die vier verschillende soorten tests omvat, definieert een nieuwe standaard voor het veld. De resulterende modellen, die concurrerend blijken te zijn met de beste private alternatieven, worden vrijgegeven onder een permissieve licentie. Methoden: Voortbouwend op sterke basismodellen zoals Llama 3.1 en Qwen 2.5, gebruikt Aloe Beta een aangepaste dataset om publieke gegevens te verrijken met synthetische Chain of Thought-voorbeelden. De modellen worden afgestemd met Direct Preference Optimization, waarbij de nadruk ligt op ethische en beleidsafgestemde prestaties in het geval van jailbreaking-aanvallen. De evaluatie omvat gesloten, open, veiligheids- en menselijke beoordelingen om de betrouwbaarheid van de resultaten te maximaliseren. Resultaten: Aanbevelingen worden gedaan voor de gehele pijplijn, ondersteund door de solide prestaties van de Aloe Family. Deze modellen leveren concurrerende prestaties op gezondheidszorgbenchmarks en medische gebieden, en worden vaak geprefereerd door zorgprofessionals. Op het gebied van bias en toxiciteit verbeteren de Aloe Beta-modellen de veiligheid aanzienlijk en tonen ze veerkracht tegen onbekende jailbreaking-aanvallen. Voor een verantwoorde release is een gedetailleerde risicobeoordeling specifiek voor de gezondheidszorg toegevoegd aan de Aloe Family-modellen. Conclusie: De Aloe Beta-modellen, en het recept dat ertoe leidt, vormen een belangrijke bijdrage aan het open-source medische LLM-veld, waarbij topkwaliteit prestaties worden geboden terwijl hoge ethische eisen worden gehandhaafd. Dit werk stelt een nieuwe standaard voor het ontwikkelen en rapporteren van afgestemde LLM's in de gezondheidszorg.
Reinforcement learning (RL) heeft recentelijk sterk potentieel getoond in het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Met name de "Zero" reinforcement learning, geïntroduceerd door Deepseek-R1-Zero, maakt directe RL-training van basis-LLMs mogelijk zonder te vertrouwen op een tussenliggende fase van supervised fine-tuning. Ondanks deze vooruitgang richten huidige werken voor LLM-redenering zich voornamelijk op wiskundige en programmeerdomeinen, grotendeels vanwege de overvloed aan data en het gemak van antwoordverificatie. Dit beperkt de toepasbaarheid en generalisatie van dergelijke modellen voor bredere domeinen, waar vragen vaak diverse antwoordrepresentaties hebben en data schaarser is. In dit artikel stellen we General-Reasoner voor, een nieuwe trainingsparadigma ontworpen om de redeneervaardigheden van LLMs over diverse domeinen te verbeteren. Onze belangrijkste bijdragen omvatten: (1) het construeren van een grootschalige, hoogwaardige dataset van vragen met verifieerbare antwoorden, samengesteld door webcrawling, die een breed scala aan disciplines bestrijkt; en (2) het ontwikkelen van een op generatieve modellen gebaseerde antwoordverifier, die traditionele regelgebaseerde verificatie vervangt met de mogelijkheid van chain-of-thought en contextbewustzijn. We trainen een reeks modellen en evalueren deze op een breed scala aan datasets die domeinen zoals natuurkunde, scheikunde, financiën, elektronica, enz. omvatten. Onze uitgebreide evaluatie over deze 12 benchmarks (bijv. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH en MATH AMC) toont aan dat General-Reasoner bestaande baseline-methoden overtreft, waarbij het robuuste en generaliseerbare redeneerprestaties bereikt terwijl het superieure effectiviteit behoudt in wiskundige redeneertaken.
Recente Large Reasoning Models (LRMs) hebben aanzienlijk verbeterde redeneervaardigheden getoond in vergelijking met traditionele Large Language Models (LLMs) door uitgebreide denkprocessen te integreren voordat ze definitieve antwoorden produceren. Echter, een te lange denkfase introduceert aanzienlijke overhead in termen van tokenverbruik en latentie, wat vooral onnodig is voor eenvoudige vragen. In dit werk introduceren we Large Hybrid-Reasoning Models (LHRMs), het eerste type model dat adaptief kan bepalen of het denkprocessen moet uitvoeren op basis van de contextuele informatie van gebruikersvragen. Om dit te bereiken, stellen we een tweefasig trainingspijplijn voor, bestaande uit Hybrid Fine-Tuning (HFT) als een koude start, gevolgd door online reinforcement learning met de voorgestelde Hybrid Group Policy Optimization (HGPO) om impliciet te leren het juiste denkmodus te selecteren. Bovendien introduceren we een metriek genaamd Hybrid Accuracy om het vermogen van het model voor hybride denken kwantitatief te beoordelen. Uitgebreide experimentele resultaten tonen aan dat LHRMs adaptief hybride denken kunnen uitvoeren op vragen van verschillende moeilijkheidsgraden en typen. Het overtreft bestaande LRMs en LLMs in redeneer- en algemene vaardigheden terwijl het de efficiëntie aanzienlijk verbetert. Samen pleit ons werk voor een heroverweging van het juiste gebruik van uitgebreide denkprocessen en biedt het een solide startpunt voor het bouwen van hybride denksystemen.
Ondanks hun sterke punten slagen grote taalmodellen (LLMs) er vaak niet in om hun vertrouwen accuraat te communiceren, wat het moeilijk maakt om te beoordelen wanneer ze fout zouden kunnen zijn en hun betrouwbaarheid beperkt. In dit werk tonen we aan dat redeneermodellen—LLMs die uitgebreide chain-of-thought (CoT) redenering toepassen—niet alleen superieure prestaties leveren in probleemoplossing, maar ook in het nauwkeurig uitdrukken van hun vertrouwen. Specifiek evalueren we zes redeneermodellen op zes datasets en constateren dat ze in 33 van de 36 gevallen een strikt betere vertrouwenscalibratie bereiken dan hun niet-redenerende tegenhangers. Onze gedetailleerde analyse onthult dat deze verbeteringen in calibratie voortkomen uit de langzame denkprocessen van redeneermodellen—zoals het verkennen van alternatieve benaderingen en terugkeren naar eerdere stappen—waardoor ze hun vertrouwen dynamisch kunnen aanpassen gedurende hun CoT, waardoor het geleidelijk aan nauwkeuriger wordt. In het bijzonder zien we dat redeneermodellen steeds beter gekalibreerd worden naarmate hun CoT vordert, een trend die niet wordt waargenomen bij niet-redenerende modellen. Bovendien leidt het verwijderen van langzame denkprocessen uit de CoT tot een significante daling in calibratie. Tot slot tonen we aan dat deze verbeteringen niet exclusief zijn voor redeneermodellen—ook niet-redenerende modellen profiteren wanneer ze worden begeleid om langzaam denken toe te passen via in-context learning.
Recente taalmodellen gericht op redeneren behalen een hoge nauwkeurigheid door uitgebreide tussenliggende redeneerpaden te genereren voordat ze eindantwoorden produceren. Hoewel deze aanpak effectief is voor het oplossen van problemen die logisch denken vereisen, vergroten lange redeneerpaden het geheugengebruik en de doorvoer van token-generatie aanzienlijk, wat de praktische inzet van dergelijke modellen beperkt. Wij stellen Reasoning Path Compression (RPC) voor, een trainingsvrije methode die de inferentie versnelt door gebruik te maken van de semantische schaarste van redeneerpaden. RPC comprimeert periodiek de KV-cache door KV-cache te behouden die een hoge belangrijkheidsscore ontvangen, welke wordt berekend met behulp van een selectievenster bestaande uit recent gegenereerde queries. Experimenten tonen aan dat RPC de generatiedoorvoer van QwQ-32B met maximaal 1,60 keer verbetert in vergelijking met inferentie met een volledige KV-cache, met een nauwkeurigheidsdaling van 1,2% op de AIME 2024-benchmark. Onze bevindingen demonstreren dat semantische schaarste in redeneersporen effectief kan worden benut voor compressie, wat een praktische weg biedt naar efficiënte inzet van redeneer-LLM's. Onze code is beschikbaar op https://github.com/jiwonsong-dev/ReasoningPathCompression.
Grote multimodale modellen (LMMs) zijn recent naar voren gekomen als een krachtig hulpmiddel voor het begrijpen van lange video's (LVU), wat de ontwikkeling van gestandaardiseerde LVU-benchmarks heeft gestimuleerd om hun prestaties te evalueren. Uit ons onderzoek blijkt echter een vrij nuchtere les voor bestaande LVU-benchmarks. Ten eerste vertrouwen de meeste bestaande benchmarks sterk op meerkeuzevragen (MCQs), waarvan de evaluatieresultaten worden opgeblazen door de mogelijkheid om het juiste antwoord te raden. Ten tweede heeft een aanzienlijk deel van de vragen in deze benchmarks sterke aannames die modellen in staat stellen om direct antwoord te geven zonder zelfs maar de invoervideo te bekijken. Zo kan Gemini-1.5-Pro bijvoorbeeld een nauwkeurigheid van meer dan 50% behalen bij een willekeurig frame uit een lange video op Video-MME. We merken ook op dat het verhogen van het aantal frames niet noodzakelijkerwijs leidt tot verbetering op bestaande benchmarks, wat contra-intuïtief is. Als gevolg hiervan worden de geldigheid en robuustheid van huidige LVU-benchmarks ondermijnd, wat een betrouwbare beoordeling van het lange-video-begrip van LMM's belemmert. Om dit probleem aan te pakken, stellen we VideoEval-Pro voor, een realistische LVU-benchmark die vragen bevat met open-eind korte antwoorden, die echt begrip van de hele video vereisen. VideoEval-Pro beoordeelt zowel segmentniveau- als volledige-video-begrip door middel van perceptie- en redeneertaken. Door 21 propriëtaire en open-source video-LMMs te evalueren, concluderen we de volgende bevindingen: (1) video-LMMs vertonen drastische prestatieverliezen (>25%) bij open-eind vragen vergeleken met MCQs; (2) verrassend genoeg leiden hogere MCQ-scores niet tot hogere open-eind scores op VideoEval-Pro; (3) vergeleken met andere MCQ-benchmarks, profiteert VideoEval-Pro meer van het verhogen van het aantal invoerframes. Onze resultaten tonen aan dat VideoEval-Pro een realistischer en betrouwbaarder maatstaf biedt voor het begrijpen van lange video's, wat een duidelijker beeld geeft van de vooruitgang op dit gebied.
Intelligente gamecreatie vertegenwoordigt een transformerende vooruitgang in gameontwikkeling, waarbij generatieve kunstmatige intelligentie wordt ingezet om gamecontent dynamisch te genereren en te verrijken. Ondanks aanzienlijke vooruitgang in generatieve modellen, blijft de alomvattende synthese van hoogwaardige game-assets, inclusief zowel afbeeldingen als video's, een uitdagend gebied. Om hoogwaardige gamecontent te creëren die tegelijkertijd aansluit bij de voorkeuren van spelers en de efficiëntie van ontwerpers aanzienlijk verhoogt, presenteren we Hunyuan-Game, een innovatief project dat is ontworpen om intelligente gameproductie te revolutioneren. Hunyuan-Game omvat twee primaire takken: beeldgeneratie en videogeneratie. De beeldgeneratiecomponent is gebouwd op een enorme dataset bestaande uit miljarden gameafbeeldingen, wat heeft geleid tot de ontwikkeling van een groep op maat gemaakte beeldgeneratiemodellen die zijn afgestemd op gamescenario's: (1) Algemene tekst-naar-beeldgeneratie. (2) Generatie van gamevisuele effecten, waarbij tekst-naar-effect en referentiebeeld-gebaseerde generatie van gamevisuele effecten betrokken zijn. (3) Generatie van transparante afbeeldingen voor personages, scènes en gamevisuele effecten. (4) Generatie van gamepersonages op basis van schetsen, zwart-witafbeeldingen en witte modellen. De videogeneratiecomponent is gebouwd op een uitgebreide dataset van miljoenen game- en animevideo's, wat heeft geleid tot de ontwikkeling van vijf kernalgoritmische modellen, elk gericht op kritieke pijnpunten in gameontwikkeling en met een robuuste aanpassing aan diverse gamevideoscenario's: (1) Beeld-naar-videogeneratie. (2) 360 A/T Pose Avatar Video Synthese. (3) Generatie van dynamische illustraties. (4) Generatieve videoresolutieverbetering. (5) Generatie van interactieve gamevideo's. Deze beeld- en videogeneratiemodellen vertonen niet alleen een hoog niveau van esthetische expressie, maar integreren ook diepgaand domeinspecifieke kennis, waardoor een systematisch begrip van diverse game- en animekunststijlen wordt gevestigd.
Het aanleren van algemene redeneervaardigheden is al lang een uitdagend probleem in AI. Recent onderzoek naar grote taalmmodellen (LLMs), zoals DeepSeek-R1, heeft aangetoond dat versterkingsleertechnieken zoals GRPO vooraf getrainde LLMs in staat kunnen stellen redeneervaardigheden te ontwikkelen met behulp van eenvoudige vraag-antwoordparen. In dit artikel streven we ernaar om visuele taalmmodellen (VLMs) te trainen om redenering uit te voeren op beeldgegevens via versterkingsleren en visuele vraag-antwoordparen, zonder expliciete chain-of-thought (CoT) begeleiding. Onze bevindingen geven aan dat het simpelweg toepassen van versterkingsleren op een VLM — door het model aan te moedigen een redeneerketen te produceren voordat het een antwoord geeft — kan leiden tot het ontwikkelen van shortcuts vanuit eenvoudige vragen, waardoor het vermogen van het model om te generaliseren over onbekende gegevensverdelingen wordt verminderd. Wij stellen dat de sleutel tot het beperken van shortcut learning ligt in het aanmoedigen van het model om afbeeldingen te interpreteren voordat het gaat redeneren. Daarom trainen we het model om een caption-reason-answer uitvoerformaat aan te houden: eerst een gedetailleerde beschrijving van een afbeelding genereren, gevolgd door het opbouwen van een uitgebreide redeneerketen. Wanneer getraind op 273K CoT-vrije visuele vraag-antwoordparen en uitsluitend gebruikmakend van versterkingsleren, presteert ons model, genaamd Visionary-R1, beter dan sterke multimodale modellen, zoals GPT-4o, Claude3.5-Sonnet en Gemini-1.5-Pro, op meerdere visuele redeneerbenchmarks.
LLM-pruning is naar voren gekomen als een veelbelovende technologie voor het comprimeren van LLM's, waardoor hun implementatie op apparaten met beperkte middelen mogelijk wordt. Huidige methodologieën vereisen echter doorgaans toegang tot openbare kalibratiegegevens, wat moeilijk te verkrijgen kan zijn in domeinen waar privacy gevoelig ligt. Om dit probleem aan te pakken, introduceren wij FedPrLLM, een uitgebreid federatief pruning-framework ontworpen voor de privacybewuste compressie van LLM's. In FedPrLLM hoeft elke client alleen een pruning-maskermatrix te berekenen op basis van zijn lokale kalibratiegegevens en deze te delen met de server om het globale model te snoeien. Deze aanpak maakt het mogelijk om het globale model gezamenlijk te snoeien met de kennis van elke client, terwijl de privacy van lokale gegevens behouden blijft. Daarnaast voeren wij uitgebreide experimenten uit om verschillende mogelijkheden binnen het FedPrLLM-framework te verkennen, waaronder verschillende vergelijkingsgroepen, pruningstrategieën en de beslissing om gewichten te schalen. Onze uitgebreide evaluatie toont aan dat one-shot pruning met laagvergelijking en zonder gewichtsschaling de optimale keuze is binnen het FedPrLLM-framework. Wij hopen dat ons werk toekomstige inspanningen zal begeleiden bij het snoeien van LLM's in privacygevoelige domeinen. Onze code is beschikbaar op https://github.com/Pengxin-Guo/FedPrLLM.
Code-switching (CS) vormt een aanzienlijke uitdaging voor Large Language Models (LLM's), maar de begrijpelijkheid ervan blijft onderbelicht in LLM's. We introduceren CS-Sum om de begrijpelijkheid van CS door LLM's te evalueren via CS-dialoog naar Engelse samenvatting. CS-Sum is de eerste benchmark voor CS-dialoogsamenvatting voor Mandarijn-Engels (EN-ZH), Tamil-Engels (EN-TA) en Maleis-Engels (EN-MS), met 900-1300 door mensen geannoteerde dialogen per taalpaar. Door tien LLM's te evalueren, waaronder open en closed-source modellen, analyseren we de prestaties bij few-shot, translate-summarize en fine-tuning (LoRA, QLoRA op synthetische data) benaderingen. Onze bevindingen tonen aan dat hoewel de scores op geautomatiseerde metrieken hoog zijn, LLM's subtiele fouten maken die de volledige betekenis van de dialoog veranderen. Daarom introduceren we de 3 meest voorkomende type fouten die LLM's maken bij het verwerken van CS-invoer. Foutpercentages variëren tussen CS-paren en LLM's, waarbij sommige LLM's vaker fouten maken bij bepaalde taalparen, wat de noodzaak onderstreept van gespecialiseerde training op code-switched data.
Onzichtbare beeldwatermerken kunnen het eigendomsrecht van afbeeldingen beschermen en kwaadwillig misbruik van visuele generatieve modellen voorkomen. Bestaande generatieve watermerkmethoden zijn echter voornamelijk ontworpen voor diffusiemodellen, terwijl watermerken voor autoregressieve beeldgeneratiemodellen grotendeels onontgonnen blijven. Wij stellen IndexMark voor, een trainingsvrij watermerkraamwerk voor autoregressieve beeldgeneratiemodellen. IndexMark is geïnspireerd door de redundantie-eigenschap van de codebook: het vervangen van autoregressief gegenereerde indices door vergelijkbare indices levert verwaarloosbare visuele verschillen op. De kerncomponent in IndexMark is een eenvoudige maar effectieve match-then-replace-methode, die zorgvuldig watermerktokens selecteert uit de codebook op basis van tokensimilariteit, en het gebruik van watermerktokens bevordert door tokenvervanging, waardoor het watermerk wordt ingebed zonder de beeldkwaliteit te beïnvloeden. Watermerkverificatie wordt bereikt door het aandeel van watermerktokens in gegenereerde afbeeldingen te berekenen, waarbij de precisie verder wordt verbeterd door een Index Encoder. Bovendien introduceren we een aanvullende validatieschema om de robuustheid tegen cropping-aanvallen te vergroten. Experimenten tonen aan dat IndexMark state-of-the-art prestaties bereikt op het gebied van beeldkwaliteit en verificatienauwkeurigheid, en robuustheid vertoont tegen verschillende verstoringen, waaronder cropping, ruis, Gaussiaanse vervaging, willekeurig wissen, kleurverandering en JPEG-compressie.
Ondanks de brede adoptie, ervaren multimodale grote taalmodellen (MLLMs) prestatievermindering wanneer ze worden geconfronteerd met onbekende vragen onder distributieverschuivingen. Bestaande methoden om de generalisatie van MLLMs te verbeteren vereisen doorgaans ofwel meer instructiedata ofwel grotere geavanceerde modelarchitecturen, wat beide aanzienlijke menselijke inspanning of rekenkosten met zich meebrengt. In dit werk nemen we een alternatieve benadering om de robuustheid van MLLMs onder distributieverschuivingen te verbeteren, vanuit een representatieleerperspectief. Geïnspireerd door het informatiebottleneck (IB)-principe, leiden we een variatieel ondergrens af van de IB voor MLLMs en ontwikkelen we een praktische implementatie, Visual Instruction Bottleneck Tuning (Vittle). We geven vervolgens een theoretische rechtvaardiging van Vittle door de verbinding ervan met een informatie-theoretische robuustheidsmetriek van MLLM te onthullen. Empirische validatie van drie MLLMs op open-einde en gesloten-vorm vraag-antwoordtaken en objecthallucinatiedetectietaken over 45 datasets, waaronder 30 verschuivingsscenario's, toont aan dat Vittle consistent de robuustheid van MLLMs onder verschuivingen verbetert door het nastreven van het leren van een minimaal voldoende representatie.
Naarmate de omvang van grote taalmodellen exponentieel toeneemt, is GPU-geheugen een knelpunt geworden bij het aanpassen van deze modellen voor downstream-taken. In dit artikel streven we ernaar de grenzen van geheugenefficiënte training te verleggen door het geheugengebruik voor modelgewichten, gradiënten en optimizerstatussen te minimaliseren binnen een uniform raamwerk. Ons idee is om zowel gradiënten als optimizerstatussen te elimineren door gebruik te maken van zeroth-order optimalisatie, waarbij gradiënten worden benaderd door gewichten te verstoren tijdens forward passes om gradiëntrichtingen te identificeren. Om het geheugengebruik voor gewichten te minimaliseren, passen we modelkwantisatie toe, bijvoorbeeld door conversie van bfloat16 naar int4. Het direct toepassen van zeroth-order optimalisatie op gekwantiseerde gewichten is echter niet haalbaar vanwege het precisieverschil tussen discrete gewichten en continue gradiënten, wat anders de-quantisatie en her-kwantisatie zou vereisen. Om deze uitdaging te overwinnen, stellen we Quantized Zeroth-order Optimization (QZO) voor, een nieuwe aanpak die de continue kwantisatieschaal verstoort voor gradiëntschatting en een directional derivative clipping-methode gebruikt om de training te stabiliseren. QZO staat los van zowel scalar-based als codebook-based post-training kwantisatiemethoden. Vergeleken met full-parameter fine-tuning in bfloat16 kan QZO de totale geheugenkosten met meer dan 18 keer verminderen voor 4-bit LLM's en maakt het fine-tuning van Llama-2-13B en Stable Diffusion 3.5 Large mogelijk binnen een enkele 24GB GPU.
Ondanks indrukwekkende vooruitgang in Visueel-Taalmodellen (VLMs) voor multimodale taken, beperkt hun afhankelijkheid van RGB-input een precieze ruimtelijke begrip. Bestaande methoden voor het integreren van ruimtelijke aanwijzingen, zoals puntenwolken of diepte, vereisen gespecialiseerde sensoren of slagen er niet in om diepte-informatie effectief te benutten voor hogere-orde redenering. Daarom stellen we een nieuwe methode voor, genaamd Spatial Sense and Reasoning (SSR), een innovatief raamwerk dat ruwe dieptegegevens omzet in gestructureerde, interpreteerbare tekstuele redeneringen. Deze tekstuele redeneringen dienen als betekenisvolle tussenliggende representaties om ruimtelijke redeneervaardigheden aanzienlijk te verbeteren. Bovendien maken we gebruik van kennisdistillatie om de gegenereerde redeneringen te comprimeren tot compacte latente embeddings, die een resource-efficiënte en plug-and-play integratie in bestaande VLMs mogelijk maken zonder hertraining. Om een uitgebreide evaluatie mogelijk te maken, introduceren we een nieuwe dataset genaamd SSR-CoT, een miljoenen-schaal visueel-taalredeneerdataset verrijkt met tussenliggende ruimtelijke redeneerannotaties, en presenteren we SSRBench, een uitgebreide multimodale benchmark. Uitgebreide experimenten op meerdere benchmarks tonen aan dat SSR het gebruik van diepte aanzienlijk verbetert en ruimtelijke redenering versterkt, waardoor VLMs worden bevorderd naar een meer mensachtig multimodaal begrip. Onze projectpagina is te vinden op https://yliu-cs.github.io/SSR.
Mixture-of-Experts (MoE)-architecturen binnen Large Reasoning Models (LRMs) hebben indrukwekkende redeneervaardigheden bereikt door experts selectief te activeren om gestructureerde cognitieve processen te faciliteren. Ondanks opmerkelijke vooruitgang lijden bestaande redeneermodellen vaak aan cognitieve inefficiënties zoals overdrijven en onderdenken. Om deze beperkingen aan te pakken, introduceren we een nieuwe inferentie-tijd-stuurmethodologie genaamd Reinforcing Cognitive Experts (RICE), ontworpen om de redeneerprestaties te verbeteren zonder aanvullende training of complexe heuristieken. Door gebruik te maken van genormaliseerde Pointwise Mutual Information (nPMI) identificeren we systematisch gespecialiseerde experts, genaamd ''cognitieve experts'', die meta-niveau redeneeroperaties coördineren die worden gekenmerkt door tokens zoals ''<think>''. Empirische evaluaties met toonaangevende MoE-gebaseerde LRMs (DeepSeek-R1 en Qwen3-235B) op strenge kwantitatieve en wetenschappelijke redeneerbenchmarks tonen aanmerkelijke en consistente verbeteringen in redeneernauwkeurigheid, cognitieve efficiëntie en cross-domein generalisatie. Cruciaal is dat onze lichtgewicht aanpak veelvoorkomende redeneer-stuurtechnieken, zoals promptontwerp en decodeerbeperkingen, aanzienlijk overtreft, terwijl de algemene instructievolgvaardigheden van het model behouden blijven. Deze resultaten benadrukken het versterken van cognitieve experts als een veelbelovende, praktische en interpreteerbare richting om de cognitieve efficiëntie binnen geavanceerde redeneermodellen te verbeteren.
Naarmate taalmodellen krachtiger en geavanceerder worden, is het cruciaal dat ze betrouwbaar en betrouwbaar blijven. Er is zorgwekkend voorlopig bewijs dat modellen kunnen proberen hun operators te misleiden of geheimen voor hen te verbergen. Om het vermogen van huidige technieken om dergelijke verborgen kennis naar voren te brengen te onderzoeken, trainen we een Taboe-model: een taalmodel dat een specifiek geheim woord beschrijft zonder het expliciet te vermelden. Belangrijk is dat het geheime woord niet aan het model wordt gepresenteerd in zijn trainingsdata of prompt. Vervolgens onderzoeken we methoden om dit geheim te onthullen. Eerst evalueren we niet-interpreteerbare (black-box) benaderingen. Daarna ontwikkelen we grotendeels geautomatiseerde strategieën gebaseerd op mechanistische interpreteerbaarheidstechnieken, waaronder logit lens en sparse autoencoders. Evaluatie toont aan dat beide benaderingen effectief zijn in het naar voren brengen van het geheime woord in onze proof-of-concept setting. Onze bevindingen benadrukken de belofte van deze benaderingen voor het naar voren brengen van verborgen kennis en suggereren verschillende veelbelovende richtingen voor toekomstig werk, waaronder het testen en verfijnen van deze methoden op complexere modelorganismen. Dit werk beoogt een stap te zijn in de richting van het aanpakken van het cruciale probleem van het naar voren brengen van geheime kennis uit taalmodellen, en draagt daarmee bij aan hun veilige en betrouwbare inzet.
Distillatie is naar voren gekomen als een praktische en effectieve aanpak om de redeneervaardigheden van open-source taalmodelen te verbeteren. In dit werk voeren we een grootschalig empirisch onderzoek uit naar de distillatie van redeneergegevens door geverifieerde uitvoer te verzamelen van drie state-of-the-art leraarmodellen—AM-Thinking-v1, Qwen3-235B-A22B en DeepSeek-R1—op een gedeelde corpus van 1,89 miljoen queries. We construeren drie parallelle datasets en analyseren hun verdelingen, waaruit blijkt dat de gedistilleerde data van AM-Thinking-v1 een grotere diversiteit in tokenlengte en een lagere perplexiteit vertoont. Studentmodellen die op elke dataset zijn getraind, worden geëvalueerd op redeneerbenchmarks, waaronder AIME2024, AIME2025, MATH500 en LiveCodeBench. Het op AM gebaseerde model behaalt consistent de beste prestaties (bijvoorbeeld 84,3 op AIME2024, 72,2 op AIME2025, 98,4 op MATH500 en 65,9 op LiveCodeBench) en toont adaptief uitvoergedrag—langere reacties voor moeilijkere taken en kortere voor eenvoudigere taken. Deze bevindingen onderstrepen de waarde van hoogwaardige, geverifieerde redeneersporen. We maken de gedistilleerde datasets van AM-Thinking-v1 en Qwen3-235B-A22B beschikbaar om toekomstig onderzoek naar open en hoogpresterende, op redeneren gerichte taalmodelen te ondersteunen. De datasets zijn publiekelijk beschikbaar op Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
Generatieve AI-zoekopdrachten zijn bezig met het hervormen van informatieverwerking door end-to-end antwoorden te bieden op complexe vragen, waardoor gebruikers minder afhankelijk zijn van het handmatig doorzoeken en samenvatten van meerdere webpagina's. Dit paradigma vergroot echter het gemak, maar verstoort tegelijkertijd de feedbackgestuurde verbeteringscyclus die historisch gezien de evolutie van traditionele webzoekopdrachten heeft aangedreven. Webzoekopdrachten kunnen hun rankingmodellen continu verbeteren door grootschalige, gedetailleerde gebruikersfeedback (bijv. klikken, verblijftijd) op documentniveau te verzamelen. In tegenstelling hiermee werkt generatieve AI-zoekopdrachten via een veel langere zoekpijplijn, die query-decompositie, documentretrieval en antwoordgeneratie omvat, maar meestal alleen grove feedback op het uiteindelijke antwoord ontvangt. Dit introduceert een disconnect in de feedbackloop, waarbij gebruikersfeedback voor de uiteindelijke output niet effectief kan worden teruggekoppeld naar specifieke systeemcomponenten, wat het verbeteren van elke tussenliggende fase en het in stand houden van de feedbackloop bemoeilijkt. In dit artikel stellen we NExT-Search voor, een next-generation paradigma dat is ontworpen om gedetailleerde, procesniveau feedback opnieuw te introduceren in generatieve AI-zoekopdrachten. NExT-Search integreert twee complementaire modi: User Debug Mode, waarbij betrokken gebruikers kunnen ingrijpen op cruciale fasen; en Shadow User Mode, waarbij een gepersonaliseerde gebruikersagent gebruikersvoorkeuren simuleert en AI-ondersteunde feedback biedt voor minder interactieve gebruikers. Bovendien schetsen we hoe deze feedbacksignalen kunnen worden benut via online aanpassing, die huidige zoekresultaten in real-time verfijnt, en offline updates, die interactielogboeken aggregeert om periodiek query-decompositie, retrieval en generatiemodellen af te stemmen. Door menselijke controle te herstellen over cruciale fasen van de generatieve AI-zoekpijplijn, geloven we dat NExT-Search een veelbelovende richting biedt voor het bouwen van feedbackrijke AI-zoeksystemen die continu kunnen evolueren naarmate menselijke feedback toeneemt.
Ondanks hun opmerkelijke succes en inzet in diverse workflows, produceren taalmodelle soms onwaarachtige antwoorden. Ons beperkte begrip van hoe waarachtigheid mechanistisch is gecodeerd binnen deze modellen, brengt hun betrouwbaarheid en veiligheid in gevaar. In dit artikel stellen we een methode voor om representaties van waarachtigheid op het niveau van individuele neuronen te identificeren. We tonen aan dat taalmodelle waarheidsneuronen bevatten, die waarachtigheid op een onderwerp-onafhankelijke manier coderen. Experimenten uitgevoerd met modellen van verschillende schalen valideren het bestaan van waarheidsneuronen, wat bevestigt dat de codering van waarachtigheid op neuroniveau een eigenschap is die door veel taalmodelle wordt gedeeld. De distributiepatronen van waarheidsneuronen over de lagen komen overeen met eerdere bevindingen over de geometrie van waarachtigheid. Selectief onderdrukken van de activaties van waarheidsneuronen die zijn gevonden via de TruthfulQA-dataset, leidt tot prestatievermindering zowel op TruthfulQA als op andere benchmarks, wat aantoont dat de waarachtigheidsmechanismen niet gebonden zijn aan een specifieke dataset. Onze resultaten bieden nieuwe inzichten in de mechanismen die ten grondslag liggen aan waarachtigheid in taalmodelle en belichten mogelijke richtingen om hun betrouwbaarheid en vertrouwenswaardigheid te verbeteren.
Reinforcement finetuning (RFT) is uitgegroeid tot een standaardaanpak voor het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). Het effect ervan op de betrouwbaarheid van modellen blijft echter onderbelicht. In dit werk identificeren en bestuderen we systematisch een kritisch neveneffect van RFT, dat we de hallucinatiebelasting noemen: een verslechtering in weigeringsgedrag waardoor modellen met vertrouwen hallucinerende antwoorden geven op onbeantwoordbare vragen. Om dit te onderzoeken, introduceren we SUM (Synthetic Unanswerable Math), een hoogwaardige dataset van onbeantwoordbare wiskundeproblemen die is ontworpen om het vermogen van modellen te testen om een onbeantwoordbare vraag te herkennen door te redeneren vanuit onvoldoende of dubbelzinnige informatie. Onze resultaten laten zien dat standaard RFT-training de weigeringspercentages van modellen met meer dan 80% kan verminderen, wat de neiging van modellen om te hallucineren aanzienlijk verhoogt. We tonen verder aan dat het opnemen van slechts 10% SUM tijdens RFT het juiste weigeringsgedrag aanzienlijk herstelt, met minimale nauwkeurigheidsverliezen bij oplosbare taken. Cruciaal is dat deze aanpak LLMs in staat stelt om rekentijd tijdens inferentie te benutten om na te denken over hun eigen onzekerheid en kennisgrenzen, wat niet alleen de generalisatie naar out-of-domain wiskundeproblemen verbetert, maar ook naar feitelijke vraag-antwoordtaken.
We introduceren Vox-Profile, een uitgebreide benchmark om rijke spreker- en spraakkenmerken te karakteriseren met behulp van spraakfundamentmodellen. In tegenstelling tot bestaande werken die zich richten op één dimensie van sprekerkenmerken, biedt Vox-Profile holistische en multidimensionale profielen die zowel statische sprekerkenmerken (bijv. leeftijd, geslacht, accent) als dynamische spraakeigenschappen (bijv. emotie, spraakstroom) weerspiegelen. Deze benchmark is gebaseerd op spraakwetenschap en linguïstiek, ontwikkeld met domeinexperts om spreker- en spraakkenmerken nauwkeurig te indexeren. We rapporteren benchmarkexperimenten met meer dan 15 publiek beschikbare spraakdatasets en verschillende veelgebruikte spraakfundamentmodellen die gericht zijn op diverse statische en dynamische spreker- en spraakeigenschappen. Naast benchmarkexperimenten demonstreren we verschillende downstreamtoepassingen die door Vox-Profile worden ondersteund. Ten eerste laten we zien dat Vox-Profile bestaande spraakherkenningsdatasets kan verrijken om de variabiliteit in ASR-prestaties te analyseren. Vox-Profile wordt ook gebruikt als een hulpmiddel om de prestaties van spraakgeneratiesystemen te evalueren. Tot slot beoordelen we de kwaliteit van onze geautomatiseerde profielen door vergelijking met menselijke evaluatie en tonen we convergente validiteit aan. Vox-Profile is publiekelijk beschikbaar op: https://github.com/tiantiaf0627/vox-profile-release.
Gemini wordt steeds vaker gebruikt om taken uit te voeren namens gebruikers, waarbij functie-aanroep- en toolgebruiksmogelijkheden het model in staat stellen om gebruikersgegevens te benaderen. Sommige tools vereisen echter toegang tot niet-vertrouwde gegevens, wat risico's met zich meebrengt. Tegenstanders kunnen kwaadaardige instructies in niet-vertrouwde gegevens inbedden, waardoor het model afwijkt van de verwachtingen van de gebruiker en hun gegevens of rechten verkeerd behandelt. In dit rapport presenteren we de aanpak van Google DeepMind voor het evalueren van de adversariële robuustheid van Gemini-modellen en beschrijven we de belangrijkste lessen die uit het proces zijn getrokken. We testen hoe Gemini presteert tegen een geavanceerde tegenstander via een adversariële evaluatieframework, dat een reeks adaptieve aanvalstechnieken inzet om continu te worden uitgevoerd tegen eerdere, huidige en toekomstige versies van Gemini. We beschrijven hoe deze doorlopende evaluaties direct bijdragen aan het weerbaarder maken van Gemini tegen manipulatie.
Het waarborgen van de veiligheid van grote taalmodellen (LLM's) is cruciaal voor een verantwoorde inzet, maar bestaande evaluaties richten zich vaak meer op prestaties dan op het identificeren van faalmodi. Wij introduceren Phare, een meertalig diagnostisch raamwerk om het gedrag van LLM's te onderzoeken en te evalueren op drie kritieke dimensies: hallucinatie en betrouwbaarheid, sociale vooroordelen, en het genereren van schadelijke inhoud. Onze evaluatie van 17 state-of-the-art LLM's onthult patronen van systematische kwetsbaarheden op alle veiligheidsdimensies, waaronder slaafs gedrag, gevoeligheid voor prompts, en het reproduceren van stereotypen. Door deze specifieke faalmodi te benadrukken in plaats van simpelweg modellen te rangschikken, biedt Phare onderzoekers en praktijkmensen bruikbare inzichten om robuustere, beter afgestemde en betrouwbaardere taalsystemen te bouwen.
Het ontwerpen van effectieve, redeneercapabele LLM's vereist doorgaans training met behulp van Reinforcement Learning met Verifieerbare Beloningen (RLVR) of distillatie met zorgvuldig samengestelde Lange Ketens van Gedachten (CoT), die beide sterk afhankelijk zijn van uitgebreide trainingsdata. Dit vormt een grote uitdaging wanneer de hoeveelheid kwalitatief hoogstaande trainingsdata schaars is. Wij stellen een sample-efficiënte, tweefasige trainingsstrategie voor om redeneer-LLM's te ontwikkelen onder beperkte begeleiding. In de eerste fase "warmen we" het model op door Lange CoT's te distilleren uit een speelgoeddomein, namelijk Knights \& Knaves (K\&K) logische puzzels, om algemene redeneervaardigheden te verwerven. In de tweede fase passen we RLVR toe op het opgewarmde model met behulp van een beperkte set voorbeelden uit het doeldomein. Onze experimenten tonen aan dat deze tweefasenbenadering verschillende voordelen biedt: (i) de opwarmfase alleen al vergemakkelijkt gegeneraliseerd redeneren, wat leidt tot prestatieverbeteringen op een reeks taken, waaronder MATH, HumanEval^{+}, en MMLU-Pro. (ii) Wanneer zowel het basismodel als het opgewarmde model worden getraind met RLVR op dezelfde kleine dataset (leq100 voorbeelden), presteert het opgewarmde model consistent beter dan het basismodel; (iii) Opwarmen voor RLVR-training stelt een model in staat om cross-domein generaliseerbaarheid te behouden, zelfs na training op een specifiek domein; (iv) Het introduceren van opwarmen in de pijplijn verbetert niet alleen de nauwkeurigheid, maar ook de algehele sample-efficiëntie tijdens RLVR-training. De resultaten in dit artikel benadrukken de belofte van opwarmen voor het bouwen van robuuste redeneer-LLM's in data-schaarse omgevingen.
Met de snelle vooruitgang van krachtige grote taalmodellen (LLM's) in de afgelopen jaren, kan nu een breed scala aan software-engineeringtaken worden aangepakt met behulp van LLM's, wat de productiviteit en schaalbaarheid aanzienlijk verbetert. Tal van benchmarkdatasets zijn ontwikkeld om de codeervaardigheden van deze modellen te evalueren, waarbij ze zich voornamelijk richten op probleemoplossing en issue-oplossingstaken. Daarentegen introduceren wij een nieuwe codeerbenchmark, MIGRATION-BENCH, met een duidelijk ander focuspunt: codemigratie. MIGRATION-BENCH heeft als doel een uitgebreide benchmark te zijn voor migratie van Java 8 naar de nieuwste langetermijnondersteuningsversies (LTS) (Java 17, 21). MIGRATION-BENCH omvat een volledige dataset en een subset daarvan, geselecteerd met respectievelijk 5.102 en 300 repositories. De geselecteerde subset is een representatieve selectie, samengesteld op basis van complexiteit en moeilijkheidsgraad, en biedt een veelzijdige bron om onderzoek op het gebied van codemigratie te ondersteunen. Daarnaast bieden wij een uitgebreid evaluatieraamwerk om een rigoureuze en gestandaardiseerde beoordeling van LLM's op deze uitdagende taak te vergemakkelijken. Wij stellen verder SD-Feedback voor en tonen aan dat LLM's effectief repository-level codemigratie naar Java 17 kunnen aanpakken. Voor de geselecteerde subset met Claude-3.5-Sonnet-v2 behaalt SD-Feedback een slagingspercentage (pass@1) van respectievelijk 62,33% en 27,00% voor minimale en maximale migratie. De benchmarkdataset en broncode zijn beschikbaar op: https://huggingface.co/collections/AmazonScience en https://github.com/amazon-science/self_debug respectievelijk.
De snelle vooruitgang van technieken voor het vinden van bugs heeft geleid tot de ontdekking van meer kwetsbaarheden dan ontwikkelaars redelijkerwijs kunnen oplossen, wat een dringende behoefte creëert aan effectieve methoden voor Automatisch Programmaherstel (APR). De complexiteit van moderne bugs maakt echter vaak een precieze analyse van de oorzaak moeilijk en onbetrouwbaar. Om deze uitdaging aan te pakken, stellen we crash-site herstel voor om de hersteltaak te vereenvoudigen, terwijl het risico van exploitatie nog steeds wordt beperkt. Daarnaast introduceren we een sjabloongestuurde patchgeneratiebenadering die de tokenkosten van Large Language Models (LLMs) aanzienlijk vermindert, terwijl zowel efficiëntie als effectiviteit behouden blijven. We implementeren ons prototypesysteem, WILLIAMT, en evalueren het tegen state-of-the-art APR-tools. Onze resultaten laten zien dat, wanneer gecombineerd met de best presterende agent CodeRover-S, WILLIAMT de tokenkosten met 45,9% vermindert en de bug-oplossingsratio verhoogt tot 73,5% (+29,6%) op ARVO, een benchmark voor open-source softwarekwetsbaarheden met grondwaarheid. Bovendien tonen we aan dat WILLIAMT effectief kan functioneren, zelfs zonder toegang tot geavanceerde LLMs: zelfs een lokaal model dat draait op een Mac M4 Mini behaalt een redelijk herstelpercentage. Deze bevindingen benadrukken de brede toepasbaarheid en schaalbaarheid van WILLIAMT.
Sparse mixture of experts (SMoE) biedt een aantrekkelijke oplossing om de modelcomplexiteit te vergroten zonder de diepte of breedte van het netwerk te verhogen. Wij stellen echter dat effectieve SMoE-training uitdagend blijft vanwege het suboptimale routeringsproces, waarbij de experts die berekeningen uitvoeren niet direct bijdragen aan het routeringsproces. In dit werk introduceren we *competition*, een nieuw mechanisme om tokens naar experts met de hoogste neurale respons te routeren. Theoretisch tonen we aan dat het *competition*-mechanisme een betere steekproefficiëntie heeft dan de traditionele softmax-routering. Daarnaast ontwikkelen we CompeteSMoE, een eenvoudig maar effectief algoritme om grote taalmodelen te trainen door een router in te zetten die het *competition*-beleid leert, waardoor het sterke prestaties levert tegen lage trainingskosten. Onze uitgebreide empirische evaluaties op zowel visuele instructieafstemming als taalpretrainingstaken demonstreren de effectiviteit, robuustheid en schaalbaarheid van CompeteSMoE in vergelijking met state-of-the-art SMoE-strategieën. We hebben de implementatie beschikbaar gesteld op: https://github.com/Fsoft-AIC/CompeteSMoE. Dit werk is een verbeterde versie van het eerdere onderzoek op arXiv:2402.02526.
Redeneren met grote taalmodellen (LLM's) voor complexe taken brengt inherent een afweging met zich mee tussen nauwkeurigheid van de oplossing en rekenkundige efficiëntie. De daaropvolgende verificatiestap, die bedoeld is om de prestaties te verbeteren, maakt dit landschap nog complexer door een eigen uitdagende afweging te introduceren: geavanceerde Generatieve Beloningsmodellen (GenRMs) kunnen rekenkundig onhaalbaar zijn als ze naïef worden geïntegreerd met LLM's tijdens testtijd, terwijl eenvoudigere, snellere methoden mogelijk onbetrouwbaar zijn. Om deze uitdagingen te overwinnen, introduceren we FlexiVe, een innovatieve generatieve verificateur die flexibel rekenkundige middelen balanceert tussen snel, betrouwbaar snel denken en nauwgezet langzaam denken met behulp van een Flexibele Toewijzing van Verificatiebudget-strategie. We stellen verder de Solve-Detect-Verify-pijplijn voor, een efficiënt schaalbaar raamwerk voor inferentietijd dat FlexiVe intelligent integreert, waarbij proactief oplossingsvoltooiingspunten worden geïdentificeerd om gerichte verificatie te activeren en gerichte feedback aan de oplosser te geven. Experimenten tonen aan dat FlexiVe superieure nauwkeurigheid bereikt in het identificeren van fouten binnen redeneersporen op ProcessBench. Bovendien presteert onze volledige aanpak op uitdagende wiskundige redeneerbenchmarks (AIME 2024, AIME 2025 en CNMO) beter dan basislijnen zoals zelfconsistentie in redeneernauwkeurigheid en inferentie-efficiëntie. Ons systeem biedt een schaalbare en effectieve oplossing om LLM-redeneren tijdens testtijd te verbeteren.
Test-time scaling (TTS) heeft zich bewezen als effectief in het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Verificatie speelt een cruciale rol in TTS, waarbij het zowel (1) de redeneerprestaties als (2) de rekenefficiëntie beïnvloedt, vanwege de kwaliteit en de rekenkosten van verificatie. In dit werk dagen we de conventionele paradigma's van verificatie uit en doen we een eerste poging om systematisch de impact van verificatiegranulariteit te onderzoeken – dat wil zeggen, hoe vaak de verifier wordt ingeschakeld tijdens het genereren, verder dan alleen het verifiëren van de uiteindelijke uitvoer of individuele generatiestappen. Hiertoe introduceren we Variable Granularity Search (VG-Search), een geünificeerd algoritme dat beam search en Best-of-N sampling generaliseert via een instelbare granulariteitsparameter g. Uitgebreide experimenten met VG-Search onder verschillende rekenbudgetten, generator-verifier configuraties en taakkenmerken laten zien dat het dynamisch selecteren van g de rekenefficiëntie en schaalbaarheid kan verbeteren. Op basis van deze bevindingen stellen we adaptieve VG-Search strategieën voor die nauwkeurigheidsverbeteringen van tot 3,1\% ten opzichte van Beam Search en 3,6\% ten opzichte van Best-of-N bereiken, terwijl het aantal FLOPs met meer dan 52\% wordt verminderd. We zullen de code openbaren om toekomstig onderzoek te ondersteunen.
Naarmate post-trainings technieken evolueren, worden grote taalmodellen (LLM's) steeds vaker versterkt met gestructureerde meerstaps redeneervaardigheden, vaak geoptimaliseerd via reinforcement learning. Deze redeneerversterkte modellen presteren beter dan standaard LLM's bij complexe taken en vormen nu de basis van veel commerciële LLM-API's. Echter, om eigendomsrechtelijk gedrag te beschermen en uitvoerigheid te verminderen, verbergen aanbieders doorgaans de redeneersporen en retourneren ze alleen het uiteindelijke antwoord. Deze ondoorzichtigheid introduceert een kritieke transparantiekloof: gebruikers worden gefactureerd voor onzichtbare redeneertokens, die vaak het grootste deel van de kosten uitmaken, maar hebben geen mogelijkheid om hun authenticiteit te verifiëren. Dit opent de deur voor tokenaantalinflatie, waarbij aanbieders het tokengebruik kunnen overdrijven of synthetische, weinig inspannende tokens kunnen injecteren om de kosten op te blazen. Om dit probleem aan te pakken, stellen we CoIn voor, een verificatieraamwerk dat zowel de hoeveelheid als de semantische geldigheid van verborgen tokens controleert. CoIn construeert een verifieerbare hashtabel op basis van token-embedding vingerafdrukken om het aantal tokens te controleren, en gebruikt embedding-gebaseerde relevantie matching om gefabriceerde redeneerinhoud te detecteren. Experimenten tonen aan dat CoIn, wanneer het wordt ingezet als een vertrouwde derde partij auditor, effectief tokenaantalinflatie kan detecteren met een slagingspercentage van tot wel 94,7%, wat het sterke vermogen aantoont om facturatietransparantie te herstellen in ondoorzichtige LLM-diensten. De dataset en code zijn beschikbaar op https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
Dit onderzoek biedt een unieke evaluatie van hoe AI-systemen de digitale taal van Generatie Alpha (Gen Alpha, geboren tussen 2010 en 2024) interpreteren. Als de eerste generatie die opgroeit naast AI, wordt Gen Alpha geconfronteerd met nieuwe vormen van online risico’s als gevolg van intensieve digitale betrokkenheid en een groeiende mismatch tussen hun evoluerende communicatie en bestaande veiligheidstools. Hun kenmerkende taal, gevormd door gaming, memes en AI-gedreven trends, verbergt vaak schadelijke interacties voor zowel menselijke moderators als geautomatiseerde systemen. We evalueren vier toonaangevende AI-modellen (GPT-4, Claude, Gemini en Llama 3) op hun vermogen om verhulde intimidatie en manipulatie binnen het discours van Gen Alpha te detecteren. Met behulp van een dataset van 100 recente uitdrukkingen van gamingplatforms, sociale media en video-inhoud onthult de studie kritieke begripsfouten met directe gevolgen voor online veiligheid. Dit werk draagt bij: (1) een eerste-in-zijn-soort dataset die uitdrukkingen van Gen Alpha vastlegt; (2) een raamwerk om AI-moderatoren te verbeteren voor de bescherming van jongeren; (3) een multi-perspectief evaluatie, inclusief AI-systemen, menselijke moderators en ouders, met directe input van Gen Alpha mede-onderzoekers; en (4) een analyse van hoe linguïstische divergentie de kwetsbaarheid van jongeren vergroot. De bevindingen benadrukken de dringende noodzaak om veiligheidssystemen opnieuw te ontwerpen die afgestemd zijn op de communicatie van jongeren, vooral gezien de terughoudendheid van Gen Alpha om hulp te zoeken wanneer volwassenen hun digitale wereld niet begrijpen. Deze studie combineert het inzicht van een Gen Alpha-onderzoeker met systematische academische analyse om kritieke digitale veiligheidsuitdagingen aan te pakken.
Ondanks aanzienlijke vooruitgang in grote taalmodellen (LLM's), blijven hun kennisopslagcapaciteiten onderbelicht, vanwege het ontbreken van een gestandaardiseerde en hoogwaardige testomgeving. In dit artikel introduceren we een nieuwe, real-world en grootschalige benchmark voor kennisinjectie die continu evolueert zonder menselijke interventie. Specifiek stellen we WikiDYK voor, dat gebruikmaakt van recent toegevoegde en door mensen geschreven feiten uit de "Wist je dat..."-vermeldingen van Wikipedia. Deze vermeldingen worden zorgvuldig geselecteerd door ervaren Wikipedia-redacteuren op basis van criteria zoals verifieerbaarheid en duidelijkheid. Elke vermelding wordt omgezet in meerdere vraag-antwoordparen die diverse taakformats omvatten, van eenvoudige cloze-prompten tot complexe multi-hop vragen. WikiDYK bevat 12.290 feiten en 77.180 vragen, en is naadloos uitbreidbaar met toekomstige updates van Wikipedia-redacteuren. Uitgebreide experimenten met voortgezette voorafgaande training onthullen een verrassend inzicht: ondanks hun prevalentie in moderne LLM's, vertonen Causale Taalmodellen (CLM's) aanzienlijk zwakkere kennisopslagcapaciteiten in vergelijking met Bidirectionele Taalmodellen (BiLM's), met een 23% lagere nauwkeurigheid in termen van betrouwbaarheid. Om de kleinere schaal van huidige BiLM's te compenseren, introduceren we een modulair collaboratief framework dat gebruikmaakt van ensembles van BiLM's als externe kennisrepositories om te integreren met LLM's. Experimenten tonen aan dat ons framework de betrouwbaarheidsnauwkeurigheid verder verbetert met tot wel 29,1%.
Multimodaal leren verbetert de perceptuele vermogens van cognitieve systemen door informatie uit verschillende sensorische modaliteiten te integreren. Echter, bestaand onderzoek naar multimodale fusie gaat doorgaans uit van statische integratie, waarbij belangrijke dynamische mechanismen die in de hersenen worden aangetroffen niet volledig worden meegenomen. Specifiek vertonen de hersenen een fenomeen van inverse effectiviteit, waarbij zwakkere unimodale signalen sterkere voordelen van multisensorische integratie opleveren; omgekeerd wordt het effect van fusie verminderd wanneer individuele modale signalen sterker zijn. Dit mechanisme stelt biologische systemen in staat om robuuste cognitie te bereiken, zelfs met schaarse of ruisachtige perceptuele signalen. Geïnspireerd door dit biologische mechanisme, onderzoeken we de relatie tussen multimodale output en informatie uit individuele modaliteiten, en stellen we een inverse effectiviteit-gestuurde multimodale fusie (IEMF) strategie voor. Door deze strategie in neurale netwerken te integreren, bereiken we een efficiëntere integratie met verbeterde modelprestaties en rekenkundige efficiëntie, wat resulteert in een reductie van tot wel 50% in rekenkosten bij diverse fusiemethoden. We voeren experimenten uit op het gebied van audio-visuele classificatie, continu leren en vraag-antwoordtaken om onze methode te valideren. De resultaten tonen consistent aan dat onze methode uitstekend presteert in deze taken. Om universaliteit en generalisatie te verifiëren, voeren we ook experimenten uit op Kunstmatige Neurale Netwerken (ANN) en Spiking Neurale Netwerken (SNN), waarbij de resultaten een goede aanpassingsvermogen aan beide netwerktypen laten zien. Ons onderzoek benadrukt het potentieel van het integreren van biologisch geïnspireerde mechanismen in multimodale netwerken en biedt veelbelovende richtingen voor de toekomstige ontwikkeling van multimodale kunstmatige intelligentie. De code is beschikbaar op https://github.com/Brain-Cog-Lab/IEMF.
Het detecteren van AI-risico's wordt uitdagender naarmate krachtigere modellen ontstaan en nieuwe methoden vinden, zoals Alignment Faking, om deze detectiepogingen te omzeilen. Geïnspireerd door hoe risicovol gedrag bij mensen (bijvoorbeeld illegale activiteiten die anderen kunnen schaden) soms wordt gestuurd door sterk aangehangen waarden, geloven we dat het identificeren van waarden binnen AI-modellen een vroegtijdig waarschuwingssysteem kan zijn voor risicovol gedrag van AI. We ontwikkelen LitmusValues, een evaluatiepijplijn om de prioriteiten van AI-modellen voor een reeks AI-waardeklassen te onthullen. Vervolgens verzamelen we AIRiskDilemmas, een diverse collectie dilemma's die waarden tegenover elkaar plaatsen in scenario's die relevant zijn voor AI-veiligheidsrisico's, zoals Power Seeking. Door de waardeprioritering van een AI-model te meten aan de hand van zijn geaggregeerde keuzes, verkrijgen we een zelfconsistente set van voorspelde waardeprioriteiten die potentiële risico's blootleggen. We laten zien dat waarden in LitmusValues (inclusief schijnbaar onschuldige zoals Care) zowel waargenomen risicovol gedrag in AIRiskDilemmas als ongezien risicovol gedrag in HarmBench kunnen voorspellen.
Het detecteren van mediabias is een cruciale taak om een eerlijke en evenwichtige verspreiding van informatie te waarborgen, maar blijft uitdagend vanwege de subjectiviteit van bias en het gebrek aan hoogwaardige geannoteerde data. In dit werk voeren we zinsniveau biasclassificatie uit door een RoBERTa-gebaseerd model te finetunen op de door experts geannoteerde BABE-dataset. Met behulp van McNemar's test en de 5x2 cross-validatie gepaarde t-test laten we statistisch significante verbeteringen in prestaties zien wanneer we ons model vergelijken met een domeinadaptief voorgetraind DA-RoBERTa-basismodel. Bovendien toont aandacht-gebaseerde analyse aan dat ons model veelvoorkomende valkuilen vermijdt, zoals overgevoeligheid voor politiek geladen termen, en in plaats daarvan betekenisvoller aandacht besteedt aan contextueel relevante tokens. Voor een uitgebreid onderzoek naar mediabias presenteren we een pijplijn die ons model combineert met een reeds bestaande bias-typeclassificator. Onze methode vertoont goede generalisatie en interpreteerbaarheid, ondanks beperkingen door zinsniveau-analyse en datasetgrootte vanwege het ontbreken van grotere en meer geavanceerde bias-corpora. We bespreken contextbewuste modellering, biasneutralisatie en geavanceerde bias-typeclassificatie als mogelijke toekomstige richtingen. Onze bevindingen dragen bij aan het bouwen van robuustere, verklaarbare en maatschappelijk verantwoorde NLP-systemen voor mediabiasdetectie.
De afgelopen jaren is er een aanzienlijke toename geweest in het maken en consumeren van video-inhoud. Het creëren van boeiende content vereist een zorgvuldige selectie van zowel visuele als auditieve elementen. Hoewel de curatie van visuele signalen, via technieken zoals optimaal camerastandpunt selectie of nabewerking, centraal staat in mediaproductie, heeft het natuurlijke tegenhanger, audio, niet dezelfde vooruitgang doorgemaakt. Dit resulteert vaak in een disconnectie tussen visuele en auditieve opvallendheid. Om deze kloof te overbruggen, introduceren we een nieuwe taak: visueel geleide auditieve accentuering, die tot doel heeft audio te transformeren om passende accentuerings effecten te leveren, geleid door de begeleidende video, en uiteindelijk een meer harmonieuze audio-visuele ervaring te creëren. We stellen een flexibel, transformer-gebaseerd multimodaal framework voor om deze taak op te lossen. Om ons model te trainen, introduceren we ook een nieuwe dataset -- de muddy mix dataset, die gebruik maakt van de zorgvuldige audio- en videoproductie die in films wordt gevonden, wat een vorm van gratis supervisie biedt. We ontwikkelen een pseudo-data generatieproces om slecht gemixte audio te simuleren, waarbij real-world scenario's worden nagebootst via een drie-stappen proces -- scheiding, aanpassing en remixen. Onze aanpak presteert consistent beter dan verschillende baseline methoden in zowel kwantitatieve als subjectieve evaluatie. We bestuderen ook systematisch de impact van verschillende soorten contextuele begeleiding en moeilijkheidsgraden van de dataset. Onze projectpagina is hier te vinden: https://wikichao.github.io/VisAH/.
Tokenisatie is de eerste - en vaak ondergewaardeerde - laag van berekening in taalmodelen. Hoewel Chain-of-Thought (CoT) prompting transformermodellen in staat stelt om recurrentie berekening te benaderen door tussenstappen te externaliseren, laten we zien dat het succes van dergelijk redeneren fundamenteel wordt begrensd door de structuur van getokeniseerde invoer. Dit werk presenteert een theoretisch en empirisch onderzoek naar hoe tokenisatieschema's, met name subwoord-gebaseerde methoden zoals byte-pair encoding (BPE), symbolische berekening belemmeren door atomische redeneereenheden samen te voegen of te verhullen. We introduceren het begrip Token Awareness om te formaliseren hoe slechte token granulariteit logische uitlijning verstoort en modellen ervan weerhoudt om symbolische procedures te generaliseren. Door systematische evaluatie van rekenkundige en symbolische taken tonen we aan dat tokenstructuur de redeneerprestaties dramatisch beïnvloedt, wat zelfs met CoT tot falen leidt, terwijl atomisch uitgelijnde formaten sterke generalisatie mogelijk maken, waardoor kleine modellen (bijv. GPT-4o-mini) grotere systemen (bijv. o1) kunnen overtreffen in gestructureerd redeneren. Onze bevindingen onthullen dat het symbolisch redeneervermogen in LLM's niet puur architecturaal is, maar diepgaand wordt bepaald door token-level representaties.
Wereldwijde beeldgeolokalisatie - de taak om GPS-coördinaten te voorspellen aan de hand van afbeeldingen die overal op aarde zijn genomen - vormt een fundamentele uitdaging vanwege de enorme diversiteit in visuele inhoud tussen regio's. Hoewel recente benaderingen een tweestappenpijplijn hanteren waarbij kandidaten worden opgehaald en de beste match wordt geselecteerd, vertrouwen ze doorgaans op simplistische gelijkenisheuristieken en puntgewijze supervisie, waardoor ze er niet in slagen ruimtelijke relaties tussen kandidaten te modelleren. In dit artikel stellen we GeoRanker voor, een afstandsbewust rangschikkingsraamwerk dat grote vision-language-modellen benut om query-kandidaatinteracties gezamenlijk te coderen en geografische nabijheid te voorspellen. Daarnaast introduceren we een multi-order afstandsverlies dat zowel absolute als relatieve afstanden rangschikt, waardoor het model gestructureerde ruimtelijke relaties kan redeneren. Om dit te ondersteunen, hebben we GeoRanking samengesteld, de eerste dataset die expliciet is ontworpen voor geografische rangschikkingstaken met multimodale kandidaatinformatie. GeoRanker behaalt state-of-the-art resultaten op twee gevestigde benchmarks (IM2GPS3K en YFCC4K) en overtreft de huidige beste methoden aanzienlijk.
Multi-hop Question Answering (MHQA) voegt lagen van complexiteit toe aan vraag-antwoordtaken, waardoor deze uitdagender worden. Wanneer Taalmodellen (LMs) worden geprompt met meerdere zoekresultaten, moeten ze niet alleen relevante informatie ophalen, maar ook multi-hop redenering toepassen over de informatiebronnen. Hoewel LMs goed presteren op traditionele vraag-antwoordtaken, kan het causale masker hun vermogen om te redeneren over complexe contexten belemmeren. In dit artikel onderzoeken we hoe LMs reageren op multi-hop vragen door zoekresultaten (opgehaalde documenten) te permuteren onder verschillende configuraties. Onze studie onthult interessante bevindingen als volgt: 1) Encoder-decoder modellen, zoals die in de Flan-T5 familie, presteren over het algemeen beter dan causale decoder-only LMs in MHQA-taken, ondanks dat ze aanzienlijk kleiner in omvang zijn; 2) het veranderen van de volgorde van gouden documenten onthult duidelijke trends in zowel Flan T5 modellen als fine-tuned decoder-only modellen, waarbij optimale prestaties worden waargenomen wanneer de documentvolgorde overeenkomt met de redeneerketen; 3) het verbeteren van causale decoder-only modellen met bi-directionele aandacht door het causale masker aan te passen, kan hun eindprestaties effectief verbeteren. Daarnaast voeren we een grondig onderzoek uit naar de verdeling van LM-aandachtsgewichten in de context van MHQA. Onze experimenten tonen aan dat aandachtsgewichten de neiging hebben om hogere waarden te bereiken wanneer het resulterende antwoord correct is. We benutten deze bevinding om heuristisch de prestaties van LMs op deze taak te verbeteren. Onze code is publiekelijk beschikbaar op https://github.com/hwy9855/MultiHopQA-Reasoning.
Een bekend probleem bij Retrieval Augmented Generation (RAG) is dat opgehaalde passages die irrelevant zijn voor de query soms het antwoordgenererende LLM afleiden, waardoor het een incorrect antwoord geeft. In dit artikel belichten we dit kernprobleem en formuleren we het afleidende effect van een passage ten opzichte van een query (en een LLM). We bieden een kwantificeerbare maat voor het afleidende effect van een passage en tonen de robuustheid ervan aan over verschillende LLMs. Ons onderzoek introduceert nieuwe methoden voor het identificeren en gebruiken van moeilijke afleidende passages om RAG-systemen te verbeteren. Door LLMs te fine-tunen met deze zorgvuldig geselecteerde afleidende passages, behalen we een verbetering van tot wel 7,5% in antwoordnauwkeurigheid vergeleken met modellen die zijn getraind op conventionele RAG-datasets. Onze bijdrage is tweeledig: ten eerste gaan we verder dan de eenvoudige binaire classificatie van irrelevante passages als volledig ongerelateerd versus afleidend, en ten tweede ontwikkelen en analyseren we meerdere methoden voor het vinden van moeilijke afleidende passages. Voor zover wij weten, heeft geen ander onderzoek zo’n uitgebreid kader geboden voor het identificeren en benutten van moeilijke afleidende passages.
Recente vooruitgang in grote taalmodellen (LLMs) en de overvloed aan voedingsgegevens hebben geleid tot studies om het begrip van voedsel te verbeteren met behulp van LLMs. Ondanks verschillende aanbevelingssystemen die LLMs en kennisgrafieken (KGs) gebruiken, is er beperkt onderzoek gedaan naar de integratie van voedselgerelateerde KGs met LLMs. Wij introduceren KERL, een geïntegreerd systeem dat voedsel-KGs en LLMs benut om gepersonaliseerde voedselaanbevelingen te bieden en recepten te genereren met bijbehorende micronutritionele informatie. Gegeven een natuurlijke taalvraag, extraheert KERL entiteiten, haalt subgrafieken op uit de KG, die vervolgens als context aan de LLM worden gevoerd om de recepten te selecteren die aan de beperkingen voldoen. Vervolgens genereert ons systeem de bereidingsstappen en voedingsinformatie voor elk recept. Om onze aanpak te evalueren, ontwikkelen we ook een benchmarkdataset door receptgerelateerde vragen te cureren, gecombineerd met beperkingen en persoonlijke voorkeuren. Door uitgebreide experimenten tonen we aan dat onze voorgestelde KG-augmented LLM bestaande benaderingen significant overtreft, en een volledige en samenhangende oplossing biedt voor voedselaanbevelingen, receptgeneratie en voedingsanalyse. Onze code en benchmarkdatasets zijn publiekelijk beschikbaar op https://github.com/mohbattharani/KERL.
Hersenen-naar-beeld decodering is recentelijk vooruitgestuwd door de vooruitgang in generatieve AI-modellen en de beschikbaarheid van grootschalige ultra-hoogveld functionele Magnetische Resonantie Imaging (fMRI). Huidige benaderingen zijn echter afhankelijk van ingewikkelde, meerfasige pijplijnen en voorbewerkingsstappen die doorgaans de temporele dimensie van hersenopnames samenvouwen, waardoor tijdopgeloste hersendecoders worden beperkt. Hier introduceren we Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), een nieuw eenfasig diffusiemodel ontworpen voor het reconstrueren van beelden uit dynamisch evoluerende fMRI-opnames. Onze benadering biedt drie belangrijke bijdragen. Ten eerste vereenvoudigt Dynadiff de training in vergelijking met bestaande benaderingen. Ten tweede presteert ons model beter dan state-of-the-art modellen op tijdopgeloste fMRI-signalen, met name op semantische beeldreconstructiemetrieken op hoog niveau, terwijl het competitief blijft op voorbewerkte fMRI-gegevens waarbij tijd wordt samengevouwen. Ten derde maakt deze benadering een nauwkeurige karakterisering mogelijk van de evolutie van beeldrepresentaties in hersenactiviteit. Over het geheel genomen legt dit werk de basis voor tijdopgeloste hersenen-naar-beeld decodering.
Ondanks vooruitgang in transformer-gebaseerde taalmodelen (LMs), blijft een fundamentele vraag grotendeels onbeantwoord: Worden alle lagen geactiveerd tijdens inferentie? Wij onderzoeken deze vraag door niet-geactiveerde lagen (die we Voids noemen) te detecteren met behulp van een niet-trainbare en parameter-vrije adaptieve rekenmethode genaamd L2 Adaptive Computation (LAC). We passen LAC aan van zijn oorspronkelijke efficiëntiegerichte toepassing om geactiveerde lagen tijdens inferentie te traceren. Deze methode monitort veranderingen in de L2-norm van activeringen om voids te identificeren. We analyseren laagactivatie in instructie-afgestemde LMs in twee fasen: Promptverwerking (PP), waarbij we geactiveerde lagen traceren voor elk token in de invoerprompts, en Responsgeneratie (RG), waarbij we geactiveerde lagen traceren voor elk gegenereerd token. We tonen verder aan dat verschillende lagen worden geactiveerd tijdens deze twee fasen. Om de effectiviteit van onze methode aan te tonen, evalueerden we drie verschillende instructie-afgestemde LMs uit de Llama-, Mistral- en Qwen-families op drie benchmarks: MMLU, GPQA Diamond en BoolQ. Bijvoorbeeld, op MMLU met een zero-shot instelling resulteerde het overslaan van voids in Qwen2.5-7B-Instruct in een verbetering van 69.24 naar 71.29 terwijl het model slechts 30% van de lagen gebruikt. Evenzo verbeterde Mistral-7B-Instruct-v0.3 op GPQA Diamond van 13.88 naar 18.36 bij gebruik van 70% van de lagen tijdens zowel de PP- als RG-fasen. Deze resultaten tonen aan dat niet alle lagen evenveel bijdragen tijdens inferentie, en dat het selectief overslaan van de meeste ervan de prestaties van modellen op bepaalde taken kan verbeteren.
Visuele representaties zijn essentieel voor de leer- en generalisatiecapaciteiten van robotmanipulatiebeleidsregels. Hoewel bestaande methoden vertrouwen op globale of dichte kenmerken, verstrengelen dergelijke representaties vaak taakrelevante en irrelevante scène-informatie, wat de robuustheid onder distributieverschuivingen beperkt. In dit werk onderzoeken we objectgecentreerde representaties (OCR) als een gestructureerd alternatief dat visuele invoer segmenteren in een afgebakende set entiteiten, waarbij inductieve vooroordelen worden geïntroduceerd die natuurlijker aansluiten bij manipulatietaken. We testen een reeks visuele encoders—objectgecentreerde, globale en dichte methoden—in een reeks gesimuleerde en real-world manipulatietaken, variërend van eenvoudig tot complex, en evalueren hun generalisatie onder diverse visuele omstandigheden, waaronder veranderingen in belichting, textuur en de aanwezigheid van afleiders. Onze bevindingen tonen aan dat OCR-gebaseerde beleidsregels dichte en globale representaties overtreffen in generalisatieomstandigheden, zelfs zonder taakspecifieke voorafgaande training. Deze inzichten suggereren dat OCR een veelbelovende richting is voor het ontwerpen van visuele systemen die effectief generaliseren in dynamische, real-world robotomgevingen.
We presenteren een conceptueel raamwerk voor het trainen van Vision-Language Models (VLMs) om Visual Perspective Taking (VPT) uit te voeren, een kernvaardigheid voor belichaamde cognitie die essentieel is voor Human-Robot Interaction (HRI). Als eerste stap naar dit doel introduceren we een synthetische dataset, gegenereerd in NVIDIA Omniverse, die supervised learning mogelijk maakt voor ruimtelijke redeneertaken. Elke instantie omvat een RGB-afbeelding, een beschrijving in natuurlijke taal en een ground-truth 4x4 transformatiematrix die de objectpose weergeeft. We richten ons op het afleiden van de Z-afstand als een fundamentele vaardigheid, met toekomstige uitbreidingen gericht op volledige 6 Degrees Of Freedom (DOFs) redenering. De dataset is publiekelijk beschikbaar om verder onderzoek te ondersteunen. Dit werk dient als een fundamentele stap naar belichaamde AI-systemen die in staat zijn tot ruimtelijk begrip in interactieve mens-robotscenario's.