Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente studies hebben aangetoond dat LLM's enig vermogen hebben om hun reacties te verbeteren wanneer ze externe feedback ontvangen. Het blijft echter onduidelijk hoe effectief en grondig deze modellen extrinsieke feedback kunnen integreren. In een ideaal scenario, als LLM's bijna perfecte en volledige feedback ontvangen, zouden we verwachten dat ze de feedback volledig integreren en hun onjuiste antwoorden corrigeren. In dit artikel onderzoeken we systematisch het vermogen van LLM's om feedback te integreren door een gecontroleerde experimentele omgeving te ontwerpen. Voor elk probleem probeert een oplossingsmodel een oplossing te vinden, waarna een feedbackgenerator met toegang tot bijna volledige grondwaarheid-antwoorden gerichte feedback produceert, waarna het oplossingsmodel opnieuw een poging doet. We evalueren deze pijplijn over een breed scala aan taken, waaronder wiskundig redeneren, kennisredeneren, wetenschappelijk redeneren en algemene multi-domeinevaluaties met state-of-the-art taalmmodellen, waaronder Claude 3.7 (met en zonder uitgebreid denken). Verrassend genoeg tonen oplossingsmodellen zelfs onder deze bijna ideale omstandigheden consistent weerstand tegen feedback, een beperking die we FEEDBACK FRICTION noemen. Om deze beperking te verminderen, experimenteren we met op steekproeven gebaseerde strategieën zoals progressieve temperatuurverhogingen en expliciete afwijzing van eerder geprobeerde onjuiste antwoorden, wat verbeteringen oplevert maar er nog steeds niet in slaagt om modellen te helpen het doelprestatieniveau te bereiken. We voeren ook een grondige verkenning uit van mogelijke oorzaken van FEEDBACK FRICTION, waarbij we factoren zoals modelovermoedigheid en gegevensvertrouwdheid uitsluiten. We hopen dat het benadrukken van dit probleem in LLM's en het uitsluiten van verschillende ogenschijnlijke oorzaken toekomstig onderzoek naar zelfverbetering zal helpen.
Taakgerichte LLM-gebaseerde agents worden steeds vaker gebruikt in domeinen met strikte beleidsregels, zoals restitutievoorwaarden of annuleringsregels. De uitdaging ligt in het garanderen dat de agent consistent deze regels en beleidslijnen naleeft, en verzoeken die deze zouden schenden op gepaste wijze weigert, terwijl toch een behulpzame en natuurlijke interactie behouden blijft. Dit vereist de ontwikkeling van op maat gemaakte ontwerp- en evaluatiemethodologieën om de veerkracht van de agent tegen kwaadwillig gebruikersgedrag te waarborgen. Wij stellen een nieuw bedreigingsmodel voor dat zich richt op adversariële gebruikers die beleidsgetrouwe agents willen misbruiken voor persoonlijk gewin. Om dit aan te pakken, presenteren we CRAFT, een multi-agent red-teaming systeem dat gebruikmaakt van beleidsbewuste overtuigingsstrategieën om een beleidsgetrouwe agent in een klantenservice-scenario te ondermijnen, en dat conventionele jailbreak-methoden zoals DAN-prompts, emotionele manipulatie en dwang overtreft. Op basis van de bestaande tau-bench benchmark introduceren we tau-break, een aanvullende benchmark die ontworpen is om de robuustheid van de agent tegen manipulatief gebruikersgedrag rigoureus te beoordelen. Tot slot evalueren we verschillende eenvoudige maar effectieve verdedigingsstrategieën. Hoewel deze maatregelen enige bescherming bieden, schieten ze tekort, wat de noodzaak onderstreept van sterkere, onderzoekgedreven veiligheidsmaatregelen om beleidsgetrouwe agents te beschermen tegen adversariële aanvallen.
Uniform-state discrete diffusiemodellen beloven snelle tekstgeneratie dankzij hun inherente vermogen tot zelfcorrectie. Ze worden echter doorgaans overtroffen door autoregressieve modellen en gemaskeerde diffusiemodellen. In dit werk verkleinen we deze prestatiekloof door gebruik te maken van een belangrijk inzicht: uniform-state diffusieprocessen ontstaan van nature uit een onderliggende Gaussische diffusie. Onze methode, Duo, maakt gebruik van krachtige technieken uit Gaussische diffusie om zowel de training als de sampling te verbeteren. Ten eerste introduceren we een curriculumleerstrategie die wordt geleid door het Gaussische proces, waardoor de trainingssnelheid wordt verdubbeld door de variantie te verminderen. Modellen die met curriculumleren zijn getraind, overtreffen autoregressieve modellen in zero-shot perplexiteit op 3 van de 7 benchmarks. Ten tweede presenteren we Discrete Consistency Distillation, dat consistentiedistillatie aanpast van het continue naar het discrete domein. Dit algoritme maakt generatie in weinig stappen mogelijk in diffusietaalmodellen door de sampling met twee ordes van grootte te versnellen. We bieden de code en modelcheckpoints aan op de projectpagina: http://s-sahoo.github.io/duo.
We introduceren een op diffusie gebaseerd framework dat uitgelijnde nieuwe beeld- en geometriegeneratie uitvoert via een warping-en-inpainting methodologie. In tegenstelling tot eerdere methoden die dichte geposeerde afbeeldingen vereisen of pose-ingebedde generatieve modellen die beperkt zijn tot in-domein beelden, maakt onze methode gebruik van standaard geometrievoorspellers om partiële geometrieën te voorspellen die vanuit referentiebeelden worden bekeken, en formuleert het synthetiseren van nieuwe beelden als een inpainting-taak voor zowel beeld als geometrie. Om nauwkeurige uitlijning tussen gegenereerde beelden en geometrie te garanderen, stellen we cross-modale aandacht-distillatie voor, waarbij aandachtkaarten van de beelddiffusietak worden geïnjecteerd in een parallelle geometriediffusietak tijdens zowel training als inferentie. Deze multi-task aanpak bereikt synergetische effecten, wat geometrisch robuuste beeldsynthese en goed gedefinieerde geometrievoorspelling mogelijk maakt. We introduceren verder proximity-based mesh conditioning om diepte- en normaalcues te integreren, waarbij wordt geïnterpoleerd tussen puntenwolken en foutief voorspelde geometrie wordt gefilterd om te voorkomen dat deze het generatieproces beïnvloedt. Empirisch bereikt onze methode hoogwaardige extrapolatieve beeldsynthese op zowel beeld als geometrie over een reeks onbekende scènes, levert het competitieve reconstructiekwaliteit onder interpolatie-instellingen, en produceert het geometrisch uitgelijnde gekleurde puntenwolken voor uitgebreide 3D-completering. De projectpagina is beschikbaar op https://cvlab-kaist.github.io/MoAI.
Recente rapporten beweren dat grote taalmodellen (LLMs) nu beter presteren dan elite-mensen in competitief programmeren. Gebruikmakend van kennis van een groep medaillewinnaars in internationale algoritmische wedstrijden, herzien wij deze bewering en onderzoeken hoe LLMs verschillen van menselijke experts en waar beperkingen nog steeds bestaan. Wij introduceren LiveCodeBench Pro, een benchmark samengesteld uit problemen van Codeforces, ICPC en IOI die continu worden bijgewerkt om de kans op gegevensbesmetting te verkleinen. Een team van Olympiade-medaillewinnaars annoteert elk probleem voor algoritmische categorieën en voert een regel-voor-regel analyse uit van mislukte modelgegenereerde inzendingen. Met behulp van deze nieuwe gegevens en benchmark ontdekken wij dat toonaangevende modellen nog steeds aanzienlijke beperkingen hebben: zonder externe hulpmiddelen behaalt het beste model slechts 53% pass@1 op problemen van gemiddelde moeilijkheidsgraad en 0% op moeilijke problemen, domeinen waar menselijke experts nog steeds uitblinken. Wij constateren ook dat LLMs succesvol zijn bij implementatie-intensieve problemen, maar moeite hebben met genuanceerd algoritmisch redeneren en complexe gevalanalyses, waarbij zij vaak zelfverzekerd onjuiste rechtvaardigingen genereren. Hoge prestaties lijken grotendeels gedreven door implementatienauwkeurigheid en toolaugmentatie, niet door superieur redeneren. LiveCodeBench Pro benadrukt dus de aanzienlijke kloof met menselijke grootmeesterniveaus, terwijl het fijnmazige diagnostiek biedt om toekomstige verbeteringen in code-gericht LLM-redeneren te sturen.
Reinforcement learning (RL) heeft grote effectiviteit getoond bij het finetunen van grote taalmodelen (LLMs) met behulp van taken die uitdagend maar eenvoudig te verifiëren zijn, zoals wiskundig redeneren of codegeneratie. Het uitbreiden van dit succes naar visuele waarneming in visie-taalmodelen (VLMs) is echter belemmerd door het gebrek aan visueel gerichte taken die tegelijkertijd uitdagend en eenduidig verifieerbaar zijn. Daarom introduceren we ViCrit (Visual Caption Hallucination Critic), een RL-proxytaak die VLMs traint om een subtiele, synthetische visuele hallucinatie te lokaliseren die is ingevoegd in alinea's van door mensen geschreven beeldbeschrijvingen. Uitgaande van een beschrijving van 200 woorden, voegen we een enkele, subtiele visuele beschrijvingsfout toe—door een paar woorden aan te passen die betrekking hebben op objecten, attributen, aantallen of ruimtelijke relaties—en geven we het model de taak om het beschadigde segment te identificeren, gegeven de afbeelding en de aangepaste beschrijving. Deze formulering behoudt de volledige perceptuele moeilijkheid terwijl een binaire, exacte-match beloning wordt geboden die eenvoudig te berekenen en eenduidig is. Modellen die zijn getraind met de ViCrit-taak vertonen aanzienlijke verbeteringen op een verscheidenheid aan VL-benchmarks. Cruciaal is dat de verbeteringen zich uitstrekken voorbij natuurlijke beeldtrainingsdata naar abstract beeldredeneren en visuele wiskunde, wat de belofte toont van het leren waarnemen in plaats van slechts het onthouden van geziene objecten. Om evaluatie te vergemakkelijken, introduceren we verder ViCrit-Bench, een categorie-gebalanceerd diagnostisch benchmark dat systematisch waarnemingsfouten onderzoekt over diverse beelddomeinen en fouttypes. Samen tonen onze resultaten aan dat fijnmazige hallucinatiekritiek een effectief en generaliseerbaar doel is voor het verbeteren van visuele waarneming in VLMs.
Grote Taalmodellen hebben moeite met de geheugeneisen van de groeiende Key-Value (KV)-cache naarmate de contextlengtes toenemen. Bestaande compressiemethoden homogeniseren de dimensies van de aandachtskoppen of vertrouwen op aandacht-gestuurde tokenpruning, wat vaak ten koste gaat van nauwkeurigheid of rekenkundige overhead introduceert. Wij stellen FourierAttention voor, een trainingsvrij raamwerk dat gebruikmaakt van de heterogene rollen van transformer-kopdimensies: lagere dimensies prioriteren lokale context, terwijl hogere dimensies langeafstandsafhankelijkheden vastleggen. Door de dimensies die ongevoelig zijn voor lange context te projecteren op orthogonale Fourier-basen, benadert FourierAttention hun temporele evolutie met vaste-lengte spectrale coëfficiënten. Evaluaties op LLaMA-modellen laten zien dat FourierAttention de beste nauwkeurigheid voor lange context behaalt op LongBench en Needle-In-A-Haystack (NIAH). Daarnaast is een aangepaste Triton-kernel, FlashFourierAttention, ontworpen om het geheugen te optimaliseren via gestroomlijnde lees-schrijfbewerkingen, wat efficiënte implementatie mogelijk maakt zonder prestatieverlies.
Grote taalmodellen hebben potentie getoond in klinische besluitvorming, maar huidige benaderingen hebben moeite om fouten te lokaliseren en te corrigeren op specifieke stappen van het redeneerproces. Deze beperking is cruciaal in de geneeskunde, waar het identificeren en aanpakken van redeneerfouten essentieel is voor een accurate diagnose en effectieve patiëntenzorg. We introduceren Med-PRM, een raamwerk voor procesbeloningsmodellering dat gebruikmaakt van retrieval-augmented generation om elke redeneerstap te verifiëren aan de hand van gevestigde medische kennisbanken. Door tussenliggende redeneerstappen te verifiëren met bewijs uit klinische richtlijnen en literatuur, kan ons model de redeneerkwaliteit op een fijnmazige manier precies beoordelen. Evaluaties op vijf medische QA-benchmarks en twee open diagnostische taken tonen aan dat Med-PRM state-of-the-art prestaties bereikt, met een verbetering van de prestaties van basismodellen tot wel 13,50% door gebruik van Med-PRM. Bovendien tonen we de algemeenheid van Med-PRM aan door het op een plug-and-play manier te integreren met sterke beleidsmodellen zoals Meerkat, waarbij voor het eerst een nauwkeurigheid van meer dan 80% op MedQA wordt bereikt met kleinschalige modellen van 8 miljard parameters. Onze code en gegevens zijn beschikbaar op: https://med-prm.github.io/
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft zich effectief bewezen bij het trainen van grote taalmodellen (LLM's) voor complexe redeneertaken, zoals het oplossen van wiskundige problemen. Een voorwaarde voor de schaalbaarheid van RLVR is een hoogwaardige probleemset met precieze en verifieerbare antwoorden. Echter, de schaarste aan goed geconstrueerde, door mensen gelabelde wiskundeproblemen en antwoorden met beperkte verificatie in bestaande synthetische datasets gericht op distillatie beperken hun effectiviteit in RL. Bovendien breiden de meeste strategieën voor probleemsynthese de probleemset ongericht uit zonder rekening te houden met de capaciteiten van het model, wat leidt tot een lage efficiëntie bij het genereren van nuttige vragen. Om dit probleem te verlichten, introduceren we een Self-aware Weakness-driven probleem Synthese framework (SwS) dat systematisch modeltekortkomingen identificeert en deze benut voor probleemaugmentatie. Specifiek definiëren we zwaktes als vragen die het model consistent niet kan leren door zijn iteratieve steekproeven tijdens RL-training. Vervolgens extraheren we de kernconcepten uit deze mislukkingen en synthetiseren we nieuwe problemen om de zwakke punten van het model te versterken in daaropvolgende augmented training, waardoor het zich kan concentreren op en geleidelijk zijn zwaktes kan overwinnen. Zonder afhankelijk te zijn van externe kennisdistillatie, stelt ons framework het model in staat om robuuste generalisatie te bereiken door het zelf zijn zwaktes te laten identificeren en aan te pakken in RL, wat resulteert in gemiddelde prestatieverbeteringen van 10,0% en 7,7% op 7B- en 32B-modellen over acht mainstream redeneerbenchmarks.
Recente studies hebben de effectiviteit aangetoond van reinforcement learning (RL)-gebaseerde na-training voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLMs). In het bijzonder heeft Group Relative Policy Optimization (GRPO) indrukwekkende successen geboekt door een PPO-stijl reinforcement-algoritme te gebruiken met groep-gebaseerde genormaliseerde beloningen. De toepassing van GRPO op Video Large Language Models (Video LLMs) is echter minder bestudeerd. In dit artikel onderzoeken we GRPO voor video LLMs en identificeren we twee primaire problemen die effectief leren belemmeren: (1) afhankelijkheid van veiligheidsmaatregelen, en (2) het verdwijnende voordeelprobleem. Om deze uitdagingen te mitigeren, stellen we DeepVideo-R1 voor, een video groot taalmodel getraind met onze voorgestelde Reg-GRPO (Regressieve GRPO) en een moeilijkheidsbewuste data-augmentatiestrategie. Reg-GRPO herformuleert het GRPO-doel als een regressietaak, waarbij direct het voordeel in GRPO wordt voorspeld. Dit ontwerp elimineert de noodzaak van veiligheidsmaatregelen zoals clipping en min-functies, waardoor meer directe beleidsbegeleiding mogelijk wordt door het model af te stemmen op de voordeelwaarden. We ontwerpen ook de moeilijkheidsbewuste data-augmentatiestrategie die trainingsmonsters dynamisch aanvult op oplosbare moeilijkheidsniveaus, wat diverse en informatieve beloningssignalen bevordert. Onze uitgebreide experimenten tonen aan dat DeepVideo-R1 de videoredeneerprestaties aanzienlijk verbetert op meerdere videoredeneerbenchmarks.
Moderne recurrente architecturen, zoals xLSTM en Mamba, hebben onlangs de Transformer uitgedaagd in taalmodelering. Hun structuur beperkt echter hun toepasbaarheid tot sequenties of vereist het verwerken van multidimensionale gegevensstructuren, zoals afbeeldingen of moleculaire grafieken, in een vooraf gedefinieerde volgorde. Daarentegen zijn Multidimensionale RNN's (MDRNN's) goed geschikt voor gegevens met een hoger niveau van structuur, zoals 2D-roosters, bomen en gerichte acyclische grafieken (DAG's). In dit werk breiden we het concept van multidimensionaliteit uit naar lineaire RNN's. We introduceren paralleliseerbare Lineaire Bron Transitie Mark-netwerken (pLSTM's) met Bron-, Transitie- en Mark-poorten die inwerken op de lijngrafiek van een algemene DAG. Dit maakt parallelisatie mogelijk, analoog aan parallelle associatieve scans en de chunkwise-recurrente vorm van sequentiële lineaire RNN's, maar voor DAG's. Voor regelmatige roosters (1D en 2D), zoals afbeeldingen, kan dit schema efficiënt worden geïmplementeerd met behulp van einsum-bewerkingen, concatenaties en padding in logaritmische tijd. pLSTM's pakken het probleem van verdwijnende/exploderende activatie/gradiënt voor lange afstanden in DAG's aan via twee verschillende modi: een gerichte propagatiemodus (P-modus) en een diffuse distributiemodus (D-modus). Om de langeafstandscapaciteiten van pLSTM te demonstreren, introduceren we pijlaanwijzende extrapolatie als een synthetische computervisietaak die langeafstandsrichtingsinformatie bevat. We tonen aan dat pLSTM's goed generaliseren naar grotere afbeeldingsformaten, terwijl Transformers moeite hebben met extrapoleren. Op gevestigde benchmarks voor moleculaire grafieken en computervisie laten pLSTM's ook sterke prestaties zien. Code en datasets zijn beschikbaar op: https://github.com/ml-jku/plstm_experiments.
Foundation Vision Encoders zijn essentieel geworden voor een breed scala aan dichte visuele taken. Hun ruimtelijke kenmerkuitvoer met lage resolutie vereist echter een kenmerk-upsampling om de hoge-resolutiemodaliteiten te produceren die nodig zijn voor downstream taken. In dit werk introduceren we JAFAR, een lichtgewicht en flexibele kenmerk-upsampler die de ruimtelijke resolutie van visuele kenmerken van elke Foundation Vision Encoder verhoogt naar een willekeurige doelresolutie. JAFAR maakt gebruik van een op aandacht gebaseerde module die is ontworpen om semantische uitlijning te bevorderen tussen hoge-resolutie queries, afgeleid van laagniveau beeldkenmerken, en semantisch verrijkte lage-resolutie keys, met behulp van Spatial Feature Transform (SFT) modulatie. Opmerkelijk is dat, ondanks het ontbreken van hoge-resolutie supervisie, we aantonen dat leren bij lage upsampling-ratio's en resoluties opmerkelijk goed generaliseert naar aanzienlijk hogere uitvoerschalen. Uitgebreide experimenten tonen aan dat JAFAR effectief fijnmazige ruimtelijke details herstelt en consequent beter presteert dan bestaande kenmerk-upsamplingmethoden over een diverse set van downstream taken. Projectpagina op https://jafar-upsampler.github.io
De Transformer is de facto standaard geworden voor grote taalmodelen en een breed scala aan downstream taken in verschillende domeinen. Ondanks zijn talrijke voordelen, zoals inherente trainingsparallelisatie, kampt de Transformer nog steeds met belangrijke uitdagingen vanwege zijn onvermogen om sequenties effectief te verwerken buiten een vast contextvenster en de kwadratische complexiteit van zijn aandachtmechanisme. Deze uitdagingen hebben de interesse in RNN-achtige architecturen nieuw leven ingeblazen, die lineaire schaling bieden met sequentielengte en een verbeterde verwerking van langeafstandsafhankelijkheden, zij het met beperkte parallelisatie vanwege hun inherent recurrente aard. In dit artikel stellen we Avey voor, een nieuw neuraal fundamenteel architectuur dat afwijkt van zowel aandacht als recurrentie. Avey bestaat uit een ranker en een autoregressieve neurale processor, die gezamenlijk alleen de meest relevante tokens identificeren en contextualiseren voor elk gegeven token, ongeacht hun posities in de sequentie. Specifiek ontkoppelt Avey sequentielengte van contextbreedte, waardoor effectieve verwerking van willekeurig lange sequenties mogelijk wordt. Experimentele resultaten tonen aan dat Avey gunstig afsteekt tegen de Transformer over een verscheidenheid aan standaard kortetermijn NLP-benchmarks, terwijl het opvallend uitblinkt in het vastleggen van langeafstandsafhankelijkheden.
Video-editing met behulp van diffusiemodellen heeft opmerkelijke resultaten behaald bij het genereren van hoogwaardige bewerkingen voor video's. Huidige methoden zijn echter vaak afhankelijk van grootschalige voorafgaande training, wat de flexibiliteit voor specifieke bewerkingen beperkt. Bewerkingen die worden gestuurd door het eerste frame bieden controle over het eerste frame, maar missen flexibiliteit voor de daaropvolgende frames. Om dit aan te pakken, stellen we een maskergebaseerde LoRA (Low-Rank Adaptation)-afstemmingsmethode voor die vooraf getrainde Image-to-Video (I2V)-modellen aanpast voor flexibele video-editing. Onze aanpak behoudt achtergrondgebieden terwijl het mogelijk maakt om bewerkingen op een controleerbare manier door te voeren. Deze oplossing biedt efficiënte en aanpasbare video-editing zonder de modelarchitectuur te wijzigen. Om dit proces beter te sturen, integreren we aanvullende referenties, zoals alternatieve gezichtspunten of representatieve scène-toestanden, die dienen als visuele ankers voor hoe de inhoud zich zou moeten ontvouwen. We pakken de controle-uitdaging aan met een maskergestuurde LoRA-afstemmingsstrategie die een vooraf getraind image-to-video-model aanpast aan de bewerkingscontext. Het model moet leren van twee verschillende bronnen: de invoervideo biedt ruimtelijke structuur en bewegingsaanwijzingen, terwijl referentiebeelden uiterlijkbegeleiding bieden. Een ruimtelijk masker maakt regiogericht leren mogelijk door dynamisch te moduleren waar het model aandacht aan besteedt, waardoor ervoor wordt gezorgd dat elk gebied put uit de juiste bron. Experimentele resultaten tonen aan dat onze methode superieure video-editingprestaties bereikt in vergelijking met state-of-the-art methoden.
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft het begrip en de generatie van multimodale gegevens aanzienlijk verbeterd. Deze modellen hebben echter nog steeds moeite met het genereren van nauw verweven beeld-tekst-uitvoer, voornamelijk vanwege de beperkte schaal, kwaliteit en instructierijkdom van de huidige trainingsdatasets. Om dit aan te pakken, introduceren we InterSyn, een grootschalige multimodale dataset die is opgebouwd met behulp van onze Self-Evaluation with Iterative Refinement (SEIR)-methode. InterSyn bevat meerronde, instructiegestuurde dialogen met nauw verweven beeld-tekst-reacties, en biedt een rijke diversiteit aan objecten en rigoureuze geautomatiseerde kwaliteitsverfijning, waardoor het zeer geschikt is voor het trainen van instructievolgende LMMs van de volgende generatie. Verder introduceren we, om het gebrek aan betrouwbare evaluatietools die in staat zijn om verweven multimodale uitvoer te beoordelen aan te pakken, SynJudge, een automatisch evaluatiemodel dat is ontworpen om multimodale uitvoer kwantitatief te beoordelen langs vier dimensies: tekstinhoud, beeldinhoud, beeldkwaliteit en beeld-tekst-synergie. Experimentele studies tonen aan dat de SEIR-methode leidt tot een aanzienlijk hogere datasetkwaliteit in vergelijking met een verder identiek proces zonder verfijning. Bovendien behalen LMMs die op InterSyn zijn getraind uniforme prestatieverbeteringen op alle evaluatiemetrics, wat de bruikbaarheid van InterSyn voor het bevorderen van multimodale systemen bevestigt.
Humanoïde robots hebben aanzienlijk potentieel in het uitvoeren van dagelijkse taken in diverse omgevingen dankzij hun flexibiliteit en mensachtige morfologie. Recente werken hebben aanzienlijke vooruitgang geboekt in het hele-lichaam besturen van humanoïde robots en loco-manipulatie door gebruik te maken van optimale controle of reinforcement learning. Deze methoden vereisen echter tijdrovende, taakspecifieke afstemming voor elke taak om bevredigend gedrag te bereiken, wat hun veelzijdigheid en schaalbaarheid voor diverse taken in dagelijkse scenario's beperkt. Daarom introduceren we SkillBlender, een nieuw hiërarchisch reinforcement learning raamwerk voor veelzijdige humanoïde loco-manipulatie. SkillBlender traint eerst doelgerichte, taakongevoelige primitieve vaardigheden voor, en combineert deze vaardigheden vervolgens dynamisch om complexe loco-manipulatietaken uit te voeren met minimale taakspecifieke beloningsengineering. We introduceren ook SkillBench, een parallelle, cross-embodiment en diverse gesimuleerde benchmark met drie embodiementen, vier primitieve vaardigheden en acht uitdagende loco-manipulatietaken, vergezeld van een set wetenschappelijke evaluatiemetrics die nauwkeurigheid en haalbaarheid in balans brengen. Uitgebreide gesimuleerde experimenten tonen aan dat onze methode alle referentiemethoden significant overtreft, terwijl het gedrag op natuurlijke wijze wordt gereguleerd om beloningsmanipulatie te voorkomen, wat resulteert in nauwkeurigere en haalbare bewegingen voor diverse loco-manipulatietaken in onze dagelijkse scenario's. Onze code en benchmark zullen worden openbaar gemaakt voor de gemeenschap om toekomstig onderzoek te faciliteren. Projectpagina: https://usc-gvl.github.io/SkillBlender-web/.
Om Large Language Models (LLMs) betrouwbaar in te kunnen zetten in zowel alledaagse als hoogrisicodomeinen, is het even cruciaal om te weten wanneer ze niet moeten antwoorden als om correct te antwoorden. Gebruikersvragen in de echte wereld, die onvolledig, onjuist geformuleerd of fundamenteel onbeantwoordbaar kunnen zijn, vereisen dat LLMs kunnen redeneren over onzekerheid en selectief kunnen afzien — dat wil zeggen, weigeren om definitief te antwoorden. Toch blijft afzien onderbelicht, zonder een systematisch evaluatiekader voor moderne LLMs. In dit werk introduceren we AbstentionBench, een grootschalige benchmark voor het holistisch evalueren van afzien over 20 diverse datasets, inclusief vragen met onbekende antwoorden, onvolledige specificaties, valse premissen, subjectieve interpretaties en verouderde informatie. Evaluatie van 20 toonaangevende LLMs laat zien dat afzien een onopgelost probleem is, en een probleem waarbij het opschalen van modellen weinig nut heeft. Hoewel recente redeneer-LLMs indrukwekkende resultaten hebben getoond in complexe probleemoplossing, vinden we verrassend genoeg dat fine-tuning voor redeneren afzien verslechtert (met gemiddeld 24%), zelfs voor wiskunde- en wetenschapsdomeinen waarop redeneermodellen expliciet zijn getraind. We ontdekken dat, hoewel een zorgvuldig opgesteld systeemprompt afzien in de praktijk kan verbeteren, het de fundamentele onmogelijkheid van modellen om over onzekerheid te redeneren niet oplost. We maken AbstentionBench beschikbaar om onderzoek naar het bevorderen van de betrouwbaarheid van LLMs te stimuleren.
Test-time schaling is naar voren gekomen als een effectieve aanpak om de prestaties van taalmodelen te verbeteren door extra rekenkracht te benutten tijdens de inferentie. Recente studies hebben aangetoond dat het overschrijven van eind-van-denken-tokens (bijvoorbeeld het vervangen van "</think>" door "Wacht") de redeneerstappen kan verlengen en de nauwkeurigheid kan verbeteren. In dit werk onderzoeken we of een speciaal voort-denken-token kan worden aangeleerd om uitgebreid redeneren te activeren. We breiden een gedistilleerde versie van DeepSeek-R1 uit met een enkel aangeleerd "<|continue-thinking|>" token, waarbij we alleen de embedding ervan trainen via reinforcement learning terwijl de modelgewichten bevroren blijven. Onze experimenten tonen aan dat dit aangeleerde token een verbeterde nauwkeurigheid bereikt op standaard wiskundige benchmarks in vergelijking met zowel het basismodel als een test-time schaling-benadering die een vast token (bijvoorbeeld "Wacht") gebruikt voor budgetforcing. In het bijzonder observeren we dat in gevallen waar de vaste-token-benadering de nauwkeurigheid van het basismodel verbetert, onze methode een aanzienlijk grotere verbetering bereikt. Op de GSM8K benchmark levert de vaste-token-benadering bijvoorbeeld een absolute verbetering van 1,3% in nauwkeurigheid op, terwijl onze aangeleerde-token-methode een verbetering van 4,2% bereikt ten opzichte van het basismodel dat geen budgetforcing gebruikt.
We stellen een zelfverfijnend raamwerk voor dat de prestaties van ASR verbetert met alleen ongeannoteerde datasets. Het proces begint met een bestaand ASR-model dat pseudo-labels genereert op niet-geannoteerde spraak, die vervolgens worden gebruikt om een hoogwaardig text-to-speech (TTS) systeem te trainen. Vervolgens worden gesynthetiseerde spraak-tekstparen teruggevoerd in het oorspronkelijke ASR-systeem, waardoor de gesloten lus van zelfverbetering wordt voltooid. We hebben de effectiviteit van het raamwerk aangetoond op Taiwanese Mandarijnse spraak. Door gebruik te maken van 6.000 uur ongeannoteerde spraak, een matige hoeveelheid tekstdata en synthetische inhoud van de AI-modellen, hebben we Whisper-large-v2 aangepast tot een gespecialiseerd model, Twister. Twister verlaagt de foutpercentages met maximaal 20% op Mandarijn en 50% op Mandarijn-Engels code-switching benchmarks in vergelijking met Whisper. De resultaten benadrukken het raamwerk als een overtuigend alternatief voor pseudo-labeling zelfdistillatiebenaderingen en bieden een praktische weg om ASR-prestaties te verbeteren in situaties met beperkte bronnen of domeinspecifieke instellingen.
Dit werk richt zich op een waargenomen beperking van tekstencoders: embeddings zijn mogelijk niet in staat om fijnmazige entiteiten of gebeurtenissen binnen de semantiek te herkennen, wat resulteert in mislukte dense retrieval zelfs in eenvoudige gevallen. Om dergelijk gedrag te onderzoeken, introduceren we eerst een nieuwe evaluatiedataset in het Chinees, genaamd CapRetrieval, waarvan de passages beeldbijschriften zijn en de queries zinnen die op verschillende manieren naar entiteiten of gebeurtenissen vragen. Zero-shot evaluatie suggereert dat encoders mogelijk falen bij deze fijnmazige matching, ongeacht de trainingsbronnen of modelgroottes. Strevend naar verbetering, gaan we verder met het finetunen van encoders met onze voorgestelde datageneratiestrategieën, wat de beste prestaties oplevert op CapRetrieval. Binnen dit proces identificeren we verder een probleem van granulariteitsdilemma, een uitdaging voor embeddings om fijnmazige prominentie uit te drukken terwijl ze in lijn blijven met de algehele semantiek. Onze dataset, code en modellen in dit werk zijn openbaar vrijgegeven op https://github.com/lxucs/CapRetrieval.
Recente inspanningen om het Multi-modale Grote Taalmodel (MLLM) in te zetten als GUI-agenten hebben veelbelovende resultaten opgeleverd. Deze agenten hebben echter nog steeds moeite met langetermijntaken in online omgevingen, voornamelijk door onvoldoende kennis en de inherente kloof tussen offline en online domeinen. In dit artikel, geïnspireerd door hoe mensen kennis generaliseren in open-ended omgevingen, stellen we een Hiërarchisch Multimodaal Vaardigheden (HMS) module voor om het probleem van onvoldoende kennis aan te pakken. Het abstraheert trajecten progressief naar uitvoeringsvaardigheden, kernvaardigheden en uiteindelijk meta-vaardigheden, wat een hiërarchische kennisstructuur biedt voor langetermijn taakplanning. Om de domeinkloof te overbruggen, stellen we het Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algoritme voor, dat efficiënt gebruik maakt van vaardigheden die in offline omgevingen zijn verworven om de actiezoekruimte tijdens online boomverkenning te verkleinen. Op basis van HMS stellen we Mirage-1 voor, een multimodale, cross-platform, plug-and-play GUI-agent. Om de prestaties van Mirage-1 in real-world langetermijnscenario's te valideren, hebben we een nieuwe benchmark, AndroidLH, geconstrueerd. Experimentele resultaten tonen aan dat Mirage-1 eerdere agenten overtreft met respectievelijk 32%, 19%, 15% en 79% op AndroidWorld, MobileMiniWob++, Mind2Web-Live en AndroidLH. Projectpagina: https://cybertronagent.github.io/Mirage-1.github.io/
Het detecteren van schadelijke memes is essentieel voor het behoud van de integriteit van online omgevingen. Huidige benaderingen kampen echter vaak met problemen op het gebied van resource-efficiëntie, flexibiliteit of uitlegbaarheid, wat hun praktische inzetbaarheid in contentmoderatiesystemen beperkt. Om deze uitdagingen aan te pakken, introduceren we U-CoT+, een nieuw framework voor de detectie van schadelijke memes. In plaats van uitsluitend te vertrouwen op prompting of het finetunen van multimodale modellen, ontwikkelen we eerst een hoogwaardige meme-naar-tekst-pipeline die visuele memes omzet in tekstuele beschrijvingen die details behouden. Dit ontwerp ontkoppelt de interpretatie van memes van de classificatie ervan, waardoor direct redeneren over complexe visuele inhoud wordt vermeden en resource-efficiënte detectie van schadelijke memes mogelijk wordt gemaakt met behulp van algemene grote taalmodellen (LLMs). Op basis van deze tekstuele beschrijvingen integreren we verder gerichte, interpreteerbare, door mensen gemaakte richtlijnen om het redeneren van modellen te begeleiden onder zero-shot CoT prompting. Hierdoor biedt dit framework een eenvoudige aanpassing aan verschillende criteria voor het detecteren van schadelijkheid over platforms, regio's en in de tijd, wat hoge flexibiliteit en uitlegbaarheid biedt. Uitgebreide experimenten op zeven benchmarkdatasets valideren de effectiviteit van ons framework en benadrukken het potentieel voor uitlegbare en resourcezuinige detectie van schadelijke memes met behulp van kleinschalige LLMs. Codes en data zijn beschikbaar op: https://anonymous.4open.science/r/HMC-AF2B/README.md.
Grote Taalmodellen (LLMs) tonen sterke prestaties in real-world toepassingen, maar bestaande open-source instructiedatasets richten zich vaak op smalle domeinen, zoals wiskunde of programmeren, wat de generalisatie beperkt en de kloof met propriëtaire modellen vergroot. Om deze kloof te overbruggen, introduceren we Infinity-Instruct, een hoogwaardige instructiedataset die is ontworpen om zowel de fundamentele als de chatmogelijkheden van LLMs te verbeteren via een tweefasenpijplijn. In Fase 1 hebben we 7,4 miljoen hoogwaardige fundamentele instructies (InfInstruct-F-7.4M) gecureerd uit meer dan 100 miljoen samples met behulp van hybride dataselectietechnieken. In Fase 2 hebben we 1,5 miljoen hoogwaardige chatinstructies (InfInstruct-G-1.5M) gesynthetiseerd via een tweestapsproces dat instructieselectie, evolutie en diagnostische filtering omvat. We evalueren Infinity-Instruct empirisch door verschillende open-source modellen, waaronder Mistral, LLaMA, Qwen en Yi, te finetunen, en observeren aanzienlijke prestatieverbeteringen op zowel fundamentele als instructievolgende benchmarks, waarbij consistent de officieel afgestemde tegenhangers worden overtroffen. Opmerkelijk is dat InfInstruct-LLaMA3.1-70B GPT-4-0314 met 8,6\% overtreft op instructievolgende taken, terwijl het vergelijkbare fundamentele prestaties behaalt. Deze resultaten onderstrepen de synergie tussen fundamentele en chat training en bieden nieuwe inzichten in holistische LLM-ontwikkeling. Onze dataset https://huggingface.co/datasets/BAAI/Infinity-Instruct en codes https://gitee.com/li-touch/infinity-instruct zijn openbaar vrijgegeven.
We introduceren een op aandacht gebaseerde methode die gebruikmaakt van geleerde binaire aandachtmaskers om ervoor te zorgen dat alleen de aandachtgebieden in de afbeelding de voorspelling beïnvloeden. Context kan de objectwaarneming sterk beïnvloeden, wat soms leidt tot bevooroordeelde representaties, vooral wanneer objecten voorkomen in achtergronden die buiten de verdeling vallen. Tegelijkertijd vereisen veel beeldniveau objectgerichte taken het identificeren van relevante regio's, wat vaak context vereist. Om dit dilemma aan te pakken, stellen we een tweestaps raamwerk voor: fase 1 verwerkt de volledige afbeelding om objectonderdelen te ontdekken en taakrelevante regio's te identificeren, terwijl fase 2 gebruikmaakt van invoer-aandachtmaskering om zijn receptieve veld te beperken tot deze regio's, waardoor een gerichte analyse mogelijk wordt terwijl potentieel misleidende informatie wordt gefilterd. Beide fasen worden gezamenlijk getraind, waardoor fase 2 fase 1 kan verfijnen. Uitgebreide experimenten over diverse benchmarks tonen aan dat onze aanpak de robuustheid tegen misleidende correlaties en achtergronden buiten de verdeling aanzienlijk verbetert.
Het standaardparadigma voor het oplossen van coderingsproblemen met behulp van grote taalmodellen (LLMs) is het genereren-en-rangschikken van programma's, waarbij de laatste stap een verificatiestap gebruikt in het rangschikkingsproces. De groeiende consensus is dat een uitgebreide verifier (bijvoorbeeld een volledige testsuite) prioriteit moet krijgen boven een uitkomstbeloningsmodel (ORM) wanneer mogelijk, met weinig aandacht voor de afwegingen die hierbij komen kijken. Wij willen deze aanname uitdagen door systematisch de afweging tussen snelheid en nauwkeurigheid te onderzoeken. Wij ontdekken dat ORM's een cruciale rol spelen bij het schalen van verificatie door nauwkeurigheid in te ruilen voor snelheid, zelfs wanneer een uitgebreide verifier beschikbaar is. Hun waarde wordt vooral duidelijk wanneer ze worden gebruikt in een genereer-snoei-en-rangschik-benadering, waarbij een snellere maar minder nauwkeurige verifier onjuiste oplossingen verwijdert vóór het rangschikken – wat resulteert in een systeem dat 11,65x sneller is terwijl het slechts 8,33% minder nauwkeurig is dan de volledige testsuite. Wij analyseren de genereer-snoei-en-rangschik-benadering en laten zien dat deze werkt door onjuiste maar hoog gerangschikte oplossingen eruit te filteren. Deze bevindingen maken het mogelijk om schaalbare en nauwkeurige programma-rangschikkingssystemen te ontwerpen.
Onlangs hebben Large Language Models (LLM's) aanzienlijk potentieel getoond voor data-annotatie, waardoor de arbeidskosten voor downstream-toepassingen aanzienlijk worden verlaagd. Bestaande methoden hanteren echter meestal een agressieve strategie door de LLM te stimuleren om een enkele gouden label te bepalen voor elk ongelabeld voorbeeld. Vanwege de inherente onzekerheid binnen LLM's produceren ze vaak incorrecte labels voor moeilijke voorbeelden, wat de data-kwaliteit voor downstream-toepassingen ernstig aantast. Geïnspireerd door ambiguïteitsaversie in menselijk gedrag, stellen we een nieuw kandidaat-annotatieparadigma voor waarin grote taalmodellen worden aangemoedigd om alle mogelijke labels te outputten bij onzekerheid. Om unieke labels te garanderen voor downstream-taken, ontwikkelen we een leraar-leerling-framework genaamd CanDist dat kandidaat-annotaties destilleert met een Small Language Model (SLM). We bieden verder een rigoureuze rechtvaardiging die aantoont dat het destilleren van kandidaat-annotaties van de leraar-LLM superieure theoretische garanties biedt in vergelijking met het direct gebruiken van enkele annotaties. Uitgebreide experimenten over zes tekstclassificatietaken valideren de effectiviteit van onze voorgestelde methode. De broncode is beschikbaar op https://github.com/MingxuanXia/CanDist.
Modellen van menselijke feedback voor AI-afstemming, zoals die ten grondslag liggen aan Direct Preference Optimization (DPO), nemen vaak een enkelvoudige, statische set voorkeuren in zich op, wat de aanpassingsvermogen beperkt. Dit artikel daagt de aanname van monolithische voorkeuren uit door Configurable Preference Tuning (CPT) te introduceren, een nieuw raamwerk om taalmodelen de mogelijkheid te geven hun gedrag dynamisch aan te passen op basis van expliciete, door mensen interpreteerbare richtlijnen. CPT maakt gebruik van synthetisch gegenereerde voorkeursgegevens, geconditioneerd op systeemprompts die zijn afgeleid van gestructureerde, fijnmazige rubrieken die gewenste attributen zoals schrijfstijl definiëren. Door fine-tuning met deze rubriek-gestuurde voorkeuren, leert het LLM zijn uitvoer tijdens inferentie aan te passen in reactie op de systeemprompt, zonder opnieuw te trainen. Deze benadering biedt niet alleen fijnmazige controle, maar biedt ook een mechanisme voor het modelleren van meer genuanceerde en contextafhankelijke menselijke feedback. Verschillende experimentele artefacten, zoals trainingscode, gegenereerde datasets en fine-tuned modellen, worden vrijgegeven op https://github.com/vicgalle/configurable-preference-tuning.