Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel deep learning opmerkelijke successen heeft behaald in vele domeinen, heeft het historisch gezien onderprestaties geleverd bij taken voor tabelgegevens, die nog steeds worden gedomineerd door gradient boosting beslissingsbomen (GBDTs). Recente ontwikkelingen maken echter de weg vrij voor Tabular Foundation Models, die gebruik kunnen maken van kennis uit de echte wereld en kunnen generaliseren over diverse datasets, vooral wanneer de data vrije tekst bevat. Hoewel het integreren van taalmodellen in taken met tabelgegevens is onderzocht, maken de meeste bestaande methoden gebruik van statische, doel-agnostische tekstuele representaties, wat hun effectiviteit beperkt. Wij introduceren TabSTAR: een Foundation Tabular Model met Semantisch Doelbewuste Representaties. TabSTAR is ontworpen om transfer learning mogelijk te maken op tabelgegevens met tekstuele kenmerken, met een architectuur die vrij is van dataset-specifieke parameters. Het ontgrendelt een vooraf getrainde tekstencoder en neemt doel-tokens als invoer, die het model de context bieden die nodig is om taakspecifieke embeddings te leren. TabSTAR behaalt state-of-the-art prestaties voor zowel middelgrote als grote datasets in bekende benchmarks van classificatietaken met tekstkenmerken, en de pretrainingsfase vertoont schaalwetten in het aantal datasets, wat een pad biedt voor verdere prestatieverbeteringen.
Recente grote redeneermodellen (LRMs) hebben sterke redeneervaardigheden getoond door middel van reinforcement learning (RL). Deze verbeteringen zijn voornamelijk waargenomen binnen taken voor kort-context redeneren. Daarentegen blijft het uitbreiden van LRMs om effectief lange-context invoer te verwerken en daarover te redeneren via RL een kritieke, onopgeloste uitdaging. Om deze kloof te overbruggen, formaliseren we eerst het paradigma van lange-context redeneren RL, en identificeren we belangrijke uitdagingen in suboptimale trainings efficiëntie en een onstabiel optimalisatieproces. Om deze problemen aan te pakken, stellen we QwenLong-L1 voor, een raamwerk dat kort-context LRMs aanpast aan lange-context scenario's via progressieve contextschaling. Specifiek gebruiken we een warm-up supervised fine-tuning (SFT) fase om een robuust initieel beleid te vestigen, gevolgd door een curriculum-geleide gefaseerde RL techniek om de beleidsevolutie te stabiliseren, en versterkt met een moeilijkheidsbewuste retrospectieve bemonsteringsstrategie om beleidsverkenning te stimuleren. Experimenten op zeven lange-context document vraag-antwoord benchmarks tonen aan dat QwenLong-L1-32B toonaangevende LRMs zoals OpenAI-o3-mini en Qwen3-235B-A22B overtreft, en prestaties bereikt die vergelijkbaar zijn met Claude-3.7-Sonnet-Thinking, wat leidende prestaties aantoont onder state-of-the-art LRMs. Dit werk bevordert de ontwikkeling van praktische lange-context LRMs die in staat zijn tot robuust redeneren in informatie-intensieve omgevingen.
Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken, maar blijven rekenkundig kostbaar, wat hun praktische inzet beperkt. Om dit aan te pakken, hebben recente onderzoeken zich gericht op het destilleren van redeneervaardigheden in kleinere taalmodellen (sLMs) met behulp van chain-of-thought (CoT) sporen van docent-LLMs. Deze aanpak heeft echter moeite in scenario's die zeldzame feitelijke kennis of precieze berekeningen vereisen, waar sLMs vaak hallucineren vanwege beperkte capaciteit. In dit werk stellen we Agent Distillation voor, een raamwerk voor het overbrengen van niet alleen redeneervaardigheden, maar volledige taakoplossend gedrag van LLM-gebaseerde agents naar sLMs met retrieval- en codegereedschappen. We verbeteren agentdistillatie langs twee complementaire assen: (1) we introduceren een promptmethode genaamd first-thought prefix om de kwaliteit van door de docent gegenereerde trajecten te verbeteren; en (2) we stellen een zelfconsistente actiegeneratie voor om de robuustheid van kleine agents tijdens tests te verbeteren. We evalueren onze methode op acht redeneertaken in feitelijke en wiskundige domeinen, waarbij zowel in-domein als out-of-domein generalisatie wordt bestreken. Onze resultaten laten zien dat sLMs met slechts 0,5B, 1,5B, 3B parameters prestaties kunnen bereiken die concurrerend zijn met grotere modellen van 1,5B, 3B, 7B die zijn afgestemd met CoT-distillatie, wat het potentieel van agentdistillatie aantoont voor het bouwen van praktische, gereedschapgebruikende kleine agents. Onze code is beschikbaar op https://github.com/Nardien/agent-distillation.
De snelle vooruitgang van grote taalmodellen (LLMs) gaat gepaard met ongekende toename in rekenkundige eisen, waarbij de trainingskosten voor state-of-the-art modellen elke paar maanden verdubbelen. Het direct trainen van modellen in rekenkunde met lage precisie biedt een oplossing, door zowel de rekenkundige doorvoer als de energie-efficiëntie te verbeteren. Specifiek faciliteert de recente Blackwell-architectuur van NVIDIA extreem lage precisiebewerkingen, met name FP4-varianten, wat aanzienlijke efficiëntiewinsten belooft. Toch kampen huidige algoritmen voor het trainen van LLMs in FP4-precie met aanzienlijke nauwkeurigheidsverliezen en vertrouwen vaak op gemengde precisie fallbacks. In dit artikel onderzoeken we systematisch hardware-ondersteunde FP4-training en introduceren we Quartet, een nieuwe aanpak die nauwkeurige, end-to-end FP4-training mogelijk maakt, waarbij alle belangrijke berekeningen (bijv. in lineaire lagen) in lage precisie worden uitgevoerd. Door uitgebreide evaluaties op Llama-type modellen onthullen we een nieuwe schaalwet voor lage precisie die prestatieafwegingen over verschillende bitbreedtes kwantificeert en ons in staat stelt een "bijna optimale" techniek voor lage precisie training te identificeren in termen van nauwkeurigheid versus rekenkracht, genaamd Quartet. We implementeren Quartet met behulp van geoptimaliseerde CUDA-kernels die zijn afgestemd op NVIDIA Blackwell GPU's, en laten zien dat het state-of-the-art nauwkeurigheid kan bereiken voor FP4-precie, waarbij het succesvol miljard-schaal modellen traint. Onze methode toont aan dat volledig op FP4 gebaseerde training een competitief alternatief is voor standaard precisie en FP8-training. Onze code is beschikbaar op https://github.com/IST-DASLab/Quartet.
Grote taalmodellen hebben opmerkelijke vaardigheden getoond in lange en complexe redeneertaken. Echter, vertonen ze vaak een problematische afhankelijkheid van bekende redeneerpatronen, een fenomeen dat we redeneerrigiditeit noemen. Ondanks expliciete instructies van gebruikers, negeren deze modellen vaak duidelijk gestelde voorwaarden en vallen ze terug op gebruikelijke redeneerlijnen, wat leidt tot incorrecte conclusies. Dit gedrag vormt aanzienlijke uitdagingen, met name in domeinen zoals wiskunde en logische puzzels, waar nauwkeurige naleving van gespecificeerde beperkingen cruciaal is. Om redeneerrigiditeit systematisch te onderzoeken, een gedrag dat grotendeels onontgonnen is in eerder werk, introduceren we een door experts samengestelde diagnostische set. Onze dataset omvat speciaal aangepaste varianten van bestaande wiskundige benchmarks, namelijk AIME en MATH500, evenals bekende puzzels die opzettelijk zijn herontworpen om afwijking van vertrouwde redeneerstrategieën te vereisen. Met behulp van deze dataset identificeren we terugkerende besmettingspatronen die optreden wanneer modellen terugvallen op ingesleten redeneringen. Specifiek categoriseren we deze besmetting in drie onderscheidende modi: (i) Interpretatie Overbelasting, (ii) Input Wantrouwen, en (iii) Gedeeltelijke Instructie Aandacht, die elk ervoor zorgen dat modellen verstrekte instructies negeren of verdraaien. We maken onze diagnostische set publiekelijk beschikbaar om toekomstig onderzoek naar het verminderen van redeneerrigiditeit in taalmodellen te faciliteren.
Reinforcement learning (RL) heeft de redeneervaardigheden van vision-language modellen (VLMs) aanzienlijk verbeterd. Het gebruik van RL buiten redeneertaken blijft echter grotendeels onontgonnen, vooral voor perceptie-intensieve taken zoals objectdetectie en grounding. Wij stellen V-Triune voor, een Visual Triple Unified Reinforcement Learning-systeem dat VLMs in staat stelt om visuele redenering en perceptietaken gezamenlijk te leren binnen een enkele trainingspipeline. V-Triune bestaat uit drie complementaire componenten: Sample-Level Data Formatting (om diverse taakinvoeren te unificeren), Verifier-Level Reward Computation (om aangepaste beloningen te leveren via gespecialiseerde verifiers), en Source-Level Metric Monitoring (om problemen op het niveau van de databron te diagnosticeren). We introduceren verder een nieuwe Dynamic IoU-beloning, die adaptieve, progressieve en definitieve feedback biedt voor perceptietaken die door V-Triune worden afgehandeld. Onze aanpak wordt geïmplementeerd binnen een standaard RL-trainingsframework met behulp van open-source 7B en 32B backbone-modellen. Het resulterende model, genaamd Orsta (One RL to See Them All), toont consistente verbeteringen in zowel redeneer- als perceptietaken. Deze brede capaciteit wordt sterk gevormd door de training op een diverse dataset, opgebouwd rond vier representatieve visuele redeneertaken (Math, Puzzle, Chart en Science) en vier visuele perceptietaken (Grounding, Detection, Counting en OCR). Vervolgens behaalt Orsta aanzienlijke vooruitgang op MEGA-Bench Core, met verbeteringen variërend van +2,1 tot een indrukwekkende +14,1 over zijn verschillende 7B en 32B modelvarianten, waarbij de prestatievoordelen zich uitstrekken tot een breed scala aan downstreamtaken. Deze resultaten benadrukken de effectiviteit en schaalbaarheid van onze geünificeerde RL-aanpak voor VLMs. Het V-Triune-systeem, samen met de Orsta-modellen, is publiekelijk beschikbaar op https://github.com/MiniMax-AI.
Bestaande benchmarks slagen er niet in een cruciaal aspect van intelligentie vast te leggen: fysiek redeneren, het geïntegreerde vermogen om domeinkennis, symbolisch redeneren en begrip van real-world beperkingen te combineren. Om dit gat te dichten, introduceren we PhyX: de eerste grootschalige benchmark die is ontworpen om het vermogen van modellen voor fysica-grondig redeneren in visuele scenario's te beoordelen. PhyX omvat 3K zorgvuldig samengestelde multimodale vragen die 6 redeneertypes beslaan over 25 subdomeinen en 6 kernfysicadomeinen: thermodynamica, elektromagnetisme, mechanica, moderne fysica, optica en golven\&akoestiek. In onze uitgebreide evaluatie worstelen zelfs state-of-the-art modellen aanzienlijk met fysiek redeneren. GPT-4o, Claude3.7-Sonnet en GPT-o4-mini behalen slechts respectievelijk 32,5\%, 42,2\% en 45,8\% nauwkeurigheid – prestatieverschillen van meer dan 29\% vergeleken met menselijke experts. Onze analyse legt kritieke beperkingen bloot in huidige modellen: overmatige afhankelijkheid van gememoriseerde disciplinaire kennis, buitensporige afhankelijkheid van wiskundige formuleringen en oppervlakkige visuele patroonherkenning in plaats van echt fysiek begrip. We bieden diepgaande analyse via fijnmazige statistieken, gedetailleerde casestudies en meerdere evaluatieparadigma's om fysieke redeneervaardigheden grondig te onderzoeken. Om reproduceerbaarheid te garanderen, implementeren we een compatibel evaluatieprotocol gebaseerd op veelgebruikte toolkits zoals VLMEvalKit, waardoor een éénkliksevaluatie mogelijk wordt.
Dit technische rapport presenteert QwenLong-CPRS, een contextcompressieframework ontworpen voor expliciete optimalisatie van lange contexten, waarbij het buitensporige rekenoverhead tijdens de prefase en de "lost in the middle"-prestatievermindering van grote taalmodellen (LLM's) tijdens de verwerking van lange sequenties worden aangepakt. Geïmplementeerd via een nieuw dynamisch contextoptimalisatiemechanisme, maakt QwenLong-CPRS multi-granulariteit contextcompressie mogelijk, geleid door natuurlijke taal instructies, wat zowel efficiëntiewinst als verbeterde prestaties oplevert. Ontwikkeld vanuit de Qwen-architectuurserie, introduceert QwenLong-CPRS vier belangrijke innovaties: (1) Dynamische optimalisatie geleid door natuurlijke taal, (2) Bidirectionele redeneerlagen voor verbeterd grensvlakbewustzijn, (3) Token-criticmechanismen met taalmodelleringskoppen, en (4) Venster-parallelle inferentie. Uitgebreide evaluaties over vijf benchmarks (4K-2M woordcontexten) tonen de drievoudige effectiviteit van QwenLong-CPRS aan: (1) Consistente superioriteit ten opzichte van andere contextbeheermethoden zoals RAG en sparse attention, zowel in nauwkeurigheid als efficiëntie. (2) Architectuuronafhankelijke integratie met alle toonaangevende LLM's, waaronder GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 en Qwen2.5-max, bereikt een contextcompressie van 21,59 keer naast een gemiddelde prestatieverbetering van 19,15 punten; (3) Geïmplementeerd met Qwen2.5-32B-Instruct, overtreft QwenLong-CPRS toonaangevende propriëtaire LLM's met 4,85 en 10,88 punten op Ruler-128K en InfiniteBench, waarmee nieuwe state-of-the-art (SOTA) prestaties worden gevestigd.
Naarmate de marginale kosten van het schalen van rekenkracht (data en parameters) tijdens het vooraf trainen van modellen aanzienlijk blijven toenemen, is testtijd-schaling (TTS) naar voren gekomen als een veelbelovende richting om de prestaties van generatieve modellen te verbeteren door extra rekenkracht toe te wijzen tijdens de inferentie. Hoewel TTS aanzienlijk succes heeft laten zien bij meerdere taaltaken, bestaat er nog steeds een opvallende kloof in het begrip van de testtijd-schalingseigenschappen van generatieve modellen voor afbeeldingen en video's (diffusie- of stroomgebaseerde modellen). Hoewel recente werken een verkenning hebben ingezet naar inferentie-strategieën voor visuele taken, kampen deze benaderingen met kritieke beperkingen: ze zijn beperkt tot domeinspecifieke taken, vertonen slechte schaalbaarheid, of vervallen in overoptimalisatie van beloningen die ten koste gaat van de diversiteit van samples. In dit artikel stellen we Evolutionaire Zoektocht (EvoSearch) voor, een nieuwe, generalistische en efficiënte TTS-methode die de schaalbaarheid van zowel afbeeldingen- als videogeneratie over diffusie- en stroommodellen effectief verbetert, zonder extra training of modeluitbreiding te vereisen. EvoSearch herformuleert testtijd-schaling voor diffusie- en stroommodellen als een evolutionair zoekprobleem, waarbij principes uit de biologische evolutie worden benut om efficiënt de denoising-trajectorie te verkennen en te verfijnen. Door zorgvuldig ontworpen selectie- en mutatiemechanismen te incorporeren die zijn afgestemd op het stochastische differentiaalvergelijking-denoisingsproces, genereert EvoSearch iteratief hogere kwaliteit nakomelingen terwijl de populatiediversiteit behouden blijft. Door uitgebreide evaluatie over zowel diffusie- als stroomarchitecturen voor afbeeldingen- en videogeneratietaken, tonen we aan dat onze methode consistent beter presteert dan bestaande benaderingen, hogere diversiteit bereikt, en sterke generaliseerbaarheid vertoont naar onbekende evaluatiemetrics. Ons project is beschikbaar op de website https://tinnerhrhe.github.io/evosearch.
De keuze van initiële ruis heeft een aanzienlijke invloed op de kwaliteit en promptafstemming van videodiffusiemodellen, waarbij verschillende ruiszaden voor dezelfde prompt tot sterk verschillende generaties kunnen leiden. Hoewel recente methoden vertrouwen op extern ontworpen prioriteiten zoals frequentiefilters of inter-frame smoothing, wordt vaak over het hoofd gezien dat interne modelsignalen aangeven welke ruiszaden inherent de voorkeur verdienen. Om dit aan te pakken, stellen we ANSE (Active Noise Selection for Generation) voor, een modelbewust raamwerk dat hoogwaardige ruiszaden selecteert door aandacht gebaseerde onzekerheid te kwantificeren. De kern hiervan is BANSA (Bayesian Active Noise Selection via Attention), een acquisitiefunctie die entropieonenigheid over meerdere stochastische aandachtmonsters meet om modelvertrouwen en consistentie te schatten. Voor efficiënte implementatie tijdens inferentie introduceren we een Bernoulli-gemaskerde benadering van BANSA die score-schatting mogelijk maakt met behulp van een enkele diffusiestap en een subset van aandachtlagen. Experimenten op CogVideoX-2B en 5B tonen aan dat ANSE de videokwaliteit en temporele coherentie verbetert met slechts een toename van respectievelijk 8% en 13% in inferentietijd, wat een principiële en generaliseerbare benadering biedt voor ruisselectie in videodiffusie. Zie onze projectpagina: https://anse-project.github.io/anse-project/
Hypothese-rangschikking is een cruciaal onderdeel van geautomatiseerde wetenschappelijke ontdekking, met name in de natuurwetenschappen waar natlab-experimenten kostbaar en doorvoerbeperkt zijn. Bestaande benaderingen richten zich op voorafgaande experimentele rangschikking, waarbij uitsluitend wordt vertrouwd op het interne redeneervermogen van grote taalmodellen zonder empirische resultaten van experimenten te incorporeren. Wij introduceren de taak van experiment-geleide rangschikking, die als doel heeft kandidaat-hypothesen te prioriteren op basis van de resultaten van eerder geteste hypothesen. Het ontwikkelen van dergelijke strategieën is echter uitdagend vanwege de onpraktische haalbaarheid van het herhaaldelijk uitvoeren van echte experimenten in natuurwetenschappelijke domeinen. Om dit aan te pakken, stellen we een simulator voor die gebaseerd is op drie domein-geïnformeerde aannames, waarbij de prestaties van hypothesen worden gemodelleerd als een functie van de gelijkenis met een bekende grondwaarheid-hypothese, verstoord door ruis. We hebben een dataset samengesteld van 124 chemie-hypothesen met experimenteel gerapporteerde uitkomsten om de simulator te valideren. Op basis van deze simulator ontwikkelen we een pseudo-experiment-geleide rangschikkingsmethode die hypothesen clustert op gedeelde functionele kenmerken en kandidaten prioriteert op basis van inzichten afgeleid van gesimuleerde experimentele feedback. Experimenten tonen aan dat onze methode beter presteert dan voorafgaande experimentele basislijnen en sterke ablatievarianten.
Grote Redeneermodellen (LRMs) blinken uit in complexe taken door gebruik te maken van Chain-of-Thought (CoT) redenering. Hun neiging tot overdenken leidt echter tot onnodig lange redeneerketens, wat de inferentiekosten aanzienlijk verhoogt. Om dit probleem te verlichten, introduceren we VeriThinker, een nieuwe aanpak voor CoT-compressie. In tegenstelling tot conventionele methoden die LRMs direct finetunen op de oorspronkelijke redeneertaak met behulp van synthetische, beknopte CoT-gegevens, finetunen wij het model innovatief uitsluitend via een aanvullende verificatietaak. Door LRMs te trainen om de correctheid van CoT-oplossingen nauwkeurig te verifiëren, worden de LRMs van nature kritischer over de noodzaak van vervolgstappen in zelfreflectie, waardoor overdenken effectief wordt onderdrukt. Uitgebreide experimenten valideren dat VeriThinker de lengte van redeneerketens aanzienlijk reduceert, terwijl de nauwkeurigheid behouden blijft of zelfs licht verbetert. Wanneer toegepast op DeepSeek-R1-Distill-Qwen-7B, reduceert onze aanpak het aantal redeneertokens op MATH500 van 3790 naar 2125, terwijl de nauwkeurigheid met 0,8% stijgt (van 94,0% naar 94,8%), en op AIME25 nemen de tokens af van 14321 naar 10287 met een nauwkeurigheidsverbetering van 2,1% (van 38,7% naar 40,8%). Daarnaast tonen onze experimenten aan dat VeriThinker ook zero-shot kan worden gegeneraliseerd naar speculatieve redenering. De code is beschikbaar op https://github.com/czg1225/VeriThinker.
Het begrijpen van visuele scènes is fundamenteel voor menselijke intelligentie. Hoewel discriminatieve modellen de computer vision aanzienlijk hebben gevorderd, hebben ze vaak moeite met compositioneel begrip. In tegenstelling hiermee blinken recente generatieve tekst-naar-beeld diffusiemodellen uit in het synthetiseren van complexe scènes, wat wijst op inherente compositionele capaciteiten. Hierop voortbouwend zijn zero-shot diffusieclassificatoren voorgesteld om diffusiemodellen in te zetten voor discriminatieve taken. Hoewel eerder onderzoek veelbelovende resultaten liet zien in discriminatieve compositionele scenario's, blijven deze resultaten voorlopig vanwege een beperkt aantal benchmarks en een relatief oppervlakkige analyse van de omstandigheden waaronder de modellen succesvol zijn. Om dit aan te pakken, presenteren we een uitgebreide studie van de discriminatieve capaciteiten van diffusieclassificatoren op een breed scala aan compositionele taken. Specifiek bestrijkt onze studie drie diffusiemodellen (SD 1.5, 2.0 en, voor het eerst, 3-m) over 10 datasets en meer dan 30 taken. Daarnaast belichten we de rol die de domeinen van de doeldatasets spelen in de respectievelijke prestaties; om de domeineffecten te isoleren, introduceren we een nieuwe diagnostische benchmark, Self-Bench, bestaande uit afbeeldingen die door diffusiemodellen zelf zijn gemaakt. Tot slot onderzoeken we het belang van timestep-weging en ontdekken we een relatie tussen domeinkloof en timestep-gevoeligheid, met name voor SD3-m. Kortom, diffusieclassificatoren begrijpen compositionaliteit, maar er zijn voorwaarden van toepassing! Code en dataset zijn beschikbaar op https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
Het genereren van hoogwaardige 3D-vormen met behulp van volumetrische representaties zoals Signed Distance Functions brengt aanzienlijke computationele en geheugenuitdagingen met zich mee. Wij introduceren Direct3D S2, een schaalbare 3D-generatieframework gebaseerd op sparse volumes dat superieure uitvoerkwaliteit bereikt met aanzienlijk gereduceerde trainingskosten. Onze belangrijkste innovatie is het Spatial Sparse Attention-mechanisme, dat de efficiëntie van Diffusion Transformer-berekeningen op sparse volumetrische data aanzienlijk verbetert. SSA stelt het model in staat om grote tokensets binnen sparse volumes effectief te verwerken, waardoor de computationele overhead aanzienlijk wordt verminderd en een 3,9x versnelling in de forward pass en een 9,6x versnelling in de backward pass wordt bereikt. Ons framework omvat ook een variational autoencoder die een consistente sparse volumetrische indeling handhaaft over de input-, latent- en outputfasen. In vergelijking met eerdere methoden met heterogene representaties in 3D VAE, verbetert dit uniforme ontwerp de trainings efficiëntie en stabiliteit aanzienlijk. Ons model is getraind op publiek beschikbare datasets, en experimenten tonen aan dat Direct3D S2 niet alleen state-of-the-art methoden overtreft in generatiekwaliteit en efficiëntie, maar ook training op 1024 resolutie mogelijk maakt met slechts 8 GPU's, een taak die normaal gesproken minstens 32 GPU's vereist voor volumetrische representaties op 256 resolutie, waardoor gigascale 3D-generatie zowel praktisch als toegankelijk wordt. Projectpagina: https://nju3dv.github.io/projects/Direct3D-S2/.
Retrieval-augmented generation (RAG)-systemen stellen grote taalmmodellen (LLMs) in staat om tijdens inferentie toegang te krijgen tot externe kennis. Recente vooruitgang heeft het mogelijk gemaakt dat LLMs als zoekagenten kunnen fungeren via reinforcement learning (RL), waardoor informatieverwerving wordt verbeterd door middel van meerronde interacties met retrievalsystemen. Bestaande benaderingen optimaliseren echter het retrievalproces met behulp van zoekgerichte metrieken (bijv. NDCG) die de downstream-nuttigheid negeren, of fine-tunen het gehele LLM om gezamenlijk te redeneren en te retrieven, wat retrieval verstrengelt met generatie en de werkelijke zoeknut en compatibiliteit met bevroren of propriëtaire modellen beperkt. In dit werk stellen we s3 voor, een lichtgewicht, model-agnostisch raamwerk dat de zoeker ontkoppelt van de generator en de zoeker traint met een Gain Beyond RAG-beloning: de verbetering in generatienauwkeurigheid ten opzichte van naïeve RAG. s3 vereist slechts 2,4k trainingsamples om baseline-modellen te overtreffen die zijn getraind op meer dan 70x zoveel data, en levert consequent betere downstream-prestaties op over zes algemene QA- en vijf medische QA-benchmarks.
Grote taalmodelen vertonen positionele bias — een systematische verwaarlozing van informatie op specifieke contextposities — maar de interactie ervan met taalkundige diversiteit blijft slecht begrepen. We presenteren een cross-linguïstische studie over vijf typologisch verschillende talen (Engels, Russisch, Duits, Hindi, Vietnamees), waarin we onderzoeken hoe positionele bias samenhangt met modelonzekerheid, syntaxis en prompting. Belangrijke bevindingen: (1) Positionele bias wordt gedreven door het model, met taal-specifieke variaties — Qwen2.5-7B geeft de voorkeur aan late posities, wat aannames over early-token bias uitdaagt; (2) Expliciete positionele begeleiding (bijv., de juiste context bevindt zich op positie X) vermindert de nauwkeurigheid over alle talen, wat prompt-engineeringpraktijken ondermijnt; (3) Het afstemmen van de context op positionele bias verhoogt de entropie, maar minimale entropie voorspelt niet de nauwkeurigheid. (4) We ontdekken verder dat LLMs op verschillende manieren een dominante woordvolgorde opleggen in talen met vrije woordvolgorde, zoals Hindi.
De snelle vooruitgang en uitbreidende toepassingen van Audio Large Language Models (ALLMs) vereisen een grondig begrip van hun betrouwbaarheid. Systematisch onderzoek naar de evaluatie van deze modellen, met name met betrekking tot risico's die uniek zijn voor de audiomodus, blijft echter grotendeels onontgonnen. Bestaande evaluatiekaders richten zich voornamelijk op de tekstmodus of behandelen slechts een beperkte set veiligheidsdimensies, waardoor ze onvoldoende rekening houden met de unieke kenmerken en toepassingsscenario's die inherent zijn aan de audiomodus. Wij introduceren AudioTrust - het eerste veelzijdige betrouwbaarheidsevaluatiekader en benchmark specifiek ontworpen voor ALLMs. AudioTrust maakt evaluaties mogelijk over zes belangrijke dimensies: eerlijkheid, hallucinatie, veiligheid, privacy, robuustheid en authenticatie. Om deze dimensies uitgebreid te evalueren, is AudioTrust gestructureerd rond 18 verschillende experimentele opstellingen. De kern ervan is een zorgvuldig samengestelde dataset van meer dan 4.420 audio/tekstmonsters, afkomstig uit realistische scenario's (bijv. dagelijkse gesprekken, noodoproepen, interacties met stemassistenten), specifiek ontworpen om de veelzijdige betrouwbaarheid van ALLMs te onderzoeken. Voor de beoordeling ontwerpt de benchmark 9 audio-specifieke evaluatiemetrics, en we gebruiken een grootschalige geautomatiseerde pijplijn voor objectieve en schaalbare scoring van modeloutputs. Experimentele resultaten onthullen de betrouwbaarheidsgrenzen en beperkingen van huidige state-of-the-art open-source en closed-source ALLMs wanneer ze worden geconfronteerd met verschillende hoogrisico-audioscenario's, wat waardevolle inzichten biedt voor de veilige en betrouwbare inzet van toekomstige audiomodellen. Ons platform en benchmark zijn beschikbaar op https://github.com/JusperLee/AudioTrust.
Het afstemmen van grote taalmodellen (LLM's) om hallucinaties nauwkeurig te detecteren blijft een aanzienlijke uitdaging vanwege de geavanceerde aard van gehallucineerde tekst. Erkennend dat gehallucineerde voorbeelden doorgaans een hogere misleidende kwaliteit vertonen dan traditionele negatieve voorbeelden, gebruiken we deze zorgvuldig geconstrueerde hallucinaties als negatieve voorbeelden in het DPO-afstemmingsproces. Onze methode integreert een curriculumlerenstrategie, waarbij de training geleidelijk overgaat van eenvoudigere voorbeelden, geïdentificeerd op basis van de grootste reductie in waarschijnlijkheidsscores van onafhankelijke feitencontrolemodellen, naar progressief moeilijkere voorbeelden. Deze gestructureerde moeilijkheidsgradatie zorgt voor stabiel en geleidelijk leren. Experimentele evaluatie toont aan dat onze HaluCheck-modellen, getraind met de curriculum DPO-aanpak en hoogwaardige negatieve voorbeelden, de modelprestaties aanzienlijk verbeteren op verschillende metrieken, met verbeteringen tot 24% op uitdagende benchmarks zoals MedHallu en HaluEval. Daarnaast tonen HaluCheck-modellen robuustheid in zero-shot-instellingen en presteren ze significant beter dan grotere state-of-the-art-modellen op verschillende benchmarks.
Grote Taalmodellen (LLMs) tonen indrukwekkende capaciteiten, maar missen robuuste temporele intelligentie en hebben moeite om redeneringen over het verleden te integreren met voorspellingen en plausibele generaties van de toekomst. Bestaande methoden richten zich doorgaans op geïsoleerde temporele vaardigheden, zoals het beantwoorden van vragen over gebeurtenissen uit het verleden of basisvoorspellingen, en vertonen slechte generalisatie, vooral bij gebeurtenissen buiten hun kennisafsnijdatum of wanneer creatief vooruitzien vereist is. Om deze beperkingen aan te pakken, introduceren we Time-R1, het eerste raamwerk dat een middelgroot LLM (3B parameters) uitrust met uitgebreide temporele vaardigheden: begrip, voorspelling en creatieve generatie. Onze aanpak kenmerkt zich door een nieuw drietraps ontwikkelingspad; de eerste twee fasen vormen een curriculum voor reinforcement learning (RL) dat wordt aangedreven door een zorgvuldig ontworpen dynamisch regelgebaseerd beloningssysteem. Dit raamwerk bouwt geleidelijk (1) fundamenteel temporeel begrip en logische gebeurtenis-tijdmappingen op basis van historische data op, (2) voorspellingsvaardigheden voor toekomstige gebeurtenissen buiten de kennisafsnijdatum, en maakt ten slotte (3) opmerkelijke generalisatie mogelijk naar creatieve generatie van toekomstige scenario's zonder enige fine-tuning. Opvallend is dat experimenten aantonen dat Time-R1 modellen die meer dan 200 keer groter zijn, waaronder het state-of-the-art 671B DeepSeek-R1, overtreft op zeer uitdagende benchmarks voor toekomstige gebeurtenisvoorspelling en creatieve scenariogeneratie. Dit werk levert sterk bewijs dat zorgvuldig ontworpen, progressieve RL fine-tuning kleinere, efficiënte modellen in staat stelt superieure temporele prestaties te bereiken, en biedt een praktische en schaalbare weg naar echt tijd-bewuste AI. Om verder onderzoek te bevorderen, geven we ook Time-Bench vrij, een grootschalige multi-task dataset voor temporeel redeneren afgeleid uit 10 jaar nieuwsdata, en onze reeks Time-R1 checkpoints.
Versterkt leren (Reinforcement Learning, RL) is naar voren gekomen als een effectieve methode voor het trainen van redeneermodellen. Bestaande RL-benaderingen beïnvloeden echter doorgaans de uitvoerverdeling van het model in de richting van beloning-maximaliserende paden zonder externe kennis te introduceren. Dit beperkt hun verkenningcapaciteit en resulteert in een smallere grens van redeneervermogen in vergelijking met basismodellen. Om deze beperking aan te pakken, stellen we TAPO (Thought-Augmented Policy Optimization) voor, een nieuw framework dat RL versterkt door het integreren van externe hoogwaardige begeleiding ("denkpatronen"). Door gestructureerde denkpatronen adaptief te integreren tijdens de training, balanceert TAPO effectief tussen modelinterne verkenning en externe begeleidingsbenutting. Uitgebreide experimenten tonen aan dat onze aanpak GRPO aanzienlijk overtreft met 99% op AIME, 41% op AMC en 17% op Minerva Math. Opmerkelijk is dat deze hoogwaardige denkpatronen, geabstraheerd uit slechts 500 eerdere voorbeelden, effectief generaliseren over verschillende taken en modellen. Dit benadrukt het potentieel van TAPO voor bredere toepassingen over meerdere taken en domeinen. Onze verdere analyse toont aan dat het introduceren van externe begeleiding krachtige redeneermodellen oplevert met superieure uitlegbaarheid van inferentiegedrag en verbeterde uitvoerleesbaarheid.
De snelle groei van spraakassistenten aangedreven door grote taalmodellen (LLM) heeft de behoefte aan spraakinstructiedata om deze systemen te trainen benadrukt. Ondanks de overvloed aan spraakherkenningsdata is er een opvallend tekort aan spraakinstructiedata, die essentieel is voor het finetunen van modellen om gesproken commando's te begrijpen en uit te voeren. Het genereren van hoogwaardige synthetische spraak vereist een goed tekst-naar-spraak (TTS) model, dat mogelijk niet beschikbaar is voor talen met beperkte bronnen. Onze nieuwe aanpak lost deze uitdaging op door de synthese te stoppen op het niveau van semantische representatie, waardoor de noodzaak voor TTS wordt omzeild. We bereiken dit door synthetische semantische representaties af te stemmen op de vooraf getrainde Whisper-encoder, waardoor een LLM kan worden gefinetuned op tekstinstructies terwijl het vermogen behouden blijft om gesproken instructies te begrijpen tijdens inferentie. Dit vereenvoudigde trainingsproces is een veelbelovende aanpak voor het bouwen van spraakassistenten voor talen met beperkte bronnen.
Front-end engineering omvat een complexe workflow waarbij ingenieurs ontwerpen conceptualiseren, deze omzetten in code en de implementatie iteratief verfijnen. Hoewel recente benchmarks zich voornamelijk richten op het omzetten van visuele ontwerpen naar code, presenteren wij FullFront, een benchmark die is ontworpen om Multimodale Grote Taalmodellen (MLLMs) te evalueren over de volledige front-end ontwikkelingspijplijn. FullFront beoordeelt drie fundamentele taken die direct aansluiten bij de front-end engineering pijplijn: Webpagina Ontwerp (conceptualisatiefase), Webpagina Perceptie QA (begrip van visuele organisatie en elementen), en Webpagina Code Generatie (implementatiefase). In tegenstelling tot bestaande benchmarks die gebruikmaken van geschraapte websites met opgeblazen code of oversimplified LLM-gegenereerde HTML, hanteert FullFront een nieuw, tweestaps proces om real-world webpagina's om te zetten in schone, gestandaardiseerde HTML terwijl diverse visuele ontwerpen behouden blijven en auteursrechtelijke kwesties worden vermeden. Uitgebreide tests van state-of-the-art MLLMs onthullen aanzienlijke beperkingen in paginaperceptie, codegeneratie (met name voor beeldverwerking en lay-out), en interactie-implementatie. Onze resultaten tonen kwantitatief prestatieverschillen tussen modellen en taken aan, en benadrukken een aanzienlijke kloof tussen de huidige MLLM-capaciteiten en de prestaties van menselijke experts in front-end engineering. De FullFront benchmark en code zijn beschikbaar op https://github.com/Mikivishy/FullFront.
De snelle vooruitgang van native multimodale modellen en omnimodellen, vertegenwoordigd door GPT-4o, Gemini en o3, met hun vermogen om inhoud te verwerken en genereren over verschillende modaliteiten zoals tekst en afbeeldingen, markeert een belangrijke mijlpaal in de evolutie van intelligentie. Systematische evaluatie van hun multimodale uitvoercapaciteiten in visuele denkprocessen (ook wel bekend als multimodale keten van denken, M-CoT) wordt van cruciaal belang. Echter, bestaande benchmarks voor het evalueren van multimodale modellen richten zich voornamelijk op het beoordelen van multimodale invoer en tekstueel redeneren, terwijl het belang van redeneren via multimodale uitvoer wordt verwaarloosd. In dit artikel presenteren we een benchmark, genaamd RBench-V, die is ontworpen om de visueel-onmisbare redeneervaardigheden van modellen te beoordelen. Om RBench-V te construeren, hebben we zorgvuldig 803 vragen geselecteerd die wiskunde, natuurkunde, tellen en spellen omvatten. In tegenstelling tot eerdere benchmarks die meestal bepaalde invoermodaliteiten specificeren, presenteert RBench-V problemen die gericht zijn op multimodale uitvoer, wat beeldmanipulatie vereist, zoals het genereren van nieuwe afbeeldingen en het construeren van hulplijnen om het redeneerproces te ondersteunen. We evalueren talrijke open- en closed-source modellen op RBench-V, waaronder o3, Gemini 2.5 Pro, Qwen2.5-VL, enz. Zelfs het best presterende model, o3, behaalt slechts een nauwkeurigheid van 25,8% op RBench-V, ver onder de menselijke score van 82,3%, wat aantoont dat huidige modellen moeite hebben om multimodaal redeneren te benutten. Data en code zijn beschikbaar op https://evalmodels.github.io/rbenchv.
Het herstellen van nachtelijke beelden die worden beïnvloed door meerdere ongunstige weersomstandigheden is een praktisch maar onderbelicht onderzoeksprobleem, aangezien meerdere weersomstandigheden vaak naast elkaar bestaan in de echte wereld, samen met verschillende lichteffecten 's nachts. Dit artikel onderzoekt eerst de uitdagende taak van het herstellen van nachtelijke beelden onder meerdere weersomstandigheden, waarbij verschillende soorten weersdegradaties verweven zijn met flare-effecten. Om het onderzoek te ondersteunen, dragen we de AllWeatherNight-dataset bij, die grootschalige hoogwaardige nachtelijke beelden bevat met diverse compositorische degradaties, gesynthetiseerd met behulp van onze geïntroduceerde illuminatiebewuste degradatiegeneratie. Bovendien presenteren we ClearNight, een uniform raamwerk voor het herstellen van nachtelijke beelden, dat complexe degradaties effectief in één keer verwijdert. Specifiek extraheert ClearNight Retinex-gebaseerde dubbele prioriteiten en leidt het netwerk expliciet om zich te concentreren op gebieden met ongelijkmatige verlichting en intrinsieke textuurinhoud, waardoor het herstel in nachtelijke scenario's wordt verbeterd. Om de gemeenschappelijke en unieke kenmerken van meerdere weersdegradaties beter te representeren, introduceren we een weersbewuste dynamische specific-commonality samenwerkingsmethode, die weersdegradaties identificeert en adaptief de optimale kandidaateenheden selecteert die geassocieerd zijn met specifieke weertypes. Onze ClearNight behaalt state-of-the-art prestaties op zowel synthetische als echte beelden. Uitgebreide ablatie-experimenten valideren de noodzaak van de AllWeatherNight-dataset evenals de effectiviteit van ClearNight. Projectpagina: https://henlyta.github.io/ClearNight/mainpage.html
Temporeel redeneren is cruciaal voor Large Language Models (LLMs) om de echte wereld te begrijpen. Bestaande werken negeren echter de uitdagingen in de echte wereld voor temporeel redeneren: (1) intensieve temporele informatie, (2) snel veranderende gebeurtenisdynamiek, en (3) complexe temporele afhankelijkheden in sociale interacties. Om deze kloof te overbruggen, stellen we een multi-level benchmark TIME voor, ontworpen voor temporeel redeneren in realistische scenario's. TIME bestaat uit 38.522 vraag-antwoordparen, verdeeld over 3 niveaus met 11 fijnmazige sub-taken. Deze benchmark omvat 3 sub-datasets die verschillende real-world uitdagingen weerspiegelen: TIME-Wiki, TIME-News, en TIME-Dial. We voeren uitgebreide experimenten uit op redeneermodellen en niet-redeneermodellen. Daarnaast hebben we een diepgaande analyse gemaakt van de prestaties van temporeel redeneren in diverse realistische scenario's en taken, en hebben we de impact van test-time schaling op temporele redeneervaardigheden samengevat. Bovendien brengen we TIME-Lite uit, een door mensen geannoteerde subset om toekomstig onderzoek en gestandaardiseerde evaluatie van temporeel redeneren te bevorderen. De code is beschikbaar op https://github.com/sylvain-wei/TIME, en de dataset is beschikbaar op https://huggingface.co/datasets/SylvainWei/TIME.
Reinforcement learning (RL) is een krachtige methode om foundation models aan te passen voor gespecialiseerde taken, maar de afhankelijkheid van grootschalige, door mensen gelabelde data beperkt de brede adoptie. Wij introduceren Synthetic Data RL, een eenvoudig en algemeen framework dat modellen reinforcement fine-tuned met uitsluitend synthetische data gegenereerd vanuit een taakdefinitie. Onze methode genereert eerst vraag- en antwoordparen vanuit de taakdefinitie en opgehaalde documenten, past vervolgens de moeilijkheidsgraad van de vraag aan op basis van de oplosbaarheid door het model, en selecteert vragen met behulp van het gemiddelde slagingspercentage van het model over verschillende steekproeven voor RL-training. Op Qwen-2.5-7B behaalt onze methode een absolute verbetering van 29,2% ten opzichte van het basismodel op GSM8K (+2,9 pp vs. instruction-tuned, +6,6 pp vs. Self-Instruct), 8,7% op MATH, 13,1% op GPQA (+7,0 pp vs. SynthLLM), 8,9% op MedQA, 17,7% op CQA (recht) en 13,7% op CFA (financiën). Het overtreft supervised fine-tuning binnen hetzelfde databudget en benadert RL met volledige menselijke data over verschillende datasets (bijv., +17,2 pp op GSM8K). Het toevoegen van 100 menselijke demonstraties verbetert de prestaties op GSM8K slechts met 0,4 pp, wat een beperkte meerwaarde aantoont. Door de annotatie van menselijke data te verminderen, maakt Synthetic Data RL schaalbare en efficiënte RL-gebaseerde modelaanpassing mogelijk. Code en demo's zijn beschikbaar op https://github.com/gydpku/Data_Synthesis_RL/.
Het aanleren van grote taalmodellen (LLMs) om trouw te blijven aan de gegeven context is cruciaal voor het bouwen van betrouwbare informatiezoekende systemen. Daarom stellen we een systematisch framework voor, CANOE, om de trouwheid van LLMs te verbeteren in zowel korte als lange generatietaken zonder menselijke annotaties. Specifiek synthetiseren we eerst korte vraag-antwoord (QA) gegevens met vier diverse taken om hoogwaardige en eenvoudig verifieerbare trainingsdata te construeren zonder menselijke annotatie. Daarnaast introduceren we Dual-GRPO, een op regels gebaseerde reinforcement learning-methode die drie op maat gemaakte, op regels gebaseerde beloningen omvat die zijn afgeleid van gesynthetiseerde korte QA-gegevens, terwijl tegelijkertijd zowel korte als lange responsgeneratie wordt geoptimaliseerd. Opmerkelijk is dat Dual-GRPO de noodzaak elimineert om voorkeursgegevens handmatig te labelen om beloningsmodellen te trainen en voorkomt dat korte generatie overmatig wordt geoptimaliseerd wanneer alleen wordt vertrouwd op de gesynthetiseerde korte QA-gegevens. Experimentele resultaten tonen aan dat CANOE de trouwheid van LLMs aanzienlijk verbetert over 11 verschillende downstream taken, en zelfs de meest geavanceerde LLMs overtreft, zoals GPT-4o en OpenAI o1.
Trinity-RFT is een algemeen toepasbaar, flexibel en schaalbaar raamwerk ontworpen voor reinforcement fine-tuning (RFT) van grote taalmodellen. Het is gebouwd met een ontkoppeld ontwerp, bestaande uit (1) een RFT-kern die synchrone/asynchrone, on-policy/off-policy en online/offline modi van RFT verenigt en generaliseert, (2) naadloze integratie voor agent-omgeving interactie met hoge efficiëntie en robuustheid, en (3) systematische datapijplijnen geoptimaliseerd voor RFT. Trinity-RFT kan eenvoudig worden aangepast voor diverse toepassingsscenario's en fungeert als een uniform platform voor het verkennen van geavanceerde reinforcement learning paradigma's. Dit technische rapport schetst de visie, kenmerken, ontwerp en implementaties van Trinity-RFT, vergezeld van uitgebreide voorbeelden die de bruikbaarheid en gebruiksvriendelijkheid van het voorgestelde raamwerk demonstreren.
We introduceren ScanBot, een nieuwe dataset ontworpen voor instructie-gestuurde, hoogprecisie oppervlaktescanning in robotsystemen. In tegenstelling tot bestaande robotleerdatasets die zich richten op grove taken zoals grijpen, navigatie of dialoog, richt ScanBot zich op de hoogprecisie-eisen van industriële laserscanning, waarbij submillimeter padcontinuïteit en parameterstabiliteit cruciaal zijn. De dataset omvat laserscanningtrajecten uitgevoerd door een robot over 12 diverse objecten en 6 taaktypen, waaronder volledige oppervlaktescans, geometrie-gerichte regio's, ruimtelijk gerefereerde onderdelen, functioneel relevante structuren, defectinspectie en vergelijkende analyse. Elke scan wordt geleid door natuurlijke taal-instructies en gekoppeld aan gesynchroniseerde RGB-, diepte- en laserprofielen, evenals robotpose en gewrichtstoestanden. Ondanks recente vooruitgang slagen bestaande vision-language action (VLA)-modellen er nog steeds niet in om stabiele scantrajecten te genereren onder fijnmazige instructies en real-world precisie-eisen. Om deze beperking te onderzoeken, benchmarken we een reeks multimodale grote taalmodellen (MLLMs) over de volledige perceptie-planning-uitvoeringslus, wat aanhoudende uitdagingen in instructievolging onder realistische beperkingen aan het licht brengt.
De snelle implementatie van vision-language modellen (VLMs) vergroot de veiligheidsrisico's, maar de meeste evaluaties zijn gebaseerd op kunstmatige afbeeldingen. Deze studie stelt de vraag: Hoe veilig zijn huidige VLMs wanneer ze worden geconfronteerd met meme-afbeeldingen die gewone gebruikers delen? Om deze vraag te onderzoeken, introduceren we MemeSafetyBench, een benchmark met 50.430 voorbeelden die echte meme-afbeeldingen koppelen aan zowel schadelijke als onschadelijke instructies. Met behulp van een uitgebreide veiligheidstaxonomie en LLM-gebaseerde instructiegeneratie evalueren we meerdere VLMs in zowel enkele als meervoudige interacties. We onderzoeken hoe memes uit de echte wereld schadelijke uitvoer beïnvloeden, de verzachtende effecten van conversatiecontext, en de relatie tussen modelschaal en veiligheidsmetingen. Onze bevindingen tonen aan dat VLMs kwetsbaarder zijn voor schadelijke prompts gebaseerd op memes dan voor synthetische of typografische afbeeldingen. Memes verhogen significant het aantal schadelijke reacties en verminderen weigeringen in vergelijking met tekstuele invoer. Hoewel meervoudige interacties gedeeltelijke mitigatie bieden, blijft de verhoogde kwetsbaarheid bestaan. Deze resultaten benadrukken de noodzaak van ecologisch valide evaluaties en sterkere veiligheidsmechanismen.
Ondanks recente vooruitgang in tekst-naar-beeld (T2I) generatie, hebben bestaande modellen vaak moeite om gebruikersintenties nauwkeurig vast te leggen vanuit korte en ondergespecificeerde prompts. Hoewel eerder werk heeft geprobeerd prompts te verbeteren met behulp van grote taalmodellen (LLMs), genereren deze methoden vaak stilistische of onrealistische inhoud vanwege onvoldoende verankering in visuele semantiek en real-world compositie. Geïnspireerd door recente ontwikkelingen in redenering voor taalmodellen, stellen we RePrompt voor, een nieuw reprompting-framework dat expliciete redenering introduceert in het prompt-verbeteringsproces via reinforcement learning. In plaats van te vertrouwen op handmatige regels of stilistische herschrijvingen, traint onze methode een taalmodel om gestructureerde, zelfreflecterende prompts te genereren door te optimaliseren voor beeldniveau-uitkomsten. De op maat gemaakte beloningsmodellen beoordelen de gegenereerde beelden op basis van menselijke voorkeur, semantische uitlijning en visuele compositie, wat indirecte supervisie biedt om de promptgeneratie te verfijnen. Onze aanpak maakt end-to-end training mogelijk zonder door mensen geannoteerde data. Experimenten op GenEval en T2I-Compbench laten zien dat RePrompt de trouw aan ruimtelijke lay-out en compositorische generalisatie aanzienlijk verbetert over diverse T2I-backbones, wat nieuwe state-of-the-art resultaten oplevert.
Grote taalmodellen worden doorgaans aangepast aan downstream taken door middel van supervised fine-tuning op domeinspecifieke data. Terwijl standaard fine-tuning zich richt op het minimaliseren van generatieverlies om modelparameters te optimaliseren, nemen wij een diepere stap door de eigen leer signalen van het model te behouden en te benutten, analoog aan hoe menselijke leerlingen reflecteren op eerdere fouten om toekomstige prestaties te verbeteren. We introduceren eerst het concept van een Foutenlogboek om het leer gedrag en terugkerende fouten van het model systematisch te volgen gedurende het fine-tuning proces. Door het oorspronkelijke transformer-gebaseerde model te behandelen als de Piloot, ontwerpen we een Copilot-model om de inferentieprestaties van de Piloot te verfijnen via logits-rectificatie. We noemen het algehele Piloot-Copilot raamwerk de Transformer Copilot, dat (i) een nieuw Copilot-model ontwerp introduceert, (ii) een gezamenlijk trainingsparadigma waarbij de Copilot continu leert van het evoluerende Foutenlogboek naast de Piloot, en (iii) een gefuseerd inferentieparadigma waarbij de Copilot de logits van de Piloot rectificeert voor verbeterde generatie. We bieden zowel theoretische als empirische analyses van ons nieuwe leerraamwerk. Experimenten op 12 benchmarks die common sense, rekenkundige en aanbevelingstaken omvatten, tonen aan dat Transformer Copilot de prestaties consistent verbetert met tot wel 34,5%, terwijl het slechts een marginale rekenkundige overhead introduceert voor Piloot-modellen en sterke schaalbaarheid en overdraagbaarheid vertoont.
We introduceren RIPT-VLA, een eenvoudig en schaalbaar reinforcement-learning-gebaseerd interactief post-trainingsparadigma dat vooraf getrainde Vision-Language-Action (VLA)-modellen verfijnt met alleen spaarzame binaire succesbeloningen. Bestaande VLA-trainingspijplijnen zijn sterk afhankelijk van offline expertdemonstratiedata en gesuperviseerde imitatie, wat hun vermogen beperkt om zich aan te passen aan nieuwe taken en omgevingen onder omstandigheden met weinig data. RIPT-VLA lost dit op door interactieve post-training mogelijk te maken met een stabiel beleidsoptimalisatie-algoritme gebaseerd op dynamische rollout-sampling en leave-one-out voordeelschatting. RIPT-VLA heeft de volgende kenmerken. Ten eerste is het toepasbaar op diverse VLA-modellen, wat resulteert in een verbetering van het lichtgewicht QueST-model met 21,2%, en het 7B OpenVLA-OFT-model naar een ongekend succespercentage van 97,5%. Ten tweede is het computationeel efficiënt en data-efficiënt: met slechts één demonstratie stelt RIPT-VLA een onwerkbaar SFT-model (4%) in staat om binnen 15 iteraties een succespercentage van 97% te behalen. Bovendien tonen we aan dat het door RIPT-VLA geleerde beleid generaliseert over verschillende taken en scenario’s en robuust is tegen de initiële staatcontext. Deze resultaten benadrukken RIPT-VLA als een praktisch en effectief paradigma voor het post-trainen van VLA-modellen met minimale supervisie.
Beheersbare videogeneratie (CVG) heeft een snelle vooruitgang geboekt, maar huidige systemen falen wanneer meer dan één acteur moet bewegen, interacteren en van positie wisselen onder ruisachtige controlesignalen. Wij pakken deze kloof aan met DanceTogether, het eerste end-to-end diffusieframework dat een enkele referentieafbeelding plus onafhankelijke pose-maskerstromen omzet in lange, fotorealistische video's, terwijl strikt elke identiteit behouden blijft. Een nieuwe MaskPoseAdapter verbindt "wie" en "hoe" bij elke denoisestap door robuuste trackingmaskers te fuseren met semantisch rijke maar ruisachtige pose-warmtekaarten, waardoor identiteitsdrift en uiterlijkvervaging die framegewijze pijplijnen teisteren, worden geëlimineerd. Om op grote schaal te trainen en te evalueren, introduceren we (i) PairFS-4K, 26 uur aan beelden van dubbele schaatsers met meer dan 7.000 verschillende ID's, (ii) HumanRob-300, een een uur durende set van humanoïde-robotinteracties voor snelle cross-domeinoverdracht, en (iii) TogetherVideoBench, een benchmark met drie sporen, gericht op de DanceTogEval-100 testset die dansen, boksen, worstelen, yoga en kunstschaatsen omvat. Op TogetherVideoBench presteert DanceTogether aanzienlijk beter dan de voorgaande technieken. Bovendien tonen we aan dat een een uur durende fine-tuning overtuigende mens-robotvideo's oplevert, wat de brede generalisatie naar embodied-AI en HRI-taken onderstreept. Uitgebreide ablatie-experimenten bevestigen dat persistente identiteits-actiebinding cruciaal is voor deze verbeteringen. Samen tillen ons model, datasets en benchmark CVG van enkelvoudige choreografie naar compositioneel beheersbare, multi-actorinteractie, wat nieuwe mogelijkheden opent voor digitale productie, simulatie en embodied intelligence. Onze videodemo's en code zijn beschikbaar op https://DanceTog.github.io/.
Policy gradient-algoritmen zijn met succes toegepast om de redeneervaardigheden van grote taalmodelen (LLMs) te verbeteren. Ondanks het wijdverbreide gebruik van Kullback-Leibler (KL)-regularisatie in policy gradient-algoritmen om de training te stabiliseren, biedt de systematische verkenning van hoe verschillende KL-divergentieformuleringen kunnen worden geschat en geïntegreerd in surrogaatverliesfuncties voor online reinforcement learning (RL) een genuanceerd en systematisch verkenningsgebied. In dit artikel stellen we regularized policy gradient (RPG) voor, een systematisch raamwerk voor het afleiden en analyseren van KL-geregulariseerde policy gradient-methoden in de online RL-setting. We leiden policy gradients en bijbehorende surrogaatverliesfuncties af voor doelen die zijn geregulariseerd door zowel voorwaartse als achterwaartse KL-divergenties, waarbij we zowel genormaliseerde als niet-genormaliseerde policy-distributies overwegen. Bovendien presenteren we afleidingen voor volledig differentieerbare verliesfuncties, evenals REINFORCE-stijl gradient-schatters, die diverse algoritmische behoeften accommoderen. We voeren uitgebreide experimenten uit op RL voor LLM-redenering met behulp van deze methoden, waarbij verbeterde of competitieve resultaten worden getoond op het gebied van trainingsstabiliteit en prestaties in vergelijking met sterke baselines zoals GRPO, REINFORCE++ en DAPO. De code is beschikbaar op https://github.com/complex-reasoning/RPG.
Recente vooruitgang in LLM-agents heeft grotendeels voortgebouwd op redeneerstructuren zoals ReAct, die gedachten en acties in complexe omgevingen verweven. Echter, ReAct produceert vaak ongegronde of onsamenhangende redeneerstappen, wat leidt tot een mismatch tussen de feitelijke staat van de agent en het doel. Onze analyse toont aan dat dit voortkomt uit het onvermogen van ReAct om consistente interne overtuigingen en doelafstemming te behouden, wat resulteert in opeenstapelende fouten en hallucinaties. Om dit aan te pakken, introduceren we ReflAct, een nieuwe redeneerstructuur die de focus verschuift van louter het plannen van volgende acties naar het continu reflecteren op de staat van de agent ten opzichte van zijn doel. Door beslissingen expliciet te verankeren in staten en voortdurende doelafstemming af te dwingen, verbetert ReflAct de strategische betrouwbaarheid aanzienlijk. Dit ontwerp levert aanzienlijke empirische verbeteringen op: ReflAct overtreft ReAct gemiddeld met 27,7% en behaalt een slagingspercentage van 93,3% in ALFWorld. Opmerkelijk is dat ReflAct zelfs beter presteert dan ReAct met toegevoegde verbeteringsmodules (bijv. Reflexion, WKM), wat aantoont dat het versterken van de kernredeneerstructuur essentieel is voor betrouwbare agentprestaties.
In dit artikel presenteren we een eenvoudige en efficiënte methode voor het trainen van waardemodellen op lange-context redeneersporen. In vergelijking met bestaande procesbeloningsmodellen (PRMs) vereist onze methode geen gedetailleerd begrip van "stap", wat moeilijk te definiëren is voor lange-context redeneermodellen. Door een dataset van 2,5 miljoen redeneersporen te verzamelen, trainen we een 1,5B token-niveau waardemodel en passen we dit toe op DeepSeek-modellen voor verbeterde prestaties met schaling van rekentijd tijdens testen. We ontdekken dat bloksgewijze waardegeleide zoektocht (VGS) met een gewogen meerderheidsstemming aan het einde betere schaling tijdens testen bereikt dan standaardmethoden zoals meerderheidsstemming of best-of-n. Met een inferentiebudget van 64 generaties bereikt VGS met DeepSeek-R1-Distill-1.5B een gemiddelde nauwkeurigheid van 45,7% over vier wiskundige benchmarkwedstrijden (AIME 2024 & 2025, HMMT feb 2024 & 2025), wat gelijk is aan o3-mini-medium. Bovendien vermindert VGS aanzienlijk de benodigde inferentie-FLOPs om dezelfde prestaties te bereiken als meerderheidsstemming. Onze dataset, model en codebase zijn open-source gemaakt.
Dit artikel presenteert een fascinerende ontdekking: door een auto-regressief LLM-model te trainen op tekst-tokens, ontwikkelt het tekstmodel van nature intern het vermogen om afbeeldingen en audio te begrijpen, waardoor het het vermogen ontwikkelt om te zien en te horen, simpelweg door te lezen. Populaire audio- en visuele LLM-modellen fine-tunen tekst-LLM-modellen om tekstuitvoer te genereren die is geconditioneerd op afbeeldingen en audio-embeddings. Aan de andere kant neemt onze architectuur patches van afbeeldingen, audiogolven of tokens als invoer. Het geeft ons de embeddings of categorielabels die typisch zijn voor een classificatiepijplijn. We tonen de algemeenheid van tekstgewichten aan bij het ondersteunen van audioclassificatie voor de datasets FSD-50K en GTZAN. Verder laten we zien dat dit werkt voor beeldclassificatie op CIFAR-10 en Fashion-MNIST, evenals op beeldpatches. Dit versterkt het idee dat tekst-LLM's krachtige interne circuits leren die kunnen worden benut door de nodige verbindingen te activeren voor verschillende toepassingen, in plaats van elke keer modellen vanaf nul te trainen.
Residuale verbindingen zijn cruciaal voor diepe neurale netwerken, omdat ze grotere diepte mogelijk maken door het probleem van verdwijnende gradiënten te verminderen. In standaard residuale updates wordt de uitvoer van de module echter direct opgeteld bij de invoerstroom. Dit kan leiden tot updates die voornamelijk de bestaande stroomrichting versterken of moduleren, waardoor de capaciteit van de module om volledig nieuwe kenmerken te leren mogelijk onderbenut blijft. In dit werk introduceren we de Orthogonale Residuale Update: we ontbinden de uitvoer van de module ten opzichte van de invoerstroom en voegen alleen de component toe die orthogonaal is aan deze stroom. Dit ontwerp heeft als doel modules te begeleiden om voornamelijk nieuwe representatierichtingen bij te dragen, wat rijkere kenmerklearning bevordert en tegelijkertijd efficiëntere training mogelijk maakt. We tonen aan dat onze orthogonale update-strategie de generalisatie-accuraatheid en trainingsstabiliteit verbetert over diverse architecturen (ResNetV2, Vision Transformers) en datasets (CIFARs, TinyImageNet, ImageNet-1k), en bijvoorbeeld een +4,3\%p top-1 accuraatheidswinst oplevert voor ViT-B op ImageNet-1k.
Naarmate grote taalmmodellen (LLMs) steeds vaker worden ingezet in gevoelige domeinen zoals bedrijven en overheden, is het cruciaal om ervoor te zorgen dat ze zich binnen de context houden aan door gebruikers gedefinieerde beveiligingsbeleidsregels—met name met betrekking tot het niet openbaren van informatie. Hoewel eerdere LLM-studies zich hebben gericht op algemene veiligheid en sociaal gevoelige gegevens, ontbreken er nog steeds grootschalige benchmarks voor het behoud van contextuele beveiliging tegen aanvallen. Om dit aan te pakken, introduceren we een nieuwe grootschalige benchmarkdataset, CoPriva, die de naleving van contextuele niet-openbaarmakingsbeleidsregels door LLMs evalueert in vraag-antwoordsituaties. Afgeleid van realistische contexten, bevat onze dataset expliciete beleidsregels en queries die zijn ontworpen als directe en uitdagende indirecte aanvallen die verboden informatie proberen te verkrijgen. We evalueren 10 LLMs op onze benchmark en onthullen een significante kwetsbaarheid: veel modellen overtreden door gebruikers gedefinieerde beleidsregels en lekken gevoelige informatie. Dit falen is vooral ernstig tegen indirecte aanvallen, wat een kritieke kloof in de huidige veiligheidsafstemming van LLMs voor gevoelige toepassingen benadrukt. Onze analyse toont aan dat modellen vaak het juiste antwoord op een query kunnen identificeren, maar moeite hebben om beleidsbeperkingen tijdens de generatie te integreren. Daarentegen vertonen ze een gedeeltelijk vermogen om uitvoer te herzien wanneer hier expliciet om wordt gevraagd. Onze bevindingen onderstrepen de dringende behoefte aan robuustere methoden om contextuele beveiliging te garanderen.
Recente ontwikkelingen zoals DeepSeek R1-Zero benadrukken de effectiviteit van incentive training, een reinforcement learning-paradigma dat beloningen berekent uitsluitend op basis van het eindantwoordgedeelte van de uitvoer van een taalmodel, waardoor de generatie van tussenliggende redeneerstappen wordt gestimuleerd. Deze methoden zijn echter fundamenteel afhankelijk van externe verifiers, wat hun toepasbaarheid beperkt tot domeinen zoals wiskunde en programmeren, waar dergelijke verifiers gemakkelijk beschikbaar zijn. Hoewel beloningsmodellen als verifiers kunnen dienen, vereisen ze hoogwaardige geannoteerde data en zijn ze kostbaar om te trainen. In dit werk stellen we NOVER voor, NO-VERifier Reinforcement Learning, een algemeen reinforcement learning- raamwerk dat alleen standaard supervised fine-tuning data vereist zonder de noodzaak van een externe verifier. NOVER maakt incentive training mogelijk voor een breed scala aan tekst-naar-tekst taken en overtreft het model van dezelfde grootte dat is gedistilleerd uit grote redeneermodellen zoals DeepSeek R1 671B met 7,7 procent. Bovendien maakt de flexibiliteit van NOVER nieuwe mogelijkheden mogelijk voor het optimaliseren van grote taalmodellen, zoals inverse incentive training.
Mixture-of-Experts (MoE) maakt efficiënte schaalvergroting van grote taalmodel- len (LLMs) mogelijk met spaarzaam geactiveerde experts tijdens inferentie. Om grote MoE-modellen effectief te implementeren op apparaten met beperkt geheugen, introduceren veel systemen *expert offloading*, waarbij een subset van experts in snel geheugen wordt gecachet, terwijl andere op langzaam geheugen blijven om op de CPU te draaien of op aanvraag te laden. Hoewel sommig onderzoek gebruik maakt van de localiteit van expertactivaties, waarbij opeenvolgende tokens vergelijkbare experts activeren, varieert de mate van deze **lokale routerings- consistentie** tussen modellen en blijft deze onderbelicht. In dit artikel stellen we twee metrieken voor om de lokale routeringsconsistentie van MoE- modellen te meten: (1) **Segment Routing Best Performance (SRP)**, dat evalueert hoe goed een vaste groep experts de behoeften van een segment tokens kan afdekken, en (2) **Segment Cache Best Hit Rate (SCH)**, dat de optimale cache- treffersnelheid op segmentniveau meet binnen een gegeven cachegrootte. We analyseerden 20 MoE LLMs met diverse formaten en architecturen en ontdekten dat modellen die MoE op elke laag toepassen en geen gedeelde experts gebruiken, de hoogste lokale routeringsconsistentie vertonen. We toonden verder aan dat domeingespecialiseerde experts meer bijdragen aan routeringsconsistentie dan vocabulairgespecialiseerde experts, en dat de meeste modellen een balans kunnen vinden tussen cache-effectiviteit en efficiëntie met cachegroottes van ongeveer 2x de actieve experts. Deze bevindingen bieden mogelijkheden voor geheugen- efficiënt MoE-ontwerp en -implementatie zonder in te leveren op inferentiesnel- heid. We publiceren de code voor het repliceren van experimenten op https:// github.com/ljcleo/moe-lrc.
Large Reasoning Models (LRMs) hebben opmerkelijke capaciteiten getoond in meerstaps redeneren en het op de juiste momenten aanroepen van zoekmachines. Echter, bestaande retrieval-augmented reasoning benaderingen vertrouwen op afzonderlijke retrieval-modellen, wat de rol van de LRM in retrieval beperkt tot het beslissen wanneer te retrieven en hoe te queryen. Deze scheiding verhoogt niet alleen de hardware- en operationele kosten, maar leidt ook tot fouten in het retrievalproces vanwege de representatiebottleneck, een fenomeen waarbij de embeddingruimte van de retriever niet expressief genoeg is om aan de eisen van de generator te voldoen. Om dit aan te pakken, verschuiven we ons perspectief van sequence-to-sequence matching naar het lokaliseren van antwoordbevattende paden binnen het corpus, en stellen we een nieuw framework voor genaamd FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). Dit framework stelt LRMs in staat om relevante kennis zelf te retrieven door zowel als generator als retriever op te treden. Om dit te bereiken, introduceren we een variant van het MCTS-algoritme gespecialiseerd voor de retrievaltaak, dat we CT-MCTS (Corpus- Traversing Monte Carlo Tree Search) noemen. In dit algoritme doorlopen LRMs het corpus richting antwoordbevattende regio's. Onze resultaten op vijf open-domain QA benchmarks, inclusief single-hop en multi-hop vragen, laten zien dat FREESON een gemiddelde verbetering van 14,4% in EM en F1 behaalt ten opzichte van vier meerstaps redeneermodellen met een aparte retriever, en het presteert ook vergelijkbaar met de sterkste baseline, die het met 3% overtreft op PopQA en 2WikiMultihopQA.
Iteratieve RAG voor meerstaps vraag-antwoordtaken wordt geconfronteerd met uitdagingen bij lange contexten en de ophoping van irrelevante informatie. Dit belemmert het vermogen van een model om opgehaalde inhoud te verwerken en erover te redeneren, en beperkt de prestaties. Hoewel recente methoden zich richten op het comprimeren van opgehaalde informatie, zijn ze ofwel beperkt tot eenmalige RAG, vereisen ze finetuning of missen ze schaalbaarheid in iteratieve RAG. Om deze uitdagingen aan te pakken, stellen we Notes Writing voor, een methode die op elk stap beknopte en relevante notities genereert uit opgehaalde documenten, waardoor ruis wordt verminderd en alleen essentiële informatie behouden blijft. Dit vergroot indirect de effectieve contextlengte van Large Language Models (LLMs), waardoor ze beter kunnen redeneren en plannen bij het verwerken van grotere hoeveelheden invoertekst. Notes Writing is framework-agnostisch en kan worden geïntegreerd met verschillende iteratieve RAG-methoden. We demonstreren de effectiviteit ervan met drie iteratieve RAG-methoden, over twee modellen en vier evaluatiedatasets. Notes Writing resulteert in een gemiddelde verbetering van 15,6 procentpunten in totaal, met een minimale toename van uitvoertokens.
Het verbeteren van de linguïstische capaciteiten van Large Language Models (LLMs) om ook talen met beperkte bronnen te omvatten, is een cruciaal onderzoeksgebied. Huidige onderzoeksrichtingen vertrouwen voornamelijk op synthetische data die gegenereerd wordt door Engelse corpora te vertalen, wat weliswaar veelbelovend linguïstisch begrip en vertaalvaardigheden laat zien, maar vaak resulteert in modellen die afgestemd zijn op de cultuur van de brontaal. Deze modellen slagen er vaak niet in om het culturele erfgoed en de waarden van lokale gemeenschappen te vertegenwoordigen. Dit werk stelt een methodologie voor om zowel synthetische als op retrieval gebaseerde pre-trainingsdata te creëren die afgestemd zijn op een specifieke gemeenschap, waarbij rekening wordt gehouden met (i) de taal, (ii) het culturele erfgoed en (iii) de culturele waarden. We demonstreren onze methodologie met behulp van Egyptische en Marokkaanse dialecten als testcases, gekozen vanwege hun linguïstische en culturele rijkdom en hun huidige ondervertegenwoordiging in LLMs. Als proof-of-concept ontwikkelen we NileChat, een LLM met 3B parameters dat is aangepast voor Egyptische en Marokkaanse gemeenschappen, waarbij hun taal, culturele erfgoed en waarden zijn geïntegreerd. Onze resultaten op diverse benchmarks voor begrip, vertaling, en culturele en waardenafstemming laten zien dat NileChat bestaande Arabisch-bewuste LLMs van vergelijkbare grootte overtreft en op gelijk niveau presteert met grotere modellen. We delen onze methoden, data en modellen met de gemeenschap om de inclusie en dekking van meer diverse gemeenschappen in LLM-ontwikkeling te bevorderen.
In dit artikel presenteren we FuxiMT, een nieuw Chinees-gecentreerd meertalig machinevertalingsmodel dat wordt aangedreven door een gesparseerd groot taalmodel (LLM). We hanteren een tweefasenstrategie om FuxiMT te trainen. Eerst pre-trainen we het model op een omvangrijk Chinees corpus en voeren vervolgens meertalige fine-tuning uit op een grote parallelle dataset die 65 talen omvat. FuxiMT integreert Mixture-of-Experts (MoEs) en maakt gebruik van een curriculumleerstrategie voor robuuste prestaties op verschillende niveaus van beschikbare bronnen. Experimentele resultaten tonen aan dat FuxiMT aanzienlijk beter presteert dan sterke baselines, waaronder state-of-the-art LLMs en machinevertalingsmodellen, met name in scenario's met beperkte bronnen. Bovendien vertoont FuxiMT opmerkelijke zero-shot vertaalcapaciteiten voor onbekende taalparen, wat wijst op het potentieel om communicatiekloof te overbruggen waar parallelle data schaars of niet beschikbaar zijn.
De novo peptide sequencing is een cruciale taak in de proteomica. De prestaties van huidige deep learning-gebaseerde methoden worden echter beperkt door de inherente complexiteit van massaspectrometriegegevens en de heterogene verdeling van ruissignalen, wat leidt tot data-specifieke vooroordelen. Wij presenteren RankNovo, het eerste deep reranking-framework dat de novo peptide sequencing verbetert door gebruik te maken van de complementaire sterke punten van meerdere sequencingmodellen. RankNovo maakt gebruik van een lijstgewijze herrangschikking, waarbij kandidaat-peptides worden gemodelleerd als meerdere sequentie-uitlijningen en axiale aandacht wordt gebruikt om informatieve kenmerken over kandidaten te extraheren. Daarnaast introduceren we twee nieuwe metrieken, PMD (Peptide Mass Deviation) en RMD (Residual Mass Deviation), die een verfijnde supervisie bieden door massaverschillen tussen peptides op zowel sequentie- als residuniveau te kwantificeren. Uitgebreide experimenten tonen aan dat RankNovo niet alleen zijn basismodellen overtreft die worden gebruikt om trainingskandidaten te genereren voor herrangschikkingspre-training, maar ook een nieuwe state-of-the-art benchmark vestigt. Bovendien vertoont RankNovo een sterke zero-shot generalisatie naar onbekende modellen waarvan de generaties niet tijdens de training zijn blootgesteld, wat de robuustheid en het potentieel als een universeel herrangschikkingsframework voor peptide sequencing benadrukt. Ons werk presenteert een nieuwe herrangschikkingsstrategie die de bestaande enkelmodelparadigma's fundamenteel uitdaagt en de grens van nauwkeurige de novo sequencing verlegt. Onze broncode is beschikbaar op GitHub.