HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

18 papers found

AgentFly: Het afstemmen van LLM-agenten zonder het afstemmen van LLM's
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Aug 22

ByHuichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

151

In dit artikel introduceren we een nieuw leerparadigma voor adaptieve Large Language Model (LLM)-agenten dat de noodzaak voor het finetunen van de onderliggende LLM's elimineert. Bestaande benaderingen zijn vaak rigide, waarbij ze vertrouwen op statische, handmatig gemaakte reflectiewerkstromen, of rekenintensief, omdat ze gradient-updates van LLM-modelparameters vereisen. In tegenstelling hiermee maakt onze methode goedkope continue aanpassing mogelijk via geheugen-gebaseerd online reinforcement learning. We formaliseren dit als een Memory-augmented Markov Decision Process (M-MDP), uitgerust met een neurale case-selectiebeleid om actiebeslissingen te sturen. Eerdere ervaringen worden opgeslagen in een episodisch geheugen, dat differentieerbaar of niet-parametrisch kan zijn. Het beleid wordt continu bijgewerkt op basis van omgevingsfeedback via een geheugenherschrijvingsmechanisme, terwijl beleidsverbetering wordt bereikt door efficiënt geheugenlezen (retrieval). We concretiseren ons agentmodel in de diepe onderzoekssetting, namelijk AgentFly, dat de top-1 positie behaalt op GAIA-validatie (87,88% Pass@3) en 79,40% op de testset. Het bereikt 66,6% F1 en 80,4% PM op de DeepResearcher-dataset, wat beter is dan de state-of-the-art trainingsgebaseerde methode, terwijl case-gebaseerd geheugen 4,7% tot 9,6% absolute punten toevoegt bij taken buiten de distributie. Onze benadering biedt een schaalbare en efficiënte weg voor het ontwikkelen van generalistische LLM-agenten die in staat zijn tot continue, real-time leren zonder gradient-updates, en brengt machine learning dichter bij open-ended vaardigheidsverwerving en diepe onderzoeksscenario's. De code is beschikbaar op https://github.com/Agent-on-the-Fly/AgentFly.

Voorbij Pass@1: Zelfspel met Variational Problem Synthesis Ondersteunt RLVR
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Aug 19

ByXiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

118

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is recentelijk naar voren gekomen als een belangrijk paradigma voor het na-trainen van Grote Taalmodellen (LLMs), met name voor complexe redeneertaken. Echter, standaard RLVR-training blijkt de Pass@1-prestatie te verbeteren ten koste van de entropie van het beleid, wat leidt tot verminderde generatiediversiteit en een beperking van de Pass@k-prestatie, die doorgaans de bovengrens van de redeneercapaciteit van LLMs vertegenwoordigt. In dit artikel analyseren we systematisch de generatiediversiteit van het beleid vanuit het perspectief van trainingsproblemen en ontdekken we dat het uitbreiden en updaten van trainingsproblemen helpt om entropie-instorting tijdens de training te verminderen. Op basis van deze observaties stellen we een online Self-play met Variational Problem Synthesis (SvS)-strategie voor voor RLVR-training, die de correcte oplossingen van het beleid gebruikt om variatieproblemen te synthetiseren terwijl wordt gegarandeerd dat hun referentieantwoorden identiek blijven aan de originelen. Deze zelfverbeterende strategie handhaaft effectief de entropie van het beleid tijdens de training en verbetert Pass@k aanzienlijk in vergelijking met standaard RLVR, waarbij langdurige verbeteringen worden behouden en absolute winsten van 18,3% en 22,8% worden behaald in Pass@32-prestaties op de competitieniveau AIME24- en AIME25-benchmarks. Experimenten op 12 redeneerbenchmarks over verschillende modelgroottes van 3B tot 32B tonen consistent de generaliseerbaarheid en robuustheid van SvS aan.

AgentScope 1.0: Een ontwikkelaarsgericht raamwerk voor het bouwen van agent-gebaseerde applicaties
AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

Aug 22

ByDawei Gao, Zitao Li, Yuexiang Xie, Weirui Kuang, Liuyi Yao, Bingchen Qian, Zhijian Ma, Yue Cui, Haohao Luo, Shen Li, Lu Yi, Yi Yu, Shiqi He, Zhiling Luo, Wenmeng Zhou, Zhicheng Zhang, Xuguang He, Ziqian Chen, Weikai Liao, Farruh Isakulovich Kushnazarov, Yaliang Li, Bolin Ding, Jingren Zhou

Gedreven door de snelle vooruitgang van Large Language Models (LLM's), worden agenten in staat gesteld om intrinsieke kennis te combineren met dynamisch gereedschapsgebruik, waardoor hun capaciteit om real-world taken aan te pakken aanzienlijk wordt verbeterd. In lijn met deze evolutie introduceert AgentScope belangrijke verbeteringen in een nieuwe versie (1.0), gericht op het uitgebreid ondersteunen van flexibele en efficiënte gereedschapsgebaseerde agent-omgeving interacties voor het bouwen van agentische applicaties. Specifiek abstraheren we fundamentele componenten die essentieel zijn voor agentische applicaties en bieden we uniforme interfaces en uitbreidbare modules, waardoor ontwikkelaars gemakkelijk gebruik kunnen maken van de nieuwste ontwikkelingen, zoals nieuwe modellen en MCP's. Bovendien verankeren we agentgedrag in het ReAct-paradigma en bieden we geavanceerde agent-level infrastructuur gebaseerd op een systematisch asynchroon ontwerp, wat zowel mens-agent als agent-agent interactiepatronen verrijkt terwijl de uitvoeringsefficiëntie wordt verbeterd. Op deze basis voortbouwend, integreren we verschillende ingebouwde agenten die zijn afgestemd op specifieke praktijkscenario's. AgentScope omvat ook robuuste technische ondersteuning voor een ontwikkelaarsvriendelijke ervaring. We bieden een schaalbaar evaluatiemodule met een visuele studio-interface, waardoor de ontwikkeling van lange-traject agentische applicaties beter beheersbaar en gemakkelijker te traceren wordt. Daarnaast biedt AgentScope een runtime sandbox om veilige agentuitvoering te garanderen en faciliteert het snelle implementatie in productieomgevingen. Met deze verbeteringen biedt AgentScope een praktische basis voor het bouwen van schaalbare, adaptieve en effectieve agentische applicaties.

ODYSSEY: Open-World Verkenning en Manipulatie door Viervoeters voor Langetermijntaken
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

Taalgestuurde mobiele manipulatie op lange termijn is al lang een grote uitdaging in belichaamd semantisch redeneren, generaliseerbare manipulatie en adaptieve voortbeweging. Drie fundamentele beperkingen belemmeren de vooruitgang: Ten eerste, hoewel grote taalmodellen ruimtelijk redeneren en taakplanning hebben verbeterd door middel van semantische voorkennis, blijven bestaande implementaties beperkt tot tafelscenario's, waardoor ze niet in staat zijn om de beperkte waarneming en beperkte actuatiebereiken van mobiele platforms aan te pakken. Ten tweede vertonen huidige manipulatietactieken onvoldoende generalisatie wanneer ze worden geconfronteerd met de diverse objectconfigaties die worden aangetroffen in open-wereldomgevingen. Ten derde, hoewel cruciaal voor praktische inzet, blijft de dubbele vereiste van het behouden van hoge platformmanoeuvreerbaarheid naast precieze eindeffectorcontrole in ongestructureerde omgevingen onderbelicht. In dit werk presenteren we ODYSSEY, een geïntegreerd mobiel manipulatieframework voor wendbare viervoetige robots uitgerust met manipulatoren, dat hoogwaardige taakplanning naadloos integreert met laagwaardige volledige lichaamscontrole. Om de uitdaging van egocentrische waarneming in taalgeconditioneerde taken aan te pakken, introduceren we een hiërarchische planner aangedreven door een visie-taalmodel, waardoor langetermijninstructiedecompositie en precieze actie-uitvoering mogelijk worden. Op het controle-niveau bereikt ons nieuwe volledige lichaamsbeleid robuuste coördinatie over uitdagende terreinen. We presenteren verder de eerste benchmark voor langetermijn mobiele manipulatie, waarbij diverse binnen- en buitenscenario's worden geëvalueerd. Door succesvolle sim-naar-real overdracht demonstreren we de generalisatie en robuustheid van het systeem in real-world inzet, wat de praktische bruikbaarheid van lopende manipulatoren in ongestructureerde omgevingen onderstreept. Ons werk bevordert de haalbaarheid van gegeneraliseerde robotassistenten die in staat zijn tot complexe, dynamische taken. Onze projectpagina: https://kaijwang.github.io/odyssey.github.io/

EgoTwin: Dromen van Lichaam en Perspectief in de Eerste Persoon
EgoTwin: Dreaming Body and View in First Person

Aug 18

ByJingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

Hoewel exocentrische videosynthese grote vooruitgang heeft geboekt, blijft egocentrische videogeneratie grotendeels onderbelicht, wat het modelleren van inhoud vanuit het eerste-persoonsperspectief vereist, samen met camerabewegingspatronen die worden veroorzaakt door de lichaamsbewegingen van de drager. Om deze kloof te overbruggen, introduceren we een nieuwe taak van gezamenlijke egocentrische video- en menselijke bewegingsgeneratie, gekenmerkt door twee belangrijke uitdagingen: 1) Viewpoint Alignment: de cameratrajecorie in de gegenereerde video moet nauwkeurig uitgelijnd zijn met de hoofdtrajectorie afgeleid van menselijke beweging; 2) Causale Interactie: de gesynthetiseerde menselijke beweging moet causaal uitgelijnd zijn met de waargenomen visuele dynamiek over aangrenzende videoframes. Om deze uitdagingen aan te pakken, stellen we EgoTwin voor, een gezamenlijk video-bewegingsgeneratiekader gebouwd op de diffusie-transformerarchitectuur. Specifiek introduceert EgoTwin een hoofdgerichte bewegingsrepresentatie die de menselijke beweging verankert aan het hoofdgewricht en incorporeert een cybernetisch geïnspireerd interactiemechanisme dat expliciet de causale interactie tussen video en beweging vastlegt binnen aandachtoperaties. Voor een uitgebreide evaluatie hebben we een grootschalige real-world dataset van gesynchroniseerde tekst-video-bewegingstripletten samengesteld en nieuwe metrieken ontworpen om de consistentie tussen video en beweging te beoordelen. Uitgebreide experimenten demonstreren de effectiviteit van het EgoTwin-kader.

CRISP: Aanhoudend Concept Vergeten via Sparse Autoencoders
CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Aug 19

ByTomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

Naarmate grote taalmmodellen (LLMs) steeds vaker worden ingezet in real-world toepassingen, is de noodzaak om ongewenste kennis selectief te verwijderen terwijl de bruikbaarheid van het model behouden blijft, van cruciaal belang geworden. Recent onderzoek heeft gesparse autoencoders (SAEs) verkend om precieze interventies uit te voeren op monosemantische kenmerken. De meeste op SAE gebaseerde methoden werken echter tijdens de inferentie, wat geen blijvende veranderingen in de parameters van het model creëert. Dergelijke interventies kunnen worden omzeild of teruggedraaid door kwaadwillende actoren met toegang tot de parameters. Wij introduceren CRISP, een parameter-efficiënte methode voor blijvend conceptvergeten met behulp van SAEs. CRISP identificeert automatisch belangrijke SAE-kenmerken over meerdere lagen en onderdrukt hun activeringen. We experimenteren met twee LLMs en laten zien dat onze methode eerdere benaderingen overtreft op veiligheidskritieke vergetentaken van de WMDP-benchmark, waarbij schadelijke kennis succesvol wordt verwijderd terwijl algemene en domeinspecifieke capaciteiten behouden blijven. Analyse op kenmerkniveau toont aan dat CRISP een semantisch coherente scheiding bereikt tussen doel- en goedaardige concepten, waardoor precieze onderdrukking van de doelkenmerken mogelijk wordt.

AetherCode: Het evalueren van het vermogen van LLM's om te winnen in toonaangevende programmeerwedstrijden
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Aug 22

ByZihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

Competitief programmeren is naar voren gekomen als een cruciale maatstaf voor het evalueren van de redeneer- en codeervaardigheden van Large Language Models (LLMs). Ondanks indrukwekkende vooruitgang op bestaande benchmarks, stellen wij dat huidige evaluaties de vaardigheid van modellen overschatten, waardoor een aanzienlijke kloof tussen LLMs en topmenselijke programmeurs verborgen blijft. Deze kloof ontstaat door twee belangrijke beperkingen: onvoldoende moeilijkheid en omvang van benchmarkproblemen, en evaluatiebias door testgevallen van lage kwaliteit. Om deze tekortkomingen aan te pakken, presenteren we AetherCode, een nieuwe benchmark die problemen haalt uit toonaangevende programmeerwedstrijden zoals IOI en ICPC, wat een bredere dekking en hogere moeilijkheidsgraad biedt. AetherCode integreert verder uitgebreide, door experts gevalideerde testsuites die zijn opgebouwd via een combinatie van automatische generatie en menselijke curatie, wat zorgt voor een rigoureuze en betrouwbare beoordeling. Door uitdagend probleemontwerp te combineren met robuuste evaluatie, biedt AetherCode een nauwkeuriger maatstaf voor de capaciteiten van LLMs en stelt het een nieuwe standaard voor toekomstig onderzoek in coderedenering.

End-to-End Training van een Agentisch RAG-systeem voor Traceerbare Diagnostische Redenering
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Aug 21

ByQiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

Nauwkeurige diagnose met medische grote taalmodellen wordt belemmerd door kennislacunes en hallucinaties. Retrieval- en tool-augmented methoden helpen, maar hun impact wordt beperkt door zwak gebruik van externe kennis en slechte traceerbaarheid van feedback-redeneringen. Om deze uitdagingen aan te pakken, introduceren we Deep-DxSearch, een agentisch RAG-systeem dat end-to-end is getraind met reinforcement learning (RL) en stuurbare, traceerbare retrieval-augmented redenering mogelijk maakt voor medische diagnose. In Deep-DxSearch construeren we eerst een grootschalig medisch retrieval-corpus bestaat uit patiëntendossiers en betrouwbare medische kennisbronnen om retrieval-bewuste redenering te ondersteunen in verschillende diagnosescenario's. Cruciaal is dat we het LLM framen als de kernagent en het retrieval-corpus als zijn omgeving, waarbij we gebruik maken van op maat gemaakte beloningen voor formaat, retrieval, redeneerstructuur en diagnosenauwkeurigheid, waardoor het agentische RAG-beleid evolueert vanuit grootschalige data via RL. Experimenten tonen aan dat ons end-to-end agentische RL-trainingsframework consistent beter presteert dan prompt-engineering en trainingsvrije RAG- benaderingen in meerdere datacenters. Na training behaalt Deep-DxSearch aanzienlijke verbeteringen in diagnosenauwkeurigheid, waarbij het sterke diagnostische baselines zoals GPT-4o, DeepSeek-R1 en andere medisch-specifieke frameworks overtreft voor zowel veelvoorkomende als zeldzame ziekten onder in-distributie en out-of-distributie omstandigheden. Bovendien bevestigen ablatiestudies over beloningsontwerp en retrieval-corpuscomponenten hun kritieke rollen, wat de uniciteit en effectiviteit van onze aanpak benadrukt in vergelijking met traditionele implementaties. Ten slotte belichten casestudies en interpreteerbaarheidsanalyses verbeteringen in het diagnostische beleid van Deep-DxSearch, wat dieper inzicht biedt in de prestatieverbeteringen en clinici ondersteunt bij het leveren van betrouwbaardere en preciezere voorlopige diagnoses. Zie https://github.com/MAGIC-AI4Med/Deep-DxSearch.

Selectief Contrastief Leren voor Zwak Gesuperviseerde Affordance Grounding
Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Aug 11

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

Het faciliteren van de interactie van een entiteit met objecten vereist het nauwkeurig identificeren van onderdelen die specifieke acties mogelijk maken. Weakly supervised affordance grounding (WSAG) probeert het menselijk leren van derde-persoonsdemonstraties na te bootsen, waarbij mensen intuïtief functionele onderdelen begrijpen zonder pixelniveau annotaties nodig te hebben. Om dit te bereiken, wordt grounding doorgaans geleerd met behulp van een gedeelde classificator over afbeeldingen vanuit verschillende perspectieven, samen met distillatiestrategieën die het proces van onderdeelontdekking incorporeren. Omdat affordance-relevante onderdelen echter niet altijd gemakkelijk te onderscheiden zijn, vertrouwen modellen voornamelijk op classificatie, waarbij ze vaak focussen op algemene klasse-specifieke patronen die niet gerelateerd zijn aan affordance. Om deze beperking aan te pakken, gaan we verder dan geïsoleerd onderdeelniveau leren door selectieve prototypische en pixel contrastieve doelen te introduceren die adaptief affordance-relevante signalen leren op zowel het onderdeel- als het objectniveau, afhankelijk van de granulariteit van de beschikbare informatie. Eerst identificeren we de actie-geassocieerde objecten in zowel egocentrische (objectgerichte) als exocentrische (derde-persoonsvoorbeeld) afbeeldingen door gebruik te maken van CLIP. Vervolgens graven we door kruisverwijzing van de ontdekte objecten van complementaire perspectieven de precieze onderdeelniveau affordance-aanwijzingen in elk perspectief uit. Door consistent te leren om affordance-relevante regio's te onderscheiden van affordance-irrelevante achtergrondcontext, verschuift onze aanpak effectief de activering van irrelevante gebieden naar betekenisvolle affordance-signalen. Experimentele resultaten tonen de effectiviteit van onze methode aan. Codes zijn beschikbaar op github.com/hynnsk/SelectiveCL.

Wat Doen? Vision-Taal-Actie Modellen Leren om het Onmogelijke te Weigeren
Do What? Teaching Vision-Language-Action Models to Reject the Impossible

Aug 22

ByWen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

Onlangs hebben Vision-Language-Action (VLA)-modellen sterke prestaties laten zien bij een reeks robotische taken. Deze modellen vertrouwen op multimodale invoer, waarbij taal-instructies een cruciale rol spelen – niet alleen bij het voorspellen van acties, maar ook bij het robuust interpreteren van gebruikersintenties, zelfs wanneer de verzoeken onuitvoerbaar zijn. In dit werk onderzoeken we hoe VLA's valse-premisse-instructies kunnen herkennen, interpreteren en erop reageren: natuurlijke taalcommando's die verwijzen naar objecten of omstandigheden die afwezig zijn in de omgeving. We stellen Instruct-Verify-and-Act (IVA) voor, een uniform raamwerk dat (i) detecteert wanneer een instructie niet kan worden uitgevoerd vanwege een valse premisse, (ii) taalgebaseerde verduidelijking of correctie toepast, en (iii) plausibele alternatieven verankert in perceptie en actie. Hiertoe construeren we een grootschalige instructie-afstemmingsopstelling met gestructureerde taalprompts en trainen we een VLA-model dat zowel nauwkeurige als foutieve verzoeken kan verwerken. Onze aanpak maakt gebruik van een contextueel verrijkte, semi-synthetische dataset met gepaarde positieve en valse-premisse-instructies, wat robuuste detectie en natuurlijke taalcorrectie mogelijk maakt. Onze experimenten tonen aan dat IVA de nauwkeurigheid van valse-premisse-detectie met 97,56% verbetert ten opzichte van baseline-methoden, terwijl het aantal succesvolle reacties in valse-premisse-scenario's met 50,78% toeneemt.

Distilled-3DGS: Gedistilleerde 3D Gaussische Splatting
Distilled-3DGS:Distilled 3D Gaussian Splatting

Aug 19

ByLintao Xiang, Xinkai Chen, Jianhuang Lai, Guangcong Wang

3D Gaussian Splatting (3DGS) heeft opmerkelijke effectiviteit getoond bij het synthetiseren van nieuwe aanzichten (NVS). Het heeft echter een belangrijk nadeel: het bereiken van hoogwaardige rendering vereist doorgaans een groot aantal 3D Gaussians, wat resulteert in aanzienlijk geheugenverbruik en opslagbehoeften. Om deze uitdaging aan te pakken, stellen we het eerste kennisdistillatiekader voor 3DGS voor, met verschillende leraarmodellen, waaronder standaard 3DGS, varianten met ruisaugmentatie en versies met dropout-regularisatie. De uitvoer van deze leraren wordt geaggregeerd om de optimalisatie van een lichtgewicht studentmodel te begeleiden. Om de verborgen geometrische structuur te distilleren, stellen we een structurele gelijkenisverliesfunctie voor om de consistentie van ruimtelijke geometrische verdelingen tussen het student- en leraarmodel te verbeteren. Door uitgebreide kwantitatieve en kwalitatieve evaluaties over diverse datasets, bereikt het voorgestelde Distilled-3DGS, een eenvoudig maar effectief kader zonder overbodige toevoegingen, veelbelovende renderresultaten in zowel renderkwaliteit als opslagefficiëntie in vergelijking met state-of-the-art methoden. Projectpagina: https://distilled3dgs.github.io. Code: https://github.com/lt-xiang/Distilled-3DGS.

TPLA: Tensor Parallel Latent Attention voor Efficiënte Gedisaggregeerde Prefill- en Decode-Inferentie
TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill \& Decode Inference

Aug 21

ByXiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang

Multi-Head Latent Attention (MLA), geïntroduceerd in DeepSeek-V2, comprimeert key-value states naar een low-rank latent vector, waarbij alleen deze vector wordt gecached om geheugen te besparen. In tensor-parallelisme (TP) worden aandachtskoppen echter berekend over meerdere apparaten, en elk apparaat moet de volledige cache laden, wat het voordeel van MLA ten opzichte van Grouped Query Attention (GQA) ondermijnt. Wij stellen Tensor-Parallel Latent Attention (TPLA) voor: een methode die zowel de latenterepresentatie als de invoerdimensie van elke kop verdeelt over apparaten, onafhankelijk aandacht uitvoert per shard, en vervolgens de resultaten combineert met een all-reduce. TPLA behoudt de voordelen van een gecomprimeerde KV-cache terwijl het de efficiëntie van TP benut. In tegenstelling tot Grouped Latent Attention (GLA) maakt elke kop in TPLA nog steeds gebruik van de volledige latenterepresentatie, waardoor een sterkere representatiecapaciteit behouden blijft. TPLA is direct compatibel met modellen die zijn voorgetraind met MLA: het ondersteunt MLA-style prefilling en maakt efficiënte tensor-parallelle decodering mogelijk zonder hertraining. Het toepassen van eenvoudige orthogonale transformaties — zoals de Hadamard-transformatie of PCA — vóór TP-slicing vermindert verder de interferentie tussen shards, wat resulteert in minimale nauwkeurigheidsvermindering. Door de per-apparaat KV-cache te verkleinen voor DeepSeek-V3 en Kimi-K2, behalen we respectievelijk 1,79x en 1,93x versnellingen bij een contextlengte van 32K tokens, terwijl de prestaties op commonsense- en LongBench-benchmarks behouden blijven. TPLA kan worden geïmplementeerd met FlashAttention-3, wat praktische end-to-end versnelling mogelijk maakt.

Sketch3DVE: Sketch-gebaseerde 3D-bewuste scènevideo-bewerking
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

Aug 19

ByFeng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao

Recente methoden voor videobewerking behalen aantrekkelijke resultaten in stijloverdracht of uiterlijkmodificatie. Het bewerken van de structurele inhoud van 3D-scènes in video's blijft echter een uitdaging, vooral bij significante veranderingen in het gezichtspunt, zoals grote camerarotaties of zooms. Belangrijke uitdagingen zijn het genereren van nieuwe weergave-inhoud die consistent blijft met de originele video, het behouden van onbewerkte regio's en het vertalen van spaarse 2D-invoer naar realistische 3D-videoresultaten. Om deze problemen aan te pakken, stellen we Sketch3DVE voor, een op schetsen gebaseerde 3D-bewuste videobewerkingsmethode die gedetailleerde lokale manipulatie van video's met significante veranderingen in het gezichtspunt mogelijk maakt. Om de uitdaging van spaarse invoer op te lossen, gebruiken we beeldbewerkingsmethoden om bewerkte resultaten voor het eerste frame te genereren, die vervolgens worden doorgevoerd naar de resterende frames van de video. We gebruiken schetsen als interactietool voor precieze geometriebesturing, terwijl ook andere op maskers gebaseerde beeldbewerkingsmethoden worden ondersteund. Om veranderingen in het gezichtspunt te hanteren, voeren we een gedetailleerde analyse en manipulatie uit van de 3D-informatie in de video. Specifiek gebruiken we een dichte stereomethode om een puntenwolk en de cameraparameters van de invoervideo te schatten. Vervolgens stellen we een puntenwolkbewerkingsmethode voor die dieptekaarten gebruikt om de 3D-geometrie van nieuw bewerkte componenten weer te geven, waardoor ze effectief worden uitgelijnd met de originele 3D-scène. Om de nieuw bewerkte inhoud naadloos te integreren met de originele video terwijl de kenmerken van onbewerkte regio's worden behouden, introduceren we een 3D-bewuste maskerpropagatiestrategie en gebruiken we een videodiffusiemodel om realistische bewerkte video's te produceren. Uitgebreide experimenten tonen de superioriteit van Sketch3DVE in videobewerking aan. Homepage en code: http://geometrylearning.com/Sketch3DVE/

InMind: Evaluatie van LLM's in het Vastleggen en Toepassen van Individuele Menselijke Redeneerstijlen
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

Aug 22

ByZizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

LLM's hebben sterke prestaties getoond op mensgerichte redeneertaken. Hoewel eerdere evaluaties hebben onderzocht of LLM's intenties kunnen afleiden of bedrog kunnen detecteren, wordt vaak over het hoofd gezien dat individuele redeneerstijlen van invloed zijn op hoe mensen sociale contexten interpreteren en erin handelen. Sociale deductiespellen (SDG's) bieden een natuurlijke testomgeving voor het evalueren van individuele redeneerstijlen, waarbij verschillende spelers onder identieke omstandigheden diverse maar contextueel geldige redeneerstrategieën kunnen toepassen. Om dit aan te pakken, introduceren we InMind, een cognitief onderbouwd evaluatiekader dat is ontworpen om te beoordelen of LLM's gepersonaliseerde redeneerstijlen in SDG's kunnen vastleggen en toepassen. InMind verrijkt gestructureerde speldata met rondegewijze strategietraces en post-game reflecties, verzameld onder zowel Observer- als Participant-modi. Het ondersteunt vier cognitief gemotiveerde taken die gezamenlijk zowel statische afstemming als dynamische aanpassing evalueren. Als casestudy passen we InMind toe op het spel Avalon, waarbij we 11 state-of-the-art LLM's evalueren. Algemene LLM's, zelfs GPT-4o, vertrouwen vaak op lexicale signalen en hebben moeite om reflecties te verankeren in tijdgebonden gameplay of zich aan te passen aan evoluerende strategieën. Daarentegen tonen redenering-versterkte LLM's zoals DeepSeek-R1 vroege tekenen van stijlgevoelig redeneren. Deze bevindingen onthullen belangrijke beperkingen in de huidige capaciteit van LLM's voor geïndividualiseerd, adaptief redeneren, en positioneren InMind als een stap in de richting van cognitief afgestemde mens-AI-interactie.

Learnable SMPLify: Een Neurale Oplossing voor Optimalisatievrije Inverse Kinematica van Menselijke Houdingen
Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

Aug 19

ByYuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun

In 3D menselijke houding en vormschatting blijft SMPLify een robuuste basislijn die inverse kinematica (IK) oplost via iteratieve optimalisatie. De hoge rekenkosten beperken echter de praktische toepasbaarheid. Recente vooruitgang in verschillende domeinen heeft aangetoond dat het vervangen van iteratieve optimalisatie door data-gedreven neurale netwerken aanzienlijke snelheidsverbeteringen kan bereiken zonder in te leveren op nauwkeurigheid. Geïnspireerd door deze trend stellen we Learnable SMPLify voor, een neuraal raamwerk dat het iteratieve aanpassingsproces in SMPLify vervangt door een eenmalig regressiemodel. Het ontwerp van ons raamwerk richt zich op twee kernuitdagingen in neurale IK: dataconstructie en generalisatie. Om effectieve training mogelijk te maken, stellen we een temporele steekproefstrategie voor die initialisatie-doelparen construeert uit sequentiële frames. Om de generalisatie over diverse bewegingen en onbekende houdingen te verbeteren, introduceren we een mensgerichte normalisatieschema en residueel leren om de oplossingsruimte te verkleinen. Learnable SMPLify ondersteunt zowel sequentiële inferentie als plug-in nabewerking om bestaande beeldgebaseerde schatters te verfijnen. Uitgebreide experimenten tonen aan dat onze methode zich vestigt als een praktische en eenvoudige basislijn: het bereikt bijna 200x snellere uitvoeringstijden vergeleken met SMPLify, generaliseert goed naar onbekende 3DPW en RICH, en opereert op een model-agnostische manier wanneer het wordt gebruikt als een plug-in tool op LucidAction. De code is beschikbaar op https://github.com/Charrrrrlie/Learnable-SMPLify.

CARFT: Verbetering van LLM-redenering via contrastief leren met geannoteerde Chain-of-Thought-gebaseerde versterkte fine-tuning
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

Aug 21

ByWenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

Redeneervermogen speelt een uiterst cruciale rol in de brede toepassingen van Large Language Models (LLMs). Om het redeneervermogen van LLMs te verbeteren, zijn diverse Reinforcement Learning (RL)-gebaseerde fine-tuning benaderingen voorgesteld om de beperkte generalisatiecapaciteit van LLMs die uitsluitend via Supervised Fine-Tuning (SFT) zijn getraind, aan te pakken. Ondanks hun effectiviteit belemmeren twee belangrijke beperkingen de vooruitgang van LLMs. Ten eerste negeren standaard RL-gebaseerde benaderingen geannoteerde Chain-of-Thought (CoT) en incorporeren ze instabiele redeneerpad-sampling, wat typisch resulteert in modelinstorting, een instabiel trainingsproces en suboptimale prestaties. Ten tweede benadrukken bestaande SFT-benaderingen over het algemeen de geannoteerde CoT te sterk, wat mogelijk leidt tot prestatievermindering door onvoldoende benutting van potentiële CoT. In dit artikel stellen we een Contrastive learning met geannoteerde CoT-gebaseerde Reinforced Fine-Tuning benadering voor, genaamd , om het redeneervermogen van LLMs te verbeteren en tegelijkertijd de bovengenoemde beperkingen aan te pakken. Specifiek stellen we voor om een representatie voor elke CoT te leren. Op basis van deze representatie ontwerpen we nieuwe contrastieve signalen om het fine-tuning proces te begeleiden. Onze benadering benut niet alleen de beschikbare geannoteerde CoT volledig, maar stabiliseert ook het fine-tuning proces door een extra onbewaakt leersignaal te incorporeren. We voeren uitgebreide experimenten en diepgaande analyses uit met drie baseline-benaderingen, twee foundation-modellen en twee datasets om de significante voordelen van aan te tonen op het gebied van robuustheid, prestaties (tot 10,15\%) en efficiëntie (tot 30,62\%). Code is beschikbaar op https://github.com/WNQzhu/CARFT.

RotaTouille: Rotatie-equivariant diep leren voor contouren
RotaTouille: Rotation Equivariant Deep Learning for Contours

Aug 22

ByOdin Hoff Gardaa, Nello Blaser

Contouren of gesloten vlakke krommen komen veel voor in verschillende domeinen. Ze verschijnen bijvoorbeeld als objectgrenzen in computervisie, isolijnen in de meteorologie en de banen van roterende machines. In veel gevallen, wanneer er wordt geleerd van contourgegevens, zullen vlakke rotaties van de invoer resulteren in overeenkomstig geroteerde uitvoer. Het is daarom wenselijk dat deep learning-modellen rotatie-equivariant zijn. Bovendien worden contouren doorgaans weergegeven als een geordende reeks randpunten, waarbij de keuze van het startpunt willekeurig is. Het is daarom ook wenselijk dat deep learning-methoden equivariant zijn onder cyclische verschuivingen. Wij presenteren RotaTouille, een deep learning-framework voor het leren van contourgegevens dat zowel rotatie- als cyclische verschuiving-equivariantie bereikt door middel van complexwaardige circulaire convolutie. We introduceren en karakteriseren verder equivariante niet-lineariteiten, verruwingslagen en globale pooling-lagen om invariante representaties te verkrijgen voor downstream taken. Tot slot demonstreren we de effectiviteit van RotaTouille via experimenten in vormclassificatie, reconstructie en contourregressie.

Jailbreaken van commerciële black-box LLM's met expliciet schadelijke prompts
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Aug 14

ByChiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

Het evalueren van jailbreak-aanvallen is uitdagend wanneer prompts niet expliciet schadelijk zijn of geen schadelijke outputs veroorzaken. Helaas bevatten veel bestaande red-teaming-datasets dergelijke ongeschikte prompts. Om aanvallen nauwkeurig te evalueren, moeten deze datasets worden beoordeeld en opgeruimd op kwaadaardigheid. Bestaande methoden voor het detecteren van kwaadaardige inhoud zijn echter afhankelijk van handmatige annotatie, wat arbeidsintensief is, of van grote taalmodelen (LLM's), die inconsistente nauwkeurigheid hebben bij het herkennen van schadelijke typen. Om een balans te vinden tussen nauwkeurigheid en efficiëntie, stellen we een hybride evaluatieraamwerk voor genaamd MDH (Malicious content Detection based on LLMs with Human assistance) dat LLM-gebaseerde annotatie combineert met minimale menselijke controle, en passen we dit toe op het opruimen van datasets en het detecteren van jailbroken reacties. Bovendien ontdekken we dat goed geformuleerde ontwikkelaarsberichten het succes van jailbreaks aanzienlijk kunnen vergroten, wat ons ertoe brengt twee nieuwe strategieën voor te stellen: D-Attack, dat gebruikmaakt van contextsimulatie, en DH-CoT, dat gekaapte gedachteketens incorporeert. De codes, datasets, beoordelingen en detectieresultaten zullen worden vrijgegeven in de GitHub-repository: https://github.com/AlienZhang1996/DH-CoT.

ODYSSEY: Open-World Verkenning en Manipulatie door Viervoeters voor Langetermijntaken
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen