AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Versterkend Leren voor Redeneren in Grote Taalmodellen met Eén Trainingsvoorbeeld
Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Apr 29

ByYiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen

We tonen aan dat reinforcement learning met verifieerbare beloning met één trainingsvoorbeeld (1-shot RLVR) effectief is in het stimuleren van de wiskundige redeneervaardigheden van grote taalmodellen (LLMs). Door RLVR toe te passen op het basismodel Qwen2.5-Math-1.5B, identificeren we een enkel voorbeeld dat de modelprestatie op MATH500 verhoogt van 36,0% naar 73,6%, en de gemiddelde prestatie over zes veelgebruikte wiskundige redeneerbenchmarks verbetert van 17,6% naar 35,7%. Dit resultaat komt overeen met de prestatie die wordt behaald met de 1,2k DeepScaleR subset (MATH500: 73,6%, gemiddeld: 35,9%), die het bovengenoemde voorbeeld omvat. Soortgelijke substantiële verbeteringen worden waargenomen over verschillende modellen (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-algoritmen (GRPO en PPO), en verschillende wiskundige voorbeelden (waarvan vele een verbetering van ongeveer 30% of meer op MATH500 opleveren wanneer ze als enkel trainingsvoorbeeld worden gebruikt). Daarnaast identificeren we enkele interessante fenomenen tijdens 1-shot RLVR, waaronder cross-domein generalisatie, een verhoogde frequentie van zelfreflectie, en een aanhoudende verbetering van de testprestatie zelfs nadat de trainingsnauwkeurigheid verzadigd is, een fenomeen dat we post-saturatie generalisatie noemen. Bovendien verifiëren we dat de effectiviteit van 1-shot RLVR voornamelijk voortkomt uit het policy gradient verlies, wat het onderscheidt van het "grokking" fenomeen. We tonen ook de cruciale rol aan van het bevorderen van exploratie (bijvoorbeeld door het toevoegen van entropieverlies met een geschikte coëfficiënt) in 1-shot RLVR training. Als bonus observeren we dat het toepassen van entropieverlies alleen, zonder enige uitkomstbeloning, de prestatie van Qwen2.5-Math-1.5B op MATH500 aanzienlijk verbetert met 27,4%. Deze bevindingen kunnen toekomstig werk over RLVR data-efficiëntie inspireren en een heronderzoek stimuleren van zowel recente vooruitgang als de onderliggende mechanismen in RLVR. Onze code, model en data zijn open source op https://github.com/ypwang61/One-Shot-RLVR.

De Leiderbordillusie
The Leaderboard Illusion

Apr 29

ByShivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

Het meten van voortgang is fundamenteel voor de vooruitgang van elk wetenschappelijk vakgebied. Naarmate benchmarks een steeds centralere rol spelen, worden ze ook gevoeliger voor vertekening. Chatbot Arena is uitgegroeid tot het belangrijkste scorebord voor het rangschikken van de meest capabele AI-systemen. Toch identificeren we in dit werk systematische problemen die hebben geleid tot een vervormd speelveld. We constateren dat niet-openbaar gemaakte privétestpraktijken een handjevol aanbieders bevoordelen die meerdere varianten kunnen testen vóór openbare release en scores kunnen intrekken indien gewenst. We stellen vast dat de mogelijkheid van deze aanbieders om de beste score te kiezen leidt tot bevooroordeelde Arena-scores vanwege selectieve openbaarmaking van prestatieresultaten. In het uiterste geval identificeren we 27 privé-LLM-varianten die door Meta zijn getest in de aanloop naar de Llama-4-release. We stellen ook vast dat propriëtaire gesloten modellen vaker worden bemonsterd (aantal gevechten) en minder vaak uit de arena worden verwijderd dan open-weight en open-source alternatieven. Beide beleidsmaatregelen leiden op termijn tot grote asymmetrieën in data-toegang. Aanbieders zoals Google en OpenAI hebben naar schatting respectievelijk 19,2% en 20,4% van alle data op de arena ontvangen. Daarentegen hebben 83 open-weight modellen samen slechts naar schatting 29,7% van de totale data ontvangen. We laten zien dat toegang tot Chatbot Arena-data aanzienlijke voordelen oplevert; zelfs beperkte aanvullende data kan leiden tot relatieve prestatieverbeteringen van tot wel 112% op de arena-distributie, gebaseerd op onze conservatieve schattingen. Samen resulteren deze dynamieken in overfitting aan Arena-specifieke dynamieken in plaats van algemene modelkwaliteit. De Arena bouwt voort op de aanzienlijke inspanningen van zowel de organisatoren als een open community die dit waardevolle evaluatieplatform in stand houdt. We bieden actiegerichte aanbevelingen om het evaluatiekader van de Chatbot Arena te hervormen en eerlijkere, transparantere benchmarking voor het vakgebied te bevorderen.

UniversalRAG: Retrieval-Augmented Generatie over Meerdere Corpora met Diverse Modaliteiten en Granulariteiten
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

Apr 29

ByWoongyeong Yeo, Kangsan Kim, Soyeong Jeong, Jinheon Baek, Sung Ju Hwang

Retrieval-Augmented Generation (RAG) heeft aanzienlijke belofte getoond in het verbeteren van feitelijke nauwkeurigheid door modelreacties te verankeren met externe kennis die relevant is voor de queries. De meeste bestaande RAG-benaderingen zijn echter beperkt tot een tekstcorpus, en hoewel recente inspanningen RAG hebben uitgebreid naar andere modaliteiten zoals afbeeldingen en video's, werken ze doorgaans over een enkel modaliteitsspecifiek corpus. In tegenstelling hiermee variëren real-world queries sterk in het type kennis dat ze vereisen, wat een enkel type kennisbron niet kan adresseren. Om dit aan te pakken, introduceren we UniversalRAG, een nieuw RAG-framework ontworpen om kennis te halen en te integreren uit heterogene bronnen met diverse modaliteiten en granulariteiten. Specifiek, gemotiveerd door de observatie dat het forceren van alle modaliteiten in een uniforme representatieruimte afgeleid van een enkel gecombineerd corpus een modaliteitskloof veroorzaakt, waarbij de retrieval de neiging heeft om items te bevoordelen van dezelfde modaliteit als de query, stellen we een modaliteitsbewust routeringsmechanisme voor dat dynamisch het meest geschikte modaliteitsspecifieke corpus identificeert en gerichte retrieval daarbinnen uitvoert. Daarnaast organiseren we, naast modaliteit, elke modaliteit in meerdere granulariteitsniveaus, waardoor fijn afgestemde retrieval mogelijk wordt die is toegesneden op de complexiteit en reikwijdte van de query. We valideren UniversalRAG op 8 benchmarks die meerdere modaliteiten omvatten, en tonen de superioriteit ervan aan ten opzichte van modaliteitsspecifieke en uniforme baseline-methoden.

ReasonIR: Retrievers trainen voor redeneertaken
ReasonIR: Training Retrievers for Reasoning Tasks

Apr 29

ByRulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer

We presenteren ReasonIR-8B, de eerste retriever die specifiek is getraind voor algemene redeneertaken. Bestaande retrievers hebben beperkte vooruitgang geboekt bij redeneertaken, deels omdat bestaande trainingsdatasets zich richten op korte feitelijke vragen die gekoppeld zijn aan documenten die deze vragen rechtstreeks beantwoorden. We ontwikkelen een synthetische datageneratiepijplijn die voor elk document een uitdagende en relevante vraag genereert, samen met een plausibel gerelateerd maar uiteindelijk onbruikbaar hard negatief. Door te trainen op een mix van onze synthetische data en bestaande openbare data, bereikt ReasonIR-8B een nieuwe state-of-the-art van 29,9 nDCG@10 zonder reranker en 36,9 nDCG@10 met reranker op BRIGHT, een veelgebruikte benchmark voor informatieverwerking (IR) die intensief redeneren vereist. Wanneer toegepast op RAG-taken, verbetert ReasonIR-8B de prestaties op MMLU en GPQA met respectievelijk 6,4% en 22,6% ten opzichte van de closed-book baseline, en overtreft daarbij andere retrievers en zoekmachines. Daarnaast gebruikt ReasonIR-8B rekentijd tijdens de testfase effectiever: op BRIGHT neemt de prestaties consistent toe bij langere en informatie-rijkere herschreven vragen; het blijft andere retrievers overtreffen wanneer gecombineerd met een LLM-reranker. Ons trainingsrecept is algemeen en kan eenvoudig worden uitgebreid naar toekomstige LLM's; om dit te faciliteren, maken we onze code, data en model openbaar.

Naar evaluatief denken: Meta Policy Optimization met evoluerende beloningsmodellen
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Apr 28

ByZae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang

Beloningsgebaseerde uitlijningsmethoden voor grote taalmmodellen (LLMs) kampen met twee belangrijke beperkingen: kwetsbaarheid voor reward hacking, waarbij modellen misbruik maken van fouten in het beloningssignaal; en afhankelijkheid van broze, arbeidsintensieve prompt engineering wanneer LLMs worden gebruikt als beloningsmodellen. We introduceren Meta Policy Optimization (MPO), een raamwerk dat deze uitdagingen aanpakt door een meta-beloningsmodel te integreren dat de prompt van het beloningsmodel dynamisch verfijnt tijdens de training. In MPO houdt het meta-beloningsmodel de evoluerende trainingscontext in de gaten en past het continu de prompt van het beloningsmodel aan om een hoge uitlijning te behouden, waardoor een adaptief beloningssignaal ontstaat dat weerstand biedt tegen exploitatie door het beleid. Deze meta-leerbenadering bevordert een stabielere beleidsoptimalisatie en vermindert de noodzaak voor handmatig ontwerp van beloningsprompts aanzienlijk. Het levert prestaties die vergelijkbaar zijn met of beter dan modellen die worden geleid door uitgebreid handmatig gemaakte beloningsprompts. Bovendien tonen we aan dat MPO zijn effectiviteit behoudt over diverse taken, zoals vraagbeantwoording en wiskundig redeneren, zonder gespecialiseerde beloningsontwerpen te vereisen. Bovenop standaard RLAIF is de meta-leerformulering van MPO gemakkelijk uitbreidbaar naar hogere uitlijningsraamwerken. Over het algemeen lost deze methode theoretische en praktische uitdagingen op in beloningsgebaseerde RL-uitlijning voor LLMs, en opent het de weg voor robuustere en aanpasbaardere uitlijningsstrategieën. De code en modellen zullen openbaar worden gedeeld.

TesserAct: Het leren van 4D belichaamde wereldmodellen
TesserAct: Learning 4D Embodied World Models

Apr 29

ByHaoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan

Dit artikel presenteert een effectieve aanpak voor het leren van nieuwe 4D belichaamde wereldmodellen, die de dynamische evolutie van 3D-scènes in de tijd voorspellen als reactie op de acties van een belichaamde agent, waarbij zowel ruimtelijke als temporele consistentie wordt geboden. Wij stellen voor om een 4D wereldmodel te leren door te trainen op RGB-DN (RGB, Diepte en Normaal) video's. Dit overtreft niet alleen traditionele 2D-modellen door gedetailleerde vorm, configuratie en temporele veranderingen in hun voorspellingen op te nemen, maar stelt ons ook in staat om nauwkeurige inverse dynamische modellen voor een belichaamde agent effectief te leren. Specifiek breiden we eerst bestaande datasets voor robotmanipulatievideo's uit met diepte- en normaalinformatie door gebruik te maken van standaardmodellen. Vervolgens fine-tunen we een videogeneratiemodel op deze geannoteerde dataset, dat gezamenlijk RGB-DN (RGB, Diepte en Normaal) voor elk frame voorspelt. Daarna presenteren we een algoritme om gegenereerde RGB-, Diepte- en Normaalvideo's direct om te zetten in een hoogwaardige 4D-scène van de wereld. Onze methode zorgt voor temporele en ruimtelijke samenhang in 4D-scènevoorspellingen uit belichaamde scenario's, maakt nieuwe weergavesynthese mogelijk voor belichaamde omgevingen, en vergemakkelijkt beleidsleren dat aanzienlijk beter presteert dan dat afgeleid van eerdere videogebaseerde wereldmodellen.

In-Context Bewerking: Het mogelijk maken van instructiegestuurde beeldbewerking met in-context generatie in grootschalige diffusie-transformers
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

Apr 29

ByZechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang

Instructie-gebaseerde beeldbewerking maakt robuuste beeldmodificatie mogelijk via natuurlijke taalprompts, maar huidige methoden kampen met een afweging tussen precisie en efficiëntie. Fine-tuning methoden vereisen aanzienlijke rekenbronnen en grote datasets, terwijl trainingsvrije technieken moeite hebben met instructiebegrip en bewerkingskwaliteit. Wij lossen dit dilemma op door gebruik te maken van de verbeterde generatiecapaciteit en het inherente contextuele bewustzijn van grootschalige Diffusion Transformers (DiT). Onze oplossing introduceert drie bijdragen: (1) een in-context bewerkingsframework voor zero-shot instructienaleving met behulp van in-context prompting, zonder structurele wijzigingen; (2) een LoRA-MoE hybride afstemmingsstrategie die flexibiliteit vergroot met efficiënte aanpassing en dynamische expertroutering, zonder uitgebreide hertraining; en (3) een vroege filter inferentie-tijd schalingsmethode met behulp van vision-language modellen (VLMs) om betere initiële ruis vroegtijdig te selecteren, wat de bewerkingskwaliteit verbetert. Uitgebreide evaluaties tonen de superioriteit van onze methode aan: het overtreft state-of-the-art benaderingen terwijl het slechts 0,5% trainingsdata en 1% trainbare parameters vereist in vergelijking met conventionele referentiemethoden. Dit werk vestigt een nieuw paradigma dat hoogprecisie en toch efficiënte instructiegeleide bewerking mogelijk maakt. Codes en demo's zijn te vinden op https://river-zhang.github.io/ICEdit-gh-pages/.

X-Fusion: Introductie van een nieuwe modaliteit voor bevroren grote taalmodellen
X-Fusion: Introducing New Modality to Frozen Large Language Models

Apr 29

BySicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li

We stellen X-Fusion voor, een raamwerk dat vooraf getrainde Large Language Models (LLMs) uitbreidt voor multimodale taken terwijl hun taalvaardigheden behouden blijven. X-Fusion maakt gebruik van een dual-tower ontwerp met modality-specifieke gewichten, waarbij de parameters van de LLM bevroren blijven terwijl visie-specifieke informatie wordt geïntegreerd voor zowel begrip als generatie. Onze experimenten tonen aan dat X-Fusion consistent beter presteert dan alternatieve architecturen bij zowel beeld-naar-tekst als tekst-naar-beeld taken. We ontdekken dat het opnemen van data gericht op begrip de generatiekwaliteit verbetert, het verminderen van ruis in beelddata de algehele prestaties verhoogt, en feature alignment de convergentie versnelt voor kleinere modellen maar een minimaal effect heeft op grotere. Onze bevindingen bieden waardevolle inzichten voor het bouwen van efficiënte, verenigde multimodale modellen.

RAGEN: Zelfevolutie in LLM-agents begrijpen via multi-turn reinforcement learning
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Apr 24

ByZihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li

Het trainen van grote taalmodellen (LLMs) als interactieve agents brengt unieke uitdagingen met zich mee, waaronder besluitvorming op lange termijn en interactie met stochastische omgevingsfeedback. Hoewel reinforcement learning (RL) vooruitgang heeft geboekt in statische taken, blijft multi-turn agent RL-training onderbelicht. Wij stellen StarPO (State-Thinking-Actions-Reward Policy Optimization) voor, een algemeen raamwerk voor trajectniveau agent RL, en introduceren RAGEN, een modulair systeem voor het trainen en evalueren van LLM-agents. Onze studie in drie gestileerde omgevingen onthult drie kernbevindingen. Ten eerste toont onze agent RL-training een terugkerend patroon van de Echo Trap, waarbij sprake is van reward-variantiekliffen en gradientpieken; wij pakken dit aan met StarPO-S, een gestabiliseerde variant met trajectfiltering, critic-incorporatie en ontkoppelde clipping. Ten tweede constateren wij dat het vormgeven van RL-rollouts baat zou hebben bij diverse initiële staten, gemiddelde interactiegranulariteit en frequentere sampling. Ten derde tonen wij aan dat zonder fijnmazige, redeneringsbewuste reward-signalen, agentredenering nauwelijks naar voren komt via multi-turn RL en zij oppervlakkige strategieën of gehallucineerde gedachten kunnen vertonen. Code en omgevingen zijn beschikbaar op https://github.com/RAGEN-AI/RAGEN.

Gecertificeerde beperking van het ergste geval van auteursrechtinbreuk door LLM's
Certified Mitigation of Worst-Case LLM Copyright Infringement

Apr 22

ByJingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi

De blootstelling van grote taalmodellen (LLMs) aan auteursrechtelijk beschermd materiaal tijdens de voorafgaande training roept zorgen op over onbedoelde inbreuk op auteursrechten na implementatie. Dit heeft geleid tot de ontwikkeling van "copyright takedown"-methoden, benaderingen na de training die gericht zijn op het voorkomen dat modellen inhoud genereren die sterk lijkt op auteursrechtelijk beschermd materiaal. Hoewel de huidige mitigatiebenaderingen enigszins effectief zijn voor gemiddelde risico's, tonen we aan dat ze de ergst denkbare auteursrechtenrisico's over het hoofd zien, die blijken uit het bestaan van lange, letterlijke citaten uit auteursrechtelijk beschermde bronnen. We stellen BloomScrub voor, een opmerkelijk eenvoudige maar zeer effectieve benadering tijdens de inferentie die gecertificeerde verwijdering van auteursrechtelijk beschermd materiaal biedt. Onze methode combineert herhaaldelijk citatendetectie met herschrijftechnieken om mogelijk inbreukmakende segmenten te transformeren. Door gebruik te maken van efficiënte gegevensschetsen (Bloom-filters), maakt onze aanpak schaalbare screening op auteursrechten mogelijk, zelfs voor grootschalige, real-world corpora. Wanneer citaten die een bepaalde lengtedrempel overschrijden niet kunnen worden verwijderd, kan het systeem ervoor kiezen om niet te reageren, wat gecertificeerde risicovermindering biedt. Experimentele resultaten tonen aan dat BloomScrub het risico op inbreuk vermindert, de bruikbaarheid behoudt en zich aanpast aan verschillende niveaus van handhavingsstrengheid met adaptieve onthouding. Onze resultaten suggereren dat lichtgewicht methoden tijdens de inferentie verrassend effectief kunnen zijn voor het voorkomen van auteursrechtelijke inbreuk.

YoChameleon: Gepersonaliseerde Visuele en Taalgeneratie
YoChameleon: Personalized Vision and Language Generation

Apr 29

ByThao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li

Grote Multimodale Modellen (bijv. GPT-4, Gemini, Chameleon) zijn geëvolueerd tot krachtige tools met miljoenen gebruikers. Toch blijven het generieke modellen die geen gepersonaliseerde kennis hebben van specifieke gebruikersconcepten. Eerder werk heeft personalisatie voor tekstgeneratie onderzocht, maar het is nog onduidelijk hoe deze methoden kunnen worden aangepast aan nieuwe modaliteiten, zoals beeldgeneratie. In dit artikel introduceren we Yo'Chameleon, de eerste poging om personalisatie voor grote multimodale modellen te bestuderen. Gegeven 3-5 afbeeldingen van een specifiek concept, benut Yo'Chameleon soft-prompt tuning om onderwerp-specifieke informatie in te bedden om (i) vragen over het onderwerp te beantwoorden en (ii) pixel-level details na te bootsen om afbeeldingen van het onderwerp in nieuwe contexten te produceren. Yo'Chameleon wordt getraind met (i) een zelf-prompting optimalisatiemechanisme om de prestaties over meerdere modaliteiten in balans te brengen, en (ii) een "soft-positive" beeldgeneratiebenadering om de beeldkwaliteit te verbeteren in een few-shot setting.

ISDrama: Immersieve Ruimtelijke Drama Generatie via Multimodale Prompting
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

Apr 29

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao

Multimodale immersieve ruimtelijke dramageneratie richt zich op het creëren van continue binaurale spraak met dramatische prosodie op basis van multimodale prompts, met potentiële toepassingen in AR, VR en andere domeinen. Deze taak vereist het gelijktijdig modelleren van ruimtelijke informatie en dramatische prosodie op basis van multimodale invoer, met hoge kosten voor gegevensverzameling. Voor zover wij weten, is ons werk de eerste poging om deze uitdagingen aan te pakken. We construeren MRSDrama, de eerste multimodale opgenomen ruimtelijke dramadataset, die binaurale drama-audio’s, scripts, video’s, geometrische poses en tekstuele prompts bevat. Vervolgens stellen we ISDrama voor, het eerste immersieve ruimtelijke dramageneratiemodel via multimodale prompting. ISDrama bestaat uit deze primaire componenten: 1) Multimodale Pose Encoder, gebaseerd op contrastief leren, waarbij rekening wordt gehouden met het Doppler-effect veroorzaakt door bewegende sprekers om uniforme pose-informatie uit multimodale prompts te extraheren. 2) Immersive Drama Transformer, een flow-based mamba-transformer model dat hoogwaardig drama genereert, waarbij Drama-MOE wordt gebruikt om geschikte experts te selecteren voor verbeterde prosodie en pose-controle. We ontwerpen ook een context-consistente classifier-free guidance strategie om coherent volledig drama te genereren. Experimentele resultaten tonen aan dat ISDrama baseline-modellen overtreft op zowel objectieve als subjectieve metrieken. De demo’s en dataset zijn beschikbaar op https://aaronz345.github.io/ISDramaDemo.

Leerbare verklaarbare dichte beloningsvormen via Bayesiaanse optimalisatie
Learning Explainable Dense Reward Shapes via Bayesian Optimization

Apr 22

ByRyan Koo, Ian Yang, Vipul Raheja, Mingyi Hong, Kwang-Sung Jun, Dongyeop Kang

Huidige pijplijnen voor reinforcement learning met menselijke feedback (RLHF) voor de afstemming van grote taalmodelen (LLM) kennen doorgaans scalaire beloningen toe aan sequenties, waarbij het laatste token wordt gebruikt als een surrogaatindicator voor de kwaliteit van de hele sequentie. Dit leidt echter tot schaarse feedback en suboptimale toewijzing van credits op tokenniveau. In dit werk formuleren we beloningsvorming als een optimalisatieprobleem gericht op de toewijzing van credits op tokenniveau. We stellen een beloningsvormingsfunctie voor die gebruikmaakt van verklaarbaarheidsmethoden zoals SHAP en LIME om per-token beloningen te schatten vanuit het beloningsmodel. Om de parameters van deze vormingsfunctie te leren, gebruiken we een bi-level optimalisatieraamwerk dat Bayesiaanse optimalisatie en beleidstraining integreert om ruis van de tokenbeloningsschattingen te hanteren. Onze experimenten tonen aan dat het bereiken van een betere balans in de toewijzing van beloningen op tokenniveau leidt tot prestatieverbeteringen ten opzichte van basislijnen bij downstream taken en een optimaal beleid sneller vindt tijdens de training. Bovendien tonen we theoretisch aan dat verklaarbaarheidsmethoden die functies zijn voor additieve attributie van kenmerken, het optimale beleid behouden als de oorspronkelijke beloning.

Identiteit Ontwarren, Emotie Samenwerken: Correlatiebewuste Generatie van Emotionele Sprekende Portretten
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

Apr 25

ByWeipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu

Recente vooruitgang in Talking Head Generation (THG) heeft indrukwekkende lipsynchronisatie en visuele kwaliteit bereikt dankzij diffusiemodellen; toch hebben bestaande methoden moeite om emotioneel expressieve portretten te genereren terwijl de sprekersidentiteit behouden blijft. We identificeren drie kritieke beperkingen in de huidige generatie van emotionele pratende hoofden: onvoldoende benutting van de inherente emotionele signalen in audio, identiteitslekkage in emotierepresentaties, en geïsoleerd leren van emotiecorrelaties. Om deze uitdagingen aan te pakken, stellen we een nieuw framework voor, genaamd DICE-Talk, dat het idee volgt om identiteit van emotie te ontwarren en vervolgens emoties met vergelijkbare kenmerken samen te laten werken. Ten eerste ontwikkelen we een ontwarde emotie-embedder die audiovisuele emotionele signalen gezamenlijk modelleert via cross-modale aandacht, waarbij emoties worden weergegeven als identiteits-agnostische Gaussische verdelingen. Ten tweede introduceren we een correlatie-versterkte emotieconditioneringsmodule met leerbare Emotiebanken die inter-emotierelaties expliciet vastleggen via vectorquantisatie en aandacht-gebaseerde kenmerkaggregatie. Ten derde ontwerpen we een emotiediscriminatiedoelstelling die affectieve consistentie tijdens het diffusieproces afdwingt via latent-ruimteclassificatie. Uitgebreide experimenten op de MEAD- en HDTF-datasets tonen de superioriteit van onze methode aan, waarbij state-of-the-art benaderingen worden overtroffen in emotie-nauwkeurigheid terwijl competitieve lip-sync-prestaties worden behouden. Kwalitatieve resultaten en gebruikersstudies bevestigen verder het vermogen van onze methode om identiteit-behoudende portretten te genereren met rijke, gecorreleerde emotionele uitdrukkingen die zich natuurlijk aanpassen aan onbekende identiteiten.

CaRL: Schaalbaar planningsbeleid leren met eenvoudige beloningen
CaRL: Learning Scalable Planning Policies with Simple Rewards

Apr 24

ByBernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

We onderzoeken reinforcement learning (RL) voor geprivilegieerd plannen in autonoom rijden. State-of-the-art benaderingen voor deze taak zijn regelgebaseerd, maar deze methoden schalen niet goed naar de lange staart. RL daarentegen is schaalbaar en heeft geen last van cumulatieve fouten zoals imitation learning. Hedendaagse RL-benaderingen voor rijden gebruiken complexe vormgegeven beloningen die meerdere individuele beloningen optellen, zoals voortgang, positie of oriëntatiebeloningen. We laten zien dat PPO er niet in slaagt om een populaire versie van deze beloningen te optimaliseren wanneer de mini-batchgrootte wordt vergroot, wat de schaalbaarheid van deze benaderingen beperkt. In plaats daarvan stellen we een nieuw beloningsontwerp voor dat voornamelijk is gebaseerd op het optimaliseren van een enkele intuïtieve beloningsterm: routevoltooiing. Overtredingen worden bestraft door de aflevering te beëindigen of door routevoltooiing multiplicatief te verminderen. We ontdekken dat PPO goed schaalt met grotere mini-batchgroottes wanneer het wordt getraind met onze eenvoudige beloning, en zelfs de prestaties verbetert. Trainen met grote mini-batchgroottes maakt efficiënte schaalbaarheid mogelijk via gedistribueerde dataparalleliteit. We schalen PPO op naar 300M samples in CARLA en 500M samples in nuPlan met een enkele 8-GPU-node. Het resulterende model behaalt 64 DS op de CARLA longest6 v2 benchmark, en overtreft andere RL-methoden met complexere beloningen met een grote marge. Met slechts minimale aanpassingen ten opzichte van het gebruik in CARLA, is dezelfde methode de beste op leren gebaseerde benadering op nuPlan. Het scoort 91,3 in niet-reactief en 90,6 in reactief verkeer op de Val14 benchmark, terwijl het een orde van grootte sneller is dan eerder werk.

LawFlow: Het verzamelen en simuleren van denkprocessen van advocaten
LawFlow : Collecting and Simulating Lawyers' Thought Processes

Apr 26

ByDebarati Das, Khanh Chi Le, Ritik Sachin Parkar, Karin De Langis, Brendan Madson, Chad M. Berryman, Robin M. Willis, Daniel H. Moses, Brett McDonnell, Daniel Schwarcz, Dongyeop Kang

Juridische professionals, met name zij die aan het begin van hun carrière staan, worden geconfronteerd met complexe, hoogwaardige taken die adaptief, contextgevoelig redeneren vereisen. Hoewel AI potentieel heeft om juridisch werk te ondersteunen, zijn huidige datasets en modellen nauw gericht op geïsoleerde subtaken en slagen ze er niet in om het end-to-end besluitvormingsproces te vatten dat in de praktijk vereist is. Om deze kloof te overbruggen, introduceren we LawFlow, een dataset van complete end-to-end juridische workflows verzameld van getrainde rechtenstudenten, gebaseerd op realistische scenario’s voor het oprichten van bedrijfsentiteiten. In tegenstelling tot eerdere datasets die zich richten op input-output paren of lineaire gedachteketens, vangt LawFlow dynamische, modulaire en iteratieve redeneerprocessen die de ambiguïteit, herziening en klantgerichte strategieën van juridische praktijk weerspiegelen. Met behulp van LawFlow vergelijken we menselijke en door LLM gegenereerde workflows, waarbij systematische verschillen in structuur, redeneerflexibiliteit en planuitvoering aan het licht komen. Menselijke workflows zijn doorgaans modulair en adaptief, terwijl LLM-workflows meer sequentieel, uitputtend en minder gevoelig zijn voor downstream implicaties. Onze bevindingen suggereren ook dat juridische professionals de voorkeur geven aan AI die ondersteunende rollen vervult, zoals brainstormen, blinde vlekken identificeren en alternatieven aandragen, in plaats van complexe workflows end-to-end uit te voeren. Op basis van deze bevindingen stellen we een reeks ontwerpsuggesties voor, geworteld in empirische observaties, die AI-ondersteuning afstemmen op menselijke doelen van duidelijkheid, volledigheid, creativiteit en efficiëntie, via hybride planning, adaptieve uitvoering en ondersteuning bij beslispunten. Onze resultaten benadrukken zowel de huidige beperkingen van LLM’s bij het ondersteunen van complexe juridische workflows als de mogelijkheden voor het ontwikkelen van meer collaboratieve, redeneerbewuste juridische AI-systemen. Alle data en code zijn beschikbaar op onze projectpagina (https://minnesotanlp.github.io/LawFlow-website/).

TreeHop: Genereer en Filter Volgende Query-Embeddings Efficiënt voor Multi-hop Vraagbeantwoording
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Apr 28

ByZhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu

Retrieval-augmented generation (RAG)-systemen worden geconfronteerd met aanzienlijke uitdagingen bij multi-hop vraagbeantwoording (MHQA), waarbij complexe vragen het synthetiseren van informatie uit meerdere documentfragmenten vereisen. Bestaande benaderingen vertrouwen doorgaans op iteratieve LLM-gebaseerde queryherformulering en routering, wat resulteert in hoge computationele kosten vanwege herhaalde LLM-aanroepen en meerfasige processen. Om deze beperkingen aan te pakken, stellen we TreeHop voor, een embedding-level framework zonder de noodzaak van LLM's bij queryverfijning. TreeHop werkt query-embeddings dynamisch bij door semantische informatie uit eerdere queries en opgehaalde documenten te combineren, waardoor iteratieve retrieval mogelijk wordt via embedding-space operaties alleen. Deze methode vervangt de traditionele "Retrieve-Rewrite-Vectorize-Retrieve"-cyclus door een gestroomlijnde "Retrieve-Embed-Retrieve"-lus, wat de computationele overhead aanzienlijk vermindert. Bovendien wordt een op regels gebaseerd stopcriterium geïntroduceerd om overbodige retrievals verder te beperken, waardoor efficiëntie en recall-rate in balans worden gebracht. Experimentele resultaten tonen aan dat TreeHop concurreert met geavanceerde RAG-methoden op drie open-domain MHQA-datasets, waarbij vergelijkbare prestaties worden bereikt met slechts 5\%-0,4\% van de modelparametergrootte en de querylatentie met ongeveer 99\% wordt verminderd in vergelijking met gelijktijdige benaderingen. Dit maakt TreeHop een snellere en kosteneffectievere oplossing voor implementatie in een reeks kennisintensieve toepassingen. Voor reproduceerbaarheid zijn codes en gegevens hier beschikbaar: https://github.com/allen-li1231/TreeHop.

Chain-of-Defensive-Thought: Gestructureerd Redeneren Bevordert Robuustheid in Grote Taalmodellen tegen Referentiecorruptie
Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

Apr 29

ByWenxiao Wang, Parsa Hosseini, Soheil Feizi

Chain-of-thought prompting heeft grote successen laten zien in het bevorderen van de redeneervaardigheden van grote taalmodelen. In dit werk onderzoeken we hoe deze verbeterde redeneervaardigheden kunnen worden benut om de robuustheid van grote taalmodelen te vergroten bij taken die niet per se gericht zijn op redeneren. In het bijzonder laten we zien hoe een breed scala aan grote taalmodelen aanzienlijk verbeterde robuustheid vertoont tegen referentiecorruptie door een eenvoudige methode genaamd chain-of-defensive-thought, waarbij slechts enkele voorbeelden met gestructureerd en defensief redeneren worden aangeboden als demonstraties. Empirisch gezien kunnen de verbeteringen verbazingwekkend zijn, vooral gezien de eenvoud en toepasbaarheid van de methode. Bijvoorbeeld, in de Natural Questions-taak daalt de nauwkeurigheid van GPT-4o van 60% naar slechts 3% bij standaard prompting wanneer 1 van de 10 verstrekte referenties is gecorrumpeerd door prompt injection-aanvallen. Daarentegen behoudt GPT-4o bij gebruik van chain-of-defensive-thought prompting een nauwkeurigheid van 50%.

Een Overzicht van 3D Objectdetectie met Vision-Taalmodellen
A Review of 3D Object Detection with Vision-Language Models

Apr 25

ByRanjan Sapkota, Konstantinos I Roumeliotis, Rahul Harsha Cheppally, Marco Flores Calero, Manoj Karkee

Dit overzicht biedt een systematische analyse van een uitgebreide studie naar 3D-objectdetectie met visie-taalmodelen (VLMs), een snel voortschrijdend onderzoeksgebied op het snijvlak van 3D-visie en multimodale AI. Door meer dan 100 onderzoeksartikelen te bestuderen, bieden we de eerste systematische analyse die specifiek gewijd is aan 3D-objectdetectie met visie-taalmodelen. We beginnen met het schetsen van de unieke uitdagingen van 3D-objectdetectie met visie-taalmodelen, waarbij we de verschillen met 2D-detectie benadrukken in ruimtelijk redeneren en datacomplexiteit. Traditionele benaderingen die gebruikmaken van puntenwolken en voxelroosters worden vergeleken met moderne visie-taalraamwerken zoals CLIP en 3D LLMs, die open-vocabulairdetectie en zero-shot generalisatie mogelijk maken. We bespreken belangrijke architecturen, voorafgaande trainingsstrategieën en prompt engineering-methoden die tekstuele en 3D-kenmerken uitlijnen voor effectieve 3D-objectdetectie met visie-taalmodelen. Visualisatievoorbeelden en evaluatiebenchmarks worden besproken om prestaties en gedrag te illustreren. Tot slot belichten we huidige uitdagingen, zoals beperkte 3D-taal datasets en rekenkundige eisen, en stellen we toekomstige onderzoeksrichtingen voor om 3D-objectdetectie met visie-taalmodelen verder te ontwikkelen. >Objectdetectie, Visie-Taalmodelen, Agents, VLMs, LLMs, AI

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Versterkend Leren voor Redeneren in Grote Taalmodellen met Eén Trainingsvoorbeeld
Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Apr 29

ByYiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen

De Leiderbordillusie
The Leaderboard Illusion

Apr 29

ByShivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

UniversalRAG: Retrieval-Augmented Generatie over Meerdere Corpora met Diverse Modaliteiten en Granulariteiten
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

Apr 29

ByWoongyeong Yeo, Kangsan Kim, Soyeong Jeong, Jinheon Baek, Sung Ju Hwang

ReasonIR: Retrievers trainen voor redeneertaken
ReasonIR: Training Retrievers for Reasoning Tasks

Apr 29

ByRulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer

Naar evaluatief denken: Meta Policy Optimization met evoluerende beloningsmodellen
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Apr 28

ByZae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang

TesserAct: Het leren van 4D belichaamde wereldmodellen
TesserAct: Learning 4D Embodied World Models

Apr 29

ByHaoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan

In-Context Bewerking: Het mogelijk maken van instructiegestuurde beeldbewerking met in-context generatie in grootschalige diffusie-transformers
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

Apr 29

ByZechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang

X-Fusion: Introductie van een nieuwe modaliteit voor bevroren grote taalmodellen
X-Fusion: Introducing New Modality to Frozen Large Language Models

Apr 29

BySicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li

RAGEN: Zelfevolutie in LLM-agents begrijpen via multi-turn reinforcement learning
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Apr 24

Gecertificeerde beperking van het ergste geval van auteursrechtinbreuk door LLM's
Certified Mitigation of Worst-Case LLM Copyright Infringement

Apr 22

ByJingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi

YoChameleon: Gepersonaliseerde Visuele en Taalgeneratie
YoChameleon: Personalized Vision and Language Generation

Apr 29

ByThao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li

ISDrama: Immersieve Ruimtelijke Drama Generatie via Multimodale Prompting
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

Apr 29

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao

Leerbare verklaarbare dichte beloningsvormen via Bayesiaanse optimalisatie
Learning Explainable Dense Reward Shapes via Bayesian Optimization

Apr 22

ByRyan Koo, Ian Yang, Vipul Raheja, Mingyi Hong, Kwang-Sung Jun, Dongyeop Kang

Identiteit Ontwarren, Emotie Samenwerken: Correlatiebewuste Generatie van Emotionele Sprekende Portretten
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

Apr 25

ByWeipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu

CaRL: Schaalbaar planningsbeleid leren met eenvoudige beloningen
CaRL: Learning Scalable Planning Policies with Simple Rewards

Apr 24

ByBernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

LawFlow: Het verzamelen en simuleren van denkprocessen van advocaten
LawFlow : Collecting and Simulating Lawyers' Thought Processes

Apr 26

ByDebarati Das, Khanh Chi Le, Ritik Sachin Parkar, Karin De Langis, Brendan Madson, Chad M. Berryman, Robin M. Willis, Daniel H. Moses, Brett McDonnell, Daniel Schwarcz, Dongyeop Kang

TreeHop: Genereer en Filter Volgende Query-Embeddings Efficiënt voor Multi-hop Vraagbeantwoording
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Apr 28

ByZhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu

Chain-of-Defensive-Thought: Gestructureerd Redeneren Bevordert Robuustheid in Grote Taalmodellen tegen Referentiecorruptie
Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

Apr 29

ByWenxiao Wang, Parsa Hosseini, Soheil Feizi

Een Overzicht van 3D Objectdetectie met Vision-Taalmodellen
A Review of 3D Object Detection with Vision-Language Models

Apr 25

ByRanjan Sapkota, Konstantinos I Roumeliotis, Rahul Harsha Cheppally, Marco Flores Calero, Manoj Karkee