Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Redeneren ligt aan de basis van intelligentie en vormt het vermogen om beslissingen te nemen, conclusies te trekken en te generaliseren over domeinen heen. In kunstmatige intelligentie, waar systemen steeds vaker opereren in open, onzekere en multimodale omgevingen, wordt redeneren essentieel voor het mogelijk maken van robuust en adaptief gedrag. Grote Multimodale Redeneermodellen (Large Multimodal Reasoning Models, LMRMs) zijn naar voren gekomen als een veelbelovend paradigma, waarbij modaliteiten zoals tekst, afbeeldingen, audio en video worden geïntegreerd om complexe redeneervaardigheden te ondersteunen en te streven naar uitgebreide waarneming, precies begrip en diepgaand redeneren. Naarmate het onderzoek vordert, is multimodaal redeneren snel geëvolueerd van modulaire, perceptiegedreven pijplijnen naar uniforme, taalgerichte frameworks die een meer coherente kruismodale begrip bieden. Hoewel instructieafstemming en reinforcement learning het redeneren van modellen hebben verbeterd, blijven er aanzienlijke uitdagingen bestaan op het gebied van omnimodale generalisatie, redeneerdiepte en agentisch gedrag. Om deze problemen aan te pakken, presenteren we een uitgebreid en gestructureerd overzicht van onderzoek naar multimodaal redeneren, georganiseerd rond een vierfasen ontwikkelingsroutekaart die de verschuivende ontwerpfilosofieën en opkomende mogelijkheden van het vakgebied weerspiegelt. Eerst bespreken we vroege inspanningen gebaseerd op taakspecifieke modules, waarbij redeneren impliciet was ingebed in fasen van representatie, uitlijning en fusie. Vervolgens onderzoeken we recente benaderingen die redeneren unificeren in multimodale LLM's, waarbij vooruitgang zoals Multimodale Chain-of-Thought (MCoT) en multimodale reinforcement learning rijkere en meer gestructureerde redeneerketens mogelijk maken. Ten slotte, voortbouwend op empirische inzichten uit uitdagende benchmarks en experimentele gevallen van OpenAI O3 en O4-mini, bespreken we de conceptuele richting van native grote multimodale redeneermodellen (N-LMRMs), die gericht zijn op het ondersteunen van schaalbare, agentische en adaptieve redenering en planning in complexe, real-world omgevingen.
We stellen Flow-GRPO voor, de eerste methode die online reinforcement learning (RL) integreert in flow matching-modellen. Onze aanpak maakt gebruik van twee belangrijke strategieën: (1) een ODE-naar-SDE-conversie die een deterministische Gewone Differentiaalvergelijking (ODE) omzet in een equivalente Stochastische Differentiaalvergelijking (SDE) die de marginale verdeling van het oorspronkelijke model op alle tijdstappen behoudt, waardoor statistische steekproeven voor RL-exploratie mogelijk worden; en (2) een Denoising Reduction-strategie die het aantal denoising-stappen tijdens de training vermindert terwijl het oorspronkelijke aantal inferentie-tijdstappen behouden blijft, wat de steekproefefficiëntie aanzienlijk verbetert zonder prestatieverlies. Empirisch gezien is Flow-GRPO effectief bij meerdere tekst-naar-beeld-taken. Voor complexe composities genereert RL-afgestemde SD3.5 bijna perfecte objectaantallen, ruimtelijke relaties en fijnmazige attributen, waardoor de GenEval-nauwkeurigheid stijgt van 63% naar 95%. Bij visuele tekstweergave verbetert de nauwkeurigheid van 59% naar 92%, wat de tekstgeneratie aanzienlijk verbetert. Flow-GRPO behaalt ook aanzienlijke verbeteringen in de afstemming op menselijke voorkeuren. Opmerkelijk is dat er weinig tot geen sprake was van reward hacking, wat betekent dat beloningen niet toenamen ten koste van beeldkwaliteit of diversiteit, en beide bleven stabiel in onze experimenten.
We introduceren LegoGPT, de eerste aanpak voor het genereren van fysiek stabiele LEGO-steentjesmodellen op basis van tekstprompts. Om dit te bereiken, construeren we een grootschalige, fysiek stabiele dataset van LEGO-ontwerpen, samen met hun bijbehorende bijschriften, en trainen we een autoregressief groot taalmodel om het volgende steentje te voorspellen via next-token prediction. Om de stabiliteit van de resulterende ontwerpen te verbeteren, gebruiken we een efficiënte validatiecheck en een fysica-bewuste rollback tijdens autoregressieve inferentie, waarbij onuitvoerbare tokenvoorspellingen worden gesnoeid op basis van fysicawetten en montagebeperkingen. Onze experimenten tonen aan dat LegoGPT stabiele, diverse en esthetisch aantrekkelijke LEGO-ontwerpen produceert die nauw aansluiten bij de ingevoerde tekstprompts. We ontwikkelen ook een tekstgebaseerde LEGO-textuurmethode om gekleurde en getextureerde ontwerpen te genereren. We laten zien dat onze ontwerpen zowel handmatig door mensen als automatisch door robotarmen kunnen worden geassembleerd. We publiceren ook onze nieuwe dataset, StableText2Lego, met meer dan 47.000 LEGO-structuren van meer dan 28.000 unieke 3D-objecten, vergezeld van gedetailleerde bijschriften, samen met onze code en modellen op de projectwebsite: https://avalovelace1.github.io/LegoGPT/.
Het beoordelen van hoe goed een groot taalmodel (LLM) menselijk begrip heeft, in plaats van slechts tekst, blijft een open uitdaging. Om deze kloof te overbruggen, introduceren we Sentient Agent as a Judge (SAGE), een geautomatiseerd evaluatieraamwerk dat de hogere-orde sociale cognitie van een LLM meet. SAGE implementeert een Sentient Agent die mensachtige emotionele veranderingen en innerlijke gedachten simuleert tijdens interactie, wat een realistischer evaluatie biedt van het geteste model in meerzijdige gesprekken. Bij elke beurt redeneert de agent over (i) hoe zijn emotie verandert, (ii) hoe hij zich voelt, en (iii) hoe hij zou moeten antwoorden, wat resulteert in een numerieke emotietrajectorie en interpreteerbare innerlijke gedachten. Experimenten met 100 ondersteunende-dialoogscenario's tonen aan dat de uiteindelijke Sentient-emotiescore sterk correleert met Barrett-Lennard Relationship Inventory (BLRI)-beoordelingen en uiting-niveau empathiemetrieken, wat de psychologische geloofwaardigheid valideert. We bouwen ook een openbare Sentient Leaderboard die 18 commerciële en open-source modellen omvat, wat aanzienlijke verschillen (tot 4x) onthult tussen toonaangevende systemen (GPT-4o-Latest, Gemini2.5-Pro) en eerdere baselines, verschillen die niet worden weerspiegeld in conventionele leaderboards (bijv. Arena). SAGE biedt dus een principieel, schaalbaar en interpreteerbaar instrument om de voortgang te volgen naar echt empathische en sociaal vaardige taalagentschappen.
Grote redeneermodellen (LRMs) hebben opmerkelijke vooruitgang geboekt bij complexe taken door uitgebreide gedachteketens (CoT) te genereren. Hun ongecontroleerde uitvoerlengtes vormen echter aanzienlijke uitdagingen voor implementatie in de praktijk, waar inferentietijdbudgetten voor tokens, latentie of rekenkracht strikt beperkt zijn. Wij stellen Elastisch Redeneren voor, een nieuw raamwerk voor schaalbare gedachteketens dat redeneren expliciet scheidt in twee fasen—denken en oplossing—met onafhankelijk toegewezen budgetten. Tijdens testen prioriteert Elastisch Redeneren de volledigheid van oplossingssegmenten, wat de betrouwbaarheid aanzienlijk verbetert onder strikte resourcebeperkingen. Om modellen te trainen die robuust zijn tegen afgekapt denken, introduceren we een lichtgewicht rollout-strategie met budgetbeperkingen, geïntegreerd in GRPO, die het model leert om adaptief te redeneren wanneer het denkproces wordt afgebroken en effectief generaliseert naar onbekende budgetbeperkingen zonder aanvullende training. Empirische resultaten op wiskundige (AIME, MATH500) en programmeerbenchmarks (LiveCodeBench, Codeforces) tonen aan dat Elastisch Redeneren robuust presteert onder strikte budgetbeperkingen, terwijl het aanzienlijk lagere trainingskosten met zich meebrengt dan baseline-methoden. Opmerkelijk is dat onze aanpak ook beknopter en efficiënter redeneren oplevert, zelfs in onbeperkte omstandigheden. Elastisch Redeneren biedt een principiële en praktische oplossing voor de dringende uitdaging van beheersbaar redeneren op grote schaal.
3D-scènegeneratie streeft ernaar ruimtelijk gestructureerde, semantisch betekenisvolle en fotorealistische omgevingen te synthetiseren voor toepassingen zoals immersieve media, robotica, autonoom rijden en embodied AI. Vroege methoden gebaseerd op procedurele regels boden schaalbaarheid maar beperkte diversiteit. Recente vooruitgang in diepe generatieve modellen (bijv. GANs, diffusiemodellen) en 3D-representaties (bijv. NeRF, 3D Gaussians) hebben het mogelijk gemaakt om distributies van echte wereldscènes te leren, wat de getrouwheid, diversiteit en consistentie tussen verschillende gezichtspunten verbetert. Recente ontwikkelingen zoals diffusiemodellen overbruggen 3D-scènesynthese en fotorealisme door generatie te herformuleren als beeld- of videosyntheseproblemen. Dit overzicht biedt een systematisch overzicht van state-of-the-art benaderingen, georganiseerd in vier paradigma's: procedurele generatie, neurale 3D-gebaseerde generatie, beeldgebaseerde generatie en videogebaseerde generatie. We analyseren hun technische fundamenten, afwegingen en representatieve resultaten, en bespreken veelgebruikte datasets, evaluatieprotocollen en downstream-toepassingen. We sluiten af met een bespreking van belangrijke uitdagingen op het gebied van generatiecapaciteit, 3D-representatie, data en annotaties, en evaluatie, en schetsen veelbelovende richtingen zoals hogere getrouwheid, fysica-bewuste en interactieve generatie, en geïntegreerde perceptie-generatiemodellen. Dit overzicht organiseert recente ontwikkelingen in 3D-scènegeneratie en belicht veelbelovende richtingen op het snijvlak van generatieve AI, 3D-visie en embodied intelligence. Om voortdurende ontwikkelingen bij te houden, onderhouden we een actueel projectpagina: https://github.com/hzxie/Awesome-3D-Scene-Generation.
Contrastive Language-Image Pre-training (CLIP) blinkt uit in multimodale taken zoals beeld-tekst retrieval en zero-shot classificatie, maar heeft moeite met fijnmazig begrip vanwege de focus op grofmazige korte bijschriften. Om dit aan te pakken, stellen we Fine-Grained CLIP (FG-CLIP) voor, dat fijnmazig begrip verbetert door drie belangrijke innovaties. Ten eerste benutten we grote multimodale modellen om 1,6 miljard lange bijschrift-beeldparen te genereren voor het vastleggen van semantische details op globaal niveau. Ten tweede wordt een hoogwaardige dataset geconstrueerd met 12 miljoen afbeeldingen en 40 miljoen regiospecifieke begrenzingsvakken die zijn uitgelijnd met gedetailleerde bijschriften, om precieze, contextrijke representaties te garanderen. Ten derde worden 10 miljoen moeilijke fijnmazige negatieve voorbeelden opgenomen om het vermogen van het model om subtiele semantische verschillen te onderscheiden te verbeteren. Bijbehorende trainingsmethoden zijn zorgvuldig ontworpen voor deze data. Uitgebreide experimenten tonen aan dat FG-CLIP het originele CLIP en andere state-of-the-art methoden overtreft in verschillende downstream taken, waaronder fijnmazig begrip, open-vocabulary objectdetectie, beeld-tekst retrieval en algemene multimodale benchmarks. Deze resultaten benadrukken de effectiviteit van FG-CLIP in het vastleggen van fijnmazige beelddetails en het verbeteren van de algehele modelprestaties. De gerelateerde data, code en modellen zijn beschikbaar op https://github.com/360CVGroup/FG-CLIP.
Recente propriëtaire modellen (bijv. o3) beginnen sterke multimodale redeneervaardigheden te demonstreren. Toch richt het meeste bestaande open-source onderzoek zich op het trainen van tekstgerichte redeneermodellen, waarbij de evaluaties voornamelijk beperkt blijven tot wiskundige en algemene domeintaken. Daarom blijft het onduidelijk hoe redeneervaardigheden effectief kunnen worden uitgebreid buiten tekstinvoer en algemene domeinen. Dit artikel onderzoekt een fundamentele onderzoeksvraag: Is redeneren generaliseerbaar over modaliteiten en domeinen? Onze bevindingen ondersteunen een bevestigend antwoord: Post-training op algemeen-domein tekst kan dergelijke sterke generaliseerbare redeneervaardigheden mogelijk maken. Gebruikmakend van deze bevinding introduceren we X-Reasoner, een visie-taalmodel dat uitsluitend is getraind op algemeen-domein tekst voor generaliseerbaar redeneren, met behulp van een tweefasenbenadering: een initiële fase van begeleide fine-tuning met gedistilleerde lange ketens van gedachten, gevolgd door reinforcement learning met verifieerbare beloningen. Experimenten tonen aan dat X-Reasoner redeneervaardigheden succesvol overdraagt naar zowel multimodale als domeinoverschrijdende instellingen, en daarbij bestaande state-of-the-art modellen die zijn getraind met domeinspecifieke en multimodale data overtreft op verschillende algemene en medische benchmarks (Figuur 1). Daarnaast ontdekken we dat de prestaties van X-Reasoner in gespecialiseerde domeinen verder kunnen worden verbeterd door voortgezette training op domeinspecifieke tekstdata. Hierop voortbouwend introduceren we X-Reasoner-Med, een medisch gespecialiseerde variant die nieuwe state-of-the-art resultaten behaalt op tal van tekstgerichte en multimodale medische benchmarks.
We presenteren StreamBridge, een eenvoudig maar effectief raamwerk dat offline Video-LLM's naadloos omzet in streaming-capabele modellen. Het adresseert twee fundamentele uitdagingen bij het aanpassen van bestaande modellen voor online scenario's: (1) beperkte mogelijkheden voor real-time begrip in meerdere beurten, en (2) het ontbreken van proactieve reactiemechanismen. Specifiek integreert StreamBridge (1) een geheugenbuffer gecombineerd met een rond-gedempte compressiestrategie, die lange-context interacties in meerdere beurten ondersteunt, en (2) een ontkoppeld, lichtgewicht activatiemodel dat moeiteloos kan worden geïntegreerd in bestaande Video-LLM's, waardoor continue proactieve reacties mogelijk worden. Om StreamBridge verder te ondersteunen, hebben we Stream-IT geconstrueerd, een grootschalige dataset die is afgestemd op streaming video-begrip, met verweven video-tekstsequenties en diverse instructieformaten. Uitgebreide experimenten tonen aan dat StreamBridge de streaming-begripsmogelijkheden van offline Video-LLM's aanzienlijk verbetert voor diverse taken, en zelfs propriëtaire modellen zoals GPT-4o en Gemini 1.5 Pro overtreft. Tegelijkertijd behaalt het concurrerende of superieure prestaties op standaard video-begrip benchmarks.
We introduceren de nieuwe taak van Taalgeleide Objectplaatsing in Echte 3D-Scènes. Ons model krijgt een puntenwolk van een 3D-scène, een 3D-asset en een tekstuele prompt die in brede zin beschrijft waar het 3D-asset geplaatst moet worden. De taak hier is om een geldige plaatsing voor het 3D-asset te vinden die de prompt respecteert. In vergelijking met andere taalgeleide lokalisatietaken in 3D-scènes, zoals grounding, heeft deze taak specifieke uitdagingen: ze is ambigu omdat er meerdere geldige oplossingen zijn, en ze vereist redeneren over 3D-geometrische relaties en vrije ruimte. We lanceren deze taak door een nieuwe benchmark en evaluatieprotocol voor te stellen. We introduceren ook een nieuwe dataset voor het trainen van 3D LLM's op deze taak, evenals de eerste methode die als een niet-triviale baseline dient. We geloven dat deze uitdagende taak en onze nieuwe benchmark deel kunnen uitmaken van de suite van benchmarks die worden gebruikt om generalistische 3D LLM-modellen te evalueren en te vergelijken.
Gangbare reinforcement learning (RL)-methoden voor het finetunen van LLM-redeneerders, zoals GRPO of Leave-one-out PPO, verlaten de geleerde waardefunctie ten gunste van empirisch geschatte returns. Dit belemmert de schaalbaarheid van rekentijd tijdens testen die afhankelijk is van het gebruik van de waardefunctie voor verificatie. In dit werk stellen we RL^V voor, dat elke "waardevrije" RL-methode aanvult door de LLM gezamenlijk te trainen als zowel een redeneerder als een generatieve verificateur met behulp van RL-gegenereerde data, waardoor verificatiemogelijkheden worden toegevoegd zonder significante overhead. Empirisch gezien verhoogt RL^V de nauwkeurigheid van MATH met meer dan 20% bij parallelle sampling en maakt het 8-32 keer efficiëntere schaalbaarheid van rekentijd tijdens testen mogelijk in vergelijking met de basis-RL-methode. RL^V vertoont ook sterke generalisatiecapaciteiten voor zowel eenvoudige-naar-moeilijke als out-of-domain taken. Bovendien behaalt RL^V 1,2-1,6 keer hogere prestaties bij het gezamenlijk schalen van parallelle en sequentiële rekentijd tijdens testen met een lang redenerend R1-model.
Dataselectie voor instructieafstemming is essentieel voor het verbeteren van de prestaties van Large Language Models (LLMs) en het verlagen van de trainingskosten. Bestaande geautomatiseerde selectiemethoden zijn echter afhankelijk van rekenintensieve, op gradients gebaseerde metingen of handmatig ontworpen heuristieken, die mogelijk niet volledig gebruikmaken van de intrinsieke eigenschappen van de data. In dit artikel introduceren we In-context Learning for Contribution Measurement (ICon), een nieuwe gradient-vrije methode die gebruikmaakt van de impliciete fine-tuning aard van in-context learning (ICL) om de bijdrage van samples te meten zonder gradientberekening of handmatige indicatorontwikkeling. ICon biedt een rekenkundig efficiënt alternatief voor op gradients gebaseerde methoden en vermindert de menselijke inductieve bias die inherent is aan heuristiek-gebaseerde benaderingen. ICon bestaat uit drie componenten en identificeert data met een hoge bijdrage door prestatieverschuivingen te beoordelen onder impliciet leren via ICL. Uitgebreide experimenten op drie LLMs over 12 benchmarks en 5 paarsgewijze evaluatiesets tonen de effectiviteit van ICon aan. Opmerkelijk is dat op LLaMA3.1-8B modellen die getraind zijn op 15% van de door ICon geselecteerde data, de volledige datasets overtreffen met 5,42 procentpunten en de beste prestaties van veelgebruikte selectiemethoden overstijgen met 2,06 procentpunten. We analyseren verder de samples met een hoge bijdrage die door ICon zijn geselecteerd, die zowel diverse taken als passende moeilijkheidsniveaus laten zien, in plaats van alleen de moeilijkste.
De redeneervaardigheden van grote taalmodelen worden voornamelijk bestudeerd voor het Engels, zelfs wanneer vooraf getrainde modellen meertalig zijn. In dit werk onderzoeken we in hoeverre Engelse redeneerfinetuning met lange ketens van gedachten (CoTs) kan generaliseren over verschillende talen. Ten eerste ontdekken we dat het opschalen van de rekenkracht voor inferentie bij Engels-gecentreerde redeneertaalmodellen (RLMs) de meertalige wiskundige redeneervaardigheden verbetert voor veel talen, inclusief talen met weinig bronnen, tot op een niveau waarop ze modellen overtreffen die twee keer zo groot zijn. Ten tweede laten we zien dat, hoewel de CoTs van Engels-gecentreerde RLMs van nature voornamelijk in het Engels zijn, ze consistent een citaat-en-denken patroon volgen om te redeneren over geciteerde niet-Engelse invoer. Ten derde ontdekken we een effectieve strategie om de taal van lange CoT-redeneringen te beheersen, en we observeren dat modellen beter en efficiënter redeneren in talen met veel bronnen. Tot slot observeren we een slechte generalisatie van redeneren buiten het domein, met name van STEM naar culturele commonsense kennis, zelfs voor het Engels. Over het geheel genomen demonstreren we de potenties, bestuderen we de mechanismen en schetsen we de beperkingen van crosslinguale generalisatie van Engelse redeneertesttijd-schaling. We concluderen dat beoefenaars Engels-gecentreerde RLMs moeten laten redeneren in talen met veel bronnen, terwijl verder werk nodig is om het redeneren in talen met weinig bronnen en buiten-domeincontexten te verbeteren.
Het afleren van grote taalmodellen (LLM) is cruciaal in praktische toepassingen waarbij het noodzakelijk is om de invloed van privé-, auteursrechtelijk beschermde of schadelijke gegevens van sommige gebruikers efficiënt te verwijderen. Bestaande op nut gebaseerde aflermetrieken (gebaseerd op modelnut) kunnen echter tekortschieten bij het nauwkeurig evalueren van de mate van afleren in realistische situaties, zoals wanneer (a) de vergeten en behouden sets semantisch vergelijkbare inhoud hebben, (b) het opnieuw trainen van het model vanaf nul op de behouden set onpraktisch is, en/of (c) de model eigenaar de aflermetriek kan verbeteren zonder direct afleren op het LLM uit te voeren. Dit artikel introduceert de eerste data-gerichte aflermetriek voor LLM's, genaamd WaterDrum, die robuuste tekstwatermerken benut om deze beperkingen te overwinnen. We introduceren ook nieuwe benchmarkdatasets voor LLM-afleren die verschillende niveaus van vergelijkbare datapunten bevatten en kunnen worden gebruikt om afleralgoritmen rigoureus te evalueren met WaterDrum. Onze code is beschikbaar op https://github.com/lululu008/WaterDrum en onze nieuwe benchmarkdatasets zijn vrijgegeven op https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
Chain-of-thoughts (CoT) vereist dat grote taalmodellen (LLMs) tussenstappen genereren voordat ze het uiteindelijke antwoord bereiken, en is bewezen effectief te zijn om LLMs te helpen bij het oplossen van complexe redeneertaken. Het interne mechanisme van CoT blijft echter grotendeels onduidelijk. In dit artikel bestuderen we empirisch de rol van CoT-tokens in LLMs bij twee compositionele taken: vermenigvuldiging van meerdere cijfers en dynamisch programmeren. Hoewel CoT essentieel is voor het oplossen van deze problemen, ontdekken we dat het behouden van alleen tokens die tussenresultaten opslaan, vergelijkbare prestaties oplevert. Bovendien observeren we dat het opslaan van tussenresultaten in een alternatieve latente vorm de modelprestaties niet beïnvloedt. We interveniëren ook willekeurig enkele waarden in CoT en merken op dat daaropvolgende CoT-tokens en het uiteindelijke antwoord dienovereenkomstig veranderen. Deze bevindingen suggereren dat CoT-tokens mogelijk functioneren als variabelen in computerprogramma's, maar met potentiële nadelen zoals onbedoelde shortcuts en beperkingen in de rekencomplexiteit tussen tokens. De code en gegevens zijn beschikbaar op https://github.com/solitaryzero/CoTs_are_Variables.
Vision-Language-Action (VLA)-modellen vertegenwoordigen een transformerende vooruitgang in kunstmatige intelligentie, met als doel waarneming, natuurlijke taalbegrip en belichaamde actie te verenigen binnen een enkel computationeel raamwerk. Deze fundamentele review biedt een uitgebreide synthese van recente ontwikkelingen in Vision-Language-Action-modellen, systematisch georganiseerd rond vijf thematische pijlers die het landschap van dit snel evoluerende veld structureren. We beginnen met het vastleggen van de conceptuele grondslagen van VLA-systemen, waarbij we hun evolutie volgen van cross-modale leerarchitecturen naar generalistische agents die vision-language-modellen (VLMs), actieplanners en hiërarchische controllers nauw integreren. Onze methodologie hanteert een rigoureus literatuuronderzoeksraamwerk, waarbij meer dan 80 VLA-modellen uit de afgelopen drie jaar worden behandeld. Belangrijke voortgangsgebieden omvatten architectonische innovaties, parameter-efficiënte trainingsstrategieën en real-time inferentieversnellingen. We verkennen diverse toepassingsdomeinen zoals humanoïde robotica, autonome voertuigen, medische en industriële robotica, precisielandbouw en augmented reality-navigatie. De review gaat verder in op grote uitdagingen op het gebied van real-time controle, multimodale actierepresentatie, systeemschaalbaarheid, generalisatie naar onbekende taken en ethische implementatierisico's. Gebaseerd op de state-of-the-art stellen we gerichte oplossingen voor, waaronder agentische AI-aanpassing, cross-embodiment generalisatie en verenigde neuro-symbolische planning. In onze vooruitziende discussie schetsen we een toekomstig roadmap waarin VLA-modellen, VLMs en agentische AI samenkomen om sociaal afgestemde, adaptieve en algemene belichaamde agents aan te drijven. Dit werk dient als een fundamenteel referentiepunt voor de voortgang van intelligente, real-world robotica en kunstmatige algemene intelligentie. >Vision-language-action, Agentic AI, AI Agents, Vision-language Models
Robuuste en efficiënte lokale kenmerkenmatching speelt een cruciale rol in toepassingen zoals SLAM en visuele lokalisatie voor robotica. Ondanks grote vooruitgang blijft het uitdagend om robuuste en onderscheidende visuele kenmerken te extraheren in scenario's met drastische lichtveranderingen, gebieden met weinig textuur of repetitieve patronen. In dit artikel introduceren we een nieuw lichtgewicht netwerk genaamd LiftFeat, dat de robuustheid van ruwe descriptors verhoogt door 3D geometrische kenmerken te aggregeren. Specifiek gebruiken we eerst een vooraf getraind monocular diepteschattingsmodel om pseudo-oppervlaktenormaallabels te genereren, die de extractie van 3D geometrische kenmerken begeleiden in termen van voorspelde oppervlaktenormalen. Vervolgens ontwerpen we een 3D geometrie-bewust kenmerkenliftmodule om oppervlaktenormaalkenmerken te fuseren met ruwe 2D descriptorkenmerken. Het integreren van dergelijke 3D geometrische kenmerken verbetert het onderscheidend vermogen van 2D kenmerkenbeschrijvingen in extreme omstandigheden. Uitgebreide experimentele resultaten op taken zoals relatieve pose-estimatie, homografie-estimatie en visuele lokalisatie tonen aan dat onze LiftFeat enkele lichtgewicht state-of-the-art methoden overtreft. De code zal worden vrijgegeven op: https://github.com/lyp-deeplearning/LiftFeat.
Het afstemmen van taalmodellen op menselijke voorkeuren is afhankelijk van gepaarde voorkeursdatasets. Hoewel sommige studies suggereren dat on-policy data consistent beter presteert dan off-policy data voor voorkeursleren, geven andere aan dat de voordelen van on-policy data taakafhankelijk kunnen zijn, wat de noodzaak benadrukt van een systematische verkenning van hun wisselwerking. In dit werk tonen we aan dat on-policy en off-policy data complementaire sterktes bieden in voorkeursoptimalisatie: on-policy data is bijzonder effectief voor redeneertaken zoals wiskunde en programmeren, terwijl off-policy data beter presteert bij open-eindetaken zoals creatief schrijven en het doen van persoonlijke aanbevelingen. Geleid door deze bevindingen introduceren we SIMPLEMIX, een benadering om de complementaire sterktes van on-policy en off-policy voorkeursleren te combineren door simpelweg deze twee databronnen te mengen. Onze empirische resultaten over diverse taken en benchmarks tonen aan dat SIMPLEMIX de afstemming van taalmodellen aanzienlijk verbetert. Specifiek verbetert SIMPLEMIX ten opzichte van on-policy DPO en off-policy DPO met gemiddeld 6,03% op Alpaca Eval 2.0. Bovendien overtreft het eerdere benaderingen die veel complexer zijn in het combineren van on- en off-policy data, zoals HyPO en DPO-Mix-P, met gemiddeld 3,05%.
Naarmate grote taalmodellen (LLM's) evolueren naar gereedschapgebruikende agents, is het vermogen om in realtime het web te doorzoeken een cruciale maatstaf geworden voor het meten van hun redeneer- en ophaalvaardigheden. Bestaande benchmarks zoals BrowseComp richten zich op Engels en negeren de linguïstische, infrastructurele en censuurgerelateerde complexiteiten van andere grote informatie-ecosystemen – met name het Chinese. Om dit gat te dichten, introduceren we BrowseComp-ZH, een benchmark met een hoge moeilijkheidsgraad die speciaal is ontworpen om LLM-agents uitgebreid te evalueren op het Chinese web. BrowseComp-ZH bestaat uit 289 multi-hop vragen die 11 diverse domeinen beslaan. Elke vraag is reverse-engineered vanuit een kort, objectief en eenvoudig verifieerbaar antwoord (bijvoorbeeld een datum, getal of eigennaam). Een tweestaps kwaliteitscontroleprotocol wordt toegepast om te streven naar hoge vraagmoeilijkheid en antwoorduniciteit. We benchmarken meer dan 20 state-of-the-art taalmodellen en agentische zoeksystemen op onze voorgestelde BrowseComp-ZH. Ondanks hun sterke conversatie- en ophaalcapaciteiten, worstelen de meeste modellen ernstig: een groot aantal behaalt nauwkeurigheidspercentages onder de 10%, en slechts een handvol overschrijdt 20%. Zelfs het best presterende systeem, OpenAI's DeepResearch, bereikt slechts 42,9%. Deze resultaten tonen de aanzienlijke moeilijkheid van BrowseComp-ZH aan, waar succes niet alleen effectieve ophaalstrategieën vereist, maar ook geavanceerd redeneren en informatieverzoening – vaardigheden waar huidige modellen nog steeds moeite mee hebben. Onze dataset, constructierichtlijnen en benchmarkresultaten zijn openbaar vrijgegeven op https://github.com/PALIN2018/BrowseComp-ZH.