Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vision-Language-Action (VLA)-modellen overbruggen doorgaans de kloof tussen perceptuele en actieruimtes door een grootschalig Vision-Language Model (VLM) voor te trainen op robotgegevens. Hoewel deze aanpak de prestaties aanzienlijk verbetert, brengt het ook aanzienlijke trainingskosten met zich mee. In dit artikel onderzoeken we hoe we visie-taal (VL)-representaties effectief kunnen verbinden met actie (A). We introduceren VLA-Adapter, een nieuw paradigma dat is ontworpen om de afhankelijkheid van VLA-modellen van grootschalige VLM's en uitgebreide voorafgaande training te verminderen. Hiertoe analyseren we eerst systematisch de effectiviteit van verschillende VL-condities en presenteren we belangrijke bevindingen over welke condities essentieel zijn voor het overbruggen van perceptie- en actieruimtes. Op basis van deze inzichten stellen we een lichtgewicht Policy-module voor met Bridge Attention, die autonoom de optimale conditie in de actieruimte injecteert. Op deze manier bereikt onze methode hoge prestaties met slechts een 0,5B-parameter backbone, zonder enige voorafgaande training op robotgegevens. Uitgebreide experimenten op zowel gesimuleerde als real-world robotbenchmarks tonen aan dat VLA-Adapter niet alleen state-of-the-art prestaties bereikt, maar ook de snelste inferentiesnelheid tot nu toe biedt. Bovendien maakt VLA-Adapter, dankzij het voorgestelde geavanceerde overbruggingsparadigma, het mogelijk om een krachtig VLA-model in slechts 8 uur te trainen op een enkele consumenten-GPU, waardoor de drempel voor het implementeren van het VLA-model aanzienlijk wordt verlaagd. Projectpagina: https://vla-adapter.github.io/.
Human-Centric Video Generation (HCVG)-methoden streven ernaar mensgerichte video's te synthetiseren vanuit multimodale invoer, waaronder tekst, afbeeldingen en audio. Bestaande methoden hebben moeite om deze heterogene modaliteiten effectief te coördineren vanwege twee uitdagingen: de schaarste aan trainingsgegevens met gekoppelde tripletcondities en de moeilijkheid om de subtaken van subjectbehoud en audiovisuele synchronisatie met multimodale invoer te combineren. In dit werk presenteren we HuMo, een uniform HCVG-raamwerk voor collaboratieve multimodale controle. Voor de eerste uitdaging construeren we een hoogwaardige dataset met diverse en gekoppelde tekst, referentieafbeeldingen en audio. Voor de tweede uitdaging stellen we een tweefasig progressief multimodaal trainingsparadigma voor met taakspecifieke strategieën. Voor de taak van subjectbehoud, om de promptvolgende en visuele generatiecapaciteiten van het basismodel te behouden, hanteren we de minimaal-invasieve afbeeldingsinjectiestrategie. Voor de audiovisuele synchronisatietaak, naast de veelgebruikte audio cross-attention laag, stellen we een focus-by-predicting-strategie voor die het model impliciet begeleidt om audio te associëren met gezichtsregio's. Voor gezamenlijk leren van controleerbaarheid over multimodale invoer, voortbouwend op eerder verworven capaciteiten, incorporeren we progressief de audiovisuele synchronisatietaak. Tijdens inferentie ontwerpen we voor flexibele en fijnmazige multimodale controle een tijdadaptieve Classifier-Free Guidance-strategie die dynamisch de begeleidingsgewichten aanpast over de denoising-stappen. Uitgebreide experimentele resultaten tonen aan dat HuMo gespecialiseerde state-of-the-art-methoden in subtaken overtreft, en zo een uniform raamwerk vestigt voor collaboratieve multimodaal-geconditioneerde HCVG. Projectpagina: https://phantom-video.github.io/HuMo.
Vision-Language-Action (VLA)-modellen zijn recent naar voren gekomen als een krachtig paradigma voor robotmanipulatie. Ondanks aanzienlijke vooruitgang die mogelijk is gemaakt door grootschalige voorafgaande training en supervised fine-tuning (SFT), worden deze modellen geconfronteerd met twee fundamentele uitdagingen: (i) de schaarste en hoge kosten van grootschalige, door mensen bediende robottrajecten die nodig zijn voor het schalen van SFT, en (ii) beperkte generalisatie naar taken waarbij sprake is van distributieverschuiving. Recente doorbraken in Large Reasoning Models (LRMs) tonen aan dat reinforcement learning (RL) de stap-voor-stap redeneervaardigheden aanzienlijk kan verbeteren, wat de vraag oproept: Kan RL op vergelijkbare wijze de langetermijn stap-voor-stap actieplanning van VLA verbeteren? In dit werk introduceren we SimpleVLA-RL, een efficiënt RL-framework dat is toegesneden op VLA-modellen. Voortbouwend op veRL introduceren we VLA-specifieke trajectoriesteekproeven, schaalbare parallelisatie, multi-omgeving rendering en geoptimaliseerde verliesberekening. Wanneer toegepast op OpenVLA-OFT, behaalt SimpleVLA-RL state-of-the-art (SoTA) prestaties op LIBERO en overtreft het zelfs pi_0 op RoboTwin 1.0\&2.0 met de exploratieversterkende strategieën die we introduceren. SimpleVLA-RL vermindert niet alleen de afhankelijkheid van grootschalige data en maakt robuuste generalisatie mogelijk, maar overtreft SFT ook opmerkelijk in real-world taken. Bovendien identificeren we een nieuw fenomeen genaamd ``pushcut'' tijdens RL-training, waarbij het beleid eerder onzichtbare patronen ontdekt die verder gaan dan wat in het vorige trainingsproces is waargenomen. Github: https://github.com/PRIME-RL/SimpleVLA-RL
Grote taalmodellen (LLMs) beschikken over brede wereldkennis en een sterke algemene redeneervaardigheid, maar hebben moeite om te leren van veel in-context voorbeelden bij standaard machine learning (ML) taken, dat wil zeggen, om veel-shot demonstraties puur via in-context learning (ICL) te benutten zonder gradient descent. We introduceren MachineLearningLM, een draagbaar voortgezet-pretrainingsframework dat een algemeen LLM uitrust met robuuste in-context ML-capaciteit, terwijl het zijn algemene kennis en redenering behoudt voor bredere chatworkflows. Onze pretrainingsprocedure synthetiseert ML-taken uit miljoenen structurele causale modellen (SCMs), met shot-aantallen tot 1.024. We beginnen met een random-forest leraar, waarbij boomgebaseerde beslissingsstrategieën worden gedistilleerd in het LLM om de robuustheid in numerieke modellering te versterken. Alle taken worden geserialiseerd met een token-efficiënte prompt, waardoor 3x tot 6x meer voorbeelden per contextvenster mogelijk zijn en een tot 50x geamortiseerde doorvoer wordt geleverd via batch inferentie. Ondanks een bescheiden opzet (Qwen-2.5-7B-Instruct met LoRA rang 8), presteert MachineLearningLM beter dan sterke LLM-baselines (bijv. GPT-5-mini) met een gemiddelde van ongeveer 15% op out-of-distribution tabelclassificatie over domeinen als financiën, natuurkunde, biologie en gezondheidszorg. Het vertoont een opvallende veel-shot schaalwet: de nauwkeurigheid neemt monotoon toe naarmate in-context demonstraties groeien van 8 tot 1.024. Zonder enige taakspecifieke training bereikt het random-forest-niveau nauwkeurigheid over honderden shots. Algemene chatcapaciteiten, inclusief kennis en redenering, blijven behouden: het behaalt 75,4% op MMLU.
Spraak-naar-spraak grote taalmodellen (SLLMs) trekken steeds meer aandacht. Afgeleid van tekstgebaseerde grote taalmodellen (LLMs), vertonen SLLMs vaak een achteruitgang in kennis en redeneervaardigheden. Wij veronderstellen dat deze beperking ontstaat omdat de huidige trainingsparadigma's voor SLLMs er niet in slagen de akoestisch-semantische kloof in de kenmerkrepresentatieruimte te overbruggen. Om dit probleem aan te pakken, stellen we EchoX voor, dat semantische representaties benut en dynamisch spraaktrainingsdoelen genereert. Deze aanpak integreert zowel akoestisch als semantisch leren, waardoor EchoX sterke redeneervaardigheden kan behouden als een spraak-LLM. Experimentele resultaten tonen aan dat EchoX, met ongeveer zesduizend uur aan trainingsdata, geavanceerde prestaties behaalt op meerdere kennisgebaseerde vraag-antwoordbenchmarks. Het project is beschikbaar op https://github.com/FreedomIntelligence/EchoX.
Recente vooruitgang in audio-gestuurde avatar-videogeneratie heeft de audio-visuele realisme aanzienlijk verbeterd. Bestaande methoden behandelen instructieconditionering echter slechts als laag-niveau tracking gedreven door akoestische of visuele signalen, zonder het communicatieve doel van de instructies te modelleren. Deze beperking gaat ten koste van de narratieve samenhang en karakterexpressiviteit. Om deze kloof te overbruggen, introduceren we Kling-Avatar, een nieuw cascadeframework dat multimodale instructiebegrip verenigt met fotorealistische portretgeneratie. Onze aanpak volgt een tweestappenpijplijn. In de eerste fase ontwerpen we een multimodaal groot taalmodel (MLLM) regisseur dat een blauwdrukvideo produceert, geconditioneerd op diverse instructiesignalen, waardoor hoog-niveau semantiek zoals karakterbeweging en emoties wordt gestuurd. In de tweede fase, geleid door blauwdruk-keyframes, genereren we meerdere subclips parallel met behulp van een eerste-laatste frame strategie. Dit globaal-naar-lokaal framework behoudt fijnmazige details terwijl het de hoog-niveau intentie achter multimodale instructies trouw weergeeft. Onze parallelle architectuur maakt ook snelle en stabiele generatie van lange video's mogelijk, wat het geschikt maakt voor real-world toepassingen zoals digitale menselijke livestreams en vlogs. Om onze methode uitgebreid te evalueren, hebben we een benchmark opgebouwd van 375 gecureerde samples die diverse instructies en uitdagende scenario's omvatten. Uitgebreide experimenten tonen aan dat Kling-Avatar levendige, vloeiende, lange video's kan genereren tot 1080p en 48 fps, met superieure prestaties op het gebied van lip-synchronisatie nauwkeurigheid, emotie- en dynamische expressiviteit, instructiecontroleerbaarheid, identiteitsbehoud en cross-domein generalisatie. Deze resultaten vestigen Kling-Avatar als een nieuwe benchmark voor semantisch verankerde, hoogwaardige audio-gestuurde avatarsynthese.
Bij langetermijntaken ondervinden recente agents gebaseerd op Large Language Models (LLMs) een aanzienlijke uitdaging: schaarse, op resultaten gebaseerde beloningen maken het moeilijk om credits toe te kennen aan tussenliggende stappen. Eerdere methoden richten zich voornamelijk op het creëren van dichte beloningssignalen om het leren te begeleiden, hetzij via traditionele reinforcement learning-technieken zoals inverse reinforcement learning, hetzij door gebruik te maken van Process Reward Models voor stap-voor-stap feedback. In dit artikel identificeren we een fundamenteel probleem in de leer dynamiek van LLMs: de grootte van de policy gradients is inherent gekoppeld aan de entropie, wat leidt tot inefficiënt kleine updates voor zelfverzekerde correcte acties en mogelijk destabiliserende grote updates voor onzekere acties. Om dit op te lossen, stellen we Entropy-Modulated Policy Gradients (EMPG) voor, een raamwerk dat het leersignaal herkalibreert op basis van stap-voor-stap onzekerheid en het uiteindelijke taakresultaat. EMPG versterkt updates voor zelfverzekerde correcte acties, bestraft zelfverzekerde fouten, en dempt updates van onzekere stappen om de exploratie te stabiliseren. We introduceren verder een bonusterm voor toekomstige duidelijkheid die agents aanmoedigt om meer voorspelbare oplossingspaden te vinden. Door uitgebreide experimenten op drie uitdagende agenttaken, WebShop, ALFWorld en Deep Search, tonen we aan dat EMPG aanzienlijke prestatieverbeteringen bereikt en sterk presteert in vergelijking met sterke policy gradient-baselines. De projectpagina is te vinden op https://empgseed-seed.github.io/.
De vooruitgang van open-source tekst-naar-beeld (T2I) modellen is belemmerd door het ontbreken van grootschalige, op redenering gerichte datasets en uitgebreide evaluatiebenchmarks, wat heeft geleid tot een prestatiekloof in vergelijking met toonaangevende closed-source systemen. Om deze uitdaging aan te pakken, introduceren we FLUX-Reason-6M en PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is een enorme dataset die bestaat uit 6 miljoen hoogwaardige FLUX-gegenereerde afbeeldingen en 20 miljoen tweetalige (Engels en Chinees) beschrijvingen die specifiek zijn ontworpen om complexe redenering aan te leren. De afbeeldingen zijn georganiseerd volgens zes belangrijke kenmerken: Verbeelding, Entiteit, Tekstweergave, Stijl, Emotie en Compositie, en expliciete Generation Chain-of-Thought (GCoT) is ontworpen om gedetailleerde stappen van de beeldgeneratie te bieden. De gehele datacuratie heeft 15.000 A100 GPU-dagen in beslag genomen, wat de gemeenschap een bron biedt die voorheen buiten bereik was buiten grote industriële laboratoria. PRISM-Bench biedt een nieuwe evaluatiestandaard met zeven verschillende tracks, waaronder een uitdagende Long Text-uitdaging met behulp van GCoT. Door zorgvuldig ontworpen prompts maakt het gebruik van geavanceerde visie-taalmodellen voor genuanceerde, mensgerichte beoordeling van prompt-beeldovereenkomst en beeldesthetiek. Onze uitgebreide evaluatie van 19 toonaangevende modellen op PRISM-Bench onthult kritieke prestatiekloven en benadrukt specifieke gebieden die verbetering behoeven. Onze dataset, benchmark en evaluatiecode zijn vrijgegeven om de volgende golf van redeneringsgerichte T2I-generatie te stimuleren. Projectpagina: https://flux-reason-6m.github.io/.
In dit artikel introduceren we een inzichtelijk paradigma door de lens van de Auto-Encoder: begrijpen als de encoder (I2T) die afbeeldingen comprimeert naar tekst, en genereren als de decoder (T2I) die afbeeldingen reconstrueert vanuit die tekst. Door reconstructiefideliteit als het verenigde trainingsdoel te gebruiken, dwingen we een coherente bidirectionele informatiestroom af tussen de begrips- en generatieprocessen, wat wederzijdse voordelen oplevert. Om dit te implementeren, stellen we UAE voor, een nieuw raamwerk voor verenigd multimodaal leren. We beginnen met het vooraf trainen van de decoder met grootschalige, lang-context beeldbeschrijvingen om fijnmazige semantische en complexe ruimtelijke relaties vast te leggen. Vervolgens introduceren we Unified-GRPO via reinforcement learning (RL), dat drie fasen omvat: (1) Een koude-startfase om zowel de encoder als de decoder zachtjes te initialiseren met een semantische reconstructieverlies; (2) Genereren voor Begrip, waarbij de encoder wordt getraind om informatieve beschrijvingen te genereren die de reconstructiekwaliteit van de decoder maximaliseren, waardoor het visuele begrip wordt verbeterd; (3) Begrip voor Generatie, waarbij de decoder wordt verfijnd om te reconstrueren vanuit deze beschrijvingen, waardoor deze gedwongen wordt elk detail te benutten en zijn lang-context instructievolging en generatiefideliteit te verbeteren. Voor evaluatie introduceren we Unified-Bench, de eerste benchmark die specifiek is ontworpen om de mate van unificatie van de UMM's te beoordelen. Een verrassend "aha-moment" doet zich voor binnen het domein van multimodaal leren: naarmate de RL vordert, produceert de encoder autonoom meer beschrijvende bijschriften, terwijl de decoder tegelijkertijd een diepgaand vermogen toont om deze ingewikkelde beschrijvingen te begrijpen, wat resulteert in reconstructies van opvallende fideliteit.
Er is aanzienlijke vooruitgang geboekt op het gebied van ruimtelijke intelligentie, zowel op het gebied van ruimtelijke reconstructie als wereldverkenning. De schaalbaarheid en realistische nauwkeurigheid van huidige modellen worden echter ernstig beperkt door het gebrek aan grootschalige, hoogwaardige trainingsdata. Hoewel verschillende datasets camerapositie-informatie bieden, zijn deze doorgaans beperkt in schaal, diversiteit en annotatierijkdom, vooral voor realistische dynamische scènes met grondwaarheidscamerabewegingen. Daarom hebben we SpatialVID verzameld, een dataset die bestaat uit een grote verzameling in-the-wild video's met diverse scènes, camerabewegingen en dichte 3D-annotaties zoals per-frame cameraposities, diepte en bewegingsinstructies. Specifiek hebben we meer dan 21.000 uur aan ruwe video verzameld en deze verwerkt tot 2,7 miljoen clips via een hiërarchisch filterpijplijn, wat in totaal 7.089 uur dynamische content oplevert. Een daaropvolgende annotatiepijplijn verrijkt deze clips met gedetailleerde ruimtelijke en semantische informatie, waaronder cameraposities, dieptekaarten, dynamische maskers, gestructureerde bijschriften en geserialiseerde bewegingsinstructies. Analyse van de datastatistieken van SpatialVID onthult een rijkdom en diversiteit die direct bijdragen aan verbeterde modelgeneralizatie en prestaties, waardoor het een belangrijk hulpmiddel wordt voor de video- en 3D-visieonderzoeksgemeenschap.
Grote Audio Taalmodellen (LALMs) maken snel vooruitgang, maar het evalueren ervan blijft een uitdaging door inefficiënte toolkits die een eerlijke vergelijking en systematische beoordeling beperken. Huidige frameworks kampen met drie kritieke problemen: trage verwerking die grootschalige studies vertraagt, inconsistente prompting die de reproduceerbaarheid schaadt, en beperkte taakdekking die belangrijke audio-redeneervaardigheden mist. Wij introduceren AU-Harness, een efficiënt en uitgebreid evaluatieframework voor LALMs. Ons systeem behaalt een snelheidsverbetering van tot 127% ten opzichte van bestaande toolkits door geoptimaliseerde batchverwerking en parallelle uitvoering, waardoor grootschalige evaluaties mogelijk worden die voorheen onpraktisch waren. Wij bieden gestandaardiseerde promptingprotocollen en flexibele configuraties voor een eerlijke modelvergelijking in diverse scenario's. Daarnaast introduceren we twee nieuwe evaluatiecategorieën: LLM-Adaptive Diarization voor temporeel audiobegrip en Spoken Language Reasoning voor complexe audio-gebaseerde cognitieve taken. Door evaluatie over 380+ taken onthullen we aanzienlijke tekortkomingen in huidige LALMs, met name in temporeel begrip en complexe gesproken taalredeneertaken. Onze bevindingen benadrukken ook een gebrek aan standaardisatie in instructiemodaliteit die bestaat in audiobenchmarks, wat kan leiden tot prestatieverschillen van tot 9,5 absolute punten op uitdagende complexe instructievolgende downstreamtaken. AU-Harness biedt zowel praktische evaluatietools als inzichten in modelbeperkingen, wat de systematische ontwikkeling van LALMs bevordert.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtig paradigma voor het verbeteren van het redeneervermogen van Large Language Models (LLMs). Toch verkennen huidige RLVR-methoden vaak onvoldoende, wat leidt tot vroegtijdige convergentie en entropie-instorting. Om deze uitdaging aan te pakken, introduceren we Curiosity-Driven Exploration (CDE), een raamwerk dat gebruikmaakt van het intrinsieke gevoel van nieuwsgierigheid van het model om de verkenning te sturen. We formaliseren nieuwsgierigheid met signalen van zowel de actor als de critic: voor de actor gebruiken we de perplexiteit over het gegenereerde antwoord, en voor de critic gebruiken we de variantie van waardeschattingen uit een multi-head architectuur. Beide signalen dienen als een verkenningbonus binnen het RLVR-raamwerk om het model te sturen. Onze theoretische analyse toont aan dat de actor-gerichte bonus inherent overmoedige fouten bestraft en diversiteit onder correcte antwoorden bevordert; bovendien verbinden we de critic-gerichte bonus met de goed ingeburgerde count-based verkenningbonus in RL. Empirisch behaalt onze methode een geschatte verbetering van +3 punten ten opzichte van standaard RLVR met GRPO/PPO op AIME-benchmarks. Verdere analyse identificeert een calibratie-instortingsmechanisme binnen RLVR, wat inzicht geeft in veelvoorkomende foutmodi van LLMs.
Encoder-only taalmodellen worden vaak gebruikt voor een verscheidenheid aan standaard machine learning taken, waaronder classificatie en retrieval. Er is echter recentelijk weinig onderzoek gedaan naar encodermodellen, met name op het gebied van meertalige modellen. Wij introduceren mmBERT, een encoder-only taalmodel dat voorgetraind is op 3T tokens van meertalige tekst in meer dan 1800 talen. Voor de ontwikkeling van mmBERT introduceren we verschillende nieuwe elementen, waaronder een inverse maskerratio-schema en een inverse temperatuursteekproefratio. We voegen meer dan 1700 talen met weinig bronnen toe aan de datamix, maar alleen tijdens de vervalfase, wat aantoont dat dit de prestaties aanzienlijk verbetert en de winst maximaliseert uit de relatief kleine hoeveelheid trainingsdata. Ondanks dat we deze talen met weinig bronnen alleen in de korte vervalfase opnemen, behalen we vergelijkbare classificatieprestaties als modellen zoals OpenAI's o3 en Google's Gemini 2.5 Pro. Over het algemeen laten we zien dat mmBERT de vorige generatie modellen aanzienlijk overtreft op classificatie- en retrievaltaken – zowel voor talen met veel als weinig bronnen.
Het begrijpen van grafieken vormt een cruciale test voor de redeneervaardigheden van Vision-Language Models (VLMs). Eerdere benaderingen kampen met belangrijke beperkingen: sommige vertrouwen op externe tools, waardoor ze kwetsbaar zijn en beperkt worden door een vooraf gedefinieerde toolkit, terwijl andere gespecialiseerde modellen finetunen die vaak een enkele redeneerstrategie hanteren, zoals tekstgebaseerde chain-of-thought (CoT). De tussenliggende stappen van tekstgebaseerd redeneren zijn moeilijk te verifiëren, wat het gebruik van reinforcement-learning-signalen die feitelijke nauwkeurigheid belonen, bemoeilijkt. Om dit aan te pakken, stellen we een Code-as-Thought (CaT)-benadering voor om de visuele informatie van een grafiek weer te geven in een verifieerbaar, symbolisch formaat. Onze belangrijkste inzicht is dat deze strategie adaptief moet zijn: een vaste, uitsluitend code-gebaseerde implementatie faalt consistent bij complexe grafieken waar symbolische representatie ongeschikt is. Deze bevinding leidt ons tot de introductie van Visuele Programmeerbaarheid: een leerbare eigenschap die bepaalt of een grafiek-vraagpaar beter opgelost kan worden met code of directe visuele analyse. We implementeren dit concept in een adaptief framework waarin een VLM leert te kiezen tussen het CaT-pad en een direct visueel redeneerpad. Het selectiebeleid van het model wordt getraind met reinforcement learning met behulp van een nieuw dubbel-beloningssysteem. Dit systeem combineert een data-nauwkeurigheidsbeloning om het model in feiten te verankeren en numerieke hallucinatie te voorkomen, met een beslissingsbeloning die het model leert wanneer het elke strategie moet gebruiken, waardoor het wordt voorkomen dat het terugvalt op een enkele redeneermodus. Experimenten tonen sterke en robuuste prestaties aan op diverse benchmarks voor grafiekbegrip. Ons werk laat zien dat VLMs niet alleen kunnen worden geleerd om te redeneren, maar ook hoe te redeneren, door dynamisch het optimale redeneerpad voor elke taak te selecteren.
Het begrijpen van 3D-ruimtelijke relaties blijft een belangrijke beperking van huidige Vision-Language Models (VLMs). Eerder werk heeft dit probleem aangepakt door ruimtelijke vraag-antwoord (QA) datasets te creëren op basis van enkele afbeeldingen of indoor video's. Echter, in de echte wereld vertrouwen belichaamde AI-agents zoals robots en zelfrijdende auto's doorgaans op ego-centrische, multi-view observaties. Daarom introduceren we Ego3D-Bench, een nieuwe benchmark ontworpen om de ruimtelijke redeneervaardigheden van VLMs te evalueren met behulp van ego-centrische, multi-view buitendata. Ego3D-Bench omvat meer dan 8.600 QA-paren, gecreëerd met aanzienlijke betrokkenheid van menselijke annotators om kwaliteit en diversiteit te waarborgen. We benchmarken 16 state-of-the-art VLMs, waaronder GPT-4o, Gemini1.5-Pro, InternVL3 en Qwen2.5-VL. Onze resultaten onthullen een opmerkelijk prestatieverschil tussen menselijke scores en VLM-prestaties, wat aantoont dat huidige VLMs nog steeds tekortschieten in vergelijking met menselijk niveau van ruimtelijk begrip. Om deze kloof te overbruggen, stellen we Ego3D-VLM voor, een post-trainingsframework dat de 3D-ruimtelijke redeneervaardigheden van VLMs verbetert. Ego3D-VLM genereert een cognitieve kaart op basis van geschatte globale 3D-coördinaten, wat resulteert in een gemiddelde verbetering van 12% op meerkeuze-QA en een gemiddelde verbetering van 56% op absolute afstandsschatting. Ego3D-VLM is modulair en kan worden geïntegreerd met elk bestaand VLM. Samen bieden Ego3D-Bench en Ego3D-VLM waardevolle tools om vooruitgang te boeken naar menselijk niveau van ruimtelijk begrip in real-world, multi-view omgevingen.
Hoewel Contrastive Language-Image Pre-training (CLIP) sterke prestaties vertoont in diverse visuele taken, wordt de toepassing ervan op het leren van persoonrepresentaties geconfronteerd met twee kritieke uitdagingen: (i) de schaarste aan grootschalige geannoteerde visueel-linguïstische data die gericht is op persoonsgerichte afbeeldingen, en (ii) de inherente beperkingen van globaal contrastief leren, dat moeite heeft om onderscheidende lokale kenmerken te behouden die cruciaal zijn voor fijnmazige matching, terwijl het tegelijkertijd kwetsbaar blijft voor ruisachtige teksttokens. Dit werk verbetert CLIP voor het leren van persoonrepresentaties door synergetische verbeteringen in datacuratie en modelarchitectuur. Ten eerste ontwikkelen we een ruisbestendige dataconstructiepijplijn die gebruikmaakt van de in-context leermogelijkheden van MLLMs om automatisch webgebaseerde afbeeldingen te filteren en te voorzien van bijschriften. Dit resulteert in WebPerson, een grootschalige dataset van 5M hoogwaardige persoonsgerichte afbeelding-tekstparen. Ten tweede introduceren we het GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) raamwerk, dat de cross-modale alignering verbetert door adaptief ruisachtige tekstuele tokens te maskeren op basis van de gradient-attention similariteitsscore. Daarnaast integreren we gemaskeerde tokenvoorspellingsdoelen die het model dwingen om informatieve teksttokens te voorspellen, wat het leren van fijnmazige semantische representaties versterkt. Uitgebreide experimenten tonen aan dat GA-DMS state-of-the-art prestaties behaalt op meerdere benchmarks.
De opkomst van taalmodelen met lange contextvensters die zich uitstrekken tot miljoenen tokens heeft nieuwe mogelijkheden gecreëerd voor geavanceerd codebegrip en evaluatie van softwareontwikkeling. Wij stellen LoCoBench voor, een uitgebreide benchmark die specifiek is ontworpen om taalmodelen met lange context te evalueren in realistische, complexe softwareontwikkelingsscenario's. In tegenstelling tot bestaande code-evaluatiebenchmarks die zich richten op het voltooien van enkele functies of taken met korte context, adresseert LoCoBench het kritieke evaluatiegat voor lange-contextcapaciteiten die het begrijpen van volledige codebases, redeneren over meerdere bestanden en het handhaven van architectonische consistentie in grootschalige softwaresystemen vereisen. Onze benchmark biedt 8.000 evaluatiescenario's die systematisch zijn gegenereerd over 10 programmeertalen, met contextlengtes variërend van 10K tot 1M tokens, een variatie van 100x die een nauwkeurige beoordeling van prestatieverlies bij lange context in realistische softwareontwikkelingsomgevingen mogelijk maakt. LoCoBench introduceert 8 taakcategorieën die essentiële lange-contextcapaciteiten vastleggen: architectonisch begrip, cross-file refactoring, multi-sessie ontwikkeling, bugonderzoek, functie-implementatie, codebegrip, integratietesten en beveiligingsanalyse. Via een 5-fasenpijplijn creëren we diverse, hoogwaardige scenario's die taalmodelen uitdagen om te redeneren over complexe codebases op een ongekende schaal. We introduceren een uitgebreid evaluatieraamwerk met 17 metrieken over 4 dimensies, waaronder 8 nieuwe evaluatiemetrieken, gecombineerd in een LoCoBench Score (LCBS). Onze evaluatie van state-of-the-art lange-contextmodellen onthult aanzienlijke prestatiekloof, wat aantoont dat lange-contextbegrip in complexe softwareontwikkeling een significant onopgeloste uitdaging blijft die meer aandacht vereist. LoCoBench is vrijgegeven op: https://github.com/SalesforceAIResearch/LoCoBench.
Gaussian Splatting (GS), een recente techniek voor het omzetten van discrete punten in continue ruimtelijke representaties, heeft veelbelovende resultaten getoond in 3D-scenemodellering en 2D-beeldsuperresolutie. In dit artikel onderzoeken we het onbenutte potentieel ervan voor beeldinpainting, wat zowel lokaal coherente pixelsynthese als wereldwijd consistente semantische herstel vereist. We stellen het eerste beeldinpainting-framework voor op basis van 2D Gaussian Splatting, dat onvolledige afbeeldingen codeert in een continu veld van 2D Gaussian splat-coëfficiënten en de uiteindelijke afbeelding reconstrueert via een differentieerbaar rasterisatieproces. Het continue renderparadigma van GS bevordert inherent pixel-niveau coherentie in de ingevulde resultaten. Om de efficiëntie en schaalbaarheid te verbeteren, introduceren we een patch-gewijze rasterisatiestrategie die het geheugengebruik vermindert en de inferentie versnelt. Voor wereldwijde semantische consistentie integreren we kenmerken van een voorgetraind DINO-model. We observeren dat de globale kenmerken van DINO van nature robuust zijn voor kleine ontbrekende regio's en effectief kunnen worden aangepast om semantische uitlijning te begeleiden in scenario's met grote maskers, waardoor de ingevulde inhoud contextueel consistent blijft met de omringende scène. Uitgebreide experimenten op standaard benchmarks tonen aan dat onze methode competitieve prestaties bereikt in zowel kwantitatieve metrieken als perceptuele kwaliteit, en hiermee een nieuwe richting vestigt voor het toepassen van Gaussian Splatting op 2D-beeldverwerking.
Ons team, All You Need Is A Fuzzing Brain, was een van de zeven finalisten in DARPA's Artificial Intelligence Cyber Challenge (AIxCC) en eindigde als vierde in de finale ronde. Tijdens de competitie ontwikkelden we een Cyber Reasoning System (CRS) dat autonoom 28 beveiligingslekken ontdekte - waaronder zes voorheen onbekende zero-days - in real-world open-source C- en Java-projecten, en slaagde erin om 14 daarvan te patchen. Het volledige CRS is open source beschikbaar op https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. Dit artikel biedt een gedetailleerde technische beschrijving van ons CRS, met een nadruk op de LLM-gestuurde componenten en strategieën. Gebaseerd op AIxCC, introduceren we verder een publiek leaderboard voor het benchmarken van state-of-the-art LLMs op taken gerelateerd aan het detecteren en patchen van kwetsbaarheden, afgeleid van de AIxCC-dataset. Het leaderboard is beschikbaar op https://o2lab.github.io/FuzzingBrain-Leaderboard/.
Visuele navigatie met slechts één camera en een topologische kaart is recentelijk een aantrekkelijk alternatief geworden voor methoden die aanvullende sensoren en 3D-kaarten vereisen. Dit wordt doorgaans bereikt door een "beeld-relatieve" benadering om besturing te schatten op basis van een gegeven paar huidige observatie en subdoelbeeld. Beeldniveau-representaties van de wereld hebben echter beperkingen omdat beelden strikt gebonden zijn aan de pose en belichaming van de agent. Objecten daarentegen, als een eigenschap van de kaart, bieden een belichaming- en traject-onafhankelijke wereldrepresentatie. In dit werk presenteren we een nieuw paradigma voor het leren van "object-relatieve" besturing dat verschillende wenselijke kenmerken vertoont: a) nieuwe routes kunnen worden afgelegd zonder strikt te hoeven imiteren van eerdere ervaringen, b) het besturingsvoorspellingsprobleem kan worden ontkoppeld van het oplossen van het beeldmatchende probleem, en c) hoge invariantie kan worden bereikt bij cross-belichaming implementatie voor variaties in zowel trainings-test- als kaart-uitvoeringsinstellingen. We stellen een topometrische kaartrepresentatie voor in de vorm van een "relatieve" 3D-scenegrafiek, die wordt gebruikt om meer informatieve objectniveau globale padplanningskosten te verkrijgen. We trainen een lokale controller, genaamd "ObjectReact", die direct is geconditioneerd op een hoog niveau "WayObject Costmap" representatie die de noodzaak voor expliciete RGB-invoer elimineert. We demonstreren de voordelen van het leren van object-relatieve besturing ten opzichte van de beeld-relatieve tegenhanger bij variaties in sensorhoogte en meerdere navigatietaken die het onderliggende ruimtelijke begripsvermogen uitdagen, zoals het navigeren van een kaarttraject in de omgekeerde richting. We tonen verder aan dat ons sim-only beleid goed kan generaliseren naar echte binnenomgevingen. Code en aanvullend materiaal zijn toegankelijk via de projectpagina: https://object-react.github.io/
Recente vooruitgang in grote visueel-taalmodelen (LVLMs) heeft sterke prestaties aangetoond op algemene medische taken. Hun effectiviteit in gespecialiseerde domeinen zoals tandheelkunde blijft echter onderbelicht. Panoramische röntgenfoto's, een veelgebruikte beeldvormingstechniek in de orale radiologie, vormen interpretatieve uitdagingen vanwege dichte anatomische structuren en subtiele pathologische aanwijzingen, die niet worden vastgelegd door bestaande medische benchmarks of instructiedatasets. Daarom introduceren we MMOral, de eerste grootschalige multimodale instructiedataset en benchmark die specifiek is ontworpen voor de interpretatie van panoramische röntgenfoto's. MMOral bestaat uit 20.563 geannoteerde afbeeldingen, gekoppeld aan 1,3 miljoen instructievolgende instanties over diverse taaktypen, waaronder attribuutextractie, rapportgeneratie, visuele vraagbeantwoording en beeldgebaseerde dialoog. Daarnaast presenteren we MMOral-Bench, een uitgebreide evaluatiesuite die vijf belangrijke diagnostische dimensies in de tandheelkunde bestrijkt. We evalueren 64 LVLMs op MMOral-Bench en constateren dat zelfs het best presterende model, GPT-4o, slechts een nauwkeurigheid van 41,45% behaalt, wat significante beperkingen van huidige modellen in dit domein blootlegt. Om de vooruitgang in dit specifieke domein te bevorderen, stellen we ook OralGPT voor, dat supervised fine-tuning (SFT) uitvoert op Qwen2.5-VL-7B met onze zorgvuldig samengestelde MMOral-instructiedataset. Opmerkelijk is dat een enkele epoch van SFT aanzienlijke prestatieverbeteringen oplevert voor LVLMs; OralGPT toont bijvoorbeeld een verbetering van 24,73%. Zowel MMOral als OralGPT hebben aanzienlijk potentieel als een cruciale basis voor intelligente tandheelkunde en maken meer klinisch impactvolle multimodale AI-systemen in het tandheelkundige veld mogelijk. De dataset, het model, de benchmark en de evaluatiesuite zijn beschikbaar op https://github.com/isbrycee/OralGPT.
Een centraal paradox bij het finetunen van Large Language Models (LLMs) met Reinforcement Learning met Verifieerbare Beloning (RLVR) is de frequente achteruitgang in prestaties bij meerdere pogingen (Pass@k), ondanks verbeteringen in nauwkeurigheid bij een enkele poging (Pass@1). Dit gaat vaak gepaard met catastrofaal vergeten, waarbij modellen eerder verworven vaardigheden verliezen. Hoewel verschillende methoden zijn voorgesteld, zijn de keuze en functie van de divergentieterm verrassend weinig onderzocht als een proactieve oplossing. Wij stellen dat standaard RLVR-doelstellingen — zowel die gebruikmaken van de mode-zoekende reverse KL-divergentie als die die helemaal geen divergentieterm gebruiken — een cruciaal mechanisme voor kennisbehoud missen. De reverse-KL versnelt dit verval actief door het beleid te vernauwen, terwijl de afwezigheid ervan geen bescherming biedt tegen het afdrijven van het model van zijn diverse kennisbasis. Wij stellen een fundamentele verschuiving in perspectief voor: de divergentieterm zelf als oplossing gebruiken. Ons framework, Diversity-Preserving Hybrid RL (DPH-RL), maakt gebruik van massabedekkende f-divergenties (zoals forward-KL en JS-divergentie) om te fungeren als een herhalingsmechanisme. Door continu te verwijzen naar het initiële beleid, dwingt deze aanpak het model om een brede oplossingsdekking te behouden. Uitgebreide experimenten op het gebied van wiskunde- en SQL-generatie tonen aan dat DPH-RL niet alleen de achteruitgang in Pass@k oplost, maar zowel Pass@1 als Pass@k verbetert, zowel binnen als buiten het domein. Bovendien is DPH-RL efficiënter in training omdat het f-divergentie berekent met behulp van generatorfuncties, waarbij alleen steekproeven uit het initiële beleid nodig zijn en geen online referentiemodel. Ons werk belicht een cruciaal, over het hoofd gezien aspect voor het verbeteren van RLVR, en toont aan dat de juiste selectie van een divergentiemaat een krachtig hulpmiddel is voor het bouwen van meer algemene en diverse redeneermodellen.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben nieuwe mogelijkheden geopend voor belichaamde intelligentie, waardoor multimodale begrip, redenering en interactie, evenals continue ruimtelijke besluitvorming mogelijk worden gemaakt. Desalniettemin worden huidige op MLLM gebaseerde belichaamde systemen geconfronteerd met twee kritieke beperkingen. Ten eerste, de Geometrische Aanpassingskloof: modellen die uitsluitend zijn getraind op 2D-invoer of met hard-gecodeerde 3D-geometrie-injectie lijden onder onvoldoende ruimtelijke informatie of beperkte 2D-generalizatie, wat leidt tot slechte aanpassingsvermogen bij taken met uiteenlopende ruimtelijke eisen. Ten tweede, de Belichaamingsbeperkingskloof: eerder werk negeert vaak de fysieke beperkingen en capaciteiten van echte robots, wat resulteert in taakplannen die theoretisch geldig zijn maar praktisch onuitvoerbaar. Om deze kloof te overbruggen, introduceren we OmniEVA -- een veelzijdige belichaamde planner die geavanceerde belichaamde redenering en taakplanning mogelijk maakt door middel van twee cruciale innovaties: (1) een Taak-Adaptief 3D-Grondingsmechanisme, dat een gated router introduceert om expliciete selectieve regulatie van 3D-fusie uit te voeren op basis van contextuele vereisten, waardoor contextbewuste 3D-gronding voor diverse belichaamde taken mogelijk wordt. (2) een Belichaamingsbewust Redeneerkader dat zowel taakdoelen als belichaamingsbeperkingen gezamenlijk in de redeneerlus integreert, wat resulteert in planningsbeslissingen die zowel doelgericht als uitvoerbaar zijn. Uitgebreide experimentele resultaten tonen aan dat OmniEVA niet alleen state-of-the-art algemene belichaamde redeneerprestaties bereikt, maar ook een sterke vaardigheid vertoont over een breed scala aan downstreamscenario's. Evaluaties van een reeks voorgestelde belichaamde benchmarks, inclusief zowel primaire als samengestelde taken, bevestigen de robuuste en veelzijdige planningscapaciteiten ervan. Projectpagina: https://omnieva.github.io
Vroeg onderzoek naar datavergiftigingsaanvallen tegen Large Language Models (LLM's) toonde aan hoe eenvoudig backdoors konden worden geïnjecteerd. Recentere LLM's voegen stap-voor-stap redenering toe, waardoor het aanvalsoppervlak wordt uitgebreid naar de tussenliggende keten van gedachten (CoT) en het inherente kenmerk van het opdelen van problemen in subproblemen. Door deze vectoren te gebruiken voor meer verborgen vergiftiging, introduceren we ``gedecomposeerde redeneringsvergiftiging'', waarbij de aanvaller alleen het redeneringspad wijzigt, terwijl prompts en eindantwoorden schoon blijven, en de trigger verdeelt over meerdere, individueel onschadelijke componenten. Fascinerend genoeg, hoewel het mogelijk blijft om deze gedecomposeerde vergiften te injecteren, is het verrassend moeilijk om ze betrouwbaar te activeren om eindantwoorden te veranderen (in plaats van alleen de CoT). Deze moeilijkheid ontstaat omdat de modellen vaak kunnen herstellen van backdoors die in hun denkprocessen worden geactiveerd. Uiteindelijk lijkt het erop dat een opkomende vorm van backdoor-robuustheid voortkomt uit de redeneervaardigheden van deze geavanceerde LLM's, evenals uit de architecturale scheiding tussen redenering en het genereren van eindantwoorden.
Deep learning-oplossingen voor kwetsbaarheidsdetectie die in academisch onderzoek worden voorgesteld, zijn niet altijd toegankelijk voor ontwikkelaars, en hun toepasbaarheid in industriële omgevingen wordt zelden behandeld. Het overbrengen van dergelijke technologieën van de academische wereld naar de industrie brengt uitdagingen met zich mee die verband houden met betrouwbaarheid, verouderde systemen, beperkte digitale geletterdheid en de kloof tussen academische en industriële expertise. Voor deep learning in het bijzonder zijn prestaties en integratie in bestaande workflows bijkomende zorgen. In dit werk evalueren we eerst de prestaties van CodeBERT voor het detecteren van kwetsbare functies in industriële en open-source software. We analyseren de cross-domein generalisatie wanneer het wordt afgestemd op open-source data en getest op industriële data, en vice versa, waarbij we ook strategieën onderzoeken om klasse-onbalans aan te pakken. Op basis van deze resultaten ontwikkelen we AI-DO (Automatisering van kwetsbaarheidsdetectie Integratie voor Ontwikkelaarsoperaties), een Continuous Integration-Continuous Deployment (CI/CD)-geïntegreerd aanbevelingssysteem dat gebruikmaakt van afgestemde CodeBERT om kwetsbaarheden te detecteren en te lokaliseren tijdens code review zonder workflows te verstoren. Ten slotte beoordelen we de waargenomen bruikbaarheid van de tool via een enquête onder IT-professionals van het bedrijf. Onze resultaten tonen aan dat modellen die getraind zijn op industriële data kwetsbaarheden nauwkeurig detecteren binnen hetzelfde domein, maar prestaties verliezen op open-source code, terwijl een deep learning-model dat is afgestemd op open data, met geschikte undersampling-technieken, de detectie van kwetsbaarheden verbetert.
Multimodale aanbevelingssystemen worden steeds meer fundamentele technologieën voor e-commerce- en contentplatforms, die gepersonaliseerde diensten mogelijk maken door het gezamenlijk modelleren van de historische gedragingen van gebruikers en de multimodale kenmerken van items (bijv. visueel en tekstueel). De meeste bestaande methoden vertrouwen echter op statische fusiestrategieën of op grafieken gebaseerde lokale interactiemodellering, wat twee kritieke beperkingen met zich meebrengt: (1) onvoldoende vermogen om fijnmazige cross-modale associaties te modelleren, wat leidt tot suboptimale fusiekwaliteit; en (2) een gebrek aan globale distributieniveau consistentie, wat representatiebias veroorzaakt. Om deze problemen aan te pakken, stellen we MambaRec voor, een nieuw framework dat lokale kenmerkuitlijning en globale distributieregularisatie integreert via aandacht-geleerd leren. Centraal in ons framework staat de Dilated Refinement Attention Module (DREAM), die multi-schaal gedilateerde convoluties gebruikt met kanaalgewijze en ruimtelijke aandacht om fijnmazige semantische patronen tussen visuele en tekstuele modaliteiten uit te lijnen. Deze module vangt hiërarchische relaties en contextbewuste associaties op, waardoor de cross-modale semantische modellering wordt verbeterd. Daarnaast passen we Maximum Mean Discrepancy (MMD) en contrastieve verliesfuncties toe om de globale modaliteitsuitlijning te beperken, wat de semantische consistentie versterkt. Deze dubbele regularisatie vermindert modus-specifieke afwijkingen en verhoogt de robuustheid. Om de schaalbaarheid te verbeteren, gebruikt MambaRec een dimensionaliteitsreductiestrategie om de rekenkosten van hoogdimensionale multimodale kenmerken te verlagen. Uitgebreide experimenten op real-world e-commerce datasets tonen aan dat MambaRec bestaande methoden overtreft in fusiekwaliteit, generalisatie en efficiëntie. Onze code is publiekelijk beschikbaar gemaakt op https://github.com/rkl71/MambaRec.