Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote redeneermodellen hebben sterke probleemoplossende vermogens getoond, maar realistische taken vereisen vaak externe hulpmiddelen en langetermijninteracties. Bestaande agentframeworks volgen doorgaans vooraf gedefinieerde workflows, wat autonome en globale taakvoltooiing beperkt. In dit artikel introduceren we DeepAgent, een end-to-end diepe redeneeragent die autonoom denken, hulpmiddelontdekking en actie-uitvoering uitvoert binnen één coherent redeneerproces. Om de uitdagingen van langetermijninteracties aan te pakken, met name de explosie van contextlengte door meerdere hulpmiddelaanroepen en de opeenstapeling van interactiegeschiedenis, introduceren we een autonoom geheugenopvouwingmechanisme dat eerdere interacties comprimeert tot gestructureerde episodische, werk- en hulpmiddelherinneringen, waardoor foutenaccumulatie wordt verminderd terwijl kritieke informatie behouden blijft. Om algemeen bruikbaar hulpmiddelgebruik efficiënt en stabiel aan te leren, ontwikkelen we een end-to-end versterkingsleerstrategie, genaamd ToolPO, die gebruikmaakt van door LLM gesimuleerde API's en voordeeltoekenning voor hulpmiddelaanroepen toepast om fijnmazige credits toe te wijzen aan de tokens voor hulpmiddelaanroeping. Uitgebreide experimenten op acht benchmarks, inclusief algemene hulpmiddelgebruiktaken (ToolBench, API-Bank, TMDB, Spotify, ToolHop) en downstreamtoepassingen (ALFWorld, WebShop, GAIA, HLE), tonen aan dat DeepAgent consistent beter presteert dan baseline-methoden in zowel gelabelde-hulpmiddel- als open-set-hulpmiddelretrievalscenario's. Dit werk zet een stap richting algemenere en capabelere agents voor realistische toepassingen. De code en demo zijn beschikbaar op https://github.com/RUC-NLPIR/DeepAgent.
Geavanceerde redeneermodellen hebben ongelooflijke capaciteiten getoond in een breed scala aan disciplines, aangedreven door het nabijtrainen van grote taalmodellen (LLM's) met reinforcement learning (RL). Ondanks het wijdverbreide succes van dit paradigma, is een groot deel van de literatuur gewijd aan het ontwarren van werkelijk nieuw gedrag dat tijdens RL ontstaat maar niet aanwezig is in de basismodellen. In ons werk benaderen we deze vraag vanuit een andere hoek, en vragen we ons in plaats daarvan af of vergelijkbare redeneercapaciteiten kunnen worden opgeroepen uit basismodellen tijdens de inferentiefase door middel van pure steekproefname, zonder enige aanvullende training. Geïnspireerd door Markov chain Monte Carlo (MCMC)-technieken voor het nemen van steekproeven uit aangescherpte verdelingen, stellen we een eenvoudig iteratief steekproefalgoritme voor dat gebruikmaakt van de eigen likelihoods van de basismodellen. Over verschillende basismodellen tonen we aan dat ons algoritme substantiële verbeteringen biedt in redenering die bijna evenaren en zelfs overtreffen die van RL op een grote verscheidenheid aan one-shot taken, waaronder MATH500, HumanEval en GPQA. Bovendien vermijdt onze steekproefnemer het verval in diversiteit over meerdere steekproeven dat kenmerkend is voor RL-natraining. Cruciaal is dat onze methode geen training, gecureerde datasets of een verificator vereist, wat een brede toepasbaarheid suggereert buiten eenvoudig verifieerbare domeinen.
Gegeneraliseerde semantische controle in videogeneratie blijft een cruciale, onopgeloste uitdaging. Bestaande methoden introduceren ofwel artefacten door het afdwingen van ongeschikte pixelgewijze aannames vanuit op structuur gebaseerde controles, of vertrouwen op niet-generaliseerbare, conditie-specifieke finetuning of taakspecifieke architecturen. Wij introduceren Video-As-Prompt (VAP), een nieuw paradigma dat dit probleem herformuleert als in-context generatie. VAP benut een referentievideo als een directe semantische prompt, die een bevroren Video Diffusion Transformer (DiT) aanstuurt via een plug-and-play Mixture-of-Transformers (MoT) expert. Deze architectuur voorkomt catastrofale vergetelheid en wordt geleid door een tijdelijk vooringenomen positionele inbedding die valse mapping-aannames elimineert voor robuuste contextretrieval. Om deze aanpak mogelijk te maken en toekomstig onderzoek te katalyseren, bouwden we VAP-Data, de grootste dataset voor semantisch-gestuurde videogeneratie met meer dan 100.000 gepaarde video's verspreid over 100 semantische condities. Als een enkele, verenigde model vestigt VAP een nieuwe state-of-the-art voor open-source methoden, met een gebruikersvoorkeurspercentage van 38.7% dat concurreert met toonaangevende conditie-specifieke commerciële modellen. VAP's sterke zero-shot generalisatie en ondersteuning voor diverse downstream toepassingen markeren een significante vooruitgang richting algemeen toepasbare, bestuurbare videogeneratie.
Wij pakken de uitdaging aan om een oneindig uitbreidbare 3D-wereld te genereren – grote, doorlopende omgevingen met coherente geometrie en realistische uitstraling. Bestaande methoden kampen met belangrijke problemen: 2D-liftingbenaderingen lijden onder geometrische- en uiterlijke inconsistenties tussen verschillende aanzichten, 3D-impliciete representaties zijn moeilijk op te schalen, en huidige 3D-foundationmodellen zijn vooral objectgecentreerd, wat hun toepasbaarheid op scèneniveau beperkt. Onze kerninzicht is het benutten van sterke generatie-priors van vooraf getrainde 3D-modellen voor gestructureerde scèneblokgeneratie. Hiertoe stellen wij WorldGrow voor, een hiërarchisch raamwerk voor onbegrensde 3D-scènesynthese. Onze methode omvat drie kernelementen: (1) een datacuratiepijplijn die hoogwaardige scèneblokken voor training extraheert, waardoor de gestructureerde 3D-latente representaties geschikt worden voor scènegeneratie; (2) een 3D-blokinpaintingsmechanisme dat contextbewuste scène-uitbreiding mogelijk maakt; en (3) een coarse-to-fine-generatiestrategie die zowel de globale lay-outgeloofwaardigheid als de lokale geometrische/texturele nauwkeurigheid waarborgt. Geëvalueerd op de grootschalige 3D-FRONT-dataset behaalt WorldGrow state-of-the-art prestaties in geometriereconstructie, terwijl het uniek ondersteuning biedt voor oneindige scènegeneratie met fotorealistische en structureel consistente resultaten. Deze resultaten onderstrepen de capaciteit voor het construeren van grootschalige virtuele omgevingen en de potentie voor het bouwen van toekomstige wereldmodellen.
Het ontbreken van een concrete definitie voor Algemene Kunstmatige Intelligentie (AGI) vertroebelt het onderscheid tussen de gespecialiseerde AI van vandaag en menselijk cognitief vermogen. Dit artikel introduceert een kwantificeerbaar raamwerk om dit aan te pakken, waarbij AGI wordt gedefinieerd als het evenaren van de cognitieve veelzijdigheid en bekwaamheid van een goed opgeleide volwassene. Om dit operationeel te maken, baseren we onze methodologie op de Cattell-Horn-Carroll-theorie, het meest empirisch gevalideerde model van menselijke cognitie. Het raamwerk ontleedt algemene intelligentie in tien kerncognitieve domeinen – waaronder redeneren, geheugen en perceptie – en past gevestigde psychometrische testbatterijen voor mensen aan om AI-systemen te evalueren. Toepassing van dit raamwerk onthult een sterk "gefragmenteerd" cognitief profiel bij hedendaagse modellen. Hoewel ze bekwaam zijn in kennisdomeinen, vertonen huidige AI-systemen kritieke tekortkomingen in fundamentele cognitieve mechanismen, met name in langetermijngeheugenopslag. De resulterende AGI-scores (bijvoorbeeld GPT-4 op 27%, GPT-5 op 58%) kwantificeren concreet zowel de snelle vooruitgang als de aanzienlijke kloof die nog resteert voor AGI wordt bereikt.
Group Relative Policy Optimization (GRPO) heeft een sterk potentieel getoond voor flow-matching-gebaseerde tekst-naar-beeld (T2I) generatie, maar kampt met twee belangrijke beperkingen: onnauwkeurige advantage-attributie en het negeren van de temporele dynamiek van de generatie. In dit werk beargumenteren wij dat een verschuiving van het optimalisatieparadigma van stapniveau naar chunkniveau deze problemen effectief kan verlichten. Voortbordurend op dit idee stellen wij Chunk-GRPO voor, de eerste op chunkniveau gebaseerde GRPO-aanpak voor T2I-generatie. De kerninzicht is om opeenvolgende stappen te groeperen in samenhangende 'chunks' die de intrinsieke temporele dynamiek van flow matching vastleggen, en het beleid op chunkniveau te optimaliseren. Daarnaast introduceren wij een optionele gewogen steekproefstrategie om de prestaties verder te verbeteren. Uitgebreide experimenten tonen aan dat Chunk-GRPO superieure resultaten behaalt op zowel het gebied van preference-alignment als beeldkwaliteit, wat de belofte van chunkniveau-optimalisatie voor GRPO-gebaseerde methoden benadrukt.
Discrete diffusiemodellen zijn een veelbelovende richting gebleken voor vision-taal-taken, dankzij hun bidirectionele contextmodellering en theoretische parallelleerbaarheid. Hun praktische toepassing wordt echter ernstig belemmerd door een kloof tussen training en inferentie, die leidt tot catastrofale foutcascades: initiële tokenfouten tijdens parallel decoderen vervuilen de generatiecontext, wat een kettingreactie van oplopende fouten veroorzaakt en resulteert in syntactische fouten en semantische hallucinaties. Om deze fundamentele uitdaging aan te pakken, herformuleren we het generatieproces van passieve ruisverwijdering naar actieve verfijning. Wij introduceren ReDiff, een raamwerk voor diffusie met verbeterde verfijning dat het model leert zijn eigen fouten te identificeren en corrigeren. Onze aanpak kenmerkt zich door een tweefasig trainingsproces: eerst brengen we een fundamentele revisiecapaciteit aan door het model te trainen om synthetische fouten te herzien; vervolgens implementeren we een nieuwe online zelfcorrectielus waarin het model expliciet wordt getraind om zijn eigen gebrekkige concepten te reviseren door te leren van correcties door een expert. Deze foutgedreven leerwijze geeft het model het cruciale vermogen om zijn reeds gegenereerde output opnieuw te bekijken en te verfijnen, waardoor de foutcascade effectief wordt doorbroken. Uitgebreide experimenten tonen aan dat ReDiff de samenhang en feitelijke nauwkeurigheid van gegenereerde inhoud aanzienlijk verbetert, waardoor stabiele en efficiënte parallelle generatie mogelijk wordt die ver superieur is aan traditionele methoden voor ruisverwijdering. Onze code en modellen zijn beschikbaar op https://rediff-hku.github.io/.
Het vergroten van de contextlengte van grote taalmodel(len) (LLM's) biedt aanzienlijke voordelen, maar is rekenkundig kostbaar. Deze kosten zijn voornamelijk het gevolg van het self-attention-mechanisme, waarvan de O(N²)-complexiteit ten opzichte van de sequentielengte een grote bottleneck vormt voor zowel geheugen als latentie. Gelukkig is de attention-matrix vaak sparse, vooral bij lange sequenties, wat een mogelijkheid tot optimalisatie suggereert. Block-sparse attention is naar voren gekomen als een veelbelovende oplossing die sequenties opdeelt in blokken en de berekening voor een subset van deze blokken overslaat. De effectiviteit van deze methode is echter sterk afhankelijk van de onderliggende attention-patronen, wat kan leiden tot suboptimale sparsity op blokniveau. Belangrijke key-tokens voor queries binnen een enkel blok kunnen bijvoorbeeld verspreid zijn over talrijke andere blokken, wat leidt tot rekenkundige redundantie. In dit werk stellen we Permuted Block-Sparse Attention (PBS-Attn) voor, een plug-and-play-methode die gebruikmaakt van de permutatie-eigenschappen van attention om de sparsity op blokniveau te vergroten en de rekenkundige efficiëntie van LLM-prefilling te verbeteren. We voeren uitgebreide experimenten uit met uitdagende real-world datasets met een lange context, waaruit blijkt dat PBS-Attn consequent beter presteert dan bestaande block-sparse attention-methoden in modelnauwkeurigheid en de baseline van volledige attention dicht benadert. Aangedreven door onze aangepaste permuted-FlashAttention-kernels bereikt PBS-Attn een end-to-end versnelling van tot 2,75x bij prefilling met een lange context, wat de praktische haalbaarheid bevestigt. Code beschikbaar op https://github.com/xinghaow99/pbs-attn.
GUI-gronding, het koppelen van natuurlijke-taalinstructies aan actiebare UI-elementen, is een kerncapaciteit van GUI-agenten. Eerdere werken behandelen instructies grotendeels als een statische proxy voor gebruikersintentie, waarbij de impact van instructiediversiteit en -kwaliteit op de grondingprestaties over het hoofd wordt gezien. Door een zorgvuldig onderzoek van bestaande grondingdatasets ontdekken we een foutpercentage van 23,3% in hun instructies en tonen we aan dat exploitatie van instructiediversiteit tijdens inferentie tot een aanzienlijke relatieve prestatieverbetering van 76% leidt. In dit artikel introduceren we het Instruction-as-Reasoning-paradigma, waarbij we instructies behandelen als dynamische analytische paden die verschillende perspectieven bieden en het model in staat stellen het meest effectieve pad te selecteren tijdens het redeneren. Om dit te bereiken, stellen we een tweefasen-trainingsraamwerk voor: supervised fine-tuning (SFT) op gesynthetiseerde, diverse instructies om meerperspectiefredenering in te prenten, gevolgd door reinforcement learning (RL) om padselectie en -compositie te optimaliseren. Onze resulterende modellen, UI-Ins-7B en UI-Ins-32B, behalen state-of-the-art-resultaten op vijf uitdagende grondingbenchmarks en vertonen emergent redeneren, waarbij ze selectief nieuwe instructiepaden samenstellen en synthetiseren tijdens inferentie. In het bijzonder behaalt UI-Ins-32B de beste grondingsnauwkeurigheid met scores van 87,3% op UI-I2E-Bench, 57,0% op ScreenSpot-Pro en 84,9% op MMBench-GUI L2. Bovendien toont ons model sterk agentisch potentieel, met een slagingspercentage van 74,1% op AndroidWorld bij gebruik van UI-Ins-7B als executor. Onze diepgaande analyse onthult aanvullende inzichten, zoals hoe redeneren kan worden geformuleerd om grondingprestaties te verbeteren in plaats van te hinderen, en hoe onze methode policy collapse in het SFT+RL-raamwerk beperkt. Alle code en modelcheckpoints worden openbaar vrijgegeven op https://github.com/alibaba/UI-Ins.
In dit artikel tonen wij aan dat visuele diffusiemodellen effectief kunnen fungeren als geometrische oplossers: zij kunnen rechtstreeks redeneren over geometrische problemen door in de pixelruimte te werken. Wij demonstreren dit eerst aan de hand van het Ingegeschreven Vierkant Probleem, een lang bestaand geometrisch probleem dat vraagt of elke Jordankromme vier punten bevat die een vierkant vormen. Vervolgens breiden wij de aanpak uit naar twee andere bekende moeilijke geometrische problemen: het Steinerboommprobleem en het Eenvoudige Veelhoek Probleem. Onze methode behandelt elk probleemgeval als een afbeelding en traint een standaard visueel diffusiemodel dat Gaussische ruis transformeert in een afbeelding die een geldige benaderende oplossing vertegenwoordigt die nauw aansluit bij de exacte oplossing. Het model leert om rumoerige geometrische structuren om te zetten in correcte configuraties, waardoor geometrisch redeneren in feite wordt herschapen tot beeldgeneratie. In tegenstelling tot eerder werk dat gespecialiseerde architecturen en domeinspecifieke aanpassingen vereist bij de toepassing van diffusie op parametrische geometrische representaties, gebruiken wij een standaard visueel diffusiemodel dat werkt op de visuele representatie van het probleem. Deze eenvoud benadrukt een verrassende brug tussen generatieve modellering en het oplossen van geometrische problemen. Naast de hier bestudeerde specifieke problemen, wijzen onze resultaten op een breder paradigma: werken in de beeldruimte biedt een algemeen en praktisch kader voor het benaderen van berucht harde problemen, en opent de deur naar het aanpakken van een veel ruimere klasse van uitdagende geometrische taken.
Video Large Language Models (VideoLLM's) breiden de mogelijkheden van visueel-taalmodel(len) uit naar ruimtelijk-temporele invoer, waardoor taken zoals video-vraag-antwoord (VideoQA) mogelijk worden. Ondanks recente vooruitgang in VideoLLM's blijven hun interne mechanismen – waar en hoe ze video- en tekstuele informatie extraheren en doorgeven – grotendeels onontgonnen. In deze studie onderzoeken we de interne informatiestroom van VideoLLM's met behulp van mechanistische interpreteerbaarheidstechnieken. Onze analyse onthult consistente patronen bij diverse VideoQA-taken: (1) temporeel redeneren in VideoLLM's begint met actieve kruis-frame-interacties in de vroege tot middelste lagen, (2) gevolgd door een progressieve integratie van video en taal in de middelste lagen. Dit wordt gefaciliteerd door de afstemming tussen videorepresentaties en linguïstische embedding(s) die temporele concepten bevatten. (3) Na voltooiing van deze integratie is het model klaar om correcte antwoorden te genereren in de middelste tot late lagen. (4) Op basis van onze analyse tonen we aan dat VideoLLM's hun VideoQA-prestaties kunnen behouden door deze effectieve informatiepaden te selecteren, terwijl een aanzienlijke hoeveelheid aandacht(s)verbindingen wordt onderdrukt, bijvoorbeeld 58% in LLaVA-NeXT-7B-Video-FT. Deze bevindingen bieden een blauwdruk voor hoe VideoLLM's temporeel redeneren uitvoeren en bieden praktische inzichten voor het verbeteren van modelinterpreteerbaarheid en downstream-generalizatie. Onze projectpagina met de broncode is beschikbaar op https://map-the-flow.github.io.
Model merging is een efficiënte post-trainingstrategie om kennis te integreren vanuit meerdere gefinetunede checkpoints van een gedeeld foundationmodel. Bestaande methoden opereren in de parameterspace, waarbij taskvectoren worden gecombineerd om conflicten te mitigeren, maar blijven beperkt door parameterinconsistenties. Wij stellen Functionele Duale Ankers (FDA's) voor, een framework dat in plaats daarvan de input-representatieruimte modelleert. FDA's zijn synthetische inputs waarvan de geïnduceerde gradienten uitlijnen met taskvectoren, waardoor taskspecifieke functionele verschuivingen ten opzichte van het voorgetrainde model worden vastgelegd. Dit perspectief overbrugt gezamenlijke multi-task training en post-hoc merging, en biedt zowel robuustheid als flexibiliteit. We introduceren verder een principieel initialisatieschema en tonen aan dat FDA's complementair zijn aan model merging in de parameterspace. Uitgebreide experimenten demonstreren de effectiviteit van FDA's bij model merging.
Promptontwerp speelt een cruciale rol in tekst-naar-video (T2V) generatie, maar door gebruikers verstrekte prompts zijn vaak kort, ongestructureerd en niet afgestemd op trainingsdata, wat het generatieve potentieel van op diffusie gebaseerde T2V-modellen beperkt. Wij presenteren RAPO++, een cross-stage promptoptimalisatiekader dat afgestemde verfijning op trainingsdata, iteratieve schaling tijdens testtijd en finetunen van large language models (LLM's) verenigt om T2V-generatie aanzienlijk te verbeteren zonder de onderliggende generatieve backbone aan te passen. In Fase 1 verrijkt Retrieval-Augmented Prompt Optimization (RAPO) gebruikersprompts met semantisch relevante modifiers opgehaald uit een relatiegraaf en herstructureert ze om trainingsdistributies te matchen, waardoor de compositionaliteit en multi-objecttrouw worden verbeterd. Fase 2 introduceert Sample-Specific Prompt Optimization (SSPO), een closed-loopmechanisme dat prompts iteratief verfijnt met behulp van multi-source feedback – inclusief semantische uitlijning, spatiale trouw, temporele coherentie en taakspecifieke signalen zoals optische stroming – wat progressief verbeterde videogeneratiekwaliteit oplevert. Fase 3 benut geoptimaliseerde promptparen van SSPO om de herschrijver-LLM te finetunen, waardoor taakspecifieke optimalisatiepatronen worden geïnternaliseerd en efficiënte, hoogwaardige promptgeneratie zelfs vóór inferentie mogelijk wordt. Uitgebreide experimenten met vijf state-of-the-art T2V-modellen en vijf benchmarks tonen aan dat RAPO++ aanzienlijke verbeteringen bereikt in semantische uitlijning, compositioneel redeneren, temporele stabiliteit en fysieke geloofwaardigheid, en bestaande methodes met grote marges overtreft. Onze resultaten benadrukken RAPO++ als een model-agnostische, kostenefficiënte en schaalbare oplossing die een nieuwe standaard zet voor promptoptimalisatie in T2V-generatie. De code is beschikbaar op https://github.com/Vchitect/RAPO.
Wij tonen aan dat interne representaties in grote taalmodellen (LLM's) betrouwbare indicatoren zijn van aangeleerde kennis, en introduceren RECALL, een nieuw representatiebewust modelmergingsraamwerk voor continu leren zonder toegang tot historische data. RECALL berekent inter-modelgelijkenis op basis van gelaagde verborgen representaties over gegroepeerde typische voorbeelden, en voert adaptieve, hiërarchische parameterfusie uit om kennis tussen modellen af te stemmen. Dit ontwerp maakt het mogelijk domeingenerieke kenmerken in ondiepe lagen te behouden, terwijl taakspecifieke aanpassing in diepere lagen mogelijk blijft. In tegenstelling tot eerdere methoden die taaklabels vereisen of prestatieverlies met zich meebrengen, bereikt RECALL naadloze multi-domeïntegratie en sterke weerstand tegen catastrofaal vergeten. Uitgebreide experimenten met vijf NLP-taken en meerdere continu-leerscenario's tonen aan dat RECALL baseline-methoden overtreft in zowel kennisretentie als generalisatie, en biedt zo een schaalbare en datavrije oplossing voor de evolutie van LLM's.
Traditionele informatie-retrieval (IR) metrieken, zoals nDCG, MAP en MRR, gaan ervan uit dat menselijke gebruikers documenten sequentieel onderzoeken met afnemende aandacht voor lagere posities. Deze aanname gaat niet op bij Retrieval Augmented Generation (RAG)-systemen, waar zoekresultaten worden verwerkt door Large Language Models (LLM's). In tegenstelling tot mensen verwerken LLM's alle opgehaalde documenten als een geheel in plaats van sequentieel. Bovendien houden traditionele IR-metrieken geen rekening met gerelateerde maar irrelevante documenten die de generatiedirect actief verslechteren, in plaats van dat ze slechts worden genegeerd. Door deze twee grote verschuivingen, namelijk de positiekorting voor mensen versus machines en menselijke relevantie versus machine-nut, voorspellen klassieke IR-metrieken de RAG-prestaties niet nauwkeurig. Wij introduceren een op nut gebaseerd annotatieschema dat zowel de positieve bijdrage van relevante passages als de negatieve impact van afleidende passages kwantificeert. Op basis hiervan stellen wij UDCG (Utility and Distraction-aware Cumulative Gain) voor, een metriek die een op LLM's gerichte positiekorting gebruikt om de correlatie met de end-to-end antwoordnauwkeurigheid direct te optimaliseren. Experimenten op vijf datasets en met zes LLM's tonen aan dat UDCG de correlatie met tot 36% verbetert in vergelijking met traditionele metrieken. Ons werk vormt een cruciale stap naar het afstemmen van IR-evaluatie op LLM-gebruikers en maakt een betrouwbaardere beoordeling van RAG-componenten mogelijk.
Recente technieken zoals retrieval-augmented generation of chain-of-thought reasoning hebben geleid tot langere contexten en hogere inferentiekosten. Contextcompressietechnieken kunnen deze kosten verlagen, maar de meest effectieve methoden vereisen fine-tuning van het doelmodel of zelfs aanpassing van de architectuur. Dit kan de algemene capaciteiten aantasten wanneer het niet voor dit specifieke doel wordt gebruikt. Hier onderzoeken we een alternatieve aanpak: een encoder die de context comprimeert tot continue representaties die de token-embeddings in decoder-LLA's vervangen. Ten eerste voeren we een systematische studie uit naar trainingsstrategieën en architectuurkeuzes voor de encoder. Onze bevindingen leidden tot het ontwerp van een Adaptable text Representations Compressor, genaamd ARC-Encoder, die x-maal minder continue representaties uitvoert (typisch x!in!{4,8}) dan teksttokens. We evalueren ARC-Encoder in diverse LLA-gebruiksscenario's, van in-context learning tot contextvensteruitbreiding, op zowel instructie- als basis-decoders. Resultaten tonen aan dat ARC-Encoder state-of-the-art prestaties behaalt op verschillende benchmarks, terwijl de computationele efficiëntie tijdens inferentie verbetert. Tot slot tonen we aan dat onze modellen gelijktijdig aan meerdere decoders kunnen worden aangepast, waardoor een enkele encoder kan generaliseren over verschillende decoder-LLA's. Dit maakt ARC-Encoder tot een flexibele en efficiënte oplossing voor draagbare encoders die naadloos werken met meerdere LLA's. We geven trainingscode vrij op https://github.com/kyutai-labs/ARC-Encoder, fine-tuning datasets en voorgetrainde modellen zijn beschikbaar op https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
Onlangs is er aanzienlijke vooruitgang geboekt in multimodale continuële leren, met als doel nieuwe taken sequentieel aan te leren in multimodale settings, terwijl de prestaties op eerder geleerde taken behouden blijven. Bestaande methoden richten zich echter voornamelijk op grofkorrelige taken en kennen beperkingen bij het aanpakken van modaliteitsverstrengeling in fijnkorrelige continuële-leersettings. Om deze kloof te overbruggen, introduceren we een nieuwe taak: Continual Audio-Visual Segmentation (CAVS), die erop gericht is continu nieuwe klassen te segmenteren onder begeleiding van audio. Uit uitgebreide analyse zijn twee kritieke uitdagingen geïdentificeerd: 1) multimodale semantische drift, waarbij een geluidproducerend object in opeenvolgende taken als achtergrond wordt gelabeld; 2) co-voorkomende verwarring, waarbij vaak samen voorkomende klassen de neiging hebben verward te raken. In dit werk wordt een op botsing gebaseerd multimodaal herhalingsraamwerk (CMR) ontworpen om deze uitdagingen aan te pakken. Specifiek wordt voor multimodale semantische drift een multimodale steekproefselectiestrategie (MSS) voorgesteld om steekproeven met hoge modale consistentie te selecteren voor herhaling. Tegelijkertijd is voor co-voorkomende verwarring een op botsing gebaseerd steekproefherhalingsmechanisme (CSR) ontworpen, waarmee de herhalingsfrequentie van die verwarrende klassen tijdens het trainingsproces kan worden verhoogd. Bovendien construeren we drie audio-visuele incrementele scenario's om de effectiviteit van onze methode te verifiëren. Uitgebreide experimenten tonen aan dat onze methode significant beter presteert dan unimodale continuële-leermethoden.
Grote Taalmodellen (LLM's) worden steeds vaker ingezet in agent-systemen die interacteren met een externe omgeving; dit maakt ze kwetsbaar voor prompt-injecties bij de verwerking van niet-vertrouwde data. Om deze beperking te overwinnen, stellen we SIC (Soft Instruction Control) voor – een eenvoudige maar effectieve iteratieve lus voor het saneren van prompts, ontworpen voor tool-augmented LLM-agenten. Onze methode inspecteert inkomende data herhaaldelijk op instructies die het agentgedrag kunnen compromitteren. Indien dergelijke inhoud wordt gevonden, wordt de kwaadaardige inhoud herschreven, gemaskeerd of verwijderd, en wordt het resultaat opnieuw geëvalueerd. Het proces gaat door totdat de invoer schoon is of een maximum aantal iteraties is bereikt; als imperatief, instructie-achtige inhoud resteert, stopt de agent om de veiligheid te waarborgen. Door meerdere passes toe te staan, erkent onze aanpak dat individuele herschrijfpogingen kunnen falen, maar stelt het systeem in staat gemiste injecties in latere stappen alsnog te detecteren en te corrigeren. Hoewel onmiddellijk bruikbaar, toont een worst-case-analyse aan dat SIC niet onfeilbaar is; een sterke tegenstander kan nog steeds een 15% ASR bereiken door niet-imperatieve werkstromen in te bedden. Desalniettemin verhoogt dit de drempel aanzienlijk.
Recente ontwikkelingen in grote redeneermodellen (LRM's) hebben een tussenliggend "denk"-proces geïntroduceerd vóór het genereren van eindantwoorden, wat hun redeneervermogen op complexe downstreamtaken verbetert. Het potentieel van LRM's als evaluatoren voor de kwaliteit van machinaal vertalen (MT) blijft echter onderbelicht. Wij presenteren de eerste systematische analyse van LRM-als-beoordelaar bij MT-evaluatie. We identificeren belangrijke uitdagingen: LRM's vereisen op maat gemaakte evaluatiematerialen, hebben de neiging tot "overdenken" bij eenvoudige gevallen en kampen met scoringsmechanismen die tot overschatting leiden. Om deze problemen aan te pakken, stellen wij voor om het LRM-denken te kalibreren door ze te trainen op synthetische, mensachtige denkprocessen. Onze experimenten op de WMT24 Metrics-benchmarks tonen aan dat deze aanpak de denkbudgetten met ~35x verlaagt, terwijl tegelijkertijd de evaluatieprestaties verbeteren across verschillende LRM-schalen van 7B tot 32B (bijvoorbeeld R1-Distill-Qwen-7B behaalt een verbetering van +8,7 correlatiepunten). Deze bevindingen benadrukken het potentieel van efficiënt gekalibreerde LRM's om gedetailleerde automatische MT-evaluatie vooruit te helpen.
Interactieve wereldmodellen die objectdynamica simuleren zijn cruciaal voor robotica, VR en AR. Het blijft echter een grote uitdaging om fysica-consistente dynamiekmodellen te leren uit beperkte videogegevens uit de echte wereld, vooral voor vervormbare objecten met ruimtelijk variërende fysische eigenschappen. Om de uitdaging van dataschaarste te overwinnen, stellen we PhysWorld voor, een nieuw raamwerk dat een simulator gebruikt om fysisch plausibele en diverse demonstraties te synthetiseren om efficiënte wereldmodellen te leren. Concreet construeren we eerst een fysica-consistente digitale tweeling binnen een MPM-simulator via constitutief modelselectie en global-naar-lokale optimalisatie van fysische eigenschappen. Vervolgens passen we deelbewuste perturbaties toe op de fysische eigenschappen en genereren we verschillende bewegingspatronen voor de digitale tweeling, waarbij we uitgebreide en diverse demonstraties synthetiseren. Ten slotte trainen we met deze demonstraties een lichtgewicht, op GNN gebaseerd wereldmodel waarin fysische eigenschappen zijn ingebed. De echte video kan worden gebruikt om de fysische eigenschappen verder te verfijnen. PhysWorld bereikt nauwkeurige en snelle toekomstvoorspellingen voor diverse vervormbare objecten en generaliseert ook goed naar nieuwe interacties. Experimenten tonen aan dat PhysWorld een competitieve prestaties heeft terwijl het inferentiesnelheden mogelijk maakt die 47 keer sneller zijn dan de recente state-of-the-art methode, namelijk PhysTwin.
Wij passen categorietheorie toe om de multimodale documentstructuur te extraheren, wat ons leidt tot de ontwikkeling van informatie-theoretische maten, inhoudssamenvatting en -uitbreiding, en zelfgesuperviseerde verbetering van grote voorgetrainde modellen. We ontwikkelen eerst een wiskundige representatie van een document als een categorie van vraag-antwoordparen. Ten tweede ontwikkelen we een orthogonalisatieprocedure om de informatie in één of meer documenten op te delen in niet-overlappende stukken. De structuren die in de eerste en tweede stap zijn geëxtraheerd, leiden tot de ontwikkeling van methoden om de informatie in een document te meten en te enumereren. We bouwen verder op deze stappen om nieuwe samenvattingstechnieken te ontwikkelen, evenals een oplossing voor een nieuw probleem, namelijk exegese, wat resulteert in een uitbreiding van het oorspronkelijke document. Onze vraag-antwoordpaarmethodologie maakt een nieuwe ratedistortie-analyse van samenvattingstechnieken mogelijk. We implementeren onze technieken met behulp van grote voorgetrainde modellen en stellen een multimodale uitbreiding van ons algemene wiskundige kader voor. Tot slot ontwikkelen we een nieuwe zelfgesuperviseerde methode met RLVR om grote voorgetrainde modellen te verbeteren met behulp van consistentiebeperkingen zoals composeerbaarheid en geslotenheid onder bepaalde operaties die natuurlijk voortvloeien uit ons categorietheoretische kader.
Versterkend leren (RL) is naar voren gekomen als een cruciale aanpak om de mogelijkheden van grote taalmodel(len) te verbeteren. Bij Mixture-of-Experts (MoE)-modellen introduceert het routeringsmechanisme echter vaak instabiliteit, wat zelfs kan leiden tot een catastrofale ineenstorting van de RL-training. Wij analyseren de consistentie tussen training en inferentie van MoE-modellen en identificeren een opmerkelijke discrepantie in routeringsgedrag tussen deze twee fasen. Bovendien kan het routeringsraamwerk, zelfs onder identieke omstandigheden, uiteenlopende expertselecties opleveren bij herhaalde forward passes. Om deze fundamentele inconsistentie aan te pakken, stellen wij Rollout Routing Replay (R³) voor, een methode die routeringsverdelingen van de inferentie-engine vastlegt en deze tijdens de training afspeelt. R³ vermindert de KL-divergentie van het train-inferentie-beleid aanzienlijk en verzacht extreme discrepanties zonder de trainingssnelheid te compromitteren. Uitgebreide experimenten in diverse settings bevestigen dat R³ erin slaagt de RL-training te stabiliseren, ineenstorting voorkomt en methoden zoals GSPO en TIS overtreft. Wij geloven dat dit werk een nieuwe oplossing kan bieden voor het stabiliseren van RL in MoE-modellen.
Foley Control is een lichtgewicht aanpak voor video-gestuurde Foley-geluidssynthese waarbij vooraf getrainde enkelvoudige-modaliteitsmodellen bevroren blijven en alleen een kleine cross-attention-brug ertussen wordt getraind. We verbinden V-JEPA2-video-embeddings met een bevroren Stable Audio Open DiT text-to-audio (T2A)-model door compacte video-cross-attention in te voegen na de bestaande tekst-cross-attention van het model. Hierdoor bepalen prompts de globale semantiek, terwijl de video de timing en lokale dynamiek verfijnt. De bevroren backbone-modellen behouden sterke marginale verdelingen (video; audio gegeven tekst) en de brug leert de audio-video-afhankelijkheid die nodig is voor synchronisatie – zonder het audio-prior opnieuw te trainen. Om het geheugengebruik te beperken en de training te stabiliseren, poolen we video-tokens vóór conditionering. Op gecureerde video-audio benchmarks levert Foley Control competitieve temporele en semantische uitlijning met aanzienlijk minder trainbare parameters dan recente multimodale systemen, waarbij het prompt-gestuurde aanpasbaarheid en productievriendelijke modulariteit behoudt (verwissel of upgrade encoders of de T2A-backbone zonder end-to-end hertraining). Hoewel we ons richten op Video-to-Foley, kan hetzelfde brugontwerp mogelijk worden uitgebreid naar andere audio-modaliteiten (bijvoorbeeld spraak).
AI-agenten hebben het potentieel om de wetenschappelijke productiviteit te revolutionariseren door het automatiseren van literatuuronderzoeken, het repliceren van experimenten, het analyseren van gegevens en zelfs het voorstellen van nieuwe onderzoeksrichtingen; er bestaan inmiddels talloze van dergelijke agenten, variërend van algemene "deep research"-systemen tot gespecialiseerde, wetenschapsspecifieke agenten zoals AI Scientist en AIGS. Een rigoureuze evaluatie van deze agenten is cruciaal voor vooruitgang. Toch schieten bestaande benchmarks op verschillende fronten tekort: ze (1) bieden geen holistische, op productiegebruik afgestemde maatstaven voor realistische use cases zoals wetenschappelijk onderzoek; (2) missen reproduceerbare agenttools die noodzakelijk zijn voor een gecontroleerde vergelijking van kerncapaciteiten van agenten; (3) houden geen rekening met verstorende variabelen zoals modelkosten en tooltoegang; (4) bieden geen gestandaardiseerde interfaces voor snelle prototyping en evaluatie van agenten; en (5) ontberen uitgebreide baseline-agenten die nodig zijn om echte vooruitgang te identificeren. Als antwoord hierop definiëren we principes en tools voor het rigoureuzer benchmarken van agenten. Hiermee presenteren we AstaBench, een suite die de eerste holistische meting biedt van het vermogen van agenten om wetenschappelijk onderzoek uit te voeren. Deze omvat 2400+ problemen die het volledige wetenschappelijke ontdekkingsproces en meerdere wetenschappelijke domeinen bestrijken, inclusief veel problemen geïnspireerd op daadwerkelijke gebruikersverzoeken aan geïmplementeerde Asta-agenten. Onze suite wordt geleverd met de eerste wetenschappelijke onderzoeksomgeving met productieklasse zoektools die gecontroleerde, reproduceerbare evaluatie mogelijk maken, waardoor verstorende factoren beter in kaart worden gebracht. Daarnaast bieden we een uitgebreide suite van negen wetenschappelijk geoptimaliseerde klassen van Asta-agenten en talloze baselines. Onze uitgebreide evaluatie van 57 agenten verspreid over 22 agentklassen onthult verschillende interessante bevindingen, waarvan de belangrijkste is dat, ondanks betekenisvolle vooruitgang op bepaalde afzonderlijke aspecten, AI nog ver verwijderd is van het oplossen van de uitdaging van wetenschappelijke onderzoeksassistentie.
Visueel redeneren in multimodale grote taalmodellen (MLLM's) is voornamelijk bestudeerd in statische, volledig waarneembare settings, wat hun effectiviteit beperkt in realistische omgevingen waar informatie vaak incompleet is door occlusie of een beperkt gezichtsveld. Mensen daarentegen verkennen en interacteren actief met hun omgeving – ze bewegen, onderzoeken en manipuleren objecten – om informatie te verzamelen via een gesloten-lusproces dat perceptie, redeneren en actie integreert. Geïnspireerd door dit menselijk vermogen introduceren we de taak van Actief Visueel Redeneren (AVR), die visueel redeneren uitbreidt naar gedeeltelijk waarneembare, interactieve omgevingen. AVR vereist dat agenten: (1) actief informatie verwerven via sequentiële fysieke acties, (2) observaties over meerdere stappen integreren voor coherent redeneren, en (3) dynamisch beslissingen aanpassen op basis van evoluerende visuele feedback. Om AVR rigoureus te evalueren, introduceren we CLEVR-AVR, een simulatiebenchmark met multi-ronde interactieve omgevingen ontworpen om zowel de redeneercorrectheid als de efficiëntie van informatievergaring te beoordelen. We presenteren AVR-152k, een grootschalige dataset die rijke Chain-of-Thought (CoT)-annotaties biedt die iteratief redeneren detailleren voor onzekerheidsidentificatie, actie-geconditioneerde voorspelling van informatiewinst, en informatie-maximaliserende actieselectie, cruciaal voor het trainen van agenten in een hogere-orde Markov Beslissingsproces. Hierop voortbouwend ontwikkelen we PhysVLM-AVR, een MLLM die state-of-the-art prestaties bereikt op CLEVR-AVR, belichaamd redeneren (OpenEQA, RoboVQA) en passief visueel redeneren (GeoMath, Geometry30K). Onze analyse toont ook aan dat huidige belichaamde MLLM's, ondanks het detecteren van informatie-onvolledigheid, moeite hebben om actief nieuwe informatie te verwerven en te integreren via interactie, wat een fundamentele kloof in actieve redeneervaardigheden blootlegt.
3D LiDAR-sensoren zijn essentieel voor autonome navigatie, milieumonitoring en precisiekartering in remote sensing-toepassingen. Om de enorme puntenwolken die door deze sensoren worden gegenereerd efficiënt te verwerken, wordt LiDAR-data vaak geprojecteerd in 2D-afstandsbeelden die punten ordenen op basis van hun hoekposities en afstanden. Hoewel deze afstandsbeeldrepresentaties efficiënte verwerking mogelijk maken, lijden conventionele projectiemethoden onder fundamentele geometrische inconsistenties die onomkeerbaar informatieverlies veroorzaken, wat ten koste gaat van hoogwaardige toepassingen. Wij presenteren ALICE-LRI (Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images), de eerste algemene, sensor-onafhankelijke methode die verliesvrije afstandsbeeldgeneratie uit roterende LiDAR-puntenwolken realiseert zonder fabrikantmetadata of kalibratiebestanden. Ons algoritme reverse-engineert automatisch de intrinsieke geometrie van elke roterende LiDAR-sensor door kritieke parameters af te leiden, waaronder laserstraalconfiguratie, hoekverdelingen en per-straal kalibratiecorrecties, waardoor verliesvrije projectie en complete reconstructie van puntenwolken zonder enig puntenverlies mogelijk wordt. Een uitgebreide evaluatie over de volledige KITTI- en DurLAR-datasets toont aan dat ALICE-LRI perfecte puntenbehoud bereikt, met nul puntenverlies across alle puntenwolken. De geometrische nauwkeurigheid blijft ruim binnen de precisiegrenzen van de sensor, wat geometrische verliesvrijheid met real-time prestaties vaststelt. Wij presenteren ook een compressiecase study die aanzienlijke downstream-voordelen valideert, met aanzienlijke kwaliteitsverbeteringen in praktische toepassingen. Deze paradigmaverschuiving van benaderende naar verliesvrije LiDAR-projecties opent nieuwe mogelijkheden voor hoogprecisie remote sensing-toepassingen die complete geometrische bewaring vereisen.