Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) worden steeds vaker verwacht verder te gaan dan eenvoudige feitelijke vragen, richting diepgaande onderzoektaken die vereisen dat vragen worden opgesplitst in subproblemen, multi-staps redeneren worden gecoördineerd en bewijs uit diverse bronnen wordt samengevoegd. We formaliseren diepgaande onderzoektaken met verifieerbare antwoorden als Hiërarchische Beperkingsvoldoeningproblemen (HCSP's), die fundamenteel verschillen van formuleringen met enkele beperkingen, multi-hop of vlakke CSP's. Bestaande benchmarks (bijv. Natural Questions, HotpotQA) slagen er echter niet in deze complexiteit vast te leggen, terwijl recente synthetische datasets vaak korte redeneringen, kennislekken introduceren of onvoldoende structurele diepte hebben. Om deze kloof te dichten, introduceren we InfoSeek, een schaalbaar raamwerk voor het synthetiseren van complexe diepgaande onderzoektaken. InfoSeek gebruikt een dual-agent systeem om recursief een Onderzoeksboom op te bouwen uit grootschalige webpagina's, waarbij tussenliggende knooppunten worden vervaagd in geldige subproblemen, en deze bomen worden omgezet in natuurlijke taalvragen die het volledige hiërarchie moeten doorlopen. Het maakt ook snelle schaalbaarheid mogelijk, wat resulteert in meer dan 50K trainingsvoorbeelden, een gecureerde testset en redeneertrajecten gegenereerd via reject sampling. Experimenten tonen aan dat modellen getraind op InfoSeek consequent sterke baselines overtreffen. Op een uitdagende benchmark BrowseComp-Plus overtreffen 3B LLM's geoptimaliseerd met InfoSeek veel grotere 32B-modellen en lichtgewicht commerciële API's (bijv. Gemini2.5-Flash), terwijl ze prestaties bereiken die vergelijkbaar zijn met sterkere API's (bijv. Gemini2.5-Pro). Door meta-informatie zoals tussenliggende stappen en ophaallabels te behouden, ondersteunt InfoSeek verder geavanceerde optimalisatiestrategieën, waaronder samengesteld beloningsontwerp en trajectniveau-exploratie. We bieden onze codes en datasets aan in https://github.com/VectorSpaceLab/InfoSeek{deze repository}.
We introduceren Robix, een geïntegreerd model dat robotredenering, taakplanning en natuurlijke taalinteractie combineert binnen een enkele visie-taalarchitectuur. Als de hoogste cognitieve laag in een hiërarchisch robotsysteem genereert Robix dynamisch atomische commando's voor de laag-niveau controller en verbale reacties voor menselijke interactie, waardoor robots complexe instructies kunnen volgen, langetermijntaken kunnen plannen en natuurlijk kunnen communiceren met mensen binnen een end-to-end framework. Robix introduceert verder nieuwe mogelijkheden zoals proactieve dialoog, real-time onderbrekingsafhandeling en contextbewust gezond verstand tijdens taakuitvoering. In de kern maakt Robix gebruik van chain-of-thought redenering en volgt een drietraps trainingsstrategie: (1) voortgezette pretraining om fundamentele embodied redeneervaardigheden te versterken, waaronder 3D-ruimtelijk begrip, visuele verankering en taakgerichte redenering; (2) supervised finetuning om mens-robotinteractie en taakplanning te modelleren als een geïntegreerde redeneer-actievolgorde; en (3) reinforcement learning om de consistentie van redeneer-acties en de samenhang van langetermijntaken te verbeteren. Uitgebreide experimenten tonen aan dat Robix zowel open-source als commerciële referentiemodellen (bijv. GPT-4o en Gemini 2.5 Pro) overtreft in interactieve taakuitvoering, met sterke generalisatie over diverse instructietypen (bijv. open-ended, multi-stage, beperkt, ongeldig en onderbroken) en verschillende gebruikersgerelateerde taken zoals tafelafruimen, boodschappen doen en dieetfiltering.
Taalmodellen (LMs) drijven steeds vaker real-world toepassingen aan die wereldkennis vereisen. De interne processen waarmee modellen data omzetten in representaties van kennis en overtuigingen over de wereld, zijn echter slecht begrepen. Inzichten in deze processen kunnen de weg vrijmaken voor de ontwikkeling van LMs met kennisrepresentaties die consistenter, robuuster en completer zijn. Om het bestuderen van deze vragen te vergemakkelijken, presenteren we LMEnt, een suite voor het analyseren van kennisverwerving in LMs tijdens het vooraf trainen. LMEnt introduceert: (1) een kennisrijk vooraf getraind corpus, volledig geannoteerd met entiteitsvermeldingen, gebaseerd op Wikipedia, (2) een entiteitsgebaseerde retrievamethode over vooraf getrainde data die eerdere benaderingen met maar liefst 80,4% overtreft, en (3) 12 vooraf getrainde modellen met tot 1B parameters en 4K tussenliggende checkpoints, met vergelijkbare prestaties als populaire open-source modellen op kennisbenchmarks. Samen bieden deze bronnen een gecontroleerde omgeving voor het analyseren van verbanden tussen entiteitsvermeldingen tijdens het vooraf trainen en downstream prestaties, en de effecten van causale interventies in vooraf getrainde data. We tonen het nut van LMEnt aan door kennisverwerving over checkpoints te bestuderen, waarbij we vaststellen dat feitenfrequentie cruciaal is, maar de leer trends niet volledig verklaart. We geven LMEnt vrij om studies naar kennis in LMs te ondersteunen, inclusief kennisrepresentaties, plasticiteit, bewerking, attributie en leer dynamieken.
Effectief plannen vereist sterke wereldmodellen, maar hoogwaardige wereldmodellen die acties kunnen begrijpen en redeneren met semantische en temporele abstractie blijven grotendeels onderontwikkeld. We introduceren het Vision Language World Model (VLWM), een foundation model getraind voor taalgebaseerd wereldmodelleren op natuurlijke video's. Gegeven visuele observaties, inferreert het VLWM eerst de algemene doelrealisaties en voorspelt vervolgens een traject bestaande uit afgewisselde acties en wereldstatusveranderingen. Deze doelen worden geëxtraheerd door iteratieve LLM Self-Refine, geconditioneerd op gecomprimeerde toekomstige observaties gerepresenteerd door Tree of Captions. Het VLWM leert zowel een actiebeleid als een dynamisch model, wat respectievelijk reactief systeem-1 plandecodering en reflectief systeem-2 plannen via kostenminimalisatie mogelijk maakt. De kosten evalueren de semantische afstand tussen de hypothetische toekomstige staten gegeven door VLWM roll-outs en de verwachte doelstatus, en worden gemeten door een criticusmodel dat we op een zelfgesuperviseerde manier hebben getraind. Het VLWM behaalt state-of-the-art Visual Planning for Assistance (VPA) prestaties op zowel benchmarkevaluaties als onze voorgestelde PlannerArena menselijke evaluaties, waar systeem-2 de Elo-score met +27% verbetert ten opzichte van systeem-1. De VLWM-modellen overtreffen ook sterke VLM baselines op de RoboVQA en WorldPrediction benchmark.
Reinforcement learning met verifieerbare beloningen (RLVR) is uitgegroeid tot een dominant paradigma voor wiskundige redeneertaken, waarbij het stabiele verbeteringen biedt in redeneervaardigheid. Outcome Reward Models (ORMs) in RLVR zijn echter te grofkorrelig om gebrekkig redeneren binnen correcte antwoorden of geldig redeneren binnen incorrecte antwoorden te onderscheiden. Dit gebrek aan granulariteit introduceert aanzienlijk ruis en misleidende gradients, wat verdere vooruitgang in de kwaliteit van het redeneerproces belemmert. Hoewel Process Reward Models (PRMs) fijnmazige begeleiding bieden voor tussenstappen, lijden ze vaak aan onnauwkeurigheden en zijn ze vatbaar voor reward hacking. Om dit dilemma op te lossen, introduceren we PRocess cOnsistency Filter (PROF), een effectieve methode voor het cureren van gegevensprocessen die ruisige, fijnmazige procesbeloningen harmoniseert met nauwkeurige, grofkorrelige uitkomstbeloningen. In plaats van PRM en ORM naïef te combineren in de doelfunctie (arXiv:archive/2506.18896), benut PROF hun complementaire sterke punten door consistentiegestuurde steekproefselectie. Onze aanpak behoudt correcte antwoorden met hogere gemiddelde proceswaarden en incorrecte antwoorden met lagere gemiddelde proceswaarden, terwijl de balans tussen positieve en negatieve trainingsmonsters behouden blijft. Uitgebreide experimenten tonen aan dat onze methode niet alleen consistent de eindnauwkeurigheid met meer dan 4% verbetert ten opzichte van de combinatiebenaderingen, maar ook de kwaliteit van de tussenliggende redeneerstappen versterkt. Codes en trainingsrecepten zijn beschikbaar op https://github.com/Chenluye99/PROF.
Beheersbare gezichtsgeneratie stelt kritieke uitdagingen in generatieve modellering vanwege de ingewikkelde balans die vereist is tussen semantische beheersbaarheid en fotorealisme. Terwijl bestaande benaderingen moeite hebben met het ontwarren van semantische controles uit generatiepijplijnen, herzien wij het architectonische potentieel van Diffusion Transformers (DiTs) door de lens van expertspecialisatie. Dit artikel introduceert Face-MoGLE, een nieuw framework met: (1) Semantisch-ontkoppelde latente modellering door masker-geconditioneerde ruimtefactorisatie, wat precieze attribuutmanipulatie mogelijk maakt; (2) Een mengsel van globale en lokale experts die holistische structuur en regio-niveau semantiek vastleggen voor fijnmazige beheersbaarheid; (3) Een dynamisch gating-netwerk dat tijdafhankelijke coëfficiënten produceert die evolueren met diffusiestappen en ruimtelijke locaties. Face-MoGLE biedt een krachtige en flexibele oplossing voor hoogwaardige, beheersbare gezichtsgeneratie, met sterk potentieel in generatieve modellering en beveiligingstoepassingen. Uitgebreide experimenten tonen de effectiviteit aan in multimodale en monomodale gezichtsgeneratie-instellingen en de robuuste zero-shot generalisatiecapaciteit. De projectpagina is beschikbaar op https://github.com/XavierJiezou/Face-MoGLE.
Multi-subject gepersonaliseerde generatie brengt unieke uitdagingen met zich mee bij het behouden van identiteitsgetrouwheid en semantische samenhang bij het synthetiseren van afbeeldingen die zijn geconditioneerd op meerdere referentiepersonen. Bestaande methoden kampen vaak met identiteitsvermenging en attribuutlekkage door onvoldoende modellering van hoe verschillende personen zouden moeten interageren binnen gedeelde representatieruimtes. Wij presenteren MOSAIC, een representatiegericht framework dat multi-subject generatie herdenkt door expliciete semantische correspondentie en orthogonale feature-ontvlechting. Onze belangrijkste inzicht is dat multi-subject generatie precieze semantische uitlijning op representatieniveau vereist - precies weten welke regio's in de gegenereerde afbeelding aandacht moeten besteden aan welke delen van elke referentie. Om dit mogelijk te maken, introduceren we SemAlign-MS, een nauwkeurig geannoteerde dataset die fijnmazige semantische correspondenties biedt tussen meerdere referentiepersonen en doelafbeeldingen, wat voorheen niet beschikbaar was in dit domein. Op basis hiervan stellen we het semantische correspondentie-attentieverlies voor om precieze punt-naar-punt semantische uitlijning af te dwingen, waardoor een hoge consistentie van elke referentie naar de aangewezen regio's wordt gegarandeerd. Daarnaast ontwikkelen we het multi-referentie-ontvlechtingsverlies om verschillende personen in orthogonale attentiesubruimtes te duwen, waardoor feature-interferentie wordt voorkomen terwijl individuele identiteitskenmerken behouden blijven. Uitgebreide experimenten tonen aan dat MOSAIC state-of-the-art prestaties behaalt op meerdere benchmarks. Opmerkelijk is dat, terwijl bestaande methoden doorgaans afnemen bij meer dan 3 personen, MOSAIC een hoge getrouwheid behoudt bij 4+ referentiepersonen, wat nieuwe mogelijkheden opent voor complexe multi-subject synthese-toepassingen.
Moderne robotmanipulatie is voornamelijk afhankelijk van visuele waarnemingen in een 2D-kleurruimte voor het leren van vaardigheden, maar lijdt onder een slechte generalisatie. Daarentegen vertrouwen mensen, die in een 3D-wereld leven, meer op fysieke eigenschappen—zoals afstand, grootte en vorm—dan op textuur bij het interacteren met objecten. Aangezien dergelijke 3D-geometrische informatie kan worden verkregen met breed beschikbare dieptecamera's, lijkt het haalbaar om robots te voorzien van vergelijkbare perceptuele capaciteiten. Onze pilotstudie toonde aan dat het gebruik van dieptecamera's voor manipulatie uitdagend is, voornamelijk vanwege hun beperkte nauwkeurigheid en gevoeligheid voor verschillende soorten ruis. In dit werk stellen we Camera Depth Models (CDMs) voor als een eenvoudige plugin op alledaagse dieptecamera's, die RGB-beelden en ruwe dieptesignalen als invoer nemen en ontruisde, nauwkeurige metrische diepte als uitvoer geven. Om dit te bereiken, ontwikkelen we een neurale data-engine die hoogwaardige gepaarde data genereert uit simulatie door het ruispatroon van een dieptecamera te modelleren. Onze resultaten laten zien dat CDMs een bijna simulatie-niveau van nauwkeurigheid bereiken in dieptevoorspelling, waardoor de kloof tussen simulatie en realiteit effectief wordt overbrugd voor manipulatietaken. Opmerkelijk is dat onze experimenten voor het eerst aantonen dat een beleid dat is getraind op ruwe gesimuleerde diepte, zonder de noodzaak van het toevoegen van ruis of fine-tuning in de echte wereld, naadloos generaliseert naar echte robots bij twee uitdagende langetermijntaken met gearticuleerde, reflecterende en slanke objecten, met weinig tot geen prestatieverlies. We hopen dat onze bevindingen toekomstig onderzoek zullen inspireren in het gebruik van simulatiegegevens en 3D-informatie in algemene robotbeleidsstrategieën.
Recente ontwikkelingen in Large Language Models (LLMs) hebben opmerkelijke algemene redeneervaardigheden aangetoond. Het systematisch evalueren en verbeteren van deze redeneervaardigheden is echter een uitdaging vanwege het gebrek aan controleerbare en schaalbare tools voor gedetailleerde analyse. Bestaande benchmarks en datasets missen vaak de noodzakelijke variabele controle voor multidimensionale, systematische analyse en training, of hebben beperkte probleemtypen en formaten. Om deze beperkingen aan te pakken, introduceren we SATQuest, een systematische verifier die is ontworpen om logisch redeneren in LLMs te evalueren en te verbeteren door diverse, op bevredigbaarheid gebaseerde logische redeneerproblemen direct te genereren uit Conjunctive Normal Form (CNF)-instanties. SATQuest structureert deze problemen langs drie orthogonale dimensies: instantieschaal, probleemtype en vraagformaat, waarbij gebruik wordt gemaakt van gerandomiseerde, SAT-gebaseerde probleemgeneratie en objectieve antwoordverificatie via PySAT. Dit ontwerp vermindert problemen met memorisatie, biedt genuanceerde inzichten in redeneerprestaties en maakt effectieve reinforcement fine-tuning mogelijk. Onze uitgebreide evaluatie van verschillende LLMs met behulp van SATQuest identificeerde significante beperkingen in hun logisch redeneren, met name in het generaliseren buiten vertrouwde wiskundige formaten. Bovendien tonen we aan dat reinforcement fine-tuning met SATQuest-beloningen de prestaties voor specifieke taken aanzienlijk verbetert en generaliseert naar complexere instanties, terwijl het resterende uitdagingen in cross-formaat aanpassing benadrukt. Door deze demonstraties laten we het potentieel van SATQuest zien als een fundamenteel tool en een waardevol startpunt voor het bevorderen van logisch redeneren in LLMs.