Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen blinken uit in het genereren van code op functie- en bestandsniveau, maar het genereren van complete repositories vanaf nul blijft een fundamentele uitdaging. Dit proces vereist coherente en betrouwbare planning over voorstel- en implementatieniveaus, terwijl natuurlijke taal, vanwege zijn ambiguïteit en breedsprakigheid, niet geschikt is om complexe softwarestructuren nauwkeurig weer te geven. Om dit aan te pakken, introduceren we de Repository Planning Graph (RPG), een persistente representatie die planning op voorstel- en implementatieniveau verenigt door capaciteiten, bestandsstructuren, gegevensstromen en functies in één grafiek te coderen. RPG vervangt dubbelzinnige natuurlijke taal door een expliciet blauwdruk, waardoor langetermijnplanning en schaalbare repositorygeneratie mogelijk worden. Op basis van RPG ontwikkelen we ZeroRepo, een grafiekgestuurd framework voor het genereren van repositories vanaf nul. Het werkt in drie fasen: planning op voorstelniveau en verfijning op implementatieniveau om de grafiek te construeren, gevolgd door grafiekgestuurde codegeneratie met testvalidatie. Om deze setting te evalueren, construeren we RepoCraft, een benchmark van zes real-world projecten met 1.052 taken. Op RepoCraft produceert ZeroRepo repositories met gemiddeld bijna 36K LOC, ongeveer 3,9 keer de sterkste baseline (Claude Code) en ongeveer 64 keer andere baselines. Het behaalt 81,5% functionele dekking en een slagingspercentage van 69,7%, wat respectievelijk 27,3 en 35,8 procentpunten hoger is dan Claude Code. Verdere analyse toont aan dat RPG complexe afhankelijkheden modelleert, progressief geavanceerdere planning mogelijk maakt door bijna-lineaire schaalbaarheid, en het begrip van repositories door LLM's verbetert, waardoor agentlokalisatie wordt versneld.
Unified multimodale Large Language Models (LLMs) die zowel visuele inhoud kunnen begrijpen als genereren, bieden enorm veel potentieel. Bestaande open-source modellen kampen echter vaak met een prestatieafweging tussen deze capaciteiten. Wij presenteren Manzano, een eenvoudig en schaalbaar unified framework dat deze spanning aanzienlijk vermindert door een hybride beeldtokenizer te combineren met een zorgvuldig samengesteld trainingsrecept. Een enkele gedeelde visuele encoder voedt twee lichtgewicht adapters die continue embeddings produceren voor beeld-naar-tekst-begrip en discrete tokens voor tekst-naar-beeld-generatie binnen een gemeenschappelijke semantische ruimte. Een unified autoregressieve LLM voorspelt hoogwaardige semantiek in de vorm van tekst- en beeldtokens, waarna een aanvullende diffusiedecoder de beeldtokens vertaalt naar pixels. De architectuur, samen met een unified trainingsrecept voor zowel begrips- als generatiedata, maakt schaalbare gezamenlijke training van beide capaciteiten mogelijk. Manzano behaalt state-of-the-art resultaten onder unified modellen en is competitief met gespecialiseerde modellen, met name bij tekstrijke evaluaties. Onze studies tonen minimale taakconflicten en consistente verbeteringen door het schalen van de modelgrootte, wat onze ontwerpkeuze voor een hybride tokenizer valideert.
Generatieve modellering, representatie leren en classificatie zijn drie kernproblemen in machine learning (ML), maar hun state-of-the-art (SoTA) oplossingen blijven grotendeels gescheiden. In dit artikel vragen we: Kan een verenigd principe alle drie aanpakken? Een dergelijke unificatie zou ML-pipelines kunnen vereenvoudigen en meer synergie tussen taken bevorderen. We introduceren het Latent Zoning Network (LZN) als een stap in deze richting. In de kern creëert LZN een gedeelde Gaussische latente ruimte die informatie codeert voor alle taken. Elk gegevenstype (bijv. afbeeldingen, tekst, labels) is uitgerust met een encoder die samples afbeeldt op gescheiden latente zones, en een decoder die latente waarden terugmapt naar data. ML-taken worden uitgedrukt als composities van deze encoders en decoders: bijvoorbeeld gebruikt label-geconditioneerde afbeeldingsgeneratie een label-encoder en afbeeldingsdecoder; afbeeldingsembedding gebruikt een afbeeldingsencoder; classificatie gebruikt een afbeeldingsencoder en labeldecoder. We demonstreren de belofte van LZN in drie steeds complexere scenario's: (1) LZN kan bestaande modellen verbeteren (afbeeldingsgeneratie): In combinatie met het SoTA Rectified Flow-model verbetert LZN de FID op CIFAR10 van 2.76 naar 2.59—zonder het trainingsdoel aan te passen. (2) LZN kan taken onafhankelijk oplossen (representatie leren): LZN kan onbewaakt representatie leren implementeren zonder hulpfuncties voor verlies, en overtreft de baanbrekende MoCo- en SimCLR-methoden met respectievelijk 9.3% en 0.2% bij downstream lineaire classificatie op ImageNet. (3) LZN kan meerdere taken gelijktijdig oplossen (gezamenlijke generatie en classificatie): Met afbeeldings- en labelencoders/decoders voert LZN beide taken van nature gezamenlijk uit, verbetert de FID en behaalt SoTA-classificatienauwkeurigheid op CIFAR10. De code en getrainde modellen zijn beschikbaar op https://github.com/microsoft/latent-zoning-networks. De projectwebsite is te vinden op https://zinanlin.me/blogs/latent_zoning_networks.html.
Het creëren van hoogwaardige 3D-modellen van binnenruimtes is essentieel voor toepassingen in ontwerp, virtual reality en robotica. Echter, handmatige 3D-modellering blijft tijdrovend en arbeidsintensief. Hoewel recente vooruitgang in generatieve AI geautomatiseerde scènesynthese mogelijk heeft gemaakt, kampen bestaande methoden vaak met uitdagingen bij het balanceren van visuele kwaliteit, diversiteit, semantische consistentie en gebruikerscontrole. Een belangrijke beperking is het ontbreken van een grootschalige, hoogwaardige dataset die specifiek is afgestemd op deze taak. Om deze kloof te dichten, introduceren we een uitgebreide synthetische dataset, met 12.328 gestructureerde geannoteerde scènes met 57.440 kamers en 4,7 miljoen fotorealistische 2D-renders. Gebruikmakend van deze dataset presenteren we SpatialGen, een nieuw multi-view multi-modale diffusiemodel dat realistische en semantisch consistente 3D-binnenscènes genereert. Gegeven een 3D-lay-out en een referentiebeeld (afgeleid van een tekstprompt), synthetiseert ons model uiterlijk (kleurenbeeld), geometrie (scènecoördinatenkaart) en semantiek (semantische segmentatiekaart) vanuit willekeurige gezichtspunten, terwijl ruimtelijke consistentie tussen modaliteiten behouden blijft. SpatialGen genereert in onze experimenten consequent superieure resultaten ten opzichte van eerdere methoden. We maken onze data en modellen open source om de gemeenschap te empoweren en het vakgebied van inzicht en generatie van binnenruimtes vooruit te helpen.
De snelle vooruitgang van Multimodale Grote Taalmodellen (MLLMs) heeft het afstemmen ervan op menselijke voorkeuren tot een kritieke uitdaging gemaakt. Beloningsmodellen (RMs) vormen een kerntechnologie om dit doel te bereiken, maar een systematische handleiding voor het bouwen van state-of-the-art Multimodale Beloningsmodellen (MRMs) ontbreekt momenteel zowel in de academische wereld als in de industrie. Door middel van uitgebreide experimentele analyse beoogt dit artikel een duidelijk "recept" te bieden voor het construeren van hoogwaardige MRMs. We onderzoeken systematisch elk cruciaal onderdeel in de ontwikkelingspijplijn van MRMs, waaronder beloningsmodelparadigma's (bijv. Naive-RM, Critic-based RM en Generative RM), de architectuur van de beloningskop, trainingsstrategieën, datacuratie (waarbij meer dan tien multimodale en tekstuele voorkeursdatasets worden behandeld), het basismodel en modelschaal, en ensemblemethoden. Op basis van deze experimentele inzichten introduceren we BaseReward, een krachtige en efficiënte baseline voor multimodale beloningsmodellering. BaseReward hanteert een eenvoudige maar effectieve architectuur, gebouwd op een {Qwen2.5-VL} basismodel, met een geoptimaliseerde tweelaagse beloningskop, en wordt getraind op een zorgvuldig samengestelde mix van hoogwaardige multimodale en tekstuele voorkeursdata. Onze resultaten tonen aan dat BaseReward een nieuwe state-of-the-art (SOTA) vestigt op belangrijke benchmarks zoals MM-RLHF-Reward Bench, VL-Reward Bench en Multimodal Reward Bench, waarbij het eerdere modellen overtreft. Bovendien valideren we de praktische bruikbaarheid ervan buiten statische benchmarks door BaseReward te integreren in een real-world reinforcement learning-pijplijn, waardoor de prestaties van een MLLM worden verbeterd op verschillende perceptie-, redeneer- en gesprekstaken. Dit werk levert niet alleen een topklasse MRM op, maar biedt de gemeenschap vooral een duidelijke, empirisch onderbouwde handleiding voor het ontwikkelen van robuuste beloningsmodellen voor de volgende generatie MLLMs.
Robotisch reinforcement learning (RL) in de echte wereld met vision-language-action (VLA) modellen wordt beperkt door schaarse, handmatig ontworpen beloningen en inefficiënte exploratie. We introduceren VLAC, een algemeen procesbeloningsmodel gebaseerd op InternVL en getraind op grootschalige heterogene datasets. Gegeven gepaarde observaties en een taaldoel, produceert het dichte voortgangsdelta's en een done-signaal, waardoor taakspecifieke beloningsengineering overbodig wordt, en ondersteunt het one-shot in-context transfer naar onbekende taken en omgevingen. VLAC is getraind op vision-language datasets om perceptie, dialogische en redeneervaardigheden te versterken, samen met robot- en menselijke trajectgegevens die actiegeneratie en voortgangsschatting grondvesten, en is verder versterkt om irrelevante prompts af te wijzen en regressie of stagnatie te detecteren door het construeren van grote aantallen negatieve en semantisch niet-overeenkomende samples. Met promptcontrole genereert een enkel VLAC-model afwisselend belonings- en actietokens, waardoor criticus en beleid worden verenigd. Geïmplementeerd in een asynchrone RL-loop in de echte wereld, voegen we een geleidelijk human-in-the-loop protocol toe (offline demonstratieherhaling, terugkeer en exploratie, door mensen geleide exploratie) dat exploratie versnelt en vroeg leren stabiliseert. Over vier verschillende manipulatie taken in de echte wereld verhoogt VLAC succespercentages van ongeveer 30% naar ongeveer 90% binnen 200 interactie-episodes in de echte wereld; het integreren van human-in-the-loop interventies levert een verdere 50% verbetering in sample-efficiëntie op en bereikt tot 100% uiteindelijk succes.
Op het gebied van AI-gestuurde automatisering van mens-GUI-interactie, hoewel snelle vooruitgang in multimodale grote taalmodellen en verfijningstechnieken via reinforcement learning opmerkelijke vooruitgang heeft geboekt, blijft een fundamentele uitdaging bestaan: hun interactielogica wijkt aanzienlijk af van natuurlijke mens-GUI-communicatiepatronen. Om deze kloof te overbruggen, stellen we "Blink-Think-Link" (BTL) voor, een hersen-geïnspireerd raamwerk voor mens-GUI-interactie dat het menselijk cognitieve proces tussen gebruikers en grafische interfaces nabootst. Het systeem deelt interacties op in drie biologisch plausibele fasen: (1) Blink - snelle detectie en aandacht voor relevante schermgebieden, analoog aan saccadische oogbewegingen; (2) Think - hogere-orde redenering en besluitvorming, vergelijkbaar met cognitieve planning; en (3) Link - generatie van uitvoerbare commando's voor precieze motorische controle, die menselijke actieselectiemechanismen nabootsen. Daarnaast introduceren we twee belangrijke technische innovaties voor het BTL-raamwerk: (1) Blink Data Generation - een geautomatiseerde annotatiepijplijn specifiek geoptimaliseerd voor blink-data, en (2) BTL Reward - het eerste op regels gebaseerde beloningsmechanisme dat reinforcement learning mogelijk maakt, aangedreven door zowel proces als resultaat. Op basis van dit raamwerk ontwikkelen we een GUI-agentmodel genaamd BTL-UI, dat consistente state-of-the-art prestaties laat zien in zowel statische GUI-begrip als dynamische interactietaken in uitgebreide benchmarks. Deze resultaten bieden overtuigende empirische validatie van de effectiviteit van het raamwerk bij het ontwikkelen van geavanceerde GUI-agents.
We presenteren Lynx, een hoogwaardig model voor gepersonaliseerde videosynthese vanuit een enkele invoerafbeelding. Gebouwd op een open-source Diffusion Transformer (DiT) basis model, introduceert Lynx twee lichtgewicht adapters om identiteitsgetrouwheid te waarborgen. De ID-adapter maakt gebruik van een Perceiver Resampler om ArcFace-afgeleide gezichtsembeddingen om te zetten in compacte identiteitstokens voor conditionering, terwijl de Ref-adapter dichte VAE-kenmerken integreert vanuit een bevroren referentiepad, waarbij fijnmazige details worden geïnjecteerd over alle transformerlagen via cross-attention. Deze modules zorgen gezamenlijk voor robuuste identiteitsbehoud terwijl temporele samenhang en visuele realiteit behouden blijven. Door evaluatie op een samengestelde benchmark van 40 proefpersonen en 20 onbevooroordeelde prompts, wat resulteerde in 800 testgevallen, heeft Lynx superieure gezichtsgelijkenis, competitieve promptvolging en sterke videokwaliteit aangetoond, waardoor de stand van gepersonaliseerde videogeneratie wordt bevorderd.
Hoewel COLMAP lange tijd de overheersende methode is gebleven voor het optimaliseren van cameraparameters in statische scènes, wordt het beperkt door de lange uitvoeringstijd en de afhankelijkheid van grondwaarheid (GT) bewegingsmaskers voor toepassing op dynamische scènes. Veel inspanningen hebben geprobeerd het te verbeteren door meer aannames als supervisie te integreren, zoals GT brandpuntsafstand, bewegingsmaskers, 3D-puntenwolken, cameraposities en metrische diepte, die echter meestal niet beschikbaar zijn in casual vastgelegde RGB-video's. In dit artikel stellen we een nieuwe methode voor voor nauwkeurigere en efficiëntere optimalisatie van cameraparameters in dynamische scènes, uitsluitend gesuperviseerd door een enkele RGB-video. Onze methode bestaat uit drie belangrijke componenten: (1) Patch-wise Tracking Filters, om robuuste en maximaal schaarse scharnierachtige relaties over de RGB-video te vestigen. (2) Outlier-aware Joint Optimization, voor efficiënte optimalisatie van cameraparameters door adaptieve down-weighting van bewegende uitschieters, zonder afhankelijkheid van bewegingsaannames. (3) Een tweestaps optimalisatiestrategie, om stabiliteit en optimalisatiesnelheid te verbeteren door een afweging tussen de Softplus-limieten en convexe minima in verliezen. We evalueren onze cameraberekeningen visueel en numeriek. Om de nauwkeurigheid verder te valideren, voeren we de cameraberekeningen in een 4D-reconstructiemethode en beoordelen de resulterende 3D-scènes, en gerenderde 2D RGB- en dieptekaarten. We voeren experimenten uit op 4 real-world datasets (NeRF-DS, DAVIS, iPhone en TUM-dynamics) en 1 synthetische dataset (MPI-Sintel), waaruit blijkt dat onze methode cameraparameters efficiënter en nauwkeuriger schat met een enkele RGB-video als enige supervisie.
Instructie-gestuurde tekst-naar-spraak (ITTS) stelt gebruikers in staat om spraakgeneratie te controleren via natuurlijke taalprompts, wat een intuïtievere interface biedt dan traditionele TTS. Echter, de afstemming tussen gebruikersstijlinstructies en luisteraarperceptie blijft grotendeels onontgonnen. Dit werk presenteert eerst een perceptuele analyse van ITTS-bestuurbaarheid over twee expressieve dimensies (bijwoorden van graad en gegradeerde emotie-intensiteit) en verzamelt menselijke beoordelingen over sprekersleeftijd en woordniveau-emphasiskenmerken. Om de instructie-perceptiekloof grondig te onthullen, bieden we een datacollectie met grootschalige menselijke evaluaties, genaamd het Expressive VOice Control (E-VOC) corpus. Verder onthullen we dat (1) gpt-4o-mini-tts het meest betrouwbare ITTS-model is met een grote afstemming tussen instructie en gegenereerde uitingen over akoestische dimensies. (2) De 5 geanalyseerde ITTS-systemen hebben de neiging om volwassen stemmen te genereren, zelfs wanneer de instructies vragen om kind- of ouderenstemmen te gebruiken. (3) Fijnmazige controle blijft een grote uitdaging, wat aangeeft dat de meeste ITTS-systemen aanzienlijke ruimte voor verbetering hebben in het interpreteren van licht verschillende attribuutinstructies.
Role-playing agents (RPAs) hebben steeds meer aandacht gekregen vanwege hun vermogen om meeslepende en interactieve personages te simuleren. Bestaande benaderingen richten zich echter voornamelijk op statische rolprofielen, waarbij de dynamische waarnemingsvaardigheden die inherent zijn aan mensen over het hoofd worden gezien. Om deze kloof te overbruggen, introduceren we het concept van dynamische rolprofielen door de videomodaliteit in RPAs te integreren. Om dit te ondersteunen, hebben we Role-playing-Video60k geconstrueerd, een grootschalige, hoogwaardige dataset bestaande uit 60k video's en 700k bijbehorende dialogen. Op basis van deze dataset ontwikkelen we een uitgebreid RPA-framework dat adaptieve temporele bemonstering combineert met zowel dynamische als statische rolprofielrepresentaties. Specifiek wordt het dynamische profiel gecreëerd door adaptief videoframes te bemonsteren en deze in temporele volgorde aan het LLM te voeden, terwijl het statische profiel bestaat uit (1) karakterdialogen uit trainingsvideo's tijdens fine-tuning, en (2) een samenvattende context uit de invoervideo tijdens inferentie. Deze gezamenlijke integratie stelt RPAs in staat om betere reacties te genereren. Bovendien stellen we een robuuste evaluatiemethode voor die acht metrieken omvat. Experimentele resultaten tonen de effectiviteit van ons framework aan en benadrukken het belang van dynamische rolprofielen bij de ontwikkeling van RPAs.
Voorgetrainde automatische spraakherkenning (ASR) modellen zoals Whisper presteren goed, maar hebben nog steeds domeinaanpassing nodig om ongeziene woordenschat en spreektaal te kunnen verwerken. In veel praktijksituaties is het verzamelen van spraakdata onpraktisch, waardoor tekstuele aanpassing noodzakelijk is. Wij stellen WhisTLE voor, een diep begeleide, tekstuele aanpassingsmethode voor voorgetrainde encoder-decoder ASR-modellen. WhisTLE traint een variational autoencoder (VAE) om encoder-uitvoer van tekst te modelleren en fine-tunt de decoder met behulp van de geleerde tekst-naar-latente encoder, eventueel gecombineerd met tekst-naar-spraak (TTS) aanpassing. Tijdens inferentie wordt de originele encoder hersteld, wat geen extra runtimekosten met zich meebrengt. Over vier out-of-domain datasets en vier ASR-modellen reduceert WhisTLE met TTS de woordfoutfrequentie (WER) met 12,3% ten opzichte van TTS-alleen aanpassing en presteert het beter dan alle niet-WhisTLE-baselines in 27 van de 32 scenario's.
Menselijke conversatie omvat taal, spraak en visuele signalen, waarbij elk medium aanvullende informatie biedt. Spraak brengt bijvoorbeeld een sfeer of toon over die niet volledig wordt vastgelegd door tekst alleen. Hoewel multimodale LLM's zich richten op het genereren van tekstreacties vanuit diverse invoer, is er minder aandacht besteed aan het genereren van natuurlijke en boeiende spraak. Wij stellen een menselijk aandoende agent voor die spraakreacties genereert op basis van conversatiesfeer en responsieve stijlinformatie. Om dit te bereiken, bouwen we een nieuwe MultiSensory Conversation-dataset die gericht is op spraak, om agents in staat te stellen natuurlijke spraak te genereren. Vervolgens stellen we een multimodaal LLM-gebaseerd model voor voor het genereren van tekstreacties en stemomschrijvingen, die worden gebruikt om spraak te genereren die paralinguïstische informatie omvat. Experimentele resultaten tonen de effectiviteit aan van het gebruik van zowel visuele als auditieve modaliteiten in conversaties om boeiende spraak te genereren. De broncode is beschikbaar op https://github.com/kimtaesu24/MSenC.
Het uiteindelijke doel van belichaamde agents is het creëren van samenwerkingspartners die kunnen interacteren met mensen, niet slechts uitvoerders die passief instructies volgen. Dit vereist dat agents kunnen communiceren, coördineren en hun acties kunnen aanpassen op basis van menselijke feedback. Recente vooruitgang in VLAs (Vision-Language-Action modellen) heeft een pad naar dit doel geboden. De meeste huidige VLA-gebaseerde belichaamde agents opereren echter in een eenrichtingsmodus: ze ontvangen een instructie en voeren deze uit zonder feedback. Deze aanpak faalt in realistische scenario’s waar instructies vaak dubbelzinnig zijn. In dit artikel pakken we dit probleem aan met het Ask-to-Clarify raamwerk. Ons raamwerk lost eerst dubbelzinnige instructies op door vragen te stellen in een meerzijdige dialoog. Vervolgens genereert het end-to-end laagniveau acties. Specifiek bestaat het Ask-to-Clarify raamwerk uit twee componenten: één VLM (Vision-Language Model) voor samenwerking en één diffusiemodel voor acties. We introduceren ook een verbindingsmodule die voorwaarden genereert voor het diffusiemodel op basis van de uitvoer van het VLM. Deze module past de observatie aan op basis van instructies om betrouwbare voorwaarden te creëren. We trainen ons raamwerk met een tweefasen kennisisolatiestrategie. Eerst finetunen we de samenwerkingscomponent met behulp van dialooggegevens voor het oplossen van dubbelzinnigheid. Vervolgens integreren we de actiecomponent terwijl we de samenwerkingscomponent bevriezen. Dit behoudt de interactievaardigheden terwijl het diffusiemodel wordt gefinetuned om acties te genereren. De trainingsstrategie garandeert dat ons raamwerk eerst vragen kan stellen en vervolgens acties kan genereren. Tijdens inferentie fungeert een signaaldetector als router die ons raamwerk helpt schakelen tussen het stellen van vragen en het uitvoeren van acties. We evalueren het Ask-to-Clarify raamwerk in 8 realistische taken, waar het de huidige state-of-the-art VLAs overtreft. De resultaten suggereren dat ons voorgestelde raamwerk, samen met de trainingsstrategie, een pad biedt naar collaboratieve belichaamde agents.