Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) zijn steeds belangrijker voor het aanpakken van complexe taken in interactieve omgevingen. Bestaand werk richt zich voornamelijk op het verbeteren van de prestaties door gedrag te klonen van sterkere experts, maar dergelijke benaderingen falen vaak in real-world toepassingen, voornamelijk vanwege het onvermogen om te herstellen van fouten. Echter, stapsgewijze kritiekdata is moeilijk en duur om te verzamelen. Het automatiseren en dynamisch construeren van zelfkritiekdatasets is daarom cruciaal om modellen te voorzien van intelligente agentcapaciteiten. In dit werk stellen we een iteratief zelftrainingskader voor, Agent-R, dat taalagenten in staat stelt om ter plekke te Reflecteren. In tegenstelling tot traditionele methoden die acties belonen of bestraffen op basis van juistheid, maakt Agent-R gebruik van MCTS om trainingsdata te construeren die correcte trajecten herstellen van foutieve trajecten. Een belangrijke uitdaging van agentreflectie ligt in de noodzaak voor tijdige herziening in plaats van te wachten tot het einde van een rollout. Om dit aan te pakken, introduceren we een modelgestuurd kritiekconstructiemechanisme: het actiemodel identificeert de eerste foutstap (binnen zijn huidige capaciteit) in een mislukt traject. Van daaruit splitsen we het met het aangrenzende juiste pad, dat dezelfde ouderknoop in de boom deelt. Deze strategie stelt het model in staat om reflectie te leren op basis van zijn huidige beleid, wat resulteert in een betere leerefficiëntie. Om verder de schaalbaarheid van dit zelfverbeteringsparadigma te verkennen, onderzoeken we iteratieve verfijning van zowel foutcorrectiecapaciteiten als datasetconstructie. Onze bevindingen tonen aan dat Agent-R continu de mogelijkheid van het model verbetert om te herstellen van fouten en tijdige foutcorrectie mogelijk maakt. Experimenten in drie interactieve omgevingen tonen aan dat Agent-R agenten effectief uitrust om foutieve acties te corrigeren en lussen te vermijden, met superieure prestaties in vergelijking met basismethoden (+5.59%).
We introduceren MMVU, een uitgebreide benchmark op expertniveau voor het evalueren van basismodellen in videobegrip. MMVU omvat 3.000 door experts geannoteerde vragen die 27 onderwerpen beslaan binnen vier kern disciplines: Wetenschap, Gezondheidszorg, Geesteswetenschappen & Sociale Wetenschappen, en Techniek. In vergelijking met eerdere benchmarks heeft MMVU drie belangrijke verbeteringen. Ten eerste daagt het modellen uit om domeinspecifieke kennis toe te passen en expertniveau redenering uit te voeren om gespecialiseerde domeinvideo's te analyseren, verdergaand dan de basis visuele perceptie die doorgaans wordt beoordeeld in huidige videobenchmarks. Ten tweede wordt elk voorbeeld vanaf nul geannoteerd door menselijke experts. We passen strikte datakwaliteitscontroles toe om de hoge kwaliteit van de dataset te waarborgen. Ten slotte wordt elk voorbeeld verrijkt met expert-geannoteerde redeneerrationalen en relevante domeinkennis, wat diepgaande analyse mogelijk maakt. We voeren een uitgebreide evaluatie uit van 32 voorhoede multimodale basismodellen op MMVU. De nieuwste System-2-capabele modellen, o1 en Gemini 2.0 Flash Thinking, behalen de hoogste prestaties onder de geteste modellen. Echter, ze komen nog steeds tekort in vergelijking met menselijke expertise. Door diepgaande foutanalyses en casestudies bieden we bruikbare inzichten voor toekomstige ontwikkelingen in expertniveau, kennisintensief videobegrip voor gespecialiseerde domeinen.
Deze paper herziet de implementatie van Load-balancing Loss (LBL) bij het trainen van Mixture-of-Experts (MoE) modellen. Specifiek wordt LBL voor MoE gedefinieerd als N_E sum_{i=1}^{N_E} f_i p_i, waarbij N_E het totale aantal experts is, f_i de frequentie van expert i die geselecteerd wordt vertegenwoordigt, en p_i de gemiddelde gate score van expert i aanduidt. Bestaande MoE trainingskaders maken doorgaans gebruik van de parallelle trainingsstrategie zodat f_i en de LBL worden berekend binnen een micro-batch en vervolgens gemiddeld worden over parallelle groepen. In essentie bevat een micro-batch voor het trainen van LLMs op miljardenschaal meestal zeer weinig sequenties. Daarom bevindt de micro-batch LBL zich bijna op sequentieniveau, en wordt de router gedwongen om de token gelijkmatig binnen elke sequentie te verdelen. Onder deze strikte beperking worden zelfs tokens van een domeinspecifieke sequentie (bijv. code) uniform gerouteerd naar alle experts, waardoor expertspecialisatie wordt belemmerd. In dit werk stellen we voor om LBL te berekenen met behulp van een global-batch om deze beperking te versoepelen. Omdat een global-batch veel diversere sequenties bevat dan een micro-batch, zal dit een evenwichtige belasting op corpusniveau aanmoedigen. Specifiek introduceren we een extra communicatiestap om f_i te synchroniseren over micro-batches en gebruiken dit vervolgens om de LBL te berekenen. Uit experimenten met het trainen van MoE-gebaseerde LLMs (tot 42,8B totale parameters en 400B tokens) blijkt verrassend genoeg dat de global-batch LBL-strategie uitstekende prestatiewinst oplevert, zowel in perplexiteit bij voorafgaande training als bij taken nadien. Onze analyse onthult dat de global-batch LBL ook aanzienlijk de domeinspecialisatie van MoE-experts verbetert.
Dit artikel introduceert UI-TARS, een model van een native GUI-agent dat uitsluitend schermafbeeldingen als invoer waarneemt en mensachtige interacties uitvoert (bijv. toetsenbord- en muisbewerkingen). In tegenstelling tot gangbare agentframeworks die sterk afhankelijk zijn van zwaar omwikkelde commerciële modellen (bijv. GPT-4o) met door experts vervaardigde prompts en workflows, is UI-TARS een end-to-end model dat deze geavanceerde frameworks overtreft. Experimenten tonen zijn superieure prestaties aan: UI-TARS behaalt SOTA-prestaties in meer dan 10 GUI-agenttests die perceptie, gronding en GUI-taakuitvoering evalueren. Opmerkelijk is dat in de OSWorld-test behaalt UI-TARS scores van 24.6 met 50 stappen en 22.7 met 15 stappen, waarbij Claude (respectievelijk 22.0 en 14.9) wordt overtroffen. In AndroidWorld behaalt UI-TARS 46.6, wat GPT-4o (34.5) overtreft. UI-TARS omvat verschillende belangrijke innovaties: (1) Verbeterde Perceptie: het benutten van een grootschalige dataset van GUI-schermafbeeldingen voor contextbewust begrip van UI-elementen en nauwkeurige bijschriften; (2) Geünificeerde Actiemodellering, die acties standaardiseert in een verenigde ruimte over platforms heen en nauwkeurige gronding en interactie bereikt via grootschalige actietraces; (3) System-2 Redeneren, dat doelbewuste redenering opneemt in besluitvorming in meerdere stappen, waarbij meerdere redeneringspatronen zoals taakdecompositie, reflecterend denken, mijlpaalherkenning, enz. betrokken zijn; (4) Iteratieve Training met Reflecterende Online Traces, dat het databottleneck aanpakt door automatisch nieuwe interactietraces te verzamelen, filteren en reflectief te verfijnen op honderden virtuele machines. Door iteratieve training en reflectieve afstemming leert UI-TARS voortdurend van zijn fouten en past het zich aan onvoorziene situaties aan met minimale menselijke tussenkomst. We analyseren ook het evolutiepad van GUI-agenten om de verdere ontwikkeling van dit domein te sturen.
Wij presenteren TokenVerse - een methode voor multi-concept personalisatie, waarbij gebruik wordt gemaakt van een vooraf getraind tekst-naar-afbeelding diffusie model. Ons framework kan complexe visuele elementen en kenmerken ontwarren uit slechts één afbeelding, terwijl het naadloze plug-and-play generatie van combinaties van concepten mogelijk maakt die zijn geëxtraheerd uit meerdere afbeeldingen. In tegenstelling tot bestaande werken kan TokenVerse meerdere afbeeldingen met meerdere concepten elk verwerken, en ondersteunt een breed scala aan concepten, waaronder objecten, accessoires, materialen, houding en belichting. Ons werk maakt gebruik van een DiT-gebaseerd tekst-naar-afbeelding model, waarbij de invoertekst de generatie beïnvloedt door middel van zowel aandacht als modulatie (verschuiving en schaal). We observeren dat de modulatieruimte semantisch is en gecontroleerde aanpassing van complexe concepten mogelijk maakt. Voortbouwend op deze inzichten, ontwikkelen we een optimalisatiegebaseerd framework dat een afbeelding en een tekstbeschrijving als invoer neemt, en voor elk woord een afzonderlijke richting in de modulatieruimte vindt. Deze richtingen kunnen vervolgens worden gebruikt om nieuwe afbeeldingen te genereren die de geleerde concepten combineren in een gewenste configuratie. We tonen de effectiviteit van TokenVerse in uitdagende personalisatiescenario's en presenteren de voordelen ten opzichte van bestaande methoden. Projectpagina te vinden op https://token-verse.github.io/
Ondanks de veelbelovende prestaties van Grote Visie Taalmodellen (GVLM's) in visueel begrip, genereren ze af en toe onjuiste resultaten. Terwijl beloningsmodellen (BM's) met versterkend leren of schaalvergroting op testtijd het potentieel bieden om de kwaliteit van de generatie te verbeteren, blijft er een kritische kloof: publiekelijk beschikbare multimodale BM's voor GVLM's zijn schaars, en de implementatiedetails van eigen modellen zijn vaak onduidelijk. Wij overbruggen deze kloof met InternLM-XComposer2.5-Beloning (IXC-2.5-Beloning), een eenvoudig maar effectief multimodaal beloningsmodel dat GVLM's afstemt op menselijke voorkeuren. Om de robuustheid en veelzijdigheid van IXC-2.5-Beloning te waarborgen, hebben we een hoogwaardig multimodaal voorkeurscorpus opgezet dat tekst-, beeld- en video-invoer bestrijkt over diverse domeinen, zoals instructieopvolging, algemeen begrip, tekstrijke documenten, wiskundig redeneren en video begrip. IXC-2.5-Beloning behaalt uitstekende resultaten op de nieuwste multimodale beloningsmodel benchmark en toont competitieve prestaties op tekst-only beloningsmodel benchmarks. We demonstreren verder drie belangrijke toepassingen van IXC-2.5-Beloning: (1) Het bieden van een toezichtsignaal voor RL-training. We integreren IXC-2.5-Beloning met Proximale Beleidsoptimalisatie (PPO) wat IXC-2.5-Chat oplevert, dat consistente verbeteringen laat zien in instructieopvolging en multimodale open dialoog; (2) Het selecteren van de beste respons uit kandidaat-responsen voor schaalvergroting op testtijd; en (3) Het filteren van uitschieters of ruisende monsters uit bestaande beeld- en video-instructie-afstemmings-trainingsgegevens. Om reproduceerbaarheid te waarborgen en verder onderzoek te vergemakkelijken, hebben we alle modelgewichten en trainingsrecepten openbaar gemaakt op https://github.com/InternLM/InternLM-XComposer
We presenteren Hunyuan3D 2.0, een geavanceerd grootschalig 3D-synthesesysteem voor het genereren van hoogwaardige 3D-assets met texturen op hoge resolutie. Dit systeem omvat twee fundamentele componenten: een grootschalig vormgeneratiemodel - Hunyuan3D-DiT, en een grootschalig textuursynthesemodel - Hunyuan3D-Paint. Het vormgeneratiemodel, gebouwd op een schaalbare op stromen gebaseerde diffusietransformer, heeft als doel geometrie te creëren die goed aansluit bij een gegeven conditiebeeld, waardoor een solide basis wordt gelegd voor toepassingen stroomafwaarts. Het textuursynthesemodel, profiterend van sterke geometrische en diffusievoorwaarden, produceert textuurkaarten op hoge resolutie en levendigheid voor zowel gegenereerde als handgemaakte meshes. Bovendien bouwen we Hunyuan3D-Studio - een veelzijdig, gebruiksvriendelijk productieplatform dat het proces van het opnieuw maken van 3D-assets vereenvoudigt. Het stelt zowel professionele als amateurgebruikers in staat om hun meshes efficiënt te manipuleren of zelfs te animeren. We evalueren onze modellen systematisch, waarbij we aantonen dat Hunyuan3D 2.0 beter presteert dan eerdere state-of-the-art modellen, inclusief de open-source modellen en gesloten-source modellen op het gebied van geometrische details, conditieafstemming, textuurkwaliteit, enzovoort. Hunyuan3D 2.0 is openbaar vrijgegeven om de lacunes in de open-source 3D-gemeenschap voor grootschalige fundamentele generatiemodellen op te vullen. De code en vooraf getrainde gewichten van onze modellen zijn beschikbaar op: https://github.com/Tencent/Hunyuan3D-2
Redeneermodellen (RLM's), ook wel Grote Redeneermodellen (LRM's) genoemd, zoals OpenAI's o1 en o3, DeepSeek-V3, en Alibaba's QwQ, hebben de probleemoplossende mogelijkheden van AI opnieuw gedefinieerd door grote taalmodellen (LLM's) uit te breiden met geavanceerde redeneermechanismen. Toch brengen hun hoge kosten, eigendomsaard, en complexe architecturen - waarin Versterkend Leren (RL), zoekheuristieken, en LLM's op unieke wijze worden gecombineerd - toegankelijkheids- en schaalbaarheidsuitdagingen met zich mee. Om deze aan te pakken, stellen we een uitgebreid blauwdruk voor dat RLM-componenten organiseert in een modulair raamwerk, gebaseerd op een inventarisatie en analyse van alle RLM-werken. Deze blauwdruk omvat diverse redeneerstructuren (ketens, bomen, grafieken, en geneste vormen), redeneerstrategieën (bijv. Monte Carlo Boomzoeken, Beam Zoeken), RL-concepten (beleid, waarde modellen en andere), en toezichtregelingen (Output-Gebaseerd en Proces-Gebaseerd Toezicht). We bieden ook gedetailleerde wiskundige formuleringen en algoritmische specificaties om de implementatie van RLM's te vereenvoudigen. Door te laten zien hoe schema's zoals LLaMA-Berry, QwQ, Journey Learning, en Graph of Thoughts passen als speciale gevallen, tonen we de veelzijdigheid en verenigende potentie van de blauwdruk aan. Om de bruikbaarheid ervan te illustreren, introduceren we x1, een modulaire implementatie voor snelle RLM-prototyping en experimentatie. Met behulp van x1 en een literatuuroverzicht bieden we belangrijke inzichten, zoals meerfasentraining voor beleids- en waarde modellen, en het belang van vertrouwde trainingsdistributies. Tot slot schetsen we hoe RLM's kunnen integreren met een breder LLM-ecosysteem, inclusief tools en databases. Ons werk ontrafelt de constructie van RLM's, democratiseert geavanceerde redeneermogelijkheden, en bevordert innovatie, met als doel het overbruggen van de kloof tussen "rijke AI" en "arme AI" door de barrières voor RLM-ontwikkeling en experimentatie te verlagen.
Smartphones zijn onmisbaar geworden in het moderne leven, maar het uitvoeren van complexe taken op mobiele apparaten blijft vaak frustrerend. Recente ontwikkelingen in op grote multimodellen (LMM) gebaseerde mobiele agenten hebben aangetoond dat ze in staat zijn om te waarnemen en te handelen in mobiele omgevingen. Echter, huidige benaderingen hebben aanzienlijke beperkingen: ze schieten tekort in het aanpakken van echte menselijke behoeften, worstelen met redeneringsintensieve en langetermijntaken, en missen mechanismen om te leren en te verbeteren op basis van eerdere ervaringen. Om deze uitdagingen te overwinnen, introduceren we Mobile-Agent-E, een hiërarchisch multi-agent framework dat in staat is tot zelfevolutie door middel van eerdere ervaringen. Met hiërarchisch bedoelen we een expliciete scheiding van hoog-niveau planning en laag-niveau actie-uitvoering. Het framework bestaat uit een Manager, verantwoordelijk voor het bedenken van algemene plannen door complexe taken op te splitsen in subdoelen, en vier ondergeschikte agenten - Perceptor, Operator, Action Reflector en Notetaker - die respectievelijk fijnmazige visuele waarneming, onmiddellijke actie-uitvoering, foutverificatie en informatie-aggregatie behandelen. Mobile-Agent-E bevat ook een nieuw zelfevolutiemodule die een blijvend langetermijngeheugen onderhoudt bestaande uit Tips en Shortcuts. Tips zijn algemene richtlijnen en lessen geleerd uit eerdere taken over hoe effectief te interacteren met de omgeving. Shortcuts zijn herbruikbare, uitvoerbare sequenties van atomaire bewerkingen op maat gemaakt voor specifieke subroutines. De inclusie van Tips en Shortcuts vergemakkelijkt voortdurende verfijning in prestaties en efficiëntie. Naast dit framework introduceren we Mobile-Eval-E, een nieuwe benchmark met complexe mobiele taken die lange-termijn, multi-app interacties vereisen. Empirische resultaten tonen aan dat Mobile-Agent-E een 22% absolute verbetering behaalt ten opzichte van eerdere state-of-the-art benaderingen over drie fundamentele modelruggengraat. Projectpagina: https://x-plug.github.io/MobileAgent.
Autonome agenten aangedreven door grote taalmodellen (LLM's) hebben het potentieel om menselijke capaciteiten te verbeteren door te assisteren bij digitale taken, variërend van het versturen van e-mails tot het uitvoeren van data-analyse. De vaardigheden van bestaande LLM's bij dergelijke taken worden vaak belemmerd door het gebrek aan hoogwaardige agentgegevens uit de bijbehorende omgevingen waarmee ze interacteren. Wij stellen Learn-by-interact voor, een op data gericht raamwerk om LLM-agenten aan te passen aan willekeurige omgevingen zonder menselijke annotaties. Learn-by-interact synthetiseert trajecten van agent-omgevingsinteracties op basis van documentatie, en construeert instructies door interactiegeschiedenissen samen te vatten of te abstraheren, een proces genaamd backward construction. We beoordelen de kwaliteit van onze synthetische gegevens door ze te gebruiken in zowel op training gebaseerde scenario's als trainingvrije in-context learning (ICL), waarbij we innovatieve ophaalbenaderingen ontwikkelen die geoptimaliseerd zijn voor agenten. Uitgebreide experimenten op SWE-bench, WebArena, OSWorld en Spider2-V, die zich uitstrekken over realistische coderings-, web- en desktopomgevingen, tonen de effectiviteit van Learn-by-interact in verschillende downstream agentische taken -- baselineresultaten worden verbeterd tot wel 12,2% voor ICL met Claude-3.5 en 19,5% voor training met Codestral-22B. We tonen verder de cruciale rol van backward construction aan, die tot 14,0% verbetering biedt voor training. Onze ablatiestudies tonen de efficiëntie aan die onze gesynthetiseerde gegevens bieden in ICL en de superioriteit van ons ophaalproces ten opzichte van alternatieve benaderingen zoals conventionele retrieval-augmented generation (RAG). Wij verwachten dat Learn-by-interact zal dienen als een basis voor agentgegevenssynthese nu LLM's steeds vaker worden ingezet in real-world omgevingen.
Depth Anything heeft opmerkelijk succes behaald in het schatten van diepte met behulp van monoculaire diepteschatting met sterke generalisatievermogen. Het lijdt echter aan temporele inconsistentie in video's, wat de praktische toepassingen belemmert. Diverse methoden zijn voorgesteld om dit probleem te verlichten door gebruik te maken van video-generatiemodellen of door prior-kennis van optische stroming en cameraposities te introduceren. Desalniettemin zijn deze methoden alleen toepasbaar op korte video's (< 10 seconden) en vereisen ze een afweging tussen kwaliteit en rekenkundige efficiëntie. Wij stellen Video Depth Anything voor voor hoogwaardige, consistente diepteschatting in superlange video's (van enkele minuten) zonder efficiëntie op te offeren. We baseren ons model op Depth Anything V2 en vervangen de kop ervan door een efficiënte ruimtelijk-temporele kop. We ontwerpen een eenvoudige maar effectieve verliesfunctie voor temporele consistentie door de temporele dieptegradient te beperken, waardoor de noodzaak voor extra geometrische prior-kennis wordt geëlimineerd. Het model wordt getraind op een gezamenlijke dataset van video-diepte en ongelabelde afbeeldingen, vergelijkbaar met Depth Anything V2. Bovendien is een nieuwe strategie op basis van keyframes ontwikkeld voor inferentie in lange video's. Experimenten tonen aan dat ons model kan worden toegepast op willekeurig lange video's zonder concessies te doen aan kwaliteit, consistentie of generalisatievermogen. Uitgebreide evaluaties op meerdere videobenchmarks tonen aan dat onze aanpak een nieuwe state-of-the-art neerzet in zero-shot video-diepteschatting. We bieden modellen van verschillende schalen aan om een reeks scenario's te ondersteunen, waarbij ons kleinste model in staat is tot realtime prestaties met 30 FPS.
Generatief modelleren heeft als doel willekeurig geluid om te zetten in gestructureerde uitvoer. In dit werk verbeteren we videodiffusiemodellen door bewegingscontrole mogelijk te maken via gestructureerde latente geluidsmonsters. Dit wordt bereikt door slechts een verandering in de gegevens: we bewerken trainingsvideo's om gestructureerd geluid te produceren. Als gevolg hiervan is onze methode onafhankelijk van het ontwerp van het diffusiemodel, waarbij geen wijzigingen in modelarchitecturen of trainingspijplijnen nodig zijn. Specifiek stellen we een nieuw geluidsvervormingsalgoritme voor, snel genoeg om in realtime te draaien, dat willekeurige temporale Gaussiërs vervangt door gecorreleerd vervormd geluid afgeleid van optische stroomvelden, terwijl de ruimtelijke Gaussiërs behouden blijven. De efficiëntie van ons algoritme stelt ons in staat om moderne basisvideodiffusiemodellen fijn af te stemmen met vervormd geluid met minimale overhead, en een alles-in-één oplossing te bieden voor een breed scala aan gebruiksvriendelijke bewegingscontrole: lokale objectbewegingscontrole, wereldwijde camerabewegingscontrole en bewegingsoverdracht. De harmonisatie tussen temporale coherentie en ruimtelijke Gaussiërs in ons vervormd geluid leidt tot effectieve bewegingscontrole met behoud van pixelkwaliteit per frame. Uitgebreide experimenten en gebruikersstudies tonen de voordelen van onze methode aan, waardoor het een robuuste en schaalbare aanpak is voor het regelen van beweging in videodiffusiemodellen. Videoregistraties zijn beschikbaar op onze webpagina: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. De broncode en modelcontrolepunten zijn beschikbaar op GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
We tonen aan dat de GPS-tags die zijn opgenomen in de fotometadata een nuttig controle signaal bieden voor beeldgeneratie. We trainen GPS-naar-beeldmodellen en gebruiken ze voor taken die een gedetailleerd begrip vereisen van hoe beelden variëren binnen een stad. In het bijzonder trainen we een diffusiemodel om beelden te genereren die afhankelijk zijn van zowel GPS als tekst. Het geleerde model genereert beelden die het kenmerkende uiterlijk van verschillende buurten, parken en bezienswaardigheden vastleggen. We extraheren ook 3D-modellen uit 2D GPS-naar-beeldmodellen via score distillatie sampling, waarbij GPS-conditionering wordt gebruikt om het uiterlijk van de reconstructie vanuit elk gezichtspunt te beperken. Onze evaluaties suggereren dat onze GPS-geconditioneerde modellen succesvol leren om beelden te genereren die variëren op basis van locatie, en dat GPS-conditionering de geschatte 3D-structuur verbetert.
De kwaliteit van Supervised Fine-Tuning (SFT) data speelt een cruciale rol bij het verbeteren van de conversatiecapaciteiten van Large Language Models (LLM's). Naarmate LLM's geavanceerder worden, is de beschikbaarheid van hoogwaardige mens-geannoteerde SFT-gegevens een aanzienlijke bottleneck geworden, wat een grotere afhankelijkheid van synthetische trainingsgegevens noodzakelijk maakt. In dit werk introduceren we Condor, een nieuw tweestaps synthetisch gegevensgeneratiekader dat World Knowledge Tree en Self-Reflection Refinement incorporeert om op schaal hoogwaardige SFT-gegevens te produceren. Onze experimentele resultaten tonen aan dat een basismodel dat alleen is fijnafgestemd op 20K door Condor gegenereerde voorbeelden superieure prestaties behaalt in vergelijking met tegenhangers. De aanvullende verfijningsfase in Condor maakt verdere iteratieve zelfverbetering mogelijk voor LLM's op verschillende schalen (tot 72B), waarbij de effectiviteit van onze aanpak wordt bevestigd. Bovendien onthult ons onderzoek naar het schalen van synthetische gegevens in post-training aanzienlijk onbenut potentieel voor prestatieverbeteringen, wat veelbelovende mogelijkheden opent voor toekomstig onderzoek.
In dit artikel stellen we een nieuwe methode voor voor een audio-gestuurde pratende kop die in staat is om tegelijkertijd zeer expressieve gezichtsuitdrukkingen en handgebaren te genereren. In tegenstelling tot bestaande methoden die zich richten op het genereren van volledige lichaams- of half-lichaamshoudingen, onderzoeken we de uitdagingen van het genereren van co-spraakgebaren en identificeren we de zwakke overeenkomst tussen audiofuncties en volledige lichaamsgebaren als een belangrijke beperking. Om dit aan te pakken, herdefiniëren we de taak als een tweestapsproces. In de eerste fase genereren we handposities rechtstreeks vanuit audio-invoer, waarbij we gebruikmaken van de sterke correlatie tussen audio-signalen en handbewegingen. In de tweede fase maken we gebruik van een diffusiemodel om videoframes te synthetiseren, waarbij de handposities die in de eerste fase zijn gegenereerd worden opgenomen om realistische gezichtsuitdrukkingen en lichaamsbewegingen te produceren. Onze experimentele resultaten tonen aan dat de voorgestelde methode beter presteert dan state-of-the-art benaderingen, zoals CyberHost en Vlogger, zowel wat betreft visuele kwaliteit als synchronisatienauwkeurigheid. Dit werk biedt een nieuw perspectief op audio-gestuurde gebaren generatie en een robuust kader voor het creëren van expressieve en natuurlijke pratende kopanimaties.
We introduceren MAGI, een hybride video generatie framework dat gemaskerde modellering combineert voor intra-frame generatie met causale modellering voor volgende-frame generatie. Onze belangrijkste innovatie, Compleet Leerkracht Forceren (CTF), conditioneert gemaskerde frames op volledige observatie frames in plaats van gemaskerde frames (namelijk Gemaskerd Leerkracht Forceren, MTF), waardoor een soepele overgang mogelijk is van token-niveau (patch-niveau) naar frame-niveau autoregressieve generatie. CTF presteert aanzienlijk beter dan MTF, met een +23% verbetering in FVD-scores bij voorspelling van video's geconditioneerd op het eerste frame. Om problemen zoals blootstellingsbias aan te pakken, maken we gebruik van gerichte trainingsstrategieën, waarmee we een nieuwe benchmark stellen in autoregressieve video generatie. Experimenten tonen aan dat MAGI lange, coherente videosequenties kan genereren van meer dan 100 frames, zelfs wanneer getraind op slechts 16 frames, waarbij het potentieel voor schaalbare, hoogwaardige video generatie wordt benadrukt.
We onderzoeken de relatie tussen de geometrie van token-embeddings en hun rol bij de voorspelling van het volgende token binnen transformer-modellen. Een belangrijk aspect van deze verbinding maakt gebruik van het begrip empirische maat, die de verdeling van token-puntwolken over transformer-lagen codeert en de evolutie van token-representaties in het mean-field interactiemodel stuurt. We gebruiken metingen zoals intrinsieke dimensie, buurtoverlap en cosinusgelijkenis om deze empirische maatregelen over lagen heen observatief te onderzoeken. Om onze aanpak te valideren, vergelijken we deze metingen met een dataset waarin de tokens worden geschud, wat de syntactische en semantische structuur verstoort. Onze bevindingen onthullen een correlatie tussen de geometrische eigenschappen van token-embeddings en de cross-entropie verlies van voorspellingen van het volgende token, wat impliceert dat prompts met hogere verlieswaarden tokens hebben die worden gerepresenteerd in hoger-dimensionale ruimtes.
Visie-taalmodellen (VLM's), die beeld- en tekstinvoer verwerken, worden steeds vaker geïntegreerd in chatassistenten en andere consumenten AI-toepassingen. Zonder de juiste waarborgen kunnen VLM's echter schadelijk advies geven (bijv. hoe zelfbeschadiging te plegen) of onveilig gedrag aanmoedigen (bijv. drugs te consumeren). Ondanks deze duidelijke gevaren is er tot nu toe weinig werk verricht om de veiligheid van VLM's te evalueren en de nieuwe risico's die worden gecreëerd door multimodale invoer. Om deze lacune aan te pakken, introduceren we MSTS, een Multimodaal Veiligheidstestpakket voor VLM's. MSTS bestaat uit 400 testprompten over 40 fijnmazige gevaarcategorieën. Elke testprompt bestaat uit een tekst en een afbeelding die alleen in combinatie hun volledige onveilige betekenis onthullen. Met MSTS vinden we duidelijke veiligheidsproblemen in verschillende open VLM's. We vinden ook dat sommige VLM's per ongeluk veilig zijn, wat betekent dat ze veilig zijn omdat ze zelfs eenvoudige testprompten niet begrijpen. We vertalen MSTS naar tien talen, waarbij niet-Engelse prompts worden getoond om het aantal onveilige modelreacties te verhogen. We tonen ook aan dat modellen veiliger zijn wanneer ze worden getest met alleen tekst in plaats van multimodale prompts. Tot slot verkennen we de automatisering van VLM-veiligheidsevaluaties en vinden zelfs de beste veiligheidsclassificeerders tekort te schieten.
Het genereren van gepersonaliseerde nieuwskoppen heeft tot doel gebruikers aandachttrekkende koppen te bieden die zijn afgestemd op hun voorkeuren. Gangbare methoden richten zich op door gebruikers georiënteerde inhoudsvoorkeuren, maar de meeste van hen zien over het hoofd dat diverse stilistische voorkeuren integraal zijn voor de panoramische belangen van gebruikers, wat leidt tot suboptimale personalisatie. In dit opzicht stellen we een nieuw Stylistic-Content Aware Personalized Headline Generation (SCAPE) framework voor. SCAPE haalt zowel inhoudelijke als stilistische kenmerken uit koppen met behulp van grootschalige taalmodel (LLM) samenwerking. Het integreert verder adaptief de lange- en korte-termijnbelangen van gebruikers door middel van een contrastleren-gebaseerd hiërarchisch fusienetwerk. Door panoramische belangen op te nemen in de kopgenerator, weerspiegelt SCAPE de stilistische-inhoudelijke voorkeuren van gebruikers tijdens het generatieproces. Uitgebreide experimenten op de real-world dataset PENS tonen de superioriteit van SCAPE boven baselines aan.
Grote Vision Language Modellen (GVLM's) hebben opmerkelijke capaciteiten aangetoond in het begrijpen en beschrijven van visuele inhoud, waarbij ze state-of-the-art prestaties behalen bij verschillende visie-taal taken. Echter, deze modellen vertonen vaak hallucinatiegedrag, waarbij ze beschrijvingen genereren die objecten of details bevatten die afwezig zijn in de invoerafbeelding. Ons werk onderzoekt dit fenomeen door de aandachtspatronen over transformerlagen en -hoofden te analyseren, waarbij blijkt dat hallucinaties vaak voortkomen uit progressieve degradatie van visuele verankering in diepere lagen. We stellen een nieuw aandachtsmodificatiebenadering voor die selectieve tokenbenadrukking en hoofdspecifieke modulatie combineert om visuele verankering gedurende het generatieproces te handhaven. Onze methode introduceert twee sleutelcomponenten: (1) een dubbelstroom tokenselectiemechanisme dat zowel lokaal informatieve als ruimtelijk significante visuele tokens identificeert en prioriteert, en (2) een aandachts-hoofdspecifieke modulatiestrategie die visuele informatie versterkt op basis van de gemeten visuele gevoeligheid van individuele aandachts-hoofden. Door uitgebreide experimenten op de MSCOCO-dataset tonen we aan dat onze benadering hallucinaties met maximaal 62,3% vermindert in vergelijking met basismodellen, terwijl de taakprestaties vergelijkbaar blijven. Onze analyse onthult dat selectieve modulatie van tokens over aandachts-hoofden met verschillende niveaus van visuele gevoeligheid de visuele verankering aanzienlijk kan verbeteren zonder dat daarvoor modelhertraining nodig is.