Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in videogeneratie heeft indrukwekkende bewegingsrealiteit bereikt, maar vaak wordt karaktergedreven verhalen vertellen over het hoofd gezien, een cruciale taak voor geautomatiseerde film- en animatiegeneratie. Wij introduceren Talking Characters, een realistischer taak om animaties van pratende karakters direct vanuit spraak en tekst te genereren. In tegenstelling tot talking head, streeft Talking Characters ernaar het volledige portret van een of meer karakters te genereren, verder dan alleen het gezichtsgebied. In dit artikel stellen we MoCha voor, de eerste in zijn soort om pratende karakters te genereren. Om een precieze synchronisatie tussen video en spraak te garanderen, introduceren we een spraak-video venster aandachtmechanisme dat spraak- en videotokens effectief uitlijnt. Om het gebrek aan grootschalige spraakgelabelde videodatasets aan te pakken, introduceren we een gezamenlijke trainingsstrategie die zowel spraakgelabelde als tekstgelabelde videodata benut, wat de generalisatie over diverse karakteracties aanzienlijk verbetert. We ontwerpen ook gestructureerde promptsjablonen met karaktertags, waardoor voor het eerst multi-karakter gesprekken met beurtgebaseerde dialogen mogelijk worden – waardoor AI-gegenereerde karakters contextbewuste gesprekken kunnen voeren met cinematische samenhang. Uitgebreide kwalitatieve en kwantitatieve evaluaties, inclusief menselijke voorkeursstudies en benchmarkvergelijkingen, tonen aan dat MoCha een nieuwe standaard zet voor AI-gegenereerd cinematisch verhalen vertellen, met superieure realiteit, expressiviteit, bestuurbaarheid en generalisatie.
Dit artikel onderzoekt de taak van Complex Visual Text Generation (CVTG), die zich richt op het genereren van ingewikkelde tekstuele inhoud die verspreid is over diverse regio's binnen visuele afbeeldingen. Bij CVTG genereren beeldgeneratiemodellen vaak vervormde en wazige visuele tekst of missen ze bepaalde visuele tekst. Om deze uitdagingen aan te pakken, stellen we TextCrafter voor, een nieuwe methode voor het renderen van meerdere visuele teksten. TextCrafter gebruikt een progressieve strategie om complexe visuele tekst te ontbinden in afzonderlijke componenten, terwijl een robuuste uitlijning tussen tekstuele inhoud en de visuele drager wordt gegarandeerd. Daarnaast bevat het een token focus-versterkingsmechanisme om de prominentie van visuele tekst tijdens het generatieproces te vergroten. TextCrafter lost effectief belangrijke uitdagingen in CVTG-taken op, zoals tekstverwarring, weglatingen en onscherpte. Bovendien presenteren we een nieuwe benchmarkdataset, CVTG-2K, die speciaal is ontworpen om de prestaties van generatieve modellen op CVTG-taken rigoureus te evalueren. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art benaderingen overtreft.
We introduceren Open-Reasoner-Zero, de eerste open-source implementatie van grootschalige, op redenering gerichte RL-training die zich richt op schaalbaarheid, eenvoud en toegankelijkheid. Door middel van uitgebreide experimenten tonen we aan dat een minimalistische aanpak, bestaande uit vanilla PPO met GAE (lambda=1, gamma=1) en eenvoudige regelgebaseerde beloningen, zonder enige KL-regularisatie, voldoende is om zowel de responslengte als de benchmarkprestaties op te schalen, vergelijkbaar met het fenomeen dat werd waargenomen in DeepSeek-R1-Zero. Met hetzelfde basismodel als DeepSeek-R1-Zero-Qwen-32B behaalt onze implementatie superieure prestaties op AIME2024, MATH500 en de GPQA Diamond-benchmark, terwijl het opmerkelijke efficiëntie demonstreert — slechts een tiende van het aantal trainingsstappen vereist in vergelijking met de DeepSeek-R1-Zero-pipeline. In de geest van open source maken we onze broncode, parameterinstellingen, trainingsdata en modelgewichten in verschillende formaten openbaar.
Toen het enthousiasme voor het opschalen van rekenkracht (data en parameters) in het pretraining-tijdperk geleidelijk afnam, is test-time scaling (TTS), ook wel aangeduid als "test-time computing", naar voren gekomen als een prominent onderzoeksfocus. Recente studies tonen aan dat TTS de probleemoplossende capaciteiten van grote taalmodellen (LLMs) verder kan ontlokken, wat niet alleen leidt tot significante doorbraken in gespecialiseerde redeneertaken, zoals wiskunde en programmeren, maar ook in algemene taken zoals open-einde Q&A. Ondanks de explosie van recente inspanningen op dit gebied, blijft er echter een dringende behoefte aan een uitgebreid overzicht dat een systemisch begrip biedt. Om deze leemte te vullen, stellen we een uniform, multidimensionaal framework voor, gestructureerd langs vier kern dimensies van TTS-onderzoek: wat op te schalen, hoe op te schalen, waar op te schalen en hoe goed op te schalen. Op basis van deze taxonomie voeren we een uitgebreide review uit van methoden, toepassingsscenario's en beoordelingsaspecten, en presenteren we een georganiseerde ontleding die de unieke functionele rollen van individuele technieken binnen het bredere TTS-landschap benadrukt. Uit deze analyse destilleren we de belangrijkste ontwikkelingslijnen van TTS tot nu toe en bieden we praktische richtlijnen voor implementatie. Bovendien identificeren we verschillende open uitdagingen en bieden we inzichten in veelbelovende toekomstige richtingen, waaronder verder opschalen, het verhelderen van de functionele essentie van technieken, generaliseren naar meer taken en meer attributies.
Grote Redeneermodellen (LRMs) verbeteren het redeneervermogen van Grote Taalmodellen (LLMs) aanzienlijk door te leren redeneren, waarbij ze veelbelovende prestaties laten zien bij het oplossen van complexe taken. Hun beredeneerde redeneerproces leidt echter tot inefficiënties in tokengebruik, geheugenverbruik en inferentietijd. Daarom biedt dit overzicht een bespreking van efficiënte inferentiemethoden die specifiek zijn ontworpen voor LRMs, met de focus op het verminderen van tokeninefficiëntie terwijl de redeneerkwaliteit behouden blijft. Eerst introduceren we een taxonomie om de recente methoden in twee hoofd categorieën in te delen: (a) expliciete compacte Chain-of-Thought (CoT), die tokens reduceert terwijl de expliciete redeneerstructuur behouden blijft, en (b) impliciete latente CoT, die redeneerstappen codeert binnen verborgen representaties in plaats van expliciete tokens. Tegelijkertijd bespreken we hun sterke en zwakke punten. Vervolgens voeren we empirische analyses uit op bestaande methoden vanuit prestatie- en efficiëntieperspectieven. Daarnaast presenteren we open uitdagingen op dit gebied, waaronder mensgerichte beheersbare redenering, de afweging tussen interpreteerbaarheid en efficiëntie van redenering, het waarborgen van de veiligheid van efficiënte redenering, en bredere toepassingen van efficiënte redenering. Bovendien benadrukken we belangrijke inzichten voor het verbeteren van de inferentie-efficiëntie van LRMs via technieken zoals modelmerging, nieuwe architecturen en agent routers. We hopen dat dit werk als een waardevolle gids dient, die onderzoekers helpt uitdagingen te overwinnen in dit levendige veldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.
Het synthetiseren van diverse en fysiek plausibele mens-scène-interacties (HSI) is cruciaal voor zowel computeranimatie als embodied AI. Ondanks bemoedigende vooruitgang richten huidige methoden zich voornamelijk op het ontwikkelen van afzonderlijke controllers, elk gespecialiseerd in een specifieke interactietaak. Dit belemmert aanzienlijk de mogelijkheid om een breed scala aan uitdagende HSI-taken aan te pakken die de integratie van meerdere vaardigheden vereisen, zoals gaan zitten terwijl een object wordt gedragen. Om dit probleem aan te pakken, presenteren we TokenHSI, een enkele, uniforme transformer-gebaseerde policy die in staat is tot multi-vaardigheidsunificatie en flexibele aanpassing. Het belangrijkste inzicht is om de humanoïde proprioceptie te modelleren als een apart gedeeld token en dit te combineren met verschillende taaktokens via een masking-mechanisme. Zo'n uniforme policy maakt effectieve kennisuitwisseling tussen vaardigheden mogelijk, waardoor multi-task training wordt gefaciliteerd. Bovendien ondersteunt onze policy-architectuur inputs met variabele lengte, waardoor flexibele aanpassing van geleerde vaardigheden aan nieuwe scenario's mogelijk wordt. Door aanvullende taaktokenizers te trainen, kunnen we niet alleen de geometrieën van interactiedoelen aanpassen, maar ook meerdere vaardigheden coördineren om complexe taken aan te pakken. De experimenten tonen aan dat onze aanpak de veelzijdigheid, aanpasbaarheid en uitbreidbaarheid in verschillende HSI-taken aanzienlijk kan verbeteren. Website: https://liangpan99.github.io/TokenHSI/
Het trainen van vision-language modellen (VLMs) vereist doorgaans grootschalige, hoogwaardige afbeelding-tekst paren, maar het verzamelen of synthetiseren van dergelijke data is kostbaar. Daarentegen is tekstdata overvloedig en goedkoop, wat de vraag oproept: kan hoogwaardige multimodale trainingsdata puur uit tekst worden gesynthetiseerd? Om dit aan te pakken, stellen we een cross-geïntegreerd drie-fasen multimodaal data synthese framework voor, dat twee datasets genereert: Unicorn-1.2M en Unicorn-471K-Instruction. In Fase 1: Diverse Caption Data Synthese, construeren we 1.2M semantisch diverse hoogwaardige bijschriften door spaarzame bijschriftzaden uit te breiden met behulp van grote taalmodellen (LLMs). In Fase 2: Instruction-Tuning Data Generatie, verwerken we verder 471K bijschriften in meerlagige instruction-tuning taken om complexe redenering te ondersteunen. Ten slotte, in Fase 3: Modality Representation Transfer, worden deze tekstuele bijschrift representaties omgezet in visuele representaties, wat resulteert in diverse synthetische afbeeldingsrepresentaties. Dit drie-fasen proces stelt ons in staat om Unicorn-1.2M te construeren voor pretraining en Unicorn-471K-Instruction voor instruction-tuning, zonder afhankelijk te zijn van echte afbeeldingen. Door de afhankelijkheid van echte afbeeldingen te elimineren terwijl de data kwaliteit en diversiteit behouden blijft, biedt ons framework een kosteneffectieve en schaalbare oplossing voor VLMs training. Code is beschikbaar op https://github.com/Yu-xm/Unicorn.git.
Redeneren voor actie en het verbeelden van mogelijke uitkomsten (d.w.z. wereldmodellen) zijn essentieel voor belichaamde agenten die opereren in complexe open-wereldomgevingen. Eerdere werkzaamheden hebben echter slechts één van deze vaardigheden geïntegreerd in een end-to-end agent of meerdere gespecialiseerde modellen gecombineerd in een agentsysteem, wat de leer efficiëntie en generalisatie van het beleid beperkt. Daarom doet dit paper een eerste poging om Redeneren en Verbeelding te combineren in een end-to-end Generalist beleid, genaamd RIG. Om RIG op een end-to-end manier te trainen, construeren we een datapijplijn die de inhoud van verbeelding en redeneren geleidelijk integreert en verrijkt in de trajecten die zijn verzameld van bestaande agenten. Het gezamenlijk leren van redeneren en het genereren van de volgende afbeelding modelleert expliciet de inherente correlatie tussen redeneren, actie en de dynamiek van omgevingen, en vertoont daardoor meer dan 17 keer verbeteringen in steekproefefficiëntie en generalisatie in vergelijking met eerdere werkzaamheden. Tijdens inferentie redeneert RIG eerst over de volgende actie, produceert potentiële acties, en voorspelt vervolgens de uitkomsten van acties, wat de agent de kans geeft om te beoordelen en zichzelf te corrigeren op basis van de verbeelding voordat echte acties worden ondernomen. Experimentele resultaten tonen aan dat de synergie van redeneren en verbeelding niet alleen de robuustheid, generalisatie en interoperabiliteit van het generalist beleid verbetert, maar ook test-time schaling mogelijk maakt om de algehele prestaties te verhogen.
Reinforcement learning (RL) met verifieerbare beloningen (RLVR) heeft veelbelovende resultaten getoond bij wiskundige redeneer- en codeertaken waar goed gestructureerde referentieantwoorden beschikbaar zijn. De toepasbaarheid ervan op bredere domeinen blijft echter onderbelicht. In dit werk bestuderen we de uitbreiding van RLVR naar meer diverse domeinen zoals geneeskunde, scheikunde, psychologie en economie. We observeren een hoge overeenstemming in binaire beoordelingen tussen verschillende grote taalmodelen (LLM's) wanneer objectieve referentieantwoorden bestaan, wat de noodzaak van grootschalige annotatie voor het trainen van domeinspecifieke beloningsmodellen in twijfel trekt. Om de beperkingen van binaire beloningen bij het omgaan met ongestructureerde referentieantwoorden aan te pakken, integreren we verder modelgebaseerde zachte scoring in RLVR om de flexibiliteit ervan te verbeteren. Onze experimenten tonen aan dat een gedistilleerd generatief beloningsmodel kan dienen als een effectieve cross-domein verifier, die betrouwbare beloningssignalen voor RL biedt zonder domeinspecifieke annotaties te vereisen. Door een basis 7B-model te fine-tunen met behulp van verschillende RL-algoritmen tegen ons beloningsmodel, verkrijgen we beleidsregels die state-of-the-art open-source afgestemde LLM's zoals Qwen2.5-72B-Instruct en DeepSeek-R1-Distill-Qwen-32B met een grote marge overtreffen, over domeinen heen in vrije-antwoordinstellingen. Dit versterkt ook de robuustheid en schaalbaarheid van RLVR, wat het potentieel ervan voor real-world toepassingen met ruisachtige of zwakke labels benadrukt.
Videogeneratie en -bewerking op basis van tekstprompts of afbeeldingen hebben aanzienlijke vooruitgang geboekt. Er blijven echter uitdagingen bestaan in het nauwkeurig beheersen van de globale lay-out en geometrische details uitsluitend via tekst, en het ondersteunen van bewegingscontrole en lokale aanpassingen via afbeeldingen. In dit artikel streven we ernaar om op schetsen gebaseerde ruimtelijke en bewegingscontrole te realiseren voor videogeneratie en fijnmazige bewerking van echte of synthetische video's te ondersteunen. Gebaseerd op het DiT-videogeneratiemodel stellen we een geheugenefficiënte controlestructuur voor met schetscontroleblokken die resterende kenmerken van overgeslagen DiT-blokken voorspellen. Schetsen worden getekend op één of twee keyframes (op willekeurige tijdstippen) voor eenvoudige interactie. Om dergelijke tijdelijk verspreide schetscondities over alle frames te verspreiden, stellen we een inter-frame aandachtmechanisme voor om de relatie tussen de keyframes en elk videoframe te analyseren. Voor op schetsen gebaseerde videobewerking ontwerpen we een aanvullende video-invoegmodule die consistentie behoudt tussen de nieuw bewerkte inhoud en de ruimtelijke kenmerken en dynamische beweging van de originele video. Tijdens de inferentie gebruiken we latente fusie voor het nauwkeurig behouden van onbewerkte regio's. Uitgebreide experimenten tonen aan dat onze SketchVideo superieure prestaties levert in controleerbare videogeneratie en -bewerking.
Redenering-verbeterde grote taalmodellen (LLMs) genereren expliciet tussenliggende redeneerstappen voordat ze definitieve antwoorden produceren, wat het model helpt uit te blinken in complexe probleemoplossing. In dit artikel tonen we aan dat dit opkomende generatieraamwerk een unieke mogelijkheid biedt voor meer gedetailleerde controle over modelgedrag. We stellen Denkinterventie voor, een nieuw paradigma dat is ontworpen om de interne redeneerprocessen van LLMs expliciet te begeleiden door strategisch specifieke denktokens in te voegen of te herzien. We voeren uitgebreide evaluaties uit over meerdere taken, waaronder instructieopvolging op IFEval, instructiehiërarchie op SEP, en veiligheidsafstemming op XSTest en SORRY-Bench. Onze resultaten laten zien dat Denkinterventie aanzienlijk beter presteert dan baseline-promptingbenaderingen, met nauwkeurigheidswinsten tot 6,7% in scenario's van instructieopvolging, 15,4% verbeteringen in het redeneren over instructiehiërarchieën, en een toename van 40,0% in weigeringspercentages voor onveilige prompts met behulp van open-source DeepSeek R1-modellen. Over het geheel genomen opent ons werk een veelbelovende nieuwe onderzoeksrichting voor het beheersen van redenerende LLMs.
Wij stellen een nieuwe aanpak voor voor het genereren van complexe uitvoer die de nauwkeurigheid aanzienlijk verbetert bij tekst-naar-SQL-taken. Onze methode maakt gebruik van uitvoeringsresultaten om de meest semantisch consistente query te selecteren uit meerdere kandidaten, waardoor kleinere, kosteneffectieve modellen rekenintensieve redeneermethoden zoals o1, o3-mini en DeepSeek R1 kunnen overtreffen, terwijl de inferentiekosten met wel 30 keer worden verlaagd. Het integreert moeiteloos met bestaande modellen en biedt een praktische en schaalbare weg naar state-of-the-art SQL-generatie.
Het is zeer wenselijk om een model te verkrijgen dat hoogwaardige 3D-meshes kan genereren vanuit tekstprompts in slechts enkele seconden. Hoewel recente pogingen vooraf getrainde tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion (SD), hebben aangepast om 3D-representaties (bijv. Triplane) te genereren, lijden deze vaak aan een slechte kwaliteit door een gebrek aan voldoende hoogwaardige 3D-trainingsdata. Om het tekort aan data te overwinnen, stellen we een nieuwe trainingsmethode voor, genaamd Progressive Rendering Distillation (PRD), die de noodzaak voor 3D-grondwaarheden elimineert door multi-view diffusiemodellen te distilleren en SD aan te passen tot een native 3D-generator. In elke trainingsiteratie gebruikt PRD de U-Net om de latent progressief te denoisen vanuit willekeurige ruis voor een paar stappen, en in elke stap decodeert het de gedenoiseerde latent naar 3D-output. Multi-view diffusiemodellen, waaronder MVDream en RichDreamer, worden samen met SD gebruikt om tekst-consistente texturen en geometrieën in de 3D-outputs te distilleren via score-distillatie. Omdat PRD training ondersteunt zonder 3D-grondwaarheden, kunnen we eenvoudig de trainingsdata opschalen en de generatiekwaliteit verbeteren voor uitdagende tekstprompts met creatieve concepten. Tegelijkertijd kan PRD de inferentiesnelheid van het generatiemodel versnellen in slechts een paar stappen. Met PRD trainen we een Triplane-generator, genaamd TriplaneTurbo, die slechts 2,5% trainbare parameters toevoegt om SD aan te passen voor Triplane-generatie. TriplaneTurbo overtreft eerdere tekst-naar-3D-generatoren in zowel efficiëntie als kwaliteit. Specifiek kan het hoogwaardige 3D-meshes produceren in 1,2 seconden en generaliseert het goed voor uitdagende tekstinput. De code is beschikbaar op https://github.com/theEricMa/TriplaneTurbo.
De detectie van telecomfraude wordt geconfronteerd met aanzienlijke uitdagingen vanwege het gebrek aan hoogwaardige multimodale trainingsgegevens die audiosignalen integreren met redeneringsgerichte tekstuele analyse. Om deze kloof te overbruggen, presenteren we TeleAntiFraud-28k, de eerste open-source audio-tekst slow-thinking dataset die specifiek is ontworpen voor geautomatiseerde telecomfraudeanalyse. Onze dataset is opgebouwd via drie strategieën: (1) Privacy-beschermde tekst-waarheid samplegeneratie met behulp van automatische spraakherkenning (ASR)-getranscribeerde gespreksopnames (met geanonimiseerde originele audio), waarbij real-world consistentie wordt gewaarborgd door tekst-naar-spraak (TTS) modelregeneratie; (2) Semantische verbetering via zelf-instructie sampling op basis van grote taalmodellen (LLM) op authentieke ASR-uitvoer om de scenario-dekking uit te breiden; (3) Multi-agent adversariële synthese die opkomende fraudetactieken simuleert via vooraf gedefinieerde communicatiescenario's en fraudetypologieën. De gegenereerde dataset bevat 28.511 rigoureus verwerkte spraak-tekst paren, compleet met gedetailleerde annotaties voor frauderedenering. De dataset is verdeeld in drie taken: scenario-classificatie, fraudedetectie en fraudetype-classificatie. Verder construeren we TeleAntiFraud-Bench, een gestandaardiseerd evaluatiebenchmark bestaande uit proportioneel bemonsterde instanties uit de dataset, om systematische tests van modelprestaties op telecomfraudedetectietaken te vergemakkelijken. We dragen ook een productie-geoptimaliseerd supervised fine-tuning (SFT) model bij, getraind op hybride reële/synthetische gegevens, terwijl we het gegevensverwerkingsframework open source maken om gemeenschapsgedreven datasetuitbreiding mogelijk te maken. Dit werk legt een fundamenteel kader voor multimodale antifraudeonderzoek en adresseert kritieke uitdagingen op het gebied van gegevensprivacy en scenario-diversiteit. Het project zal worden vrijgegeven op https://github.com/JimmyMa99/TeleAntiFraud.
Actiemodellen zijn essentieel om autonome agents in staat te stellen complexe taken uit te voeren. Het trainen van grote actiemodellen blijft echter een uitdaging vanwege de diversiteit van agentomgevingen en de complexiteit van agentgegevens. Ondanks de groeiende interesse biedt bestaande infrastructuur beperkte ondersteuning voor schaalbare, agentspecifieke fine-tuning. Wij presenteren ActionStudio, een lichtgewicht en uitbreidbaar data- en trainingsframework ontworpen voor grote actiemodellen. ActionStudio verenigt heterogene agenttrajecten via een gestandaardiseerd formaat, ondersteunt diverse trainingsparadigma's, waaronder LoRA, volledige fine-tuning en gedistribueerde opstellingen, en integreert robuuste preprocessing- en verificatietools. We valideren de effectiviteit ervan op zowel publieke als realistische industriebenchmarks, waarbij sterke prestaties en praktische schaalbaarheid worden aangetoond. We hebben de code en gegevens openbaar gemaakt op https://github.com/SalesforceAIResearch/xLAM om onderzoek in de gemeenschap te faciliteren.
De afgelopen jaren hebben grote taalmodellen (LLMs) opmerkelijke capaciteiten getoond bij diverse kunstmatige intelligentieproblemen. Ze slagen er echter niet in betrouwbaar te plannen, zelfs niet wanneer ze worden aangestuurd met een gedetailleerde definitie van de planningsopgave. Pogingen om hun planningscapaciteiten te verbeteren, zoals chain-of-thought prompting, fine-tuning en expliciet "redeneren", leveren nog steeds incorrecte plannen op en slagen meestal niet in het generaliseren naar grotere taken. In dit artikel laten we zien hoe LLMs kunnen worden gebruikt om correcte plannen te genereren, zelfs voor taken buiten de trainingsdistributie en van toenemende omvang. Voor een gegeven planningsdomein vragen we een LLM om verschillende domeinafhankelijke heuristische functies te genereren in de vorm van Python-code, deze te evalueren op een set trainings taken binnen een greedy best-first search, en de sterkste te selecteren. De resulterende LLM-gegenereerde heuristieken lossen veel meer onbekende test taken op dan state-of-the-art domeinonafhankelijke heuristieken voor klassieke planning. Ze zijn zelfs concurrerend met het sterkste leer algoritme voor domeinafhankelijke planning. Deze bevindingen zijn vooral opmerkelijk gezien het feit dat onze proof-of-concept implementatie is gebaseerd op een niet-geoptimaliseerde Python-planner en de referentiemodellen allemaal gebouwd zijn op sterk geoptimaliseerde C++-code. In sommige domeinen breiden de LLM-gegenereerde heuristieken minder toestanden uit dan de referentiemodellen, wat aantoont dat ze niet alleen efficiënt berekenbaar zijn, maar soms zelfs informatiever dan de state-of-the-art heuristieken. Over het geheel genomen laten onze resultaten zien dat het bemonsteren van een set planningsheuristische functieprogramma's de planningscapaciteiten van LLMs aanzienlijk kan verbeteren.
Dit werk richt zich op open-domein 4D-avatarisatie, met als doel het creëren van een 4D-avatar vanuit een portretafbeelding in een willekeurige stijl. We kiezen voor parametrische triplanes als de tussenliggende 4D-representatie en stellen een praktisch trainingsparadigma voor dat gebruikmaakt van zowel generatieve adversariële netwerken (GANs) als diffusiemodellen. Ons ontwerp is gebaseerd op de observatie dat 4D-GANs uitblinken in het overbruggen van afbeeldingen en triplanes zonder supervisie, maar meestal moeite hebben met het omgaan met diverse dataverdelingen. Een robuuste 2D-diffusieprior komt naar voren als de oplossing, die de GAN ondersteunt bij het overdragen van zijn expertise over verschillende domeinen. De synergie tussen deze experts maakt de constructie van een multi-domein beeld-triplane-dataset mogelijk, wat de ontwikkeling van een algemene 4D-avatarcreator stimuleert. Uitgebreide experimenten suggereren dat ons model, AvatarArtist, in staat is om hoogwaardige 4D-avatars te produceren met een sterke robuustheid ten opzichte van verschillende bronbeelddomeinen. De code, de data en de modellen zullen openbaar worden gemaakt om toekomstige studies te faciliteren.
Recente vooruitgang in DUSt3R heeft robuuste schatting mogelijk gemaakt van dichte puntenwolken en cameraparameters van statische scènes, waarbij gebruik wordt gemaakt van Transformer-netwerkarchitecturen en directe supervisie op grootschalige 3D-datasets. Daarentegen vormen de beperkte schaal en diversiteit van beschikbare 4D-datasets een grote bottleneck voor het trainen van een zeer generaliseerbaar 4D-model. Deze beperking heeft conventionele 4D-methoden ertoe gedreven om 3D-modellen te finetunen op schaalbare dynamische videogegevens met aanvullende geometrische priors zoals optische stroming en dieptes. In dit werk nemen we een tegenovergestelde aanpak en introduceren we Easi3R, een eenvoudige maar efficiënte trainingsvrije methode voor 4D-reconstructie. Onze benadering past aandachtadaptatie toe tijdens inferentie, waardoor de noodzaak voor training vanaf nul of netwerkfinetuning wordt geëlimineerd. We ontdekken dat de aandachtlagen in DUSt3R van nature rijke informatie coderen over camera- en objectbeweging. Door deze aandachtkaarten zorgvuldig te ontwarren, bereiken we nauwkeurige dynamische regiossegmentatie, cameraposeschatting en 4D-dichte puntenkaartreconstructie. Uitgebreide experimenten op real-world dynamische video's tonen aan dat onze lichtgewicht aandachtadaptatie aanzienlijk beter presteert dan eerdere state-of-the-art methoden die zijn getraind of gefinetuned op uitgebreide dynamische datasets. Onze code is publiekelijk beschikbaar voor onderzoeksdoeleinden op https://easi3r.github.io/.
Op het gebied van 3D-contentcreatie is het bereiken van optimale mesh-topologie via AI-modellen al lang een streven voor 3D-artiesten. Eerdere methoden, zoals MeshGPT, hebben de generatie van direct bruikbare 3D-objecten via mesh-auto-regressieve technieken onderzocht. Hoewel deze methoden visueel indrukwekkende resultaten opleveren, leidt hun afhankelijkheid van token-voor-token voorspellingen in het auto-regressieve proces tot enkele significante beperkingen. Deze omvatten extreem trage generatiesnelheden en een onbeheersbaar aantal mesh-vlakken. In dit artikel introduceren we MeshCraft, een nieuw framework voor efficiënte en controleerbare mesh-generatie, dat gebruikmaakt van continue ruimtelijke diffusie om discrete driehoeksvlakken te genereren. Specifiek bestaat MeshCraft uit twee kerncomponenten: 1) een transformer-gebaseerde VAE die ruwe meshes codeert in continue vlakniveau-tokens en deze decodeert naar de originele meshes, en 2) een flow-gebaseerde diffusie-transformer die is geconditioneerd op het aantal vlakken, waardoor het mogelijk wordt om hoogwaardige 3D-meshes te genereren met een vooraf bepaald aantal vlakken. Door het diffusiemodel te gebruiken voor de gelijktijdige generatie van de volledige mesh-topologie, bereikt MeshCraft hoogwaardige mesh-generatie met aanzienlijk hogere snelheden vergeleken met auto-regressieve methoden. Specifiek kan MeshCraft een mesh met 800 vlakken genereren in slechts 3,2 seconden (35 keer sneller dan bestaande baselines). Uitgebreide experimenten tonen aan dat MeshCraft state-of-the-art technieken overtreft in zowel kwalitatieve als kwantitatieve evaluaties op de ShapeNet-dataset en superieure prestaties laat zien op de Objaverse-dataset. Bovendien integreert het naadloos met bestaande conditionele begeleidingsstrategieën, wat het potentieel aantoont om artiesten te ontlasten van het tijdrovende handmatige werk dat betrokken is bij mesh-creatie.
De meeste 3D-objectgeneratoren richten zich op esthetische kwaliteit en negeren vaak de fysieke beperkingen die nodig zijn in toepassingen. Een dergelijke beperking is dat het 3D-object zelfondersteunend moet zijn, d.w.z. in balans blijft onder invloed van zwaartekracht. Eerdere benaderingen voor het genereren van stabiele 3D-objecten maakten gebruik van differentieerbare fysicasimulators om de geometrie tijdens de testfase te optimaliseren, wat traag, instabiel en gevoelig is voor lokale optima. Geïnspireerd door de literatuur over het afstemmen van generatieve modellen op externe feedback, stellen we Direct Simulation Optimization (DSO) voor, een raamwerk om de feedback van een (niet-differentieerbare) simulator te gebruiken om de kans te vergroten dat de 3D-generator direct stabiele 3D-objecten produceert. We construeren een dataset van 3D-objecten die zijn gelabeld met een stabiliteitsscore die is verkregen uit de fysicasimulator. Vervolgens kunnen we de 3D-generator finetunen met behulp van de stabiliteitsscore als afstemmingsmetriek, via direct preference optimization (DPO) of direct reward optimization (DRO), een nieuw doel dat we introduceren om diffusiemodellen af te stemmen zonder gepaarde voorkeuren te vereisen. Onze experimenten tonen aan dat de gefinetunde feed-forward generator, met behulp van het DPO- of DRO-doel, veel sneller en waarschijnlijker stabiele objecten produceert dan optimalisatie tijdens de testfase. Opmerkelijk is dat het DSO-raamwerk zelfs werkt zonder enige grondwaarheid van 3D-objecten voor training, waardoor de 3D-generator zichzelf kan verbeteren door automatisch simulatiefeedback te verzamelen over zijn eigen uitvoer.
Multimodale Large Language Models (MLLMs) zijn ontstaan om de uitdagingen van Visual Question Answering (VQA) aan te pakken, wat een nieuwe onderzoeksfocus heeft ontstoken op het uitvoeren van objectieve evaluaties van deze modellen. Bestaande evaluatiemethoden kampen met beperkingen vanwege de aanzienlijke menselijke inspanning die nodig is om vraag-en-antwoordparen voor visuele afbeeldingen te ontwerpen, wat inherent de schaal en reikwijdte van evaluaties beperkt. Hoewel geautomatiseerde MLLM-as-judge-benaderingen proberen de menselijke inspanning te verminderen door middel van automatische evaluaties, introduceren ze vaak biases. Om deze problemen aan te pakken, stellen we een Unsupervised Peer review MLLM Evaluation-framework voor. Het maakt alleen gebruik van beeldgegevens, waardoor modellen automatisch vragen kunnen genereren en peer review-beoordelingen van antwoorden van andere modellen kunnen uitvoeren, wat de afhankelijkheid van menselijke inspanning effectief vermindert. Daarnaast introduceren we het vision-language scoringsysteem om de bias-problemen te mitigeren, dat zich richt op drie aspecten: (i) correctheid van het antwoord; (ii) visueel begrip en redenering; en (iii) beeld-tekstcorrelatie. Experimentele resultaten tonen aan dat UPME een Pearson-correlatie van 0,944 bereikt met menselijke evaluaties op de MMstar-dataset en 0,814 op de ScienceQA-dataset, wat aangeeft dat ons framework nauw aansluit bij door mensen ontworpen benchmarks en inherente menselijke voorkeuren.
De wiskundige probleemoplossende capaciteiten van grote taalmodellen zijn een belangrijk aandachtspunt geworden in onderzoek, met een groeiende interesse in het benutten van zelf gegenereerde redeneerpaden als een veelbelovende manier om deze modellen te verfijnen en te verbeteren. Deze paden vangen stapsgewijze logische processen vast, terwijl alleen het juiste antwoord nodig is voor supervisie. De zelf-trainingsmethode is effectief gebleken bij redeneertaken, terwijl de behoefte aan externe modellen en handmatige annotaties wordt geëlimineerd. Het optimaliseren van het gebruik van zelf gegenereerde gegevens voor modeltraining blijft echter een open uitdaging. In dit werk stellen we Entropy-Based Adaptive Weighting for Self-Training (EAST) voor, een adaptieve wegingstrategie die is ontworpen om onzekere gegevens tijdens zelf-training te prioriteren. Specifiek maakt EAST gebruik van een afbeeldingsfunctie met een instelbare parameter die de scherpte van de weging regelt, waarbij hogere gewichten worden toegekend aan gegevens waar het model grotere onzekerheid vertoont. Deze aanpak leidt het model om zich te concentreren op meer informatieve en uitdagende voorbeelden, waardoor het redeneervermogen wordt verbeterd. We evalueren onze aanpak op de GSM8K- en MATH-benchmarks. Empirische resultaten tonen aan dat, terwijl de standaardmethode vrijwel geen verbetering (0%) oplevert op MATH, EAST een winst van ongeveer 1% behaalt ten opzichte van het basismodel. Op GSM8K behaalt EAST een verdere prestatieverbetering van 1-2% in vergelijking met de standaardmethode.
De recente opkomst van Large Vision-Language Models (VLMs) heeft geleid tot een verscheidenheid aan verschillende benchmarks voor het evalueren van dergelijke modellen. Desondanks merken we op dat de meeste bestaande evaluatiemethoden het probleem hebben dat ze ofwel vereisen dat het model kiest uit vooraf bepaalde antwoorden, wat de openheid beperkt, ofwel de antwoorden evalueren met behulp van een beoordelingsmodel, wat resulteert in subjectieve en onbetrouwbare evaluatie. Daarnaast constateren we een gebrek aan benchmarks voor VLMs in de Koreaanse taal, die nodig zijn als een aparte maatstaf naast de meer gebruikelijke Engelstalige benchmarks, aangezien de prestaties van generatieve taalmodellen aanzienlijk kunnen verschillen afhankelijk van de gebruikte taal. Daarom presenteren we KOFFVQA, een algemeen vrij-vorm visueel vraag-antwoord benchmark in de Koreaanse taal voor de evaluatie van VLMs. Onze benchmark bestaat uit 275 zorgvuldig opgestelde vragen, elk gekoppeld aan een afbeelding en beoordelingscriteria die 10 verschillende aspecten van VLM-prestaties bestrijken. De beoordelingscriteria elimineren het probleem van onbetrouwbaarheid door het beoordelingsmodel in staat te stellen elk antwoord te beoordelen op basis van een vooraf bepaalde set regels. Door de evaluatiecriteria op een objectieve manier te definiëren, kan zelfs een klein open-source model betrouwbaar worden gebruikt om modellen op onze benchmark te evalueren. Naast het evalueren van een groot aantal bestaande VLMs op onze benchmark, verifiëren we ook experimenteel dat onze methode van het gebruik van bestaande beoordelingscriteria voor evaluatie veel betrouwbaarder is dan bestaande methoden. Onze evaluatiecode is beschikbaar op https://github.com/maum-ai/KOFFVQA.
Evolutionaire multiobjectieve optimalisatie (EMO) heeft de afgelopen twee decennia aanzienlijke vooruitgang geboekt. Naarmate de schaal en complexiteit van problemen echter toenemen, ondervinden traditionele EMO-algoritmen aanzienlijke prestatiebeperkingen vanwege onvoldoende parallellisme en schaalbaarheid. Hoewel het meeste werk zich heeft gericht op algoritmeontwerp om deze uitdagingen aan te pakken, is er weinig aandacht besteed aan hardwareversnelling, waardoor een duidelijke kloof ontstaat tussen EMO-algoritmen en geavanceerde rekenapparaten, zoals GPU's. Om deze kloof te overbruggen, stellen we voor om EMO-algoritmen te paralleliseren op GPU's via de tensorisatiemethodologie. Door tensorisatie toe te passen, worden de gegevensstructuren en operaties van EMO-algoritmen omgezet in beknopte tensorrepresentaties, wat naadloos automatisch gebruik van GPU-rekenkracht mogelijk maakt. We demonstreren de effectiviteit van onze aanpak door deze toe te passen op drie representatieve EMO-algoritmen: NSGA-III, MOEA/D en HypE. Om onze methodologie uitgebreid te evalueren, introduceren we een multiobjectieve robotcontrole-benchmark met behulp van een GPU-versnelde physics engine. Onze experimenten tonen aan dat de getensoriseerde EMO-algoritmen snelheidsverbeteringen tot 1113x bereiken in vergelijking met hun CPU-gebaseerde tegenhangers, terwijl de oplossingskwaliteit behouden blijft en populatiegroottes effectief worden opgeschaald tot honderdduizenden. Bovendien tackelen de getensoriseerde EMO-algoritmen complexe multiobjectieve robotcontroletaken efficiënt, waarbij hoogwaardige oplossingen met diverse gedragingen worden geproduceerd. Broncodes zijn beschikbaar op https://github.com/EMI-Group/evomo.
Voorgetrainde video large language models (Video LLMs) vertonen opmerkelijke redeneervaardigheden, maar het aanpassen van deze modellen aan nieuwe taken die aanvullende modaliteiten of gegevenstypen (bijvoorbeeld audio of 3D-informatie) omvatten, blijft een uitdaging. In dit artikel presenteren we PAVE, een flexibel raamwerk voor het aanpassen van voorgetrainde Video LLMs aan downstream-taken met side-channel signalen, zoals audio, 3D-aanwijzingen of multi-view video's. PAVE introduceert lichtgewicht adapters, aangeduid als "patches", die een klein aantal parameters en bewerkingen toevoegen aan een basismodel zonder de architectuur of voorgetrainde gewichten te wijzigen. Hierdoor kan PAVE het voorgetrainde basismodel effectief aanpassen om diverse downstream-taken te ondersteunen, waaronder audio-visuele vraagbeantwoording, 3D-redenering, multi-view videoherkenning en begrip van video's met een hoog frame rate. Over deze taken heen verbetert PAVE de prestaties van het basismodel aanzienlijk, waarbij het state-of-the-art taakspecifieke modellen overtreft tegen een minimale kostenpost van ~0,1% extra FLOPs en parameters. Bovendien ondersteunt PAVE multi-task learning en generaliseert het goed over verschillende Video LLMs. Onze code is beschikbaar op https://github.com/dragonlzm/PAVE.
Parameter-Efficient FineTuning (PEFT)-methoden hebben recentelijk aanzienlijke populariteit gewonnen dankzij de brede beschikbaarheid van grootschalige voorgetrainde modellen. Deze methoden maken een snelle aanpassing aan downstream-taken mogelijk tegen minimale rekenkosten. Populaire finetuning-methoden zoals LoRA vertonen echter beperkte robuustheid als het gaat om hyperparameterkeuzes of uitgebreide trainingsregimes, wat optimale prestaties 'out-of-the-box' in de weg staat. In tegenstelling hiermee bieden gebonden benaderingen, zoals ETHER, grotere robuustheid, maar zijn ze beperkt tot extreem laag-rang aanpassingen en vaste sterkte-transformaties, wat hun aanpassingsvermogen vermindert. In dit werk stellen we Decoupled Low-rank Adaptation (DeLoRA) voor, een nieuwe finetuning-methode die leerbare laag-rang matrices normaliseert en schaalt. Door de afstand van de transformatie te begrenzen, ontkoppelt DeLoRA effectief het hoekleren van de aanpassingssterkte, wat de robuustheid verbetert zonder in te leveren op prestaties. Door evaluaties op onderwerpgestuurde beeldgeneratie, natuurlijke taalverwerking en instructie-afstemming, tonen we aan dat DeLoRA de prestaties van concurrerende PEFT-methoden evenaart of overtreft, terwijl het sterkere robuustheid vertoont. Code is beschikbaar op https://github.com/ExplainableML/DeLoRA.
Co-speech gebaren spelen een cruciale rol in non-verbale communicatie. In dit artikel introduceren we een nieuw raamwerk voor het begrijpen van co-speech gebaren in natuurlijke omgevingen. Specifiek stellen we drie nieuwe taken en benchmarks voor om het vermogen van een model te evalueren om gebaren-tekst-spraak associaties te begrijpen: (i) gebarengebaseerde retrievel, (ii) het herkennen van gebarende woorden, en (iii) actieve sprekerdetectie met behulp van gebaren. We presenteren een nieuwe aanpak die een tri-modale spraak-tekst-video-gebaar representatie leert om deze taken op te lossen. Door gebruik te maken van een combinatie van global phrase contrastive loss en local gesture-word coupling loss, tonen we aan dat een sterke gebarenrepresentatie op een zwak begeleide manier kan worden geleerd vanuit video's in natuurlijke omgevingen. Onze geleerde representaties overtreffen eerdere methoden, inclusief grote vision-language modellen (VLMs), in alle drie de taken. Verdere analyse toont aan dat spraak- en tekstmodaliteiten verschillende gebaren-gerelateerde signalen vastleggen, wat de voordelen benadrukt van het leren van een gedeelde tri-modale embeddingruimte. De dataset, het model en de code zijn beschikbaar op: https://www.robots.ox.ac.uk/~vgg/research/jegal.