Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Sapiens, een familie van modellen voor vier fundamentele, mensgerichte visietaken: 2D-pose-estimatie, lichaamsdelsegmentatie, diepte-estimatie en oppervlaktenormaalvoorspelling. Onze modellen ondersteunen standaard 1K hoge-resolutie inferentie en zijn extreem eenvoudig aan te passen voor individuele taken door simpelweg modellen te fine-tunen die vooraf zijn getraind op meer dan 300 miljoen in-the-wild menselijke afbeeldingen. We observeren dat, bij hetzelfde rekenbudget, zelfgesuperviseerde voorafgaande training op een gecureerde dataset van menselijke afbeeldingen de prestaties voor een diverse set van mensgerichte taken aanzienlijk verbetert. De resulterende modellen vertonen opmerkelijke generalisatie naar in-the-wild data, zelfs wanneer gelabelde data schaars is of volledig synthetisch. Onze eenvoudige modelontwerp brengt ook schaalbaarheid met zich mee: de modelprestaties over taken verbeteren naarmate we het aantal parameters schalen van 0,3 naar 2 miljard. Sapiens overtreft consistent bestaande benchmarks over verschillende mensgerichte benchmarks. We behalen aanzienlijke verbeteringen ten opzichte van de vorige state-of-the-art op Humans-5K (pose) met 7,6 mAP, Humans-2K (part-seg) met 17,1 mIoU, Hi4D (diepte) met 22,4% relatieve RMSE, en THuman2 (normaal) met 53,5% relatieve hoekfout.
In Natural Language Processing (NLP) hebben Large Language Models (LLMs) een hoge kwaliteit in tekstgeneratie aangetoond. In praktische toepassingen moeten LLMs echter aan steeds complexere eisen voldoen. Naast het vermijden van misleidende of ongepaste inhoud, wordt van LLMs ook verwacht dat ze inspelen op specifieke gebruikersbehoeften, zoals het imiteren van bepaalde schrijfstijlen of het genereren van tekst met poëtische rijkdom. Deze uiteenlopende eisen hebben de ontwikkeling van Controllable Text Generation (CTG)-technieken gestimuleerd, die ervoor zorgen dat uitvoeren voldoen aan vooraf gedefinieerde controlecondities—zoals veiligheid, sentiment, thematische consistentie en linguïstische stijl—terwijl hoge standaarden van nuttigheid, vloeiendheid en diversiteit worden gehandhaafd. Dit artikel geeft een systematisch overzicht van de nieuwste ontwikkelingen in CTG voor LLMs, biedt een uitgebreide definitie van de kernconcepten en verduidelijkt de eisen voor controlecondities en tekstkwaliteit. We categoriseren CTG-taken in twee hoofdtypen: inhoudscontrole en attribuutcontrole. De belangrijkste methoden worden besproken, waaronder modelhertraining, fine-tuning, reinforcement learning, prompt engineering, latent space-manipulatie en interventie tijdens decodering. We analyseren de kenmerken, voordelen en beperkingen van elke methode en bieden genuanceerde inzichten voor het bereiken van generatiecontrole. Daarnaast bespreken we CTG-evaluatiemethoden, vatten we de toepassingen in verschillende domeinen samen en gaan we in op belangrijke uitdagingen in het huidige onderzoek, zoals verminderde vloeiendheid en praktische bruikbaarheid. We doen ook verschillende aanbevelingen, zoals het meer nadruk leggen op praktische toepassingen in toekomstig onderzoek. Dit artikel beoogt waardevolle richtlijnen te bieden aan onderzoekers en ontwikkelaars in het veld. Onze referentielijst en Chinese versie zijn openbaar beschikbaar op https://github.com/IAAR-Shanghai/CTGSurvey.
Grote taalmodellen (LLMs) hebben financiële toepassingen vooruitgeholpen, maar ze beschikken vaak niet over voldoende financiële kennis en hebben moeite met taken die multi-modale invoer zoals tabellen en tijdreeksgegevens vereisen. Om deze beperkingen aan te pakken, introduceren we Open-FinLLMs, een reeks Financiële LLMs. We beginnen met FinLLaMA, voorgetraind op een financieel corpus van 52 miljard tokens, waarin tekst, tabellen en tijdreeksgegevens zijn opgenomen om uitgebreide financiële kennis in te bedden. FinLLaMA wordt vervolgens instructie-fijn afgestemd met 573K financiële instructies, wat resulteert in FinLLaMA-instruct, dat de taakprestaties verbetert. Ten slotte presenteren we FinLLaVA, een multimodaal LLM getraind met 1.43M beeld-tekst instructies om complexe financiële gegevenstypen te verwerken. Uitgebreide evaluaties tonen aan dat FinLLaMA superieure prestaties levert ten opzichte van LLaMA3-8B, LLaMA3.1-8B en BloombergGPT in zowel zero-shot als few-shot instellingen over respectievelijk 19 en 4 datasets. FinLLaMA-instruct presteert beter dan GPT-4 en andere Financiële LLMs op 15 datasets. FinLLaVA blinkt uit in het begrijpen van tabellen en grafieken over 4 multimodale taken. Daarnaast behaalt FinLLaMA indrukwekkende Sharpe Ratio's in handelssimulaties, wat zijn robuuste financiële toepassingsmogelijkheden benadrukt. We zullen onze modellen en benchmarks voortdurend onderhouden en verbeteren om doorlopende innovatie in de academische wereld en de industrie te ondersteunen.
Instruct- (of "chat") afgestemde modellen zijn de primaire manier geworden waarop de meeste mensen interacteren met grote taalmodellen. In tegenstelling tot "basis"- of "fundamentele" modellen, zijn instruct-afgestemde modellen geoptimaliseerd om te reageren op imperatieve uitspraken. Wij presenteren Hermes 3, een neutraal uitgelijnd generalistisch instruct- en gereedschapsgebruiksmodel met sterke redeneer- en creatieve vaardigheden. De grootste versie, Hermes 3 405B, behaalt state-of-the-art prestaties onder open gewichtsmodellen op verschillende publieke benchmarks.
We presenteren een geünificeerde transformer, genaamd Show-o, die multimodale begripsvorming en generatie verenigt. In tegenstelling tot volledig autoregressieve modellen, combineert Show-o autoregressieve en (discrete) diffusiemodellering om adaptief om te gaan met invoer en uitvoer van diverse en gemengde modaliteiten. Het geünificeerde model ondersteunt flexibel een breed scala aan visueel-taalkundige taken, waaronder visuele vraagbeantwoording, tekst-naar-beeldgeneratie, tekstgeleide inpainting/extrapolatie en gemengde-modaliteitengeneratie. Over verschillende benchmarks heen toont het vergelijkbare of superieure prestaties ten opzichte van bestaande individuele modellen met een gelijkwaardig of groter aantal parameters, specifiek ontworpen voor begripsvorming of generatie. Dit benadrukt aanzienlijk het potentieel als een next-generation foundation model. Code en modellen zijn vrijgegeven op https://github.com/showlab/Show-o.
We presenteren xGen-VideoSyn-1, een tekst-naar-video (T2V) generatiemodel dat in staat is realistische scènes te produceren op basis van tekstuele beschrijvingen. Voortbouwend op recente ontwikkelingen, zoals OpenAI's Sora, onderzoeken we de latent diffusion model (LDM) architectuur en introduceren we een video variational autoencoder (VidVAE). VidVAE comprimeert videogegevens zowel ruimtelijk als temporeel, waardoor de lengte van visuele tokens en de rekenkundige eisen die gepaard gaan met het genereren van lange videosequenties aanzienlijk worden verminderd. Om de rekenkosten verder aan te pakken, stellen we een verdeel-en-samenvoeg strategie voor die temporele consistentie over videosegmenten behoudt. Ons Diffusion Transformer (DiT) model bevat ruimtelijke en temporele self-attention lagen, wat robuuste generalisatie over verschillende tijdsframes en beeldverhoudingen mogelijk maakt. We hebben vanaf het begin een gegevensverwerkingspijplijn ontworpen en meer dan 13 miljoen hoogwaardige video-tekst paren verzameld. De pijplijn omvat meerdere stappen, zoals knippen, tekstdetectie, bewegingsschattiging, esthetische beoordeling en dichte beschrijving op basis van ons eigen video-LLM model. Het trainen van de VidVAE en DiT modellen vereiste respectievelijk ongeveer 40 en 642 H100 dagen. Ons model ondersteunt het end-to-end genereren van video's van meer dan 14 seconden in 720p en toont competitieve prestaties in vergelijking met state-of-the-art T2V modellen.
We presenteren Jamba-1.5, nieuwe instruction-tuned grote taalmodellen gebaseerd op onze Jamba-architectuur. Jamba is een hybride Transformer-Mamba mixture of experts-architectuur, die hoge doorvoersnelheid en laag geheugengebruik biedt over verschillende contextlengtes, terwijl dezelfde of betere kwaliteit behouden blijft in vergelijking met Transformer-modellen. We brengen twee modelgroottes uit: Jamba-1.5-Large, met 94B actieve parameters, en Jamba-1.5-Mini, met 12B actieve parameters. Beide modellen zijn verfijnd voor een verscheidenheid aan conversatie- en instructievolgende vaardigheden en hebben een effectieve contextlengte van 256K tokens, de grootste onder open-weight modellen. Om kosteneffectieve inferentie te ondersteunen, introduceren we ExpertsInt8, een nieuwe kwantizatietechniek die het mogelijk maakt om Jamba-1.5-Large op een machine met 8 80GB GPU's te laten draaien bij het verwerken van 256K-token contexten zonder kwaliteitsverlies. Wanneer geëvalueerd op een reeks academische en chatbot-benchmarks, behalen de Jamba-1.5-modellen uitstekende resultaten terwijl ze een hoge doorvoersnelheid bieden en andere open-weight modellen overtreffen op lange-context benchmarks. De modelgewichten voor beide groottes zijn publiekelijk beschikbaar onder de Jamba Open Model License en we brengen ExpertsInt8 uit als open source.
We leven in een bloeiend tijdperk van digitale media, waarin iedereen het potentieel heeft om een persoonlijke filmmaker te worden. Huidig onderzoek naar cinematische overdracht stelt filmmakers in staat om visuele elementen (bijvoorbeeld cinematografie en karaktergedrag) uit klassieke shots te reproduceren en te manipuleren. Echter, karakters in de herziene films zijn nog steeds afhankelijk van handmatige creatie, wat aanzienlijke technische complexiteit en hoge kosten met zich meebrengt, waardoor het onbereikbaar is voor gewone gebruikers. Bovendien ontbreekt het hun geschatte cinematografie aan vloeiendheid door onvoldoende vastlegging van inter-frame beweging en modellering van fysieke trajecten. Gelukkig heeft het opmerkelijke succes van 2D en 3D AIGC de mogelijkheid geopend om efficiënt karakters te genereren die zijn afgestemd op de behoeften van gebruikers, waardoor de cinematografie wordt gediversifieerd. In dit artikel stellen we DreamCinema voor, een nieuw cinematisch overdrachtsraamwerk dat generatieve AI introduceert in het filmproductieparadigma, met als doel gebruiksvriendelijke filmcreatie te vergemakkelijken. Specifiek extraheren we eerst cinematische elementen (d.w.z. menselijke en cameraposes) en optimaliseren we het cameratrajec. Vervolgens passen we een karaktergenerator toe om efficiënt 3D-karakters van hoge kwaliteit te creëren met een voorafgaande menselijke structuur. Ten slotte ontwikkelen we een structuurgeleide bewegingsoverdrachtsstrategie om gegenereerde karakters in filmcreatie te integreren en deze soepel over te dragen via 3D-graphics engines. Uitgebreide experimenten tonen de effectiviteit van onze methode aan voor het creëren van hoogwaardige films met vrije camera en 3D-karakters.
Embeddingmodellen spelen een cruciale rol in Natural Language Processing (NLP) door het creëren van tekstembeddings die worden gebruikt in diverse taken, zoals informatiezoekopdrachten en het beoordelen van semantische tekstgelijkenis. Dit artikel richt zich op onderzoek naar embeddingmodellen voor de Russische taal. Het introduceert een nieuw Russisch gericht embeddingmodel genaamd ru-en-RoSBERTa en de ruMTEB-benchmark, de Russische versie die een uitbreiding vormt van de Massive Text Embedding Benchmark (MTEB). Onze benchmark omvat zeven categorieën van taken, zoals semantische tekstuele gelijkenis, tekstclassificatie, herrangschikking en informatiezoekopdrachten. Het onderzoek evalueert ook een representatieve set van Russische en meertalige modellen op de voorgestelde benchmark. De bevindingen tonen aan dat het nieuwe model resultaten behaalt die vergelijkbaar zijn met state-of-the-art modellen in het Russisch. We maken het model ru-en-RoSBERTa beschikbaar, en het ruMTEB-framework wordt geleverd met opensourcecode, integratie in het oorspronkelijke framework en een openbaar scorebord.
We introduceren AiM, een autoregressief (AR) beeldgeneratiemodel gebaseerd op de Mamba-architectuur. AiM maakt gebruik van Mamba, een innovatief state-space model dat zich kenmerkt door zijn uitzonderlijke prestaties voor het modelleren van lange sequenties met lineaire tijdcomplexiteit, om de veelgebruikte Transformers in AR-beeldgeneratiemodellen te vervangen, met als doel zowel superieure generatiekwaliteit als verbeterde inferentiesnelheid te bereiken. In tegenstelling tot bestaande methoden die Mamba aanpassen om tweedimensionale signalen te verwerken via multidirectionele scans, maakt AiM direct gebruik van het next-token prediction paradigma voor autoregressieve beeldgeneratie. Deze aanpak omzeilt de noodzaak van uitgebreide aanpassingen om Mamba in staat te stellen 2D-ruimtelijke representaties te leren. Door eenvoudige maar strategisch gerichte aanpassingen te implementeren voor visuele generatieve taken, behouden we de kernstructuur van Mamba en benutten we volledig zijn efficiënte mogelijkheden voor het modelleren van lange sequenties en schaalbaarheid. We bieden AiM-modellen aan in verschillende schalen, met parameteraantallen variërend van 148M tot 1.3B. Op de ImageNet1K 256*256 benchmark behaalt ons beste AiM-model een FID van 2.21, waarmee het alle bestaande AR-modellen met vergelijkbare parameteraantallen overtreft en significante concurrentie biedt tegen diffusiemodellen, met een 2 tot 10 keer snellere inferentiesnelheid. Code is beschikbaar op https://github.com/hp-l33/AiM.
In dit rapport introduceren we Vintern-1B, een betrouwbaar multimodaal groot taalmodel (MLLM) met 1 miljard parameters voor Vietnamese taaltaken. Door het Qwen2-0.5B-Instruct taalmodel te integreren met het InternViT-300M-448px visuele model, is Vintern-1B geoptimaliseerd voor een reeks toepassingen, waaronder optische tekenherkenning (OCR), documentextractie en algemene vraag-antwoordtaken in de Vietnamese context. Het model is verfijnd op een uitgebreide dataset van meer dan 3 miljoen afbeelding-vraag-antwoordparen, wat resulteert in robuuste prestaties en betrouwbare resultaten op meerdere Vietnamese taalbenchmarks zoals OpenViVQA en ViTextVQA. Vintern-1B is compact genoeg om eenvoudig in verschillende on-device toepassingen te passen. Daarnaast hebben we verschillende Vietnamese visuele vraag-antwoorddatasets (VQA) voor tekst en diagrammen openbaar gemaakt, die zijn gemaakt met Gemini 1.5 Flash. Onze modellen zijn beschikbaar op: https://huggingface.co/5CD-AI/Vintern-1B-v2.
We presenteren Pyramid Attention Broadcast (PAB), een real-time, hoogwaardige en trainingsvrije aanpak voor DiT-gebaseerde videogeneratie. Onze methode is gebaseerd op de observatie dat het verschil in aandacht tijdens het diffusieproces een U-vormig patroon vertoont, wat duidt op aanzienlijke redundantie. We verminderen dit door aandachtuitvoeren in een piramidestijl naar volgende stappen te broadcasten. Het past verschillende broadcaststrategieën toe voor elke aandacht, gebaseerd op hun variantie voor optimale efficiëntie. We introduceren verder broadcast sequence parallel voor efficiëntere gedistribueerde inferentie. PAB toont superieure resultaten over drie modellen in vergelijking met baseline-methoden, waarbij real-time generatie voor video's tot 720p wordt bereikt. We verwachten dat onze eenvoudige maar effectieve methode zal dienen als een robuuste baseline en toekomstig onderzoek en toepassingen voor videogeneratie zal faciliteren.
In dit artikel stellen we een nieuwe methode voor, genaamd Strategist, die gebruikmaakt van LLM's om nieuwe vaardigheden te verwerven voor het spelen van multi-agent spellen via een zelfverbeteringsproces. Onze methode verzamelt kwalitatieve feedback door middel van zelfspelsimulaties met Monte Carlo-boomzoeken en LLM-gebaseerde reflectie, die vervolgens kan worden gebruikt om hoogwaardige strategische vaardigheden te leren, zoals het evalueren van toestanden die de uitvoering op laag niveau sturen. We laten zien hoe onze methode kan worden toegepast in zowel actieplanning als dialooggeneratie in de context van spellen, waarbij goede prestaties worden behaald voor beide taken. Specifiek demonstreren we dat onze methode kan helpen bij het trainen van agents die beter presteren dan zowel traditionele op reinforcement learning gebaseerde benaderingen als andere LLM-gebaseerde vaardigheidsleerbenaderingen in spellen zoals het Game of Pure Strategy (GOPS) en The Resistance: Avalon.
Grootschalige Vision-Taalmodellen (LVLMs) hebben aanzienlijke vooruitgang geboekt met tekst-uitgelijnde visuele invoer. Ze hebben opmerkelijke vooruitgang geboekt in computervisietaken door de tekstmodaliteit af te stemmen op visuele invoer. Er zijn ook inspanningen geleverd om multi-visie sensoren naast RGB te integreren, waaronder thermische, diepte- en medische röntgenbeelden. We observeren echter dat huidige LVLMs beelden die zijn genomen met multi-visie sensoren behandelen alsof ze zich in hetzelfde RGB-domein bevinden, zonder rekening te houden met de fysieke kenmerken van multi-visie sensoren. Ze slagen er niet in om de fundamentele informatie van multi-visie sensoren uit de dataset en de bijbehorende contextuele kennis correct over te brengen. Hierdoor wordt de afstemming tussen de informatie uit de werkelijke fysieke omgeving en de tekst niet correct bereikt, wat het beantwoorden van complexe sensorgerelateerde vragen die rekening houden met de fysieke omgeving bemoeilijkt. In dit artikel streven we ernaar om een benchmark voor multi-visie Sensor Perceptie en Redenering te creëren, genaamd SPARK, die de fundamentele informatiekloof tussen beelden en multi-visie sensoren kan verkleinen. We hebben automatisch 6.248 visie-taal testmonsters gegenereerd om multi-visie sensorische perceptie en multi-visie sensorisch redeneren te onderzoeken op basis van fysieke sensorkennisvaardigheid in verschillende formaten, waarbij verschillende soorten sensorgerelateerde vragen worden behandeld. We hebben deze monsters gebruikt om tien toonaangevende LVLMs te evalueren. De resultaten toonden aan dat de meeste modellen in verschillende mate tekortkomingen vertoonden in multi-visie sensorisch redeneren. Codes en data zijn beschikbaar op https://github.com/top-yun/SPARK.
Multimodale Large Language Models (MLLMs) hebben recentelijk opmerkelijke perceptuele en redeneervaardigheden getoond, waarbij ze typisch bestaan uit een Vision Encoder, een Adapter en een Large Language Model (LLM). De adapter fungeert als de cruciale brug tussen de visuele en taalcomponenten. Het trainen van adapters met supervisie op beeldniveau resulteert echter vaak in aanzienlijke uitlijningproblemen, wat de mogelijkheden van de LLMs ondermijnt en het potentieel van multimodale LLMs beperkt. Om dit aan te pakken, introduceren we Supervised Embedding Alignment (SEA), een methode voor token-niveau uitlijning die gebruikmaakt van vision-language vooraf getrainde modellen, zoals CLIP, om visuele tokens uit te lijnen met de embeddingruimte van de LLM via contrastief leren. Deze aanpak zorgt voor een meer coherente integratie van visuele en taalrepresentaties, wat de prestaties en interpreteerbaarheid van multimodale LLMs verbetert terwijl hun inherente mogelijkheden behouden blijven. Uitgebreide experimenten tonen aan dat SEA MLLMs effectief verbetert, vooral voor kleinere modellen, zonder extra data of inferentieberekeningen toe te voegen. SEA legt ook de basis voor het ontwikkelen van meer algemene en aanpasbare oplossingen om multimodale systemen te versterken.
Grote taalmodellen (LLMs) hebben indrukwekkende vooruitgang geboekt op tal van gebieden, maar het cruciale probleem van kennisconflicten, een belangrijke bron van hallucinaties, is zelden bestudeerd. Slechts enkele onderzoeken hebben de conflicten tussen de inherente kennis van LLMs en de opgehaalde contextuele kennis verkend. Een grondige evaluatie van kennisconflicten in LLMs ontbreekt echter nog steeds. Gemotiveerd door deze onderzoekskloof presenteren we ConflictBank, de eerste uitgebreide benchmark die is ontwikkeld om kennisconflicten systematisch te evalueren vanuit drie aspecten: (i) conflicten in opgehaalde kennis, (ii) conflicten binnen de gecodeerde kennis van de modellen, en (iii) de interactie tussen deze conflictvormen. Ons onderzoek verdiept zich in vier modelfamilies en twaalf LLM-instanties, waarbij conflicten die voortkomen uit misinformatie, temporele discrepanties en semantische verschillen zorgvuldig worden geanalyseerd. Op basis van ons voorgestelde nieuwe constructiekader creëren we 7.453.853 claim-bewijsparen en 553.117 vraag-antwoordparen. We presenteren talrijke bevindingen over modelschaal, conflictoorzaken en conflicttypen. We hopen dat onze ConflictBank-benchmark de gemeenschap zal helpen het modelgedrag bij conflicten beter te begrijpen en betrouwbaardere LLMs te ontwikkelen.
Traditionele methoden voor animatiegeneratie zijn afhankelijk van het trainen van generatieve modellen met door mensen gelabelde gegevens, wat een geavanceerde, meerfasige pijplijn vereist die aanzienlijke menselijke inspanning vergt en hoge trainingskosten met zich meebrengt. Vanwege beperkte promptingschema's produceren deze methoden doorgaans korte, informatiearme en contextueel onsamenhangende animaties. Om deze beperkingen te overwinnen en het animatieproces te automatiseren, introduceren we als eerste grote multimodale modellen (LMMs) als de kernprocessor om een autonome animatiemaker te bouwen, genaamd Anim-Director. Deze agent maakt voornamelijk gebruik van de geavanceerde begrips- en redeneercapaciteiten van LMMs en generatieve AI-tools om geanimeerde video's te creëren vanuit beknopte verhalen of eenvoudige instructies. Specifiek werkt het in drie hoofdstadia: Ten eerste genereert de Anim-Director een samenhangend verhaal vanuit gebruikersinvoer, gevolgd door een gedetailleerd regisseursscript dat instellingen van karakterprofielen en beschrijvingen van interieurs/exterieurs omvat, en contextueel samenhangende scènebeschrijvingen die verschijnende personages, interieurs of exterieurs, en scènegebeurtenissen bevatten. Ten tweede gebruiken we LMMs met het beeldgeneratietool om visuele beelden van instellingen en scènes te produceren. Deze beelden zijn ontworpen om visuele consistentie tussen verschillende scènes te behouden met behulp van een visueel-taalpromptmethode die scènebeschrijvingen en beelden van het verschijnende personage en de instelling combineert. Ten derde dienen scènebeelden als basis voor het produceren van geanimeerde video's, waarbij LMMs prompts genereren om dit proces te begeleiden. Het hele proces is opmerkelijk autonoom zonder handmatige interventie, aangezien de LMMs naadloos interageren met generatieve tools om prompts te genereren, visuele kwaliteit te evalueren en de beste te selecteren om de uiteindelijke output te optimaliseren.
Foley-geluidsynthese is cruciaal voor multimediaproductie, waarbij de gebruikerservaring wordt verbeterd door audio en video zowel temporeel als semantisch te synchroniseren. Recente studies over het automatiseren van dit arbeidsintensieve proces via video-naar-geluid-generatie worden geconfronteerd met aanzienlijke uitdagingen. Systemen die expliciete temporele kenmerken missen, lijden onder slechte bestuurbaarheid en uitlijning, terwijl tijdstempelgebaseerde modellen kostbare en subjectieve menselijke annotatie vereisen. Wij stellen Video-Foley voor, een video-naar-geluid-systeem dat Root Mean Square (RMS) gebruikt als een temporele gebeurtenisvoorwaarde met semantische timbre-prikkels (audio of tekst). RMS, een frame-niveau intensiteitsenvelopkenmerk dat nauw verwant is aan audio-semantiek, zorgt voor een hoge bestuurbaarheid en synchronisatie. Het annotatievrije zelfsuperviserende leerraamwerk bestaat uit twee fasen, Video2RMS en RMS2Sound, en bevat nieuwe ideeën zoals RMS-discretisatie en RMS-ControlNet met een vooraf getraind tekst-naar-audio-model. Onze uitgebreide evaluatie toont aan dat Video-Foley state-of-the-art prestaties bereikt in audiovisuele uitlijning en bestuurbaarheid voor geluidstiming, intensiteit, timbre en nuance. Code, modelgewichten en demonstraties zijn beschikbaar op de bijbehorende website. (https://jnwnlee.github.io/video-foley-demo)
3D-reconstructie en herbelichting van objecten gemaakt van verstrooiende materialen vormen een aanzienlijke uitdaging vanwege het complexe lichttransport onder het oppervlak. 3D Gaussian Splatting introduceerde hoogwaardige synthese van nieuwe aanzichten in realtime. Hoewel 3D Gaussiaanse functies efficiënt het oppervlak van een object benaderen, slagen ze er niet in de volumetrische eigenschappen van onderoppervlakteverstrooiing vast te leggen. Wij stellen een raamwerk voor voor het optimaliseren van de vorm van een object samen met het radiatie- overdrachtsveld op basis van multi-view OLAT (one light at a time) gegevens. Onze methode deelt de scène op in een expliciet oppervlak gerepresenteerd als 3D Gaussiaanse functies, met een ruimtelijk variërende BRDF, en een impliciete volumetrische representatie van de verstrooiingscomponent. Een aangeleerd invallend lichtveld houdt rekening met schaduwwerking. We optimaliseren alle parameters gezamenlijk via differentieerbare rendering met ray-tracing. Onze aanpak maakt materiaalbewerking, herbelichting en synthese van nieuwe aanzichten mogelijk met interactieve snelheden. We tonen succesvolle toepassing op synthetische gegevens en introduceren een nieuw verworven multi-view multi- licht dataset van objecten in een lichtopstelling. In vergelijking met eerder werk behalen we vergelijkbare of betere resultaten met een fractie van de optimalisatie- en renderingtijd, terwijl we gedetailleerde controle over materiaaleigenschappen mogelijk maken. Projectpagina https://sss.jdihlmann.com/
Gezien de wijdverspreide verspreiding van desinformatie op sociale media, is het implementeren van factcheckmechanismen voor online beweringen essentieel. Het handmatig verifiëren van elke bewering is zeer uitdagend, wat de noodzaak van een geautomatiseerd factchecksysteem onderstreept. Dit artikel presenteert ons systeem dat is ontworpen om dit probleem aan te pakken. We gebruiken de Averitec-dataset om de waarheidsgetrouwheid van beweringen te beoordelen. Naast het voorspellen van de waarheidsgetrouwheid, biedt ons systeem ondersteunend bewijs, dat uit de dataset wordt geëxtraheerd. We ontwikkelen een Retrieve and Generate (RAG)-pipeline om relevante bewijszinnen uit een kennisbank te extraheren, die vervolgens samen met de bewering worden ingevoerd in een groot taalmodel (LLM) voor classificatie. We evalueren ook de few-shot In-Context Learning (ICL)-mogelijkheden van meerdere LLM's. Ons systeem behaalt een 'Averitec'-score van 0.33, wat een absolute verbetering van 22% is ten opzichte van de baseline. Alle code zal beschikbaar worden gesteld op https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.