Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Hala, een familie van Arabisch-gerichte instructie- en vertaalmodellen die zijn gebouwd met onze translate-and-tune-pipeline. We comprimeren eerst een krachtige ARleftrightarrowEN-leraar naar FP8 (wat een sim2 keer hogere doorvoersnelheid oplevert zonder kwaliteitsverlies) en gebruiken deze om hoogwaardige tweetalige supervisie te creëren. Een lichtgewicht taalmodel, LFM2-1.2B, wordt vervolgens op deze data afgestemd en gebruikt om hoogwaardige Engelse instructiesets naar het Arabisch te vertalen, wat resulteert in een corpus op miljoenschaal dat is toegesneden op het volgen van instructies. We trainen Hala-modellen met 350M, 700M, 1.2B en 9B parameters en passen slerp-merging toe om de specialisatie in het Arabisch te balanceren met de sterke punten van het basismodel. Op Arabisch-gerichte benchmarks behaalt Hala state-of-the-art resultaten binnen zowel de "nano" (leq2B) als "small" (7-9B) categorieën, waarbij ze hun basisversies overtreffen. We maken modellen, data, evaluatie en recepten beschikbaar om onderzoek in Arabische NLP te versnellen.
We introduceren SAIL-VL2, een open-suite vision-language foundation model (LVM) voor uitgebreid multimodaal begrip en redeneren. Als opvolger van SAIL-VL behaalt SAIL-VL2 state-of-the-art prestaties op de 2B en 8B parameterschalen over diverse beeld- en videobenchmarks, waarbij het sterke capaciteiten demonstreert van fijnmazige perceptie tot complex redeneren. Drie kerninnovaties dragen bij aan de effectiviteit. Ten eerste verbetert een grootschalige datacuratiepijplijn met scorings- en filterstrategieën zowel de kwaliteit als de distributie over ondertiteling, OCR, QA en videogegevens, wat de trainings efficiëntie verhoogt. Ten tweede begint een progressief trainingsframework met een krachtige vooraf getrainde visie-encoder (SAIL-ViT), gaat verder met multimodale voorafgaande training en eindigt met een denk-fusie SFT-RL hybride paradigma dat de modelcapaciteiten systematisch versterkt. Ten derde gaan architectonische vooruitgangen verder dan dichte LLM's naar efficiënte sparse Mixture-of-Experts (MoE) ontwerpen. Met deze bijdragen toont SAIL-VL2 competitieve prestaties over 106 datasets en behaalt het state-of-the-art resultaten op uitdagende redeneerbenchmarks zoals MMMU en MathVista. Bovendien staat SAIL-VL2-2B op de OpenCompass leaderboard op de eerste plaats onder de officieel vrijgegeven open-source modellen onder de 4B parameterschaal, terwijl het dient als een efficiënte en uitbreidbare basis voor de open-source multimodale gemeenschap.
Omnidirectioneel zicht, waarbij 360-graden zicht wordt gebruikt om de omgeving te begrijpen, is steeds belangrijker geworden in domeinen zoals robotica, industriële inspectie en milieumonitoring. In vergelijking met traditioneel pinhole-zicht biedt omnidirectioneel zicht een holistisch bewustzijn van de omgeving, wat de volledigheid van scèneperceptie en de betrouwbaarheid van besluitvorming aanzienlijk verbetert. Echter heeft fundamenteel onderzoek op dit gebied historisch gezien achtergelopen op traditioneel pinhole-zicht. Deze presentatie belicht een opkomende trend in het tijdperk van embodied AI: de snelle ontwikkeling van omnidirectioneel zicht, aangedreven door groeiende industriële vraag en academische interesse. We benadrukken recente doorbraken in omnidirectionele generatie, omnidirectionele perceptie, omnidirectioneel begrip en gerelateerde datasets. Gebaseerd op inzichten uit zowel de academische wereld als de industrie, stellen we een ideaal panoramisch systeemarchitectuur voor in het tijdperk van embodied AI, PANORAMA, dat uit vier belangrijke subsystemen bestaat. Daarnaast bieden we diepgaande meningen over opkomende trends en kruisgemeenschappelijke impact op het snijvlak van panoramisch zicht en embodied AI, samen met de toekomstige roadmap en open uitdagingen. Dit overzicht synthetiseert de meest recente vooruitgang en schetst uitdagingen en kansen voor toekomstig onderzoek in het bouwen van robuuste, algemene omnidirectionele AI-systemen in het tijdperk van embodied AI.
Examens vormen een fundamentele test van expertniveau-intelligentie en vereisen geïntegreerd begrip, redenering en generatie. Bestaande examengerichte benchmarks richten zich voornamelijk op begrips- en redeneertaken, en huidige generatiebenchmarks leggen de nadruk op het illustreren van wereldkennis en visuele concepten, waarbij de evaluatie van strenge tekeningenexamens wordt verwaarloosd. We introduceren GenExam, de eerste benchmark voor multidisciplinaire tekst-naar-beeld examens, met 1.000 voorbeelden verdeeld over 10 vakken met examengerichte prompts georganiseerd volgens een vierniveau-taxonomie. Elk probleem is voorzien van grondwaarheidbeelden en fijnmazige scoringspunten om een nauwkeurige evaluatie van semantische correctheid en visuele geloofwaardigheid mogelijk te maken. Experimenten tonen aan dat zelfs state-of-the-art modellen zoals GPT-Image-1 en Gemini-2.5-Flash-Image minder dan 15% strenge scores behalen, en de meeste modellen scoren bijna 0%, wat de grote uitdaging van onze benchmark onderstreept. Door beeldgeneratie te benaderen als een examen, biedt GenExam een rigoureuze beoordeling van het vermogen van modellen om kennis, redenering en generatie te integreren, en biedt het inzichten op het pad naar algemene AGI.
Hoewel Code Language Models (CLMs) superieure prestaties hebben getoond in software-engineeringtaken zoals codegeneratie en samenvatting, onthullen recente empirische studies een kritieke privacykwetsbaarheid: deze modellen vertonen onbedoelde memorisatie van gevoelige trainingsgegevens, waardoor letterlijke reproductie van vertrouwelijke informatie mogelijk wordt wanneer hier specifiek om wordt gevraagd. Om dit probleem aan te pakken, zijn verschillende benaderingen voorgesteld, waaronder deduplicatie van trainingsgegevens en augmentatie met differentiële privacy. Deze methoden vereisen echter volledige hertraining van geïmplementeerde CLMs, wat aanzienlijke rekenkosten met zich meebrengt. In dit artikel streven we ernaar de volgende onderzoeksvraag te beantwoorden: Kan gevoelige informatie die door CLMs is gememoriseerd, effectief en efficiënt worden gewist? We voeren een baanbrekend onderzoek uit naar het wissen van gevoelige memorisatie in CLMs via machine unlearning - een post-hoc modificatiemethode die specifieke informatie uit getrainde modellen verwijdert zonder volledige hertraining te vereisen. Specifiek kwantificeren we eerst de memorisatierisico's van gevoelige gegevens binnen CLM-trainingsdatasets en stellen we een hoogrisicodataset samen van 50.000 gevoelige gememoriseerde samples als doelen voor unlearning. We bestuderen twee veelgebruikte gradient ascent-gebaseerde unlearning-benaderingen: de standaardmethode en de constraint-gebaseerde methode, en introduceren CodeEraser, een geavanceerde variant die selectief gevoelige gememoriseerde segmenten in code verwijdert terwijl de structurele integriteit en functionele correctheid van de omringende code behouden blijft. Uitgebreide experimenten op drie families van CLMs, namelijk CodeParrot, CodeGen-Mono en Qwen2.5-Coder, valideren de effectiviteit en efficiëntie van CodeEraser in het wissen van gerichte gevoelige memorisatie terwijl de modelnut behouden blijft.
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in wiskundig redeneren, maar blijven moeite houden met taken die hoge precisie vereisen, zoals numerieke berekeningen en formele symbolische manipulatie. Het integreren van externe tools is naar voren gekomen als een veelbelovende aanpak om deze kloof te overbruggen. Ondanks recente vooruitgang worstelen bestaande methoden met drie belangrijke uitdagingen: het construeren van tool-geïntegreerde redeneergegevens, het uitvoeren van fijnmazige optimalisatie, en het verbeteren van inferentie. Om deze beperkingen te overwinnen, stellen we THOR voor (Tool-Integrated Hierarchical Optimization via RL). Ten eerste introduceren we TIRGen, een multi-agent actor-critic-gebaseerde pijplijn voor het construeren van hoogwaardige datasets van tool-geïntegreerde redeneerpaden, die aansluiten bij het beleid en goed generaliseren over diverse modellen. Ten tweede introduceren we, om fijnmazige hiërarchische optimalisatie uit te voeren, een RL-strategie die zowel optimaliseert voor trajectniveau probleemoplossing als stapniveau codegeneratie. Dit wordt gemotiveerd door ons inzicht dat het succes van een tussenliggende toolaanroep een sterke voorspeller is van de juistheid van het uiteindelijke antwoord. Tot slot bevat THOR een zelfcorrectiemechanisme dat directe toolfeedback benut om foutieve redeneerpaden dynamisch te herzien tijdens inferentie. Onze aanpak toont sterke generalisatie over diverse modellen, waarbij effectief wordt gepresteerd in zowel redenerende als niet-redenerende modellen. Het behaalt verder state-of-the-art prestaties voor modellen van vergelijkbare schaal op meerdere wiskundige benchmarks, terwijl het ook consistente verbeteringen oplevert op codebenchmarks. Onze code zal publiekelijk beschikbaar zijn op https://github.com/JingMog/THOR.
Recente ontwikkelingen in op Large Language Models (LLM) gebaseerde agents hebben indrukwekkende mogelijkheden getoond die meerdere domeinen omvatten, geïllustreerd door diepgaande onderzoekssystemen die superieure prestaties leveren bij complexe informatiezoek- en synthesetaken. Hoewel algemene diepgaande onderzoeksagents indrukwekkende capaciteiten hebben getoond, hebben ze aanzienlijke moeite met uitdagingen in het medische domein, zoals blijkt uit toonaangevende propriëtaire systemen die beperkte nauwkeurigheid behalen op complexe medische benchmarks. De belangrijkste beperkingen zijn: (1) het model beschikt niet over voldoende gedetailleerde medische kennis voor klinisch redeneren, en (2) het raamwerk wordt beperkt door het ontbreken van gespecialiseerde retrievalspecifieke tools die zijn afgestemd op medische contexten. Wij presenteren een medische diepgaande onderzoeksagent die deze uitdagingen aanpakt via twee kerninnovaties. Ten eerste ontwikkelen we een nieuw datasyntheseraamwerk met behulp van medische kennisgrafieken, waarbij we de langste ketens uit subgrafieken rond zeldzame medische entiteiten extraheren om complexe multi-hop vraag-antwoordparen te genereren. Ten tweede integreren we een op maat gebouwde privé-medische retrievalengine naast algemene tools, waardoor nauwkeurige medische informatiesynthese mogelijk wordt. Onze aanpak genereert meer dan 2100 diverse trajecten over 12 medische specialismen, elk met gemiddeld 4,2 toolinteracties. Door een tweefasig trainingsparadigma dat supervised fine-tuning combineert met online reinforcement learning met samengestelde beloningen, toont ons MedResearcher-R1-32B-model uitzonderlijke prestaties, waarbij het nieuwe state-of-the-art resultaten behaalt op medische benchmarks terwijl het concurrerende prestaties behoudt op algemene diepgaande onderzoektaken. Ons werk toont aan dat strategische domeinspecifieke innovaties in architectuur, toolontwerp en trainingsdataconstructie kleinere open-sourcemodellen in staat kunnen stellen om veel grotere propriëtaire systemen te overtreffen in gespecialiseerde domeinen.
We introduceren Wan-Animate, een uniform raamwerk voor karakteranimatie en -vervanging. Gegeven een karakterafbeelding en een referentievideo, kan Wan-Animate het karakter animeren door de uitdrukkingen en bewegingen van het karakter in de video nauwkeurig te repliceren om hoogwaardige karaktervideo's te genereren. Daarnaast kan het de geanimeerde karakter integreren in de referentievideo om het oorspronkelijke karakter te vervangen, waarbij de belichting en kleurtoon van de scène worden gerepliceerd om naadloze omgevingsintegratie te bereiken. Wan-Animate is gebaseerd op het Wan-model. Om het aan te passen voor karakteranimatietaken, gebruiken we een aangepast invoerparadigma om onderscheid te maken tussen referentievoorwaarden en regio's voor generatie. Dit ontwerp verenigt meerdere taken in een gemeenschappelijke symbolische representatie. We gebruiken ruimtelijk uitgelijnde skeletten om lichaamsbewegingen te repliceren en impliciete gezichtskenmerken uit bronafbeeldingen om uitdrukkingen na te bootsen, waardoor het mogelijk wordt om karaktervideo's met hoge bestuurbaarheid en expressiviteit te genereren. Bovendien ontwikkelen we een aanvullende Relighting LoRA om de omgevingsintegratie tijdens karaktervervanging te verbeteren. Deze module behoudt de consistentie van het uiterlijk van het karakter terwijl de juiste omgevingsbelichting en kleurtoon worden toegepast. Experimentele resultaten tonen aan dat Wan-Animate state-of-the-art prestaties bereikt. We zijn vastbesloten om de modelgewichten en de broncode openbaar te maken.
Dit artikel bespreekt de MARS2 2025 Challenge over Multimodale Redenering. Wij streven ernaar om verschillende benaderingen in multimodale machine learning en grote taalmodelen (LLMs) samen te brengen via een uitgebreide benchmark. Wij hopen dat dit onderzoekers beter in staat stelt om de state-of-the-art in dit zeer dynamische gebied te volgen. Tegelijkertijd heeft een groeiend aantal testomgevingen de evolutie van algemene grote taalmodelen bevorderd. Daarom richt MARS2 dit jaar zich op realistische en gespecialiseerde scenario's om de toepassingen van multimodale redenering van MLLMs te verbreden. Ons organisatieteam heeft twee op maat gemaakte datasets, Lens en AdsQA, vrijgegeven als testverzamelingen, die respectievelijk algemene redenering in 12 dagelijkse scenario's en domeinspecifieke redenering in advertentievideo's ondersteunen. Wij hebben meer dan 40 baselines geëvalueerd, waaronder zowel algemene MLLMs als taakspecifieke modellen, en hebben drie competitietracks geopend, namelijk Visuele Verankering in Realistische Scenario's (VG-RS), Visueel Vragen Beantwoorden met Ruimtelijk Bewustzijn (VQA-SA), en Visuele Redenering in Creatieve Advertentievideo's (VR-Ads). Uiteindelijk hebben 76 teams van gerenommeerde academische en industriële instellingen zich geregistreerd en zijn meer dan 40 geldige inzendingen (van meer dan 1200) opgenomen in onze ranglijsten. Onze datasets, codesets (meer dan 40 baselines en meer dan 15 methoden van deelnemers) en ranglijsten zijn openbaar beschikbaar op de MARS2-workshopwebsite en onze GitHub-organisatiepagina https://github.com/mars2workshop/, waar onze updates en aankondigingen van aanstaande evenementen continu worden verstrekt.
Grote taalmodellen (LLMs) hebben vaak moeite met contextgetrouwheid en produceren inconsistente antwoorden bij het beantwoorden van vragen op basis van verstrekte informatie. Bestaande benaderingen vertrouwen ofwel op kostbare supervised fine-tuning om bewijs achteraf te genereren, of trainen modellen om webzoekopdrachten uit te voeren zonder noodzakelijkerwijs het gebruik van de gegeven context te verbeteren. Wij stellen CARE voor, een innovatief native retrieval-augmented reasoning framework dat LLMs leert om expliciet in-context bewijs te integreren in hun redeneerproces met de eigen retrieval-mogelijkheden van het model. Onze methode vereist beperkte gelabelde bewijsdata terwijl het zowel de nauwkeurigheid van het ophalen als de prestaties van antwoordgeneratie aanzienlijk verbetert door strategisch opgehaalde in-context tokens in de redeneerketen. Uitgebreide experimenten op meerdere real-world en counterfactuele QA-benchmarks tonen aan dat onze aanzienlijk beter presteert dan supervised fine-tuning, traditionele retrieval-augmented generatiemethoden en externe retrieval-oplossingen. Dit werk vertegenwoordigt een fundamentele vooruitgang in het nauwkeuriger, betrouwbaarder en efficiënter maken van LLMs voor kennisintensieve taken.
Wij stellen LLM-Interleaved (LLM-I) voor, een flexibel en dynamisch raamwerk dat interleaved beeld-tekstgeneratie herformuleert als een gereedschapsgebruiksprobleem. LLM-I is ontworpen om de "één-gereedschap" beperking van huidige geünificeerde modellen te overwinnen, die beperkt zijn tot synthetische beeldvorming en moeite hebben met taken die feitelijke onderbouwing of programmatische precisie vereisen. Ons raamwerk stelt een centrale LLM- of MLLM-agent in staat om op intelligente wijze een diverse toolkit van gespecialiseerde visuele gereedschappen te orkestreren, waaronder online beeldzoekopdrachten, diffusiegebaseerde generatie, code-uitvoering en beeldbewerking. De agent wordt getraind om deze gereedschappen vaardig te selecteren en toe te passen via een Reinforcement Learning (RL) raamwerk dat beschikt over een hybride beloningssysteem dat regelgebaseerde logica combineert met beoordelingen van LLM- en MLLM-evaluatoren. Getraind op een diverse nieuwe dataset met vier verschillende modelbackbones, toont LLM-I state-of-the-art prestaties, waarbij het bestaande methoden met een grote marge overtreft op vier benchmarks. We introduceren ook een nieuwe testtijd-schaalstrategie die verdere prestatieverbeteringen biedt. Projectpagina: https://github.com/ByteDance-BandAI/LLM-I.
Generatief machinaal leren biedt nieuwe mogelijkheden om complexe dynamiek van het aardesysteem beter te begrijpen. Recente op diffusie gebaseerde methoden pakken spectrale biases aan en verbeteren ensemblekalibratie in weersvoorspellingen in vergelijking met deterministische methoden, maar hebben tot nu toe moeite gehad om stabiel te schalen op hoge resoluties. We introduceren AERIS, een Swin-diffusie transformer op pixelniveau met 1,3 tot 80B parameters om deze kloof te overbruggen, en SWiPe, een generaliseerbare techniek die vensterparallelisme combineert met sequentie- en pijplijnparallelisme om venstergebaseerde transformers te verdelen zonder extra communicatiekosten of een verhoogde globale batchgrootte. Op Aurora (10.080 nodes) behoudt AERIS 10,21 ExaFLOPS (gemengde precisie) en een piekprestatie van 11,21 ExaFLOPS met een patchgrootte van 1 keer 1 op de 0,25{\deg} ERA5 dataset, waarbij een zwakke schaalefficiëntie van 95,5% en een sterke schaalefficiëntie van 81,6% wordt bereikt. AERIS overtreft de IFS ENS en blijft stabiel op seizoensschalen tot 90 dagen, wat het potentieel van diffusiemodellen met miljarden parameters voor weers- en klimaatvoorspelling benadrukt.
Recente beeldgeneratieve modellen vangen de beeldverdeling typisch op in een vooraf geconstrueerde latente ruimte, waarbij ze vertrouwen op een bevroren beeldtokenizer. Er bestaat echter een aanzienlijk verschil tussen de reconstructie- en generatieverdeling, waarbij huidige tokenizers alleen prioriteit geven aan de reconstructietaak die plaatsvindt vóór de generatieve training, zonder rekening te houden met de generatiefouten tijdens het bemonsteren. In dit artikel analyseren we uitgebreid de reden voor dit verschil in een discrete latente ruimte, en stellen we op basis daarvan een nieuw tokenizer-trainingsschema voor, bestaande uit zowel hoofdtraining als nabehandeling, gericht op het verbeteren van de latente ruimte constructie en decodering respectievelijk. Tijdens de hoofdtraining wordt een latente verstoringsstrategie voorgesteld om bemonsteringsruis te simuleren, \ie, de onverwachte tokens die worden gegenereerd tijdens generatieve inferentie. Specifiek stellen we een plug-and-play tokenizer-trainingsschema voor, dat de robuustheid van de tokenizer aanzienlijk verbetert, waardoor de generatiekwaliteit en convergentiesnelheid worden verbeterd, en een nieuwe tokenizer-evaluatiemetriek, \ie, pFID, die de prestaties van de tokenizer succesvol correleert aan de generatiekwaliteit. Tijdens de nabehandeling optimaliseren we de tokenizer-decoder verder met betrekking tot een goed getraind generatief model om het verschil in verdeling tussen gegenereerde en gereconstrueerde tokens te verminderen. Met een sim400M-generator behaalt een discrete tokenizer die is getraind met onze voorgestelde hoofdtraining een opmerkelijke 1.60 gFID en behaalt verder 1.36 gFID met de aanvullende nabehandeling. Verdere experimenten worden uitgevoerd om de effectiviteit van onze nabehandelingsstrategie breed te valideren op kant-en-klare discrete en continue tokenizers, gekoppeld aan autoregressieve en diffusiegebaseerde generatoren.
We introduceren SteeringControl, een benchmark voor het evalueren van representatiesturingsmethoden op kernuitlijningsdoelen—vooroordelen, schadelijke generatie en hallucinatie—en hun effecten op secundair gedrag zoals slaafs gedrag en gezond verstand moraliteit. Terwijl eerder uitlijningswerk vaak waarheidsgetrouwheid of redeneervermogen benadrukt om de neveneffecten van representatiesturing te demonstreren, ontdekken we dat er veel onontgonnen afwegingen zijn die nog niet op een systematische manier zijn begrepen. We verzamelen een dataset van veiligheidsgerelateerd primair en secundair gedrag om de effectiviteit van sturing en gedragsverstrengeling te evalueren, gericht op vijf populaire sturingsmethoden. Om dit mogelijk te maken, ontwikkelen we een modulair sturingsraamwerk gebaseerd op unieke componenten die dienen als bouwstenen voor veel bestaande methoden. Onze resultaten op Qwen-2.5-7B en Llama-3.1-8B tonen aan dat sterke sturingsprestaties afhankelijk zijn van de specifieke combinatie van sturingsmethode, model en doelgedrag, en dat ernstige conceptverstrengeling kan ontstaan door slechte combinaties van deze drie. We geven onze code vrij hier: https://github.com/wang-research-lab/SteeringControl.git.
Variationale kwantumcircuits (VQCs) staan centraal in kwantummachinelearning, terwijl recente vooruitgang in Kolmogorov-Arnold-netwerken (KANs) de kracht van leerbare activatiefuncties benadrukt. Wij verenigen deze richtingen door de introductie van kwantumvariationale activatiefuncties (QVAFs), gerealiseerd via single-qubit data re-uploading circuits genaamd DatA Re-Uploading ActivatioNs (DARUANs). We tonen aan dat DARUAN met trainbare gewichten in data preprocessing een exponentieel groeiend frequentiespectrum heeft bij dataherhalingen, wat een exponentiële reductie in parameteromvang mogelijk maakt in vergelijking met Fourier-gebaseerde activaties zonder verlies van expressiviteit. Het inbedden van DARUAN in KANs resulteert in kwantumgeïnspireerde KANs (QKANs), die de interpreteerbaarheid van KANs behouden terwijl hun parameter efficiëntie, expressiviteit en generalisatie worden verbeterd. We introduceren verder twee nieuwe technieken om schaalbaarheid, haalbaarheid en computationele efficiëntie te verbeteren, zoals laaguitbreiding en hybride QKANs (HQKANs) als drop-in vervangingen van multi-layer perceptrons (MLPs) voor feedforward-netwerken in grootschalige modellen. We bieden theoretische analyse en uitgebreide experimenten over functieregressie, beeldclassificatie en autoregressieve generatieve taalmodellering, die de efficiëntie en schaalbaarheid van QKANs aantonen. DARUANs en QKANs bieden een veelbelovende richting voor het bevorderen van kwantummachinelearning op zowel noisy intermediate-scale quantum (NISQ) hardware als klassieke kwantumsimulatoren.
Wij stellen een pijplijn voor om dynamische 3D rookassets te extraheren en te reconstrueren uit een enkele video die in de praktijk is opgenomen, en deze verder te integreren met interactieve simulatie voor rookontwerp en -bewerking. Recente ontwikkelingen in 3D-visie hebben het reconstrueren en renderen van vloeistofdynamica aanzienlijk verbeterd, wat realistische en temporeel consistente viewsynthese ondersteunt. Huidige reconstructies van vloeistoffen zijn echter sterk afhankelijk van zorgvuldig gecontroleerde laboratoriumomgevingen, terwijl real-world video's die in de praktijk zijn vastgelegd grotendeels onderbelicht blijven. Wij identificeren drie belangrijke uitdagingen bij het reconstrueren van rook in real-world video's en ontwerpen gerichte technieken, waaronder rookextractie met achtergrondverwijdering, initialisatie van rookdeeltjes en cameraposities, en het afleiden van multi-view video's. Onze methode overtreft niet alleen eerdere reconstructie- en generatiemethoden met hoogwaardige rookreconstructies (+2,22 gemiddelde PSNR op real-world video's), maar maakt ook diverse en realistische bewerkingen van vloeistofdynamica mogelijk door onze rookassets te simuleren. Wij bieden onze modellen, data en 4D rookassets aan op [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke).
Naarmate grote taalmodellen (LLMs) een integraal onderdeel worden van multi-agent systemen, ontstaan er nieuwe privacyrisico's die verder gaan dan memorisatie, directe inferentie of evaluaties in één enkele interactie. In het bijzonder kunnen schijnbaar onschuldige reacties, wanneer ze worden samengesteld over meerdere interacties, cumulatief kwaadwillenden in staat stellen gevoelige informatie te achterhalen, een fenomeen dat wij compositorische privacylekkage noemen. Wij presenteren de eerste systematische studie van dergelijke compositorische privacylekkages en mogelijke mitigatiemethoden in multi-agent LLM-systemen. Eerst ontwikkelen we een raamwerk dat modelleert hoe aanvullende kennis en interacties tussen agents gezamenlijk privacyrisico's versterken, zelfs wanneer elke reactie op zichzelf onschadelijk is. Vervolgens stellen we ter mitigatie hiervan twee verdedigingsstrategieën voor en evalueren deze: (1) Theory-of-Mind verdediging (ToM), waarbij verdedigende agents de intentie van een vragensteller afleiden door te anticiperen op hoe hun uitvoer door kwaadwillenden kan worden misbruikt, en (2) Collaboratieve Consensus Verdediging (CoDef), waarbij reagerende agents samenwerken met peers die stemmen op basis van een gedeelde geaggregeerde staat om de verspreiding van gevoelige informatie te beperken. Cruciaal is dat we onze evaluatie in balans houden tussen composities die gevoelige informatie blootleggen en composities die onschadelijke inferenties opleveren. Onze experimenten kwantificeren hoe deze verdedigingsstrategieën verschillen in het balanceren van de privacy-nuttigheid trade-off. Wij constateren dat hoewel chain-of-thought alleen beperkte bescherming biedt tegen lekkage (~39% gevoelige blokkering), onze ToM-verdediging de blokkering van gevoelige queries aanzienlijk verbetert (tot 97%) maar het succes van onschadelijke taken kan verminderen. CoDef bereikt de beste balans, met het hoogste Gebalanceerde Resultaat (79,8%), wat het voordeel benadrukt van het combineren van expliciete redenering met samenwerking tussen verdedigers. Samen onthullen onze resultaten een nieuwe klasse van risico's in collaboratieve LLM-implementaties en bieden ze actiegerichte inzichten voor het ontwerpen van beschermingsmaatregelen tegen compositorische, context-gestuurde privacylekkage.
Gepersonaliseerd financieel advies vereist aandacht voor gebruikersdoelen, beperkingen, risicotolerantie en jurisdictie. Eerder werk met grote taalmodelen (LLM's) richtte zich op ondersteuningssystemen voor beleggers en financieel planners. Tegelijkertijd onderzoeken talrijke recente studies bredere persoonlijke financiële taken, zoals budgetteren, schuldbeheer, pensioen- en estateplanning, via agent-gebaseerde pijplijnen die hoge onderhoudskosten met zich meebrengen en minder dan 25% van hun verwachte financiële rendement opleveren. In deze studie introduceren we een nieuw en reproduceerbaar raamwerk dat relevante financiële context integreert met gedragsfinanciële studies om supervisiedata te construeren voor end-to-end adviseurs. Met dit raamwerk creëren we een 19k-sample redeneerdataset en voeren we een uitgebreide fine-tuning uit van het Qwen-3-8B-model op deze dataset. Door middel van een held-out testset en een blind LLM-jurystudie tonen we aan dat, door zorgvuldige datacuratie en gedragsintegratie, ons 8B-model prestaties bereikt die vergelijkbaar zijn met aanzienlijk grotere baseline-modellen (14-32B parameters) op het gebied van feitelijke nauwkeurigheid, vlotheid en personalisatie, terwijl de kosten 80% lager zijn dan die van de grotere tegenhangers.
Dit onderzoek presenteert een systematische vergelijking tussen hybride quantum-klassieke neurale netwerken en puur klassieke modellen over drie benchmarkdatasets (MNIST, CIFAR100 en STL10) om hun prestaties, efficiëntie en robuustheid te evalueren. De hybride modellen integreren geparametriseerde quantumcircuits met klassieke deep learning-architecturen, terwijl de klassieke tegenhangers conventionele convolutionele neurale netwerken (CNN's) gebruiken. Experimenten werden uitgevoerd over 50 trainingsepochs voor elke dataset, met evaluaties op validatienauwkeurigheid, testnauwkeurigheid, trainingstijd, gebruik van rekenbronnen en robuustheid tegen adversarial attacks (getest met epsilon=0.1 verstoringen). Belangrijke bevindingen tonen aan dat hybride modellen consistent beter presteren dan klassieke modellen in uiteindelijke nauwkeurigheid, met {99,38\% (MNIST), 41,69\% (CIFAR100) en 74,05\% (STL10) validatienauwkeurigheid, vergeleken met klassieke benchmarks van respectievelijk 98,21\%, 32,25\% en 63,76\%. Opmerkelijk is dat het hybride voordeel schaalt met de complexiteit van de dataset, met de meest significante winsten op CIFAR100 (+9,44\%) en STL10 (+10,29\%). Hybride modellen trainen ook 5–12 keer sneller (bijv. 21,23s vs. 108,44s per epoch op MNIST) en gebruiken 6–32\% minder parameters, terwijl ze superieure generalisatie naar onbekende testdata behouden. Robuustheidstests tegen adversarial attacks laten zien dat hybride modellen aanzienlijk veerkrachtiger zijn op eenvoudigere datasets (bijv. 45,27\% robuuste nauwkeurigheid op MNIST vs. 10,80\% voor klassieke modellen), maar vergelijkbare kwetsbaarheid vertonen op complexe datasets zoals CIFAR100 (ongeveer 1\% robuustheid voor beide). Analyse van resource-efficiëntie geeft aan dat hybride modellen minder geheugen verbruiken (4–5GB vs. 5–6GB voor klassieke modellen) en een lagere CPU-belasting hebben (9,5\% vs. 23,2\% gemiddeld). Deze resultaten suggereren dat hybride quantum-klassieke architecturen overtuigende voordelen bieden in nauwkeurigheid, trainings efficiëntie en parameterschaalbaarheid, met name voor complexe visietaken.