Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Story2Board, een trainingsvrij raamwerk voor het genereren van expressieve storyboards vanuit natuurlijke taal. Bestaande methodes richten zich nauw op subjectidentiteit, waarbij belangrijke aspecten van visueel vertellen zoals ruimtelijke compositie, achtergrondontwikkeling en narratieve timing over het hoofd worden gezien. Om dit aan te pakken, introduceren we een lichtgewicht consistentieraamwerk dat bestaat uit twee componenten: Latent Panel Anchoring, dat een gedeeld personagereferentie over panelen behoudt, en Reciprocal Attention Value Mixing, dat visuele kenmerken zachtjes mengt tussen tokenparen met sterke wederzijdse aandacht. Samen verbeteren deze mechanismen de samenhang zonder architectuurwijzigingen of fine-tuning, waardoor state-of-the-art diffusiemodellen visueel diverse maar consistente storyboards kunnen genereren. Om de generatie te structureren, gebruiken we een kant-en-klaar taalmodel om vrije verhalen om te zetten in gegronde paneelprompts. Voor evaluatie stellen we de Rich Storyboard Benchmark voor, een suite van open-domein verhalen ontworpen om lay-outdiversiteit en achtergrond-gegrond vertellen te beoordelen, naast consistentie. We introduceren ook een nieuwe Scene Diversity-metric die ruimtelijke en posevariatie over storyboards kwantificeert. Onze kwalitatieve en kwantitatieve resultaten, evenals een gebruikersstudie, tonen aan dat Story2Board dynamischer, samenhangender en narratief boeiender storyboards produceert dan bestaande baselines.
We introduceren M3-Agent, een innovatief multimodaal agentframework uitgerust met langetermijngeheugen. Net als mensen kan M3-Agent real-time visuele en auditieve input verwerken om zijn langetermijngeheugen op te bouwen en bij te werken. Naast episodisch geheugen ontwikkelt het ook semantisch geheugen, waardoor het wereldkennis kan accumuleren over tijd. Het geheugen is georganiseerd in een entiteitsgerichte, multimodale indeling, wat een dieper en consistenter begrip van de omgeving mogelijk maakt. Bij een gegeven instructie voert M3-Agent autonoom meerronde, iteratieve redeneringen uit en haalt relevante informatie uit het geheugen om de taak te voltooien. Om de effectiviteit van het geheugen en geheugengebaseerd redeneren in multimodale agents te evalueren, ontwikkelen we M3-Bench, een nieuwe benchmark voor vraagbeantwoording op lange video’s. M3-Bench bestaat uit 100 nieuw opgenomen real-world video’s vastgelegd vanuit het perspectief van een robot (M3-Bench-robot) en 929 web-gebaseerde video’s uit diverse scenario’s (M3-Bench-web). We annoteren vraag-antwoordparen die zijn ontworpen om sleutelvaardigheden te testen die essentieel zijn voor agenttoepassingen, zoals menselijk begrip, algemene kennisextractie en cross-modale redenering. Experimentele resultaten tonen aan dat M3-Agent, getraind via reinforcement learning, de sterkste baseline overtreft, een prompting agent die Gemini-1.5-pro en GPT-4o gebruikt, met respectievelijk 6,7%, 7,7% en 5,3% hogere nauwkeurigheid op M3-Bench-robot, M3-Bench-web en VideoMME-long. Ons werk brengt multimodale agents dichter bij een meer menselijk langetermijngeheugen en biedt inzichten in hun praktische ontwerp. Model, code en data zijn beschikbaar op https://github.com/bytedance-seed/m3-agent.
Grote taalmodellen (LLM's), met name expliciete lange keten-van-gedachte (CoT) redeneermodellen zoals DeepSeek-R1 en QWQ, hebben krachtige redeneervaardigheden getoond en indrukwekkende prestaties geleverd in gezond verstand redeneren en wiskundige inferentie. Ondanks hun effectiviteit worden lange-CoT-redeneermodellen vaak bekritiseerd vanwege hun beperkte vermogen en lage efficiëntie in kennisintensieve domeinen zoals molecuulontdekking. Succes op dit gebied vereist een nauwkeurig begrip van domeinkennis, waaronder moleculaire structuren en chemische principes, wat een uitdaging is vanwege de inherente complexiteit van moleculaire data en de schaarste aan hoogwaardige expertannotaties. Om deze kloof te overbruggen, introduceren we Mol-R1, een nieuw framework ontworpen om de verklaarbaarheid en redeneerprestaties van R1-achtige expliciete lange-CoT-redeneer-LLM's in tekstgebaseerde molecuulgeneratie te verbeteren. Onze aanpak begint met een hoogwaardig redeneerdataset, samengesteld via Prior Regulation via In-context Distillation (PRID), een toegewijde distillatiestrategie om effectief gepaarde redeneersporen te genereren die worden geleid door voorafgaande regulaties. Hierop voortbouwend introduceren we MoIA, Molecular Iterative Adaptation, een verfijnde trainingsstrategie die iteratief Supervised Fine-tuning (SFT) combineert met Reinforced Policy Optimization (RPO), afgestemd om de redeneerprestaties van R1-achtige redeneermodellen voor molecuulontdekking te verbeteren. Ten slotte onderzoeken we de prestaties van Mol-R1 in de tekstgebaseerde molecuulredeneergeneratietaak, waarbij superieure prestaties worden getoond ten opzichte van bestaande baseline-modellen.
Het genereren van hoogwaardige menselijke video's die overeenkomen met door de gebruiker gespecificeerde identiteiten is belangrijk maar uitdagend op het gebied van generatieve AI. Bestaande methoden zijn vaak afhankelijk van een overmatig aantal trainingsparameters en missen compatibiliteit met andere AIGC-tools. In dit artikel stellen we Stand-In voor, een lichtgewicht en plug-and-play raamwerk voor identiteitsbehoud in videogeneratie. Specifiek introduceren we een conditionele beeldtak in het vooraf getrainde videogeneratiemodel. Identiteitscontrole wordt bereikt door middel van beperkte zelf-attenties met conditionele positie-mapping, en kan snel worden geleerd met slechts 2000 paren. Ondanks het toevoegen en trainen van slechts sim1\% extra parameters, behaalt ons raamwerk uitstekende resultaten op het gebied van videokwaliteit en identiteitsbehoud, en overtreft het andere methoden die volledige parameters trainen. Bovendien kan ons raamwerk naadloos worden geïntegreerd voor andere taken, zoals onderwerpgedreven videogeneratie, pose-referentie videogeneratie, stilisering en gezichtsverwisseling.
De snelle vooruitgang van grote taalmodellen (LLMs) heeft intelligente agenten in staat gesteld om diverse externe tools te benutten voor het oplossen van complexe problemen in de echte wereld. Naarmate agenten echter steeds meer afhankelijk worden van meerdere tools, ontstaan er nieuwe uitdagingen: uitgebreide contexten uit verschillende bronnen en ruis of irrelevante tooloutputs kunnen de betrouwbaarheid en nauwkeurigheid van het systeem ondermijnen. Deze uitdagingen onderstrepen de noodzaak voor verbeterde stabiliteit in agentgebaseerde systemen. Om dit aan te pakken, introduceren we dynamische supervisie en manoeuvreermechanismen, waarmee we een robuust en dynamisch Multi-Agent Systeem (MAS) architectuur bouwen binnen het AWorld-framework. In onze aanpak roept de Uitvoeringsagent de Bewakingsagent op bij kritieke stappen om het redeneerproces te verifiëren en te corrigeren, waardoor fouten als gevolg van ruis effectief worden verminderd en de robuustheid van probleemoplossing wordt versterkt. Uitgebreide experimenten op de GAIA-testdataset laten zien dat ons dynamische manoeuvreermechanisme zowel de effectiviteit als de stabiliteit van oplossingen aanzienlijk verbetert, en daarbij single-agent systemen (SAS) en standaard tool-augmented systemen overtreft. Als resultaat behaalde ons dynamische MAS-systeem de eerste plaats onder de open-source projecten op het prestigieuze GAIA-leaderboard. Deze bevindingen benadrukken de praktische waarde van collaboratieve agentrollen bij het ontwikkelen van betrouwbaardere en vertrouwenswaardigere intelligente systemen.
Diffusion Large Language Models (dLLMs) zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve (AR) LLMs voor tekstgeneratie, met de potentie om meerdere tokens in één iteratie te decoderen. Echter, geen van de bestaande open-source dLLMs heeft een superieure inferentiesnelheid bereikt in vergelijking met AR LLMs van vergelijkbare grootte. Dit artikel doorbreekt deze barrière op basis van een eenvoudige en effectieve strategie genaamd discrete diffusion forcing (D2F). D2F voorziet dLLMs van twee belangrijke mogelijkheden: (1) bloksgewijze autoregressieve generatie om KV-cache-gebruik mogelijk te maken; (2) voorspelling van volgende tokens zonder dat de voltooiing van voorgaande blokken vereist is voor inter-blok parallelle decodering. Op deze manier worden de standaard dLLMs omgevormd tot een AR-diffusie hybride paradigma voor efficiënte inferentie. D2F kan worden geïmplementeerd met een asymmetrisch distillatieproces gebaseerd op vooraf getrainde dLLMs. We stellen verder een gepipelineerd parallel decodering-algoritme voor, dat een afweging mogelijk maakt tussen efficiëntie en effectiviteit. Empirisch gezien behalen D2F dLLMs meer dan 2,5 keer de inferentiesnelheid van LLaMA3 en Qwen2.5 op GSM8K. In vergelijking met standaard dLLMs zoals LLaDA en Dream, kan de versnelling meer dan 50 keer zijn terwijl de uitvoerkwaliteit vergelijkbaar blijft. De code is beschikbaar op https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
Onlangs heeft GPT-4o aanzienlijke aandacht gekregen vanwege zijn sterke prestaties in beeldgeneratie, hoewel open-source-modellen nog achterblijven. Verschillende studies hebben het destilleren van beeldgegevens uit GPT-4o onderzocht om open-source-modellen te verbeteren, waarbij opmerkelijke vooruitgang is geboekt. Een belangrijke vraag blijft echter: aangezien real-world beelddatasets al een natuurlijke bron van hoogwaardige gegevens vormen, waarom zouden we dan synthetische gegevens van GPT-4o gebruiken? In dit werk identificeren we twee belangrijke voordelen van synthetische beelden. Ten eerste kunnen ze zeldzame scenario's in real-world datasets aanvullen, zoals surrealistische fantasie of multi-referentie beeldgeneratie, die vaak voorkomen in gebruikersquery's. Ten tweede bieden ze schone en controleerbare supervisie. Real-world gegevens bevatten vaak complexe achtergrondruis en inherente misalignering tussen tekstbeschrijvingen en beeldinhoud, terwijl synthetische beelden zuivere achtergronden en lange-staart supervisiesignalen bieden, wat een nauwkeurigere tekst-naar-beeld alignering vergemakkelijkt. Op basis van deze inzichten introduceren we Echo-4o-Image, een synthetische dataset op schaal van 180K gegenereerd door GPT-4o, die de kracht van synthetische beeldgegevens benut om blinde vlekken in real-world dekking aan te pakken. Met behulp van deze dataset fine-tunen we het geünificeerde multimodale generatie-basismodel Bagel om Echo-4o te verkrijgen. Daarnaast stellen we twee nieuwe evaluatiebenchmarks voor voor een nauwkeurigere en uitdagendere beoordeling van beeldgeneratiecapaciteiten: GenEval++, dat de instructiecomplexiteit verhoogt om scoresaturatie te verminderen, en Imagine-Bench, dat zich richt op het evalueren van zowel het begrip als de generatie van fantasierijke inhoud. Echo-4o toont sterke prestaties op standaardbenchmarks. Bovendien levert de toepassing van Echo-4o-Image op andere foundation-modellen (bijv. OmniGen2, BLIP3-o) consistente prestatieverbeteringen op over meerdere metrieken, wat de sterke overdraagbaarheid van de dataset benadrukt.
Alignmethodologieën zijn naar voren gekomen als een cruciaal pad voor het verbeteren van de aligneringsmogelijkheden van taalmodelen. Hoewel SFT (supervised fine-tuning) convergentie versnelt door directe interventie op token-niveau verlies, wordt de effectiviteit ervan beperkt door offline beleidstrajecten. Daarentegen vergemakkelijkt RL (reinforcement learning) exploratieve beleidsoptimalisatie, maar lijdt het onder lage steekproefefficiëntie en een strikte afhankelijkheid van hoogwaardige basismodellen. Om deze dubbele uitdagingen aan te pakken, stellen we GRAO (Group Relative Alignment Optimization) voor, een uniform raamwerk dat de respectieve sterke punten van SFT en RL combineert door drie belangrijke innovaties: 1) Een multi-steekproefgeneratiestrategie die vergelijkende kwaliteitsbeoordeling mogelijk maakt via beloningsfeedback; 2) Een nieuwe formulering van Group Direct Alignment Loss die gebruikmaakt van intra-groep relatieve voordeelweging; 3) Referentiebewuste parameterupdates geleid door paarsgewijze voorkeursdynamiek. Onze theoretische analyse stelt de convergentiegaranties en steekproefefficiëntievoordelen van GRAO vast ten opzichte van conventionele benaderingen. Uitgebreide evaluaties over complexe menselijke aligneringstaken demonstreren de superieure prestaties van GRAO, met relatieve verbeteringen van respectievelijk 57,70%, 17,65%, 7,95% en 5,18% ten opzichte van SFT, DPO, PPO en GRPO-baselines. Dit werk biedt zowel een theoretisch onderbouwd aligneringsraamwerk als empirisch bewijs voor efficiënte capaciteitsevolutie in taalmodelen.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in redeneertaken, waarbij reinforcement learning (RL) een sleutelalgoritme is voor het verbeteren van hun redeneervermogen. Momenteel zijn er twee hoofdstromen in beloningsparadigma's: modelgebaseerde beloningen en regelgebaseerde beloningen. Beide benaderingen hebben echter beperkingen: regelgebaseerde beloningen missen robuustheid, terwijl modelgebaseerde beloningen kwetsbaar zijn voor beloningsmanipulatie. Om deze problemen aan te pakken, stellen we Cooper (Co-optimizing Policy Model and Reward Model) voor, een RL-framework dat zowel het beleidsmodel als het beloningsmodel gezamenlijk optimaliseert. Cooper maakt gebruik van de hoge precisie van regelgebaseerde beloningen bij het identificeren van correcte antwoorden en construeert en selecteert dynamisch positief-negatieve voorbeeldparen voor het voortgezette trainen van het beloningsmodel. Dit ontwerp verhoogt de robuustheid en vermindert het risico op beloningsmanipulatie. Om Cooper verder te ondersteunen, introduceren we een hybride annotatiestrategie die efficiënt en nauwkeurig trainingsgegevens genereert voor het beloningsmodel. We stellen ook een referentiegebaseerd beloningsmodelparadigma voor, waarbij het beloningsmodel een referentieantwoord als invoer neemt. Op basis van dit ontwerp trainen we een beloningsmodel genaamd VerifyRM, dat een hogere nauwkeurigheid behaalt op VerifyBench in vergelijking met andere modellen van dezelfde grootte. We voeren reinforcement learning uit met zowel VerifyRM als Cooper. Onze experimenten tonen aan dat Cooper niet alleen beloningsmanipulatie vermindert, maar ook de end-to-end RL-prestaties verbetert, bijvoorbeeld met een winst van 0,54% in gemiddelde nauwkeurigheid op Qwen2.5-1.5B-Instruct. Onze bevindingen laten zien dat het dynamisch bijwerken van het beloningsmodel een effectieve manier is om beloningsmanipulatie tegen te gaan, en bieden een referentie voor het beter integreren van beloningsmodellen in RL.
Multimodale Large Language Models (MLLMs) hebben opmerkelijke capaciteiten getoond in visueel wiskundig redeneren op verschillende bestaande benchmarks. Deze benchmarks zijn echter voornamelijk gebaseerd op schone of bewerkte multimodale invoer, zonder de afbeeldingen te incorporeren die worden aangeleverd door gebruikers uit de praktijk van het basis- en voortgezet onderwijs (K-12). Om dit gat te dichten, introduceren we MathReal, een zorgvuldig samengestelde dataset bestaande uit 2.000 wiskundige vragen met afbeeldingen die zijn vastgelegd met handheld mobiele apparaten in authentieke scenario's. Elke vraag is een afbeelding, die zowel de vraagtekst als het visuele element bevat. We classificeren de echte afbeeldingen systematisch in drie primaire categorieën: kwaliteitsvermindering van de afbeelding, variatie in perspectief en interferentie door irrelevante inhoud, die verder worden onderverdeeld in 14 subcategorieën. Daarnaast beslaat MathReal vijf kernkennis- en vaardigheidscategorieën, die drie vraagtypen omvatten en zijn verdeeld in drie moeilijkheidsniveaus. Om de multimodale wiskundige redeneervaardigheden van state-of-the-art MLLMs in realistische scenario's uitgebreid te evalueren, ontwerpen we zes experimentele instellingen die een systematische analyse van hun prestaties mogelijk maken. Door uitgebreide experimenten ontdekken we dat de probleemoplossende vaardigheden van bestaande MLLMs aanzienlijk worden uitgedaagd in realistische educatieve contexten. Op basis hiervan voeren we een grondige analyse uit van hun prestaties en foutpatronen, waarbij we inzicht geven in hun herkenning-, begrips- en redeneervaardigheden en richtingen voor toekomstige verbeteringen schetsen. Data en code: https://github.com/junfeng0288/MathReal.
Het nieuwe paradigma van schalen tijdens testtijd heeft opmerkelijke doorbraken opgeleverd in grote taalmodelen (LLM's) (bijv. redeneermodellen) en in generatieve visuele modellen, waardoor modellen tijdens inferentie extra rekenkracht kunnen toewijzen om steeds complexere problemen effectief aan te pakken. Ondanks de verbeteringen die deze aanpak biedt, ontstaat een belangrijke beperking: de aanzienlijke toename in rekentijd maakt het proces traag en onpraktisch voor veel toepassingen. Gezien het succes van dit paradigma en het groeiende gebruik ervan, streven we ernaar de voordelen ervan te behouden terwijl we de inferentie-overhead vermijden. In dit werk stellen we een oplossing voor voor het kritieke probleem van het integreren van kennis over schalen tijdens testtijd in een model na de training. Specifiek vervangen we beloningsgestuurde optimalisatie van ruis tijdens testtijd in diffusiemodellen door een Noise Hypernetwork dat de initiële invoerruis moduleert. We stellen een theoretisch onderbouwd raamwerk voor voor het leren van deze beloningsgeoriënteerde verdeling voor gedistilleerde generatoren, via een hanteerbaar doel in de ruisruimte dat trouw blijft aan het basismodel terwijl het optimaliseert voor gewenste eigenschappen. We tonen aan dat onze aanpak een aanzienlijk deel van de kwaliteitswinst van expliciete optimalisatie tijdens testtijd herstelt tegen een fractie van de rekenkosten. Code is beschikbaar op https://github.com/ExplainableML/HyperNoise.
Grote taalmodellen die zijn getraind met reinforcement learning met verifieerbare beloningen hebben de neiging om nauwkeurigheid in te ruilen voor lengte—ze blazen de lengte van antwoorden op om winst in nauwkeurigheid te behalen. Hoewel langere antwoorden gerechtvaardigd kunnen zijn voor moeilijkere problemen, zijn veel tokens slechts "vulling": repetitieve, omslachtige tekst die geen echte vooruitgang boekt. We introduceren GFPO (Group Filtered Policy Optimization), dat deze lengte-explosie beteugelt door tijdens de training grotere groepen per probleem te bemonsteren en antwoorden te filteren om op te trainen op basis van twee belangrijke metrieken: (1) antwoordlengte en (2) token-efficiëntie: de beloning per token-ratio. Door tijdens de training meer te bemonsteren, leren we modellen om tijdens inferentie minder te denken. Op het Phi-4-reasoning-model reduceert GFPO de lengte-inflatie van GRPO met 46-71% over uitdagende STEM- en coderingsbenchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) terwijl de nauwkeurigheid behouden blijft. Optimaliseren voor beloning per token verhoogt de reductie in lengte-inflatie verder tot 71-85%. We stellen ook Adaptive Difficulty GFPO voor, dat dynamisch meer trainingsbronnen toewijst aan moeilijkere problemen op basis van realtime moeilijkheidsinschattingen, waardoor de balans tussen computationele efficiëntie en nauwkeurigheid verbetert, vooral bij moeilijke vragen. GFPO laat zien dat verhoogde rekentijd tijdens de training direct vertaalt naar verminderde rekentijd tijdens de test—een eenvoudig maar effectief compromis voor efficiënt redeneren.
De afgelopen jaren is er een groeiende interesse en adoptie van LLM's (Large Language Models) te zien, waarbij muTransfer een belangrijke techniek is geworden voor het afstemmen van hyperparameters bij grootschalige training. Tegelijkertijd is Mixture-of-Experts (MoE) naar voren gekomen als een toonaangevende architectuur in extreem grote modellen. Het snijvlak van deze twee ontwikkelingen is echter nog onontgonnen gebleven. In dit werk leiden we een mu-Parameterisatie (muP) af voor MoE, waarbij we theoretische garanties bieden voor feature learning over verschillende modelbreedtes, zowel in de router als in de experts. We valideren onze parameterisatie empirisch en onderzoeken verder hoe het schalen van het aantal experts en de granulariteit de optimale leerrate beïnvloedt.
Vision-language models (VLMs) hebben aanzienlijke vooruitgang geboekt in taken zoals visuele verankering, waarbij ze specifieke objecten in afbeeldingen lokaliseren op basis van natuurlijke taalvragen en afbeeldingen. Echter blijven beveiligingsproblemen in visuele verankerings taken voor VLMs onderbelicht, vooral in de context van backdoor-aanvallen. In dit artikel introduceren we een nieuwe input-aware backdoor-aanvalsmethode, IAG, ontworpen om het verankeringsgedrag van VLMs te manipuleren. Deze aanval dwingt het model om een specifiek doelobject in de invoerafbeelding te verankeren, ongeacht de vraag van de gebruiker. We stellen een adaptieve triggergenerator voor die de semantische informatie van de beschrijving van het aanvalsdoel in de originele afbeelding inbedt met behulp van een tekst-conditionele U-Net, waardoor de uitdaging van open-vocabulary aanvallen wordt overwonnen. Om de stealthiness van de aanval te waarborgen, gebruiken we een reconstructieverlies om visuele discrepanties tussen vergiftigde en schone afbeeldingen te minimaliseren. Daarnaast introduceren we een uniforme methode voor het genereren van aanvalsgegevens. IAG wordt theoretisch en empirisch geëvalueerd, wat de haalbaarheid en effectiviteit ervan aantoont. Opmerkelijk is dat onze ASR@0.5 op InternVL-2.5-8B meer dan 65\% bereikt op verschillende test sets. IAG toont ook veelbelovend potentieel in het manipuleren van Ferret-7B en LlaVA-1.5-7B met een zeer kleine nauwkeurigheidsafname op schone samples. Uitgebreide specifieke experimenten, zoals een ablatiestudie en potentiële verdediging, geven ook de robuustheid en overdraagbaarheid van onze aanval aan.
Recente vooruitgang in tekst-naar-beeld (T2I) modellen heeft training-vrije regionale beeldbewerking mogelijk gemaakt door gebruik te maken van de generatieve voorkennis van foundation-modellen. Bestaande methoden hebben echter moeite om een balans te vinden tussen tekstnaleving in bewerkte gebieden, contextgetrouwheid in onbewerkte gebieden en naadloze integratie van bewerkingen. Wij introduceren CannyEdit, een nieuw training-vrij raamwerk dat deze uitdagingen aanpakt via twee belangrijke innovaties: (1) Selective Canny Control, dat de structurele begeleiding van Canny ControlNet maskeert in door de gebruiker gespecificeerde bewerkbare gebieden, terwijl details van de bronbeelden strikt worden behouden in onbewerkte gebieden via inversie-fase ControlNet-informatiebehoud. Dit maakt precieze, tekstgestuurde bewerkingen mogelijk zonder de contextuele integriteit aan te tasten. (2) Dual-Prompt Guidance, dat lokale prompts voor object-specifieke bewerkingen combineert met een globaal doelprompt om samenhangende scène-interacties te behouden. Bij real-world beeldbewerkingstaken (toevoeging, vervanging, verwijdering) presteert CannyEdit beter dan eerdere methoden zoals KV-Edit, met een verbetering van 2,93 tot 10,49 procent in de balans tussen tekstnaleving en contextgetrouwheid. Wat betreft de naadloosheid van bewerkingen, tonen gebruikersstudies aan dat slechts 49,2 procent van de algemene gebruikers en 42,0 procent van AIGC-experts de resultaten van CannyEdit als AI-bewerkt identificeerden wanneer deze werden gepaard met echte beelden zonder bewerkingen, tegenover 76,08 tot 89,09 procent voor concurrerende methoden.
Multimodale grote taalmodellen (MLLMs) hebben de integratie van visueel en tekstueel begrip aanzienlijk vooruitgeholpen. Hun vermogen om code te genereren op basis van multimodale invoer blijft echter beperkt. In dit werk introduceren we VisCodex, een uniform raamwerk dat visie- en coderings-taalmodellen naadloos samenvoegt om MLLMs te voorzien van sterke multimodale codegeneratie-mogelijkheden. Door gebruik te maken van een taakvector-gebaseerde modelmergingtechniek integreren we een state-of-the-art coderings-LLM in een robuuste visie-taal-backbone, waarbij zowel visueel begrip als geavanceerde coderingsvaardigheden behouden blijven. Om training en evaluatie te ondersteunen, introduceren we de Multimodale Coderingsdataset (MCD), een grootschalige en diverse verzameling van 598k samples, waaronder hoogwaardige HTML-code, grafiekafbeelding-code-paren, beeldverrijkte StackOverflow QA en algoritmische problemen. Daarnaast stellen we InfiBench-V voor, een nieuw en uitdagend benchmark dat specifiek is ontworpen om modellen te beoordelen op visueel rijke, real-world programmeervragen die een genuanceerd begrip van zowel tekstuele als visuele context vereisen. Uitgebreide experimenten tonen aan dat VisCodex state-of-the-art prestaties behaalt onder open-source MLLMs en in de buurt komt van propriëtaire modellen zoals GPT-4o, wat de effectiviteit van onze modelmergingstrategie en nieuwe datasets benadrukt.
Het reconstrueren van 3D-scènes met behulp van 3D Gaussian Splatting (3DGS) vanuit spaarzame views is een slecht gesteld probleem vanwege onvoldoende informatie, wat vaak resulteert in opvallende artefacten. Hoewel recente benaderingen hebben geprobeerd generatieve priors te benutten om informatie aan te vullen voor onderbeperkte regio's, hebben ze moeite om inhoud te genereren die consistent blijft met de ingevoerde observaties. Om deze uitdaging aan te pakken, stellen we GSFixer voor, een nieuw raamwerk ontworpen om de kwaliteit van 3DGS-representaties gereconstrueerd vanuit spaarzame inputs te verbeteren. De kern van onze aanpak is het referentie-geleide videorestauratiemodel, gebaseerd op een DiT-gebaseerd videodiffusiemodel getraind op gepaarde artefact 3DGS-renders en schone frames met aanvullende referentie-gebaseerde condities. Door de ingevoerde spaarzame views als referenties te beschouwen, integreert ons model zowel 2D semantische kenmerken als 3D geometrische kenmerken van referentieviews die zijn geëxtraheerd uit het visuele geometrie-fundamentmodel, waardoor de semantische samenhang en 3D-consistentie worden verbeterd bij het herstellen van artefact-nieuwe views. Bovendien, gezien het gebrek aan geschikte benchmarks voor de evaluatie van 3DGS-artefactrestauratie, presenteren we DL3DV-Res, dat artefactframes bevat die zijn gerenderd met behulp van lage kwaliteit 3DGS. Uitgebreide experimenten tonen aan dat onze GSFixer de huidige state-of-the-art methoden overtreft in 3DGS-artefactrestauratie en 3D-reconstructie vanuit spaarzame views. Projectpagina: https://github.com/GVCLab/GSFixer.
Dit artikel presenteert de eerste gedecentraliseerde methode om 6-DoF-manipulatie van een kabelgehangen last in de echte wereld mogelijk te maken met behulp van een team van Micro-Aerial Vehicles (MAV's). Onze methode maakt gebruik van multi-agent reinforcement learning (MARL) om een buitenlus-controlebeleid voor elke MAV te trainen. In tegenstelling tot state-of-the-art controllers die een gecentraliseerd schema gebruiken, vereist ons beleid geen globale staten, inter-MAV-communicatie, noch informatie over naburige MAV's. In plaats daarvan communiceren agents impliciet via alleen waarnemingen van de lastpositie, wat hoge schaalbaarheid en flexibiliteit mogelijk maakt. Het vermindert ook aanzienlijk de rekenkosten tijdens inferentietijd, wat onboard-implementatie van het beleid mogelijk maakt. Daarnaast introduceren we een nieuwe actieruimte-ontwerp voor de MAV's met behulp van lineaire versnelling en lichaamsrotatiesnelheden. Deze keuze, gecombineerd met een robuuste low-level controller, maakt een betrouwbare sim-to-real transfer mogelijk ondanks aanzienlijke onzekerheden veroorzaakt door kabelspanning tijdens dynamische 3D-beweging. We valideren onze methode in verschillende real-world experimenten, waaronder volledige positiecontrole onder onzekerheden in het lastmodel, waarbij we setpoint-trackingprestaties laten zien die vergelijkbaar zijn met de state-of-the-art gecentraliseerde methode. We demonstreren ook samenwerking tussen agents met heterogene controlebeleidsregels, en robuustheid tegen het volledige verlies van één MAV tijdens de vlucht. Video's van experimenten: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
In het snel evoluerende veld van Uitlegbare Natuurlijke Taalverwerking (NLP) zijn tekstuele uitleg, oftewel mensachtige redeneringen, cruciaal voor het verklaren van modelvoorspellingen en het verrijken van datasets met interpreteerbare labels. Traditionele benaderingen vertrouwen op menselijke annotatie, wat kostbaar, arbeidsintensief is en de schaalbaarheid belemmert. In dit werk presenteren we een geautomatiseerd raamwerk dat gebruikmaakt van meerdere state-of-the-art grote taalmodelen (LLM's) om hoogwaardige tekstuele uitleg te genereren. We beoordelen de kwaliteit van deze door LLM gegenereerde uitleg rigoureus met behulp van een uitgebreide set Natural Language Generation (NLG)-metrieken. Bovendien onderzoeken we de downstream-impact van deze uitleg op de prestaties van vooraf getrainde taalmodelen (PLM's) en LLM's bij natuurlijke taal inferentietaken op twee diverse benchmarkdatasets. Onze experimenten tonen aan dat geautomatiseerde uitleg zeer competitieve effectiviteit vertoont in vergelijking met door mensen geannoteerde uitleg bij het verbeteren van modelprestaties. Onze bevindingen onderstrepen een veelbelovende weg voor schaalbare, geautomatiseerde tekstuele uitleggeneratie op basis van LLM's voor het uitbreiden van NLP-datasets en het verbeteren van modelprestaties.
Precisie bij het verwijderen van laesies hangt af van het nauwkeurig identificeren van fijnmazige anatomische structuren. Hoewel veel methoden voor grofmazige segmentatie (CGS) succesvol zijn geweest in grootschalige segmentatie (bijv. organen), schieten ze tekort in klinische scenario's die fijnmazige segmentatie (FGS) vereisen, wat een uitdaging blijft vanwege frequente individuele variaties in kleinschalige anatomische structuren. Hoewel recente Mamba-gebaseerde modellen vooruitgang hebben geboekt in medische beeldsegmentatie, vertrouwen ze vaak op vaste, handmatig gedefinieerde scanvolgordes, wat hun aanpassingsvermogen aan individuele variaties in FGS beperkt. Om dit aan te pakken, stellen we ASM-UNet voor, een nieuwe Mamba-gebaseerde architectuur voor FGS. Het introduceert adaptieve scanscores om de scanvolgorde dynamisch te begeleiden, gegenereerd door groepsniveau gemeenschappelijkheden en individuele variaties te combineren. Experimenten op twee openbare datasets (ACDC en Synapse) en een nieuw voorgestelde uitdagende dataset voor fijnmazige segmentatie van de galwegen, genaamd BTMS, tonen aan dat ASM-UNet superieure prestaties levert in zowel CGS- als FGS-taken. Onze code en dataset zijn beschikbaar op https://github.com/YqunYang/ASM-UNet.
Membership inference-aanvallen dienen als een nuttig instrument voor het eerlijke gebruik van taalmodellen, zoals het detecteren van mogelijke inbreuk op auteursrechten en het auditen van datalekken. Veel van de huidige state-of-the-art aanvallen vereisen echter toegang tot de verborgen toestanden of waarschijnlijkheidsverdeling van modellen, wat onderzoek naar meer algemeen gebruikte, API-only modellen zoals GPT-4 belemmert. In dit werk introduceren we de N-Gram Coverage Attack, een membership inference-aanval die uitsluitend vertrouwt op tekstuitvoeren van het doelmodel, waardoor aanvallen op volledig black-box modellen mogelijk worden. We maken gebruik van de observatie dat modellen meer geneigd zijn om tekstpatronen die vaak in hun trainingsdata voorkomen te onthouden en vervolgens te genereren. Specifiek maakt de N-Gram Coverage Attack, om een voorspelling te doen over een kandidaat-lid, eerst meerdere modelgeneraties aan die gebaseerd zijn op een prefix van de kandidaat. Vervolgens gebruikt het n-gram overlap-metrics om de overeenkomsten van deze uitvoeren met het werkelijke suffix te berekenen en te aggregeren; hoge overeenkomsten duiden op waarschijnlijk lidmaatschap. We demonstreren eerst op een diverse set van bestaande benchmarks dat de N-Gram Coverage Attack andere black-box methoden overtreft, terwijl het ook indrukwekkend vergelijkbare of zelfs betere prestaties behaalt in vergelijking met state-of-the-art white-box aanvallen - ondanks dat het alleen toegang heeft tot tekstuitvoeren. Interessant genoeg vinden we dat het succespercentage van onze methode schaalt met het aanvalsrekenbudget - naarmate we het aantal sequenties dat gegenereerd wordt uit het doelmodel, gebaseerd op de prefix, verhogen, neigt de aanvalsprestatie te verbeteren. Nadat we de nauwkeurigheid van onze methode hebben geverifieerd, gebruiken we deze om voorheen niet-onderzochte gesloten OpenAI-modellen in meerdere domeinen te onderzoeken. We vinden dat recentere modellen, zoals GPT-4o, een verhoogde robuustheid tegen membership inference vertonen, wat een evoluerende trend suggereert naar verbeterde privacybeschermingen.
Grote Taalmodellen (LLMs) worden doorgaans afgestemd voor redeneertaken via een tweestappenpijplijn van Supervised Fine-Tuning (SFT) gevolgd door Reinforcement Learning (RL), een proces dat gepaard gaat met catastrofaal vergeten en suboptimale afwegingen tussen imitatie en exploratie. Recente methoden in één fase proberen SFT en RL te verenigen met behulp van heuristieken, maar missen een principieel mechanisme om de twee paradigma's dynamisch in balans te brengen. In dit artikel herformuleren we deze uitdaging door de theoretische lens van impliciete beloningen, waarbij we SFT en RL niet zien als afzonderlijke methoden maar als complementaire beloningssignalen. We introduceren Adaptive Meta Fine-Tuning (AMFT), een nieuw algoritme in één fase dat de optimale balans leert tussen de impliciete, padgebaseerde beloning van SFT en de expliciete, uitkomstgebaseerde beloning van RL. De kern van AMFT is een meta-gradient adaptieve gewichtscontroller die de SFT-RL-balans behandelt als een leerbare parameter, deze dynamisch optimaliseert om de langetermijnprestaties van de taak te maximaliseren. Deze vooruitziende aanpak, gereguleerd door beleidsentropie voor stabiliteit, ontdekt autonoom een effectief trainingscurriculum. We voeren een uitgebreide evaluatie uit op uitdagende benchmarks die wiskundig redeneren, abstract visueel redeneren (General Points) en visie-taalnavigatie (V-IRL) omvatten. AMFT vestigt consequent een nieuwe state-of-the-art en toont superieure generalisatie op taken buiten de distributie (OOD). Ablatiestudies en analyse van trainingsdynamieken bevestigen dat de meta-learning controller cruciaal is voor de stabiliteit, steekproefefficiëntie en prestaties van AMFT, wat een meer principieel en effectief paradigma biedt voor de afstemming van LLM. Onze codes zijn openbaar gemaakt via https://github.com/hlxtsyj/AMFT.
De snelle opkomst van Large Language Models (LLM's) heeft aanzienlijk bijgedragen aan de ontwikkeling van eerlijke AI-systemen die in staat zijn tot feitelijke vraag-antwoordtaken (QA). Er is echter geen bekende studie die de robuustheid van LLM's test wanneer ze worden geconfronteerd met versluierde versies van vragen. Om deze beperkingen systematisch te evalueren, stellen we een nieuwe techniek voor, ObfusQAte, en introduceren we, gebruikmakend van deze techniek, ObfusQA, een uitgebreid, voor het eerst in zijn soort, raamwerk met meerdere niveaus van versluiering, ontworpen om de mogelijkheden van LLM's te onderzoeken op drie verschillende dimensies: (i) Indirectie van benoemde entiteiten, (ii) Indirectie van afleiders, en (iii) Contextuele overbelasting. Door deze fijnmazige onderscheidingen in taal vast te leggen, biedt ObfusQA een uitgebreide benchmark voor het evalueren van de robuustheid en aanpassingsvermogen van LLM's. Uit onze studie blijkt dat LLM's de neiging hebben om te falen of hallucinerende antwoorden te genereren wanneer ze worden geconfronteerd met deze steeds genuanceerdere variaties. Om onderzoek in deze richting te stimuleren, stellen we ObfusQAte publiekelijk beschikbaar.