Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We onderzoeken een methode om de prestaties van grote taalmodellen te verbeteren door middel van zelfreflectie en reinforcement learning. Door het model aan te moedigen betere zelfreflecties te genereren wanneer het fout antwoordt, tonen we aan dat het vermogen van een model om complexe, verifieerbare taken op te lossen kan worden verbeterd, zelfs wanneer het genereren van synthetische data niet haalbaar is en alleen binaire feedback beschikbaar is. Ons framework werkt in twee fasen: eerst, na het falen van een bepaalde taak, genereert het model een zelfreflectieve analyse van zijn vorige poging; vervolgens krijgt het model een nieuwe kans om de taak uit te voeren met de zelfreflectie in de context. Als de daaropvolgende poging slaagt, worden de tokens die tijdens de zelfreflectiefase zijn gegenereerd beloond. Onze experimentele resultaten laten aanzienlijke prestatieverbeteringen zien over een verscheidenheid aan modelarchitecturen, met verbeteringen tot wel 34,7% bij het schrijven van wiskundige vergelijkingen en 18,1% bij het aanroepen van functies. Opmerkelijk is dat kleinere fine-tuned modellen (1,5 miljard tot 7 miljard parameters) modellen uit dezelfde familie die 10 keer groter zijn, overtreffen. Ons nieuwe paradigma is dus een veelbelovende weg naar nuttigere en betrouwbaardere taalmodellen die zichzelf kunnen verbeteren bij uitdagende taken met beperkte externe feedback.
Hoewel bestaande geünificeerde modellen sterke prestaties leveren op het gebied van visueel-taalkundig begrip en tekst-naar-beeldgeneratie, zijn deze modellen beperkt in het verkennen van beeldperceptie- en manipulatie taken, die dringend gewenst worden door gebruikers voor brede toepassingen. Onlangs heeft OpenAI hun krachtige GPT-4o-Image model uitgebracht voor uitgebreide beeldperceptie en -manipulatie, waarbij het expressieve vermogen bereikt en de interesse van de gemeenschap heeft gewekt. Door de prestaties van GPT-4o-Image te observeren in onze zorgvuldig opgezette experimenten, leiden we af dat GPT-4o-Image gebruik maakt van kenmerken die zijn geëxtraheerd door semantische encoders in plaats van VAE, terwijl VAEs worden beschouwd als essentiële componenten in veel beeldmanipulatiemodellen. Gemotiveerd door dergelijke inspirerende observaties, presenteren wij een geünificeerd generatief framework genaamd UniWorld, gebaseerd op semantische kenmerken die worden geleverd door krachtige visueel-taalkundige modellen en contrastieve semantische encoders. Als resultaat bouwen we een sterk geünificeerd model met slechts 1% van de hoeveelheid data van BAGEL, dat consistent beter presteert dan BAGEL op beeldbewerkingsbenchmarks. UniWorld behoudt ook competitieve beeldbegrips- en generatiecapaciteiten, waarbij het sterke prestaties behaalt op meerdere beeldperceptietaken. We maken onze modellen volledig open-source, inclusief modelgewichten, trainings- en evaluatiescripts, en datasets.
Recente ontwikkelingen in Vision Language Models (VLMs) hebben hun mogelijkheden uitgebreid naar interactieve agenttaken, maar bestaande benchmarks blijven beperkt tot single-agent of tekstuele omgevingen. In tegenstelling hiermee omvatten real-world scenario's vaak meerdere agents die interacteren binnen rijke visuele en linguïstische contexten, wat uitdagingen oplevert met zowel multimodale observaties als strategische interacties. Om deze kloof te overbruggen, introduceren we Visual Strategic Bench (VS-Bench), een multimodale benchmark die VLMs evalueert voor strategisch redeneren en besluitvorming in multi-agent omgevingen. VS-Bench bestaat uit acht visueel onderbouwde omgevingen die samenwerkende, competitieve en gemengde interacties omvatten, ontworpen om het vermogen van agents te beoordelen om toekomstige acties van anderen te voorspellen en te optimaliseren voor langetermijndoelen. We beschouwen twee complementaire evaluatiedimensies, waaronder offline evaluatie van strategisch redeneren door nauwkeurigheid van volgende-actievoorspellingen en online evaluatie van besluitvorming door genormaliseerde episode-opbrengst. Uitgebreide experimenten met veertien toonaangevende VLMs onthullen een significante kloof tussen huidige modellen en optimale prestaties, waarbij de beste modellen een voorspellingsnauwkeurigheid van 47,8% en een genormaliseerde opbrengst van 24,3% behalen. We voeren verder diepgaande analyses uit op multimodale observaties, testtijd-schaling, sociale gedragingen en foutgevallen van VLM-agents. Door de evaluatie te standaardiseren en de beperkingen van bestaande modellen te benadrukken, zien we VS-Bench als een fundament voor toekomstig onderzoek naar strategische multimodale agents. Code en data zijn beschikbaar op https://vs-bench.github.io.
Vision-language models (VLMs) die zijn getraind via reinforcement learning met verifieerbare beloning (RLVR) hebben aanzienlijke vooruitgang geboekt in het effectief schalen van rekenkracht tijdens testen. In dit werk onderzoeken we hoe gesynthetiseerde RL-gegevens RLVR verder kunnen verbeteren. Hiertoe stellen we SynthRL voor: een schaalbare en gegarandeerde pijplijn voor automatische gegevensschaling in redeneergerichte RL-training. SynthRL bestaat uit drie belangrijke fasen: (1) het selecteren van startvragen met een geschikte verdeling, (2) het uitbreiden ervan naar meer uitdagende varianten terwijl de oorspronkelijke antwoorden behouden blijven, en (3) een gegarandeerde verificatiefase die bijna perfecte correctheid en moeilijkheidsverhoging waarborgt. Onze empirische experimenten tonen de schaalbaarheid en effectiviteit van SynthRL aan. Wanneer toegepast op de MMK12-dataset, synthetiseert SynthRL meer dan 3.3K aanvullende verifieerbare, uitdagende vragen uit ongeveer 8K startvoorbeelden. Modellen die zijn getraind met onze gesynthetiseerde gegevens behalen consistente verbeteringen op vijf out-of-domain visuele wiskundige redeneerbenchmarks, met een significante verbetering ten opzichte van basismodellen die alleen op startgegevens zijn getraind. Opvallend is dat gedetailleerde analyse aantoont dat de verbeteringen meer uitgesproken zijn op de meest uitdagende evaluatievoorbeelden, wat de effectiviteit van SynthRL benadrukt in het uitlokken van diepere en complexere redeneerpatronen.
Vision-Language Models (VLMs) hebben aanzienlijke vooruitgang geboekt in multimodale begripsvorming, maar hun mogelijkheden voor wetenschappelijk redeneren blijven onvoldoende getoetst. Huidige multimodale benchmarks evalueren voornamelijk generiek beeldbegrip of tekstgestuurd redeneren, waarbij authentieke wetenschappelijke contexten ontbreken die integratie van domeinspecifieke kennis met analyse van visueel bewijs vereisen. Om deze leemte te vullen, presenteren wij CSVQA, een diagnostische multimodale benchmark die specifiek is ontworpen om wetenschappelijk redeneren te evalueren via domeingebonden visuele vraag-antwoordtaken. Onze benchmark bevat 1.378 zorgvuldig geconstrueerde vraag-antwoordparen die diverse STEM-disciplines bestrijken, waarbij elk paar domeinkennis, integratie van visueel bewijs en hogere-orde redenering vereist. In vergelijking met eerdere multimodale benchmarks legt CSVQA meer nadruk op realistische wetenschappelijke inhoud en complex redeneren. Daarnaast stellen wij een rigoureus evaluatieprotocol voor om systematisch te beoordelen of modelvoorspellingen worden onderbouwd door geldige tussenliggende redeneerstappen op basis van gecureerde verklaringen. Onze uitgebreide evaluatie van 15 VLMs op deze benchmark onthult opmerkelijke prestatieverschillen, waarbij zelfs het hoogst gerangschikte propriëtaire model slechts een nauwkeurigheid van 49,6% behaalt. Dit empirische bewijs onderstreept de dringende noodzaak om de wetenschappelijke redeneervaardigheden van VLMs te verbeteren. Onze CSVQA is vrijgegeven op https://huggingface.co/datasets/Skywork/CSVQA.
Een van de belangrijkste uitdagingen bij het bouwen van VLM-gestuurde GUI-agents is visuele verankering, d.w.z. het lokaliseren van het juiste schermgebied voor actie-uitvoering op basis van zowel de visuele inhoud als de tekstuele plannen. De meeste bestaande benaderingen formuleren dit als een tekstgebaseerde coördinatengeneratietaak. Deze benaderingen hebben echter verschillende beperkingen: zwakke ruimtelijk-semantische uitlijning, onvermogen om ambigue supervisiedoelen te hanteren, en een mismatch tussen de dichte aard van schermcoördinaten en de grove, patch-niveau granulariteit van visuele kenmerken die door modellen zoals Vision Transformers worden geëxtraheerd. In dit artikel stellen we GUI-Actor voor, een VLM-gebaseerde methode voor coördinaatvrije GUI-verankering. De kern van GUI-Actor introduceert een aandacht-gebaseerde actiekop die leert om een toegewijd <ACTOR>-token uit te lijnen met alle relevante visuele patch-tokens, waardoor het model in één voorwaartse pass één of meer actiegebieden kan voorstellen. In lijn hiermee ontwerpen we verder een verankeringsverificateur om het meest plausibele actiegebied te evalueren en te selecteren uit de kandidaten die voor actie-uitvoering worden voorgesteld. Uitgebreide experimenten tonen aan dat GUI-Actor eerdere state-of-the-art methoden overtreft op meerdere GUI-actieverankeringsbenchmarks, met verbeterde generalisatie naar onbekende schermresoluties en lay-outs. Opmerkelijk is dat GUI-Actor-7B zelfs UI-TARS-72B (38.1) overtreft op ScreenSpot-Pro, met scores van 40.7 met Qwen2-VL en 44.6 met Qwen2.5-VL als backbones. Bovendien blijkt door het incorporeren van de verificateur dat fine-tuning van alleen de nieuw geïntroduceerde actiekop (~100M parameters voor 7B model) terwijl de VLM-backbone bevroren blijft, voldoende is om prestaties te bereiken die vergelijkbaar zijn met eerdere state-of-the-art modellen, wat aantoont dat GUI-Actor de onderliggende VLM kan uitrusten met effectieve verankeringsmogelijkheden zonder in te boeten aan zijn algemene sterke punten.
Ruimtelijk redeneren is een belangrijk aspect van de cognitieve psychologie en blijft een groot knelpunt voor huidige visie-taalmodellen (VLMs). Hoewel uitgebreid onderzoek heeft geprobeerd om het begrip van VLMs van basisruimtelijke relaties te evalueren of te verbeteren, zoals het onderscheiden van links en rechts, dichtbij en veraf, en het tellen van objecten, vertegenwoordigen deze taken slechts het meest fundamentele niveau van ruimtelijk redeneren. In dit werk introduceren we OmniSpatial, een uitgebreide en uitdagende benchmark voor ruimtelijk redeneren, gebaseerd op de cognitieve psychologie. OmniSpatial omvat vier hoofdcategorieën: dynamisch redeneren, complexe ruimtelijke logica, ruimtelijke interactie en perspectiefname, met 50 fijnmazige subcategorieën. Door middel van internetdatacrawling en zorgvuldige handmatige annotatie hebben we meer dan 1.500 vraag-antwoordparen geconstrueerd. Uitgebreide experimenten tonen aan dat zowel open-source als closed-source VLMs, evenals bestaande redeneer- en ruimtelijk begripsmodellen, aanzienlijke beperkingen vertonen in het alomvattende ruimtelijke begrip. We analyseren verder de mislukte gevallen en stellen mogelijke richtingen voor toekomstig onderzoek voor.
Recente geavanceerde grote redeneermodellen (LRM's) maken gebruik van uitgebreide keten-van-gedachte (CoT) redenering om complexe taken op te lossen, waarbij ze state-of-the-art prestaties behalen. Ondanks hun succes identificeren we een kritiek probleem: een aanzienlijk deel van de eenvoudige taken die door LRM's worden opgelost, kan ook worden aangepakt door niet-redenerende LLM's met aanzienlijk minder tokens, wat aangeeft dat complexe redenering niet altijd nodig is. Om dit aan te pakken, analyseren we systematisch de redeneertrajecten van LRM's en presenteren we een methode die gebruikmaakt van geïdentificeerde paradigma's en LLM-Judge om deze trajecten te classificeren als Redundante Redenering of Essentiële Redenering. We introduceren OThink-R1, een methode die redundante redeneerstappen verwijdert terwijl de logische geldigheid behouden blijft. OThink-R1 schakelt dynamisch over naar de niet-denken-modus (snel denken) voor eenvoudige problemen, terwijl het bewust denken (langzaam denken) toepast voor complexe problemen. Experimenten op wiskundige en vraag-antwoordtaken tonen aan dat OThink-R1 de redundantie in redenering met bijna 23% gemiddeld vermindert zonder de nauwkeurigheid aan te tasten, wat praktische richtlijnen biedt voor efficiënte redeneermodellen. De code is beschikbaar op https://github.com/AgenticIR-Lab/OThink-R1.
Multimodale Large Language Models (MLLMs) hebben de afgelopen jaren een snelle ontwikkeling doorgemaakt. In het financiële domein is er echter een opvallend gebrek aan effectieve en gespecialiseerde multimodale evaluatiedatasets. Om de ontwikkeling van MLLMs in het financiële domein te bevorderen, introduceren wij FinMME, dat meer dan 11.000 hoogwaardige financiële onderzoeksmonsters omvat uit 18 financiële domeinen en 6 activaklassen, met 10 belangrijke grafiektypen en 21 subtypes. Wij zorgen voor data kwaliteit door middel van 20 annotators en zorgvuldig ontworpen validatiemechanismen. Daarnaast ontwikkelen wij FinScore, een evaluatiesysteem dat hallucinatieboetes en multidimensionale capaciteitsbeoordeling omvat om een onbevooroordeelde evaluatie te bieden. Uitgebreide experimentele resultaten tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o onbevredigende prestaties leveren op FinMME, wat de uitdagende aard ervan benadrukt. De benchmark vertoont een hoge robuustheid met voorspellingsvariaties onder verschillende prompts die onder de 1% blijven, wat een superieure betrouwbaarheid aantoont in vergelijking met bestaande datasets. Onze dataset en evaluatieprotocol zijn beschikbaar op https://huggingface.co/datasets/luojunyu/FinMME en https://github.com/luo-junyu/FinMME.
De opmerkelijke vooruitgang van Multimodale Grote Taalmodellen (MLLMs) heeft steeds meer aandacht getrokken om deze uit te breiden naar fysieke entiteiten zoals looprobots. Dit vereist doorgaans dat MLLMs niet alleen multimodale begripsvaardigheden beheersen, maar ook visueel-ruimtelijk redeneren en fysieke interactiecapaciteiten integreren. Desalniettemin worstelen bestaande methoden om deze capaciteiten te verenigen vanwege hun fundamentele verschillen. In dit artikel presenteren we het Visueel Belichaamde Brein (VeBrain), een verenigd raamwerk voor perceptie, redeneren en controle in de echte wereld. VeBrain herformuleert robotbesturing naar gemeenschappelijke tekstgebaseerde MLLM-taken in de 2D-visuele ruimte, waardoor de doelstellingen en kaartruimten van verschillende taken worden verenigd. Vervolgens wordt een nieuwe robotadapter voorgesteld om tekstuele controlesignalen van MLLMs om te zetten naar bewegingsbeleid van echte robots. Vanuit het perspectief van data introduceren we verder VeBrain-600k, een hoogwaardige instructiedataset die verschillende capaciteiten van VeBrain omvat. In VeBrain-600k hebben we honderden uren besteed aan het verzamelen, cureren en annoteren van de data, en hebben we multimodale keten-van-gedachten (CoT) gebruikt om de verschillende capaciteiten te mengen in een enkel gesprek. Uitgebreide experimenten op 13 multimodale benchmarks en 5 ruimtelijke intelligentiebenchmarks tonen de superieure prestaties van VeBrain aan ten opzichte van bestaande MLLMs zoals Qwen2.5-VL. Wanneer het wordt ingezet bij looprobots en robotarmen, toont VeBrain sterke aanpassingsvermogen, flexibiliteit en compositorische capaciteiten in vergelijking met bestaande methoden. Bijvoorbeeld, in vergelijking met Qwen2.5-VL, behaalt VeBrain niet alleen aanzienlijke winsten op MMVet met +5,6%, maar blinkt het ook uit in taken met looprobots met gemiddelde winsten van +50%.
Diffusie-LLM's zijn naar voren gekomen als een veelbelovend alternatief voor conventionele autoregressieve LLM's, met aanzienlijk potentieel voor verbeterde runtime-efficiëntie. Bestaande diffusiemodellen hebben echter niet de mogelijkheid om door gebruikers gespecificeerde formele beperkingen, zoals reguliere expressies, afdwingbaar te maken, wat ze onbetrouwbaar maakt voor taken die gestructureerde uitvoer vereisen, zoals het genereren van JSON met een vast schema. In tegenstelling tot autoregressieve modellen die tokens sequentieel genereren, voorspellen diffusie-LLM's een blok tokens parallel. Deze parallelliteit maakt traditionele algoritmen voor beperkte decodering, die zijn ontworpen voor sequentiële tokenvoorspelling, ineffectief in het behouden van de ware uitvoerdistributie. Om deze beperking aan te pakken, stellen we DINGO voor, een dynamisch programmeerstrategie voor beperkte decodering die zowel efficiënt als bewezen distributiebehoudend is. DINGO maakt het mogelijk om uitvoerstrings te bemonsteren met de hoogste waarschijnlijkheid onder de door het model voorspelde distributie, terwijl strikt wordt voldaan aan elke door de gebruiker gespecificeerde reguliere expressie. Op standaard benchmarks voor symbolische wiskunde en JSON-generatie behaalt DINGO een verbetering van tot wel 68 procentpunt ten opzichte van onbeperkte inferentie.
Grote Vision-Taalmodellen (LVLMs) hebben recentelijk veelbelovende vooruitgang geboekt in de robotica door het combineren van belichaamde redenering met robotbesturing. Een gangbare aanpak omvat het trainen op belichaamde redeneringstaken die verband houden met robotbesturing door middel van Supervised Fine-Tuning (SFT). SFT-datasets worden echter vaak heuristisch samengesteld en zijn niet expliciet geoptimaliseerd voor het verbeteren van robotbesturing. Bovendien leidt SFT vaak tot problemen zoals catastrofaal vergeten en verminderde generalisatieprestaties. Om deze beperkingen aan te pakken, introduceren we Robot-R1, een nieuw framework dat reinforcement learning benut om belichaamde redenering specifiek voor robotbesturing te verbeteren. Robot-R1 leert om de volgende sleutelpuntstatus te voorspellen die nodig is voor het voltooien van een taak, gebaseerd op de huidige scène-afbeelding en omgevingsmetadata afgeleid van expertdemonstraties. Geïnspireerd door de DeepSeek-R1-leeraanpak, bemonstert Robot-R1 redeneringsgebaseerde reacties en versterkt die welke leiden tot nauwkeurigere voorspellingen. Onze experimenten tonen aan dat modellen getraind met Robot-R1 SFT-methoden overtreffen op belichaamde redeneringstaken. Ondanks slechts 7B parameters te hebben, overtreft Robot-R1 zelfs GPT-4o op redeneringstaken gerelateerd aan laag-niveau actiebesturing, zoals ruimtelijke en primitieve bewegingsredenering.
Hoewel Diffusion Transformers (DiTs) doorbraken hebben bereikt in videogeneratie, blijft deze taak van lange sequentiegeneratie beperkt door de kwadratische complexiteit van aandachtmechanismen, wat resulteert in aanzienlijke inferentielatentie. Door gedetailleerde analyse van aandachtkaarten in Video Diffusion Transformer (vDiT) identificeren we drie terugkerende sparsitypatronen: diagonale, multi-diagonale en verticale streepstructuren. Zelfs 3-6% van de aandachtskoppen kan worden overgeslagen. Cruciaal is dat deze patronen sterke correlaties vertonen met laagdiepte en hoofdpositie, maar beperkte afhankelijkheid van de invoerinhoud tonen. Gebruikmakend van deze bevindingen, stellen we Sparse-vDiT voor, een sparsityversnellingsframework voor vDiT bestaande uit: 1) Patroon-geoptimaliseerde sparse kernels die dichte aandacht vervangen door computationeel efficiënte implementaties voor elk geïdentificeerd sparsitypatroon. 2) Een offline sparse diffusiezoekalgoritme dat de optimale sparse rekentrategie per laag en hoofd selecteert via hardwarebewuste kostenmodellering. Na het bepalen van de optimale configuratie, fuseren we koppen binnen dezelfde laag die dezelfde aandachtstrategie delen, wat de inferentie-efficiëntie verbetert. Geïntegreerd in state-of-the-art vDiT-modellen (CogVideoX1.5, HunyuanVideo en Wan2.1), bereikt Sparse-vDiT een theoretische FLOP-reductie van respectievelijk 2,09x, 2,38x en 1,67x, en daadwerkelijke inferentieversnellingen van 1,76x, 1,85x en 1,58x, terwijl een hoge visuele kwaliteit behouden blijft, met PSNR-waarden van 24,13, 27,09 en 22,59. Ons werk toont aan dat latente structurele sparsity in vDiTs systematisch kan worden benut voor lange videosynthese.
Ondanks vooruitgang in Multimodale Grote Taalmodellen (MLLMs), blijft hun vaardigheid in het begrijpen van fijnmazige videobewegingen ernstig beperkt. Ze missen vaak inter-frame verschillen en hebben de neiging om subtiele visuele aanwijzingen te middelen of te negeren. Bovendien, hoewel visuele prompting potentieel heeft getoond bij statische afbeeldingen, blijft de toepassing ervan op de temporele complexiteiten van video, met name voor het begrijpen van fijnmazige bewegingen, grotendeels onontgonnen. Wij onderzoeken of de inherente mogelijkheden kunnen worden ontgrendeld om de bewegingperceptie van MLLMs te versterken en om onderscheidende visuele handtekeningen te creëren die zijn afgestemd op het ontkoppelen van object- en camerabewegingsaanwijzingen. In deze studie introduceren we MotionSight, een nieuwe zero-shot methode die als eerste objectgerichte visuele spotlight en motion blur gebruikt als visuele prompts om het begrijpen van fijnmazige bewegingen effectief te verbeteren zonder training. Om dit om te zetten in waardevolle data-assets, hebben we MotionVid-QA samengesteld, de eerste grootschalige dataset voor het begrijpen van fijnmazige videobewegingen, met hiërarchische annotaties inclusief SFT en voorkeursdata, {\Theta}(40K) videoclips en {\Theta}(87K) QAs. Experimenten tonen aan dat MotionSight state-of-the-art open-source prestaties bereikt en concurrerend is met commerciële modellen. In het bijzonder presenteren we voor het begrijpen van fijnmazige bewegingen een nieuwe zero-shot techniek en een grootschalige, hoogwaardige dataset. Alle code en annotaties zullen publiekelijk beschikbaar worden gesteld.
We presenteren Subject Fidelity Optimization (SFO), een nieuw vergelijkend leerframework voor zero-shot subject-gedreven generatie dat de trouw aan het onderwerp verbetert. In tegenstelling tot supervised fine-tuning methoden die alleen vertrouwen op positieve doelen en het diffusieverlies gebruiken zoals in de pre-trainingsfase, introduceert SFO synthetische negatieve doelen en leidt het model expliciet om positieven te verkiezen boven negatieven door middel van paarsgewijze vergelijking. Voor negatieve doelen stellen we Condition-Degradation Negative Sampling (CDNS) voor, dat automatisch onderscheidende en informatieve negatieven genereert door visuele en tekstuele aanwijzingen opzettelijk te verslechteren zonder dure menselijke annotaties. Bovendien herwegen we de diffusietijdstappen om de fine-tuning te richten op tussenliggende stappen waaronder subjectdetails naar voren komen. Uitgebreide experimenten tonen aan dat SFO met CDNS de baseline-methoden aanzienlijk overtreft wat betreft zowel subjecttrouw als tekstuitlijning op een benchmark voor subject-gedreven generatie. Projectpagina: https://subjectfidelityoptimization.github.io/
Wij stellen CURE voor, een nieuw reinforcement learning-raamwerk met een toegewijd beloningsontwerp dat het vermogen tot coderen en het genereren van unittests co-evolueert op basis van hun interactieresultaten, zonder enige grondwaarheidscode als supervisie. Deze aanpak maakt flexibele en schaalbare training mogelijk en stelt de unittestgenerator in staat rechtstreeks te leren van de fouten van de coder. Onze afgeleide ReasonFlux-Coder-7B en 14B-modellen verbeteren de nauwkeurigheid van codegeneratie met 5,3% en de Best-of-N-nauwkeurigheid met 9,0% na optimalisatie op Qwen2.5-Instruct-modellen, en overtreffen daarmee vergelijkbaar grote Qwen-Coder-, DeepSeek-Coder- en Seed-Coder-modellen. Ze breiden zich natuurlijk uit naar downstream taken zoals test-time scaling en agentic coding, wat een verbetering van 8,1% oplevert ten opzichte van het basismodel. Voor het long-CoT-model presteert onze ReasonFlux-Coder-4B consistent beter dan Qwen3-4B, terwijl het een inferentie-efficiëntie van 64,8% bereikt in het genereren van unittests. Opmerkelijk is dat we ook ontdekken dat ons model effectief kan dienen als een beloningsmodel voor reinforcement learning op basismodellen. Project: https://github.com/Gen-Verse/CURE
Recente ontwikkelingen in AI-gegenereerde content (AIGC) hebben de animatieproductie aanzienlijk versneld. Om boeiende animaties te produceren, is het essentieel om samenhangende multi-shot videoclips te genereren met narratieve scripts en karakterreferenties. Bestaande publieke datasets richten zich echter voornamelijk op real-world scenario's met globale beschrijvingen en missen referentiebeelden voor consistente karakterbegeleiding. Om deze kloof te overbruggen, presenteren we AnimeShooter, een referentiegeleide multi-shot animatiedataset. AnimeShooter biedt uitgebreide hiërarchische annotaties en sterke visuele consistentie tussen shots via een geautomatiseerde pijplijn. Story-level annotaties geven een overzicht van het narratief, inclusief de verhaallijn, sleutelscènes en hoofdkarakterprofielen met referentiebeelden, terwijl shot-level annotaties het verhaal opdelen in opeenvolgende shots, elk geannoteerd met scène, karakters, en zowel narratieve als beschrijvende visuele bijschriften. Daarnaast biedt een toegewezen subset, AnimeShooter-audio, gesynchroniseerde audiotracks voor elk shot, samen met audiobeschrijvingen en geluidsbronnen. Om de effectiviteit van AnimeShooter aan te tonen en een basislijn te stellen voor de referentiegeleide multi-shot videogeneratietaak, introduceren we AnimeShooterGen, dat gebruikmaakt van Multimodale Large Language Models (MLLMs) en videodiffusiemodellen. Het referentiebeeld en eerder gegenereerde shots worden eerst door MLLM verwerkt om representaties te produceren die zowel de referentie als de context in acht nemen, die vervolgens worden gebruikt als voorwaarde voor het diffusiemodel om het volgende shot te decoderen. Experimentele resultaten tonen aan dat het model getraind op AnimeShooter superieure cross-shot visuele consistentie en naleving van referentievisuele begeleiding bereikt, wat de waarde van onze dataset voor coherente geanimeerde videogeneratie benadrukt.
We introduceren native-resolutie beeldgeneratie, een nieuw generatief modelleerparadigma dat de synthese van beelden mogelijk maakt bij willekeurige resoluties en beeldverhoudingen. Deze aanpak overkomt de beperkingen van conventionele methoden met vaste resolutie en vierkante beelden door het native verwerken van visuele tokens met variabele lengte, een kernuitdaging voor traditionele technieken. Hiertoe introduceren we de Native-resolution diffusion Transformer (NiT), een architectuur die expliciet is ontworpen om variërende resoluties en beeldverhoudingen te modelleren binnen zijn denoiseringsproces. Vrij van de beperkingen van vaste formaten, leert NiT intrinsieke visuele distributies van beelden die een breed scala aan resoluties en beeldverhoudingen omvatten. Opmerkelijk is dat een enkel NiT-model tegelijkertijd de state-of-the-art prestaties behaalt op zowel de ImageNet-256x256 als de 512x512 benchmarks. Verrassend genoeg, vergelijkbaar met de robuuste zero-shot mogelijkheden die worden gezien in geavanceerde grote taalmodellen, toont NiT, uitsluitend getraind op ImageNet, uitstekende zero-shot generalisatieprestaties. Het genereert met succes hoogwaardige beelden bij voorheen ongeziene hoge resoluties (bijvoorbeeld 1536 x 1536) en diverse beeldverhoudingen (bijvoorbeeld 16:9, 3:1, 4:3), zoals weergegeven in Figuur 1. Deze bevindingen wijzen op het significante potentieel van native-resolutie modellering als een brug tussen visuele generatieve modellering en geavanceerde LLM-methodologieën.
Het genereren van lange video's heeft steeds meer aandacht gekregen vanwege de brede toepassingen in gebieden zoals entertainment en simulatie. Ondanks vooruitgang blijft het synthetiseren van temporeel coherente en visueel overtuigende lange sequenties een aanzienlijke uitdaging. Traditionele benaderingen genereren vaak lange video's door sequentieel korte clips te genereren en aan elkaar te plakken, of door sleutelframes te genereren en vervolgens de tussenliggende frames op een hiërarchische manier te interpoleren. Beide methoden blijven echter aanzienlijke uitdagingen houden, wat leidt tot problemen zoals temporele herhaling of onnatuurlijke overgangen. In dit artikel herzien we de hiërarchische pijplijn voor het genereren van lange video's en introduceren we LumosFlow, een framework dat expliciet beweging begeleidt. Specifiek gebruiken we eerst het Large Motion Text-to-Video Diffusion Model (LMTV-DM) om sleutelframes te genereren met grotere bewegingsintervallen, waardoor we de inhoudelijke diversiteit in de gegenereerde lange video's waarborgen. Gezien de complexiteit van het interpoleren van contextuele overgangen tussen sleutelframes, verdelen we de interpolatie van tussenliggende frames verder in beweging generatie en post-hoc verfijning. Voor elk paar sleutelframes synthetiseert het Latent Optical Flow Diffusion Model (LOF-DM) complexe en grootschalige optische stromen, terwijl MotionControlNet de vervormde resultaten verfijnt om de kwaliteit te verbeteren en de generatie van tussenliggende frames te begeleiden. In vergelijking met traditionele video frame interpolatie bereiken we een 15-voudige interpolatie, wat zorgt voor een redelijke en continue beweging tussen aangrenzende frames. Experimenten tonen aan dat onze methode lange video's kan genereren met consistente beweging en uiterlijk. Code en modellen zullen na acceptatie openbaar beschikbaar worden gesteld. Onze projectpagina: https://jiahaochen1.github.io/LumosFlow/
Geïnspireerd door het in-context leerproces van grote taalmodellen (LLM's), ontstaat er een nieuw paradigma voor generaliseerbare beeldbewerking op basis van visuele prompts. Bestaande methoden met één referentie richten zich doorgaans op stijl- of uiterlijke aanpassingen en hebben moeite met niet-rigide transformaties. Om deze beperkingen aan te pakken, stellen we voor om bron-doel beeldparen te gebruiken om inhoudsbewuste bewerkingsintentie te extraheren en over te dragen naar nieuwe querybeelden. Hiertoe introduceren we RelationAdapter, een lichtgewicht module die Diffusion Transformer (DiT)-gebaseerde modellen in staat stelt om visuele transformaties effectief vast te leggen en toe te passen op basis van minimale voorbeelden. We introduceren ook Relation252K, een uitgebreide dataset met 218 diverse bewerkingstaken, om de generalisatie en aanpassingsvermogen van modellen in visuele prompt-gestuurde scenario's te evalueren. Experimenten op Relation252K tonen aan dat RelationAdapter het vermogen van het model om bewerkingsintentie te begrijpen en over te dragen aanzienlijk verbetert, wat leidt tot opmerkelijke verbeteringen in de generatiekwaliteit en de algehele bewerkingsprestaties.
Diffusiemodellen hebben opmerkelijke resultaten behaald in videosynthese, maar vereisen iteratieve denoisingsstappen, wat leidt tot aanzienlijke rekenkundige overhead. Consistentiemodellen hebben aanzienlijke vooruitgang geboekt in het versnellen van diffusiemodellen. Het direct toepassen ervan op videodiffusiemodellen resulteert echter vaak in een ernstige verslechtering van temporele consistentie en uiterlijke details. In dit artikel identificeren we, door de trainingsdynamiek van Consistentiemodellen te analyseren, een belangrijk conflict in de leerprocessen tijdens het distillatieproces: er is een significant verschil in de optimalisatiegradiënten en verliesbijdragen over verschillende tijdstappen. Dit verschil verhindert dat het gedistilleerde studentenmodel een optimale staat bereikt, wat leidt tot aangetaste temporele consistentie en verslechterde uiterlijke details. Om dit probleem aan te pakken, stellen we een parameter-efficiënt Dual-Expert Consistentiemodel (DCM) voor, waarbij een semantische expert zich richt op het leren van semantische lay-out en beweging, terwijl een detailexpert gespecialiseerd is in de verfijning van fijne details. Verder introduceren we Temporele Coherentieverlies om de bewegingsconsistentie voor de semantische expert te verbeteren en passen we GAN en Feature Matching Verlies toe om de synthesekwaliteit van de detailexpert te verbeteren. Onze aanpak bereikt state-of-the-art visuele kwaliteit met aanzienlijk verminderde samplingstappen, wat de effectiviteit van expertspecialisatie in videodiffusiemodeldistillatie aantoont. Onze code en modellen zijn beschikbaar op https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
Hoogwaardige datasets zijn essentieel voor het trainen en evalueren van machine learning-modellen, maar het creëren ervan – vooral met nauwkeurige menselijke annotaties – blijft een aanzienlijke uitdaging. Veel inzendingen van dataset-artikelen missen originaliteit, diversiteit of rigoureuze kwaliteitscontrole, en deze tekortkomingen worden vaak over het hoofd gezien tijdens de peer review. Inzendingen laten ook regelmatig essentiële details over de constructie en eigenschappen van datasets achterwege. Hoewel bestaande tools zoals datasheets transparantie bevorderen, zijn ze grotendeels beschrijvend en bieden ze geen gestandaardiseerde, meetbare methoden voor het evalueren van data kwaliteit. Evenzo bevorderen metadata-eisen op conferenties verantwoording, maar worden ze inconsistent gehandhaafd. Om deze beperkingen aan te pakken, pleit dit position paper voor de integratie van systematische, rubric-gebaseerde evaluatiemetrics in het dataset-reviewproces – vooral omdat het aantal inzendingen blijft groeien. We onderzoeken ook schaalbare, kosteneffectieve methoden voor synthetische datageneratie, waaronder toegewijde tools en LLM-as-a-judge benaderingen, om efficiëntere evaluatie te ondersteunen. Als oproep tot actie introduceren we DataRubrics, een gestructureerd raamwerk voor het beoordelen van de kwaliteit van zowel door mensen als door modellen gegenereerde datasets. Gebruikmakend van recente vooruitgang in LLM-gebaseerde evaluatie, biedt DataRubrics een reproduceerbare, schaalbare en actiegerichte oplossing voor datasetkwaliteitsbeoordeling, waardoor zowel auteurs als reviewers hogere standaarden kunnen handhaven in data-gericht onderzoek. We geven ook code vrij om de reproduceerbaarheid van LLM-gebaseerde evaluaties te ondersteunen op https://github.com/datarubrics/datarubrics.
Text-to-video diffusiemodellen staan erom bekend beperkt te zijn in hun vermogen om temporele aspecten zoals beweging, fysica en dynamische interacties te modelleren. Bestaande benaderingen pakken deze beperking aan door het model opnieuw te trainen of externe conditioneringssignalen in te voeren om temporele consistentie af te dwingen. In dit werk onderzoeken we of een betekenisvolle temporele representatie direct kan worden geëxtraheerd uit de voorspellingen van een vooraf getraind model, zonder aanvullende training of hulpinvoeren. We introduceren FlowMo, een nieuwe trainingsvrije begeleidingsmethode die bewegingscoherentie verbetert door alleen gebruik te maken van de eigen voorspellingen van het model in elke diffusiestap. FlowMo leidt eerst een uiterlijk-ongebiaseerde temporele representatie af door de afstand te meten tussen latents die corresponderen met opeenvolgende frames. Dit benadrukt de impliciete temporele structuur die door het model wordt voorspeld. Vervolgens schat het de bewegingscoherentie door de patchgewijze variantie over de temporele dimensie te meten en begeleidt het model om deze variantie dynamisch te verminderen tijdens het bemonsteren. Uitgebreide experimenten met meerdere text-to-video modellen tonen aan dat FlowMo de bewegingscoherentie aanzienlijk verbetert zonder in te leveren op visuele kwaliteit of promptafstemming, wat een effectieve plug-and-play oplossing biedt voor het verbeteren van de temporele betrouwbaarheid van vooraf getrainde videodiffusiemodellen.
Videodiffusietechnieken hebben de afgelopen jaren aanzienlijke vooruitgang geboekt; ze hebben echter moeite om realistische beelden van auto-ongelukken te genereren vanwege de schaarste aan ongevalsgebeurtenissen in de meeste rijdatasets. Het verbeteren van de verkeersveiligheid vereist realistische en controleerbare ongevalssimulaties. Om dit probleem aan te pakken, stellen we Ctrl-Crash voor, een model voor het genereren van controleerbare auto-ongelukvideo's dat zich baseert op signalen zoals begrenzingsvakken, ongevalstypen en een initieel beeldframe. Onze aanpak maakt het mogelijk om tegenfeitelijke scenario's te genereren waarbij kleine variaties in de input kunnen leiden tot dramatisch verschillende ongevalsuitkomsten. Om fijnmazige controle tijdens de inferentie mogelijk te maken, maken we gebruik van classifier-free guidance met onafhankelijk instelbare schalen voor elk conditioneringssignaal. Ctrl-Crash behaalt state-of-the-art prestaties op kwantitatieve videokwaliteitsmetrieken (bijv. FVD en JEDi) en kwalitatieve metingen gebaseerd op een menselijke evaluatie van fysieke realisme en videokwaliteit in vergelijking met eerdere diffusiegebaseerde methoden.
Codegeneratie met grote taalmodellen (LLMs), vaak aangeduid als vibe coding, wordt steeds vaker in productieomgevingen gebruikt, maar slaagt er niet in om codekwaliteit te garanderen, met name op het gebied van beveiliging (bijv. SQL-injectie kwetsbaarheden) en onderhoudbaarheid (bijv. ontbrekende typeannotaties). Bestaande methoden, zoals supervised fine-tuning en regelgebaseerde nabewerking, zijn afhankelijk van arbeidsintensieve annotaties of broze heuristieken, wat hun schaalbaarheid en effectiviteit beperkt. Wij stellen REAL voor, een reinforcement learning-framework dat LLMs stimuleert om productiekwaliteit code te genereren met behulp van feedback op basis van programma-analyse. Specifiek integreert REAL twee geautomatiseerde signalen: (1) programma-analyse die beveiligings- of onderhoudbaarheidsproblemen detecteert en (2) unittests die functionele correctheid waarborgen. In tegenstelling tot eerdere werken is ons framework prompt-agnostisch en referentievrij, wat schaalbare supervisie mogelijk maakt zonder handmatige interventie. Experimenten over meerdere datasets en modelschalen tonen aan dat REAL state-of-the-art methoden overtreft in gelijktijdige beoordelingen van functionaliteit en codekwaliteit. Ons werk overbrugt de kloof tussen snelle prototyping en productieklaar code, waardoor LLMs zowel snelheid als kwaliteit kunnen leveren.
Kennisdistillatie (KD) is een veelgebruikt raamwerk voor het trainen van compacte, taakspecifieke modellen door gebruik te maken van de kennis van leraarmodellen. De toepassing ervan op actief leren (AL), dat tot doel heeft annotatiekosten te minimaliseren door iteratieve steekproefselectie, blijft echter onderbelicht. Deze kloof ontstaat doordat KD doorgaans uitgaat van toegang tot voldoende gelabelde gegevens, terwijl AL opereert in scenario's met schaarse gegevens waarin taakspecifieke leraarmodellen vaak niet beschikbaar zijn. In dit artikel introduceren we ActiveKD, een raamwerk dat AL integreert met KD door gebruik te maken van de zero- en few-shot mogelijkheden van grote vision-language modellen (VLMs). Een belangrijk aspect van ActiveKD is de gestructureerde voorspellingsbias van VLMs -- d.w.z. hun voorspellingen vormen clusters in de waarschijnlijkheidsruimte. We beschouwen deze structuur als een inductieve bias van het leraarmodel, die generaliseerbare uitvoerpatronen vastlegt die nuttig zijn voor het leren van de student. Om deze bias te benutten, stellen we Probabilistic CoreSet (PCoreSet) voor, een selectiestrategie die de dekking in de waarschijnlijkheidsruimte maximaliseert in plaats van in de kenmerkruimte. PCoreSet selecteert strategisch categorisch diverse niet-gelabelde steekproeven, wat een efficiëntere overdracht van leraarkennis mogelijk maakt onder beperkte annotatiebudgetten. Evaluaties op 11 datasets tonen aan dat PCoreSet consistent beter presteert dan bestaande selectiemethoden binnen het ActiveKD-raamwerk, wat het onderzoek op het snijvlak van AL en KD vooruithelpt.
Grote taalmodellen worden snel de basis voor intelligente agents die in staat zijn om tools te gebruiken. Het trainen van dergelijke agents is echter uitdagend omdat het de menselijke creatie en annotatie van een diverse set taken, tools en evaluatiecriteria vereist. In dit artikel stellen we het Self-Challenging framework voor om een agent te trainen op hoogwaardige taken die door de agent zelf worden gegenereerd. De agent neemt eerst de rol van uitdager aan en genereert een taak na interactie met de gegeven tools. De taken nemen de vorm aan van een nieuwe algemene klasse van problemen, genaamd Code-as-Task, die worden gedefinieerd door een instructie, een verificatiefunctie en oplossingen en foutgevallen die als tests dienen, waardoor alleen hoogwaardige taken worden gefilterd. De agent neemt vervolgens de rol van uitvoerder aan en traint op deze taken met reinforcement learning, waarbij de evaluatiefeedback als beloning wordt gebruikt. Evaluatie op twee bestaande benchmarks voor multi-turn tool-gebruikende agents, M3ToolEval en TauBench, toont aan dat het Self-Challenging framework een meer dan tweevoudige verbetering bereikt in Llama-3.1-8B-Instruct, ondanks het gebruik van alleen zelf gegenereerde trainingsdata.
We introduceren MoCA-Video (Motion-Aware Concept Alignment in Video), een trainingsvrij raamwerk dat de kloof overbrugt tussen semantisch mengen in het beelddomein en video. Gegeven een gegenereerde video en een door de gebruiker aangeleverde referentieafbeelding, injecteert MoCA-Video de semantische kenmerken van de referentieafbeelding in een specifiek object binnen de video, terwijl de oorspronkelijke beweging en visuele context behouden blijven. Onze aanpak maakt gebruik van een diagonale denoisingschema en klasse-agnostische segmentatie om objecten in de latente ruimte te detecteren en te volgen, en om de ruimtelijke locatie van de samengevoegde objecten nauwkeurig te beheersen. Om temporele coherentie te waarborgen, integreren we momentum-gebaseerde semantische correcties en gamma-residuele ruisstabilisatie voor soepele frameovergangen. We evalueren de prestaties van MoCA met behulp van de standaard SSIM, beeldniveau LPIPS, temporele LPIPS, en introduceren een nieuwe metriek CASS (Conceptual Alignment Shift Score) om de consistentie en effectiviteit van de visuele verschuivingen tussen de bronprompt en de gewijzigde videoframes te beoordelen. Met behulp van een zelfsamengestelde dataset presteert MoCA-Video beter dan de huidige baselines, met superieure ruimtelijke consistentie, coherente beweging en een aanzienlijk hogere CASS-score, ondanks het ontbreken van training of fine-tuning. MoCA-Video toont aan dat gestructureerde manipulatie in de diffusieruistrajectorie zorgt voor beheersbare, hoogwaardige videosynthese.
De generatiesnelheid van LLM's wordt beperkt door autoregressief decoderen, waarbij tokens sequentieel één voor één worden voorspeld. Alternatief bieden diffusie grote taalmodellen (dLLM's) theoretisch de mogelijkheid voor parallelle token-generatie, maar in de praktijk lukt het hen niet om de snelheid van autoregressieve modellen te evenaren zonder aanzienlijk in te leveren op kwaliteit. Daarom introduceren wij adaptief parallel decoderen (APD), een nieuwe methode die dynamisch het aantal parallel gesampelde tokens aanpast. We bereiken dit door een multiplicatieve mix te definiëren tussen de marginale waarschijnlijkheden van het dLLM en de gezamenlijke waarschijnlijkheid van sequenties onder een klein hulp-autoregressief model. Dit keert de standaardopzet van speculatief decoderen om, waarbij het doel is om te sampelen van een groot autoregressief verificatiemodel door te ontwerpen vanuit een kleiner model. We optimaliseren APD verder door KV-caching in te schakelen en de grootte van de gemaskeerde invoer te beperken. Al met al introduceert onze methode drie afstembare parameters om flexibel een afweging te maken tussen doorvoersnelheid en kwaliteit. We tonen aan dat APD een aanzienlijk hogere doorvoersnelheid biedt met minimale kwaliteitsverliezen op downstream benchmarks.
Het verkrijgen van real-world robot-simulatiedata via teleoperatie is berucht tijdrovend en arbeidsintensief. Onlangs hebben actiegedreven generatieve modellen brede acceptatie gevonden in robotleren en -simulatie, omdat ze veiligheidsproblemen elimineren en onderhoudsinspanningen verminderen. De actiesequenties die in deze methoden worden gebruikt, resulteren echter vaak in beperkte controleprecisie en slechte generalisatie vanwege hun globaal grove uitlijning. Om deze beperkingen aan te pakken, stellen we ORV voor, een Occupancy-centric Robot Video-generatieframework, dat 4D semantische occupancy-sequenties gebruikt als een fijnmazige representatie om nauwkeurigere semantische en geometrische begeleiding te bieden voor videogeneratie. Door gebruik te maken van occupancy-gebaseerde representaties, maakt ORV een naadloze vertaling van simulatiedata naar fotorealistische robotvideo's mogelijk, terwijl hoge temporele consistentie en precieze bestuurbaarheid worden gegarandeerd. Bovendien ondersteunt ons framework de gelijktijdige generatie van multi-view video's van robotgrijpbewerkingen - een belangrijke capaciteit voor downstream robotleertaken. Uitgebreide experimentele resultaten tonen aan dat ORV consistent beter presteert dan bestaande baseline-methoden over verschillende datasets en sub-taken. Demo, Code en Model: https://orangesodahub.github.io/ORV
Huidige zelfcorrectiebenaderingen in text-to-SQL kampen met twee kritieke beperkingen: 1) Conventionele zelfcorrectiemethoden vertrouwen op recursieve zelfaanroepen van LLM's, wat resulteert in een vermenigvuldigende rekenkundige overhead, en 2) LLM's hebben moeite met het implementeren van effectieve foutdetectie en -correctie voor declaratieve SQL-query's, omdat ze niet in staat zijn het onderliggende redeneerpad te demonstreren. In dit werk stellen we SHARE voor, een SLM-gebaseerde Hierarchical Action corREction-assistent die LLM's in staat stelt om nauwkeurigere foutlokalisatie en efficiëntere correctie uit te voeren. SHARE coördineert drie gespecialiseerde Small Language Models (SLM's) in een sequentiële pijplijn, waarbij het eerst declaratieve SQL-query's omzet in stapsgewijze actietrajecten die het onderliggende redeneerproces onthullen, gevolgd door een tweefasige granulair verfijning. We stellen verder een nieuwe hiërarchische zelfevolutiestrategie voor voor data-efficiënte training. Experimentele resultaten tonen aan dat SHARE de zelfcorrectiecapaciteiten effectief verbetert en robuust blijkt over verschillende LLM's. Bovendien toont onze uitgebreide analyse aan dat SHARE sterke prestaties behoudt, zelfs in trainingsomgevingen met beperkte middelen, wat bijzonder waardevol is voor text-to-SQL-toepassingen met beperkingen op het gebied van gegevensprivacy.
Visualisaties spelen een cruciale rol in de effectieve communicatie van concepten en informatie. Recente vooruitgang in redeneren en retrieval-augmented generation heeft Large Language Models (LLMs) in staat gesteld om diepgaand onderzoek uit te voeren en uitgebreide rapporten te genereren. Ondanks deze vooruitgang richten bestaande frameworks voor diepgaand onderzoek zich voornamelijk op het genereren van alleen tekstuele inhoud, waardoor de geautomatiseerde generatie van gecombineerde teksten en visualisaties onderbelicht blijft. Deze nieuwe taak brengt belangrijke uitdagingen met zich mee bij het ontwerpen van informatieve visualisaties en het effectief integreren ervan met tekstrapporten. Om deze uitdagingen aan te pakken, stellen we Formal Description of Visualization (FDV) voor, een gestructureerde tekstuele representatie van grafieken die LLMs in staat stelt om te leren van en diverse, hoogwaardige visualisaties te genereren. Op basis van deze representatie introduceren we Multimodal DeepResearcher, een agentisch framework dat de taak opdeelt in vier fasen: (1) onderzoeken, (2) exemplarisch rapporteren, (3) plannen, en (4) multimodale rapportgeneratie. Voor de evaluatie van gegenereerde multimodale rapporten ontwikkelen we MultimodalReportBench, dat 100 diverse onderwerpen bevat die als input dienen, samen met 5 toegewijde metrieken. Uitgebreide experimenten over verschillende modellen en evaluatiemethoden tonen de effectiviteit van Multimodal DeepResearcher aan. Opmerkelijk is dat, met gebruik van hetzelfde Claude 3.7 Sonnet-model, Multimodal DeepResearcher een algehele winstpercentage van 82\% behaalt ten opzichte van de baseline-methode.
Large Language Models (LLMs) hebben recentelijk opmerkelijke vooruitgang geboekt door gebruik te maken van Reinforcement Learning en uitgebreide Chain-of-Thought (CoT)-technieken. De uitdaging om efficiënte taalredenering uit te voeren—met name tijdens inferentie met extreem lange uitvoeren—heeft echter steeds meer aandacht getrokken van de onderzoeksgemeenschap. In dit werk stellen we een dynamische, ratio-gebaseerde trainingspijplijn voor die niet afhankelijk is van geavanceerde data-annotaties of interpolatie tussen meerdere modellen. We balanceren continu de gewichten tussen de System-1- en System-2-data van het model om overbodige redeneringsprocessen te elimineren, terwijl de redeneercapaciteit van het model behouden blijft. We valideren onze aanpak op modellen zoals DeepSeek-R1-Distill-7B en DeepSeek-R1-Distill-14B en op een diverse set benchmarks met verschillende moeilijkheidsgraden. Onze methode reduceert het aantal uitvoertokens aanzienlijk met bijna 40%, terwijl de nauwkeurigheid van de redenering behouden blijft. Onze code en data zullen binnenkort beschikbaar zijn.
Met de release van R1, een publiek beschikbaar groot redeneermodel (LRM), trainen onderzoekers vaak nieuwe LRM's door taalmodellen te trainen op R1's lange keten-van-gedachten (CoT) redeneringen. Hoewel eerder werk aantoont dat de mogelijkheden van LRM's gereproduceerd kunnen worden via directe distillatie, blijft de voortdurende afhankelijkheid van bestaande modellen (bijv. R1) een kritieke beperking in de vooruitgang van het veld. Als eerste stap naar onafhankelijke LRM-ontwikkeling onderzoekt dit artikel de mogelijkheid om een lange CoT-dataset te construeren met LLM's die niet getraind zijn voor schaling tijdens inferentie. Hiertoe presenteren we de Long CoT Collection, een dataset van 100K CoT-redeneringen geannoteerd met behulp van bestaande korte CoT-LLM's. We ontwikkelen een pijplijn die o1's nieuwe redeneerstrategieën introduceert in korte CoT-LLM's, waardoor ze langer kunnen nadenken en controleerbaarheid over het denkbudget wordt geïntroduceerd om het overdenkprobleem beter te beheersen. Onze uitgebreide analyses valideren dat onze dataset een kwaliteit bereikt die vergelijkbaar is met--of iets lager dan--R1. Bovendien tonen onze experimenten aan dat trainen op onze dataset niet alleen algemene redeneervaardigheden versterkt, maar ook een sterke basis biedt voor reinforcement learning--modellen geïnitialiseerd op onze data behalen 2-3x grotere winsten met RLVR.
Recente doorbraken in grote taalmodellen (LLMs) hebben hun redeneervermogen effectief verbeterd, met name op wiskundige en logische problemen die verifieerbare antwoorden hebben, door technieken zoals supervised finetuning (SFT) en reinforcement learning (RL). Eerder onderzoek geeft aan dat RL zoekstrategieën effectief internaliseert, waardoor lange ketens van redeneren (CoT) mogelijk worden, waarbij backtracking van nature ontstaat als een aangeleerd vermogen. De precieze voordelen van backtracking, met name hoe significant het bijdraagt aan verbeteringen in redeneren en de optimale mate van gebruik, blijven echter slecht begrepen. In dit werk onderzoeken we systematisch de dynamiek tussen SFT en RL op acht redeneertaken: Countdown, Sudoku, Arc 1D, Geometrie, Kleurenkubusrotatie, Lijstfuncties, Zebra-puzzels en Zelfreferentie. Onze bevindingen benadrukken dat korte CoT-sequenties die in SFT als opwarming worden gebruikt, een matige bijdrage leveren aan RL-training in vergelijking met RL zonder voorbereiding; deze bijdrage neemt echter af naarmate taken moeilijker worden. Gemotiveerd door deze observatie construeren we synthetische datasets die systematisch variëren in het aantal backtracking-stappen en voeren we gecontroleerde experimenten uit om de invloed van ofwel de correctheid (inhoud) of de structuur (d.w.z. backtrackfrequentie) te isoleren. We ontdekken dat (1) langere CoT met backtracks over het algemeen betere en stabielere RL-training induceren, (2) uitdagendere problemen met een grotere zoekruimte doorgaans een hoger aantal backtracks nodig hebben tijdens de SFT-fase. Daarnaast tonen we via experimenten op gedistilleerde data aan dat RL-training grotendeels onaangetast blijft door de correctheid van lange CoT-sequenties, wat suggereert dat RL structurele patronen boven inhoudelijke correctheid prioriteert. Collectief bieden onze resultaten praktische inzichten voor het ontwerpen van optimale trainingsstrategieën om redeneren in LLMs effectief op te schalen.
Het begrijpen van lange video's brengt aanzienlijke uitdagingen met zich mee vanwege de uitgebreide temporeel-ruimtelijke complexiteit en de moeilijkheid van vraag-antwoordtaken in dergelijke uitgebreide contexten. Hoewel Large Language Models (LLMs) aanzienlijke vooruitgang hebben geboekt in videanalysecapaciteiten en het omgaan met lange contexten, blijven ze beperkingen vertonen bij het verwerken van informatie-intensieve video's van een uur. Om deze beperkingen te overwinnen, stellen we de Deep Video Discovery-agent voor, die gebruikmaakt van een agentische zoekstrategie over gesegmenteerde videoclips. In tegenstelling tot eerdere video-agents die een rigide workflow handmatig ontwerpen, benadrukt onze aanpak de autonome aard van agents. Door een set zoekgerichte tools te bieden op een multi-granulaire videodatabase, maakt onze DVD-agent gebruik van de geavanceerde redeneercapaciteit van LLM om te plannen op basis van de huidige observatiestatus, strategisch tools te selecteren, geschikte parameters voor acties te formuleren en de interne redenering iteratief te verfijnen in het licht van de verzamelde informatie. We voeren een uitgebreide evaluatie uit op meerdere benchmarks voor het begrijpen van lange video's, wat het voordeel van het gehele systeemontwerp aantoont. Onze DVD-agent behaalt SOTA-prestaties en overtreft eerdere werken aanzienlijk op de uitdagende LVBench-dataset. Uitgebreide ablatiestudies en diepgaande toolanalyses worden ook geboden, wat inzichten oplevert om intelligente agents verder te ontwikkelen die zijn afgestemd op taken voor het begrijpen van lange video's. De code zal later worden vrijgegeven.
Semantisch zoeken is cruciaal voor moderne toepassingen, maar blijft onderbelicht in het huidige onderzoek. Bestaande datasets zijn beperkt tot enkele talen, enkele afbeeldingen of enkele zoekcondities, en benutten vaak niet volledig het expressieve vermogen van visuele informatie, zoals blijkt uit het behouden van prestaties wanneer afbeeldingen worden vervangen door bijschriften. Praktische zoekscenario's omvatten echter vaak interleaved multi-condition zoekopdrachten met meerdere afbeeldingen. Daarom introduceert dit artikel MERIT, de eerste meertalige dataset voor interleaved multi-condition semantisch zoeken, bestaande uit 320.000 zoekopdrachten met 135.000 producten in 5 talen, die 7 verschillende productcategorieën bestrijken. Uitgebreide experimenten op MERIT identificeren een beperking van bestaande modellen: ze richten zich uitsluitend op globale semantische informatie terwijl specifieke conditionele elementen in zoekopdrachten worden verwaarloosd. Daarom stellen we Coral voor, een nieuw fine-tuning framework dat vooraf getrainde MLLM's aanpast door het integreren van embedding-reconstructie om fijnmazige conditionele elementen te behouden en contrastief leren om uitgebreide globale semantiek te extraheren. Experimenten tonen aan dat Coral een prestatieverbetering van 45,9% bereikt ten opzichte van conventionele benaderingen op MERIT, met sterke generalisatiecapaciteiten die zijn gevalideerd op 8 gevestigde zoekbenchmarks. Collectief vormen onze bijdragen - een nieuwe dataset, de identificatie van kritieke beperkingen in bestaande benaderingen en een innovatief fine-tuning framework - een basis voor toekomstig onderzoek in interleaved multi-condition semantisch zoeken.
Contrastief taal-beeld vooraf trainen brengt de kenmerken van tekst-beeldparen in een gemeenschappelijke latente ruimte uitgelijnd via afzonderlijke encoders voor elke modaliteit. Hoewel deze aanpak indrukwekkende prestaties behaalt in verschillende zero-shot taken, kan het niet van nature omgaan met multimodale invoer, d.w.z. het coderen van beeld en tekst in een enkele kenmerkvector. Als oplossing is het gangbare praktijk om aanvullende modules te gebruiken om de kenmerken die door de unimodale encoders zijn geëxtraheerd, samen te voegen. In dit werk presenteren we FuseLIP, een alternatieve architectuur voor multimodale embedding. Gebruikmakend van recente vooruitgang in discrete beeld tokenizers, stellen we voor om een enkel transformermodel te gebruiken dat werkt op een uitgebreide woordenschat van tekst- en beeldtokens. Deze vroege fusiebenadering stelt de verschillende modaliteiten in staat om op elke diepte van de codering te interageren en rijkere representaties te verkrijgen in vergelijking met gebruikelijke late fusie. We verzamelen nieuwe datasets voor multimodale vooraf training en evaluatie, waarbij we uitdagende taken ontwerpen voor multimodale encodermodellen. We tonen aan dat FuseLIP andere benaderingen overtreft in multimodale embeddingtaken zoals VQA en tekstgeleide beeldtransformatieretrieval, terwijl het vergelijkbaar is met basislijnen op unimodale taken.
Recente doorbraken in grote taalmodellen (LLMs) hebben geleid tot de ontwikkeling van nieuwe benchmarks voor het evalueren van hun prestaties in het financiële domein. Huidige financiële benchmarks zijn echter vaak gebaseerd op nieuwsartikelen, winstrapporten of aankondigingen, waardoor het moeilijk is om de real-world dynamiek van financiële vergaderingen vast te leggen. Om deze kloof te overbruggen, stellen we een nieuwe benchmark voor genaamd M^3FinMeeting, een meertalige, multi-sector en multi-task dataset die is ontworpen voor het begrijpen van financiële vergaderingen. Ten eerste ondersteunt M^3FinMeeting Engels, Chinees en Japans, wat het begrip van financiële discussies in diverse taalkundige contexten verbetert. Ten tweede omvat het verschillende industriesectoren zoals gedefinieerd door de Global Industry Classification Standard (GICS), waardoor de benchmark een breed scala aan financiële activiteiten bestrijkt. Tot slot omvat M^3FinMeeting drie taken: samenvatting, extractie van vraag-antwoord (QA) paren en vraagbeantwoording, wat een realistischer en uitgebreidere evaluatie van het begrip mogelijk maakt. Experimentele resultaten met zeven populaire LLMs laten zien dat zelfs de meest geavanceerde lang-context modellen nog aanzienlijke ruimte voor verbetering hebben, wat de effectiviteit van M^3FinMeeting als benchmark voor het beoordelen van de financiële vergaderingsvaardigheden van LLMs aantoont.
Huidige Reinforcement Fine-tuning (RFT) paradigma's voor Large Language Models (LLM's) lijden aan inefficiëntie in het gebruik van voorbeelden vanwege de overbodige blootstelling aan identieke queries onder uniforme data sampling. Hoewel eerder onderzoek curriculum learning heeft verkend via heuristische moeilijkheidsmetrieken, vertonen deze strategieën beperkingen door de intrinsieke leersignalen die door het model zelf worden gegenereerd te negeren, wat leidt tot suboptimale trainingsregimes. In dit artikel identificeren we een model-intrinsiek signaal genaamd hoekconcentratie dat effectief het vermogen van een LLM weerspiegelt om van specifieke data te leren. We tonen theoretisch en empirisch een correlatie aan tussen de hoekverdeling van token hidden state vectoren en de resulterende gradiënt, wat een leerpreferentie onthult voor data met een hogere hoekconcentratie. Geïnspireerd door deze bevinding stellen we GAIN-RL voor, een Gradient-driven Angle-Informed Navigated RL framework. Door gebruik te maken van het intrinsieke hoekconcentratiesignaal van het model, selecteert GAIN-RL dynamisch trainingsdata in elke epoch, waardoor consistente en impactvolle gradiëntupdates worden gegarandeerd en de algehele trainingsefficiëntie aanzienlijk wordt verbeterd. Empirische evaluaties tonen aan dat GAIN-RL (GRPO) een meer dan 2,5x versnelling in trainingsefficiëntie bereikt over diverse wiskundige en coderings taken en verschillende modelschalen. Bovendien resulteert de efficiënte sampling van GAIN-RL (GRPO) in data-efficiënte training, waarbij betere prestaties worden bereikt met de helft van de oorspronkelijke data in vergelijking met vanilla GRPO met volledige trainingsdata. Code is beschikbaar op https://github.com/wangqinsi1/GAINRL/tree/main.
Cultuur is een rijk en dynamisch domein dat zich ontwikkelt over zowel geografie als tijd. Bestaande studies over cultureel begrip met vision-language modellen (VLMs) leggen echter vooral de nadruk op geografische diversiteit, waarbij de cruciale temporele dimensies vaak over het hoofd worden gezien. Om deze kloof te overbruggen, introduceren we Hanfu-Bench, een nieuw, door experts samengesteld multimodaal dataset. Hanfu, een traditioneel kledingstuk dat teruggaat tot oude Chinese dynastieën, dient als een representatief cultureel erfgoed dat de diepgaande temporele aspecten van de Chinese cultuur weerspiegelt, terwijl het tegelijkertijd zeer populair blijft in de hedendaagse Chinese samenleving. Hanfu-Bench bestaat uit twee kerntaken: cultureel visueel begrip en culturele beeldtranscreatie. De eerste taak onderzoekt temporeel-culturele kenmerkherkenning op basis van enkele of meerdere afbeeldingen via meerkeuzevragen over visuele vragen, terwijl de laatste zich richt op het transformeren van traditionele kleding naar moderne ontwerpen door middel van culturele elementovererving en aanpassing aan de moderne context. Onze evaluatie toont aan dat gesloten VLMs vergelijkbaar presteren met niet-experts op het gebied van visueel cultureel begrip, maar 10\% achterblijven bij menselijke experts, terwijl open VLMs nog verder achterblijven bij niet-experts. Voor de transcreatietaak geeft een veelzijdige menselijke evaluatie aan dat het best presterende model slechts een slagingspercentage van 42\% behaalt. Onze benchmark biedt een essentiële testomgeving, die aanzienlijke uitdagingen onthult in deze nieuwe richting van temporeel cultureel begrip en creatieve aanpassing.
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft effectief visueel-taalkundig redeneren mogelijk gemaakt, maar het vermogen om video-inhoud te begrijpen blijft beperkt door suboptimale frame-selectiestrategieën. Bestaande benaderingen vertrouwen vaak op statische heuristieken of externe retrievalsystemen om frame-informatie aan video-LLMs te voeden, wat mogelijk niet de query-relevante informatie levert. In dit werk introduceren we ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), een nieuw raamwerk voor frame-level beleidsoptimalisatie dat het optimalisatiedoel verschuift van tekstuele reacties naar visuele inputselectie. ReFoCUS leert een frame-selectiebeleid via reinforcement learning, waarbij beloningssignalen afgeleid van een referentie-LMM worden gebruikt om de intrinsieke voorkeuren van het model weer te geven voor frames die het best geschikt zijn voor temporeel onderbouwde reacties. Om de grote combinatorische frame-ruimte efficiënt te verkennen, gebruiken we een autoregressieve, conditionele selectiearchitectuur die temporele samenhang waarborgt terwijl de complexiteit wordt verminderd. Onze aanpak vereist geen expliciete supervisie op frame-niveau en verbetert consequent de redeneerprestaties over meerdere video-QA-benchmarks, wat de voordelen benadrukt van het afstemmen van frameselectie op modelinterne nuttigheid.
Dit artikel richt zich op het aanpakken van de uitdagingen van onderdenken en overdenken in lange ketens van redeneringen (Chain-of-Thought, CoT) voor Grote Redeneermodellen (Large Reasoning Models, LRMs) door Reasoning Control Fields (RCF) te introduceren—een nieuwe testtijdbenadering die gestructureerde controle-signalen injecteert om redeneringen te begeleiden vanuit een boomzoekperspectief. RCF stelt modellen in staat om de inspanning voor redeneringen aan te passen op basis van gegeven controlecondities bij het oplossen van complexe taken. Daarnaast presenteren we de Control-R-4K-dataset, die bestaat uit uitdagende problemen die zijn geannoteerd met gedetailleerde redeneerprocessen en bijbehorende controlevelden. Om de controle over redeneringen verder te verbeteren, stellen we een Conditional Distillation Finetuning (CDF)-methode voor, die het model—met name Control-R-32B—trainen om effectief de redeneerinspanning tijdens testtijd aan te passen. Experimentele resultaten op benchmarks zoals AIME2024 en MATH500 tonen aan dat onze aanpak state-of-the-art prestaties bereikt op de 32B-schaal, terwijl een controleerbaar lang CoT-redeneerproces (L-CoT) mogelijk wordt gemaakt. Over het geheel genomen introduceert dit werk een effectief paradigma voor controleerbare testtijd-schaalredeneringen.
Bestaande interpolatiemethoden gebruiken vooraf getrainde video-diffusiepriors om tussenliggende frames te genereren tussen spaarzaam bemonsterde keyframes. Bij afwezigheid van 3D-geometrische begeleiding hebben deze methoden moeite om geloofwaardige resultaten te produceren voor complexe, gearticuleerde menselijke bewegingen en bieden ze beperkte controle over de gesynthetiseerde dynamiek. In dit artikel introduceren we de PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), een nieuw raamwerk dat 3D-menselijke begeleidingssignalen integreert in het diffusieproces voor Controleerbare Mensgerichte Keyframe Interpolatie (CHKI). Om rijke ruimtelijke en structurele aanwijzingen te bieden voor interpolatie, beschikt onze PoseFuse3D, een 3D-geïnformeerd controlemodel, over een nieuwe SMPL-X-encoder die 3D-geometrie en -vorm omzet in de 2D latente conditioneringsruimte, naast een fusienetwerk dat deze 3D-aanwijzingen integreert met 2D-pose-embeddings. Voor evaluatie hebben we CHKI-Video gebouwd, een nieuwe dataset geannoteerd met zowel 2D-poses als 3D SMPL-X-parameters. We laten zien dat PoseFuse3D-KI consistent state-of-the-art baselines overtreft op CHKI-Video, met een verbetering van 9% in PSNR en een reductie van 38% in LPIPS. Uitgebreide ablatie-onderzoeken tonen aan dat ons PoseFuse3D-model de interpolatiefideliteit verbetert.
De inherente complexiteiten van het Arabische schrift; zijn cursieve aard, diakritische tekens (tashkeel) en gevarieerde typografie, vormen aanhoudende uitdagingen voor Optical Character Recognition (OCR). Wij presenteren Qari-OCR, een reeks vision-language modellen afgeleid van Qwen2-VL-2B-Instruct, progressief geoptimaliseerd voor het Arabisch door iteratieve fine-tuning op gespecialiseerde synthetische datasets. Ons toonaangevende model, QARI v0.2, vestigt een nieuwe open-source state-of-the-art met een Word Error Rate (WER) van 0.160, Character Error Rate (CER) van 0.061 en een BLEU-score van 0.737 op teksten rijk aan diakritische tekens. Qari-OCR toont superieure verwerking van tashkeel, diverse lettertypen en documentlay-outs, naast indrukwekkende prestaties op afbeeldingen met lage resolutie. Verdere exploraties (QARI v0.3) tonen sterk potentieel voor structureel documentbegrip en handgeschreven tekst. Dit werk levert een aanzienlijke verbetering in nauwkeurigheid en efficiëntie van Arabische OCR, waarbij alle modellen en datasets worden vrijgegeven om verder onderzoek te bevorderen.
We onderzoeken of het succes van een zero-shot Chain-of-Thought (CoT)-proces voorspeld kan worden voordat het is voltooid. We ontdekken dat een verkennende classificator, gebaseerd op LLM-representaties, goed presteert zelfs voordat een enkel token is gegenereerd, wat suggereert dat cruciale informatie over het redeneerproces al aanwezig is in de initiële stappenrepresentaties. Daarentegen presteert een sterke BERT-gebaseerde baseline, die uitsluitend vertrouwt op de gegenereerde tokens, slechter, waarschijnlijk omdat deze afhankelijk is van oppervlakkige linguïstische signalen in plaats van diepere redeneerdynamieken. Verrassend genoeg verbetert het gebruik van latere redeneerstappen de classificatie niet altijd. Wanneer aanvullende context niet behulpzaam is, lijken eerdere representaties meer op latere, wat suggereert dat LLM's belangrijke informatie vroegtijdig coderen. Dit impliceert dat redeneren vaak vroegtijdig kan stoppen zonder verlies. Om dit te testen, voeren we vroegtijdige stopexperimenten uit, die aantonen dat het afkappen van CoT-redenering nog steeds de prestaties verbetert ten opzichte van het helemaal niet gebruiken van CoT, hoewel er een kloof blijft in vergelijking met volledige redenering. Echter, benaderingen zoals supervised learning of reinforcement learning die zijn ontworpen om CoT-ketens te verkorten, zouden de begeleiding van onze classificator kunnen benutten om te identificeren wanneer vroegtijdig stoppen effectief is. Onze bevindingen bieden inzichten die dergelijke methoden kunnen ondersteunen, waardoor de efficiëntie van CoT kan worden geoptimaliseerd terwijl de voordelen ervan behouden blijven.
Grote aanbevelingsmodellen hebben LLM's uitgebreid als krachtige aanbevelers via codering of itemgeneratie, en recente doorbraken in LLM-redenering motiveren tegelijkertijd de verkenning van redenering in aanbevelingen. Huidige studies positioneren LLM's meestal als externe redeneermodules om aanvullende gedachten te genereren voor het versterken van conventionele aanbevelingspijplijnen. Dergelijke ontkoppelde ontwerpen zijn echter beperkt in aanzienlijke resourcekosten en suboptimale gezamenlijke optimalisatie. Om deze problemen aan te pakken, stellen we \name voor, een verenigd groot aanbevelingsmodel met intrinsieke redeneercapaciteiten. Eerst herconceptualiseren we de modelarchitectuur om interleaved redenering en aanbevelingen in het autoregressieve proces te vergemakkelijken. Vervolgens stellen we RecPO voor, een bijbehorend reinforcement learning-framework dat \name\ zowel de redeneer- als aanbevelingscapaciteiten tegelijkertijd optimaliseert in een enkele policy-update; RecPO introduceert een gefuseerd beloningsschema dat uitsluitend aanbevelingslabels gebruikt om de redeneercapaciteit te simuleren, waardoor de afhankelijkheid van gespecialiseerde redeneringsannotaties wordt geëlimineerd. Experimenten op drie datasets met verschillende baselines verifiëren de effectiviteit van \name, met relatieve verbeteringen van 68,67\% in Hit@5 en 45,21\% in NDCG@20. Code beschikbaar op https://github.com/YRYangang/RRec.
Het bewerken van afbeeldingen met instructies om niet-rigide bewegingen, camerastandpuntverschuivingen, objectvervormingen, menselijke articulaties en complexe interacties weer te geven, vormt een uitdagend maar onderbelicht probleem in de computer vision. Bestaande benaderingen en datasets richten zich voornamelijk op statische scènes of rigide transformaties, wat hun vermogen beperkt om expressieve bewerkingen met dynamische bewegingen te verwerken. Om dit gat te dichten, introduceren we ByteMorph, een uitgebreid framework voor instructiegebaseerde beeldbewerking met een focus op niet-rigide bewegingen. ByteMorph bestaat uit een grootschalige dataset, ByteMorph-6M, en een krachtig basismodel gebaseerd op de Diffusion Transformer (DiT), genaamd ByteMorpher. ByteMorph-6M bevat meer dan 6 miljoen hoogwaardige beeldbewerkingsparen voor training, samen met een zorgvuldig samengesteld evaluatiebenchmark, ByteMorph-Bench. Beide omvatten een breed scala aan niet-rigide bewegingssoorten in diverse omgevingen, menselijke figuren en objectcategorieën. De dataset is geconstrueerd met behulp van beweging-gestuurde datageneratie, gelaagde compositietechnieken en geautomatiseerde bijschrijving om diversiteit, realisme en semantische samenhang te waarborgen. We voeren verder een uitgebreide evaluatie uit van recente instructiegebaseerde beeldbewerkingsmethoden uit zowel academische als commerciële domeinen.
De ontwikkeling van effectieve uitlegbaarheidstools voor Transformers is een cruciaal streven in het onderzoek naar deep learning. Een van de meest veelbelovende benaderingen op dit gebied is Layer-wise Relevance Propagation (LRP), dat relevantiescores achterwaarts door het netwerk naar de invoerruimte propageert door activatiewaarden te herverdelen op basis van vooraf gedefinieerde regels. Bestaande LRP-gebaseerde methoden voor Transformer-uitlegbaarheid negeren echter volledig een cruciaal onderdeel van de Transformer-architectuur: de positionele codering (PE), wat leidt tot een schending van de conservatie-eigenschap en het verlies van een belangrijk en uniek type relevantie, dat ook geassocieerd is met structurele en positionele kenmerken. Om deze beperking aan te pakken, herformuleren we de invoerruimte voor Transformer-uitlegbaarheid als een set van positie-tokenparen. Dit stelt ons in staat om gespecialiseerde, theoretisch onderbouwde LRP-regels voor te stellen die zijn ontworpen om attributies te propageren over verschillende positionele coderingsmethoden, waaronder Rotary, Learnable en Absolute PE. Uitgebreide experimenten met zowel fijn afgestemde classificatiemodellen als zero-shot foundation-modellen, zoals LLaMA 3, tonen aan dat onze methode de state-of-the-art aanzienlijk overtreft in zowel visuele als NLP-uitlegbaarheidstaken. Onze code is publiekelijk beschikbaar.
In-context learning (ICL) is een belangrijke maar nog niet volledig begrepen eigenschap van vooraf getrainde grote taalmodellen (LLMs). Het kan de taakprestatie aanzienlijk verbeteren met behulp van enkele voorbeelden, demonstraties genoemd, zonder fine-tuning. Hoewel ICL effectief is bij vraagbeantwoording, presteert het vaak minder goed bij langere generatietaken zoals samenvatting. Onder realistische aannames tonen we zowel empirisch als theoretisch aan dat ICL-demonstraties alleen onvoldoende zijn om LLMs de taaltaal- en formaatdistributies voor generatie aan te leren. We pleiten voor expliciete blootstelling aan de taakdistributies en stellen de hypothese dat het definiëren ervan via prompting de modelprestaties verbetert. Hiertoe presenteren we LongGuide, dat efficiënt twee parallelle stromen van richtlijnen genereert die de taaltaal- en formaateigenschappen vastleggen: (i) Metrische Richtlijnen (MGs) die modellen instrueren om zelfgeëvalueerde metrieken te optimaliseren; en (ii) Uitvoerbeperkingsrichtlijnen (OCGs) die de generatie op zowel token- als zinsniveau beperken. LongGuide selecteert automatisch de beste combinatie van richtlijnen, wat zowel sterke open-source als closed-source LLMs met meer dan 5% verbetert in zowel zero-shot als few-shot instellingen. We tonen aan dat LongGuide generaliseerbaar is, door zwakkere modellen kan worden geleerd om sterkere modellen te verbeteren, en synergetisch integreert met automatische prompt-optimalisatoren.