Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Sora heeft het immense potentieel van de Diffusion Transformer (DiT)-architectuur onthuld in het genereren van video's met één scène. De uitdagendere taak van het genereren van video's met meerdere scènes, die bredere toepassingen biedt, blijft echter relatief onderbelicht. Om deze kloof te overbruggen, stellen we Mask^2DiT voor, een nieuwe aanpak die een fijnmazige, één-op-één-afstemming tussen videosegmenten en hun bijbehorende tekstannotaties tot stand brengt. Specifiek introduceren we een symmetrisch binair masker op elke aandachtlaag binnen de DiT-architectuur, waardoor elke tekstannotatie uitsluitend van toepassing is op het bijbehorende videosegment, terwijl de temporele samenhang tussen visuele tokens behouden blijft. Dit aandachtmechanisme maakt een precieze segmentniveau tekst-naar-visuele afstemming mogelijk, waardoor de DiT-architectuur effectief om kan gaan met videogeneratietaken met een vast aantal scènes. Om de DiT-architectuur verder uit te rusten met de mogelijkheid om aanvullende scènes te genereren op basis van bestaande scènes, incorporeren we een segmentniveau conditioneel masker, dat elk nieuw gegenereerd segment conditioneert op de voorgaande videosegmenten, waardoor auto-regressieve scène-uitbreiding mogelijk wordt. Zowel kwalitatieve als kwantitatieve experimenten bevestigen dat Mask^2DiT uitblinkt in het handhaven van visuele consistentie tussen segmenten, terwijl de semantische afstemming tussen elk segment en de bijbehorende tekstbeschrijving wordt gewaarborgd. Onze projectpagina is te vinden op https://tianhao-qi.github.io/Mask2DiTProject.
In dit rapport presenteren we Qwen2.5-Omni, een end-to-end multimodaal model dat ontworpen is om diverse modaliteiten waar te nemen, waaronder tekst, afbeeldingen, audio en video, terwijl het tegelijkertijd tekst en natuurlijke spraakreacties genereert op een streaming-manier. Om de streaming van multimodale informatie-inputs mogelijk te maken, gebruiken zowel audio- als visuele encoders een bloksgewijze verwerkingsaanpak. Om de tijdstempels van video-inputs te synchroniseren met audio, organiseren we de audio en video sequentieel in een interleaved manier en introduceren we een nieuwe positionele embedding-aanpak, genaamd TMRoPE (Time-aligned Multimodal RoPE). Om gelijktijdig tekst en spraak te genereren zonder interferentie tussen de twee modaliteiten, stellen we de Thinker-Talker-architectuur voor. In dit framework fungeert Thinker als een groot taalmodel dat verantwoordelijk is voor tekstgeneratie, terwijl Talker een dual-track autoregressief model is dat direct gebruikmaakt van de verborgen representaties van de Thinker om audiotokens als output te produceren. Zowel de Thinker- als de Talker-modellen zijn ontworpen om end-to-end getraind en geïnferreerd te worden. Voor het decoderen van audiotokens op een streaming-manier introduceren we een sliding-window DiT die het receptieve veld beperkt, met als doel de initiële pakketvertraging te verminderen. Qwen2.5-Omni is vergelijkbaar met de even grote Qwen2.5-VL en presteert beter dan Qwen2-Audio. Bovendien behaalt Qwen2.5-Omni state-of-the-art prestaties op multimodale benchmarks zoals Omni-Bench. Opmerkelijk is dat de prestaties van Qwen2.5-Omni in end-to-end spraakinstructievolgen vergelijkbaar zijn met zijn mogelijkheden bij tekstinputs, zoals blijkt uit benchmarks zoals MMLU en GSM8K. Wat betreft spraakgeneratie presteert de streaming Talker van Qwen2.5-Omni beter dan de meeste bestaande streaming en niet-streaming alternatieven in robuustheid en natuurlijkheid.
Dit rapport presenteert Wan, een uitgebreide en open suite van videofundamentmodellen die zijn ontworpen om de grenzen van videogeneratie te verleggen. Gebouwd op het mainstream diffusion transformer-paradigma, bereikt Wan aanzienlijke vooruitgang in generatieve mogelijkheden door een reeks innovaties, waaronder onze nieuwe VAE, schaalbare pre-trainingsstrategieën, grootschalige datacuratie en geautomatiseerde evaluatiemetrics. Deze bijdragen versterken gezamenlijk de prestaties en veelzijdigheid van het model. Specifiek wordt Wan gekenmerkt door vier belangrijke kenmerken: Leidende Prestaties: Het 14B-model van Wan, getraind op een enorme dataset bestaande uit miljarden afbeeldingen en video's, toont de schaalwetten van videogeneratie met betrekking tot zowel data- als modelgrootte. Het presteert consistent beter dan de bestaande open-source modellen en state-of-the-art commerciële oplossingen op meerdere interne en externe benchmarks, wat een duidelijke en significante prestatie-superioriteit aantoont. Volledigheid: Wan biedt twee capabele modellen, namelijk 1.3B en 14B parameters, voor respectievelijk efficiëntie en effectiviteit. Het behandelt ook meerdere downstream-toepassingen, waaronder beeld-naar-video, instructiegestuurde videobewerking en persoonlijke videogeneratie, die tot acht taken omvatten. Consumenten-Grade Efficiëntie: Het 1.3B-model toont uitzonderlijke resource-efficiëntie, waarbij slechts 8,19 GB VRAM nodig is, waardoor het compatibel is met een breed scala aan consumenten-GPU's. Openheid: We open-sourcen de hele serie van Wan, inclusief broncode en alle modellen, met als doel de groei van de videogeneratiegemeenschap te bevorderen. Deze openheid beoogt de creatieve mogelijkheden van videoproductie in de industrie aanzienlijk uit te breiden en de academische wereld te voorzien van hoogwaardige videofundamentmodellen. Alle code en modellen zijn beschikbaar op https://github.com/Wan-Video/Wan2.1.
We introduceren Gemma 3, een multimodale toevoeging aan de Gemma-familie van lichtgewicht open modellen, variërend in schaal van 1 tot 27 miljard parameters. Deze versie introduceert visueel begrip, een bredere dekking van talen en een langere context van minimaal 128K tokens. We wijzigen ook de architectuur van het model om het KV-cache-geheugen te verminderen, dat de neiging heeft om te exploderen bij lange contexten. Dit wordt bereikt door de verhouding van lokale tot globale aandachtslagen te vergroten en de reikwijdte van lokale aandacht kort te houden. De Gemma 3-modellen worden getraind met distillatie en behalen superieure prestaties ten opzichte van Gemma 2, zowel voor de vooraf getrainde als de instructie-finetuned versies. Met name ons nieuwe post-trainingsrecept verbetert de wiskundige, chat-, instructievolgende en meertalige vaardigheden aanzienlijk, waardoor Gemma3-4B-IT concurrerend is met Gemma2-27B-IT en Gemma3-27B-IT vergelijkbaar is met Gemini-1.5-Pro in benchmarks. We stellen al onze modellen beschikbaar aan de gemeenschap.
Hoewel recente visie-taal-actie-modellen die getraind zijn op diverse robotdatasets veelbelovende generalisatiecapaciteiten vertonen met beperkte in-domein data, beperkt hun afhankelijkheid van compacte actiekoppen om gediscretiseerde of continue acties te voorspellen de aanpasbaarheid aan heterogene actieruimten. Wij presenteren Dita, een schaalbaar raamwerk dat Transformer-architecturen benut om direct continue actiesequenties te denoizen via een uniform multimodaal diffusieproces. In tegenstelling tot eerdere methoden die denoising conditioneren op gefuseerde embeddings via ondiepe netwerken, maakt Dita gebruik van in-context conditionering – waardoor een fijnmazige afstemming mogelijk wordt tussen gedenoiste acties en ruwe visuele tokens uit historische observaties. Dit ontwerp modelleert expliciet actiedelta's en omgevingsnuances. Door de diffusie-actiedenoiser te schalen naast de schaalbaarheid van de Transformer, integreert Dita effectief cross-embodiment datasets over diverse cameraperspectieven, observatiescènes, taken en actieruimten. Deze synergie verhoogt de robuustheid tegen verschillende varianten en vergemakkelijkt de succesvolle uitvoering van langetermijntaken. Evaluaties over uitgebreide benchmarks tonen state-of-the-art of vergelijkbare prestaties in simulatie. Opmerkelijk is dat Dita robuuste aanpassing aan omgevingsvarianten en complexe langetermijntaken in de echte wereld bereikt door middel van 10-shot finetuning, waarbij alleen third-person camerainput wordt gebruikt. De architectuur stelt een veelzijdige, lichtgewicht en open-source baseline vast voor generalistische robotbeleidsleren. Projectpagina: https://robodita.github.io.
We introduceren Open Deep Search (ODS) om de groeiende kloof te dichten tussen de propriëtaire zoek-AI-oplossingen, zoals Perplexity's Sonar Reasoning Pro en OpenAI's GPT-4o Search Preview, en hun open-source tegenhangers. De belangrijkste innovatie in ODS is het versterken van de redeneervaardigheden van de nieuwste open-source LLM's met redeneeragenten die op een doordachte manier gebruik kunnen maken van webzoektools om vragen te beantwoorden. Concreet bestaat ODS uit twee componenten die samenwerken met een door de gebruiker gekozen basis-LLM: Open Search Tool en Open Reasoning Agent. De Open Reasoning Agent interpreteert de gegeven taak en voltooit deze door een reeks acties te coördineren, waaronder het aanroepen van tools, waarvan de Open Search Tool er één is. De Open Search Tool is een nieuwe webzoektool die beter presteert dan propriëtaire tegenhangers. Samen met krachtige open-source redeneer-LLM's, zoals DeepSeek-R1, benadert ODS en overtreft het soms de bestaande state-of-the-art-baselines op twee benchmarks: SimpleQA en FRAMES. Op de FRAMES-evaluatiebenchmark verbetert ODS bijvoorbeeld de beste bestaande baseline van de recent uitgebrachte GPT-4o Search Preview met 9,7% in nauwkeurigheid. ODS is een algemeen raamwerk voor het naadloos versterken van elke LLM – bijvoorbeeld DeepSeek-R1, dat 82,4% behaalt op SimpleQA en 30,1% op FRAMES – met zoek- en redeneervaardigheden om state-of-the-art prestaties te bereiken: 88,3% op SimpleQA en 75,3% op FRAMES.
Meerstaps ruimtelijk redeneren omvat het begrijpen en redeneren over ruimtelijke relaties over meerdere opeenvolgende stappen, wat cruciaal is voor het aanpakken van complexe real-world toepassingen, zoals robotmanipulatie, autonome navigatie en geautomatiseerde assemblage. Om te beoordelen in hoeverre huidige Multimodale Grote Taalmodellen (MLLMs) deze fundamentele vaardigheid hebben verworven, introduceren we LEGO-Puzzels, een schaalbare benchmark ontworpen om zowel ruimtelijk begrip als sequentieel redeneren in MLLMs te evalueren via LEGO-gebaseerde taken. LEGO-Puzzels bestaat uit 1.100 zorgvuldig samengestelde visuele vraag-antwoord (VQA) voorbeelden, verdeeld over 11 verschillende taken, variërend van basis ruimtelijk begrip tot complex meerstaps redeneren. Op basis van LEGO-Puzzels voeren we een uitgebreide evaluatie uit van state-of-the-art MLLMs en ontdekken we significante beperkingen in hun ruimtelijke redeneervaardigheden: zelfs de krachtigste MLLMs kunnen slechts ongeveer de helft van de testgevallen correct beantwoorden, terwijl menselijke deelnemers een nauwkeurigheid van meer dan 90% behalen. Naast VQA-taken evalueren we ook de vaardigheden van MLLMs om LEGO-afbeeldingen te genereren aan de hand van montage-illustraties. Onze experimenten tonen aan dat alleen Gemini-2.0-Flash en GPT-4o een beperkt vermogen hebben om deze instructies te volgen, terwijl andere MLLMs ofwel de invoerafbeelding repliceren of volledig irrelevante uitvoer genereren. Over het geheel genomen legt LEGO-Puzzels kritieke tekortkomingen bloot in het ruimtelijk begrip en sequentiële redeneervermogen van bestaande MLLMs, en benadrukt het de noodzaak van verdere vooruitgang in multimodaal ruimtelijk redeneren.
Recente vooruitgang in grote multimodale modellen heeft geleid tot de opkomst van opmerkelijke generalistische capaciteiten in digitale domeinen, maar de vertaling daarvan naar fysieke agenten zoals robots blijft een aanzienlijke uitdaging. Dit rapport introduceert een nieuwe familie van AI-modellen die speciaal zijn ontworpen voor robotica en gebouwd zijn op de basis van Gemini 2.0. We presenteren Gemini Robotics, een geavanceerd Vision-Language-Action (VLA) generalistisch model dat robots direct kan aansturen. Gemini Robotics voert vloeiende en reactieve bewegingen uit om een breed scala aan complexe manipulatietaken aan te pakken, terwijl het ook robuust is tegen variaties in objecttypen en posities, ongeziene omgevingen kan verwerken en diverse, open vocabulaire instructies kan volgen. We laten zien dat Gemini Robotics met aanvullende fine-tuning gespecialiseerd kan worden voor nieuwe capaciteiten, waaronder het oplossen van langetermijn, zeer behendige taken, het leren van nieuwe kortetermijntaken vanaf slechts 100 demonstraties en het aanpassen aan volledig nieuwe robotconfiguraties. Dit wordt mogelijk gemaakt doordat Gemini Robotics voortbouwt op het Gemini Robotics-ER model, het tweede model dat we in dit werk introduceren. Gemini Robotics-ER (Embodied Reasoning) breidt de multimodale redeneercapaciteiten van Gemini uit naar de fysieke wereld, met een verbeterd ruimtelijk en temporeel begrip. Dit maakt capaciteiten mogelijk die relevant zijn voor robotica, waaronder objectdetectie, aanwijzen, traject- en grijppredicties, evenals multi-view correspondentie en 3D begrenzingsvlakpredicties. We laten zien hoe deze nieuwe combinatie een verscheidenheid aan robotica-toepassingen kan ondersteunen. We bespreken en behandelen ook belangrijke veiligheidsoverwegingen die verband houden met deze nieuwe klasse van robotica-fundamentmodellen. De Gemini Robotics-familie markeert een aanzienlijke stap in de richting van de ontwikkeling van algemeen inzetbare robots die het potentieel van AI in de fysieke wereld realiseren.
Classifier-Free Guidance (CFG) is een fundamentele techniek bij het trainen van conditionele diffusiemodellen. De gangbare praktijk voor CFG-gebaseerde training is om een enkel netwerk te gebruiken om zowel de conditionele als de onvoorwaardelijke ruisvoorspelling te leren, met een kleine dropout-rate voor de conditionering. Wij observeren echter dat het gezamenlijk leren van onvoorwaardelijke ruis met beperkte bandbreedte tijdens de training resulteert in slechte prioris voor het onvoorwaardelijke geval. Belangrijker nog, deze slechte onvoorwaardelijke ruisvoorspellingen vormen een serieuze reden voor de achteruitgang van de kwaliteit van conditionele generatie. Geïnspireerd door het feit dat de meeste CFG-gebaseerde conditionele modellen worden getraind door een basismodel met betere onvoorwaardelijke generatie te fine-tunen, laten we eerst zien dat het simpelweg vervangen van de onvoorwaardelijke ruis in CFG door die voorspeld door het basismodel de conditionele generatie aanzienlijk kan verbeteren. Verder tonen we aan dat een diffusiemodel anders dan waarop het fine-tunemodel is getraind, kan worden gebruikt voor onvoorwaardelijke ruisvervanging. We verifiëren onze bewering experimenteel met een reeks CFG-gebaseerde conditionele modellen voor zowel beeld- als videogeneratie, waaronder Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter en InstructPix2Pix.
De synergie tussen generatieve en discriminerende modellen krijgt steeds meer aandacht. Hoewel discriminerende Contrastive Language-Image Pre-Training (CLIP) uitblinkt in hoogwaardige semantiek, heeft het moeite met het waarnemen van fijnmazige visuele details. Over het algemeen nemen generatieve modellen de visuele kenmerken van CLIP als voorwaarden voor reconstructie om representaties te verbeteren. Het onderliggende principe blijft echter onderbelicht. In dit werk hebben we empirisch vastgesteld dat visueel perfecte generaties niet altijd optimaal zijn voor representatieverbetering. De essentie ligt in het effectief extraheren van fijnmazige kennis uit generatieve modellen, terwijl irrelevante informatie wordt geminimaliseerd. Om kritische factoren te onderzoeken, verdiepen we ons in drie aspecten: (1) Conditioneringsmechanismen: We ontdekten dat zelfs een klein aantal lokale tokens de moeilijkheidsgraad van reconstructie drastisch kan verminderen, wat leidt tot instortende training. We concluderen daarom dat het gebruik van alleen globale visuele tokens als voorwaarden de meest effectieve strategie is. (2) Denoising-configuraties: We merkten op dat end-to-end training overbodige informatie introduceert. Om dit aan te pakken, stellen we een tweefasige trainingsstrategie voor om het leren van nuttige visuele kennis te prioriteren. Daarnaast tonen we aan dat lichtgewicht denoisers opmerkelijke verbeteringen kunnen opleveren. (3) Generatieparadigma's: We onderzoeken zowel continue als discrete denoisers met gewenste resultaten, wat de veelzijdigheid van onze methode valideert. Door onze diepgaande verkenningen zijn we uiteindelijk tot een effectieve methode gekomen, genaamd GenHancer, die consistent beter presteert dan eerdere methoden op de MMVP-VLM-benchmark, bijvoorbeeld 6,0% op OpenAICLIP. De verbeterde CLIP kan verder worden geïntegreerd in multimodale grote taalmodellen voor betere visiegerichte prestaties. Alle modellen en codes zijn openbaar beschikbaar gemaakt.
Onlangs hebben state-of-the-art tekst-naar-beeldgeneratiemodellen, zoals Flux en Ideogram 2.0, aanzienlijke vooruitgang geboekt in het visueel weergeven van tekst op zinsniveau. In dit artikel richten we ons op de uitdagendere scenario's van visuele tekstweergave op artikelniveau en behandelen we een nieuwe taak: het genereren van hoogwaardige zakelijke content, waaronder infographics en dia's, op basis van door de gebruiker verstrekte beschrijvende prompts op artikelniveau en ultra-dichte lay-outs. De fundamentele uitdagingen zijn tweeledig: aanzienlijk langere contextlengtes en de schaarste aan hoogwaardige zakelijke contentdata. In tegenstelling tot de meeste eerdere werken die zich richten op een beperkt aantal subregio's en prompts op zinsniveau, is het veel uitdagender om precieze naleving van ultra-dichte lay-outs met tientallen of zelfs honderden subregio's in zakelijke content te waarborgen. We leveren twee belangrijke technische bijdragen: (i) de constructie van een schaalbare, hoogwaardige dataset voor zakelijke content, genaamd Infographics-650K, uitgerust met ultra-dichte lay-outs en prompts door het implementeren van een laaggewijs retrieval-augmented infographicgeneratieschema; en (ii) een lay-out-gestuurd cross-attentieschema, dat tientallen regiospecifieke prompts injecteert in een set van bijgesneden regiolatente ruimtes volgens de ultra-dichte lay-outs, en elke subregio flexibel verfijnt tijdens inferentie met behulp van een lay-out-conditie CFG. We demonstreren de sterke resultaten van ons systeem in vergelijking met eerdere SOTA-systemen zoals Flux en SD3 op onze BizEval-promptset. Daarnaast voeren we grondige ablatie-experimenten uit om de effectiviteit van elke component te verifiëren. We hopen dat onze geconstrueerde Infographics-650K en BizEval de bredere gemeenschap kunnen aanmoedigen om de vooruitgang in het genereren van zakelijke content te bevorderen.
We introduceren LogQuant, een baanbrekende 2-bit kwantiseringsmethode voor KV Cache in de inferentie van grote taalmodellen (LLM), die aanzienlijke geheugenbesparingen oplevert terwijl superieure prestaties behouden blijven. Eerdere methodes gaan ervan uit dat latere tokens belangrijker zijn of proberen belangrijke tokens te voorspellen op basis van eerdere aandachtspatronen. Beide benaderingen kunnen echter leiden tot prestatieknelpunten of frequente misvoorspellingen. LogQuant kiest voor een andere aanpak. Door een logaritmisch filtermechanisme toe te passen, comprimeert het selectief de KV Cache over de gehele context, wat betere prestaties oplevert met hetzelfde of zelfs een verlaagd geheugengebruik in vergelijking met bestaande methodes. In benchmarktests verhoogt het de doorvoersnelheid met 25% en vergroot het de batchgrootte met 60% zonder het geheugengebruik te verhogen. Voor uitdagende taken zoals Wiskunde en Code Completion verbetert LogQuant de nauwkeurigheid met 40% tot 200% bij dezelfde compressieratio, wat superieur is aan vergelijkbare technieken. LogQuant integreert moeiteloos met populaire inferentieframeworks zoals Python's transformers-bibliotheek. Implementatie is beschikbaar op https://github.com/Concyclics/LogQuantKV.
We introduceren MCTS-RAG, een nieuwe aanpak die de redeneervaardigheden van kleine taalmodelen verbetert bij kennisintensieve taken door gebruik te maken van retrieval-augmented generation (RAG) om relevante context te bieden en Monte Carlo Tree Search (MCTS) om redeneerpaden te verfijnen. MCTS-RAG integreert retrieval en redenering dynamisch via een iteratief besluitvormingsproces. In tegenstelling tot standaard RAG-methoden, die informatie doorgaans onafhankelijk van redenering ophalen en daardoor kennis suboptimaal integreren, of conventionele MCTS-redenering, die uitsluitend afhankelijk is van interne modelkennis zonder externe feiten, combineert MCTS-RAG gestructureerd redeneren met adaptieve retrieval. Deze geïntegreerde aanpak verbetert de besluitvorming, vermindert hallucinaties en zorgt voor een betere feitelijke nauwkeurigheid en responsconsistentie. De experimentele resultaten op meerdere redeneer- en kennisintensieve datasets (zoals ComplexWebQA, GPQA en FoolMeTwice) laten zien dat onze methode kleine taalmodelen in staat stelt om prestaties te bereiken die vergelijkbaar zijn met frontier LLM's zoals GPT-4o door het effectief schalen van rekentijd tijdens inferentie, waarmee een nieuwe standaard wordt gezet voor redeneren in kleine modellen.
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt op het gebied van videogeneratie. Hun iteratieve ruisverwijderingsproces vereist echter een groot aantal inferentiestappen om een video te genereren, wat traag en rekenkundig kostbaar is. In dit artikel beginnen we met een gedetailleerde analyse van de uitdagingen in bestaande diffusiedistillatiemethoden en stellen we een nieuwe efficiënte methode voor, genaamd AccVideo, om de inferentiestappen te verminderen voor het versnellen van videodiffusiemodellen met een synthetische dataset. We maken gebruik van het vooraf getrainde videodiffusiemodel om meerdere geldige ruisverwijderingstrajecten te genereren als onze synthetische dataset, waardoor het gebruik van nutteloze datapunten tijdens de distillatie wordt geëlimineerd. Op basis van de synthetische dataset ontwerpen we een trajectgebaseerde begeleiding met weinig stappen die belangrijke datapunten uit de ruisverwijderingstrajecten benut om de ruis-naar-video-mapping te leren, waardoor videogeneratie in minder stappen mogelijk wordt. Bovendien, aangezien de synthetische dataset de dataverdeling bij elke diffusietijdstap vastlegt, introduceren we een adversariaal trainingsstrategie om de uitvoerverdeling van het studentenmodel af te stemmen op die van onze synthetische dataset, waardoor de videokwaliteit wordt verbeterd. Uitgebreide experimenten tonen aan dat ons model een 8,5x verbetering in generatiesnelheid bereikt in vergelijking met het leraarmodel, terwijl vergelijkbare prestaties worden behouden. In vergelijking met eerdere versnellingsmethoden is onze aanpak in staat om video's van hogere kwaliteit en resolutie te genereren, d.w.z. 5 seconden, 720x1280, 24 fps.
De overgang van System 1 naar System 2 redeneren in grote taalmodellen (LLMs) heeft aanzienlijke vooruitgang geboekt in het omgaan met complexe taken door middel van doelgericht, iteratief denken. Deze vooruitgang gaat echter vaak ten koste van efficiëntie, aangezien modellen de neiging hebben om te overdenken, wat resulteert in overbodige redeneerstappen zonder proportionele verbeteringen in de uitvoerkwaliteit. Long-to-Short (L2S) redeneren is naar voren gekomen als een veelbelovende oplossing voor deze uitdaging, met als doel een balans te vinden tussen redeneerdiepte en praktische efficiëntie. Hoewel bestaande benaderingen, zoals supervised fine-tuning (SFT), reinforcement learning (RL) en prompt engineering, potentieel hebben getoond, zijn ze ofwel rekenintensief of instabiel. Model merging biedt daarentegen een kosteneffectief en robuust alternatief door de snelle denkcapaciteiten van System 1-modellen te integreren met de methodische redenering van System 2-modellen. In dit werk presenteren we een uitgebreide empirische studie naar model merging voor L2S redeneren, waarbij we diverse methodologieën onderzoeken, waaronder taakvector-gebaseerde, SVD-gebaseerde en activatie-geïnformeerde merging. Onze experimenten tonen aan dat model merging de gemiddelde responslengte met tot wel 55% kan verminderen, terwijl de baselineprestaties behouden blijven of zelfs verbeterd worden. We identificeren ook een sterke correlatie tussen modelschaal en merging-effectiviteit door uitgebreide evaluaties op 1,5B/7B/14B/32B modellen. Daarnaast onderzoeken we het vermogen van het samengevoegde model om zelf te reflecteren en zichzelf te corrigeren, evenals de adaptieve responslengte op basis van taakcomplexiteit. Onze bevindingen benadrukken model merging als een zeer efficiënt en effectief paradigma voor L2S redeneren, dat een praktische oplossing biedt voor het overdenkprobleem terwijl de robuustheid van System 2 redeneren behouden blijft. Dit werk is te vinden op Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft veelbelovende resultaten getoond in Autonome Rijsytemen (ADS). Hun directe toepassing in ADS wordt echter belemmerd door uitdagingen zoals misinterpretatie van verkeerskennis, complexe wegcondities en diverse voertuigtoestanden. Om deze uitdagingen aan te pakken, stellen wij het gebruik van Kennisbewerking voor, waarmee gerichte aanpassingen aan het gedrag van een model mogelijk zijn zonder volledige hertraining. Tegelijkertijd introduceren wij ADS-Edit, een multimodaal kennisbewerkingsdataset specifiek ontworpen voor ADS, dat diverse real-world scenario's, meerdere datatypes en uitgebreide evaluatiemetrics omvat. Wij voeren uitgebreide experimenten uit en trekken verschillende interessante conclusies. Wij hopen dat ons werk zal bijdragen aan de verdere vooruitgang van kennisbewerkingsapplicaties op het gebied van autonoom rijden. Code en data zijn beschikbaar op https://github.com/zjunlp/EasyEdit.
Proces-gestuurde beloningsmodellen fungeren als een gedetailleerde functie die stap-voor-stap feedback geeft aan modelresponsen, waardoor een effectieve selectie van redeneertrajecten voor complexe taken wordt gefaciliteerd. Ondanks de voordelen blijft evaluatie van PRM's (Process Reward Models) onderbelicht, vooral in het multimodale domein. Om deze leemte aan te pakken, benchmarkt dit artikel eerst huidige vision large language models (VLLM's) als twee typen beloningsmodellen: output beloningsmodellen (ORM's) en proces beloningsmodellen (PRM's) op meerdere vision-language benchmarks. Dit laat zien dat noch ORM noch PRM consistent beter presteert over alle taken, en dat superieure VLLM's niet noodzakelijkerwijs tot betere beloningsprestaties leiden. Om de evaluatie verder te bevorderen, introduceren we ViLBench, een vision-language benchmark die intensieve procesbeloningssignalen vereist. Opvallend is dat OpenAI's GPT-4o met Chain-of-Thought (CoT) slechts 27,3% nauwkeurigheid behaalt, wat de uitdaging van de benchmark voor huidige VLLM's onderstreept. Tot slot tonen we voorlopig een veelbelovende weg om de kloof tussen algemene VLLM's en beloningsmodellen te overbruggen — door het verzamelen van 73,6K vision-language procesbeloningsgegevens met behulp van een verbeterd boomzoekalgoritme, is ons 3B-model in staat een gemiddelde verbetering van 3,3% te behalen ten opzichte van standaard CoT en tot 2,5% vergeleken met zijn ongetrainde tegenhanger op ViLBench door generaties van OpenAI o1 te selecteren. We maken de implementaties beschikbaar op https://ucsc-vlaa.github.io/ViLBench met onze code, model en gegevens.
Computervisie-modellen blijken vooroordelen te vertonen en te versterken over een breed scala aan datasets en taken. Bestaande methoden voor het kwantificeren van vooroordelen in classificatiemodellen richten zich voornamelijk op datasetdistributie en modelprestaties op subgroepen, waarbij de interne werking van een model over het hoofd wordt gezien. Wij introduceren de Attention-IoU (Attention Intersection over Union) metriek en gerelateerde scores, die aandachtkaarten gebruiken om vooroordelen binnen de interne representaties van een model te onthullen en beeldkenmerken te identificeren die mogelijk de vooroordelen veroorzaken. Eerst valideren we Attention-IoU op de synthetische Waterbirds-dataset, waarbij we aantonen dat de metriek modelvooroordelen nauwkeurig meet. Vervolgens analyseren we de CelebA-dataset en ontdekken dat Attention-IoU correlaties blootlegt die verder gaan dan nauwkeurigheidsverschillen. Door individuele attributen te onderzoeken via het beschermde attribuut 'Man', bestuderen we de verschillende manieren waarop vooroordelen in CelebA worden gerepresenteerd. Ten slotte demonstreren we, door het subsamplen van de trainingsset om attribuutcorrelaties te veranderen, dat Attention-IoU potentiële verstorende variabelen onthult die niet aanwezig zijn in de datasetlabels.
In veel robotica- en VR/AR-toepassingen veroorzaken snelle camerabewegingen een hoog niveau van bewegingsonscherpte, waardoor bestaande methoden voor camerapose-schatting falen. In dit werk stellen we een nieuw raamwerk voor dat bewegingsonscherpte benut als een rijke aanwijzing voor beweging-schatting, in plaats van het te behandelen als een ongewenst artefact. Onze aanpak werkt door een dicht bewegingsstroomveld en een monocular dieptekaart direct uit een enkele bewegingsonscherpe afbeelding te voorspellen. Vervolgens herstellen we de momentane camerasnelheid door een lineair kleinste-kwadratenprobleem op te lossen onder de aanname van kleine beweging. In essentie produceert onze methode een IMU-achtige meting die snelle en agressieve camerabewegingen robuust vastlegt. Om ons model te trainen, construeren we een grootschalige dataset met realistische synthetische bewegingsonscherpte afgeleid van ScanNet++v2 en verfijnen we ons model verder door end-to-end te trainen op echte data met behulp van onze volledig differentieerbare pijplijn. Uitgebreide evaluaties op real-world benchmarks tonen aan dat onze methode state-of-the-art schattingen van hoek- en translatiesnelheid bereikt, en huidige methoden zoals MASt3R en COLMAP overtreft.
Kennisdistillatie kan een kosteneffectieve techniek zijn om kennis te destilleren in grote taalmodelen, indien de uitvoerlogits van de leraar vooraf kunnen worden berekend en opgeslagen. Het succesvol toepassen hiervan tijdens voorafgaande training blijft echter grotendeels onontgonnen. In dit werk tonen we aan dat naïeve benaderingen voor sparse kennisdistillatie, zoals het opslaan van Top-K waarschijnlijkheden, hoewel intuïtief, bevooroordeelde schattingen van de waarschijnlijkheidsverdeling van de leraar aan de student geven, wat resulteert in suboptimale prestaties en calibratie. We stellen een op importance sampling gebaseerde methode voor, genaamd `Random Sampling Knowledge Distillation', die onbevooroordeelde schattingen biedt, de gradiënt in verwachting behoudt en aanzienlijk sparser logits vereist om op te slaan. Onze methode maakt snellere training van studentmodellen mogelijk met een marginale overhead (<10%) in vergelijking met training op basis van kruisingsentropie, terwijl competitieve prestaties worden behouden in vergelijking met volledige distillatie, over een reeks modelgroottes van 300M tot 3B.
Recente vooruitgang in autoregressieve en diffusiemodellen heeft geleid tot sterke prestaties in het genereren van afbeeldingen met korte scènetekstwoorden. Het genereren van samenhangende, langere tekst in afbeeldingen, zoals alinea's in presentaties of documenten, blijft echter een grote uitdaging voor huidige generatieve modellen. Wij presenteren het eerste werk dat specifiek gericht is op het genereren van lange tekst in afbeeldingen, waarmee we een kritische leemte in bestaande tekst-naar-afbeelding systemen aanpakken die doorgaans alleen korte zinnen of enkele zinnen verwerken. Door een uitgebreide analyse van state-of-the-art autoregressieve generatiemodellen, identificeren we de afbeeldingstokenizer als een kritieke bottleneck in de kwaliteit van tekstgeneratie. Om dit aan te pakken, introduceren we een nieuwe, tekstgerichte binaire tokenizer die is geoptimaliseerd voor het vastleggen van gedetailleerde scènetekstkenmerken. Met behulp van onze tokenizer ontwikkelen we \ModelName, een multimodaal autoregressief model dat uitblinkt in het genereren van hoogwaardige afbeeldingen met lange tekst met ongekende nauwkeurigheid. Ons model biedt robuuste aanpasbaarheid, waardoor het mogelijk is om tekstkenmerken zoals lettertype, grootte, kleur en uitlijning aan te passen. Uitgebreide experimenten tonen aan dat \ModelName~aanzienlijk beter presteert dan SD3.5 Large~sd3 en GPT4o~gpt4o met DALL-E 3~dalle3 in het nauwkeurig, consistent en flexibel genereren van lange tekst. Naast de technische prestaties opent \ModelName~spannende mogelijkheden voor innovatieve toepassingen zoals het genereren van interleaved documenten en PowerPoint-presentaties, waarmee een nieuw tijdperk in het genereren van lange tekst in afbeeldingen wordt ingeluid.
Versterkend leren (Reinforcement Learning, RL) is een cruciaal onderdeel van de na-training van grote taalmodellen (Large Language Models, LLM). De bestaande on-policy algoritmen die voor na-training worden gebruikt, zijn echter inherent onverenigbaar met het gebruik van experience replay buffers, die op schaalbare wijze kunnen worden gevuld door gedistribueerde off-policy actoren om de exploratie te verbeteren naarmate de rekenkracht toeneemt. Wij stellen voor om dit voordeel van replay buffers efficiënt te benutten via Trajectory Balance with Asynchrony (TBA), een enorm schaalbaar RL-systeem voor LLM. In tegenstelling tot bestaande benaderingen gebruikt TBA een groter deel van de rekenkracht voor zoekacties, waarbij voortdurend off-policy data wordt gegenereerd voor een centrale replay buffer. Een trainingsnode bemonstert tegelijkertijd data uit deze buffer op basis van beloning of recentheid om het beleid bij te werken met behulp van Trajectory Balance (TB), een op diversiteit gericht RL-doel dat is geïntroduceerd voor GFlowNets. TBA biedt drie belangrijke voordelen: (1) ontkoppelde training en zoekacties, waardoor de trainingsduur met 4x of meer wordt verkort; (2) verbeterde diversiteit door grootschalige off-policy bemonstering; en (3) schaalbare zoekacties voor omgevingen met schaarse beloningen. Op het gebied van wiskundig redeneren, voorkeursafstemming en geautomatiseerde red-teaming (diverse en representatieve na-trainings taken), levert TBA snelheids- en prestatieverbeteringen op ten opzichte van sterke basislijnen.
Categorieniveau 3D/6D pose-estimatie is een cruciale stap naar een uitgebreid 3D-scènebegrip, wat een breed scala aan toepassingen in robotica en embodied AI mogelijk zou maken. Recente werken onderzochten neurale mesh-modellen die een reeks 2D- en 3D-taken benaderen vanuit een analyse-door-synthese perspectief. Ondanks de aanzienlijk verbeterde robuustheid tegen gedeeltelijke occlusie en domeinverschuivingen, waren deze methoden sterk afhankelijk van 3D-annotaties voor part-contrastief leren, wat hen beperkt tot een smalle set categorieën en efficiënte schaalbaarheid belemmert. In dit werk presenteren we DINeMo, een nieuw neuraal mesh-model dat wordt getraind zonder 3D-annotaties door gebruik te maken van pseudo-correspondentie verkregen uit grote visuele foundation-modellen. We hanteren een bidirectionele methode voor het genereren van pseudo-correspondentie, die pseudo-correspondentie produceert door zowel lokale uiterlijkkenmerken als globale contextinformatie te benutten. Experimentele resultaten op auto-datasets tonen aan dat onze DINeMo eerdere zero- en few-shot 3D pose-estimatie met ruime marge overtreft, waarbij de kloof met volledig begeleide methoden met 67,3% wordt verkleind. Onze DINeMo schaalt ook effectief en efficiënt wanneer meer ongelabelde afbeeldingen tijdens de training worden opgenomen, wat de voordelen aantoont ten opzichte van begeleide leermethoden die afhankelijk zijn van 3D- annotaties. Onze projectpagina is beschikbaar op https://analysis-by-synthesis.github.io/DINeMo/.
Het schatten van beweging in video's is een essentieel computer vision-probleem met veel downstream toepassingen, waaronder controleerbare videogeneratie en robotica. Huidige oplossingen worden voornamelijk getraind met synthetische data of vereisen afstemming van situatiespecifieke heuristieken, wat inherent de mogelijkheden van deze modellen in real-world contexten beperkt. Ondanks recente ontwikkelingen in grootschalige zelfgesuperviseerde learning van video's, blijft het benutten van dergelijke representaties voor bewegingsschatting relatief onderbelicht. In dit werk ontwikkelen we Opt-CWM, een zelfgesuperviseerde techniek voor flow- en occlusieschatting vanuit een vooraf getraind next-frame voorspellingsmodel. Opt-CWM werkt door het leren optimaliseren van counterfactual probes die bewegingsinformatie extraheren uit een basisvideomodel, waardoor de noodzaak voor vaste heuristieken wordt vermeden terwijl wordt getraind op onbeperkte video-invoer. We behalen state-of-the-art prestaties voor bewegingsschatting op real-world video's zonder gelabelde data te vereisen.
Score-based of diffusiemodellen genereren hoogwaardige tabelgegevens en overtreffen GAN-gebaseerde en VAE-gebaseerde modellen. Deze methoden vereisen echter aanzienlijke trainingsduur. In dit artikel introduceren we RecTable, dat gebruikmaakt van rectified flow-modellering, zoals toegepast in tekst-naar-beeldgeneratie en tekst-naar-videogeneratie. RecTable kenmerkt zich door een eenvoudige architectuur die bestaat uit enkele gestapelde gated linear unit-blokken. Daarnaast zijn onze trainingsstrategieën ook eenvoudig, waarbij een gemengde ruisverdeling en een logit-normale tijdsstapverdeling worden geïntegreerd. Onze experimenten tonen aan dat RecTable competitieve prestaties behaalt in vergelijking met verschillende state-of-the-art diffusie- en score-based modellen, terwijl de benodigde trainingsduur wordt verkort. Onze code is beschikbaar op https://github.com/fmp453/rectable.
Documentstructuuranalyse, ook wel documentlay-outanalyse genoemd, is cruciaal voor het begrijpen van zowel de fysieke lay-out als de logische structuur van documenten, en dient doeleinden zoals informatieherwinning, documentsamenvatting en kennisextractie. Hiërarchische Documentstructuuranalyse (HDSA) richt zich specifiek op het herstellen van de hiërarchische structuur van documenten die zijn gemaakt met behulp van auteurssoftware met hiërarchische schema's. Eerder onderzoek volgde voornamelijk twee benaderingen: de ene richt zich op het aanpakken van specifieke subtaken van HDSA in isolatie, zoals tabeldetectie of leesvolgordevoorspelling, terwijl de andere een geïntegreerd framework gebruikt met meerdere takken of modules, elk ontworpen om een afzonderlijke taak aan te pakken. In dit werk stellen we een geïntegreerde relatievoorspellingsbenadering voor HDSA voor, genaamd UniHDSA, die verschillende HDSA-subtaken behandelt als relatievoorspellingsproblemen en relatievoorspellingslabels consolideert in een geïntegreerde labelruimte. Hierdoor kan een enkele relatievoorspellingsmodule meerdere taken tegelijkertijd aanpakken, zowel op paginaniveau als op documentniveau. Om de effectiviteit van UniHDSA te valideren, ontwikkelen we een multimodaal end-to-end systeem gebaseerd op Transformer-architecturen. Uitgebreide experimentele resultaten tonen aan dat onze benadering state-of-the-art prestaties bereikt op een benchmark voor hiërarchische documentstructuuranalyse, Comp-HRDoc, en competitieve resultaten op een grootschalige documentlay-outanalyse dataset, DocLayNet, wat de superioriteit van onze methode over alle subtaken effectief illustreert. De Comp-HRDoc benchmark en de configuraties van UniHDSA zijn publiekelijk beschikbaar op https://github.com/microsoft/CompHRDoc.
Het voorspellen van overleving bij borstkanker in computationele pathologie vormt een aanzienlijke uitdaging vanwege tumorheterogeniteit. Zo kunnen verschillende regio's van dezelfde tumor in het pathologiebeeld verschillende morfologische en moleculaire kenmerken vertonen. Dit maakt het moeilijk om representatieve kenmerken te extraheren uit whole slide images (WSI's) die werkelijk het agressieve potentieel van de tumor en de waarschijnlijke overlevingsuitkomsten weerspiegelen. In dit artikel presenteren we PathoHR, een nieuwe pijplijn voor nauwkeurige voorspelling van overleving bij borstkanker, die pathologische beelden van elke grootte verbetert om effectievere kenmerklearning mogelijk te maken. Onze aanpak omvat (1) de integratie van een plug-and-play high-resolution Vision Transformer (ViT) om de patch-gewijze WSI-representatie te verbeteren, waardoor gedetailleerdere en uitgebreidere kenmerkenextractie mogelijk wordt, (2) de systematische evaluatie van meerdere geavanceerde gelijkenismetrieken voor het vergelijken van uit WSI's geëxtraheerde kenmerken, waardoor het representatielearningproces wordt geoptimaliseerd om tumor kenmerken beter vast te leggen, (3) de demonstratie dat kleinere beeldpatches die volgens de voorgestelde pijplijn zijn verbeterd, een gelijke of superieure voorspellingsnauwkeurigheid kunnen bereiken in vergelijking met onbewerkte grotere patches, terwijl de computationele overhead aanzienlijk wordt verminderd. Experimentele bevindingen bevestigen dat PathoHR een potentiële manier biedt om verbeterde beeldresolutie te integreren met geoptimaliseerde kenmerklearning om computationele pathologie vooruit te helpen, en zo een veelbelovende richting biedt voor nauwkeurigere en efficiëntere voorspelling van overleving bij borstkanker. Code zal beschikbaar zijn op https://github.com/AIGeeksGroup/PathoHR.
Schrijfassistenten (bijv. Grammarly, Microsoft Copilot) genereren traditioneel diverse beeldbeschrijvingen door syntactische en semantische variaties te gebruiken om beeldcomponenten te beschrijven. Mensgeschreven bijschriften leggen echter de nadruk op het overbrengen van een centrale boodschap naast visuele beschrijvingen met behulp van pragmatische aanwijzingen. Om de pragmatische diversiteit te vergroten, is het essentieel om alternatieve manieren te verkennen om deze boodschappen in samenhang met visuele inhoud te communiceren. Om deze uitdaging aan te pakken, stellen we RONA voor, een nieuwe promptstrategie voor Multi-modale Grote Taalmodellen (MLLM) die Coherentie Relaties gebruikt als variatie-as. We tonen aan dat RONA bijschriften genereert met een betere algehele diversiteit en afstemming op de grondwaarheid, vergeleken met MLLM-baselines in meerdere domeinen. Onze code is beschikbaar op: https://github.com/aashish2000/RONA