Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Om het knelpunt van nauwkeurige interpretatie van gebruikersintentie binnen de huidige videogeneratiegemeenschap aan te pakken, presenteren we Any2Caption, een nieuw raamwerk voor controleerbare videogeneratie onder elke conditie. Het kernidee is om verschillende stappen van conditie-interpretatie te ontkoppelen van de stap van videosynthese. Door gebruik te maken van moderne multimodale grote taalmodellen (MLLMs), interpreteert Any2Caption diverse invoer--tekst, afbeeldingen, video's en gespecialiseerde signalen zoals regio, beweging en cameraposities--in dichte, gestructureerde bijschriften die backbone-videogeneratoren betere begeleiding bieden. We introduceren ook Any2CapIns, een grootschalige dataset met 337K instanties en 407K condities voor instructieafstemming van elke-conditie-naar-bijschrift. Uitgebreide evaluaties tonen significante verbeteringen van ons systeem aan in controleerbaarheid en videokwaliteit op verschillende aspecten van bestaande videogeneratiemodellen. Projectpagina: https://sqwu.top/Any2Cap/
De opkomst van Large Language Models (LLMs) als evaluatoren biedt een schaalbare alternatief voor menselijke annotatie, maar bestaande benaderingen van Supervised Fine-Tuning (SFT) voor beoordelaars schieten vaak tekort in domeinen die complexe redenering vereisen. In dit werk onderzoeken we of LLM-beoordelaars daadwerkelijk baat hebben bij verbeterde redeneervaardigheden. Door een gedetailleerde analyse van de redeneereisen in evaluatietaken, onthullen we een negatieve correlatie tussen de prestatieverbeteringen van SFT en het aandeel van monsters die veel redenering vereisen – wat de beperkingen van SFT in dergelijke scenario's benadrukt. Om dit aan te pakken, introduceren we JudgeLRM, een familie van beoordelingsgerichte LLMs die zijn getraind met reinforcement learning (RL) met beoordelaarsgerichte, uitkomstgestuurde beloningen. JudgeLRM-modellen presteren consistent beter dan zowel SFT-getunede als state-of-the-art redeneermodellen. Opmerkelijk is dat JudgeLRM-3B GPT-4 overtreft, en JudgeLRM-7B DeepSeek-R1 met 2,79% verslaat in F1-score, met name uitblinkend in beoordelingstaken die diepe redenering vereisen.
Zachte aandacht is een cruciaal mechanisme dat LLM's in staat stelt om relevante delen binnen een gegeven context te lokaliseren. Echter, individuele aandachtswaarden worden bepaald door de gelijkenis van slechts één query- en sleuteltokenvector. Deze "enkele token aandacht" beperkt de hoeveelheid informatie die wordt gebruikt om een relevant deel van de rest van de context te onderscheiden. Om dit probleem aan te pakken, stellen we een nieuwe aandachtmethode voor, Multi-Token Attention (MTA), waarmee LLM's hun aandachtswaarden kunnen conditioneren op meerdere query- en sleutelvectoren tegelijkertijd. Dit wordt bereikt door convolutiebewerkingen toe te passen op queries, sleutels en heads, waardoor nabijgelegen queries en sleutels elkaars aandachtswaarden kunnen beïnvloeden voor preciezere aandacht. Als gevolg hiervan kan onze methode relevante context lokaliseren met behulp van rijkere, genuanceerdere informatie die de capaciteit van een enkele vector kan overstijgen. Door uitgebreide evaluaties tonen we aan dat MTA een verbeterde prestaties behaalt op een reeks populaire benchmarks. Met name overtreft het Transformer-basismodellen op standaard taalmodelleertaken, en op taken die vereisen dat er informatie wordt gezocht binnen lange contexten, waar het vermogen van onze methode om rijkere informatie te benutten bijzonder nuttig blijkt.
Recente vooruitgang in Chain of Thought (COT)-generatie heeft de redeneervaardigheden van Large Language Models (LLMs) aanzienlijk verbeterd, waarbij reinforcement learning (RL) naar voren is gekomen als een effectieve post-trainingsaanpak. Multimodale Large Language Models (MLLMs) erven dit redeneervermogen, maar blijven onderbelicht in taken die zowel perceptie als logisch redeneren vereisen. Om dit aan te pakken, introduceren we SEED-Bench-R1, een benchmark ontworpen om post-trainingsmethoden voor MLLMs systematisch te evalueren in videobegrip. Het omvat complexe real-world video's en alledaagse planningsopdrachten in de vorm van meerkeuzevragen, waarvoor geavanceerde perceptie en redenering nodig zijn. SEED-Bench-R1 beoordeelt generalisatie via een drie niveaus tellende hiërarchie: in-distributie, cross-omgeving en cross-omgeving-taakscenario's, uitgerust met een grootschalige trainingsdataset met eenvoudig verifieerbare grondwaarheid-antwoorden. Met Qwen2-VL-Instruct-7B als basismodel vergelijken we RL met supervised fine-tuning (SFT), waarbij we de data-efficiëntie en superieure prestaties van RL aantonen, zowel voor in-distributie als out-of-distributie taken, en zelfs SFT overtreffen op algemene videobegrip-benchmarks zoals LongVideoBench. Onze gedetailleerde analyse toont aan dat RL visuele perceptie verbetert, maar vaak minder logisch coherente redeneerketens produceert. We identificeren belangrijke beperkingen zoals inconsistent redeneren en over het hoofd geziene visuele aanwijzingen, en suggereren toekomstige verbeteringen in basismodelredenering, beloningsmodellering en RL-robuustheid tegen ruisige signalen.
De reproductie van state-of-the-art multimodale LLM-pre-training stuit op barrières in elke fase van de pijplijn, waaronder hoogwaardige datafiltering, multimodale datamengstrategieën, sequentiepakkingstechnieken en trainingsframeworks. Wij introduceren Open-Qwen2VL, een volledig open-source Multimodaal Taalmodel met 2B parameters, efficiënt voorgetraind op 29M afbeelding-tekstparen met slechts 442 A100-40G GPU-uren. Onze aanpak maakt gebruik van dynamische afbeeldingsresolutie van laag naar hoog en multimodale sequentiepakking om de pre-trainingefficiëntie aanzienlijk te verbeteren. De trainingsdataset werd zorgvuldig samengesteld met behulp van zowel MLLM-gebaseerde filtertechnieken (bijv. MLM-Filter) als conventionele CLIP-gebaseerde filtermethoden, wat de data kwaliteit en trainingsefficiëntie aanzienlijk verbeterde. De Open-Qwen2VL-pre-training wordt uitgevoerd op academisch niveau met 8xA100-40G GPU's aan de UCSB op 5B gepakte multimodale tokens, wat 0,36% is van de 1,4T multimodale pre-trainingtokens van Qwen2-VL. De uiteindelijke instructie-afgestemde Open-Qwen2VL presteert beter dan het gedeeltelijk open-source state-of-the-art MLLM Qwen2-VL-2B op verschillende multimodale benchmarks van MMBench, SEEDBench, MMstar en MathVista, wat de opmerkelijke trainingsefficiëntie van Open-Qwen2VL aantoont. Wij maken alle aspecten van ons werk open-source, inclusief compute-efficiënte en data-efficiënte trainingsdetails, datafiltermethoden, sequentiepakking scripts, pre-trainingdata in WebDataset-formaat, FSDP-gebaseerde trainingscodebase, en zowel de basis- als instructie-afgestemde modelcheckpoints. Wij herdefiniëren "volledig open" voor multimodale LLM's als de volledige release van: 1) de trainingscodebase, 2) gedetailleerde datafiltertechnieken, en 3) alle pre-training en supervised fine-tuning data die gebruikt zijn om het model te ontwikkelen.
Inductieve programma-synthese, of programmeren aan de hand van voorbeelden, vereist het synthetiseren van functies op basis van invoer-uitvoervoorbeelden die generaliseren naar onbekende invoer. Hoewel grote taalmodellen belofte hebben getoond bij programmeertaken die worden begeleid door natuurlijke taal, is hun vermogen om inductieve programma-synthese uit te voeren nog onvoldoende onderzocht. Bestaande evaluatieprotocollen vertrouwen op statische sets van voorbeelden en achtergehouden tests, waarbij geen feedback wordt gegeven wanneer gesynthetiseerde functies incorrect zijn en waarbij geen rekening wordt gehouden met realistische scenario's zoals reverse engineering. Wij stellen CodeARC voor, de Code Abstraction and Reasoning Challenge, een nieuw evaluatiekader waarbij agents interacteren met een verborgen doel-functie door deze te bevragen met nieuwe invoer, kandidaat-functies te synthetiseren, en hun oplossingen iteratief te verfijnen met behulp van een differentieel testorakel. Deze interactieve setting moedigt agents aan om functie-aanroepen en zelfcorrectie uit te voeren op basis van feedback. We hebben de eerste grootschalige benchmark geconstrueerd voor algemeen-toepasbare inductieve programma-synthese, met 1114 functies. Van de 18 geëvalueerde modellen presteert o3-mini het beste met een slagingspercentage van 52,7%, wat de moeilijkheid van deze taak benadrukt. Het fine-tunen van LLaMA-3.1-8B-Instruct op gecureerde synthesesporen resulteert in een relatieve prestatieverbetering van tot 31%. CodeARC biedt een realistischer en uitdagender testomgeving voor het evalueren van LLM-gebaseerde programma-synthese en inductief redeneren.
Visuele zelf-supervisie (Visual Self-Supervised Learning, SSL) presteert momenteel minder goed dan Contrastive Language-Image Pretraining (CLIP) in multimodale settings zoals Visual Question Answering (VQA). Deze multimodale kloof wordt vaak toegeschreven aan de semantiek die wordt geïntroduceerd door taalsupervisie, ook al worden visuele SSL- en CLIP-modellen vaak getraind op verschillende data. In dit werk stellen we de vraag: "Lopen visuele zelf-supervisiebenaderingen achter op CLIP vanwege het ontbreken van taalsupervisie, of vanwege verschillen in de trainingsdata?" We onderzoeken deze vraag door zowel visuele SSL- als CLIP-modellen te trainen op dezelfde MetaCLIP-data, en VQA te gebruiken als een divers testbed voor visuele encoders. In deze gecontroleerde opzet schalen visuele SSL-modellen beter dan CLIP-modellen wat betreft data en modelcapaciteit, en verzadigt de prestaties van visuele SSL niet, zelfs niet na opschaling tot 7B parameters. Als gevolg hiervan observeren we dat visuele SSL-methoden CLIP-niveau prestaties bereiken op een breed scala aan VQA- en klassieke visuele benchmarks. Deze bevindingen tonen aan dat pure visuele SSL op grote schaal kan concurreren met visuele voorpretraining met taalsupervisie, wat nieuwe mogelijkheden opent voor visie-gerichte representatielearning.
Ondanks opmerkelijke vooruitgang in videodiepteschatting, vertonen bestaande methoden inherente beperkingen in het bereiken van geometrische nauwkeurigheid door middel van affiene-invariante voorspellingen, wat hun toepasbaarheid in reconstructie en andere metrisch onderbouwde downstreamtaken beperkt. Wij stellen GeometryCrafter voor, een nieuw raamwerk dat hoogwaardige puntenkaartsequenties met temporele samenhang herstelt uit open-wereldvideo's, waardoor nauwkeurige 3D/4D-reconstructie, cameraparameterschatting en andere dieptegebaseerde toepassingen mogelijk worden. De kern van onze aanpak bestaat uit een puntenkaart Variational Autoencoder (VAE) die een latente ruimte leert die onafhankelijk is van videolatente verdelingen voor effectieve puntenkaartcodering en -decodering. Door gebruik te maken van de VAE, trainen we een videodiffusiemodel om de verdeling van puntenkaartsequenties te modelleren, geconditioneerd op de invoervideo's. Uitgebreide evaluaties op diverse datasets tonen aan dat GeometryCrafter state-of-the-art 3D-nauwkeurigheid, temporele consistentie en generalisatievermogen bereikt.
Talloze toepassingen van grote taalmodellen (LLMs) zijn afhankelijk van hun vermogen om stapsgewijs te redeneren. Het redeneergedrag van LLMs blijft echter slecht begrepen, wat uitdagingen oplevert voor onderzoek, ontwikkeling en veiligheid. Om deze kloof te overbruggen, introduceren we 'landscape of thoughts' - het eerste visualisatiehulpmiddel waarmee gebruikers de redeneerpaden van 'chain-of-thought' en zijn afgeleiden kunnen inspecteren op elk meerkeuzedataset. Specifiek representeren we de toestanden in een redeneerpad als kenmerkvectoren die hun afstanden tot alle antwoordopties kwantificeren. Deze kenmerken worden vervolgens gevisualiseerd in tweedimensionale plots met behulp van t-SNE. Kwalitatieve en kwantitatieve analyse met de 'landscape of thoughts' onderscheidt effectief sterke en zwakke modellen, correcte en incorrecte antwoorden, evenals verschillende redeneertaken. Het onthult ook ongewenste redeneerpatronen, zoals lage consistentie en hoge onzekerheid. Daarnaast kunnen gebruikers ons hulpmiddel aanpassen aan een model dat de eigenschap voorspelt die zij observeren. We demonstreren dit voordeel door ons hulpmiddel aan te passen aan een lichtgewicht verifier die de correctheid van redeneerpaden evalueert. De code is openbaar beschikbaar op: https://github.com/tmlr-group/landscape-of-thoughts.
Large Language Models (LLMs) kunnen verbeterde complexe probleemoplossing bereiken door schaling van rekenkracht tijdens het testen, maar dit gaat vaak gepaard met langere contexten en hoge kosten voor redeneertokens. In dit artikel stellen we een efficiënte methode voor testtijd-schaling voor, waarbij LLMs worden getraind op codegerelateerde redeneertrajecten, waardoor ze overtollige denktokens kunnen verminderen terwijl de prestaties behouden blijven. Ten eerste creëren we Z1-Code-Reasoning-107K, een gecureerde dataset van eenvoudige en complexe codeerproblemen, gekoppeld aan hun korte en lange oplossingstrajecten. Ten tweede introduceren we een nieuw Shifted Thinking Window om overdenkingsoverhead te verminderen door contextafbakenende tags (bijv., <think>. . . </think>) te verwijderen en redeneertokens te beperken. Getraind met lange en korte trajectgegevens en uitgerust met het Shifted Thinking Window, toont ons model, Z1-7B, het vermogen om zijn redeneerniveau aan te passen aan de complexiteit van problemen en vertoont het efficiënte testtijd-schaling over verschillende redeneertaken, wat de prestaties van R1-Distill-Qwen-7B evenaart met ongeveer 30% van zijn gemiddelde denktokens. Opmerkelijk is dat Z1-7B, fijn afgestemd met alleen codetrajecten, generalisatie vertoont naar bredere redeneertaken (47,5% op GPQA Diamond). Onze analyse van efficiënte redeneringsuitlokking biedt ook waardevolle inzichten voor toekomstig onderzoek.
In dit rapport beschrijven we de ontwikkeling van Command A, een krachtig groot taalmodel dat speciaal is ontworpen om uit te blinken in real-world zakelijke use cases. Command A is een agent-geoptimaliseerd en meertalig model, met ondersteuning voor 23 talen die relevant zijn voor wereldwijde bedrijfsvoering, en een innovatieve hybride architectuur die efficiëntie combineert met topkwaliteit prestaties. Het biedt state-of-the-art Retrieval Augmented Generation (RAG)-mogelijkheden met grounding en toolgebruik om geavanceerde bedrijfsprocessen te automatiseren. Deze vaardigheden worden bereikt via een gedecentraliseerde trainingsaanpak, inclusief zelfverfijningsalgoritmen en modelmergingtechnieken. We presenteren ook resultaten voor Command R7B, dat vergelijkbare capaciteiten en architectonische overeenkomsten deelt met Command A. De gewichten van beide modellen zijn vrijgegeven voor onderzoeksdoeleinden. Dit technische rapport geeft een gedetailleerd overzicht van onze oorspronkelijke trainingspipeline en presenteert een uitgebreide evaluatie van onze modellen over een reeks zakelijk relevante taken en publieke benchmarks, waarbij uitstekende prestaties en efficiëntie worden aangetoond.
Computergestuurde agents automatiseren digitale taken door direct te interageren met grafische gebruikersinterfaces (GUI's) op computers en mobiele apparaten, wat aanzienlijk potentieel biedt om de menselijke productiviteit te verbeteren door een open ruimte van gebruikersvragen af te handelen. Huidige agents worden echter geconfronteerd met aanzienlijke uitdagingen: onnauwkeurige verankering van GUI-elementen, moeilijkheden bij langetermijn taakplanning en prestatieknelpunten door het vertrouwen op enkele generalistische modellen voor diverse cognitieve taken. Daarom introduceren we Agent S2, een nieuw compositioneel framework dat cognitieve verantwoordelijkheden delegeert over verschillende generalistische en specialistische modellen. We stellen een nieuwe Mixture-of-Grounding-techniek voor om nauwkeurige GUI-lokalisatie te bereiken en introduceren Proactieve Hiërarchische Planning, die actieplannen dynamisch verfijnt op meerdere temporele schalen in reactie op evoluerende observaties. Evaluaties tonen aan dat Agent S2 nieuwe state-of-the-art (SOTA) prestaties vestigt op drie prominente benchmarks voor computergebruik. Specifiek behaalt Agent S2 relatieve verbeteringen van 18,9% en 32,7% ten opzichte van toonaangevende baseline agents zoals Claude Computer Use en UI-TARS op de OSWorld 15-stappen en 50-stappen evaluatie. Bovendien generaliseert Agent S2 effectief naar andere besturingssystemen en applicaties, en overtreft het eerdere beste methoden met 52,8% op WindowsAgentArena en met 16,52% op AndroidWorld relatief. Code beschikbaar op https://github.com/simular-ai/Agent-S.
De snelle overgang van basisschoolniveau naar grensverleggende problemen in de moeilijkheidsgraad van LLM-benchmarks in recente jaren heeft een wonder geweven voor onderzoekers, waardoor we slechts op een haar na verwijderd zijn van het overtreffen van menselijke intelligentie. Maar komt de opmerkelijke redeneervaardigheid van LLM's daadwerkelijk voort uit echte intelligentie volgens menselijke maatstaven, of reciteren ze simpelweg oplossingen die ze tijdens hun training op internetniveau hebben gezien? Om dit probleem te bestuderen, stellen we RoR-Bench voor, een nieuwe, multimodale benchmark voor het detecteren van recitatiegedrag bij LLM's wanneer ze eenvoudige redeneerproblemen krijgen met subtiel verschoven voorwaarden, en voeren we empirische analyses uit op onze benchmark. Verrassend genoeg ontdekten we dat bestaande state-of-the-art LLM's unaniem extreem ernstig recitatiegedrag vertonen; door één zin in de voorwaarde te veranderen, kunnen topmodellen zoals OpenAI-o1 en DeepSeek-R1 een prestatieverlies van 60% lijden op reken- en redeneerproblemen van basisschoolniveau. Dergelijke bevindingen zijn een wake-upcall voor de LLM-gemeenschap die ons dwingt om het werkelijke intelligentieniveau van state-of-the-art LLM's opnieuw te evalueren.
Het effectief evalueren van grote taalmodellen (LLMs) blijft een kritieke bottleneck, aangezien traditionele statische benchmarks last hebben van verzadiging en contaminatie, terwijl menselijke evaluaties kostbaar en traag zijn. Dit belemmert tijdige of domeinspecifieke beoordeling, wat cruciaal is voor praktische toepassingen. Wij introduceren YourBench, een nieuw, open-source raamwerk dat deze beperkingen aanpakt door het mogelijk te maken om dynamisch, geautomatiseerd betrouwbare, actuele en domeingerichte benchmarks te genereren tegen lage kosten en zonder handmatige annotatie, rechtstreeks vanuit door gebruikers aangeleverde documenten. We demonstreren de effectiviteit ervan door 7 diverse MMLU-subsets te repliceren met minimale brontekst, wat we bereiken voor minder dan 15 USD in totale inferentiekosten, terwijl de relatieve modelprestatieranglijsten (Spearman Rho = 1) die op de originele benchmark werden waargenomen, perfect behouden blijven. Om ervoor te zorgen dat YourBench gegevens genereert die gebaseerd zijn op de aangeleverde input in plaats van te vertrouwen op posterior parametrische kennis in modellen, introduceren we ook Tempora-0325, een nieuwe dataset van meer dan 7K diverse documenten, die exclusief na maart 2025 zijn gepubliceerd. Onze uitgebreide analyse omvat 26 state-of-the-art modellen uit 7 grote families over verschillende schalen (3-671B parameters) om de kwaliteit van gegenereerde evaluaties te valideren door middel van rigoureuze algoritmische controles (bijv. citatiegronding) en menselijke beoordelingen. We geven de YourBench-bibliotheek, de Tempora-0325-dataset, 150k+ vraag-antwoordparen gebaseerd op Tempora en alle evaluatie- en inferentietraces vrij om reproduceerbaar onderzoek te vergemakkelijken en de gemeenschap in staat te stellen op maat gemaakte benchmarks op aanvraag te genereren, wat leidt tot relevantere en betrouwbaardere LLM-evaluatie.
GUI-agents, aangedreven door grote foundation-modellen, kunnen interacteren met digitale interfaces, wat diverse toepassingen mogelijk maakt in webautomatisering, mobiele navigatie en softwaretesten. Hun toenemende autonomie heeft echter kritieke zorgen opgeworpen over hun beveiliging, privacy en veiligheid. Dit onderzoek belicht de betrouwbaarheid van GUI-agents in vijf cruciale dimensies: beveiligingskwetsbaarheden, betrouwbaarheid in dynamische omgevingen, transparantie en uitlegbaarheid, ethische overwegingen en evaluatiemethodologieën. We identificeren ook belangrijke uitdagingen, zoals gevoeligheid voor adversarial attacks, cascade-foutmodi in sequentiële besluitvorming en een gebrek aan realistische evaluatiebenchmarks. Deze problemen belemmeren niet alleen de inzet in de praktijk, maar vragen ook om uitgebreide mitigatiestrategieën die verder gaan dan taaksucces. Naarmate GUI-agents meer wijdverspreid raken, is het essentieel om robuuste veiligheidsnormen en verantwoorde ontwikkelingspraktijken vast te stellen. Dit onderzoek biedt een basis voor het bevorderen van betrouwbare GUI-agents door systematisch begrip en toekomstig onderzoek.
Het genereren van menselijke bewegingen geleid door voorwaarden zoals tekstuele beschrijvingen is uitdagend vanwege de behoefte aan datasets met paren van hoogwaardige bewegingen en hun bijbehorende voorwaarden. De moeilijkheid neemt toe wanneer men streeft naar fijnere controle in de generatie. Daartoe hebben eerdere werken voorgesteld om verschillende bewegingsdiffusiemodellen te combineren die vooraf zijn getraind op datasets met verschillende soorten voorwaarden, waardoor controle met meerdere voorwaarden mogelijk wordt. De voorgestelde samenvoegingsstrategieën houden echter geen rekening met het feit dat de optimale manier om de generatieprocessen te combineren afhankelijk kan zijn van de specifieke kenmerken van elk vooraf getraind generatief model en ook van de specifieke tekstuele beschrijvingen. In deze context introduceren we MixerMDM, de eerste leerbare modelcompositietechniek voor het combineren van vooraf getrainde tekstgeconditioneerde menselijke bewegingsdiffusiemodellen. In tegenstelling tot eerdere benaderingen biedt MixerMDM een dynamische mengstrategie die op een adversariële manier wordt getraind om te leren het denoisingsproces van elk model te combineren afhankelijk van de set voorwaarden die de generatie sturen. Door MixerMDM te gebruiken om enkelvoudige en meervoudige bewegingsdiffusiemodellen te combineren, bereiken we fijnmazige controle over de dynamiek van elke persoon afzonderlijk, en ook over de algehele interactie. Bovendien stellen we een nieuwe evaluatietechniek voor die, voor het eerst in deze taak, de interactie en individuele kwaliteit meet door de afstemming tussen de gemengde gegenereerde bewegingen en hun voorwaarden te berekenen, evenals de mogelijkheden van MixerMDM om het mengen aan te passen gedurende het denoisingsproces afhankelijk van de te mengen bewegingen.
De snelle vooruitgang van multimodale taalmodelen (MLLMs) zoals GPT-4o heeft de ontwikkeling van Omni-taalmodelen gestimuleerd, die zijn ontworpen om continue stromen van multimodale gegevens te verwerken en proactief te reageren. Ondanks hun potentieel blijft het evalueren van hun interactieve mogelijkheden in real-world streamingvideocontexten een aanzienlijke uitdaging. In dit werk introduceren we OmniMMI, een uitgebreide multimodale interactiebenchmark die is afgestemd op OmniLLMs in streamingvideocontexten. OmniMMI omvat meer dan 1.121 video's en 2.290 vragen, waarbij twee kritieke maar onderbelichte uitdagingen in bestaande videobenchmarks worden aangepakt: het begrijpen van streamingvideo's en proactief redeneren, verdeeld over zes verschillende subtaken. Bovendien stellen we een nieuw raamwerk voor, Multi-modal Multiplexing Modeling (M4), dat is ontworpen om een inferentie-efficiënt streamingmodel mogelijk te maken dat kan zien, luisteren en tegelijkertijd genereren.
Recente vooruitgang in Large Language Models (LLMs) heeft hun vermogen om complexe redeneertaken uit te voeren aanzienlijk verbeterd, met een overgang van snel en intuïtief denken (Systeem 1) naar langzaam en diep redeneren (Systeem 2). Hoewel redeneren volgens Systeem 2 de taaknauwkeurigheid verbetert, brengt het vaak aanzienlijke rekenkosten met zich mee vanwege het langzame denkproces en inefficiënte of onnodige redeneergedragingen. Daarentegen is redeneren volgens Systeem 1 rekenkundig efficiënt, maar leidt het tot suboptimale prestaties. Daarom is het cruciaal om de afweging te maken tussen prestaties (voordelen) en rekenkosten (budgetten), wat het concept van redeneereconomie heeft doen ontstaan. In dit overzicht bieden we een uitgebreide analyse van redeneereconomie in zowel de post-trainings- als de testtijd-inferentiefasen van LLMs, waarbij we i) de oorzaak van redeneerinefficiëntie, ii) gedragsanalyse van verschillende redeneerpatronen, en iii) mogelijke oplossingen om redeneereconomie te bereiken, behandelen. Door bruikbare inzichten te bieden en openstaande uitdagingen te belichten, willen we strategieën voor het verbeteren van de redeneereconomie van LLMs verduidelijken, en zo een waardevolle bron bieden voor het bevorderen van onderzoek in dit evoluerende gebied. We bieden ook een openbare repository aan om ontwikkelingen in dit snel veranderende veld continu te volgen.
Het opschalen van testtijd-rekenkracht is naar voren gekomen als een belangrijke strategie om de redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren, met name bij taken zoals wiskundig probleemoplossen. Een traditionele aanpak, Self-Consistency (SC), genereert meerdere oplossingen voor een probleem en selecteert het meest voorkomende antwoord via meerderheidsstemming. Een andere veelgebruikte methode omvat het scoren van elke oplossing met een beloningsmodel (verifier) en het kiezen van de beste. Recente vooruitgang in Generative Reward Models (GenRM) herformuleert verificatie als een volgende-token-voorspellingstaak, waardoor opschaling tijdens inferentie langs een nieuwe as mogelijk wordt. Specifiek genereert GenRM meerdere verificatie-ketens-van-gedachten om elke oplossing te scoren. Onder een beperkt inferentiebudget introduceert dit een fundamentele afweging: moet het budget worden besteed aan het opschalen van oplossingen via SC, of moeten er minder oplossingen worden gegenereerd en wordt de rekenkracht toegewezen aan verificatie via GenRM? Om dit aan te pakken, evalueren we GenRM tegenover SC onder een vast inferentiebudget. Interessant genoeg vinden we dat SC rekenkundig efficiënter is dan GenRM voor de meeste praktische inferentiebudgetten over diverse modellen en datasets. GenRM haalt bijvoorbeeld SC pas in na het verbruiken van tot 8x de inferentie-rekenkracht en vereist aanzienlijk meer rekenkracht om het te overtreffen. Bovendien leiden we inferentie-opschalingswetten af voor het GenRM-paradigma, waaruit blijkt dat rekenkundig optimale inferentie het agressiever opschalen van oplossingsgeneratie bevordert dan het opschalen van het aantal verificaties. Ons werk biedt praktische richtlijnen voor het optimaliseren van testtijd-opschaling door het balanceren van oplossingsgeneratie en verificatie. De code is beschikbaar op https://github.com/nishadsinghi/sc-genrm-scaling.
Visuele tokenreductie verlaagt de inferentiekosten veroorzaakt door uitgebreide beeldkenmerken in grote visie-taalmodellen (LVLMs). In tegenstelling tot relevante studies die tokens snoeien in LVLMs die alleen zelf-attentie gebruiken, richt ons werk zich uniek op modellen gebaseerd op kruis-attentie, die superieure prestaties leveren. Wij identificeren dat de grootte van de sleutel-waarde (KV) cache voor beeldtokens in kruis-attentielagen aanzienlijk groter is dan die van teksttokens in zelf-attentielagen, wat een belangrijk rekenkundig knelpunt vormt. Om dit probleem te verlichten, benutten we de spaarzame aard van kruis-attentiemappen om overbodige visuele kenmerken selectief te snoeien. Onze Trimmed Llama vermindert effectief de vraag naar KV cache zonder aanvullende training te vereisen. Door te profiteren van 50% gereduceerde visuele kenmerken, kan ons model de inferentielatentie en het geheugengebruik verminderen terwijl het benchmarkpariteit behaalt.
Onlangs hebben modelmergingsmethoden krachtige mogelijkheden getoond om vaardigheden te combineren voor diverse taken uit meerdere Large Language Models (LLM's). Terwijl eerdere modelmergingsmethoden zich vooral richtten op het samenvoegen van homogene modellen met identieke architectuur, ondervinden ze uitdagingen bij het omgaan met Multimodale Large Language Models (MLLM's) die inherent heterogene eigenschappen hebben, waaronder verschillen in modelarchitectuur en asymmetrie in de parameterruimte. In dit werk stellen we AdaMMS voor, een nieuwe modelmergingsmethode die specifiek is ontworpen voor heterogene MLLM's. Onze methode gaat de uitdagingen in drie stappen te lijf: mapping, merging en zoeken. Specifiek ontwerpen we eerst een mappingfunctie tussen modellen om modelmerging toe te passen op MLLM's met verschillende architectuur. Vervolgens passen we lineaire interpolatie toe op modelgewichten om actief de asymmetrie in de heterogene MLLM's aan te passen. Tot slot stellen we in de hyperparameterzoekstap een onbewaakte hyperparameterselectiemethode voor modelmerging voor. Als de eerste modelmergingsmethode die heterogene MLLM's kan samenvoegen zonder gelabelde data, hebben uitgebreide experimenten met diverse modelcombinaties aangetoond dat AdaMMS eerdere modelmergingsmethoden overtreft op verschillende vision-language benchmarks.
Test-time scaling is naar voren gekomen als een krachtige techniek om de redeneervaardigheden van grote taalmodellen te verbeteren. De effectiviteit ervan in medisch redeneren blijft echter onzeker, aangezien het medische domein fundamenteel verschilt van wiskundige taken wat betreft kennisrepresentatie en besluitvormingsprocessen. In dit artikel bieden we het eerste uitgebreide onderzoek naar test-time scaling voor medisch redeneren en presenteren we m1, een eenvoudige maar effectieve aanpak die het medisch redeneervermogen van een model tijdens inferentie vergroot. Onze evaluatie over diverse medische taken toont aan dat test-time scaling consistent het medisch redeneren verbetert, waardoor lichtgewicht fijn afgestemde modellen met minder dan 10B parameters nieuwe state-of-the-art prestaties kunnen bereiken, terwijl ons 32B-model wedijvert met eerdere medische LLMs van 70B-schaal. We identificeren echter een optimaal redeneertokenbudget van ongeveer 4K, waarboven de prestaties kunnen verslechteren door overdenken. Budget forcing, dat de test-time berekening uitbreidt via iteratieve prompts, helpt modellen om antwoorden dubbel te controleren, maar verbetert niet noodzakelijk de algehele prestaties van medische vraag-antwoordtaken en introduceert in sommige gevallen zelfs fouten in eerder correcte antwoorden. Onze case-by-case analyse identificeert onvoldoende medische kennis als een belangrijk knelpunt dat verdere prestatieverbeteringen via test-time scaling belemmert. We constateren dat het vergroten van de dataschaal, het verbeteren van de datakwaliteit en het uitbreiden van de modelcapaciteit consistent de verankering van medische kennis verbeteren, waardoor voortdurende prestatieverbeteringen mogelijk zijn, met name op uitdagende medische benchmarks waar kleinere modellen verzadiging bereiken. Deze bevindingen onderstrepen fundamentele verschillen tussen medisch en wiskundig redeneren in LLMs, en benadrukken dat verrijkte medische kennis, naast alleen een grotere redeneerdiepte, essentieel is om de voordelen van test-time scaling te realiseren.
Inferentie-schaling kan de redeneervaardigheden van grote taalmodellen (LLMs) verbeteren bij complexe problemen die baat hebben bij stap-voor-stap oplossingen. Hoewel het verlengen van gegenereerde kladbladen effectief is gebleken voor wiskundige taken, is de bredere impact van deze aanpak op andere taken minder duidelijk. In dit werk onderzoeken we de voordelen en beperkingen van schalingsmethoden over negen state-of-the-art modellen en acht uitdagende taken, waaronder wiskunde en STEM-redenering, kalenderplanning, NP-moeilijke problemen, navigatie en ruimtelijk redeneren. We vergelijken conventionele modellen (bijv. GPT-4o) met modellen die zijn afgestemd op inferentie-schaling (bijv. o1) via evaluatieprotocollen die herhaalde modelaanroepen omvatten, zowel onafhankelijk als sequentieel met feedback. Deze evaluaties benaderen onder- en bovengrenzen van prestaties en het potentieel voor toekomstige prestatieverbeteringen voor elk model, ofwel door verbeterde training of multi-model inferentiesystemen. Onze uitgebreide empirische analyse toont aan dat de voordelen van inferentie-schaling variëren per taak en afnemen naarmate de probleemcomplexiteit toeneemt. Bovendien leidt het simpelweg gebruiken van meer tokens niet noodzakelijk tot hogere nauwkeurigheid in deze uitdagende regimes. Resultaten van meerdere onafhankelijke runs met conventionele modellen met perfecte verifiers laten zien dat, voor sommige taken, deze modellen prestaties kunnen bereiken die dicht in de buurt komen van de gemiddelde prestaties van de meest geavanceerde redeneermodellen van vandaag. Voor andere taken blijft echter een aanzienlijk prestatieverschil bestaan, zelfs in zeer hoge schalingsregimes. Bemoedigend is dat alle modellen aanzienlijke winsten laten zien wanneer de inferentie verder wordt geschaald met perfecte verifiers of sterke feedback, wat wijst op ruim potentieel voor toekomstige verbeteringen.
Text-to-SQL is een uitdagende taak die meerdere redeneerintensieve subtaken omvat, waaronder natuurlijke taalverwerking, begrip van databaseschema's en nauwkeurige SQL-queryformulering. Bestaande benaderingen vertrouwen vaak op handmatig gemaakte redeneerpaden met inductieve vooroordelen die hun algehele effectiviteit kunnen beperken. Geïnspireerd door het recente succes van redeneerversterkte modellen zoals DeepSeek R1 en OpenAI o1, die beloningsgedreven zelfverkenning effectief benutten om redeneervaardigheden en generalisatie te verbeteren, stellen we een nieuwe set gedeeltelijke beloningen voor die specifiek zijn afgestemd op de Text-to-SQL-taak. Onze beloningsset omvat schema-koppeling, AI-feedback, n-gram gelijkenis en syntaxcontrole, expliciet ontworpen om het probleem van beloningsschaarste in reinforcement learning (RL) aan te pakken. Door gebruik te maken van group relative policy optimization (GRPO), moedigt onze aanpak grote taalmmodellen (LLMs) expliciet aan om intrinsieke redeneervaardigheden te ontwikkelen die nodig zijn voor nauwkeurige SQL-querygeneratie. Met modellen van verschillende groottes laten we zien dat RL-only training met onze voorgestelde beloningen consistent hogere nauwkeurigheid en superieure generalisatie bereikt in vergelijking met supervised fine-tuning (SFT). Opmerkelijk is dat ons RL-getrainde 14B-parameter model aanzienlijk beter presteert dan grotere propriëtaire modellen, bijvoorbeeld o3-mini met 4% en Gemini-1.5-Pro-002 met 3% op de BIRD-benchmark. Dit benadrukt de effectiviteit van ons voorgestelde RL-trainingsframework met gedeeltelijke beloningen voor het verbeteren van zowel nauwkeurigheid als redeneervaardigheden in Text-to-SQL-taken.
We behandelen de taak van video-hoofdstukindeling, d.w.z. het verdelen van een lange videotijdlijn in semantische eenheden en het genereren van bijbehorende hoofdstuktitels. Hoewel automatische hoofdstukindeling relatief onderbelicht is, heeft het het potentieel om efficiënte navigatie en inhoudsopzoekbaarheid in lange video's mogelijk te maken. In dit artikel behalen we sterke prestaties op het gebied van hoofdstukindeling voor video's van een uur door het probleem efficiënt aan te pakken in het tekstdomein met ons 'Chapter-Llama'-framework. Specifiek maken we gebruik van een vooraf getraind groot taalmodel (LLM) met een groot contextvenster, en voeren we als invoer (i) spraaktranscripten en (ii) bijschriften die videoframes beschrijven, samen met hun respectievelijke tijdstempels. Gezien de inefficiëntie van het uitputtend voorzien van bijschriften voor alle frames, stellen we een lichtgewicht spraakgestuurde frameselectiestrategie voor op basis van de inhoud van spraaktranscripten, en tonen we experimenteel aanmerkelijke voordelen aan. We trainen het LLM om tijdstempels voor de hoofdstukgrenzen uit te voeren, evenals vrij vormgegeven hoofdstuktitels. Deze eenvoudige maar krachtige aanpak schaalt naar het verwerken van video's van een uur in één enkele voorwaartse doorloop. Onze resultaten laten aanzienlijke verbeteringen zien (bijv. 45,3 vs 26,7 F1-score) ten opzichte van de state-of-the-art op de recente VidChapters-7M-benchmark. Om verder onderzoek te bevorderen, maken we onze code en modellen beschikbaar op onze projectpagina.
Grote taalmodellen (LLMs) beschikken over indrukwekkende linguïstische capaciteiten, maar slagen er vaak niet in om feitelijke kennis betrouwbaar vast te houden, wat leidt tot hallucinaties en onbetrouwbare uitvoer. Het begrijpen van de kennislacunes van LLMs door exhaustieve evaluatie tegen volledige kennisbanken is computationeel onhaalbaar, vooral voor gesloten gewichtsmodellen. Wij stellen stochastische foutstijging (SEA) voor, een schaalbaar en efficiënt raamwerk voor het ontdekken van kennislacunes (fouten) in gesloten gewichts-LLMs onder een strikt querybudget. In plaats van naïef alle kenniskandidaten te onderzoeken, formuleert SEA foutontdekking als een stochastisch optimalisatieproces: het haalt iteratief nieuwe kandidaten met hoge fouten op door gebruik te maken van de semantische gelijkenis met eerder waargenomen fouten. Om de zoekefficiëntie en dekking verder te verbeteren, maakt SEA gebruik van hiërarchische retrievel op document- en paragraafniveau, en construeert het een gerichte acyclische grafiek om foutpropagatie te modelleren en systematische faalmodi te identificeren. Empirisch ontdekt SEA 40,7x meer kennislacunes dan Automated Capability Discovery en 26,7% meer dan AutoBencher, terwijl de kosten per fout met respectievelijk 599x en 9x worden verlaagd. Menselijke evaluatie bevestigt de hoge kwaliteit van de gegenereerde vragen, terwijl ablatie- en convergentieanalyses de bijdrage van elke component in SEA valideren. Verdere analyse van de ontdekte fouten onthult gecorreleerde faalpatronen over LLM-families heen en terugkerende tekortkomingen, wat de noodzaak benadrukt voor betere datadekking en gerichte fine-tuning in toekomstige LLM-ontwikkeling.
Menselijke handen spelen een centrale rol in interacties, wat leidt tot toenemend onderzoek naar behendige robotmanipulatie. Data-gedreven embodied AI-algoritmen vereisen precieze, grootschalige, mensachtige manipulatietrajecten, die moeilijk te verkrijgen zijn met conventionele reinforcement learning of real-world teleoperatie. Om dit aan te pakken, introduceren we ManipTrans, een nieuwe tweestapsmethode voor het efficiënt overbrengen van menselijke bimanuele vaardigheden naar behendige robothanden in simulatie. ManipTrans traint eerst een generalistische trajectimitator voor om handbewegingen na te bootsen, en verfijnt vervolgens een specifieke residu-module onder interactiebeperkingen, waardoor efficiënt leren en nauwkeurige uitvoering van complexe bimanuele taken mogelijk wordt. Experimenten tonen aan dat ManipTrans state-of-the-art methoden overtreft in slagingspercentage, nauwkeurigheid en efficiëntie. Door gebruik te maken van ManipTrans, brengen we meerdere hand-object datasets over naar robothanden, waardoor DexManipNet ontstaat, een grootschalige dataset met voorheen onontgonnen taken zoals het dopjes op een pen zetten en het openen van een fles. DexManipNet bestaat uit 3.3K episodes van robotmanipulatie en is eenvoudig uitbreidbaar, wat verdere beleidstraining voor behendige handen vergemakkelijkt en real-world implementaties mogelijk maakt.
Het reconstrueren van scherpe 3D-representaties uit wazige multi-view beelden is een lang bestaand probleem in de computer vision. Recente werken proberen hoogwaardige nieuwe viewsynthese te verbeteren vanuit bewegingsonscherpte door gebruik te maken van event-based camera's, die profiteren van een hoog dynamisch bereik en microseconden temporele resolutie. Echter, bereiken ze vaak suboptimale visuele kwaliteit door het herstellen van onnauwkeurige kleuren of het verliezen van fijne details. In dit artikel presenteren we DiET-GS, een diffusieprior en event stream-ondersteunde bewegingsdeblurring 3DGS. Ons framework benut effectief zowel blurvrije event streams als diffusieprior in een tweefasen trainingsstrategie. Specifiek introduceren we het nieuwe framework om 3DGS te beperken met event dubbele integratie, waardoor zowel nauwkeurige kleuren als goed gedefinieerde details worden bereikt. Daarnaast stellen we een eenvoudige techniek voor om diffusieprior te benutten om de randdetails verder te verbeteren. Kwalitatieve en kwantitatieve resultaten op zowel synthetische als real-world data tonen aan dat onze DiET-GS in staat is om aanzienlijk betere kwaliteit van nieuwe views te produceren in vergelijking met de bestaande baselines. Onze projectpagina is https://diet-gs.github.io.
Wij stellen een uniform raamwerk voor dat objectdetectie (OD) en visuele verankering (VG) integreert voor remote sensing (RS) beelden. Om conventionele OD te ondersteunen en een intuïtieve prior voor de VG-taak te creëren, fine-tunen we een open-set objectdetector met behulp van verwijzingsexpressiegegevens, waarbij we dit formuleren als een gedeeltelijk begeleide OD-taak. In de eerste fase construeren we een grafische representatie van elke afbeelding, bestaande uit objectqueries, klasse-embeddings en voorstel-locaties. Vervolgens verwerkt onze taakbewuste architectuur deze grafiek om de VG-taak uit te voeren. Het model bestaat uit: (i) een multi-branch netwerk dat ruimtelijke, visuele en categorische kenmerken integreert om taakbewuste voorstellen te genereren, en (ii) een objectredeneringsnetwerk dat waarschijnlijkheden toekent aan voorstellen, gevolgd door een zachte selectiemechanisme voor de uiteindelijke lokalisatie van het verwijzende object. Ons model toont superieure prestaties op de OPT-RSVG en DIOR-RSVG datasets, met aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden, terwijl het klassieke OD-mogelijkheden behoudt. De code zal beschikbaar zijn in onze repository: https://github.com/rd20karim/MB-ORES.