Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Redeneren is cruciaal voor grote taalmodellen (LLM's) om uit te blinken in een breed scala van taken. Terwijl methoden zoals Keten-van-Gedachten (CoT) redeneren de prestaties van LLM's verbeteren door problemen op te delen in tussenstappen, brengen ze ook aanzienlijke overhead in tokengebruik met zich mee, wat leidt tot verhoogde kosten. We constateren dat het redeneerproces van huidige LLM's onnodig lang is en dat het kan worden gecomprimeerd door een redelijk tokenbudget op te nemen in de prompt, maar de keuze van het tokenbudget speelt een cruciale rol in de daadwerkelijke compressie-effectiviteit. Vervolgens stellen we een LLM-redeneerkader voor dat zich bewust is van het tokenbudget, dat dynamisch tokenbudgets schat voor verschillende problemen op basis van redeneercomplexiteit en de geschatte tokenbudgets gebruikt om het redeneerproces te sturen. Experimenten tonen aan dat onze methode effectief tokenkosten verlaagt bij CoT-redeneren met slechts een lichte prestatievermindering, en zo een praktische oplossing biedt om efficiëntie en nauwkeurigheid in LLM-redeneren in balans te brengen. Code: https://github.com/GeniusHTX/TALE.
In dit werk streven we ernaar een MLLM te ontwikkelen die vragen begrijpt en oplost door te leren om elk tussenliggend redeneerstap te creëren tot het uiteindelijke antwoord. Hiertoe stellen we Collective Monte Carlo Tree Search (CoMCTS) voor, een nieuwe leermethode voor redeneren voor MLLMs, die het concept van collectief leren introduceert in "boomzoek" voor effectief en efficiënt zoeken en leren van redeneerpaden. Het kernidee van CoMCTS is om collectieve kennis van meerdere modellen te benutten om gezamenlijk te concluderen, zoeken en effectieve redeneerpaden naar juiste antwoorden te identificeren via vier iteratieve bewerkingen, waaronder Uitbreiding, Simulatie en Foutpositionering, Terugpropagatie en Selectie. Met behulp van CoMCTS construeren we Mulberry-260k, een multimodaal dataset met een boom van rijke, expliciete en goed gedefinieerde redeneerknooppunten voor elke vraag. Met Mulberry-260k voeren we collectieve SFT uit om ons model, Mulberry, een reeks MLLMs met stapsgewijze redeneer- en reflectievermogens zoals o1, te trainen. Uitgebreide experimenten tonen de superioriteit van onze voorgestelde methoden op verschillende benchmarks aan. De code zal beschikbaar zijn op https://github.com/HJYao00/Mulberry
We presenteren een efficiënte aanpak zonder encoder voor het begrijpen van video-taal die een competitieve prestatie behaalt terwijl de computationele overhead aanzienlijk wordt verminderd. Huidige modellen voor video-taal vertrouwen doorgaans op zware beeldencoders (300M-1.1B parameters) of video-encoders (1B-1.4B parameters), wat een aanzienlijke computationele last met zich meebrengt bij het verwerken van video's met meerdere frames. Onze methode introduceert een nieuw ruimtelijk-temporeel uitlijningsblok (STAB) dat video-invoer direct verwerkt zonder vooraf getrainde encoders te vereisen, terwijl het slechts 45M parameters gebruikt voor visuele verwerking - minstens een 6,5 keer reductie vergeleken met traditionele benaderingen. De STAB-architectuur combineert Lokale Ruimtelijke-Temporele Codering voor gedetailleerde kenmerkextractie, efficiënte ruimtelijke downsampling via geleerde aandacht en afzonderlijke mechanismen voor het modelleren van relaties op frame- en video-niveau. Ons model behaalt vergelijkbare of superieure prestaties ten opzichte van op encoders gebaseerde benaderingen voor open vragen over video's op standaard benchmarks. De evaluatie van gedetailleerde video-vraagbeantwoording toont de effectiviteit van ons model aan, waarbij het op belangrijke aspecten zoals correctheid en temporeel begrip beter presteert dan de op encoders gebaseerde benaderingen Video-ChatGPT en Video-LLaVA. Uitgebreide ablatiestudies bevestigen onze architecturale keuzes en tonen de effectiviteit van onze ruimtelijk-temporele modelleringsbenadering aan, terwijl er 3-4 keer snellere verwerkingssnelheden worden behaald dan bij eerdere methoden. De code is beschikbaar op https://github.com/jh-yi/Video-Panda.
Radio blijft een alomtegenwoordig medium voor de verspreiding van massa-informatie, waarbij AM/FM-zenders meer Amerikanen bereiken dan zowel op smartphones gebaseerde sociale netwerken als live televisie. Steeds vaker worden radiouitzendingen ook online gestreamd en via internet benaderd. Wij presenteren WavePulse, een raamwerk dat radio-inhoud in realtime opneemt, documenteert en analyseert. Hoewel ons raamwerk over het algemeen toepasbaar is, tonen we de doeltreffendheid van WavePulse in een samenwerkingsproject met een team van politicologen die zich richten op de Presidentsverkiezingen van 2024. We gebruiken WavePulse om livestreams van 396 nieuwsradiozenders gedurende een periode van drie maanden te monitoren, waarbij bijna 500.000 uur aan audiostreams worden verwerkt. Deze streams zijn omgezet in tijdgestempelde, gediariseerde transcripties en geanalyseerd om belangrijke politieke wetenschapsvragen op zowel nationaal als staatsniveau te volgen. Onze analyse onthulde hoe lokale kwesties interageerden met nationale trends, waardoor inzichten in informatiestromen werden verkregen. Onze resultaten tonen de doeltreffendheid van WavePulse aan bij het vastleggen en analyseren van inhoud van radiolivestreams afkomstig van het web. De code en dataset zijn beschikbaar op https://wave-pulse.io.
Simultane spraak-naar-tekst vertaling (SimulST) vertaalt bron-taal spraak gelijktijdig naar doel-taal tekst terwijl de spreker aan het praten is, met als doel een lage latentie te garanderen voor een beter begrip door de gebruiker. Ondanks de beoogde toepassing op onbegrensde spraak, heeft het merendeel van het onderzoek zich gericht op vooraf opgedeelde menselijke spraak, waardoor de taak vereenvoudigd wordt en significante uitdagingen over het hoofd gezien worden. Deze beperkte focus, samen met wijdverspreide terminologische inconsistenties, beperkt de toepasbaarheid van onderzoeksresultaten op praktische toepassingen, wat uiteindelijk de vooruitgang op dit gebied belemmert. Onze uitgebreide literatuurstudie van 110 artikelen onthult niet alleen deze kritieke kwesties in het huidige onderzoek, maar dient ook als basis voor onze belangrijkste bijdragen. Wij 1) definiëren de stappen en kerncomponenten van een SimulST systeem, waarbij we een gestandaardiseerde terminologie en taxonomie voorstellen; 2) voeren een grondige analyse uit van trends in de gemeenschap, en 3) bieden concrete aanbevelingen en toekomstige richtingen aan om de hiaten in bestaande literatuur te overbruggen, van evaluatiekaders tot systeemarchitecturen, om het vakgebied te bevorderen naar meer realistische en effectieve SimulST oplossingen.
Recente ontwikkelingen op het gebied van video-autoencoders (Video AEs) hebben aanzienlijk bijgedragen aan de kwaliteit en efficiëntie van videogeneratie. In dit artikel stellen we een nieuw en compact video-auto-encoder voor, genaamd VidTwin, die video opsplitst in twee afzonderlijke latente ruimtes: Structuur latente vectoren, die de algehele inhoud en globale beweging vastleggen, en Dynamiek latente vectoren, die fijne details en snelle bewegingen vertegenwoordigen. Specifiek maakt onze benadering gebruik van een Encoder-Decoder ruggengraat, aangevuld met twee submodules voor het extraheren van deze latente ruimtes, respectievelijk. De eerste submodule maakt gebruik van een Q-Former om lage frequentie bewegingstrends te extraheren, gevolgd door downsampling blokken om overbodige inhoudsdetails te verwijderen. De tweede module berekent het gemiddelde van de latente vectoren langs de ruimtelijke dimensie om snelle beweging vast te leggen. Uitgebreide experimenten tonen aan dat VidTwin een hoge compressiesnelheid van 0,20% behaalt met een hoge reconstructiekwaliteit (PSNR van 28,14 op de MCL-JCV dataset), en efficiënt en effectief presteert in daaropvolgende generatieve taken. Bovendien toont ons model verklaarbaarheid en schaalbaarheid, wat de weg vrijmaakt voor toekomstig onderzoek naar video latente representatie en generatie. Onze code is beschikbaar op https://github.com/microsoft/VidTok/tree/main/vidtwin.
Peptide-therapeutica, een belangrijke klasse van geneesmiddelen, hebben opmerkelijk succes geboekt bij ziekten zoals diabetes en kanker, met baanbrekende voorbeelden zoals GLP-1-receptoragonisten die de behandeling van type 2 diabetes en obesitas hebben gerevolutioneerd. Ondanks hun succes blijft het ontwerpen van peptiden die voldoen aan meerdere tegenstrijdige doelstellingen, zoals doelbindingsaffiniteit, oplosbaarheid en membraanpermeabiliteit, een grote uitdaging. Klassieke geneesmiddelenontwikkeling en op structuur gebaseerd ontwerp zijn niet effectief voor dergelijke taken, omdat ze er niet in slagen om wereldwijde functionele eigenschappen te optimaliseren die cruciaal zijn voor therapeutische werkzaamheid. Bestaande generatieve kaders zijn grotendeels beperkt tot continue ruimtes, ongeconditioneerde uitvoer of begeleiding met één doelstelling, waardoor ze ongeschikt zijn voor discrete sequentie-optimalisatie over meerdere eigenschappen. Om dit aan te pakken, presenteren we PepTune, een multi-objectief discreet diffusiemodel voor de gelijktijdige generatie en optimalisatie van therapeutische peptide SMILES. Gebouwd op het Masked Discrete Language Model (MDLM) kader, zorgt PepTune voor geldige peptidestructuren met toestandsafhankelijke maskeringsschema's en op straf gebaseerde doelstellingen. Om het diffusieproces te begeleiden, stellen we een Monte Carlo Tree Search (MCTS)-gebaseerde strategie voor die exploratie en exploitatie in balans brengt om iteratief Pareto-optimale sequenties te verfijnen. MCTS integreert op classificatie gebaseerde beloningen met zoekboomuitbreiding, waardoor gradient schatting uitdagingen en gegevensschraalheid inherent aan discrete ruimtes worden overwonnen. Met behulp van PepTune genereren we diverse, chemisch gemodificeerde peptiden geoptimaliseerd voor meerdere therapeutische eigenschappen, waaronder doelbindingsaffiniteit, membraanpermeabiliteit, oplosbaarheid, hemolyse en niet-vervuilende kenmerken op verschillende ziekte-relevante doelen. In totaal tonen onze resultaten aan dat MCTS-geleide discrete diffusie een krachtige en modulaire benadering is voor multi-objectief sequentie-ontwerp in discrete toestandsruimtes.