AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

STAR: Ruimtelijk-Temporale Augmentatie met Tekst-naar-Video Modellen voor Superresolutie van Video's in de Echte Wereld
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Beeldverspreidingsmodellen zijn aangepast voor video-superresolutie in de echte wereld om overmatig vervagen aan te pakken in op GAN gebaseerde methoden. Deze modellen hebben echter moeite om temporele consistentie te behouden, omdat ze zijn getraind op statische beelden, waardoor hun vermogen om temporele dynamiek effectief vast te leggen beperkt is. Het integreren van tekst-naar-video (T2V) modellen in video-superresolutie voor verbeterde temporele modellering is eenvoudig. Er zijn echter twee belangrijke uitdagingen: artefacten geïntroduceerd door complexe degradaties in echte scenario's, en aangetaste geloofwaardigheid als gevolg van de sterke generatieve capaciteit van krachtige T2V modellen (bijv. CogVideoX-5B). Om de ruimtelijk-temporele kwaliteit van herstelde video's te verbeteren, introduceren we \name (Ruimtelijk-Temporele Augmentatie met T2V modellen voor Video-superresolutie in de echte wereld), een nieuw benadering die T2V modellen benut voor video-superresolutie in de echte wereld, waarbij realistische ruimtelijke details en robuuste temporele consistentie worden bereikt. Specifiek introduceren we een Module voor Lokale Informatieverbetering (LIEM) vóór het globale aandachtsblok om lokale details te verrijken en degradatie-artefacten te verminderen. Bovendien stellen we een Dynamisch Frequentie (DF) Verlies voor om de geloofwaardigheid te versterken, waarbij het model wordt geleid om zich te richten op verschillende frequentiecomponenten over verspreidingsstappen. Uitgebreide experimenten tonen aan dat \name beter presteert dan state-of-the-art methoden op zowel synthetische als echte datasets.

Testtijdcomputing: van Systeem-1 denken naar Systeem-2 denken
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

De opmerkelijke prestaties van het o1-model in complex redeneren tonen aan dat het schalen van berekeningen op testtijd het potentieel van het model verder kan ontsluiten, waardoor krachtig System-2 denken mogelijk wordt. Er ontbreekt echter nog steeds een gebrek aan uitgebreide onderzoeken naar het schalen van berekeningen op testtijd. We traceren het concept van berekeningen op testtijd terug naar System-1 modellen. In System-1 modellen adresseert berekeningen op testtijd verschuivingen in distributie en verbetert het robuustheid en generalisatie door parameteraanpassingen, invoeraanpassingen, representatiebewerking en uitvoerkalibratie. In System-2 modellen verbetert het de redeneervaardigheid van het model om complexe problemen op te lossen door herhaalde steekproeven, zelfcorrectie en boomzoekacties. We organiseren deze survey volgens de trend van System-1 naar System-2 denken, waarbij de sleutelrol van berekeningen op testtijd bij de overgang van System-1 modellen naar zwakke System-2 modellen, en vervolgens naar sterke System-2 modellen, wordt benadrukt. We wijzen ook op een paar mogelijke toekomstige richtingen.

BoostStep: Het verbeteren van de wiskundige capaciteit van Grote Taalmodellen via verbeterde redenering in één stap.
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Geavanceerde grote taalmodellen (LLM's) tonen veelbelovende prestaties bij het oplossen van complexe wiskundige problemen met een verdeel-en-heerspijplijn en de hulp van in-context leren (ICL) voorbeelden. Hun potentieel voor verbetering wordt echter beperkt door twee kritieke problemen binnen hun ICL-voorbeelden: granulariteitsmismatch en het daaropvolgende negatieve-effectgeluidsprobleem. Specifiek zijn de LLM's in staat tot het verdeelproces, maar falen ze voornamelijk door onnauwkeurige redenering binnen enkele veroverstappen, terwijl de ICL-voorbeelden die op vraagniveau worden opgehaald soms relevante stappen missen voor een specifieke uitdagende redeneringsstap. Verder kan deze disconnectie de juiste redenering belemmeren vanwege de irrelevantie ervan. Met dit doel richten we ons op het verbeteren van de redeneerkwaliteit binnen elke stap en presenteren we BoostStep. BoostStep stemt de granulariteit af tussen het ophalen en redeneren op stapniveau en biedt zeer relevante ICL-voorbeelden voor elke redeneerstap met een nieuw 'eerste poging'-strategie. BoostStep biedt meer relevante voorbeelden dan de grove vraagniveaumethode, waardoor de redeneerkwaliteit van het model binnen elke stap gestaag verbetert. BoostStep is een algemene en robuuste redeneringsverbeterende methode die niet alleen de zelfstandige redeneerprestaties verbetert, maar ook naadloos integreert met Monte Carlo Tree Search-methoden (MCTS) om zowel kandidaatgeneratie als besluitvorming te verfijnen. Kwantitatief verbetert het GPT-4o en Qwen2.5-Math-72B respectievelijk met 3,6\% en 2,0\% op verschillende wiskundige benchmarks, en 7,5\% winst in combinatie met MCTS.

Dispider: Het mogelijk maken van Video LLM's met Actieve Real-Time Interactie via Ontwarde Perceptie, Beslissing en Reactie
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Actieve real-time interactie met video LLM's introduceert een nieuw paradigma voor mens-computerinteractie, waarbij het model niet alleen de intentie van de gebruiker begrijpt, maar ook reageert terwijl het continu streaming video verwerkt tijdens het afspelen. In tegenstelling tot offline video LLM's, die de volledige video analyseren voordat ze vragen beantwoorden, vereist actieve real-time interactie drie capaciteiten: 1) Perceptie: real-time video monitoring en interactie vastleggen. 2) Beslissing: proactieve interactie initiëren in passende situaties. 3) Reactie: continue interactie met gebruikers. Er bestaan echter inherente conflicten tussen de gewenste capaciteiten. De Beslissing en Reactie vereisen een tegengestelde Perceptie schaal en granulariteit, en de autoregressieve decodering blokkeert de real-time Perceptie en Beslissing tijdens de Reactie. Om de conflicterende capaciteiten te verenigen binnen een harmonieus systeem, presenteren we Dispider, een systeem dat Perceptie, Beslissing en Reactie ontwart. Dispider bevat een lichtgewicht proactieve streaming videoverwerkingsmodule die de videostream volgt en optimale momenten voor interactie identificeert. Zodra de interactie wordt geactiveerd, biedt een asynchrone interactiemodule gedetailleerde antwoorden, terwijl de verwerkingsmodule ondertussen de video blijft monitoren. Ons ontwarde en asynchrone ontwerp zorgt voor tijdige, contextueel nauwkeurige en rekenkundig efficiënte antwoorden, waardoor Dispider ideaal is voor actieve real-time interactie met langdurige videostreams. Experimenten tonen aan dat Dispider niet alleen sterke prestaties behoudt bij conventionele video-vraag-en-antwoordtaken, maar ook aanzienlijk beter presteert dan eerdere online modellen in streaming scenario reacties, waarmee de effectiviteit van onze architectuur wordt bevestigd. De code en het model zijn beschikbaar op https://github.com/Mark12Ding/Dispider.

Gepersonaliseerde Grafiekgebaseerde Terugvinding voor Grote Taalmodellen
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

Naarmate grote taalmodellen (LLM's) evolueren, biedt hun vermogen om gepersonaliseerde en contextbewuste antwoorden te leveren een transformerend potentieel om gebruikerservaringen te verbeteren. Bestaande personalisatiebenaderingen vertrouwen echter vaak alleen op gebruikersgeschiedenis om de prompt aan te vullen, wat hun effectiviteit beperkt bij het genereren van op maat gemaakte resultaten, vooral in scenario's met weinig data bij het opstarten. Om deze beperkingen aan te pakken, stellen we Personalized Graph-based Retrieval-Augmented Generation (PGraphRAG) voor, een raamwerk dat gebruiksvriendelijke kennisgrafieken benut om personalisatie te verrijken. Door gestructureerde gebruikerskennis rechtstreeks in het ophaalproces te integreren en prompts aan te vullen met gebruikersrelevante context, verbetert PGraphRAG het contextuele begrip en de kwaliteit van de output. We introduceren ook de Personalized Graph-based Benchmark voor Tekstgeneratie, ontworpen om gepersonaliseerde tekstgeneratietaken te evalueren in real-world settings waar gebruikersgeschiedenis schaars of niet beschikbaar is. Experimentele resultaten tonen aan dat PGraphRAG aanzienlijk beter presteert dan state-of-the-art personalisatiemethoden over diverse taken, waarbij de unieke voordelen van op grafiek gebaseerde ophaling voor personalisatie worden aangetoond.

Schalingswetten voor training met zwevendekommagetallenquantisering
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

Training met lage precisie wordt beschouwd als een effectieve strategie om zowel de trainingskosten als de kosten van downstream inferentie te verlagen. Eerdere schalingswetten voor precisie richten zich voornamelijk op gehele getal kwantisering, die minder aandacht besteden aan de elementen in zwevende-kommakwantisering en daardoor niet goed passen bij de verliezen in dit scenario. Daarentegen, hoewel training met zwevende-kommakwantisering vaker wordt geïmplementeerd in productie, is het onderzoek hiernaar relatief oppervlakkig geweest. In dit artikel onderzoeken we grondig de effecten van zwevende-kommakwantiseringsdoelen, exponentbits, mantissabits, en de berekeningsgranulariteit van de schaalfactor in de prestaties van zwevende-kommakwantiseringstraining van LLM-modellen. Terwijl we een nauwkeurige zwevende-kommakwantiseringsuniforme schalingswet presenteren, bieden we ook waardevolle suggesties voor de gemeenschap: (1) Exponentbits dragen iets meer bij aan de modelprestaties dan mantissabits. We bieden de optimale exponent-mantissabitverhouding voor verschillende bitaantallen, die beschikbaar is voor toekomstige referentie door hardwarefabrikanten; (2) We ontdekken de vorming van de kritieke gegevensgrootte bij training met lage precisie van LLM. Te veel trainingsgegevens die de kritieke gegevensgrootte overschrijden, zullen omgekeerd de prestaties van LLM verslechteren; (3) De optimale precisie van zwevende-kommakwantisering is recht evenredig met het rekenvermogen, maar binnen een breed bereik van rekenvermogen schatten we dat de beste kostprestatieprecisie tussen 4-8 bits ligt.

TransPixar: Vooruitgang in Tekst-naar-Video Generatie met Transparantie
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

Text-to-video generatieve modellen hebben aanzienlijke vooruitgang geboekt, waardoor diverse toepassingen mogelijk zijn op het gebied van entertainment, reclame en onderwijs. Het genereren van RGBA-video, waarbij alpha-kanalen voor transparantie zijn inbegrepen, blijft echter een uitdaging vanwege beperkte datasets en de moeilijkheid om bestaande modellen aan te passen. Alpha-kanalen zijn cruciaal voor visuele effecten (VFX), waardoor transparante elementen zoals rook en reflecties naadloos in scènes kunnen worden gemengd. We introduceren TransPixar, een methode om vooraf getrainde videomodellen uit te breiden voor RGBA-generatie met behoud van de oorspronkelijke RGB-mogelijkheden. TransPixar maakt gebruik van een diffusie-transformator (DiT) architectuur, waarbij alpha-specifieke tokens worden opgenomen en LoRA-gebaseerde fijnafstemming wordt gebruikt om RGB- en alpha-kanalen gezamenlijk met hoge consistentie te genereren. Door aandachtsmechanismen te optimaliseren, behoudt TransPixar de sterke punten van het oorspronkelijke RGB-model en bereikt het een sterke afstemming tussen RGB- en alpha-kanalen ondanks beperkte trainingsgegevens. Onze aanpak genereert effectief diverse en consistente RGBA-video's, waarmee de mogelijkheden voor VFX en interactieve contentcreatie worden uitgebreid.

METAGENE-1: Metagenomisch fundamentmodel voor pandemiebewaking
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

We pretrainen METAGENE-1, een 7 miljard parameters tellend autoregressief transformermodel, dat we een metagenomisch foundation model noemen, op een nieuw corpus van diverse metagenomische DNA- en RNA-sequenties bestaande uit meer dan 1,5 biljoen basenparen. Deze dataset is afkomstig van een grote verzameling menselijke afvalwatermonsters, verwerkt en gesequenced met behulp van diepe metagenomische (next-generation) sequentiemethoden. In tegenstelling tot genomische modellen die zich richten op individuele genomen of samengestelde sets van specifieke soorten, is het doel van METAGENE-1 om de volledige distributie van genomische informatie vast te leggen die aanwezig is in dit afvalwater, om te helpen bij taken die relevant zijn voor pandemiebewaking en pathogeen detectie. We voeren byte-pair encoding (BPE) tokenisatie uit op onze dataset, afgestemd op metagenomische sequenties, en vervolgens pretrainen we ons model. In dit artikel beschrijven we eerst de pretraining dataset, tokenisatiestrategie en modelarchitectuur, waarbij we de overwegingen en ontwerpkeuzes benadrukken die het effectieve modelleren van metagenomische data mogelijk maken. Vervolgens tonen we de resultaten van het pretrainen van dit model op onze metagenomische dataset, waarbij we details verstrekken over onze verliezen, systeemmetrieken en trainingsstabiliteit gedurende het pretrainen. Ten slotte demonstreren we de prestaties van METAGENE-1, die state-of-the-art resultaten behaalt op een reeks genomische benchmarks en nieuwe evaluaties gericht op mens-pathogeen detectie en genomische sequentie-embedding, waarbij we zijn potentieel voor volksgezondheidstoepassingen in pandemiebewaking, biosurveillance en vroegtijdige detectie van opkomende gezondheidsbedreigingen laten zien.

Through-The-Mask: Maskergebaseerde Bewegingstrajecten voor Beeld-naar-Video Generatie
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

We onderzoeken de taak van Afbeelding-naar-Video (I2V) generatie, wat inhoudt dat statische afbeeldingen worden omgezet in realistische videoreeksen op basis van een tekstuele beschrijving. Hoewel recente ontwikkelingen fotorealistische resultaten opleveren, hebben ze vaak moeite om video's te creëren met nauwkeurige en consistente objectbeweging, vooral in scenario's met meerdere objecten. Om deze beperkingen aan te pakken, stellen we een tweefasig samenstellingskader voor dat I2V-generatie opsplitst in: (i) Een expliciete tussenliggende representatiegeneratiefase, gevolgd door (ii) Een videogeneratiefase die is geconditioneerd op deze representatie. Onze belangrijkste innovatie is de introductie van een op maskers gebaseerde bewegingstraject als tussenliggende representatie, dat zowel semantische objectinformatie als beweging vastlegt, waardoor een expressieve maar compacte representatie van beweging en semantiek mogelijk is. Om de geleerde representatie in de tweede fase op te nemen, maken we gebruik van objectniveau-aandachtdoelstellingen. Specifiek beschouwen we een ruimtelijke, per-object, gemaskerde kruisaandachtdoelstelling, waarbij objectspecifieke aanwijzingen worden geïntegreerd in overeenkomstige latente ruimteregio's en een gemaskerde ruimtelijk-temporele zelfaandachtdoelstelling, die zorgt voor frame-tot-frame consistentie voor elk object. We evalueren onze methode op uitdagende benchmarks met scenario's met meerdere objecten en hoge beweging en tonen empirisch aan dat de voorgestelde methode state-of-the-art resultaten behaalt op het gebied van temporele coherentie, bewegingsrealisme en tekstgetrouwheid. Daarnaast introduceren we \benchmark, een nieuwe uitdagende benchmark voor enkelvoudige en meervoudige I2V-generatie, en tonen we de superioriteit van onze methode op deze benchmark aan. De projectpagina is beschikbaar op https://guyyariv.github.io/TTM/.

Auto-RT: Automatische Gevangenisbreukstrategie Verkenning voor Rode Teamtests met Grote Taalmodellen
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Geautomatiseerde red-teaming is een cruciale benadering geworden voor het blootleggen van kwetsbaarheden in grote taalmodellen (LLM's). De meeste bestaande methoden richten zich echter op geïsoleerde veiligheidsfouten, waardoor hun vermogen om zich aan te passen aan dynamische verdedigingen en efficiënt complexe kwetsbaarheden bloot te leggen beperkt is. Om dit probleem aan te pakken, stellen we Auto-RT voor, een reinforcement learning framework dat automatisch complexe aanval strategieën verkent en optimaliseert om effectief beveiligingskwetsbaarheden bloot te leggen via kwaadaardige vragen. Specifiek introduceren we twee belangrijke mechanismen om de complexiteit van exploratie te verminderen en strategie-optimalisatie te verbeteren: 1) Vroegtijdig beëindigde exploratie, die de exploratie versnelt door zich te richten op aanval strategieën met een hoog potentieel; en 2) Progressief Reward Tracking algoritme met tussenliggende degradeermodellen, die dynamisch de zoektraject naar succesvolle kwetsbaarheidsexploitatie verfijnen. Uitgebreide experimenten over diverse LLM's tonen aan dat, door de exploratie-efficiëntie aanzienlijk te verbeteren en aanval strategieën automatisch te optimaliseren, Auto-RT een breder scala aan kwetsbaarheden detecteert, met een snellere detectiesnelheid en 16,63% hogere succespercentages in vergelijking met bestaande methoden.

GS-DiT: Vooruitgang in Video Generatie met Pseudo 4D Gaussische Velden door Efficiënte Dichte 3D Punt Tracking
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

4D videobesturing is essentieel bij videogeneratie omdat het geavanceerde lenstechnieken mogelijk maakt, zoals multi-camera opnames en dolly zoom, die momenteel niet worden ondersteund door bestaande methoden. Het rechtstreeks trainen van een video Diffusion Transformer (DiT) om 4D inhoud te besturen vereist dure multi-view video's. Geïnspireerd door Monoculaire Dynamische Nieuwe Beeldsynthese (MDVS) die een 4D representatie optimaliseert en video's rendert op basis van verschillende 4D elementen, zoals camerapositie en objectbewerking, introduceren we pseudo 4D Gaussische velden in videogeneratie. Specifiek stellen we een nieuw raamwerk voor dat een pseudo 4D Gaussisch veld construeert met dichte 3D-punttracking en het Gaussische veld rendert voor alle videoframes. Vervolgens finetunen we een voorgeleerde DiT om video's te genereren volgens de begeleiding van de gerenderde video, genaamd GS-DiT. Om de training van de GS-DiT te verbeteren, stellen we ook een efficiënte Dichte 3D Punttracking (D3D-PT) methode voor voor de constructie van het pseudo 4D Gaussische veld. Onze D3D-PT presteert beter dan SpatialTracker, de toonaangevende schaarse 3D-punttracking methode, in nauwkeurigheid en versnelt de inferentiesnelheid met twee ordes van grootte. Tijdens de inferentiefase kan GS-DiT video's genereren met dezelfde dynamische inhoud terwijl het voldoet aan verschillende cameraparameters, waarmee een significante beperking van huidige videogeneratiemodellen wordt aangepakt. GS-DiT toont sterke generalisatiecapaciteiten en breidt de 4D bestuurbaarheid van Gaussische splatting uit naar videogeneratie voorbij alleen cameraposities. Het ondersteunt geavanceerde filmische effecten door de manipulatie van het Gaussische veld en cameraintrinsieken, waardoor het een krachtig instrument is voor creatieve videoproductie. Demonstraties zijn beschikbaar op https://wkbian.github.io/Projects/GS-DiT/.

DepthMaster: Het temmen van diffusiemodellen voor monoculair diepteschatting.
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

Monoculaire diepteschatting binnen het diffusie-denoising paradigma toont een indrukwekkend vermogen tot generalisatie, maar kampt met een lage inferentiesnelheid. Recente methoden nemen een deterministisch paradigma in één stap aan om de inferentie-efficiëntie te verbeteren terwijl ze vergelijkbare prestaties behouden. Ze zien echter de kloof tussen generatieve en discriminatieve kenmerken over het hoofd, wat leidt tot suboptimale resultaten. In dit werk stellen we DepthMaster voor, een enkelstaps diffusiemodel dat is ontworpen om generatieve kenmerken aan te passen voor de discriminatieve diepteschattingstaak. Ten eerste stellen we voor om overpassing aan textuurdetails, geïntroduceerd door generatieve kenmerken, te verminderen door een Feature Alignment module voor te stellen, die hoogwaardige semantische kenmerken opneemt om de representatiecapaciteit van het denoisingnetwerk te verbeteren. Ten tweede stellen we voor om het gebrek aan fijnkorrelige details in het enkelstaps deterministische kader aan te pakken door een Fourier Enhancement module voor te stellen om adaptief het evenwicht tussen laagfrequente structuur en hoogfrequente details te balanceren. We hanteren een tweefasige trainingsstrategie om het volledige potentieel van de twee modules te benutten. In de eerste fase richten we ons op het leren van de wereldwijde scènestructuur met behulp van de Feature Alignment module, terwijl we in de tweede fase de Fourier Enhancement module benutten om de visuele kwaliteit te verbeteren. Dankzij deze inspanningen behaalt ons model state-of-the-art prestaties op het gebied van generalisatie en detailbehoud, waarbij het andere op diffusie gebaseerde methoden overtreft op verschillende datasets. Onze projectpagina is te vinden op https://indu1ge.github.io/DepthMaster_page.

PRMBench: Een fijnmazige en uitdagende benchmark voor beloningsmodellen op procesniveau
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Procesniveau Beloningsmodellen (PRM's) zijn cruciaal voor complexe redeneer- en besluitvormingstaken, waarbij elke tussenstap een belangrijke rol speelt in het redeneerproces. Aangezien taalmodellen gevoelig zijn voor verschillende soorten fouten tijdens het redeneerproces, is het noodzakelijk dat PRM's verfijnde mogelijkheden hebben om verschillende impliciete fouttypen in realistische scenario's te detecteren. Echter, huidige benchmarks richten zich voornamelijk op de correctheid van stappen en evalueren de prestaties van PRM's niet systematisch. Om deze lacune aan te pakken, introduceren we PRMBench, een procesniveau benchmark die specifiek is ontworpen om de fijnmazige foutdetectiemogelijkheden van PRM's te beoordelen. PRMBench bestaat uit 6.216 zorgvuldig ontworpen problemen en 83.456 stapniveau labels, waarbij modellen worden geëvalueerd op meerdere dimensies, waaronder eenvoud, degelijkheid en gevoeligheid. In onze experimenten met 15 modellen, zowel open-source PRM's als gesloten-source grote taalmodellen die als criticusmodellen worden gebruikt, ontdekken we significante zwaktes in huidige PRM's. Deze bevindingen benadrukken de uitdagingen die inherent zijn aan evaluatie op procesniveau en belichten belangrijke richtingen voor toekomstig onderzoek. We hopen dat PRMBench een robuuste benchmark kan zijn voor het bevorderen van onderzoek naar de evaluatie en ontwikkeling van PRM's.

ToolHop: Een op vragen gebaseerde benchmark voor het evalueren van grote taalmodellen bij het gebruik van meerdere stappen.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

Een effectieve evaluatie van het gebruik van multi-hop tools is cruciaal voor het analyseren van het begrip, redeneren en de functie-oproepmogelijkheden van grote taalmodellen (LLM's). De vooruitgang wordt echter belemmerd door een gebrek aan betrouwbare evaluatiedatasets. Om dit aan te pakken, presenteren we ToolHop, een dataset bestaande uit 995 gebruikersquery's en 3.912 bijbehorende tools, specifiek ontworpen voor een rigoureuze evaluatie van het gebruik van multi-hop tools. ToolHop zorgt voor diverse query's, betekenisvolle onderlinge afhankelijkheden, lokaal uitvoerbare tools, gedetailleerde feedback en controleerbare antwoorden via een nieuw query-gedreven gegevensconstructiebenadering die toolcreatie, documentverfijning en codegeneratie omvat. We evalueren 14 LLM's over vijf modelfamilies (d.w.z. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 en GPT), waarbij significante uitdagingen aan het licht komen bij het omgaan met scenario's van multi-hop toolgebruik. Het toonaangevende model, GPT-4o, behaalt een nauwkeurigheid van 49,04%, waaruit blijkt dat er aanzienlijke ruimte is voor verbetering. Verder onderzoek onthult variaties in toolgebruiksstrategieën voor verschillende families, die bruikbare inzichten bieden om de ontwikkeling van effectievere benaderingen te sturen. Code en gegevens zijn te vinden op https://huggingface.co/bytedance-research/ToolHop.

AutoPresent: Het ontwerpen van gestructureerde visuals vanaf nul
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Het ontwerpen van gestructureerde visuals zoals presentatieslides is essentieel voor communicatieve behoeften, waarbij zowel vaardigheden voor inhoudscreatie als visuele planning nodig zijn. In dit werk pakken we de uitdaging van geautomatiseerde dia-generatie aan, waar modellen presentatieslides produceren op basis van natuurlijke taal (NT) instructies. We introduceren eerst de SlidesBench benchmark, de eerste benchmark voor dia-generatie met 7k trainings- en 585 testvoorbeelden afkomstig van 310 dia-decks over 10 domeinen. SlidesBench ondersteunt evaluaties die (i) op referenties gebaseerd zijn om de gelijkenis met een doeldia te meten, en (ii) referentievrij om de ontwerpkwaliteit van gegenereerde dia's alleen te meten. We benchmarken end-to-end beeldgeneratie- en programmatische generatiemethoden met verschillende modellen, en vinden dat programmatische methoden dia's van hogere kwaliteit produceren in gebruikers-interactieve formaten. Voortbouwend op het succes van programmatische generatie, creëren we AutoPresent, een op 8B Llama-gebaseerd model getraind op 7k paren instructies gekoppeld aan code voor dia-generatie, en behalen resultaten vergelijkbaar met het gesloten-bronmodel GPT-4o. We verkennen verder iteratieve ontwerpverfijning waarbij het model wordt belast met het zelf verfijnen van de eigen output, en we hebben vastgesteld dat dit proces de kwaliteit van de dia verbetert. We hopen dat ons werk een basis zal vormen voor toekomstig werk over het genereren van gestructureerde visuals.

Samba-asr geavanceerde spraakherkenning die gebruikmaakt van gestructureerde toestandsruimtemodellen
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Wij stellen Samba ASR voor, het eerste geavanceerde Automatische Spraakherkenning (ASR) model dat gebruikmaakt van de innovatieve Mamba-architectuur als zowel encoder als decoder, gebouwd op de basis van toestandsruimtemodellen (SSM's). In tegenstelling tot op transformers gebaseerde ASR-modellen, die vertrouwen op zelfaandachtsmechanismen om afhankelijkheden vast te leggen, modelleert Samba ASR effectief zowel lokale als globale temporele afhankelijkheden met behulp van efficiënte toestandsruimtedynamica, wat opmerkelijke prestatiewinsten oplevert. Door de beperkingen van transformers aan te pakken, zoals kwadratische schaling met invoerlengte en moeilijkheden bij het omgaan met langeafhankelijkheden, bereikt Samba ASR superieure nauwkeurigheid en efficiëntie. Experimentele resultaten tonen aan dat Samba ASR bestaande open-source transformer-gebaseerde ASR-modellen overtreft op verschillende standaard benchmarks, waardoor het wordt gevestigd als de nieuwe state of the art in ASR. Uitgebreide evaluaties op benchmark datasets tonen significante verbeteringen in het Word Error Rate (WER), met concurrerende prestaties zelfs in scenario's met beperkte bronnen. Bovendien maken de rekenkundige efficiëntie en parameteroptimalisatie van de Mamba-architectuur van Samba ASR een schaalbare en robuuste oplossing voor diverse ASR-taken. Onze bijdragen omvatten: een nieuwe Samba ASR-architectuur die de superioriteit van SSM's ten opzichte van op transformers gebaseerde modellen voor spraaksequentieverwerking aantoont. Een uitgebreide evaluatie op openbare benchmarks die state-of-the-art prestaties laat zien. Een analyse van rekenkundige efficiëntie, robuustheid tegen ruis en sequentiegeneralisatie. Dit werk benadrukt de levensvatbaarheid van Mamba SSM's als een transformer-vrij alternatief voor efficiënte en nauwkeurige ASR. Door gebruik te maken van vooruitgang in toestandsruimtemodellering, stelt Samba ASR een nieuwe norm voor ASR-prestaties en toekomstig onderzoek.

Ingrediënten: Het combineren van aangepaste foto's met videodiffusietransformatoren.
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Deze paper presenteert een krachtig framework om video-creatie aan te passen door meerdere specifieke identiteits (ID) foto's op te nemen, met behulp van video-diffusie Transformers, aangeduid als Ingrediënten. Over het algemeen bestaat onze methode uit drie primaire modules: (i) een gezichtsextractor die veelzijdige en nauwkeurige gezichtskenmerken vastlegt voor elke menselijke ID van zowel globale als lokale perspectieven; (ii) een multi-schaal projector die gezichtsembeddings in de contextuele ruimte van het beeldquery in video-diffusie transformers in kaart brengt; (iii) een ID-router die dynamisch meerdere ID-embeddings combineert en toewijst aan de overeenkomstige ruimte-tijd regio's. Door gebruik te maken van een zorgvuldig samengestelde tekst-video dataset en een multi-stage trainingsprotocol, toont Ingrediënten superieure prestaties bij het omzetten van aangepaste foto's in dynamische en gepersonaliseerde video-inhoud. Kwalitatieve evaluaties benadrukken de voordelen van de voorgestelde methode, waarbij deze wordt gepositioneerd als een significante vooruitgang naar meer effectieve generatieve video-controletools in een op Transformer gebaseerde architectuur, in vergelijking met bestaande methoden. De data, code en modelgewichten zijn publiekelijk beschikbaar op: https://github.com/feizc/Ingredients.

Geautomatiseerde Generatie van Uitdagende Meerkeuzevragen voor de Evaluatie van Visie-Taalmodel
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

De snelle ontwikkeling van visie-taalmodellen (VLM's) vereist een grondige en betrouwbare evaluatie. Echter, huidige benchmarks voor visuele vraagbeantwoording (VQA) zijn vaak afhankelijk van open vragen, waardoor nauwkeurige evaluatie lastig is vanwege de variabiliteit in natuurlijke taal antwoorden. Om dit aan te pakken, introduceren we AutoConverter, een agentisch raamwerk dat deze open vragen automatisch omzet in meerkeuzevragen, waardoor objectieve evaluatie mogelijk wordt terwijl het kostbare proces van vraagcreatie wordt verminderd. Onze experimenten tonen aan dat AutoConverter correcte en uitdagende meerkeuzevragen kan genereren, waarbij VLM's consequent vergelijkbare of lagere nauwkeurigheid laten zien op deze vragen in vergelijking met door mensen gecreëerde vragen. Met behulp van AutoConverter construeren we VMCBench, een benchmark gecreëerd door 20 bestaande VQA-datasets om te zetten naar een uniforme meerkeuzevraagstelling, met in totaal 9.018 vragen. We evalueren uitgebreid 33 toonaangevende VLM's op VMCBench, waarbij we een nieuwe standaard zetten voor schaalbare, consistente en reproduceerbare evaluatie van VLM's.

ProTracker: Probabilistische Integratie voor Robuuste en Nauwkeurige Punttracking
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu

In dit artikel stellen we ProTracker voor, een nieuw kader voor robuuste en nauwkeurige langdurige dichte tracking van willekeurige punten in video's. Het belangrijkste idee van onze methode is het opnemen van probabilistische integratie om meerdere voorspellingen van zowel optische stroming als semantische kenmerken te verfijnen voor robuuste tracking op korte en lange termijn. Specifiek integreren we optische stroom schattingen op een probabilistische manier, wat soepele en nauwkeurige trajecten oplevert door de waarschijnlijkheid van elke voorspelling te maximaliseren. Om uitdagende punten effectief opnieuw te lokaliseren die verdwijnen en weer verschijnen als gevolg van occlusie, nemen we verder lange-termijn kenmerkencorrespondentie op in onze stroomvoorspellingen voor continue trajectgeneratie. Uitgebreide experimenten tonen aan dat ProTracker de state-of-the-art prestaties behaalt onder ongesuperviseerde en zelfgesuperviseerde benaderingen, en zelfs beter presteert dan begeleide methoden op verschillende benchmarks. Onze code en model zullen openbaar beschikbaar worden gesteld bij publicatie.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

STAR: Ruimtelijk-Temporale Augmentatie met Tekst-naar-Video Modellen voor Superresolutie van Video's in de Echte Wereld
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Testtijdcomputing: van Systeem-1 denken naar Systeem-2 denken
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

BoostStep: Het verbeteren van de wiskundige capaciteit van Grote Taalmodellen via verbeterde redenering in één stap.
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Dispider: Het mogelijk maken van Video LLM's met Actieve Real-Time Interactie via Ontwarde Perceptie, Beslissing en Reactie
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Gepersonaliseerde Grafiekgebaseerde Terugvinding voor Grote Taalmodellen
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

Schalingswetten voor training met zwevendekommagetallenquantisering
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

TransPixar: Vooruitgang in Tekst-naar-Video Generatie met Transparantie
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

METAGENE-1: Metagenomisch fundamentmodel voor pandemiebewaking
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

Through-The-Mask: Maskergebaseerde Bewegingstrajecten voor Beeld-naar-Video Generatie
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

Auto-RT: Automatische Gevangenisbreukstrategie Verkenning voor Rode Teamtests met Grote Taalmodellen
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

GS-DiT: Vooruitgang in Video Generatie met Pseudo 4D Gaussische Velden door Efficiënte Dichte 3D Punt Tracking
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

DepthMaster: Het temmen van diffusiemodellen voor monoculair diepteschatting.
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

PRMBench: Een fijnmazige en uitdagende benchmark voor beloningsmodellen op procesniveau
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

ToolHop: Een op vragen gebaseerde benchmark voor het evalueren van grote taalmodellen bij het gebruik van meerdere stappen.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

AutoPresent: Het ontwerpen van gestructureerde visuals vanaf nul
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Samba-asr geavanceerde spraakherkenning die gebruikmaakt van gestructureerde toestandsruimtemodellen
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Ingrediënten: Het combineren van aangepaste foto's met videodiffusietransformatoren.
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Geautomatiseerde Generatie van Uitdagende Meerkeuzevragen voor de Evaluatie van Visie-Taalmodel
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

ProTracker: Probabilistische Integratie voor Robuuste en Nauwkeurige Punttracking
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu