Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Phi-4-Mini en Phi-4-Multimodal, compacte maar zeer krachtige taal- en multimodale modellen. Phi-4-Mini is een taalmodel met 3,8 miljard parameters, getraind op hoogwaardige web- en synthetische data, dat recente open-source modellen van vergelijkbare grootte aanzienlijk overtreft en de prestaties evenaart van modellen die twee keer zo groot zijn op wiskundige en programmeertaken die complex redeneren vereisen. Deze prestatie wordt mogelijk gemaakt door een zorgvuldig samengesteld synthetisch datarecept dat de nadruk legt op hoogwaardige wiskundige en programmeerdatasets. Vergeleken met zijn voorganger, Phi-3.5-Mini, beschikt Phi-4-Mini over een uitgebreide vocabulairegrootte van 200K tokens om meertalige toepassingen beter te ondersteunen, evenals group query attention voor efficiëntere generatie van lange sequenties. Phi-4-Multimodal is een multimodaal model dat tekst, beeld en spraak/audio-invoermodaliteiten integreert in één model. De nieuwe modaliteitsuitbreidingsaanpak maakt gebruik van LoRA-adapters en modaliteitsspecifieke routers om meerdere inferentiemodi te combineren zonder interferentie. Het model staat momenteel bovenaan de OpenASR-leaderboard, hoewel de LoRA-component van de spraak/audio-modaliteit slechts 460 miljoen parameters heeft. Phi-4-Multimodal ondersteunt scenario's met (beeld + taal), (beeld + spraak) en (spraak/audio) invoer, en presteert beter dan grotere visie-taal- en spraak-taalmodellen op een breed scala aan taken. Daarnaast experimenteren we met het verder trainen van Phi-4-Mini om zijn redeneervermogen te verbeteren. Ondanks zijn compacte omvang van 3,8 miljard parameters, bereikt deze experimentele versie redeneerprestaties die gelijk zijn aan of zelfs beter zijn dan aanzienlijk grotere modellen, waaronder DeepSeek-R1-Distill-Qwen-7B en DeepSeek-R1-Distill-Llama-8B.
Reinforcement Fine-Tuning (RFT) in grote redeneermodellen zoals OpenAI o1 leert van feedback op zijn antwoorden, wat vooral nuttig is in toepassingen waar fijn-tuningdata schaars is. Recent open-source werk zoals DeepSeek-R1 toont aan dat reinforcement learning met verifieerbare beloning een belangrijke richting is bij het reproduceren van o1. Hoewel het R1-stijl model succes heeft aangetoond in taalmodelen, blijft de toepassing ervan in multimodale domeinen onderbelicht. Dit werk introduceert Visual Reinforcement Fine-Tuning (Visual-RFT), dat de toepassingsgebieden van RFT verder uitbreidt naar visuele taken. Specifiek gebruikt Visual-RFT eerst Large Vision-Language Models (LVLMs) om meerdere reacties te genereren die redeneringstokens en eindantwoorden bevatten voor elke invoer, en gebruikt vervolgens onze voorgestelde visuele perceptie verifieerbare beloningsfuncties om het model bij te werken via het beleidsoptimalisatiealgoritme zoals Group Relative Policy Optimization (GRPO). We ontwerpen verschillende verifieerbare beloningsfuncties voor verschillende perceptietaken, zoals de Intersection over Union (IoU) beloning voor objectdetectie. Experimentele resultaten op benchmarks voor fijnmazige beeldclassificatie, few-shot objectdetectie, redeneringsgronding, evenals open-vocabulaire objectdetectie tonen de competitieve prestaties en geavanceerde generalisatiecapaciteit van Visual-RFT in vergelijking met Supervised Fine-tuning (SFT). Zo verbetert Visual-RFT de nauwkeurigheid met 24,3% ten opzichte van de baseline in one-shot fijnmazige beeldclassificatie met ongeveer 100 samples. In few-shot objectdetectie overtreft Visual-RFT de baseline ook met 21,9 op COCO's two-shot setting en 15,4 op LVIS. Onze Visual-RFT vertegenwoordigt een paradigmaverschuiving in het fijn-tunen van LVLMs, en biedt een data-efficiënte, beloningsgedreven aanpak die redenering en aanpassingsvermogen voor domeinspecifieke taken verbetert.
Neural Radiance Fields en 3D Gaussian Splatting hebben een revolutie teweeggebracht in 3D-reconstructie en de taak van novel-view synthesis. Het bereiken van fotorealistisch renderen vanuit extreme nieuwe gezichtspunten blijft echter een uitdaging, aangezien artefacten blijven bestaan in verschillende representaties. In dit werk introduceren we Difix3D+, een nieuwe pijplijn ontworpen om 3D-reconstructie en novel-view synthesis te verbeteren via single-step diffusiemodellen. De kern van onze aanpak is Difix, een single-step beelddiffusiemodel getraind om artefacten in gerenderde nieuwe gezichtspunten te verbeteren en te verwijderen, veroorzaakt door onderbepaalde regio's van de 3D-representatie. Difix vervult twee cruciale rollen in onze pijplijn. Ten eerste wordt het gebruikt tijdens de reconstructiefase om pseudo-trainingsbeelden op te schonen die worden gerenderd vanuit de reconstructie en vervolgens teruggedistilleerd in 3D. Dit verbetert sterk de onderbepaalde regio's en verhoogt de algehele kwaliteit van de 3D-representatie. Belangrijker is dat Difix ook fungeert als een neurale versterker tijdens inferentie, waarbij het effectief resterende artefacten verwijdert die voortkomen uit onvolmaakte 3D-supervisie en de beperkte capaciteit van huidige reconstructiemodellen. Difix3D+ is een algemene oplossing, een enkel model compatibel met zowel NeRF- als 3GS-representaties, en het behaalt een gemiddelde 2x verbetering in FID-score ten opzichte van de basislijnen terwijl het 3D-consistentie behoudt.
Test-time inference is naar voren gekomen als een krachtig paradigma om taalmodellen in staat te stellen langer en zorgvuldiger na te denken over complexe uitdagingen, vergelijkbaar met ervaren menselijke experts. Hoewel reinforcement learning (RL) zelfverbetering in taalmodellen kan stimuleren bij verifieerbare taken, laten sommige modellen aanzienlijke vooruitgang zien terwijl andere snel een plateau bereiken. Zo ontdekken we dat Qwen-2.5-3B Llama-3.2-3B ver overtreft onder identieke RL-training voor het spel Countdown. Dit verschil roept een kritische vraag op: welke intrinsieke eigenschappen maken effectieve zelfverbetering mogelijk? We introduceren een raamwerk om deze vraag te onderzoeken door vier belangrijke cognitieve gedragingen te analyseren — verificatie, terugspoelen, subdoelstellingen bepalen en achterwaarts redeneren — die zowel ervaren menselijke probleemoplossers als succesvolle taalmodellen toepassen. Onze studie toont aan dat Qwen van nature deze redeneergedragingen vertoont, terwijl Llama deze aanvankelijk mist. In systematische experimenten met gecontroleerde gedragsdatasets ontdekken we dat Llama voorbereiden met voorbeelden die deze redeneergedragingen bevatten, aanzienlijke verbeteringen mogelijk maakt tijdens RL, waardoor het de prestaties van Qwen evenaart of overtreft. Belangrijk is dat de aanwezigheid van redeneergedragingen, in plaats van de juistheid van antwoorden, de kritieke factor blijkt te zijn — modellen die zijn voorbereid met incorrecte oplossingen die de juiste redeneerpatronen bevatten, bereiken vergelijkbare prestaties als modellen die zijn getraind op correcte oplossingen. Ten slotte maakt het gebruik van voortgezette pretraining met OpenWebMath-data, gefilterd om redeneergedragingen te versterken, het mogelijk dat het Llama-model de zelfverbeteringstrajectorie van Qwen evenaart. Onze bevindingen leggen een fundamentele relatie vast tussen initiële redeneergedragingen en het vermogen tot verbetering, wat verklaart waarom sommige taalmodellen effectief gebruik maken van extra rekenkracht terwijl andere een plateau bereiken.
Het genereren van ultra-lange sequenties met grote taalmodellen (LLM's) is steeds belangrijker geworden, maar blijft een zeer tijdrovende taak, vooral voor sequenties tot 100K tokens. Hoewel traditionele methoden voor speculatief decoderen bestaan, leidt het simpelweg verlengen van hun generatielimieten niet tot een versnelling van het proces en kan dit zelfs schadelijk zijn. Door een diepgaande analyse hebben we drie grote uitdagingen geïdentificeerd die een efficiënte generatie belemmeren: frequent herladen van het model, dynamisch beheer van sleutel-waarde (KV) paren en repetitieve generatie. Om deze problemen aan te pakken, introduceren we TOKENSWIFT, een nieuw framework ontworpen om het generatieproces van ultra-lange sequenties aanzienlijk te versnellen, terwijl de inherente kwaliteit van het doelmodel behouden blijft. Experimentele resultaten tonen aan dat TOKENSWIFT een versnelling van meer dan 3 keer bereikt over modellen van verschillende schalen (1.5B, 7B, 8B, 14B) en architecturen (MHA, GQA). Deze versnelling vertaalt zich naar uren tijdwinst bij het genereren van ultra-lange sequenties, waardoor TOKENSWIFT een schaalbare en effectieve oplossing is op ongekende lengtes. De code is te vinden op https://github.com/bigai-nlco/TokenSwift.
Recente vooruitgang in muziekgeneratie heeft aanzienlijke aandacht gekregen, maar bestaande benaderingen kampen met kritische beperkingen. Sommige huidige generatieve modellen kunnen alleen de vocale track of de begeleidingstrack synthetiseren. Hoewel sommige modellen gecombineerde vocale en begeleidingstracks kunnen genereren, vertrouwen ze doorgaans op zorgvuldig ontworpen meerfasige cascade-architecturen en ingewikkelde datapipelines, wat de schaalbaarheid beperkt. Bovendien zijn de meeste systemen beperkt tot het genereren van korte muziekfragmenten in plaats van volledige nummers. Verder lijden veelgebruikte methoden op basis van taalmodellen aan trage inferentiesnelheden. Om deze uitdagingen aan te pakken, stellen we DiffRhythm voor, het eerste latent diffusiegebaseerde nummergeneratiemodel dat complete nummers kan synthetiseren met zowel vocale als begeleidingstracks voor een duur van maximaal 4m45s in slechts tien seconden, waarbij hoge muzikaliteit en verstaanbaarheid behouden blijven. Ondanks zijn opmerkelijke mogelijkheden is DiffRhythm ontworpen om eenvoudig en elegant te zijn: het elimineert de noodzaak voor complexe datavoorbereiding, gebruikt een eenvoudige modelstructuur en vereist alleen songteksten en een stijlprompt tijdens inferentie. Daarnaast zorgt zijn niet-autoregressieve structuur voor snelle inferentiesnelheden. Deze eenvoud garandeert de schaalbaarheid van DiffRhythm. Bovendien publiceren we de volledige trainingscode samen met het voorgetrainde model op grootschalige data om reproduceerbaarheid en verder onderzoek te bevorderen.
Onlangs zijn op generatie gebaseerde aanbevelingssystemen met retrievallen naar voren gekomen als een veelbelovend paradigma. De meeste moderne aanbevelingssystemen hanteren echter een retrieve-and-rank strategie, waarbij het generatieve model alleen fungeert als een selector tijdens de retrievallingfase. In dit artikel stellen we OneRec voor, dat het gecascadeerde leerframework vervangt door een uniform generatief model. Voor zover wij weten, is dit het eerste end-to-end generatieve model dat huidige complexe en goed ontworpen aanbevelingssystemen in real-world scenario's significant overtreft. Specifiek omvat OneRec: 1) een encoder-decoder structuur, die de historische gedragssequenties van de gebruiker encodeert en geleidelijk de video's decodeert waarin de gebruiker mogelijk geïnteresseerd is. We gebruiken sparse Mixture-of-Experts (MoE) om de modelcapaciteit te schalen zonder proportioneel de rekenkundige FLOPs te verhogen. 2) een sessiegewijze generatiebenadering. In tegenstelling tot traditionele next-item voorspelling, stellen we een sessiegewijze generatie voor, die eleganter en contextueel coherenter is dan punt-voor-punt generatie die afhankelijk is van handmatig gemaakte regels om de gegenereerde resultaten goed te combineren. 3) een Iterative Preference Alignment module gecombineerd met Direct Preference Optimization (DPO) om de kwaliteit van de gegenereerde resultaten te verbeteren. In tegenstelling tot DPO in NLP, heeft een aanbevelingssysteem typisch slechts één kans om resultaten te tonen voor elke browseverzoek van een gebruiker, waardoor het onmogelijk is om positieve en negatieve samples tegelijkertijd te verkrijgen. Om deze beperking aan te pakken, hebben we een beloningsmodel ontworpen om gebruikersgeneratie te simuleren en de samplingstrategie aan te passen. Uitgebreide experimenten hebben aangetoond dat een beperkt aantal DPO samples de interessevoorkeuren van gebruikers kan afstemmen en de kwaliteit van de gegenereerde resultaten aanzienlijk kan verbeteren. We hebben OneRec geïmplementeerd in de hoofdomgeving van Kuaishou, wat een toename van 1,6% in kijktijd opleverde, een aanzienlijke verbetering.
Onzekerheidsschatting is cruciaal voor het evalueren van Large Language Models (LLM's), met name in domeinen met hoge inzet waar foute antwoorden aanzienlijke gevolgen hebben. Talrijke benaderingen behandelen dit probleem, maar richten zich vaak op een specifiek type onzekerheid en negeren andere. Wij onderzoeken welke schattingen, specifiek token-gewijze entropie en model-as-judge (MASJ), effectief zouden zijn voor meerkeuzevragen bij verschillende vraagonderwerpen. Onze experimenten omvatten drie LLM's: Phi-4, Mistral en Qwen, met verschillende groottes van 1,5B tot 72B, en 14 onderwerpen. Terwijl MASJ vergelijkbaar presteert met een willekeurige foutvoorspeller, voorspelt de respons-entropie modelfouten in kennisafhankelijke domeinen en dient het als een effectieve indicator van vraagmoeilijkheid: voor biologie is de ROC AUC 0,73. Deze correlatie verdwijnt voor het redeneerafhankelijke domein: voor wiskundevragen is de ROC AUC 0,55. Fundamenteel hebben we ontdekt dat de entropiemeting een bepaalde mate van redenering vereist. Daarom moet data-gerelateerde entropie worden geïntegreerd in onzekerheidsschatting frameworks, terwijl MASJ verfijning behoeft. Bovendien zijn bestaande MMLU-Pro-steekproeven bevooroordeeld en zouden ze de benodigde hoeveelheid redenering voor verschillende subdomeinen in evenwicht moeten brengen om een eerlijkere beoordeling van de prestaties van LLM's te bieden.
Transformers met lineaire recurrent modeling bieden lineaire-tijd training en constante-geheugen inferentie. Ondanks hun aangetoonde efficiëntie en prestaties blijft het pretrainen van dergelijke niet-standaard architecturen vanaf nul kostbaar en risicovol. De linearisatie van grote taalmodellen (LLMs) transformeert gepretrainde standaardmodellen in lineaire recurrent structuren, wat een efficiëntere implementatie mogelijk maakt. Huidige linearisatiemethoden introduceren echter typisch extra feature map modules die uitgebreide fine-tuning vereisen en negeren de gating mechanismen die worden gebruikt in state-of-the-art lineaire recurrent modellen. Om deze problemen aan te pakken, presenteert dit artikel Liger, kort voor Linearizing LLMs to gated recurrent structures. Liger is een nieuwe aanpak voor het omzetten van gepretrainde LLMs naar gated lineaire recurrent modellen zonder extra parameters toe te voegen. Het hergebruikt de gepretrainde key matrix gewichten om diverse gating mechanismen te construeren, wat de vorming van verschillende gated recurrent structuren vergemakkelijkt en de noodzaak vermijdt om aanvullende componenten vanaf nul te trainen. Door middel van lichtgewicht fine-tuning met Low-Rank Adaptation (LoRA) herstelt Liger de prestaties van de gelineariseerde gated recurrent modellen om overeen te komen met die van de originele LLMs. Daarnaast introduceren we Liger Attention, een intra-layer hybride aandachtmechanisme, dat 93\% van het Transformer-gebaseerde LLM significant herstelt bij 0.02\% pretraining tokens tijdens het linearisatieproces, en competitieve resultaten behaalt op meerdere benchmarks, zoals gevalideerd op modellen variërend van 1B tot 8B parameters. Code is beschikbaar op https://github.com/OpenSparseLLMs/Linearization.
Diffusiemodellen hebben grote successen geboekt bij het genereren van 2D-afbeeldingen. De kwaliteit en generaliseerbaarheid van 3D-contentgeneratie blijven echter beperkt. State-of-the-art methoden vereisen vaak grootschalige 3D-assets voor training, die moeilijk te verzamelen zijn. In dit werk introduceren we Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), een efficiënt raamwerk voor het genereren, bewerken en verbeteren van 3D-objecten door een goed getraind 2D-afbeeldingsdiffusiemodel te hergebruiken voor 3D-generatie. Specifiek fine-tunen we een diffusiemodel om een "3D Bundle Image" te genereren, een getegelde representatie die bestaat uit multi-view afbeeldingen en hun bijbehorende normal maps. De normal maps worden vervolgens gebruikt om een 3D-mesh te reconstrueren, en de multi-view afbeeldingen zorgen voor texture mapping, wat resulteert in een compleet 3D-model. Deze eenvoudige methode transformeert het 3D-generatieprobleem effectief in een 2D-afbeeldingsgeneratietaak, waardoor de kennis in vooraf getrainde diffusiemodellen maximaal wordt benut. Bovendien tonen we aan dat ons Kiss3DGen-model compatibel is met verschillende diffusiemodeltechnieken, waardoor geavanceerde functies zoals 3D-bewerking, mesh- en textureverbetering mogelijk worden. Door middel van uitgebreide experimenten demonstreren we de effectiviteit van onze aanpak, waarbij we het vermogen aantonen om efficiënt hoogwaardige 3D-modellen te produceren.
Het verhogen van de rekentijd tijdens testen is een eenvoudige aanpak om de kwaliteit van antwoorden in Large Language Models (LLMs) te verbeteren. Hoewel Best-of-N sampling en Self-Consistency met meerderheidsstemming eenvoudig en effectief zijn, vereisen ze een vast aantal steekproefantwoorden voor elke query, ongeacht de complexiteit ervan. Dit kan leiden tot verspilde rekencapaciteit voor eenvoudigere vragen en onvoldoende exploratie voor meer uitdagende vragen. In dit werk stellen we dat het vertrouwen van het model in antwoorden kan worden gebruikt om de efficiëntie van testtijd-schaling te verbeteren. Helaas is bekend dat LLMs overmatig zelfverzekerd zijn en onbetrouwbare schattingen van vertrouwen geven. Om deze beperking aan te pakken, introduceren we Self-Calibration door het vertrouwen afgeleid van Self-Consistency te destilleren in het model zelf. Hierdoor wordt betrouwbare schatting van vertrouwen mogelijk tijdens testen met één voorwaartse doorloop. Vervolgens ontwerpen we efficiënte testtijd-schalingsmethoden op basis van vertrouwen om queries van verschillende moeilijkheidsgraden te behandelen, zoals Early-Stopping voor Best-of-N en Self-Consistency met gekalibreerd vertrouwen. Experimenten op drie LLMs over zes datasets tonen de effectiviteit van onze aanpak aan. Specifiek verbetert het toepassen van Early Stopping op basis van vertrouwen op Best-of-N de nauwkeurigheid van MathQA van 81,0 naar 83,6 met een steekproefbudget van 16 antwoorden, wat de doeltreffendheid van de steekproefstrategie op basis van vertrouwen tijdens inferentie aantoont.
Grote taalmodellen (LLMs) vertonen uitzonderlijke prestaties op een breed scala aan taken; hun token-voor-token autoregressieve generatieproces belemmert echter aanzienlijk de inferentiesnelheid. Speculatieve decodering biedt een veelbelovend raamwerk van concept-then-verifiëren dat de generatielatentie vermindert terwijl de getrouwheid van de uitvoerdistributie behouden blijft. Desalniettemin introduceert het conceptmodel extra rekenoverhead, wat een prestatieknelpunt wordt en de tijd tot de eerste token (TTFT) verhoogt. Eerdere benaderingen om de overhead van het conceptmodel te verminderen, hebben voornamelijk vertrouwd op heuristieken en slaagden er over het algemeen niet in de kwaliteit van de concepttaalmodellen te evenaren. Om deze uitdagingen aan te pakken, stellen we DuoDecoding voor, een nieuwe benadering die het concept- en doelmodel strategisch inzet op respectievelijk de CPU en GPU, waardoor parallelle decodering mogelijk wordt terwijl de kwaliteit van het concept behouden blijft. Onze methode omvat een hardwarebewust optimaal conceptbudget om inactieve tijden te minimaliseren en maakt gebruik van dynamische multi-sequentieconceptvorming om de kwaliteit van het concept te verbeteren. Uitgebreide experimenten over zeven taken laten zien dat DuoDecoding een versnelling van de generatielatentie tot 2,61x bereikt, terwijl de TTFT wordt teruggebracht tot 83% van die in conventionele speculatieve decodering. De code is beschikbaar op https://github.com/KaiLv69/DuoDecoding.
Het analyseren van grote datasets vereist een responsieve uitvoering van queries, maar het uitvoeren van SQL-queries op enorme datasets kan traag zijn. Dit artikel onderzoekt of de uitvoering van queries kan beginnen nog voordat de gebruiker klaar is met typen, waardoor resultaten bijna direct verschijnen. Wij stellen SpeQL voor, een systeem dat gebruikmaakt van Large Language Models (LLMs) om waarschijnlijke queries te voorspellen op basis van het databaseschema, de eerdere queries van de gebruiker en hun onvolledige query. Aangezien exacte queryvoorspelling niet haalbaar is, speculeert SpeQL over gedeeltelijke queries op twee manieren: 1) het voorspelt de querystructuur om queries vooraf te compileren en te plannen, en 2) het berekent kleinere tijdelijke tabellen voor die veel kleiner zijn dan de oorspronkelijke database, maar waarvan wordt voorspeld dat ze alle benodigde informatie bevatten om de uiteindelijke query van de gebruiker te beantwoorden. Daarnaast toont SpeQL continu resultaten voor gespeculeerde queries en subqueries in realtime, wat helpt bij verkennende analyse. Een gebruikersstudie toonde aan dat SpeQL de taakvoltooiingstijd verbeterde, en deelnemers gaven aan dat het speculatieve tonen van resultaten hen hielp om sneller patronen in de data te ontdekken. In de studie verbeterde SpeQL de querylatentie van gebruikers tot wel 289 keer en hield het de overhead redelijk, op $4 per uur.
Het selecteren van hoogwaardige trainingsgegevens uit een grotere pool is een cruciale stap bij het instruction-tuning van taalmodelen, omdat zorgvuldig samengestelde datasets vaak modellen opleveren die beter presteren dan die getraind op veel grotere, lawaaierige datasets. Geautomatiseerde methoden voor dataselectie bij instruction-tuning worden meestal getest door kleine datasets (ongeveer 10k samples) te selecteren uit kleine pools (100-200k samples). Echter, populaire, in gebruik genomen instruction-getunede modellen trainen vaak op honderdduizenden tot miljoenen samples, geselecteerd uit nog grotere datapools. Wij presenteren een systematische studie naar hoe goed dataselectiemethoden schalen naar deze omstandigheden, waarbij we tot 2,5 miljoen samples selecteren uit pools van maximaal 5,8 miljoen samples en evalueren over 7 diverse taken. We laten zien dat veel recent voorgestelde methoden in deze setting tekortschieten ten opzichte van willekeurige selectie (terwijl ze meer rekenkracht gebruiken), en zelfs in prestaties achteruitgaan wanneer ze toegang krijgen tot grotere datapools om uit te selecteren. Echter, we ontdekken dat een variant van representatiegebaseerde dataselectie (RDS+), die gebruikmaakt van gewogen gemiddelde pooling van verborgen toestanden van vooraf getrainde taalmodelen, consistent beter presteert dan complexere methoden in alle geteste omstandigheden – en dat terwijl het rekenkundig efficiënter is. Onze bevindingen benadrukken dat de schaaleigenschappen van voorgestelde geautomatiseerde selectiemethoden nauwkeuriger moeten worden onderzocht. We maken onze code, data en modellen beschikbaar op https://github.com/hamishivi/automated-instruction-selection.
Door gebruikers gegenereerde inhoud (UGC) gemeenschappen, met name die met multimodale inhoud, verbeteren de gebruikerservaring door visuele en tekstuele informatie te integreren in resultaten (of items). De uitdaging om de gebruikerservaring te verbeteren in complexe systemen met zoek- en aanbevelingsdiensten (S&R) heeft de afgelopen jaren aanzienlijke aandacht getrokken van zowel de academische wereld als de industrie. Het gebrek aan hoogwaardige datasets heeft echter de onderzoeksvooruitgang op het gebied van multimodale S&R beperkt. Om in de groeiende behoefte te voorzien aan betere S&R-diensten, presenteren we in dit artikel een nieuwe multimodale informatie retrieval dataset, genaamd Qilin. De dataset is verzameld van Xiaohongshu, een populair sociaal platform met meer dan 300 miljoen maandelijkse actieve gebruikers en een gemiddeld zoekpenetratiepercentage van meer dan 70%. In tegenstelling tot bestaande datasets biedt Qilin een uitgebreide verzameling van gebruikersessies met heterogene resultaten zoals beeld-tekst notities, video notities, commerciële notities en directe antwoorden, wat de ontwikkeling van geavanceerde multimodale neurale retrievalmodellen in diverse taakinstellingen vergemakkelijkt. Om gebruikers tevredenheid beter te modelleren en de analyse van heterogene gebruikersgedragingen te ondersteunen, verzamelen we ook uitgebreide APP-niveau contextuele signalen en authentieke gebruikersfeedback. Opmerkelijk is dat Qilin gebruikers favoriete antwoorden en hun gerelateerde resultaten bevat voor zoekverzoeken die de Deep Query Answering (DQA) module activeren. Dit maakt niet alleen de training en evaluatie van een Retrieval-augmented Generation (RAG) pijplijn mogelijk, maar ook de verkenning van hoe zo'n module het zoekgedrag van gebruikers zou beïnvloeden. Door middel van uitgebreide analyse en experimenten bieden we interessante bevindingen en inzichten voor verdere verbetering van S&R-systemen. We hopen dat Qilin aanzienlijk zal bijdragen aan de vooruitgang van multimodale inhoudsplatforms met S&R-diensten in de toekomst.
Bestaande methoden voor het mixen van vooraf getrainde gegevens voor grote taalmmodellen (LLMs) volgen doorgaans een domeingerichte aanpak, een top-down proces dat eerst domeingewichten bepaalt en vervolgens uniforme gegevenssteekproeven uitvoert binnen elk domein. Deze benaderingen negeren echter significante overlap en gemeenschappelijke kenmerken tussen domeinen, waardoor ze er niet in slagen de globale diversiteit van de samengestelde trainingsdataset te beheersen. Bovendien negeert uniforme steekproefname binnen domeinen fijnmazige, specifieke kenmerken van individuele steekproeven, wat kan leiden tot een suboptimale gegevensverdeling. Om deze tekortkomingen aan te pakken, stellen we een nieuwe steekproefgerichte gegevensmixmethode voor, gebaseerd op een bottom-up paradigma. Deze methode voert globale, domeinoverschrijdende steekproefname uit door systematisch de kwaliteit en diversiteit van elke steekproef te evalueren, waardoor dynamisch de optimale domeinverdeling wordt bepaald. Uitgebreide experimenten over meerdere downstream taken en perplexiteitsbeoordelingen tonen aan dat SampleMix bestaande domeingerichte methoden overtreft. Tegelijkertijd vereist SampleMix 1,4x tot 2,1x trainingsstappen om de prestaties van de referentiemethoden te bereiken, wat het aanzienlijke potentieel van SampleMix benadrukt om vooraf getrainde gegevens te optimaliseren.
Tekst-naar-video generatieve modellen zetten tekstuele prompts om in dynamische visuele inhoud, wat brede toepassingen biedt in filmproductie, gaming en onderwijs. Hun prestaties in de praktijk vallen echter vaak tegen in vergelijking met de verwachtingen van gebruikers. Een belangrijke reden hiervoor is dat deze modellen niet getraind zijn op video's die betrekking hebben op bepaalde onderwerpen die gebruikers willen creëren. In dit artikel introduceren we VideoUFO, de eerste videodataset die specifiek is samengesteld om aan te sluiten bij de focus van gebruikers in realistische scenario's. Daarnaast kenmerkt VideoUFO zich door: (1) een minimale overlap (0,29%) met bestaande videodatasets, en (2) video's die uitsluitend zijn opgehaald via YouTube's officiële API onder de Creative Commons-licentie. Deze twee eigenschappen bieden toekomstige onderzoekers meer vrijheid om hun trainingsbronnen uit te breiden. VideoUFO bestaat uit meer dan 1,09 miljoen videoclips, elk voorzien van zowel een korte als een uitgebreide beschrijving. Specifiek hebben we door middel van clustering eerst 1.291 gebruikersgerichte onderwerpen geïdentificeerd uit de miljoenen-schaal echte tekst-naar-video promptdataset, VidProM. Vervolgens hebben we deze onderwerpen gebruikt om video's van YouTube op te halen, de opgehaalde video's in clips opgesplitst en zowel korte als uitgebreide beschrijvingen gegenereerd voor elke clip. Na verificatie van de clips met de gespecificeerde onderwerpen, blijven er ongeveer 1,09 miljoen videoclips over. Onze experimenten tonen aan dat (1) de huidige 16 tekst-naar-video modellen geen consistente prestaties leveren over alle gebruikersgerichte onderwerpen; en (2) een eenvoudig model getraind op VideoUFO beter presteert dan andere op de slechtst presterende onderwerpen. De dataset is publiekelijk beschikbaar op https://huggingface.co/datasets/WenhaoWang/VideoUFO onder de CC BY 4.0-licentie.
Large Language Models (LLMs) hebben codegeneratie getransformeerd door hun uitzonderlijke begrip van natuurlijke taal en programmeersyntaxis te combineren, waardoor de productiviteit van ontwikkelaars aanzienlijk is toegenomen. Deze vooruitgang heeft geleid tot talrijke inspanningen om hun codeervaardigheden kwantitatief te evalueren. Echter, blijvende uitdagingen, zoals benchmarklekkage, dataverlies en beperkte systeemtoegankelijkheid, belemmeren nog steeds een tijdige en nauwkeurige beoordeling. Om deze beperkingen aan te pakken, introduceren we CodeArena, een online evaluatieframework speciaal ontworpen voor LLM-codegeneratie. De belangrijkste innovatie is een collectief evaluatiemechanisme, dat individuele modelscores dynamisch herkalibreert op basis van de algehele prestaties van alle deelnemende modellen, waardoor scorevooroordelen veroorzaakt door wijdverbreide benchmarklekkage worden gemitigeerd. Daarnaast zorgt CodeArena voor open toegang tot alle ingediende oplossingen en testgevallen en biedt het automatiseringvriendelijke API's om de code-evaluatieworkflow te stroomlijnen. Onze belangrijkste bijdragen zijn: (1) een collectief evaluatiesysteem voor een onbevooroordeelde beoordeling, (2) een openbare repository van oplossingen en testgevallen, en (3) automatiseringklaar gemaakte API's voor naadloze integratie.
Bestaande automatische audiogeneratiemethoden hebben moeite om podcast-achtige audioprogramma's effectief te genereren. De belangrijkste uitdagingen liggen in diepgaande inhoudsgeneratie, gepaste en expressieve stemproductie. Dit artikel introduceert PodAgent, een uitgebreid raamwerk voor het creëren van audioprogramma's. PodAgent 1) genereert informatieve onderwerp-discussie-inhoud door het ontwerpen van een Host-Gast-Schrijver multi-agent samenwerkingssysteem, 2) bouwt een stempool voor geschikte stem-rol matching en 3) maakt gebruik van een LLM-verbeterde spraaksynthesemethode om expressief conversatiespraak te genereren. Gezien het ontbreken van gestandaardiseerde evaluatiecriteria voor podcast-achtige audiogeneratie, hebben we uitgebreide beoordelingsrichtlijnen ontwikkeld om de prestaties van het model effectief te evalueren. Experimentele resultaten tonen de effectiviteit van PodAgent aan, die significant beter presteert dan directe GPT-4-generatie in onderwerp-discussiedialooginhoud, een stemmatchingnauwkeurigheid van 87,4% bereikt en meer expressieve spraak produceert via LLM-geleide synthese. Demopagina: https://podcast-agent.github.io/demo/. Broncode: https://github.com/yujxx/PodAgent.
Dit artikel onderzoekt de mogelijkheid voor grote taalmodellen (LLMs) om private tonale talen te ontwikkelen voor machine-tot-machine (M2M) communicatie. Geïnspireerd door cryptofasie bij menselijke tweelingen (die tot 50% van de tweelinggeboorten beïnvloedt) en natuurlijke tonale talen zoals Mandarijn en Vietnamees, implementeren we een precies karakter-naar-frequentie mappingsysteem dat de volledige ASCII-karakterset (32-126) codeert met behulp van muzikale halve tonen. Elk karakter krijgt een unieke frequentie toegewezen, wat een logaritmische progressie creëert die begint met spatie (220 Hz) en eindigt met tilde (50.175,42 Hz). Dit beslaat ongeveer 7,9 octaven, waarbij hogere karakters bewust worden toegewezen aan ultrasone frequenties buiten het menselijk waarnemingsbereik (>20 kHz). Onze geïmplementeerde softwareprototype demonstreert deze codering via visualisatie, auditieve weergave en ABC-muzieknotatie, waardoor analyse van informatiedichtheid en transmissiesnelheid mogelijk wordt. Tests tonen aan dat tonale codering informatiesnelheden kan bereiken die menselijke spraak overtreffen, terwijl het gedeeltelijk buiten het menselijk waarnemingsbereik opereert. Dit werk reageert direct op zorgen over AI-systemen die binnen de komende vijf jaar catastrofaal private talen zouden kunnen ontwikkelen, door een concreet softwarevoorbeeld te bieden van hoe dergelijke communicatie zou kunnen functioneren en de technische basis die nodig is voor het ontstaan, de detectie en het beheer ervan.
Grote Taalmodellen (LLM's) hebben indrukwekkende praktische nuttigheid getoond en illustreren kunstmatige nuttige intelligentie (AUI). Hun vermogen om adaptief en robuust te redeneren – de kenmerken van kunstmatige algemene intelligentie (AGI) – blijft echter kwetsbaar. Hoewel LLM's ogenschijnlijk succesvol zijn in gezond verstand, programmeren en wiskunde, hebben ze moeite om algoritmisch begrip te generaliseren naar nieuwe contexten. Onze experimenten met algoritmische taken in esoterische programmeertalen laten zien dat het redeneren van LLM's overfit is aan de trainingsdata en beperkt overdraagbaar is. We veronderstellen dat de kern van dit beperkte overdraagbaarheidsprobleem ligt in de koppeling van redeneren en kennis in LLM's. Om de overgang van AUI naar AGI te maken, stellen we voor om kennis en redeneren te ontkoppelen via drie belangrijke richtingen: (1) vooraf trainen om te redeneren met reinforcement learning (RL) vanaf nul als alternatief voor de veelgebruikte voorafgaande training op basis van volgende-tokenvoorspelling, (2) een curriculum van synthetische taken gebruiken om het leren van een redeneerprior voor RL te vergemakkelijken, die vervolgens kan worden overgedragen naar natuurlijke taaltaken, en (3) meer generaliseerbare redeneerfuncties leren met een kleine contextvenster om het uitbuiten van valse correlaties tussen tokens te verminderen. Zo’n redeneersysteem, gekoppeld aan een getraind ophaalsysteem en een grote externe geheugenbank als kennisopslag, kan verschillende beperkingen van bestaande architecturen overwinnen bij het leren redeneren in nieuwe scenario’s.
Naarmate grote taalmodellen zich uitbreiden voorbij natuurlijke taal naar domeinen zoals wiskunde, multimodale interpretatie en belichaamde agenten, weerspiegelen tokens steeds meer metrische relaties in plaats van puur linguïstische betekenis. Wij introduceren DIST2Loss, een afstandsbewust raamwerk ontworpen om autoregressieve discrete modellen te trainen door gebruik te maken van vooraf gedefinieerde afstandsrelaties tussen uitvoertokens. In de kern transformeert DIST2Loss continue exponentiële familieverdelingen, afgeleid van inherente afstandsmetrieken, naar discrete, categorische optimalisatiedoelen die compatibel zijn met de architectuur van de modellen. Deze aanpak stelt de modellen in staat om betekenisvolle afstandsrelaties te leren en te behouden tijdens het genereren van tokens, terwijl compatibiliteit met bestaande architecturen behouden blijft. Empirische evaluaties tonen consistente prestatieverbeteringen in diverse multimodale toepassingen, waaronder visuele verankering, robotmanipulatie, generatieve beloningsmodellering en beeldgeneratie met behulp van vector-gekwantiseerde kenmerken. Deze verbeteringen zijn vooral duidelijk in gevallen met beperkte trainingsdata, wat de effectiviteit van DIST2Loss benadrukt in situaties met beperkte middelen.
Menselijke lezers kunnen efficiënt betekenis halen uit door elkaar gehusselde woorden, een fenomeen dat bekend staat als Typoglycemia, voornamelijk door te vertrouwen op woordvorm; als woordvorm alleen onvoldoende is, gebruiken ze verder contextuele aanwijzingen voor interpretatie. Hoewel geavanceerde grote taalmodellen (LLM's) vergelijkbare vaardigheden vertonen, blijven de onderliggende mechanismen onduidelijk. Om dit te onderzoeken, voeren we gecontroleerde experimenten uit om de rollen van woordvorm en contextuele informatie in semantische reconstructie te analyseren en de aandachtspatronen van LLM's te onderzoeken. Specifiek stellen we eerst SemRecScore voor, een betrouwbare metriek om de mate van semantische reconstructie te kwantificeren, en valideren we de effectiviteit ervan. Met behulp van deze metriek bestuderen we hoe woordvorm en contextuele informatie de semantische reconstructievaardigheid van LLM's beïnvloeden, waarbij we woordvorm identificeren als de kernfactor in dit proces. Verder analyseren we hoe LLM's woordvorm gebruiken en ontdekken dat ze vertrouwen op gespecialiseerde aandachtskoppen om woordvorminformatie te extraheren en te verwerken, waarbij dit mechanisme stabiel blijft bij verschillende niveaus van woordhusseling. Dit onderscheid tussen de vaste aandachtspatronen van LLM's die voornamelijk gericht zijn op woordvorm en de adaptieve strategie van menselijke lezers in het balanceren van woordvorm en contextuele informatie, biedt inzichten om de prestaties van LLM's te verbeteren door mensachtige, contextbewuste mechanismen te integreren.
Hoewel waarschijnlijkheidsgebaseerde generatieve modellen, met name diffusie- en autoregressieve modellen, opmerkelijke kwaliteit hebben bereikt in visuele generatie, lijdt het maximum likelihood estimation (MLE)-doel inherent aan een modus-dekkende neiging die de generatiekwaliteit beperkt bij beperkte modelcapaciteit. In dit werk stellen we Direct Discriminative Optimization (DDO) voor als een uniform raamwerk dat waarschijnlijkheidsgebaseerde generatieve training en het GAN-doel met elkaar verbindt om deze fundamentele beperking te omzeilen. Onze belangrijkste inzicht is het impliciet parametriseren van een discriminator met behulp van de waarschijnlijkheidsratio tussen een leerbaar doelmodel en een vast referentiemodel, wat parallellen trekt met de filosofie van Direct Preference Optimization (DPO). In tegenstelling tot GAN's elimineert deze parametrisering de noodzaak van gezamenlijke training van generator- en discriminatornetwerken, waardoor directe, efficiënte en effectieve finetuning van een goed getraind model mogelijk wordt, voorbij de grenzen van MLE. DDO kan iteratief worden uitgevoerd in een zelfspelende manier voor progressieve modelverfijning, waarbij elke ronde minder dan 1% van de pretrainingsepochs vereist. Onze experimenten tonen de effectiviteit van DDO aan door het vorige state-of-the-art diffusiemodel EDM aanzienlijk te verbeteren, waarbij FID-scores worden verlaagd van 1,79/1,58 naar nieuwe records van 1,30/0,97 op de CIFAR-10/ImageNet-64 datasets, en door zowel begeleidingsvrije als CFG-verbeterde FID's van visuele autoregressieve modellen op ImageNet 256×256 consistent te verbeteren.
Grote Taalmodellen (LLMs) vertonen opmerkelijke capaciteiten in de hiërarchische decompositie van complexe taken door middel van semantisch redeneren. Hun toepassing in geëmbodieerde systemen stuit echter op uitdagingen bij het waarborgen van betrouwbare uitvoering van subtakensequenties en het bereiken van one-shot succes in langetermijntaakvoltooiing. Om deze beperkingen in dynamische omgevingen aan te pakken, stellen we Closed-Loop Embodied Agent (CLEA) voor – een nieuwe architectuur die vier gespecialiseerde open-source LLMs integreert met functionele ontkoppeling voor gesloten-lus taakbeheer. Het framework bevat twee kerninnovaties: (1) Een interactieve taakplanner die dynamisch uitvoerbare subtaken genereert op basis van het omgevingsgeheugen, en (2) Een multimodale uitvoeringscriticus die een evaluatieraamwerk gebruikt om een probabilistische beoordeling van actiehaalbaarheid uit te voeren, waarbij hiërarchische herplanningsmechanismen worden geactiveerd wanneer omgevingsverstoringen vooraf ingestelde drempels overschrijden. Om de effectiviteit van CLEA te valideren, voeren we experimenten uit in een echte omgeving met manipuleerbare objecten, waarbij we twee heterogene robots gebruiken voor objectzoek-, manipulatie- en zoek-manipulatie-integratietaken. Over 12 taakproeven heen presteert CLEA beter dan het basismodel, met een verbetering van 67,3% in succespercentage en een toename van 52,8% in taakvoltooiingspercentage. Deze resultaten tonen aan dat CLEA de robuustheid van taakplanning en -uitvoering in dynamische omgevingen aanzienlijk verbetert.
Recente ontwikkelingen in Web AI-agents hebben opmerkelijke capaciteiten getoond bij het aanpakken van complexe webnavigatietaken. Uit opkomend onderzoek blijkt echter dat deze agents kwetsbaarder zijn in vergelijking met standalone Large Language Models (LLM's), ondanks het feit dat beide zijn gebouwd op dezelfde veiligheidsafgestemde modellen. Dit verschil is vooral zorgwekkend gezien de grotere flexibiliteit van Web AI-agents in vergelijking met standalone LLM's, wat hen bloot kan stellen aan een breder scala aan vijandige gebruikersinvoer. Om een raamwerk te bouwen dat deze zorgen aanpakt, onderzoekt deze studie de onderliggende factoren die bijdragen aan de verhoogde kwetsbaarheid van Web AI-agents. Dit verschil komt voort uit de veelzijdige verschillen tussen Web AI-agents en standalone LLM's, evenals de complexe signalen – nuances die eenvoudige evaluatiemetrics, zoals succeskans, vaak niet kunnen vastleggen. Om deze uitdagingen aan te pakken, stellen we een componentniveau-analyse en een meer gedetailleerd, systematisch evaluatiekader voor. Door dit fijnmazige onderzoek identificeren we drie kritieke factoren die de kwetsbaarheid van Web AI-agents versterken: (1) het inbedden van gebruikersdoelen in de systeemprompt, (2) meerstapsactiegeneratie, en (3) observatievermogen. Onze bevindingen benadrukken de dringende noodzaak om de veiligheid en robuustheid in het ontwerp van AI-agents te verbeteren en bieden praktische inzichten voor gerichte verdedigingsstrategieën.
Het schatten van kamerindelingen vanuit meerdere perspectiefbeelden is slecht onderzocht vanwege de complexiteiten die ontstaan uit multi-view geometrie, wat multi-stap oplossingen vereist zoals het schatten van intrinsieke en extrinsieke cameraparameters, beeldmatching en triangulatie. Echter, in 3D-reconstructie heeft de vooruitgang van recente 3D-fundamentmodellen zoals DUSt3R het paradigma verschoven van het traditionele multi-stap structure-from-motion proces naar een end-to-end aanpak in één stap. Daarom introduceren wij Plane-DUSt3R, een nieuwe methode voor het schatten van kamerindelingen vanuit meerdere perspectieven die gebruikmaakt van het 3D-fundamentmodel DUSt3R. Plane-DUSt3R integreert het DUSt3R-framework en wordt getraind op een kamerindelingendataset (Structure3D) met een aangepast doel om structurele vlakken te schatten. Door uniforme en beknopte resultaten te genereren, maakt Plane-DUSt3R het mogelijk om kamerindelingen te schatten met slechts één post-processing stap en 2D-detectieresultaten. In tegenstelling tot eerdere methoden die afhankelijk zijn van enkelvoudige perspectief- of panoramabeelden, breidt Plane-DUSt3R de instelling uit om meerdere perspectiefbeelden te verwerken. Bovendien biedt het een gestroomlijnde, end-to-end oplossing die het proces vereenvoudigt en de foutaccumulatie vermindert. Experimentele resultaten tonen aan dat Plane-DUSt3R niet alleen state-of-the-art methoden overtreft op de synthetische dataset, maar ook robuust en effectief blijkt op real-world data met verschillende beeldstijlen zoals cartoons. Onze code is beschikbaar op: https://github.com/justacar/Plane-DUSt3R
Laaggewijze kwantisatie is een cruciale techniek voor het efficiënt comprimeren van grote modellen zonder dure hertraining. Eerdere methoden kwantiseren doorgaans de gewichten van elke laag door het "uniform" optimaliseren van de laagreconstructieverlies over alle uitvoertokens. In dit artikel tonen we echter aan dat beter gekwantiseerde modellen kunnen worden verkregen door prioriteit te geven aan het leren van belangrijke tokens (bijv. tokens met grote attentiescores). Op basis van deze bevinding stellen we RSQ (Rotate, Scale, then Quantize) voor, dat (1) rotaties (orthogonale transformaties) toepast op het model om uitbijters (die een uitzonderlijk grote omvang hebben) te verminderen, (2) de tokenfeatures schaalt op basis van hun belangrijkheid, en (3) het model kwantiseert met behulp van het GPTQ-framework met de tweede-orde statistieken berekend door geschaalde tokens. Om de belangrijkheid van tokens te berekenen, verkennen we zowel heuristische als dynamische strategieën. Op basis van een grondige analyse van alle benaderingen, nemen we aandachtconcentratie, die de attentiescores van elk token gebruikt als zijn belangrijkheid, aan als de beste benadering. We tonen aan dat RSQ consistent beter presteert dan baseline-methoden over meerdere downstreamtaken en drie modelfamilies: LLaMA3, Mistral en Qwen2.5. Daarnaast behalen modellen die met RSQ zijn gekwantiseerd superieure prestaties op taken met lange contexten, wat verder de effectiviteit ervan benadrukt. Tot slot toont RSQ generaliseerbaarheid over verschillende opstellingen, waaronder verschillende modelgroottes, kalibratiedatasets, bitprecisies en kwantisatiemethoden.