Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote redeneermodellen (LRM's) zoals OpenAI-o1 en DeepSeek-R1 hebben opmerkelijke prestaties getoond in complexe redeneertaken door gebruik te maken van lange Chain-of-thought (CoT). Deze modellen kampen echter vaak met hallucinaties en inefficiënties vanwege hun uitsluitende afhankelijkheid van interne redeneerprocessen. In dit artikel introduceren we START (Self-Taught Reasoner with Tools), een nieuw tool-geïntegreerd lang CoT redeneer-LLM dat de redeneercapaciteiten aanzienlijk verbetert door gebruik te maken van externe tools. Door code-uitvoering kan START complexe berekeningen uitvoeren, zelfcontrole toepassen, diverse methoden verkennen en zelfdebuggen, waardoor de beperkingen van LRM's worden aangepakt. De kerninnovatie van START ligt in zijn zelflerende raamwerk, dat bestaat uit twee belangrijke technieken: 1) Hint-infer: We tonen aan dat het invoegen van kunstmatig ontworpen hints (bijv. "Wacht, misschien is het gebruik van Python hier een goed idee.") tijdens het inferentieproces van een LRM effectief het vermogen stimuleert om externe tools te gebruiken zonder de noodzaak van demonstratiedata. Hint-infer kan ook dienen als een eenvoudige en effectieve sequentiële test-time schaalingsmethode; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combineert Hint-infer en RFT door de redeneertrajecten met tool-aanroepen die door een LRM zijn gegenereerd via Hint-infer te scoren, filteren en aan te passen, gevolgd door het fine-tunen van het LRM. Door dit raamwerk hebben we het QwQ-32B-model gefinetuned om START te bereiken. Op PhD-niveau wetenschappelijke QA (GPQA), wedstrijdniveau wiskundige benchmarks (AMC23, AIME24, AIME25) en de wedstrijdniveau code-benchmark (LiveCodeBench) behaalt START nauwkeurigheidspercentages van respectievelijk 63,6%, 95,0%, 66,7%, 47,1% en 47,3%. Het presteert aanzienlijk beter dan het basis QwQ-32B en bereikt prestaties die vergelijkbaar zijn met het state-of-the-art open-weight model R1-Distill-Qwen-32B en het propriëtaire model o1-Preview.
Recente vooruitgang in video-gebaseerde multimodale grote taalmodellen (Video-LLMs) heeft het begrip van video's aanzienlijk verbeterd door video's te verwerken als reeksen beeldframes. Veel bestaande methoden behandelen frames echter onafhankelijk in de visuele backbone, zonder expliciete temporele modellering, wat hun vermogen beperkt om dynamische patronen vast te leggen en lange video's efficiënt te verwerken. Om deze beperkingen aan te pakken, introduceren we STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), een nieuwe architectuur die een specifieke temporele encoder integreert tussen de beeldencoder en het LLM. Onze temporele encoder maakt gebruik van het Mamba State Space Model om temporele informatie in beeldtokens te integreren, waardoor verrijkte representaties worden gegenereerd die de dynamiek tussen frames in de gehele videosequentie behouden. Deze verrijkte codering verbetert niet alleen de redeneervaardigheden voor video's, maar maakt ook effectieve tokenreductiestrategieën mogelijk, waaronder test-time sampling en training-gebaseerde temporele en ruimtelijke pooling, wat de rekenkundige eisen aan het LLM aanzienlijk vermindert zonder belangrijke temporele informatie op te offeren. Door deze technieken te integreren, vermindert onze aanpak zowel de trainings- als de inferentielatentie terwijl de prestaties worden verbeterd, wat efficiënt en robuust videobegrip over uitgebreide temporele contexten mogelijk maakt. Uitgebreide evaluaties tonen aan dat STORM state-of-the-art resultaten behaalt op verschillende benchmarks voor langdurig videobegrip (meer dan 5% verbetering op MLVU en LongVideoBench) terwijl de rekenkosten tot 8 keer worden verminderd en de decoderinglatentie met 2,4-2,9 keer wordt verminderd voor een vast aantal invoerframes. De projectpagina is beschikbaar op https://research.nvidia.com/labs/lpr/storm.
Recente vooruitgang in spraak-naar-spraak dialoogsystemen maakt gebruik van LLM's voor multimodale interacties, maar deze worden nog steeds belemmerd door de noodzaak van fine-tuning, hoge rekenkosten en tekst-spraak-misalignering. Bestaande spraakondersteunde LLM's verminderen vaak de gesprekskwaliteit door de LLM aan te passen, waardoor de linguïstische mogelijkheden worden aangetast. Daarentegen stellen wij LLMVoX voor, een lichtgewicht 30M-parameter, LLM-agnostisch, autoregressief streaming TTS-systeem dat hoogwaardige spraak genereert met lage latentie, terwijl de mogelijkheden van de basis-LLM volledig behouden blijven. Onze aanpak bereikt een aanzienlijk lagere Word Error Rate in vergelijking met spraakondersteunde LLM's, terwijl het werkt met vergelijkbare latentie en UTMOS-score. Door spraaksynthese te ontkoppelen van LLM-verwerking via een multi-queue token streaming-systeem, ondersteunt LLMVoX naadloze, oneindig lange dialogen. Het plug-and-play ontwerp vergemakkelijkt ook uitbreiding naar verschillende taken met verschillende backbones. Bovendien generaliseert LLMVoX naar nieuwe talen met alleen dataset-aanpassing, en bereikt het een lage Character Error Rate op een Arabische spraaktaak. Daarnaast hebben we LLMVoX geïntegreerd met een Vision-Language Model om een omni-model te creëren met spraak-, tekst- en visuele mogelijkheden, zonder aanvullende multimodale training te vereisen. Onze codebase en projectpagina is beschikbaar op https://mbzuai-oryx.github.io/LLMVoX.
We introduceren EgoLife, een project om een egocentrische levensassistent te ontwikkelen die persoonlijke efficiëntie begeleidt en verbetert door middel van AI-aangedreven draagbare brillen. Om de basis voor deze assistent te leggen, hebben we een uitgebreide gegevensverzamelingsstudie uitgevoerd waarin zes deelnemers een week samenleefden en continu hun dagelijkse activiteiten vastlegden - waaronder discussies, winkelen, koken, socializen en entertainment - met behulp van AI-brillen voor multimodale egocentrische videocaptie, samen met gesynchroniseerde derdepersoons-videoreferenties. Deze inspanning resulteerde in de EgoLife Dataset, een uitgebreide 300-uur durende egocentrische, interpersoonlijke, multiview en multimodale dataset van het dagelijks leven met intensieve annotatie. Gebruikmakend van deze dataset introduceren we EgoLifeQA, een reeks lang-context, leven-gerichte vraag-antwoordtaken die ontworpen zijn om zinvolle ondersteuning in het dagelijks leven te bieden door praktische vragen aan te pakken, zoals het herinneren van relevante gebeurtenissen uit het verleden, het monitoren van gezondheidsgewoonten en het aanbieden van gepersonaliseerde aanbevelingen. Om de belangrijkste technische uitdagingen aan te pakken van (1) het ontwikkelen van robuuste visueel-audiomodellen voor egocentrische gegevens, (2) het mogelijk maken van identiteitsherkenning en (3) het faciliteren van lang-context vraag-antwoord over uitgebreide temporele informatie, introduceren we EgoButler, een geïntegreerd systeem bestaande uit EgoGPT en EgoRAG. EgoGPT is een omnimodaal model getraind op egocentrische datasets, dat state-of-the-art prestaties behaalt op het gebied van egocentrische videobegrip. EgoRAG is een op retrieval gebaseerde component die het beantwoorden van ultra-lang-context vragen ondersteunt. Onze experimentele studies verifiëren hun werkingsmechanismen en onthullen kritieke factoren en knelpunten, die toekomstige verbeteringen begeleiden. Door onze datasets, modellen en benchmarks vrij te geven, streven we ernaar om verder onderzoek naar egocentrische AI-assistenten te stimuleren.
Naarmate grote taalmodellen steeds meer verantwoordelijk worden voor online content, ontstaan er zorgen over de impact van het herhaaldelijk verwerken van hun eigen uitvoer. Geïnspireerd door het "gebroken telefoon"-effect in geketende menselijke communicatie, onderzoekt deze studie of taalmodellen informatie op een vergelijkbare manier vervormen door iteratieve generatie. Via vertaalgebaseerde experimenten ontdekken we dat vervorming zich in de loop van de tijd opstapelt, beïnvloed door taalvoorkeur en ketencomplexiteit. Hoewel degradatie onvermijdelijk is, kan deze worden beperkt door strategische promptingtechnieken. Deze bevindingen dragen bij aan discussies over de langetermijneffecten van AI-gemedieerde informatieverspreiding en roepen belangrijke vragen op over de betrouwbaarheid van door taalmodellen gegenereerde content in iteratieve workflows.
Effectieve evaluatie van de redeneervaardigheden van grote taalmmodellen (LLM's) is vatbaar voor overschatting vanwege de blootstelling van evaluatiebenchmarks aan data. We introduceren een raamwerk voor het produceren van linguïstische redeneerproblemen dat het effect van memorisatie op modelprestatie-inschattingen vermindert en passen dit raamwerk toe om LINGOLY-TOO te ontwikkelen, een uitdagende evaluatiebenchmark voor linguïstisch redeneren. Door orthografische sjablonen te ontwikkelen, verhullen we dynamisch de schriftsystemen van echte talen om talloze vraagvarianten te genereren. Deze varianten behouden de redeneerstappen die voor elke oplossing nodig zijn, terwijl de kans wordt verkleind dat specifieke probleeminstanties in de trainingsdata van het model voorkomen. Onze experimenten tonen aan dat frontiermodellen, waaronder OpenAI o1-preview en DeepSeem R1, moeite hebben met geavanceerd redeneren. Onze analyse laat ook zien dat LLM's aanzienlijke variatie in nauwkeurigheid vertonen bij permutaties van hetzelfde probleem en gemiddeld beter presteren op vragen die in hun oorspronkelijke orthografie voorkomen. Onze bevindingen benadrukken de ondoorzichtige aard van antwoordgeneratie in LLM's en leveren bewijs dat eerdere data-blootstelling bijdraagt aan het overschatten van de redeneervaardigheden van frontiermodellen.
Het begrijpen en redeneren over niet-spraakgeluiden en muziek is cruciaal voor zowel mensen als AI-agenten om effectief te kunnen interacteren met hun omgeving. In dit artikel introduceren we Audio Flamingo 2 (AF2), een Audio-Taal Model (ALM) met geavanceerde mogelijkheden voor audio-begrip en redenering. AF2 maakt gebruik van (i) een aangepast CLAP-model, (ii) synthetische Audio QA-gegevens voor gedetailleerde audio-redenering, en (iii) een meerfasige curriculumleerstrategie. AF2 behaalt state-of-the-art prestaties met slechts een klein taalmodel van 3B parameters, en overtreft grote open-source en propriëtaire modellen op meer dan 20 benchmarks. Vervolgens breiden we, voor het eerst, audio-begrip uit naar lange audiosegmenten (30 seconden tot 5 minuten) en introduceren we LongAudio, een grote en nieuwe dataset voor het trainen van ALM's op taken voor lange audio-beschrijving en vraag-beantwoording. Het finetunen van AF2 op LongAudio resulteert in uitzonderlijke prestaties op onze voorgestelde LongAudioBench, een door experts geannoteerde benchmark voor het evalueren van ALM's op het begrijpen van lange audiosegmenten. We voeren uitgebreide ablatiestudies uit om de effectiviteit van onze aanpak te bevestigen. Projectwebsite: https://research.nvidia.com/labs/adlr/AF2/.
We leggen rigoureus een bipartiete wederzijdse informatie-schaalwet vast in natuurlijke taal die langeafstandsafhankelijkheden beheerst. Deze schaalwet, waarvan we aantonen dat deze verschilt van en onafhankelijk schaalt van de conventionele tweepunts wederzijdse informatie, is de sleutel tot het begrijpen van lang-context taalmodellering. Met behulp van deze schaalwet formuleren we de Lang-context Taalmodellering (L^2M) voorwaarde, die het vermogen van een model voor effectieve lange contextlengte modellering relateert aan de schaling van de grootte van zijn latente toestand voor het opslaan van eerdere informatie. Onze resultaten worden gevalideerd door experimenten op zowel transformatoren als toestandsruimtemodellen. Dit werk legt een theoretische basis die de ontwikkeling van grote taalmodellen richting langere contextlengten begeleidt.
We introduceren IFIR, de eerste uitgebreide benchmark die is ontworpen om instructievolgend informatiezoeken (IR) in expertgebieden te evalueren. IFIR omvat 2.426 hoogwaardige voorbeelden en bestrijkt acht subsets binnen vier gespecialiseerde domeinen: financiën, recht, gezondheidszorg en wetenschappelijke literatuur. Elke subset behandelt een of meer domeinspecifieke zoektaken, waarbij realistische scenario's worden nagebootst waarin aangepaste instructies cruciaal zijn. IFIR maakt een gedetailleerde analyse mogelijk van de mogelijkheden voor instructievolgend zoeken door instructies op verschillende complexiteitsniveaus te integreren. We stellen ook een nieuwe, op LLM gebaseerde evaluatiemethode voor om een nauwkeurigere en betrouwbaardere beoordeling te geven van de prestaties van modellen in het volgen van instructies. Door uitgebreide experimenten uit te voeren op 15 geavanceerde zoekmodellen, waaronder die gebaseerd op LLM's, tonen onze resultaten aan dat huidige modellen aanzienlijke uitdagingen ondervinden bij het effectief volgen van complexe, domeinspecifieke instructies. We bieden verder diepgaande analyses om deze beperkingen te benadrukken, wat waardevolle inzichten biedt om toekomstige vooruitgang in de ontwikkeling van zoeksystemen te begeleiden.
Transformers zijn de facto de standaardarchitectuur geworden voor een breed scala aan machine learning-taken, met name in grote taalmodellen (LLM's). Ondanks hun opmerkelijke prestaties blijven er uitdagingen bestaan bij het trainen van diepe transformer-netwerken, vooral met betrekking tot de plaatsing van laagnormalisatie. Hoewel Pre-Norm-structuren het trainen vergemakkelijken vanwege hun prominentere identiteitspad, leveren ze vaak suboptimale prestaties op in vergelijking met Post-Norm. In dit artikel stellen we HybridNorm voor, een eenvoudige maar effectieve hybridenormalisatiestrategie die de voordelen van zowel Pre-Norm als Post-Norm benaderingen integreert. Specifiek gebruikt HybridNorm QKV-normalisatie binnen het aandachtmechanisme en Post-Norm in het feedforward-netwerk (FFN) van elk transformer-blok. Dit ontwerp stabiliseert niet alleen het trainen, maar verbetert ook de prestaties, vooral in de context van LLM's. Uitgebreide experimenten in zowel dichte als sparse architecturen laten zien dat HybridNorm consistent beter presteert dan zowel Pre-Norm als Post-Norm benaderingen, waarbij state-of-the-art resultaten worden behaald op verschillende benchmarks. Deze bevindingen benadrukken het potentieel van HybridNorm als een stabielere en effectievere techniek voor het verbeteren van het trainen en de prestaties van diepe transformer-modellen. %Code zal publiekelijk beschikbaar worden gemaakt. Code is beschikbaar op https://github.com/BryceZhuo/HybridNorm.
We introduceren FuseChat-3.0, een suite van grote taalmodelen (LLMs) ontwikkeld door de sterke punten van heterogene bron-LLMs te integreren in compactere doel-LLMs. Onze bronmodellen omvatten de krachtige Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct en Llama-3.1-70B-Instruct. Voor de doelmodellen richten we ons op drie veelgebruikte kleinere varianten—Llama-3.1-8B-Instruct, Gemma-2-9B-it en Qwen-2.5-7B-Instruct—samen met twee ultra-compacte opties, Llama-3.2-3B-Instruct en Llama-3.2-1B-Instruct. Om de diverse mogelijkheden van deze bronmodellen te benutten, ontwikkelen we een gespecialiseerd protocol voor dataconstructie, afgestemd op verschillende taken en domeinen. De trainingspijplijn van FuseChat-3.0 bestaat uit twee belangrijke fasen: (1) supervised fine-tuning (SFT) om de distributies van het doel- en bronmodel af te stemmen, en (2) Direct Preference Optimization (DPO) om voorkeuren van meerdere bron-LLMs toe te passen voor het finetunen van het doelmodel. De resulterende FuseChat-3.0-modellen vertonen aanzienlijke prestatieverbeteringen op taken zoals instructievolging, algemene kennis, wiskunde en programmeren. Zoals geïllustreerd in Figuur 1, bereikt onze fusieaanpak met Llama-3.1-8B-Instruct als doelmodel een gemiddelde verbetering van 6,8 punten over 14 benchmarks. Bovendien toont het opmerkelijke verbeteringen van 37,1 punten en 30,1 punten op de instructievolging-benchmarks AlpacaEval-2 en Arena-Hard, respectievelijk. Onze code, modellen en datasets zijn beschikbaar op https://github.com/SLIT-AI/FuseChat-3.0.
We introduceren Pok\'eChamp, een minimax-agent aangedreven door Large Language Models (LLM's) voor Pok\'emon-gevechten. Gebouwd op een algemeen framework voor tweespelerscompetitieve spellen, benut Pok\'eChamp de generalistische capaciteiten van LLM's om minimax-boomzoeken te verbeteren. Specifiek vervangen LLM's drie cruciale modules: (1) actiebemonstering van de speler, (2) tegenstandermodellering, en (3) waardefunctieschatting, waardoor de agent effectief gameplaygeschiedenis en menselijke kennis kan gebruiken om de zoekruimte te verkleinen en gedeeltelijke observeerbaarheid aan te pakken. Opmerkelijk is dat ons framework geen aanvullende LLM-training vereist. We evalueren Pok\'eChamp in het populaire Gen 9 OU-formaat. Wanneer aangedreven door GPT-4o, behaalt het een winstpercentage van 76% tegen de beste bestaande LLM-gebaseerde bot en 84% tegen de sterkste regelgebaseerde bot, wat zijn superieure prestaties aantoont. Zelfs met een open-source 8-miljard-parameter Llama 3.1-model presteert Pok\'eChamp consistent beter dan de vorige beste LLM-gebaseerde bot, Pok\'ellmon aangedreven door GPT-4o, met een winstpercentage van 64%. Pok\'eChamp bereikt een geprojecteerde Elo van 1300-1500 op de Pok\'emon Showdown online ladder, wat het plaatst onder de top 30%-10% van menselijke spelers. Daarnaast compileert dit werk de grootste dataset van echte Pok\'emon-gevechten, met meer dan 3 miljoen spellen, waaronder meer dan 500k high-Elo wedstrijden. Op basis van deze dataset stellen we een reeks gevechtsbenchmarks en puzzels op om specifieke gevechtsvaardigheden te evalueren. We bieden verder belangrijke updates aan de lokale game-engine. We hopen dat dit werk verder onderzoek stimuleert dat Pok\'emon-gevechten als benchmark gebruikt om LLM-technologieën te integreren met speltheoretische algoritmen die algemene multiagentproblemen aanpakken. Video's, code en dataset zijn beschikbaar op https://sites.google.com/view/pokechamp-llm.
Hallucinaties in LLM's vormen een belangrijk aandachtspunt voor hun veilige inzet in real-world toepassingen. Recente benaderingen hebben gebruikgemaakt van de latente ruimte van LLM's voor hallucinatiedetectie, maar hun embeddings, die geoptimaliseerd zijn voor linguïstische samenhang in plaats van feitelijke nauwkeurigheid, slagen er vaak niet in om waarheidsgetrouwe en gehallucineerde inhoud duidelijk te scheiden. Daarom stellen we de Truthfulness Separator Vector (TSV) voor, een lichtgewicht en flexibele stuurvector die de representatieruimte van de LLM tijdens inferentie hervormt om de scheiding tussen waarheidsgetrouwe en gehallucineerde uitvoer te verbeteren, zonder de modelparameters aan te passen. Ons tweestapsraamwerk traint eerst de TSV op een kleine set gelabelde voorbeelden om compacte en goed gescheiden clusters te vormen. Vervolgens wordt de voorbeeldset uitgebreid met ongelabelde LLM-generaties, waarbij een op optimaal transport gebaseerd algoritme wordt gebruikt voor pseudo-labeling in combinatie met een op vertrouwen gebaseerd filterproces. Uitgebreide experimenten tonen aan dat TSV state-of-the-art prestaties bereikt met minimale gelabelde data, waarbij het sterke generalisatie vertoont over datasets en een praktische oplossing biedt voor real-world LLM-toepassingen.
Recente vooruitgang in tekst-naar-video (T2V) generatie is gedreven door twee concurrerende paradigma's: autoregressieve taalmmodellen en diffusiemodellen. Elk paradigma heeft echter intrinsieke beperkingen: taalmmodellen worstelen met visuele kwaliteit en foutaccumulatie, terwijl diffusiemodellen tekortschieten in semantisch begrip en causaal modelleren. In dit werk stellen we LanDiff voor, een hybride framework dat de sterke punten van beide paradigma's combineert via grof-naar-fijne generatie. Onze architectuur introduceert drie belangrijke innovaties: (1) een semantische tokenizer die 3D-visuele kenmerken comprimeert tot compacte 1D-discrete representaties door efficiënte semantische compressie, wat een compressieverhouding van 14.000 keer bereikt; (2) een taalmodel dat semantische tokens genereert met hoogwaardige semantische relaties; (3) een streaming diffusiemodel dat grove semantiek verfijnt tot hoogwaardige video's. Experimenten tonen aan dat LanDiff, een model van 5B, een score van 85,43 behaalt op de VBench T2V-benchmark, waarmee het de state-of-the-art open-source modellen Hunyuan Video (13B) en andere commerciële modellen zoals Sora, Keling en Hailuo overtreft. Bovendien behaalt ons model ook state-of-the-art prestaties in lange videogeneratie, waarmee het andere open-source modellen op dit gebied overtreft. Onze demo is te bekijken op https://landiff.github.io/.
Mixture-of-Experts (MoE) verbetert de modelprestaties terwijl de rekenkundige efficiëntie behouden blijft, waardoor het goed geschikt is voor grootschalige toepassingen. Echter, in het bestaande MoE-paradigma werken experts als individuen, waardoor hoogwaardige interacties tussen experts ontbreken. Bovendien zijn ze niet effectief uitgebreid naar aandachtblokken, wat verdere efficiëntieverbeteringen beperkt. Om deze problemen aan te pakken, stellen we Union-of-Experts (UoE) voor, waarbij de transformer wordt opgedeeld in een gelijkwaardige groep experts, en vervolgens dynamische routering wordt toegepast op invoergegevens en experts. Onze aanpak brengt het MoE-ontwerp naar een hoger niveau met drie belangrijke innovaties: (1) We hebben een gelijkwaardige expert-opdeling uitgevoerd op zowel MLP-blokken als aandachtblokken op basis van matrixpartitie in tensorparallelisme. (2) We hebben twee routeringsparadigma's ontwikkeld: patchgewijze gegevensselectie en expertselectie, om routering op verschillende niveaus toe te passen. (3) We ontwerpen de architectuur van het UoE-model, inclusief Selective Multi-Head Attention (SMHA) en Union-of-MLP-Experts (UoME). (4) We ontwikkelen een parallelle implementatie van de routering en rekenoperaties van UoE, en optimaliseren de efficiëntie op basis van hardwareverwerkingsanalyse. De experimenten tonen aan dat het model met UoE Full Attention, state-of-the-art MoE's en efficiënte transformers overtreft in verschillende taken binnen beeld- en natuurlijke taal domeinen. De broncodes zijn beschikbaar op https://github.com/YujiaoYang-work/UoE.
Het serveren van grote taalmmodellen (LLM's) is kostbaar. Post-training gewichtskwantisering kan dit probleem echter aanpakken door zowel hun grootte te comprimeren voor beperkt geheugen als bandbreedte te besparen voor versnelling. Omdat niet alle gewichtsdimensies even belangrijk zijn, vertrouwen deze methoden doorgaans op een gevoeligheidsmetriek, die de elementgewijze invloed van gewichten op de verliesfunctie aangeeft en wordt gebruikt om de oorspronkelijke gewichten voor te bereiden voor betere kwantisering. In dit werk voeren we een empirische studie uit naar de nauwkeurigheid van de gevoeligheidsmetriek, en we ontdekken dat bestaande op gradienten en Hessiaanse matrices gebaseerde metrieken zeer onnauwkeurig zijn: ze onderschatten de impact van kwantisering op de verliesfunctie met ordes van grootte, voornamelijk vanwege de kleine convergentiestraal van lokale 2e-orde benadering, d.w.z. de gradient- en Hessiaanse term in de formule van Taylor. Om dit probleem aan te pakken, stellen we Post-quantization Integral (PQI) voor, een nauwkeurige metriek om de posterior gevoeligheid op een fijnmazige manier te schatten. Om deze nauwkeurige metriek te benutten, stellen we verder ReQuant voor, een eenvoudig maar krachtig framework dat voornamelijk bestaat uit twee Dense-and-Sparse detach-componenten: zelf-adaptieve uitbijterselectie en stapsgewijze detach van significante gewichten. Resultaten tonen aan dat ReQuant state-of-the-art post-training kwantiseringsmethoden verbetert, met een opvallende verbetering van 2,66 perplexiteitswinst op Llama 3.2 1B met QTIP.
Inference-Time Scaling is van cruciaal belang geweest voor het succes van recente modellen zoals OpenAI o1 en DeepSeek R1. Veel technieken die worden gebruikt om modellen te trainen voor inference-time scaling vereisen echter dat taken antwoorden hebben die kunnen worden geverifieerd, wat hun toepassing beperkt tot domeinen zoals wiskunde, programmeren en logisch redeneren. Wij laten ons inspireren door hoe mensen eerste pogingen doen, gedetailleerde feedback vragen aan anderen en verbeteringen aanbrengen op basis van dergelijke feedback over een breed spectrum van open-einde activiteiten. Hiertoe verzamelen wij data en trainen wij specifieke Feedback- en Edit-modellen die in staat zijn om inference-time scaling uit te voeren voor open-einde taken in algemene domeinen. In onze opzet genereert één model een initieel antwoord, dat feedback krijgt van een tweede model, waarna een derde model het antwoord bewerkt. Wij tonen aan dat de prestaties op Arena Hard, een benchmark die sterk voorspellend is voor Chatbot Arena Elo, kunnen worden verbeterd door het aantal initiële antwoordconcepten, effectieve feedback en bewerkte antwoorden op te schalen. Wanneer optimaal geschaald, kan onze opzet gebaseerd op 70B-modellen uit de Llama 3-familie een state-of-the-art prestatie bereiken op Arena Hard met 92,7 vanaf 5 maart 2025, waarmee OpenAI o1-preview-2024-09-12 met 90,4 en DeepSeek R1 met 92,3 worden overtroffen.
Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt in machinaal vertalen, waarbij ze indrukwekkende prestaties laten zien over diverse talen. Echter blijft translationese, gekenmerkt door te letterlijke en onnatuurlijke vertalingen, een hardnekkige uitdaging in LLM-gebaseerde vertaalsystemen. Ondanks hun voorafgaande training op enorme corpora van natuurlijke uitingen, vertonen LLMs translationese-fouten en genereren ze onverwachte onnatuurlijke vertalingen, wat voortkomt uit biases die tijdens supervised fine-tuning (SFT) worden geïntroduceerd. In dit werk evalueren we systematisch de prevalentie van translationese in LLM-gegenereerde vertalingen en onderzoeken we de oorzaken ervan tijdens supervised training. We introduceren methoden om deze biases te verminderen, waaronder het polijsten van gouden referenties en het filteren van onnatuurlijke trainingsinstanties. Empirische evaluaties tonen aan dat deze benaderingen translationese aanzienlijk verminderen en tegelijkertijd de natuurlijkheid van vertalingen verbeteren, wat wordt gevalideerd door menselijke evaluaties en automatische metrieken. Onze bevindingen benadrukken de noodzaak van training-aware aanpassingen om LLM-vertalingen te optimaliseren, waardoor de weg wordt geëffend voor vloeiendere en doeltaal-consistente vertalingen. We maken de data en code beschikbaar op https://github.com/yafuly/LLM_Translationese.
Het efficiënt oplossen van Bayesiaanse inverse problemen blijft een grote uitdaging vanwege de complexiteit van posterior verdelingen en de rekenkosten van traditionele samplingmethoden. Gegeven een reeks observaties en het forward model, willen we de verdeling van de parameters herstellen, geconditioneerd op geobserveerde experimentele data. We tonen aan dat door Conditional Flow Matching (CFM) te combineren met een transformer-gebaseerde architectuur, we efficiënt kunnen samplen uit dit soort verdeling, geconditioneerd op een variabel aantal observaties.
Hoewel crosslinguale transfer cruciaal is voor de meertalige capaciteiten van hedendaagse taalmodelen, is het nog niet goed begrepen hoe dit precies plaatsvindt. In dit artikel onderzoeken we wat er gebeurt met een eentalig taalmodel wanneer het begint te worden getraind op een tweede taal. Specifiek trainen we kleine tweetalige modellen waarbij we de hoeveelheid data voor elke taal en de volgorde van taalblootstelling controleren. Om bewijs te vinden van gedeelde meertalige representaties, maken we gebruik van structurele priming, een methode die wordt gebruikt om grammaticale representaties bij mensen te bestuderen. We repliceren eerst eerdere resultaten van crosslinguale structurele priming en ontdekken dat, na controle voor de hoeveelheid trainingsdata en taalblootstelling, er asymmetrische effecten zijn tussen taalparen en richtingen. We stellen dat deze asymmetrie hypotheses over menselijke structurele priming-effecten kan vormen. We vinden ook dat structurele priming-effecten minder robuust zijn voor minder vergelijkbare taalparen, wat potentiële beperkingen van crosslinguale transfer learning en gedeelde representaties voor typologisch diverse talen benadrukt.
Softwareprojecten gedijen bij de betrokkenheid en bijdragen van individuen uit verschillende achtergronden. Echter kunnen giftige taal en negatieve interacties de deelname en retentie van bijdragers belemmeren en nieuwkomers vervreemden. Proactieve moderatiestrategieën zijn erop gericht om toxiciteit te voorkomen door gesprekken die zijn afgedwaald van hun beoogde doel aan te pakken. Deze studie heeft als doel om gespreksafdwaling die leidt tot toxiciteit op GitHub te begrijpen en te voorspellen. Om dit onderzoek te faciliteren, hebben we een nieuwe dataset samengesteld die 202 giftige gesprekken van GitHub bevat met geannoteerde afdwalingspunten, samen met 696 niet-giftige gesprekken als referentiekader. Op basis van deze dataset identificeren we unieke kenmerken van giftige gesprekken en afdwalingspunten, waaronder linguïstische markers zoals tweede-persoonsvoornaamwoorden, ontkenningstermen, en tonen van Bittere Frustratie en Ongeduld, evenals patronen in de gespreksdynamiek tussen projectbijdragers en externe deelnemers. Gebruikmakend van deze empirische observaties, stellen we een proactieve moderatieaanpak voor om potentieel schadelijke gesprekken automatisch te detecteren en aan te pakken voordat ze escaleren. Door gebruik te maken van moderne LLM's, ontwikkelen we een techniek voor het samenvatten van gesprekstrajecten die de evolutie van discussies vastlegt en vroege tekenen van afdwaling identificeert. Onze experimenten tonen aan dat LLM-prompts die zijn afgestemd op het samenvatten van GitHub-gesprekken een F1-Score van 69% behalen in het voorspellen van gespreksafdwaling, wat een sterke verbetering is ten opzichte van een reeks baseline-benaderingen.