Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Agent K v1.0, een end-to-end autonome data science agent ontworpen om diverse data science taken te automatiseren, optimaliseren en generaliseren. Volledig geautomatiseerd beheert Agent K v1.0 de gehele levenscyclus van data science door te leren van ervaring. Het maakt gebruik van een zeer flexibel gestructureerd redeneerkader om dynamisch geheugen te verwerken in een geneste structuur, waarbij effectief wordt geleerd van opgeslagen opgebouwde ervaring om complexe redeneertaken aan te pakken. Het optimaliseert het lange- en korte termijngeheugen door selectief belangrijke informatie op te slaan en op te halen, waardoor toekomstige beslissingen worden geleid op basis van omgevingsbeloningen. Deze iteratieve benadering stelt het in staat beslissingen te verfijnen zonder fijnafstemming of backpropagatie, wat leidt tot continue verbetering door ervaringsleren. We evalueren de mogelijkheden van onze agent met behulp van Kaggle-competities als casestudy. Volgens een volledig geautomatiseerd protocol adresseert Agent K v1.0 systematisch complexe en multimodale data science taken, waarbij Bayesian optimalisatie wordt toegepast voor hyperparameterafstemming en functie-engineering. Ons nieuwe evaluatiekader beoordeelt rigoureus de end-to-end mogelijkheden van Agent K v1.0 om inzendingen te genereren en te verzenden vanaf een Kaggle-competitie-URL. De resultaten tonen aan dat Agent K v1.0 een succespercentage van 92,5\% behaalt over taken, variërend van tabulaire, computer vision, NLP en multimodale domeinen. Bij benchmarking tegen 5.856 menselijke Kaggle-deelnemers door Elo-MMR-scores te berekenen voor elk, rangschikt Agent K v1.0 in de top 38\%, wat een algeheel vaardigheidsniveau aantoont dat vergelijkbaar is met gebruikers op expertniveau. Opmerkelijk is dat zijn Elo-MMR-score tussen het eerste en derde kwartiel van scores van menselijke Grandmasters valt. Bovendien geven onze resultaten aan dat Agent K v1.0 een prestatieniveau heeft bereikt dat equivalent is aan Kaggle Grandmaster, met een record van 6 gouden, 3 zilveren en 7 bronzen medailles, zoals gedefinieerd door het voortgangssysteem van Kaggle.
De snelle vooruitgang van multimodale grote taalmodellen (MLLM's) heeft superieure prestaties aangetoond op verschillende multimodale benchmarks. Echter, het probleem van gegevensverontreiniging tijdens training zorgt voor uitdagingen bij prestatie-evaluatie en vergelijking. Hoewel er talrijke methoden bestaan voor het detecteren van datasetverontreiniging in grote taalmodellen (LLM's), zijn ze minder effectief voor MLLM's vanwege hun verschillende modaliteiten en meerdere trainingsfasen. In deze studie introduceren we een multimodale gegevensverontreinigingsdetectiekader, MM-Detect, ontworpen voor MLLM's. Onze experimentele resultaten geven aan dat MM-Detect gevoelig is voor verschillende gradaties van verontreiniging en significante prestatieverbeteringen kan aantonen als gevolg van lekkage van de trainingsset van multimodale benchmarks. Verder onderzoeken we ook de mogelijkheid van verontreiniging die voortkomt uit de pre-trainingsfase van LLM's die worden gebruikt door MLLM's en de fine-tuningfase van MLLM's, wat nieuwe inzichten biedt in de fasen waarin verontreiniging kan worden geïntroduceerd.
Transformers hebben uitgebreide toepassingen gevonden in verschillende domeinen vanwege hun krachtige aanpassingsvermogen. Dit succes kan gedeeltelijk worden toegeschreven aan hun inherente niet-lineariteit. Daarom hebben onderzoekers, naast de ReLU-functie die wordt gebruikt in de oorspronkelijke transformer-architectuur, alternatieve modules zoals GeLU en SwishGLU verkend om de niet-lineariteit te verbeteren en daarmee de representatiecapaciteit te vergroten. In dit artikel stellen we een nieuwe categorie van polynomiale samenstellingsactivaties (PolyCom) voor, ontworpen om de dynamiek van transformers te optimaliseren. Theoretisch bieden we een uitgebreide wiskundige analyse van PolyCom, waarbij de verbeterde expressiviteit en effectiviteit ten opzichte van andere activatiefuncties worden benadrukt. Opmerkelijk is dat we aantonen dat netwerken met PolyCom de optimale benaderingssnelheid bereiken, wat aangeeft dat PolyCom-netwerken minimale parameters nodig hebben om algemene gladde functies in Sobolev-ruimten te benaderen. We voeren empirische experimenten uit op de pre-training configuraties van grote taalmodellen (LLMs), inclusief zowel dichte als schaarse architecturen. Door conventionele activatiefuncties te vervangen door PolyCom, stellen we LLMs in staat om interacties van hogere orde binnen de gegevens vast te leggen, waardoor prestatie-indicatoren op het gebied van nauwkeurigheid en convergentiesnelheden verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze methode aan, met aanzienlijke verbeteringen ten opzichte van andere activatiefuncties. De code is beschikbaar op https://github.com/BryceZhuo/PolyCom.
Zelfuitlijning, waarbij modellen leren zichzelf te verbeteren zonder menselijke annotatie, is een snelgroeiend onderzoeksgebied. Bestaande technieken falen echter vaak om complexe redeneertaken te verbeteren vanwege de moeilijkheid om juiste beloningen toe te wijzen. Een orthogonale benadering die bekend staat om het verbeteren van juistheid is zelfconsistentie, een methode die wordt toegepast op inferentietijd op basis van meerdere steekproeven om het meest consistente antwoord te vinden. In dit werk breiden we het concept van zelfconsistentie uit om modellen te helpen trainen. We introduceren daarom zelfconsistentievoorkeursoptimalisatie (ScPO), die iteratief traint om consistente antwoorden te verkiezen boven inconsistente op ongesuperviseerde nieuwe problemen. We tonen aan dat ScPO leidt tot grote verbeteringen ten opzichte van conventionele modeltraining met beloningen op redeneertaken zoals GSM8K en MATH, waarmee het gat met supervisietraining met gouden antwoorden of voorkeuren wordt gedicht, en dat het combineren van ScPO met standaard supervisie het resultaat nog verder verbetert. Op ZebraLogic finetunet ScPO Llama-3 8B om superieur te zijn aan Llama-3 70B, Gemma-2 27B en Claude-3 Haiku.
Run-time stuurstrategieën zoals Medprompt zijn waardevol voor het begeleiden van grote taalmodellen (LLM's) naar topprestaties op uitdagende taken. Medprompt toont aan dat een algemeen LLM gericht kan worden om state-of-the-art prestaties te leveren op gespecialiseerde domeinen zoals geneeskunde door een prompt te gebruiken om een run-time strategie te activeren met redeneren in ketens en ensembling. Het o1-preview model van OpenAI vertegenwoordigt een nieuw paradigma, waarbij een model is ontworpen om run-time redeneren uit te voeren voordat het definitieve antwoorden genereert. We streven ernaar het gedrag van o1-preview te begrijpen op een divers scala van medische uitdaging problemen. Voortbouwend op de Medprompt studie met GPT-4, evalueren we systematisch het o1-preview model over verschillende medische benchmarks. Opmerkelijk is dat zelfs zonder prompting technieken, o1-preview grotendeels beter presteert dan de GPT-4 serie met Medprompt. We bestuderen verder systematisch de effectiviteit van klassieke prompt engineering strategieën, zoals vertegenwoordigd door Medprompt, binnen het nieuwe paradigma van redenerende modellen. We hebben vastgesteld dat few-shot prompting de prestaties van o1 belemmert, wat suggereert dat in-context leren mogelijk niet langer een effectieve stuurstrategie is voor redenerende modellen. Hoewel ensembling haalbaar blijft, is het resource-intensief en vereist het zorgvuldige optimalisatie van kosten en prestaties. Onze kosten- en nauwkeurigheidsanalyse over run-time strategieën onthult een Pareto-frontier, waarbij GPT-4o een betaalbaardere optie vertegenwoordigt en o1-preview state-of-the-art prestaties behaalt tegen een hogere kostprijs. Hoewel o1-preview top prestaties biedt, behoudt GPT-4o met stuurstrategieën zoals Medprompt waarde in specifieke contexten. Bovendien merken we op dat het o1-preview model bij veel bestaande medische benchmarks bijna verzadigd is, wat benadrukt dat er behoefte is aan nieuwe, uitdagende benchmarks. We sluiten af met overwegingen over algemene richtingen voor inferentie-tijd berekeningen met LLM's.