Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren rStar-Math om aan te tonen dat kleine taalmodellen (SLM's) de wiskundige redeneervaardigheid van OpenAI o1 kunnen evenaren of zelfs overtreffen, zonder distillatie van superieure modellen. rStar-Math bereikt dit door "diep denken" toe te passen via Monte Carlo Tree Search (MCTS), waarbij een wiskundig beleids-SLM testtijdzoekopdrachten uitvoert die worden geleid door een op SLM gebaseerd procesbeloningsmodel. rStar-Math introduceert drie innovaties om de uitdagingen bij het trainen van de twee SLM's aan te pakken: (1) een nieuw code-verrijkt CoT-gegevenssynthesemethode, die uitgebreide MCTS-rollouts uitvoert om stapsgewijs geverifieerde redeneertrajecten te genereren die worden gebruikt om het beleids-SLM te trainen; (2) een nieuwe methode voor het trainen van het procesbeloningsmodel die naïeve annotatie op stapniveau vermijdt, resulterend in een effectiever procesvoorkeursmodel (PPM); (3) een zelfevolutierecept waarbij het beleids-SLM en PPM vanaf nul worden opgebouwd en iteratief worden geëvolueerd om redeneervaardigheden te verbeteren. Door 4 rondes van zelfevolutie met miljoenen gesynthetiseerde oplossingen voor 747k wiskundige problemen, verbetert rStar-Math de wiskundige redenering van SLM's tot state-of-the-art niveaus. Op de MATH-benchmark verbetert het Qwen2.5-Math-7B van 58,8% naar 90,0% en Phi3-mini-3.8B van 41,4% naar 86,4%, waarbij het o1-preview overtreft met +4,5% en +0,9%. Op de USA Math Olympiad (AIME) lost rStar-Math gemiddeld 53,3% (8/15) van de problemen op, waarmee het behoort tot de top 20% van de meest getalenteerde middelbare school wiskundestudenten. Code en gegevens zijn beschikbaar op https://github.com/microsoft/rStar.
Grote redeneringsmodellen (LRM's) zoals OpenAI-o1 hebben indrukwekkende langdurige stapsgewijze redeneervaardigheden aangetoond via grootschalig versterkend leren. Echter, hun uitgebreide redeneerprocessen lijden vaak aan kennis tekort, wat leidt tot frequente onzekerheden en potentiële fouten. Om deze beperking aan te pakken, introduceren we Search-o1, een raamwerk dat LRM's verbetert met een agentische opzoek-verrijkte generatie (RAG) mechanisme en een Reden-in-Documenten module voor het verfijnen van opgehaalde documenten. Search-o1 integreert een agentische zoekworkflow in het redeneerproces, waardoor dynamische opvraging van externe kennis mogelijk is wanneer LRM's onzekere kennispunten tegenkomen. Daarnaast, vanwege de uitgebreide aard van opgehaalde documenten, ontwerpen we een aparte Reden-in-Documenten module om de opgehaalde informatie grondig te analyseren voordat deze in de redeneerketen wordt ingebracht, ruis te minimaliseren en een coherente redeneerstroom te behouden. Uitgebreide experimenten op complexe redeneertaken in wetenschap, wiskunde en codering, evenals zes open-domein QA-benchmarks, tonen de sterke prestaties van Search-o1 aan. Deze aanpak verbetert de betrouwbaarheid en toepasbaarheid van LRM's in complexe redeneertaken, waardoor de weg wordt vrijgemaakt voor meer betrouwbare en veelzijdige intelligente systemen. De code is beschikbaar op https://github.com/sunnynexus/Search-o1.
We stellen een nieuw kader voor, Meta Chain-of-Thought (Meta-CoT), dat het traditionele Chain-of-Thought (CoT) uitbreidt door expliciet het onderliggende redeneren te modelleren dat nodig is om tot een bepaalde CoT te komen. We presenteren empirisch bewijs van state-of-the-art modellen die gedrag vertonen dat consistent is met in-context zoeken, en onderzoeken methoden voor het produceren van Meta-CoT via procesbegeleiding, synthetische gegevensgeneratie en zoekalgoritmen. Ten slotte schetsen we een concreet proces voor het trainen van een model om Meta-CoTs te produceren, waarbij instructieafstemming wordt geïntegreerd met gelinieerde zoektracés en versterkend leren na de training. Tot slot bespreken we openstaande onderzoeksvragen, waaronder schaalwetten, verifier-rollen en de mogelijkheid om nieuwe redeneeralgoritmen te ontdekken. Dit werk biedt een theoretische en praktische routekaart om Meta-CoT mogelijk te maken in LLMs, waardoor de weg wordt vrijgemaakt voor krachtiger en menselijker redeneren in kunstmatige intelligentie.
Historisch gezien was wetenschappelijke ontdekking een langdurig en kostbaar proces, waarbij aanzienlijke tijd en middelen nodig waren vanaf het eerste concept tot de uiteindelijke resultaten. Om wetenschappelijke ontdekking te versnellen, onderzoekskosten te verlagen en onderzoekskwaliteit te verbeteren, introduceren we Agent Laboratory, een autonoom LLM-gebaseerd framework dat in staat is om het gehele onderzoeksproces te voltooien. Dit framework accepteert een door mensen verstrekt onderzoeksidee en doorloopt drie fasen - literatuuronderzoek, experimentatie en rapportage - om uitgebreide onderzoeksresultaten te produceren, inclusief een code-opslagplaats en een onderzoeksrapport, terwijl gebruikers feedback en begeleiding kunnen geven in elke fase. We implementeren Agent Laboratory met verschillende toonaangevende LLMs en nodigen meerdere onderzoekers uit om de kwaliteit ervan te beoordelen door deel te nemen aan een enquête, menselijke feedback te geven om het onderzoeksproces te sturen, en vervolgens het uiteindelijke paper te evalueren. We hebben vastgesteld dat: (1) Agent Laboratory aangedreven door o1-preview de beste onderzoeksresultaten genereert; (2) De gegenereerde machine learning code in staat is om state-of-the-art prestaties te behalen in vergelijking met bestaande methoden; (3) Menselijke betrokkenheid, door feedback te geven in elke fase, aanzienlijk de algehele kwaliteit van het onderzoek verbetert; (4) Agent Laboratory aanzienlijk de onderzoekskosten verlaagt, met een afname van 84% vergeleken met eerdere autonome onderzoeksmethoden. We hopen dat Agent Laboratory onderzoekers in staat stelt om meer inspanning te besteden aan creatieve ideeën in plaats van laag-niveau codering en schrijven, en uiteindelijk wetenschappelijke ontdekking versnelt.
Keten-van-gedachten (CoT) redenering is wijdverspreid toegepast in het wiskundig redeneren van Grote Taalmodellen (LLMs). Onlangs heeft de introductie van afgeleide procesbegeleiding op CoT-trajecten discussies aangewakkerd over het verbeteren van schaalvermogen tijdens testtijd, waardoor het potentieel van deze modellen wordt versterkt. Echter, bij multimodaal wiskundig redeneren heeft de schaarste aan hoogwaardige CoT-trainingsdata bestaande modellen belemmerd om hoogwaardige CoT-redenering te bereiken en heeft het de realisatie van redeneerpotentieel tijdens testtijd beperkt. In dit werk stellen we een drie-module synthese strategie voor die CoT-distantiëring, traject-formaat herschrijven en formaat-unificatie integreert. Dit resulteert in een hoogwaardige CoT-redeneerinstructie fijnafstemmingsdataset in multimodale wiskunde, MMathCoT-1M. We valideren uitgebreid de state-of-the-art (SOTA) prestaties van het getrainde URSA-7B model op meerdere multimodale wiskundige benchmarks. Voor schaalvermogen tijdens testtijd introduceren we een gegevenssynthese strategie die automatisch procesannotatiedatasets genereert, bekend als DualMath-1.1M, gericht op zowel interpretatie als logica. Door URSA-7B verder te trainen op DualMath-1.1M, maken we de overgang van CoT-redeneervermogen naar robuuste begeleidingsmogelijkheden. De getrainde URSA-RM-7B fungeert als een verifier, waarbij effectief de prestaties van URSA-7B tijdens testtijd worden verbeterd. URSA-RM-7B toont ook uitstekende out-of-distribution (OOD) verificatiemogelijkheden, waarbij het generalisatie aantoont. Modelgewichten, trainingsgegevens en code zullen open-source worden gemaakt.
In de afgelopen jaren heeft de snelle vooruitgang van Grote Taalmodellen (GTM's) het landschap van wetenschappelijk onderzoek getransformeerd, waarbij ongekende ondersteuning wordt geboden in verschillende fasen van de onderzoekscyclus. Dit artikel presenteert de eerste systematische enquête die gewijd is aan het verkennen van hoe GTM's de wetenschappelijke onderzoeksprocessen revolutioneren. We analyseren de unieke rollen die GTM's spelen in vier kritieke onderzoeksfases: hypotheseontdekking, experimentplanning en -uitvoering, wetenschappelijk schrijven en peer reviewen. Onze review toont uitgebreid de taakspecifieke methodologieën en evaluatiecriteria. Door huidige uitdagingen te identificeren en toekomstige onderzoeksrichtingen voor te stellen, benadrukt deze enquête niet alleen het transformerende potentieel van GTM's, maar heeft ook tot doel onderzoekers en professionals te inspireren en te begeleiden bij het benutten van GTM's om wetenschappelijk onderzoek te bevorderen. De bronnen zijn beschikbaar op de volgende repository: https://github.com/du-nlp-lab/LLM4SR
Grafische gebruikersinterface (GUI) Agents, aangedreven door multimodale grote taalmodellen (MLLM's), hebben een groot potentieel laten zien voor taakautomatisering op rekenapparaten zoals computers en mobiele telefoons. Bestaande agents worden echter geconfronteerd met uitdagingen op het gebied van meerstapsredenering en afhankelijkheid van tekstuele annotaties, wat hun effectiviteit beperkt. We introduceren InfiGUIAgent, een op MLLM gebaseerde GUI Agent die is getraind met een tweefasig gesuperviseerd fijnafstemmingsproces. Fase 1 verbetert fundamentele vaardigheden zoals GUI begrip en gronding, terwijl Fase 2 hiërarchisch redeneren en verwachtingsreflectie redeneervaardigheden integreert met behulp van gesynthetiseerde data om de natuurlijke redeneervaardigheden van de agents mogelijk te maken. InfiGUIAgent behaalt een concurrerende prestatie op verschillende GUI-benchmarks, waarbij de impact van natuurlijke redeneervaardigheden bij het verbeteren van GUI-interactie voor automatiseringstaken wordt benadrukt. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiGUIAgent.
Document retrieval technieken vormen de basis voor de ontwikkeling van grootschalige informatiesystemen. De gangbare methodologie is om een bi-encoder te construeren en de semantische gelijkenis te berekenen. Echter, een dergelijke scalaire gelijkenis is moeilijk om voldoende informatie weer te geven en belemmert ons begrip van de ophaalresultaten. Bovendien benadrukt dit rekenproces voornamelijk de globale semantiek en negeert het de fijnmazige semantische relatie tussen de query en de complexe tekst in het document. In dit artikel stellen we een nieuwe methode voor genaamd Generatie Verrijkte Ophaling (GeAR) die goed ontworpen fusie- en decoderingsmodules integreert. Dit stelt GeAR in staat om relevante tekst uit documenten te genereren op basis van de gefuseerde representatie van de query en het document, waardoor het leert zich te "richten op" de fijnmazige informatie. Ook wanneer GeAR wordt gebruikt als ophaler, voegt het geen extra rekenlast toe ten opzichte van bi-encoders. Om de training van het nieuwe raamwerk te ondersteunen, hebben we een pijplijn geïntroduceerd om efficiënt hoogwaardige gegevens te synthetiseren door gebruik te maken van grote taalmodellen. GeAR vertoont competitieve ophaal- en lokaliseringsprestaties in diverse scenario's en datasets. Bovendien bieden de kwalitatieve analyse en de resultaten gegenereerd door GeAR nieuwe inzichten in de interpretatie van ophaalresultaten. De code, gegevens en modellen zullen worden vrijgegeven na voltooiing van de technische beoordeling om toekomstig onderzoek te vergemakkelijken.
In dit artikel verleggen we de grenzen van fijnmazige 3D-generatie naar echt creatief terrein. Huidige methoden missen ofwel gedetailleerde details of bootsen eenvoudig bestaande objecten na - wij maken beide mogelijk. Door 2D fijnmazig begrip naar 3D te tillen via multi-view diffusie en het modelleren van deel-latenten als continue verdelingen, ontgrendelen we de mogelijkheid om volledig nieuwe, maar toch geloofwaardige delen te genereren door interpolatie en monstername. Een zelfbegeleidende functieconsistentieverlies waarborgt verder een stabiele generatie van deze ongeziene delen. Het resultaat is het eerste systeem dat in staat is om nieuwe 3D-objecten te creëren met soortspecifieke details die de bestaande voorbeelden overstijgen. Hoewel we onze aanpak demonstreren op vogels, strekt het onderliggende raamwerk zich uit voorbij dingen die kunnen tjilpen! De code zal worden vrijgegeven op https://github.com/kamwoh/chirpy3d.
We bestuderen het probleem van driedimensionale objectreconstructie vanuit één afbeelding. Recente werken zijn uiteengegaan in twee richtingen: regressiegebaseerde modellering en generatieve modellering. Regressiemethoden schatten efficiënt zichtbare oppervlakken in, maar hebben moeite met verduisterde regio's. Generatieve methoden gaan beter om met onzekere regio's door distributies te modelleren, maar zijn rekenintensief en de gegenereerde output is vaak niet uitgelijnd met zichtbare oppervlakken. In dit artikel presenteren we SPAR3D, een nieuw tweestapsbenadering die tot doel heeft het beste van beide richtingen te combineren. De eerste stap van SPAR3D genereert schaarse driedimensionale puntwolken met behulp van een lichtgewicht puntverspreidingsmodel, dat een snelle bemonsteringssnelheid heeft. De tweede stap gebruikt zowel de bemonsterde puntwolk als de invoerafbeelding om zeer gedetailleerde meshes te creëren. Ons tweestapsontwerp maakt probabilistische modellering van de slecht bepaalde enkelvoudige driedimensionale taak mogelijk, met behoud van hoge rekenkundige efficiëntie en grote outputgetrouwheid. Het gebruik van puntwolken als tussenliggende representatie maakt bovendien interactieve gebruikersbewerkingen mogelijk. Geëvalueerd op diverse datasets, toont SPAR3D superieure prestaties ten opzichte van eerdere state-of-the-art methoden, met een inferentiesnelheid van 0,7 seconden. Projectpagina met code en model: https://spar3d.github.io
Effectieve instructieafstemming is onmisbaar voor het optimaliseren van code LLM's, het afstemmen van het modelgedrag op de verwachtingen van de gebruiker en het verbeteren van de modelprestaties in real-world toepassingen. Echter, de meeste bestaande methoden richten zich op codefragmenten, die beperkt zijn tot specifieke functionaliteiten en rigide structuren, waardoor de complexiteit en diversiteit van de gesynthetiseerde data beperkt worden. Om deze beperkingen aan te pakken, introduceren we een nieuw feature tree-gebaseerd synthese framework geïnspireerd door Abstract Syntax Trees (AST). In tegenstelling tot AST, dat de syntactische structuur van code vastlegt, modelleert ons framework semantische relaties tussen code-elementen, waardoor de generatie van meer genuanceerde en diverse data mogelijk wordt. De feature tree wordt geconstrueerd uit ruwe data en iteratief verfijnd om de hoeveelheid en diversiteit van de geëxtraheerde features te vergroten. Dit proces maakt de identificatie van complexere patronen en relaties binnen de code mogelijk. Door subtrees te samplen met gecontroleerde diepte en breedte, maakt ons framework precieze aanpassingen aan de complexiteit van de gegenereerde code mogelijk, wat een breed scala aan taken ondersteunt, van eenvoudige functie-level operaties tot ingewikkelde multi-file scenario's. We hebben veelgebruikte basismodellen fijngestemd om de EpiCoder-serie te creëren, waarbij we state-of-the-art prestaties behaalden op zowel functie- als bestandsniveau over meerdere benchmarks. Opmerkelijk is dat empirisch bewijs aangeeft dat onze benadering aanzienlijk potentieel toont in het synthetiseren van zeer complexe repository-level code data. Verder onderzoek verheldert de voordelen van deze benadering door datacomplexiteit en diversiteit grondig te beoordelen aan de hand van software engineering principes en de LLM-als-rechter methode.
Het opvragen-verbeterde generatie (RAG) is alomtegenwoordig geworden bij het implementeren van Grote Taalmodellen (LLM's), omdat het typische beperkingen kan aanpakken zoals het genereren van gehallucineerde of verouderde informatie. Bij het bouwen van RAG-toepassingen voor de echte wereld doen zich echter praktische problemen voor. Ten eerste is de opgehaalde informatie doorgaans domeinspecifiek. Aangezien het rekenkundig duur is om LLM's fijn af te stemmen, is het haalbaarder om de retriever af te stemmen om de kwaliteit van de gegevens in de LLM-input te verbeteren. Ten tweede, naarmate er meer toepassingen worden geïmplementeerd in hetzelfde systeem voor de echte wereld, kan men zich niet veroorloven om afzonderlijke retrievers te implementeren. Bovendien halen deze RAG-toepassingen normaal gesproken verschillende soorten gegevens op. Onze oplossing is om een kleine retriever-encoder instructiegericht af te stemmen op een verscheidenheid van domeinspecifieke taken, zodat we één encoder kunnen implementeren die veel use cases kan bedienen, waardoor we een kosteneffectieve, schaalbare en snelle oplossing bereiken. We tonen aan hoe deze encoder generaliseert naar out-of-domain instellingen en naar een ongeziene opzoektaak in echte zakelijke use cases.
De snelle opkomst van grote taalmodellen (LLM's) heeft vele toepassingen mogelijk gemaakt, maar benadrukt ook de uitdaging om ze af te stemmen op diverse waarden en voorkeuren. Directe Voorkeursoptimalisatie (DPO) is essentieel voor afstemming, maar wordt beperkt door vaste divergenties en beperkte kenmerkentransformaties. Wij stellen DPO-Kernels voor, die kernelmethoden integreren om deze kwesties aan te pakken via vier belangrijke bijdragen: (i) Gekernelde Representaties met polynomiale, RBF, Mahalanobis en spectrale kernels voor rijkere transformaties, plus een hybride verlies dat op insluiting gebaseerde en op waarschijnlijkheid gebaseerde doelstellingen combineert; (ii) Divergentie Alternatieven (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein en f-divergenties) voor grotere stabiliteit; (iii) Datagedreven Selectiemetrieken die automatisch het beste kernel-divergentiepaar kiezen; en (iv) een Hiërarchische Mengeling van Kernels voor zowel lokale precisie als globale modellering. Evaluaties op 12 datasets tonen eersteklas prestaties aan op het gebied van feitelijkheid, veiligheid, redenering en instructieopvolging. Gebaseerd op Zwaarstaartige Zelfregulering behoudt DPO-Kernels robuuste generalisatie voor LLM's en biedt het een uitgebreide bron voor verder onderzoek naar afstemming.