Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Onder begeleid fijnafstemmen (SFT) speelt een cruciale rol bij het aanpassen van grote taalmodellen (LLM's) aan specifieke domeinen of taken. Echter, zoals aangetoond door empirische experimenten, bevat de verzamelde data onvermijdelijk ruis in praktische toepassingen, wat aanzienlijke uitdagingen met zich meebrengt voor de prestaties van het model bij downstream taken. Daarom is er een dringende behoefte aan een ruisbestendig SFT-framework om de mogelijkheden van het model bij downstream taken te verbeteren. Om deze uitdaging aan te gaan, introduceren we een robuust SFT-framework (RobustFT) dat ruisdetectie en herlabeling uitvoert op gegevens van downstream taken. Voor ruisidentificatie maakt onze aanpak gebruik van een multi-expert samenwerkingssysteem met inferentie-versterkte modellen om superieure ruisdetectie te bereiken. In de denoising-fase gebruiken we een context-versterkte strategie, die de meest relevante en zelfverzekerde kennis incorporeert gevolgd door zorgvuldige beoordeling om betrouwbare annotaties te genereren. Daarnaast introduceren we een effectief gegevensselectiemechanisme op basis van responsentropie, waarbij alleen hoogwaardige monsters behouden blijven voor fijnafstemming. Uitgebreide experimenten uitgevoerd op meerdere LLM's over vijf datasets tonen de uitzonderlijke prestaties van RobustFT in lawaaiige scenario's aan.
In het geval van een gebrek aan uitgebreide door mensen geannoteerde gegevens voor complexe redeneertaken, is zelfverbetering - waar modellen worden getraind op hun eigen uitvoer - naar voren gekomen als een primaire methode om de prestaties te verbeteren. De kritieke factoren die aan de basis liggen van het mechanisme van deze iteratieve zelfverbeterende methoden blijven echter slecht begrepen, zoals onder welke omstandigheden zelfverbetering effectief is, en wat de knelpunten zijn in de huidige iteraties. In dit werk identificeren en stellen we methoden voor om twee cruciale factoren in dit iteratieve proces te monitoren: (1) het vermogen van het model om voldoende diverse antwoorden te genereren (verkenning); en (2) de effectiviteit van externe beloningen bij het onderscheiden van kandidaten van hoge kwaliteit van kandidaten van lagere kwaliteit (exploitatie). Met behulp van wiskundig redeneren als case study, beginnen we met een kwantitatieve analyse om de dynamiek van verkenning en exploitatie te volgen, waarbij we ontdekken dat de verkennende mogelijkheden van een model snel verslechteren naarmate de iteraties vorderen, en dat de effectiviteit van het benutten van externe beloningen ook afneemt. Gemotiveerd door deze bevindingen introduceren we B-STaR, een Zelflerend Redeneringskader dat autonoom configuraties aanpast over iteraties om verkenning en exploitatie in balans te brengen, en daarmee de zelfverbeterende effectiviteit optimaliseert op basis van het huidige beleidsmodel en beschikbare beloningen. Onze experimenten op het gebied van wiskundig redeneren, coderen en gezond verstandredenering tonen aan dat B-STaR niet alleen de verkennende mogelijkheden van het model gedurende de training verbetert, maar ook een effectievere balans tussen verkenning en exploitatie bereikt, wat leidt tot superieure prestaties.
Het redeneervermogen is essentieel voor Grote Multimodale Modellen (LMM's). In het geval van afwezigheid van multimodale keten-van-gedachte geannoteerde gegevens, is zelf-evoluerende training, waarbij het model leert van zijn eigen uitvoer, naar voren gekomen als een effectieve en schaalbare benadering om redeneervaardigheden te verbeteren. Ondanks het groeiende gebruik ervan, blijft begrip van zelf-evoluerende training, met name in de context van multimodaal redeneren, beperkt. In dit artikel duiken we in de complexiteiten van zelf-evoluerende training voor multimodaal redeneren, waarbij we drie sleutelfactoren benoemen: Trainingsmethode, Beloningsmodel en Promptvariatie. We onderzoeken systematisch elke factor en verkennen hoe verschillende configuraties de effectiviteit van de training beïnvloeden. Onze analyse leidt tot een reeks beste praktijken voor elke factor, gericht op het optimaliseren van multimodaal redeneren. Bovendien onderzoeken we de Zelf-evolutiedynamiek tijdens de training en de impact van automatische balanceringsmechanismen op het verbeteren van de prestaties. Na alle onderzoeken presenteren we een definitief recept voor zelf-evoluerende training in multimodaal redeneren, waarbij deze ontwerpkeuzes worden samengevat in een raamwerk dat we MSTaR (Multimodale Zelf-evoluerende Training voor Redeneren) noemen, dat universeel effectief is voor modellen met verschillende groottes op verschillende benchmarks, bijvoorbeeld aanzienlijk beter presterend dan het vooraf geëvolueerde model op 5 multimodale redeneerbenchmarks zonder extra menselijke annotaties te gebruiken, zoals gedemonstreerd op MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) en InternVL2 (2B). Wij geloven dat deze studie een belangrijke lacune vult in het begrip van zelf-evoluerende training voor multimodaal redeneren en een robuust raamwerk biedt voor toekomstig onderzoek. Onze beleids- en beloningsmodellen, evenals de verzamelde gegevens, worden vrijgegeven om verder onderzoek in multimodaal redeneren te vergemakkelijken.
Autoregressieve (AR) modellen hebben state-of-the-art prestaties behaald op het gebied van tekst- en beeldgeneratie, maar kampen met langzame generatie vanwege het token-voor-token proces. We stellen een ambitieuze vraag: kan een vooraf getraind AR-model worden aangepast om uitvoer te genereren in slechts één of twee stappen? Indien succesvol, zou dit de ontwikkeling en implementatie van AR-modellen aanzienlijk bevorderen. We merken op dat bestaande werken die proberen AR-generatie te versnellen door meerdere tokens tegelijk te genereren, fundamenteel niet in staat zijn om de uitvoerverdeling vast te leggen vanwege de conditionele afhankelijkheden tussen tokens, wat hun effectiviteit beperkt voor generatie in enkele stappen. Om dit aan te pakken, stellen we Distilled Decoding (DD) voor, dat flow-matching gebruikt om een deterministische mapping te creëren van de Gauss-verdeling naar de uitvoerverdeling van het vooraf getrainde AR-model. Vervolgens trainen we een netwerk om deze mapping te destilleren, waardoor generatie in enkele stappen mogelijk wordt. DD heeft geen trainingsdata van het oorspronkelijke AR-model nodig, waardoor het praktischer is. We evalueren DD op state-of-the-art beeld-AR-modellen en presenteren veelbelovende resultaten op ImageNet-256. Voor VAR, dat 10-staps generatie vereist, maakt DD éénstaps generatie mogelijk (6,3 keer versnelling), met een acceptabele toename in FID van 4,19 naar 9,96. Voor LlamaGen vermindert DD de generatie van 256 stappen naar 1, wat resulteert in een 217,8 keer versnelling met een vergelijkbare FID-toename van 4,11 naar 11,35. In beide gevallen falen basismethoden volledig met FID>100. DD excelleert ook bij tekst-naar-beeldgeneratie, waarbij de generatie van 256 stappen naar 2 wordt teruggebracht voor LlamaGen met een minimale FID-toename van 25,70 naar 28,95. Als het eerste werk dat de mogelijkheid van éénstaps generatie voor beeld-AR-modellen aantoont, daagt DD de heersende opvatting uit dat AR-modellen inherent langzaam zijn, en opent het nieuwe mogelijkheden voor efficiënte AR-generatie. De projectwebsite is te vinden op https://imagination-research.github.io/distilled-decoding.
De o1 modelserie wordt getraind met grootschalig versterkend leren om te redeneren met behulp van een keten van gedachten. Deze geavanceerde redeneervaardigheden bieden nieuwe mogelijkheden om de veiligheid en robuustheid van onze modellen te verbeteren. In het bijzonder kunnen onze modellen redeneren over onze veiligheidsrichtlijnen in de context bij het reageren op potentieel onveilige prompts, door middel van doelgerichte afstemming. Dit leidt tot prestaties van topklasse op bepaalde benchmarks voor risico's zoals het genereren van onwettig advies, het kiezen van stereotiepe reacties en het toegeven aan bekende jailbreaks. Het trainen van modellen om een keten van gedachten op te nemen voordat ze antwoorden heeft het potentieel om aanzienlijke voordelen te ontsluiten, maar verhoogt ook potentiële risico's die voortkomen uit verhoogde intelligentie. Onze resultaten benadrukken de noodzaak om robuuste afstemmingsmethoden te ontwikkelen, hun effectiviteit uitgebreid te testen en zorgvuldige risicobeheerprotocollen te handhaven. Dit rapport schetst het veiligheidswerk dat is uitgevoerd voor de OpenAI o1 en OpenAI o1-mini modellen, inclusief veiligheidsevaluaties, externe red teaming en evaluaties van het Preparedness Framework.
Technieken die grote taalmodellen (LLM's) in staat stellen om "meer te denken" door het genereren en aandacht te schenken aan tussenliggende redeneerstappen, hebben veelbelovende resultaten laten zien bij het oplossen van complexe problemen. De standaard benaderingen genereren echter sequenties van discrete tokens direct voor het reageren, wat aanzienlijke latentiekosten met zich mee kan brengen en moeilijk te optimaliseren kan zijn. In dit werk tonen we aan dat een bevroren LLM kan worden uitgebreid met een offline coprocessor die werkt op de sleutel-waarde (kv) cache van het model. Deze coprocessor breidt de cache uit met een reeks latente embeddings die zijn ontworpen om de geloofwaardigheid van daaropvolgende decodering te verbeteren. We trainen deze coprocessor met behulp van het taalmodelleringsverlies van de decoder op standaard voorafgaande trainingsgegevens, terwijl de decoder zelf bevroren blijft. Deze benadering stelt het model in staat om op een end-to-end differentieerbare manier te leren hoe extra berekeningen te destilleren in zijn kv-cache. Omdat de decoder ongewijzigd blijft, kan de coprocessor offline en asynchroon werken, en kan het taalmodel normaal functioneren als de coprocessor niet beschikbaar is of als een bepaalde cache niet extra berekening vereist. We tonen experimenteel aan dat wanneer een cache wordt uitgebreid, de decoder een lagere perplexiteit bereikt op tal van daaropvolgende tokens. Bovendien laten onze experimenten zelfs zonder enige taakspecifieke training zien dat cache-uitbreiding consequent de perplexiteit verlaagt en de prestaties verbetert bij een reeks redeneerintensieve taken.
In-Context Learning (ICL) is een techniek waarbij taalmodellen voorspellingen doen op basis van voorbeelden die worden verstrekt in hun invoercontext. Eerder legde de grootte van hun contextvenster een limiet op aan het aantal voorbeelden dat kan worden getoond, waardoor technieken voor voorbeeldselectie cruciaal waren voor het identificeren van de meest effectieve set voorbeelden. Echter, de recente opkomst van Long Context Language Models (LCLMs) heeft het aantal voorbeelden dat in de context kan worden opgenomen aanzienlijk verhoogd, wat een belangrijke vraag oproept of de prestaties van ICL in een many-shot regime nog steeds gevoelig zijn voor de methode van voorbeeldselectie. Om dit te beantwoorden, herzien we deze benaderingen in de context van LCLMs door uitgebreide experimenten op 18 datasets die 4 taken bestrijken. Verrassend genoeg observeren we dat geavanceerde technieken voor voorbeeldselectie geen significante verbeteringen opleveren ten opzichte van een eenvoudige willekeurige voorbeeldselectiemethode. In plaats daarvan ontdekken we dat de opkomst van LCLMs het uitdaging van ICL fundamenteel heeft verlegd van het selecteren van de meest effectieve voorbeelden naar het verzamelen van voldoende voorbeelden om het contextvenster te vullen. Specifiek, in bepaalde datasets, benutten het opnemen van alle beschikbare voorbeelden niet volledig het contextvenster; echter, door de voorbeelden in de context aan te vullen met een eenvoudige data-augmentatiebenadering, verbeteren we de ICL-prestaties aanzienlijk met 5%.
Het leren van een robuuste video-variational auto-encoder (VAE) is essentieel voor het verminderen van video redundantie en het vergemakkelijken van efficiënte videogeneratie. Het rechtstreeks toepassen van beeld-VAE's op individuele frames geïsoleerd kan leiden tot temporale inconsistenties en suboptimale compressiesnelheden als gevolg van een gebrek aan temporale compressie. Bestaande video-VAE's zijn begonnen met het aanpakken van temporale compressie; echter, ze lijden vaak aan ontoereikende reconstructieprestaties. In dit artikel presenteren we een nieuw en krachtig video-auto-encoder die in staat is tot hoogwaardige video-encoding. Ten eerste observeren we dat het verstrengelen van ruimtelijke en temporale compressie door eenvoudigweg de beeld-VAE uit te breiden naar een 3D-VAE bewegingsonscherpte en detailvervormingsartefacten kan introduceren. Daarom stellen we temporale-gevoelige ruimtelijke compressie voor om de ruimtelijke informatie beter te encoderen en decoderen. Daarnaast integreren we een lichtgewicht bewegingscompressiemodel voor verdere temporale compressie. Ten tweede stellen we voor om te profiteren van de tekstuele informatie die inherent is aan tekst-naar-video datasets en tekstbegeleiding in ons model op te nemen. Dit verbetert aanzienlijk de reconstructiekwaliteit, met name op het gebied van detailbehoud en temporale stabiliteit. Ten derde verbeteren we de veelzijdigheid van ons model verder door gezamenlijke training op zowel beelden als video's, wat niet alleen de reconstructiekwaliteit verbetert maar ook het model in staat stelt zowel beeld- als video-auto-encoding uit te voeren. Uitgebreide evaluaties tegen sterke recente baselines tonen de superieure prestaties van onze methode aan. De projectwebsite is te vinden op https://yzxing87.github.io/vae/.
De generatieve AI-systemen van vandaag zijn afgestemd om standaard informatie te presenteren in plaats van gebruikers te betrekken in het leerproces zoals een menselijke tutor zou doen. Om de brede reeks potentiële onderwijsgebruiksscenario's voor deze systemen aan te pakken, herschikken we de uitdaging van het injecteren van pedagogisch gedrag als een van pedagogische instructieopvolging, waarbij trainings- en evaluatievoorbeelden systeemniveau-instructies bevatten die de specifieke pedagogische kenmerken beschrijven die aanwezig zijn of gewenst zijn in daaropvolgende modelomwentelingen. Deze benadering vermijdt het vastleggen van onze modellen aan een specifieke definitie van pedagogie, en stelt in plaats daarvan leraren of ontwikkelaars in staat om het gewenste modelgedrag te specificeren. Het opent ook een pad naar het verbeteren van Gemini-modellen voor leren - door de toevoeging van onze pedagogische gegevens aan post-training mengsels - naast hun snel groeiende reeks mogelijkheden. Beide vertegenwoordigen belangrijke veranderingen ten opzichte van ons oorspronkelijke technische rapport. We tonen aan hoe training met pedagogische instructieopvolging een LearnLM-model oplevert (beschikbaar op Google AI Studio) dat aanzienlijk de voorkeur geniet van deskundige beoordelaars in een divers scala van leerscenario's, met gemiddelde voorkeurssterktes van 31\% boven GPT-4o, 11\% boven Claude 3.5, en 13\% boven het Gemini 1.5 Pro-model waar LearnLM op gebaseerd was.
Recentelijk zijn O1-achtige modellen naar voren gekomen als representatieve voorbeelden, waarbij de effectiviteit van lange ketens van gedachten (CoT) wordt geïllustreerd in redeneertaken zoals wiskunde- en programmeertaken. In dit artikel introduceren we DRT-o1, een poging om het succes van lange CoT naar neurale machinevertaling (MT) te brengen. Specifiek, gezien de literatuurboeken die mogelijk vergelijkingen en metaforen bevatten, is het in de praktijk zeer moeilijk om deze teksten naar een doeltaal te vertalen vanwege culturele verschillen. In dergelijke gevallen slaagt een letterlijke vertaling er vaak niet in om de bedoelde betekenis effectief over te brengen. Zelfs voor professionele menselijke vertalers moet aanzienlijk worden nagedacht over het behouden van de semantiek gedurende het vertaalproces. Om de lange denkvermogens van LLM's na te bootsen in MT, mijnen we eerst zinnen met vergelijkingen of metaforen uit bestaande literatuurboeken, en ontwikkelen vervolgens een multi-agentenframework om deze zinnen via lang denken te vertalen. In het multi-agentenframework wordt een vertaler gebruikt om de bronzin iteratief te vertalen onder de suggesties van een adviseur. Om de effectiviteit van de lange gedachten te waarborgen, wordt ook een beoordelaar ingezet om te beoordelen of de vertaling in de huidige ronde beter is dan de vorige of niet. Op deze manier verzamelen we tienduizenden lang-denkende MT-gegevens, die worden gebruikt om onze DRT-o1 te trainen. De experimentele resultaten bij literatuurvertaling tonen de effectiviteit van de DRT-o1 aan. Met behulp van Qwen2.5-7B en Qwen2.5-14B als ruggengraten, bereikt de verbetering die DRT-o1 met zich meebrengt 7.33~8.26 BLEU en 1.66~3.36 CometScore. Bovendien kan DRT-o1-7B QwQ-32B-Preview overtreffen met 7.82 BLEU en 1.46 CometScore, wat de effectiviteit ervan aantoont. Het project is beschikbaar op https://github.com/krystalan/DRT-o1.
Grote taalmodellen hebben opmerkelijke mogelijkheden aangetoond in codegeneratie, maar worstelen vaak met complexe programmeertaken die diepgaand algoritmisch redeneren vereisen. Hoewel procesbegeleiding via geleerde beloningsmodellen veelbelovend is gebleken in het sturen van redeneerstappen, vereist het dure trainingsgegevens en kampt het met onbetrouwbare evaluatie. Wij stellen Outcome-Refining Process Supervision voor, een nieuw paradigma dat uitkomstverfijning zelf behandelt als het te begeleiden proces. Ons kader maakt gebruik van concrete uitvoersignalen om de begeleiding van redeneerstappen te gronden, terwijl het gebruikmaakt van boomgestructureerde verkenning om tegelijkertijd meerdere oplossingstrajecten te behouden. Experimenten tonen aan dat onze aanpak zelfs kleinere modellen in staat stelt om hoge succesnauwkeurigheid en prestatie-indicatoren te behalen bij competitieve programmeertaken, betrouwbaardere verificatie creëert dan traditionele beloningsmodellen zonder training PRM's te vereisen. Onze aanpak behaalt significante verbeteringen over 5 modellen en 3 datasets: een gemiddelde toename van 26,9% in correctheid en 42,2% in efficiëntie. De resultaten suggereren dat het bieden van gestructureerde redeneerruimte met concrete verificatiesignalen cruciaal is voor het oplossen van complexe programmeertaken. Wij stellen al onze code en gegevens beschikbaar op: https://github.com/zhuohaoyu/ORPS
Grote Taalmodellen (LLM's) hebben opmerkelijk potentieel aangetoond in wetenschappelijke domeinen, maar er blijft een fundamentele vraag onbeantwoord: Kunnen we menselijke onderzoeksgemeenschappen simuleren met LLM's? Het beantwoorden van deze vraag kan ons inzicht verdiepen in de processen achter ideeën brainstormen en inspiratie bieden voor het automatisch ontdekken van nieuwe wetenschappelijke inzichten. In dit werk stellen we ResearchTown voor, een multi-agent raamwerk voor onderzoeksgemeenschapssimulatie. Binnen dit raamwerk wordt de menselijke onderzoeksgemeenschap vereenvoudigd en gemodelleerd als een agent-gegevensgrafiek, waar onderzoekers en papers worden voorgesteld als agent-type en gegevenstype knooppunten, respectievelijk, en verbonden op basis van hun samenwerkingsrelaties. We introduceren ook TextGNN, een op tekst gebaseerd inferentieraamwerk dat verschillende onderzoeksactiviteiten modelleert (bijv. paper lezen, paper schrijven en review schrijven) als speciale vormen van een verenigd berichten-doorgevend proces op de agent-gegevensgrafiek. Om de kwaliteit van de onderzoekssimulatie te evalueren, presenteren we ResearchBench, een benchmark die een knooppunt-maskering voorspellingstaak gebruikt voor schaalbare en objectieve beoordeling op basis van gelijkenis. Onze experimenten onthullen drie belangrijke bevindingen: (1) ResearchTown kan een realistische simulatie bieden van samenwerkingsonderzoeksactiviteiten, inclusief paper schrijven en review schrijven; (2) ResearchTown kan een robuuste simulatie behouden met meerdere onderzoekers en diverse papers; (3) ResearchTown kan interdisciplinaire onderzoeksideeën genereren die mogelijk nieuwe onderzoeksrichtingen inspireren.
Stel je een wereld voor waarin AI je werk kan afhandelen terwijl je slaapt - het organiseren van je onderzoeksmaterialen, het opstellen van een rapport, of het maken van een presentatie die je morgen nodig hebt. Echter, hoewel huidige digitale agenten eenvoudige taken kunnen uitvoeren, zijn ze verre van in staat om het complexe werk in de echte wereld te beheren dat mensen routinematig uitvoeren. Wij presenteren PC Agent, een AI-systeem dat een cruciale stap naar deze visie demonstreert door overdracht van menselijke cognitie. Ons belangrijkste inzicht is dat de weg van het uitvoeren van eenvoudige "taken" naar het beheren van complex "werk" ligt in het efficiënt vastleggen en leren van menselijke cognitieve processen tijdens computergebruik. Om deze hypothese te valideren, introduceren we drie belangrijke innovaties: (1) PC Tracker, een lichtgewicht infrastructuur die efficiënt hoogwaardige mens-computerinteractietrajecten verzamelt met volledige cognitieve context; (2) een tweefasen cognitievoltooiingspijplijn die ruwe interactiegegevens transformeert in rijke cognitieve trajecten door actiesemantiek en denkprocessen te voltooien; en (3) een multi-agent systeem dat een planningsagent voor besluitvorming combineert met een grondingsagent voor robuuste visuele gronding. Onze voorlopige experimenten in het maken van PowerPoint-presentaties tonen aan dat complexe digitale werkcapaciteiten kunnen worden bereikt met een kleine hoeveelheid hoogwaardige cognitieve gegevens - PC Agent, getraind op slechts 133 cognitieve trajecten, kan geavanceerde werksituaties aan met maximaal 50 stappen over meerdere toepassingen. Dit toont de gegevensefficiëntie van onze aanpak aan, waarbij wordt benadrukt dat de sleutel tot het trainen van capabele digitale agenten ligt in het verzamelen van menselijke cognitieve gegevens. Door ons volledige raamwerk, inclusief de infrastructuur voor gegevensverzameling en methoden voor cognitievoltooiing, open-source te maken, streven we ernaar de barrières voor de onderzoeksgemeenschap te verlagen om echt capabele digitale agenten te ontwikkelen.
Naarmate grote taalmodellen (LLM's) steeds vaker worden ingezet als agenten, brengt hun integratie in interactieve omgevingen en gereedschapsgebruik nieuwe veiligheidsuitdagingen met zich mee die verder gaan dan die geassocieerd met de modellen zelf. Echter, het ontbreken van uitgebreide benchmarks voor het evalueren van de veiligheid van agenten vormt een aanzienlijke barrière voor effectieve beoordeling en verdere verbetering. In dit artikel introduceren we Agent-SafetyBench, een uitgebreide benchmark ontworpen om de veiligheid van LLM-agenten te evalueren. Agent-SafetyBench omvat 349 interactieomgevingen en 2.000 testgevallen, evalueert 8 categorieën van veiligheidsrisico's en behandelt 10 veelvoorkomende faalmodi die vaak voorkomen bij onveilige interacties. Onze evaluatie van 16 populaire LLM-agenten onthult een zorgwekkend resultaat: geen van de agenten behaalt een veiligheidsscore van boven de 60%. Dit benadrukt aanzienlijke veiligheidsuitdagingen bij LLM-agenten en onderstreept de aanzienlijke behoefte aan verbetering. Door middel van kwantitatieve analyse identificeren we kritieke faalmodi en vatten we twee fundamentele veiligheidslekken samen in huidige LLM-agenten: gebrek aan robuustheid en gebrek aan risicobewustzijn. Bovendien suggereren onze bevindingen dat vertrouwen op verdedigingsaanwijzingen alleen onvoldoende is om deze veiligheidsproblemen aan te pakken, waarbij de noodzaak van meer geavanceerde en robuuste strategieën wordt benadrukt. We stellen Agent-SafetyBench beschikbaar op https://github.com/thu-coai/Agent-SafetyBench om verder onderzoek en innovatie in de evaluatie en verbetering van agentveiligheid te vergemakkelijken.
Multi-modale multi-partijen gesprekken (MMC) is een minder bestudeerd maar belangrijk onderzoeksgebied omdat het goed aansluit bij realistische scenario's en daardoor mogelijk bredere toepassingen heeft. Vergeleken met de traditionele multi-modale gesprekken vereist MMC sterkere karaktergerichte begripsvaardigheden, aangezien er veel gesprekspartners verschijnen in zowel de visuele als tekstuele context. Om de studie van dit probleem te vergemakkelijken, presenteren we in dit artikel Friends-MMC, een MMC-dataset die meer dan 24.000 unieke uitingen bevat, gekoppeld aan videobeelden. Om het karaktergerichte begrip van de dialoog te verkennen, annoteren we ook de spreker van elke uiting, de namen en begrenzingskaders van gezichten die in de video verschijnen. Op basis van deze Friends-MMC dataset bestuderen we verder twee fundamentele MMC-taken: identificatie van gesprekssprekers en voorspelling van gespreksreacties, beide met een multi-partijen karakter met de video of afbeelding als visuele context. Voor identificatie van gesprekssprekers demonstreren we de inefficiënties van bestaande methoden zoals vooraf getrainde modellen, en stellen we een eenvoudige maar effectieve basismethode voor die een optimalisatieoplosser gebruikt om de context van twee modaliteiten te benutten voor betere prestaties. Voor voorspelling van gespreksreacties fine-tunen we generatieve dialoogmodellen op Friends-MMC, en analyseren we de voordelen van sprekerinformatie. De code en dataset zijn openbaar beschikbaar op https://github.com/yellow-binary-tree/Friends-MMC en daarom roepen we op tot meer aandacht voor het modelleren van sprekerinformatie bij het begrijpen van gesprekken.
De recente introductie van Reinforcement Fine-Tuning (RFT) door OpenAI toont het potentieel van redenerende foundation-modellen en biedt een nieuw paradigma voor fine-tuning dat verder gaat dan eenvoudige patroonimitatie. Dit technisch rapport presenteert OpenRFT, onze poging om generalistische redenerende modellen te fine-tunen voor domeinspecifieke taken onder dezelfde instellingen als RFT. OpenRFT pakt twee belangrijke uitdagingen aan, namelijk het ontbreken van redeneerstapgegevens en de beperkte hoeveelheid trainingsvoorbeelden, door gebruik te maken van de domeinspecifieke voorbeelden op drie manieren: vraaguitbreiding, synthetiseren van redeneerprocesgegevens en weinig-opnames ICL. De evaluatie wordt uitgevoerd op SciKnowEval, waar OpenRFT opmerkelijke prestatieverbeteringen behaalt met slechts 100 domeinspecifieke voorbeelden voor elke taak. Meer experimentele resultaten zullen continu worden bijgewerkt in latere versies. Broncodes, datasets en modellen worden bekendgemaakt op: https://github.com/ADaM-BJTU/OpenRFT
Als een cruciale stap om de afstemming van LLMs op menselijke intenties te verbeteren, heeft Instruction Fine-Tuning (IFT) een hoge vraag naar datasetkwaliteit. Bestaande IFT-datasets bevatten echter vaak kennis die inconsistent is met de interne kennis van LLMs die is geleerd tijdens de pre-trainingfase, wat de effectiviteit van IFT aanzienlijk kan beïnvloeden. Om dit probleem aan te pakken, introduceren we het NILE (iNternal consIstency aLignmEnt) framework, gericht op het optimaliseren van IFT-datasets om de capaciteit van LLMs verder te ontsluiten. NILE werkt door de interne kennis van het doel-voorgetrainde LLM op te roepen die overeenkomt met instructiedata. De interne kennis wordt gebruikt om het antwoord in IFT-datasets te herzien. Daarnaast stellen we een nieuw Internal Consistency Filtering (ICF) methode voor om trainingsvoorbeelden te filteren, waarbij wordt gewaarborgd dat deze hoog consistent zijn met de interne kennis van LLM. Onze experimenten tonen aan dat NILE-gealigneerde IFT-datasets de prestaties van LLM aanzienlijk verbeteren over meerdere evaluatiedatasets van LLM-vaardigheden, met een winst tot 66,6% op Arena-Hard en 68,5% op Alpaca-Eval V2. Verder onderzoek bevestigt dat elk onderdeel van het NILE-framework bijdraagt aan deze aanzienlijke prestatieverbeteringen, en levert overtuigend bewijs dat datasetconsistentie met voorgeleerde interne kennis cruciaal is voor het maximaliseren van het potentieel van LLM.