papers.description
Trotz ihrer bemerkenswerten Leistung steht die Entwicklung von Großen Sprachmodellen (LLMs) vor einer entscheidenden Herausforderung in Bezug auf skalierbare Aufsicht: die Bereitstellung effektiven Feedbacks für Aufgaben, bei denen die menschliche Bewertung schwierig ist oder bei denen LLMs die Menschen übertreffen. Obwohl das Interesse an der Verwendung von LLMs für Kritik wächst, stützen sich aktuelle Ansätze immer noch auf menschliche Annotationen oder leistungsstärkere Modelle, was das Problem der Verbesserung der Kritikfähigkeiten ohne externe Aufsicht ungelöst lässt. Wir stellen SCRIT (Selbstentwickelnder Kritiker) vor, ein Framework, das eine echte Selbstentwicklung der Kritikfähigkeiten ermöglicht. Technisch gesehen verbessert sich SCRIT, indem es auf synthetischen Daten trainiert, die von einem kontrastiven selbstkritischen Ansatz generiert werden, der Referenzlösungen für eine schrittweise Kritik verwendet, sowie einen Selbstvalidierungsmechanismus, der die Qualität der Kritik durch Korrekturausgänge sicherstellt. Umgesetzt mit Qwen2.5-72B-Instruct, einem der leistungsstärksten LLMs, erzielt SCRIT eine Verbesserung von bis zu 10,3\% bei Kritik-Korrektur- und Fehleridentifikations-Benchmarks. Unsere Analyse zeigt, dass die Leistung von SCRIT positiv mit Daten- und Modellgröße skaliert, alternative Ansätze übertrifft und entscheidend von ihrem Selbstvalidierungskomponenten profitiert.
Die Retrieval-gestützte Generierung (RAG) ist eine leistungsstarke Strategie zur Bewältigung des Problems der Erzeugung faktisch inkorrekter Ausgaben in Grundlagenmodellen, indem externe Wissensquellen, die für Anfragen relevant sind, abgerufen und in den Generierungsprozess integriert werden. Allerdings haben bisherige RAG-Ansätze hauptsächlich den Fokus auf textuelle Informationen gelegt, wobei einige jüngste Fortschritte begonnen haben, Bilder zu berücksichtigen, während Videos, eine reichhaltige Quelle multimodalen Wissens, die Ereignisse, Prozesse und Kontextdetails effektiver als jede andere Modalität darstellen können, weitgehend übersehen wurden. Während einige wenige aktuelle Studien die Integration von Videos in den Antwortgenerierungsprozess untersuchen, definieren sie entweder vorab Videos, die mit Anfragen verbunden sind, ohne sie gemäß den Anfragen abzurufen, oder wandeln Videos in textuelle Beschreibungen um, ohne ihre multimodale Reichhaltigkeit zu nutzen. Um diesen Herausforderungen zu begegnen, stellen wir VideoRAG vor, ein neuartiges Rahmenwerk, das nicht nur dynamisch relevante Videos basierend auf ihrer Relevanz mit Anfragen abruft, sondern auch sowohl visuelle als auch textuelle Informationen von Videos in der Ausgabegenerierung nutzt. Darüber hinaus basiert unsere Methode auf dem jüngsten Fortschritt der Large Video Language Models (LVLMs), die die direkte Verarbeitung von Videoinhalten ermöglichen, um sie für das Retrieval darzustellen und die abgerufenen Videos gemeinsam mit Anfragen nahtlos zu integrieren. Wir validieren experimentell die Wirksamkeit von VideoRAG und zeigen, dass es überlegen gegenüber relevanten Basislinien ist.
Das Schlussfolgern ist eine grundlegende Fähigkeit zur Lösung komplexer mehrstufiger Probleme, insbesondere in visuellen Kontexten, in denen ein sequentielles schrittweises Verständnis unerlässlich ist. Bestehende Ansätze fehlen ein umfassendes Rahmenwerk zur Bewertung visueller Schlussfolgerungen und betonen nicht das schrittweise Problemlösen. Zu diesem Zweck schlagen wir ein umfassendes Rahmenwerk zur Förderung schrittweiser visueller Schlussfolgerungen in großen Sprachmodellen (LMMs) durch drei Schlüsselbeiträge vor. Erstens führen wir einen visuellen Schlussfolgerungs-Benchmark ein, der speziell zur Bewertung mehrstufiger Schlussfolgerungsaufgaben entwickelt wurde. Der Benchmark präsentiert eine vielfältige Reihe von Herausforderungen mit acht verschiedenen Kategorien, die von komplexer visueller Wahrnehmung bis zu wissenschaftlichem Schlussfolgern reichen und insgesamt über 4k Schlussfolgerungsschritte umfassen, was eine robuste Bewertung der Fähigkeiten von LLMs ermöglicht, genaue und interpretierbare visuelle Schlussfolgerungen über mehrere Schritte hinweg durchzuführen. Zweitens schlagen wir eine neue Metrik vor, die die Qualität visueller Schlussfolgerungen auf der Ebene einzelner Schritte bewertet und sowohl Korrektheit als auch logische Kohärenz betont. Die vorgeschlagene Metrik bietet tiefere Einblicke in die Schlussfolgerungsleistung im Vergleich zu traditionellen Genauigkeitsmetriken für Endaufgaben. Drittens präsentieren wir ein neues multimodales visuelles Schlussfolgerungsmodell namens LlamaV-o1, das mit einem mehrstufigen Curriculum-Learning-Ansatz trainiert wurde, bei dem Aufgaben progressiv organisiert werden, um inkrementelles Erlernen von Fähigkeiten und Problemlösungen zu erleichtern. Das vorgeschlagene LlamaV-o1 ist für mehrstufige Schlussfolgerungen konzipiert und lernt schrittweise durch ein strukturiertes Trainingsparadigma. Umfangreiche Experimente zeigen, dass unser LlamaV-o1 bestehende Open-Source-Modelle übertrifft und sich vorteilhaft gegenüber Closed-Source-eigenen Modellen verhält. Im Vergleich zum kürzlich veröffentlichten Llava-CoT erreicht unser LlamaV-o1 einen durchschnittlichen Score von 67,3 mit einem absoluten Gewinn von 3,8\% über sechs Benchmarks, während es beim Skalieren der Inferenz 5-mal schneller ist. Unser Benchmark, Modell und Code sind öffentlich verfügbar.
Die Entwicklung von allgemeinen Robotersystemen, die in unstrukturierten Umgebungen manipulieren können, ist eine bedeutende Herausforderung. Während Vision-Language-Modelle (VLM) in der hochrangigen Alltagslogik hervorragend sind, fehlt es ihnen an dem fein abgestuften 3D-Raumverständnis, das für präzise Manipulationsaufgaben erforderlich ist. Das Feinabstimmen von VLM auf robotische Datensätze zur Erstellung von Vision-Language-Action-Modellen (VLA) ist eine mögliche Lösung, wird jedoch durch hohe Datensammlungskosten und Generalisierungsprobleme behindert. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige objektorientierte Darstellung vor, die die Kluft zwischen dem hochrangigen Denken von VLM und der für die Manipulation erforderlichen Präzision überbrückt. Unser Haupterkenntnis ist, dass der kanonische Raum eines Objekts, der durch seine funktionalen Möglichkeiten definiert ist, eine strukturierte und semantisch sinnvolle Möglichkeit bietet, Interaktionsprimitive wie Punkte und Richtungen zu beschreiben. Diese Primitiven fungieren als Brücke, die das alltägliche Denken von VLM in handlungsfähige 3D-Raumbeschränkungen übersetzt. In diesem Zusammenhang stellen wir ein duales Closed-Loop-, Open-Vocabulary-Roboter-Manipulationssystem vor: eine Schleife für die hochrangige Planung durch primitives Resampling, Interaktionsrendering und VLM-Überprüfung und eine andere für die niedergradige Ausführung über 6D-Posenverfolgung. Dieses Design gewährleistet eine robuste, Echtzeitsteuerung, ohne dass eine Feinabstimmung von VLM erforderlich ist. Umfangreiche Experimente zeigen eine starke Generalisierung ohne Trainingsdaten über verschiedene robotische Manipulationsaufgaben hinweg und unterstreichen das Potenzial dieses Ansatzes zur Automatisierung der Erzeugung von Simulationen im großen Maßstab.
Die zeitliche Wahrnehmung, die Fähigkeit, dynamisch basierend auf dem Zeitstempel zu argumentieren, wenn eine Frage gestellt wird, ist der Schlüsselunterschied zwischen Offline- und Online-Video-LLMs. Im Gegensatz zu Offline-Modellen, die auf vollständige Videos für statische, nachträgliche Analysen angewiesen sind, verarbeiten Online-Modelle Video-Streams inkrementell und passen ihre Antworten dynamisch an den Zeitstempel an, zu dem die Frage gestellt wird. Trotz ihrer Bedeutung wurde die zeitliche Wahrnehmung in bestehenden Benchmarks nicht angemessen bewertet. Um diese Lücke zu schließen, präsentieren wir OVO-Bench (Online-VideO-Benchmark), einen neuartigen Videobenchmark, der die Bedeutung von Zeitstempeln für die Bewertung der fortgeschrittenen Online-Video-Verständnisfähigkeit betont. OVO-Bench bewertet die Fähigkeit von Video-LLMs, Ereignisse, die zu bestimmten Zeitstempeln auftreten, zu analysieren und darauf zu reagieren, unter drei verschiedenen Szenarien: (1) Rückverfolgung: Rückverfolgung vergangener Ereignisse, um die Frage zu beantworten. (2) Echtzeitverständnis: Ereignisse verstehen und darauf reagieren, während sie sich zum aktuellen Zeitstempel entfalten. (3) Vorausschauendes Reagieren: Die Antwort verzögern, bis ausreichende zukünftige Informationen verfügbar sind, um die Frage genau zu beantworten. OVO-Bench umfasst 12 Aufgaben, die 644 einzigartige Videos und etwa 2.800 fein abgestimmte Metazeitstempelungen umfassen, die von Menschen kuratiert wurden. Wir kombinieren automatisierte Generierungspipelines mit menschlicher Kuratierung. Mit diesen hochwertigen Beispielen haben wir eine Bewertungspipeline weiterentwickelt, um Video-LLMs systematisch entlang der Videotimeline abzufragen. Die Bewertungen von neun Video-LLMs zeigen, dass aktuelle Modelle trotz Fortschritten bei traditionellen Benchmarks Schwierigkeiten mit dem Verständnis von Online-Videos haben und einen signifikanten Unterschied im Vergleich zu menschlichen Agenten aufweisen. Wir hoffen, dass OVO-Bench Fortschritte bei Video-LLMs vorantreiben und zukünftige Forschung im Bereich des Online-Video-Argumentierens inspirieren wird. Unser Benchmark und der Code sind unter https://github.com/JoeLeelyf/OVO-Bench verfügbar.
Der jüngste Fortschritt von Multimodalen Großen Sprachmodellen (MLLMs) hat ihre feingranulare Wahrnehmung einzelner Bilder und das allgemeine Verständnis über mehrere Bilder hinweg signifikant verbessert. Allerdings stehen bestehende MLLMs immer noch vor Herausforderungen, um eine präzise Verankerung in komplexen Szenarien mit mehreren Bildern zu erreichen. Um dies anzugehen, erforschen wir zunächst ein Chain-of-Thought (CoT)-Framework, das die Verankerung einzelner Bilder mit dem Verständnis mehrerer Bilder integriert. Obwohl teilweise effektiv, bleibt es instabil und hat Schwierigkeiten, abstrakte visuelle Informationen aufgrund seiner nicht-endlichen Natur zu erfassen. Daher stellen wir Migician vor, das erste Multi-Bild-Verankerungsmodell, das in der Lage ist, freiform und präzise Verankerungen über mehrere Bilder hinweg durchzuführen. Zur Unterstützung dessen präsentieren wir den MGrounding-630k Datensatz, der Daten für mehrere Multi-Bild-Verankerungsaufgaben aus bestehenden Datensätzen sowie neu generierte freiform-Verankerungsanweisungen umfassende Daten enthält. Darüber hinaus schlagen wir MIG-Bench vor, einen umfassenden Benchmark, der speziell für die Bewertung der Fähigkeiten der Multi-Bild-Verankerung entwickelt wurde. Experimentelle Ergebnisse zeigen, dass unser Modell signifikant überlegene Fähigkeiten in der Multi-Bild-Verankerung aufweist, die die besten bestehenden MLLMs um 21,61% übertreffen und sogar deutlich größere 70B-Modelle übertreffen. Unser Code, Modell, Datensatz und Benchmark sind vollständig Open-Source.
Große Sprachmodelle (LLMs) haben in den letzten Jahren bemerkenswerte Leistungen erbracht, sind jedoch grundsätzlich durch die zugrunde liegenden Trainingsdaten begrenzt. Um Modelle über die Trainingsdaten hinaus zu verbessern, haben aktuelle Arbeiten untersucht, wie LLMs zur Generierung synthetischer Daten für autonomes Selbstverbessern genutzt werden können. Allerdings können aufeinanderfolgende Schritte der Selbstverbesserung einen Punkt der abnehmenden Erträge erreichen. In dieser Arbeit schlagen wir einen ergänzenden Ansatz zur Selbstverbesserung vor, bei dem Feinabstimmung auf eine Multiagenten-Gesellschaft von Sprachmodellen angewendet wird. Eine Gruppe von Sprachmodellen, die alle vom selben Basismodell ausgehen, wird unabhängig voneinander spezialisiert, indem jedes Modell durch Daten aktualisiert wird, die durch Multiagenten-Interaktionen zwischen den Modellen generiert werden. Durch das Training jedes Modells auf unabhängigen Datensätzen zeigen wir, wie dieser Ansatz Spezialisierung über Modelle hinweg und Diversifizierung über den Modellsatz ermöglicht. Als Ergebnis ist unser Gesamtsystem in der Lage, vielfältige Denkwege zu bewahren und sich autonom über viele weitere Runden der Feinabstimmung zu verbessern als Einzelagenten-Selbstverbesserungsmethoden. Wir veranschaulichen quantitativ die Wirksamkeit des Ansatzes über eine breite Palette von Denkaufgaben.
Strukturiertes Bildverständnis, wie die Interpretation von Tabellen und Diagrammen, erfordert ein strategisches Umschalten zwischen verschiedenen Strukturen und Texten innerhalb eines Bildes, um eine Abfolge von Schlussfolgerungen zu bilden und zur endgültigen Antwort zu gelangen. Allerdings fehlt es aktuellen multimodalen großen Sprachmodellen (LLMs) an dieser Multihop-selektiven Aufmerksamkeitsfähigkeit. In dieser Arbeit stellen wir ReFocus vor, ein einfaches, aber effektives Framework, das multimodale LLMs mit der Fähigkeit ausstattet, "visuelle Gedanken" zu generieren, indem sie visuelle Bearbeitungen am Eingabebild durchführen, indem sie ihren visuellen Fokus durch Code verschieben und verfeinern. Speziell ermöglicht ReFocus multimodalen LLMs, Python-Codes zu generieren, um Werkzeuge aufzurufen und das Eingabebild zu modifizieren, indem sie sequenziell Kästen zeichnen, Abschnitte hervorheben und Bereiche maskieren, wodurch der visuelle Schlussfolgerungsprozess verbessert wird. Wir führen Experimente mit einer Vielzahl von strukturierten Bildverständnisaufgaben durch, die Tabellen und Diagramme umfassen. ReFocus verbessert die Leistung bei allen Aufgaben im Vergleich zu GPT-4o ohne visuelle Bearbeitung erheblich und erzielt einen durchschnittlichen Gewinn von 11,0 % bei Tabellenaufgaben und 6,8 % bei Diagrammaufgaben. Wir präsentieren eine eingehende Analyse der Auswirkungen verschiedener visueller Bearbeitungen und der Gründe, warum ReFocus die Leistung verbessern kann, ohne zusätzliche Informationen einzuführen. Darüber hinaus sammeln wir einen Trainingsdatensatz von 14k mit ReFocus und zeigen, dass eine solche visuelle Gedankenabfolge mit Zwischeninformationen eine bessere Überwachung bietet als standardmäßige VQA-Daten, wodurch ein durchschnittlicher Gewinn von 8,0 % gegenüber demselben Modell erreicht wird, das mit QA-Paaren trainiert wurde, und 2,6 % gegenüber CoT.
Die Generierung von Text-zu-Video hat bemerkenswerte Fortschritte durch Diffusionsmodelle gemacht. Allerdings bleibt die Multi-Konzept Video-Anpassung (MCVC) eine signifikante Herausforderung. Wir identifizieren zwei Schlüsselherausforderungen bei dieser Aufgabe: 1) das Identitätsentkopplungsproblem, bei dem die direkte Übernahme bestehender Anpassungsmethoden zwangsläufig Attribute vermischen, wenn mehrere Konzepte gleichzeitig behandelt werden, und 2) die Knappheit von hochwertigen Video-Entitäts-Paaren, die entscheidend für das Training eines solchen Modells sind, das verschiedene Konzepte gut darstellt und entkoppelt. Um diesen Herausforderungen zu begegnen, stellen wir ConceptMaster vor, ein innovatives Framework, das die kritischen Probleme des Identitätsentkopplungs effektiv angeht, während es die Konzepttreue in individualisierten Videos beibehält. Speziell führen wir eine neuartige Strategie des Lernens von entkoppelten Multi-Konzept-Einbettungen ein, die auf eigenständige Weise in die Diffusionsmodelle eingespeist werden, was effektiv die Qualität individualisierter Videos mit mehreren Identitäten gewährleistet, selbst für hochgradig ähnliche visuelle Konzepte. Um die Knappheit von hochwertigen MCVC-Daten weiter zu überwinden, etablieren wir sorgfältig eine Datenkonstruktionspipeline, die eine systematische Sammlung präziser Multi-Konzept-Video-Entitäts-Daten über verschiedene Konzepte ermöglicht. Ein umfassender Benchmark wird entworfen, um die Wirksamkeit unseres Modells aus drei kritischen Dimensionen zu validieren: Konzepttreue, Identitätsentkopplungsfähigkeit und Video-Generierungsqualität über sechs verschiedene Konzeptzusammensetzungs-Szenarien hinweg. Umfangreiche Experimente zeigen, dass unser ConceptMaster signifikant besser abschneidet als bisherige Ansätze für diese Aufgabe und den Weg ebnet für die Generierung personalisierter und semantisch genauer Videos über verschiedene Konzepte hinweg.
Methoden zur Video-Personalisierung ermöglichen es uns, Videos mit spezifischen Konzepten wie Personen, Haustieren und Orten zu synthetisieren. Allerdings konzentrieren sich bestehende Methoden häufig auf begrenzte Bereiche, erfordern zeitaufwändige Optimierungen pro Thema oder unterstützen nur ein einziges Thema. Wir stellen Video Alchemist vor - ein Videomodell mit integrierten Multi-Subjekt-, Open-Set-Personalisierungsfähigkeiten sowohl für Vordergrundobjekte als auch Hintergrund, was die Notwendigkeit für zeitaufwändige Optimierungen zur Testzeit beseitigt. Unser Modell basiert auf einem neuen Diffusion Transformer-Modul, das jedes bedingte Referenzbild und seinen entsprechenden textbasierten Themenprompt mit Kreuz-Aufmerksamkeitsschichten verschmilzt. Die Entwicklung eines solch großen Modells birgt zwei Hauptprobleme: Datensatz und Evaluation. Zunächst sind gepaarte Datensätze von Referenzbildern und Videos extrem schwer zu sammeln, daher wählen wir ausgewählte Videoframes als Referenzbilder aus und synthetisieren einen Ausschnitt des Zielvideos. Allerdings scheitern Modelle daran, sich auf neue Kontexte zu verallgemeinern, obwohl sie Trainingsvideos leicht von Rauschen befreien können, das durch Referenzbilder verursacht wird. Um dieses Problem zu mildern, entwerfen wir eine neue automatische Datenkonstruktionspipeline mit umfangreichen Bildaugmentationen. Zweitens ist die Bewertung der Open-Set-Video-Personalisierung an sich eine Herausforderung. Um dies anzugehen, führen wir einen Personalisierungs-Benchmark ein, der sich auf eine präzise Themenfidelität konzentriert und verschiedene Personalisierungsszenarien unterstützt. Schließlich zeigen unsere umfangreichen Experimente, dass unsere Methode sowohl in quantitativen als auch qualitativen Bewertungen signifikant besser abschneidet als bestehende Personalisierungsmethoden.
Diese Studie zeigt einen neuartigen Ansatz zur Überprüfung der Sicherheitsgrenzen von Vision-Large Language Models (VLM/LLM) unter Verwendung der EICAR-Testdatei, die in JPEG-Bildern eingebettet ist. Wir haben erfolgreich vier verschiedene Protokolle auf mehreren LLM-Plattformen ausgeführt, darunter OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro und Anthropic Claude 3.5 Sonnet. Die Experimente bestätigten, dass ein modifiziertes JPEG, das die EICAR-Signatur enthält, in LLM-Virtual-Workspaces hochgeladen, manipuliert und potenziell ausgeführt werden konnte. Zu den wichtigsten Ergebnissen gehören: 1) die konsistente Fähigkeit, die EICAR-Zeichenfolge in den Metadaten des Bildes zu maskieren, ohne entdeckt zu werden, 2) die erfolgreiche Extraktion der Testdatei mithilfe von Python-basierter Manipulation in LLM-Umgebungen und 3) die Demonstration mehrerer Verschleierungstechniken, einschließlich Base64-Codierung und Zeichenfolgenumkehrung. Diese Forschung erweitert das "Penetration Testing Rules of Engagement"-Framework von Microsoft Research, um die Sicherheitsgrenzen von Cloud-basierten generativen KI- und LLM-Systemen zu bewerten, wobei der Schwerpunkt insbesondere auf der Dateiverarbeitung und Ausführungsfähigkeiten innerhalb containerisierter Umgebungen liegt.
Die traditionelle Celluloid (Cel) Animationsproduktionspipeline umfasst mehrere wesentliche Schritte, darunter Storyboarding, Layoutdesign, Keyframe-Animation, Zwischenzeichnung und Kolorierung, die erheblichen manuellen Aufwand, technisches Fachwissen und eine bedeutende Zeitinvestition erfordern. Diese Herausforderungen haben historisch gesehen die Effizienz und Skalierbarkeit der Cel-Animationsproduktion beeinträchtigt. Das Aufkommen von generativer künstlicher Intelligenz (GenAI), die große Sprachmodelle, multimodale Modelle und Diffusionsmodelle umfasst, bietet innovative Lösungen durch die Automatisierung von Aufgaben wie der Generierung von Zwischenbildern, Kolorierung und der Erstellung von Storyboards. Diese Umfrage untersucht, wie die Integration von GenAI die traditionellen Animations-Workflows revolutioniert, indem sie technische Hürden senkt, die Zugänglichkeit für eine breitere Palette von Schöpfern durch Tools wie AniDoc, ToonCrafter und AniSora erweitert und Künstlern ermöglicht, sich stärker auf kreative Ausdrucksformen und künstlerische Innovationen zu konzentrieren. Trotz ihres Potenzials stellen Probleme wie die Aufrechterhaltung visueller Konsistenz, die Sicherstellung stilistischer Kohärenz und die Berücksichtigung ethischer Aspekte weiterhin Herausforderungen dar. Darüber hinaus diskutiert dieser Artikel zukünftige Richtungen und untersucht potenzielle Fortschritte in der KI-unterstützten Animation. Für weitere Erkundungen und Ressourcen besuchen Sie bitte unser GitHub-Repository: https://github.com/yunlong10/Awesome-AI4Animation
Die domänenadaptive Nachschulung großer Sprachmodelle (LLMs) hat sich als vielversprechender Ansatz für spezialisierte Bereiche wie Medizin und Finanzen herausgestellt. Es bestehen jedoch weiterhin bedeutende Herausforderungen bei der Identifizierung optimaler Anpassungskriterien und Schulungsstrategien für unterschiedliche Daten- und Modellkonfigurationen. Um diesen Herausforderungen zu begegnen, stellen wir FINDAP vor, eine systematische und fein abgestimmte Untersuchung zur domänenadaptiven Nachschulung von LLMs für den Finanzbereich. Unser Ansatz beginnt mit der Identifizierung der Kernfähigkeiten, die für die Ziel-Domäne erforderlich sind, und der Gestaltung einer umfassenden Evaluierungssuite, die auf diese Anforderungen abgestimmt ist. Anschließend analysieren wir die Wirksamkeit der wichtigsten Nachschulungsphasen, einschließlich kontinuierlicher Vorschulung, Anpassung der Anweisungen und Ausrichtung der Präferenzen. Basierend auf diesen Erkenntnissen schlagen wir ein effektives Schulungsrezept vor, das auf einer neuartigen Methode zur Destillation von Präferenzdaten beruht und Prozesssignale aus einem generativen Belohnungsmodell nutzt. Das resultierende Modell, Llama-Fin, erzielt Spitzenleistungen bei einer Vielzahl von Finanzaufgaben. Unsere Analyse hebt auch hervor, wie jede Nachschulungsphase zu unterschiedlichen Fähigkeiten beiträgt, spezifische Herausforderungen aufdeckt und effektive Lösungen bietet, die wertvolle Einblicke für die Domänenanpassung von LLMs liefern. Projektseite: https://github.com/SalesforceAIResearch/FinDap