Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren rStar-Math, um zu zeigen, dass kleine Sprachmodelle (SLMs) die mathematische Denkfähigkeit von OpenAI o1 erreichen oder sogar übertreffen können, ohne von überlegenen Modellen destilliert zu werden. rStar-Math erreicht dies, indem es "tiefes Denken" durch Monte-Carlo-Baumsuche (MCTS) ausübt, bei der ein mathematisches Richtlinien-SLM eine Testzeit-Suche durchführt, die von einem auf SLM basierenden Prozessbelohnungsmodell geleitet wird. rStar-Math führt drei Innovationen ein, um die Herausforderungen beim Training der beiden SLMs zu bewältigen: (1) eine neuartige Code-erweiterte CoT-Datensynthesemethode, die umfangreiche MCTS-Durchläufe durchführt, um schrittweise überprüfte Denkwege zu generieren, die zur Schulung des Richtlinien-SLM verwendet werden; (2) eine neuartige Methode zur Schulung des Prozessbelohnungsmodells, die naive Schritt-Ebene-Punktzahlenannotationen vermeidet und ein effektiveres Prozesspräferenzmodell (PPM) liefert; (3) ein Selbstentwicklungsrezept, bei dem das Richtlinien-SLM und das PPM von Grund auf aufgebaut und iterativ weiterentwickelt werden, um die Denkfähigkeiten zu verbessern. Durch 4 Runden der Selbstentwicklung mit Millionen synthetisierter Lösungen für 747k mathematische Probleme steigert rStar-Math die mathematische Denkfähigkeit der SLMs auf State-of-the-Art-Niveau. Auf dem MATH-Benchmark verbessert es Qwen2.5-Math-7B von 58,8 % auf 90,0 % und Phi3-mini-3.8B von 41,4 % auf 86,4 %, wobei es o1-preview um +4,5 % bzw. +0,9 % übertrifft. Bei der USA Mathematik-Olympiade (AIME) löst rStar-Math durchschnittlich 53,3 % (8/15) der Probleme und rangiert unter den besten 20 % der hellsten Mathematikschüler der Oberstufe. Code und Daten sind verfügbar unter https://github.com/microsoft/rStar.
Wir schlagen einen neuartigen Rahmen vor, Meta Chain-of-Thought (Meta-CoT), der das traditionelle Chain-of-Thought (CoT) erweitert, indem er das zugrunde liegende Denken explizit modelliert, das erforderlich ist, um zu einem bestimmten CoT zu gelangen. Wir präsentieren empirische Beweise von State-of-the-Art-Modellen, die Verhaltensweisen zeigen, die mit der kontextbezogenen Suche übereinstimmen, und untersuchen Methoden zur Erzeugung von Meta-CoT durch Prozessaufsicht, synthetische Datenerzeugung und Suchalgorithmen. Abschließend skizzieren wir eine konkrete Pipeline zur Schulung eines Modells zur Erzeugung von Meta-CoTs, die Instruktionstuning mit linearisierten Suchspuren und Verstärkungslernen nach dem Training integriert. Schließlich diskutieren wir offene Forschungsfragen, einschließlich Skalierungsgesetze, Verifiziererrollen und das Potenzial zur Entdeckung neuartiger Denkalgorithmien. Diese Arbeit liefert einen theoretischen und praktischen Fahrplan zur Ermöglichung von Meta-CoT in LLMs und ebnet den Weg für eine leistungsstärkere und menschenähnlichere Argumentation in der künstlichen Intelligenz.
Historisch gesehen war wissenschaftliche Entdeckung ein langwieriger und kostspieliger Prozess, der erhebliche Zeit und Ressourcen von der ersten Konzeption bis zu den endgültigen Ergebnissen erforderte. Um wissenschaftliche Entdeckungen zu beschleunigen, Forschungskosten zu senken und die Forschungsqualität zu verbessern, stellen wir Agent Laboratory vor, ein autonomes LLM-basiertes Framework, das in der Lage ist, den gesamten Forschungsprozess abzuschließen. Dieses Framework akzeptiert eine vom Menschen bereitgestellte Forschungsidee und durchläuft drei Phasen - Literaturrecherche, Experimente und Berichterstellung, um umfassende Forschungsergebnisse zu erzeugen, einschließlich eines Code-Repositories und eines Forschungsberichts, wobei Benutzern ermöglicht wird, Feedback und Anleitung in jeder Phase zu geben. Wir setzen Agent Laboratory mit verschiedenen hochmodernen LLMs ein und laden mehrere Forscher ein, seine Qualität zu bewerten, indem sie an einer Umfrage teilnehmen, menschliches Feedback geben, um den Forschungsprozess zu lenken, und dann das endgültige Papier bewerten. Wir haben festgestellt, dass: (1) Agent Laboratory, gesteuert von o1-preview, die besten Forschungsergebnisse erzielt; (2) Der generierte Machine-Learning-Code in der Lage ist, im Vergleich zu bestehenden Methoden Spitzenleistungen zu erzielen; (3) Die menschliche Beteiligung, die Feedback in jeder Phase gibt, verbessert signifikant die Gesamtqualität der Forschung; (4) Agent Laboratory reduziert Forschungskosten signifikant und erreicht eine 84%ige Verringerung im Vergleich zu früheren autonomen Forschungsmethoden. Wir hoffen, dass Agent Laboratory es Forschern ermöglicht, mehr Aufwand für kreative Ideenbildung anstelle von niedrigschwelligem Codieren und Schreiben aufzuwenden und letztendlich die wissenschaftliche Entdeckung zu beschleunigen.
Die Gedankenkette (CoT) wurde weitreichend in der mathematischen Argumentation von Large Language Models (LLMs) angewendet. Kürzlich hat die Einführung der Derivatprozessüberwachung auf CoT-Trajektorien Diskussionen über die Verbesserung der Skalierbarkeitsfähigkeiten zur Testzeit ausgelöst, wodurch das Potenzial dieser Modelle gesteigert wird. Allerdings hat in multimodaler mathematischer Argumentation die Knappheit hochwertiger CoT-Trainingsdaten bestehende Modelle daran gehindert, eine präzise CoT-Argumentation zu erreichen und die Realisierung des Argumentationspotenzials zur Testzeit eingeschränkt. In dieser Arbeit schlagen wir eine Dreimodul-Synthesestrategie vor, die CoT-Destillation, Trajektorienformat-Umschreibung und Formatvereinheitlichung integriert. Dies führt zu einem hochwertigen CoT-Argumentationsanweisungsfeinabstimmungsdatensatz in multimodaler Mathematik, MMathCoT-1M. Wir validieren umfassend die State-of-the-Art (SOTA)-Leistung des trainierten URSA-7B-Modells an mehreren multimodalen mathematischen Benchmarks. Für die Skalierung zur Testzeit führen wir eine Datensynthesestrategie ein, die automatisch Prozessannotationsdatensätze generiert, bekannt als DualMath-1.1M, die sich auf Interpretation und Logik konzentrieren. Durch weiteres Training von URSA-7B auf DualMath-1.1M wechseln wir von CoT-Argumentationsfähigkeiten zu robusten Überwachungsfähigkeiten. Der trainierte URSA-RM-7B fungiert als Verifizierer und verbessert effektiv die Leistung von URSA-7B zur Testzeit. URSA-RM-7B zeigt auch ausgezeichnete Out-of-Distribution (OOD)-Verifizierungsfähigkeiten und demonstriert damit seine Verallgemeinerungsfähigkeit. Modellgewichte, Trainingsdaten und Code werden Open Source zur Verfügung gestellt.
In den letzten Jahren hat der rasante Fortschritt von Großen Sprachmodellen (GSM) die Landschaft der wissenschaftlichen Forschung verändert und bietet beispiellose Unterstützung in verschiedenen Phasen des Forschungszyklus. Dieser Artikel präsentiert die erste systematische Umfrage, die sich damit befasst, wie GSMs den wissenschaftlichen Forschungsprozess revolutionieren. Wir analysieren die einzigartigen Rollen, die GSMs in vier kritischen Phasen der Forschung spielen: Hypothesenfindung, Experimentplanung und -durchführung, wissenschaftliches Schreiben und Peer-Review. Unsere Übersicht zeigt umfassend die aufgabenspezifischen Methoden und Evaluierungskriterien auf. Durch die Identifizierung aktueller Herausforderungen und die Vorschläge für zukünftige Forschungsrichtungen hebt diese Umfrage nicht nur das transformative Potenzial von GSMs hervor, sondern zielt auch darauf ab, Forscher und Praktiker dazu zu inspirieren und anzuleiten, GSMs zur Förderung wissenschaftlicher Untersuchungen einzusetzen. Ressourcen sind im folgenden Repository verfügbar: https://github.com/du-nlp-lab/LLM4SR
Grafische Benutzeroberflächen (GUI)-Agenten, die von multimodalen großen Sprachmodellen (MLLMs) betrieben werden, haben ein großes Potenzial für die Automatisierung von Aufgaben auf Rechengeräten wie Computern und Mobiltelefonen gezeigt. Allerdings stehen bestehende Agenten vor Herausforderungen im mehrstufigen Denken und der Abhängigkeit von textuellen Annotationen, was ihre Wirksamkeit einschränkt. Wir stellen InfiGUIAgent vor, einen GUI-Agenten auf Basis von MLLMs, der mit einer zweistufigen überwachten Feinabstimmungspipeline trainiert wurde. Stufe 1 verbessert grundlegende Fähigkeiten wie GUI-Verständnis und Verankerung, während Stufe 2 hierarchisches Denken und Erwartungs-Reflexions-Denken-Fähigkeiten unter Verwendung synthetisierter Daten integriert, um den Agenten die nativen Denkfähigkeiten zu ermöglichen. InfiGUIAgent erzielt eine wettbewerbsfähige Leistung auf mehreren GUI-Benchmarks und hebt die Auswirkungen nativer Denkfähigkeiten auf die Verbesserung der GUI-Interaktion für Automatisierungsaufgaben hervor. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiGUIAgent.
Dokumentenabruftechniken bilden die Grundlage für die Entwicklung von Informationssystemen im großen Maßstab. Die vorherrschende Methodologie besteht darin, einen Bi-Encoder zu konstruieren und die semantische Ähnlichkeit zu berechnen. Allerdings ist eine solche skalare Ähnlichkeit schwer, ausreichend Informationen widerzuspiegeln und behindert unser Verständnis der Abrufergebnisse. Darüber hinaus betont dieser Berechnungsprozess hauptsächlich die globalen Semantiken und ignoriert die feinkörnige semantische Beziehung zwischen der Abfrage und dem komplexen Text im Dokument. In diesem Paper schlagen wir eine neue Methode namens Generation Augmented Retrieval (GeAR) vor, die gut durchdachte Fusion und Decodierungs-Module integriert. Dies ermöglicht es GeAR, den relevanten Text aus Dokumenten auf der Grundlage der fusionierten Repräsentation der Abfrage und des Dokuments zu generieren und somit das "Fokussieren" auf die feinkörnigen Informationen zu erlernen. Auch wenn GeAR als Abrufsystem verwendet wird, fügt es keine zusätzliche Rechenlast zu den Bi-Encodern hinzu. Zur Unterstützung des Trainings des neuen Frameworks haben wir eine Pipeline eingeführt, um hochwertige Daten effizient zu synthetisieren, indem wir große Sprachmodelle nutzen. GeAR zeigt wettbewerbsfähige Abruf- und Lokalisierungsleistung in verschiedenen Szenarien und Datensätzen. Darüber hinaus bieten die qualitative Analyse und die von GeAR generierten Ergebnisse neue Erkenntnisse zur Interpretation der Abrufergebnisse. Der Code, die Daten und die Modelle werden nach Abschluss der technischen Überprüfung veröffentlicht, um zukünftige Forschung zu erleichtern.
In diesem Paper erweitern wir die Grenzen der feinkörnigen 3D-Generierung in wirklich kreatives Terrain. Aktuelle Methoden fehlen entweder raffinierte Details oder ahmen einfach vorhandene Objekte nach - wir ermöglichen beides. Indem wir das 2D-feinkörnige Verständnis in 3D durch Multi-View-Diffusion anheben und Part-Latenzen als kontinuierliche Verteilungen modellieren, entsperren wir die Fähigkeit, völlig neue, aber plausible Teile durch Interpolation und Sampling zu generieren. Ein selbstüberwachter Feature-Konsistenzverlust gewährleistet zudem eine stabile Generierung dieser unerforschten Teile. Das Ergebnis ist das erste System, das in der Lage ist, neuartige 3D-Objekte mit artenspezifischen Details zu erstellen, die über bestehende Beispiele hinausgehen. Während wir unseren Ansatz an Vögeln demonstrieren, erstreckt sich der zugrunde liegende Rahmen über Dinge hinaus, die zwitschern können! Der Code wird unter https://github.com/kamwoh/chirpy3d veröffentlicht.
Wir untersuchen das Problem der 3D-Objektrekonstruktion aus einem einzigen Bild. Aktuelle Arbeiten haben sich in zwei Richtungen entwickelt: regressionsbasierte Modellierung und generative Modellierung. Regressionsmethoden schließen sichtbare Oberflächen effizient, haben jedoch Schwierigkeiten mit verdeckten Regionen. Generative Methoden handhaben unsichere Regionen besser, indem sie Verteilungen modellieren, sind jedoch rechenaufwendig und die Generierung ist häufig nicht mit den sichtbaren Oberflächen ausgerichtet. In diesem Artikel präsentieren wir SPAR3D, einen neuartigen zweistufigen Ansatz, der das Beste aus beiden Richtungen vereinen soll. Die erste Stufe von SPAR3D generiert spärliche 3D-Punktwolken mithilfe eines leichten Punktverdünnungsmodells, das eine schnelle Abtastgeschwindigkeit aufweist. Die zweite Stufe verwendet sowohl die abgetastete Punktwolke als auch das Eingangsbild, um hochdetaillierte Gitter zu erstellen. Unser zweistufiges Design ermöglicht eine probabilistische Modellierung der schlecht gestellten Aufgabe der 3D-Rekonstruktion aus einem einzigen Bild, während gleichzeitig eine hohe Rechenleistung und eine hohe Ausgabetreue beibehalten werden. Die Verwendung von Punktwolken als Zwischenrepräsentation ermöglicht zudem interaktive Benutzerbearbeitungen. Anhand verschiedener Datensätze zeigt SPAR3D eine überlegene Leistung im Vergleich zu früheren State-of-the-Art-Methoden bei einer Inferenzgeschwindigkeit von 0,7 Sekunden. Projektseite mit Code und Modell: https://spar3d.github.io
Eine effektive Anpassung der Anweisungen ist unerlässlich, um Code-LLMs zu optimieren, das Verhalten des Modells an die Erwartungen der Benutzer anzupassen und die Leistung des Modells in realen Anwendungen zu verbessern. Die meisten bestehenden Methoden konzentrieren sich jedoch auf Code-Schnipsel, die auf spezifische Funktionalitäten und starre Strukturen beschränkt sind, was die Komplexität und Vielfalt der synthetisierten Daten einschränkt. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges Merkmalbaum-Synthese-Framework vor, das von abstrakten Syntaxbäumen (AST) inspiriert ist. Im Gegensatz zu AST, das die syntaktische Struktur des Codes erfasst, modelliert unser Framework semantische Beziehungen zwischen Code-Elementen, was die Generierung nuancierterer und vielfältigerer Daten ermöglicht. Der Merkmalbaum wird aus Rohdaten konstruiert und iterativ verfeinert, um die Menge und Vielfalt der extrahierten Merkmale zu erhöhen. Dieser Prozess ermöglicht die Identifizierung komplexerer Muster und Beziehungen im Code. Durch die Probenahme von Teilbäumen mit kontrollierter Tiefe und Breite ermöglicht unser Framework präzise Anpassungen an die Komplexität des generierten Codes und unterstützt eine Vielzahl von Aufgaben von einfachen Funktionsoperationen bis hin zu komplexen Szenarien mit mehreren Dateien. Wir haben weit verbreitete Basismodelle feinabgestimmt, um die EpiCoder-Serie zu erstellen, und dabei Spitzenleistungen auf Funktionsebene und Dateiebene in verschiedenen Benchmarks erzielt. Bemerkenswert ist, dass empirische Beweise darauf hindeuten, dass unser Ansatz ein signifikantes Potenzial zur Synthese hochkomplexer Code-Daten auf Repository-Ebene aufweist. Eine weitere Analyse verdeutlicht die Vorzüge dieses Ansatzes, indem Datenkomplexität und -vielfalt durch Softwaretechnikprinzipien und die LLM-als-Richter-Methode rigoros bewertet werden.
Der rasante Aufstieg großer Sprachmodelle (LLMs) hat viele Anwendungen ermöglicht, aber auch die Herausforderung betont, sie mit vielfältigen Werten und Präferenzen in Einklang zu bringen. Die direkte Präferenzoptimierung (DPO) ist zentral für die Ausrichtung, jedoch durch feste Divergenzen und begrenzte Merkmalstransformationen eingeschränkt. Wir schlagen DPO-Kernel vor, der Kernelmethoden integriert, um diese Probleme durch vier Schlüsselbeiträge anzugehen: (i) Kernelisierte Darstellungen mit polynomialen, RBF-, Mahalanobis- und spektralen Kernen für reichhaltigere Transformationen, sowie ein Hybridverlust, der einbettungsbasierte und wahrscheinlichkeitsbasierte Ziele kombiniert; (ii) Divergenzalternativen (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein und f-Divergenzen) für eine größere Stabilität; (iii) Datengetriebene Auswahlmetriken, die automatisch das beste Kernel-Divergenz-Paar wählen; und (iv) eine Hierarchische Mischung von Kernen für sowohl lokale Präzision als auch globales Modellieren. Evaluationen an 12 Datensätzen zeigen eine erstklassige Leistung in Sachen Faktentreue, Sicherheit, Schlussfolgerung und Anweisungsbefolgung. Verankert in der Heavy-Tailed Self-Regularization, gewährleistet DPO-Kernel eine robuste Verallgemeinerung für LLMs und bietet eine umfassende Ressource für weitere Ausrichtungsforschung.
Die Retrieval-gestützte Generierung (RAG) ist mittlerweile allgegenwärtig bei der Bereitstellung von Large Language Models (LLMs), da sie typische Einschränkungen wie die Generierung von halluzinierten oder veralteten Informationen bewältigen kann. Beim Aufbau von RAG-Anwendungen in der realen Welt treten jedoch praktische Probleme auf. Erstens ist die abgerufene Information in der Regel domänenspezifisch. Da es rechenintensiv ist, LLMs feinzutunen, ist es sinnvoller, den Retriever zu feinabstimmen, um die Qualität der Daten zu verbessern, die in die LLM-Eingabe einfließen. Zweitens, da immer mehr Anwendungen im selben realen System bereitgestellt werden, kann man es sich nicht leisten, separate Retriever einzusetzen. Darüber hinaus rufen diese RAG-Anwendungen normalerweise unterschiedliche Arten von Daten ab. Unsere Lösung besteht darin, einen kleinen Retriever-Encoder anhand einer Vielzahl von domänenspezifischen Aufgaben zu instruktionsbasiert feinzutunen, um einen Encoder bereitzustellen, der viele Anwendungsfälle bedienen kann, was zu geringen Kosten, Skalierbarkeit und Geschwindigkeit führt. Wir zeigen, wie sich dieser Encoder auf out-of-domain-Einstellungen sowie auf eine unbekannte Abrufaufgabe in realen Unternehmensanwendungsfällen verallgemeinern lässt.