papers.title

papers.description

rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

288

Wir präsentieren rStar-Math, um zu zeigen, dass kleine Sprachmodelle (SLMs) die mathematische Denkfähigkeit von OpenAI o1 erreichen oder sogar übertreffen können, ohne von überlegenen Modellen destilliert zu werden. rStar-Math erreicht dies, indem es "tiefes Denken" durch Monte-Carlo-Baumsuche (MCTS) ausübt, bei der ein mathematisches Richtlinien-SLM eine Testzeit-Suche durchführt, die von einem auf SLM basierenden Prozessbelohnungsmodell geleitet wird. rStar-Math führt drei Innovationen ein, um die Herausforderungen beim Training der beiden SLMs zu bewältigen: (1) eine neuartige Code-erweiterte CoT-Datensynthesemethode, die umfangreiche MCTS-Durchläufe durchführt, um schrittweise überprüfte Denkwege zu generieren, die zur Schulung des Richtlinien-SLM verwendet werden; (2) eine neuartige Methode zur Schulung des Prozessbelohnungsmodells, die naive Schritt-Ebene-Punktzahlenannotationen vermeidet und ein effektiveres Prozesspräferenzmodell (PPM) liefert; (3) ein Selbstentwicklungsrezept, bei dem das Richtlinien-SLM und das PPM von Grund auf aufgebaut und iterativ weiterentwickelt werden, um die Denkfähigkeiten zu verbessern. Durch 4 Runden der Selbstentwicklung mit Millionen synthetisierter Lösungen für 747k mathematische Probleme steigert rStar-Math die mathematische Denkfähigkeit der SLMs auf State-of-the-Art-Niveau. Auf dem MATH-Benchmark verbessert es Qwen2.5-Math-7B von 58,8 % auf 90,0 % und Phi3-mini-3.8B von 41,4 % auf 86,4 %, wobei es o1-preview um +4,5 % bzw. +0,9 % übertrifft. Bei der USA Mathematik-Olympiade (AIME) löst rStar-Math durchschnittlich 53,3 % (8/15) der Probleme und rangiert unter den besten 20 % der hellsten Mathematikschüler der Oberstufe. Code und Daten sind verfügbar unter https://github.com/microsoft/rStar.

Suche-o1: Agentic Search-verbesserte große Schlussfolgerungsmodelle
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

Große Schlussfolgerungsmodelle (LRMs) wie OpenAI-o1 haben beeindruckende langfristige schrittweise Schlussfolgerungsfähigkeiten durch groß angelegtes Verstärkungslernen demonstriert. Ihre erweiterten Schlussfolgerungsprozesse leiden jedoch oft an Wissensmangel, was zu häufigen Unsicherheiten und potenziellen Fehlern führt. Um diese Einschränkung zu beheben, stellen wir Search-o1 vor, ein Framework, das LRMs mit einem agierenden Abruf-erweiterten Generierungsmechanismus (RAG) und einem Reason-in-Documents-Modul zur Verfeinerung abgerufener Dokumente verbessert. Search-o1 integriert einen agierenden Suchworkflow in den Schlussfolgerungsprozess, der LRMs ermöglicht, externes Wissen dynamisch abzurufen, wenn sie auf unsichere Wissenspunkte stoßen. Zusätzlich, aufgrund der ausführlichen Natur der abgerufenen Dokumente, entwerfen wir ein separates Reason-in-Documents-Modul, um die abgerufenen Informationen vor dem Einspeisen in die Schlussfolgerungskette gründlich zu analysieren, um Störgeräusche zu minimieren und den kohärenten Schlussfolgerungsfluss zu bewahren. Umfangreiche Experimente zu komplexen Schlussfolgerungsaufgaben in den Bereichen Wissenschaft, Mathematik und Codierung sowie sechs Open-Domain-QA-Benchmarks zeigen die starke Leistung von Search-o1. Dieser Ansatz verbessert die Vertrauenswürdigkeit und Anwendbarkeit von LRMs bei komplexen Schlussfolgerungsaufgaben und ebnet den Weg für zuverlässigere und vielseitigere intelligente Systeme. Der Code ist verfügbar unter https://github.com/sunnynexus/Search-o1.

Richtung System-2-Argumentation in LLMs: Lernen, wie man mit Meta-Gedankenketten denkt.
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Jan 8

ByViolet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn

Wir schlagen einen neuartigen Rahmen vor, Meta Chain-of-Thought (Meta-CoT), der das traditionelle Chain-of-Thought (CoT) erweitert, indem er das zugrunde liegende Denken explizit modelliert, das erforderlich ist, um zu einem bestimmten CoT zu gelangen. Wir präsentieren empirische Beweise von State-of-the-Art-Modellen, die Verhaltensweisen zeigen, die mit der kontextbezogenen Suche übereinstimmen, und untersuchen Methoden zur Erzeugung von Meta-CoT durch Prozessaufsicht, synthetische Datenerzeugung und Suchalgorithmen. Abschließend skizzieren wir eine konkrete Pipeline zur Schulung eines Modells zur Erzeugung von Meta-CoTs, die Instruktionstuning mit linearisierten Suchspuren und Verstärkungslernen nach dem Training integriert. Schließlich diskutieren wir offene Forschungsfragen, einschließlich Skalierungsgesetze, Verifiziererrollen und das Potenzial zur Entdeckung neuartiger Denkalgorithmien. Diese Arbeit liefert einen theoretischen und praktischen Fahrplan zur Ermöglichung von Meta-CoT in LLMs und ebnet den Weg für eine leistungsstärkere und menschenähnlichere Argumentation in der künstlichen Intelligenz.

Agentenlabor: Verwendung von LLM-Agenten als Forschungsassistenten
Agent Laboratory: Using LLM Agents as Research Assistants

Jan 8

BySamuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zicheng Liu, Emad Barsoum

Historisch gesehen war wissenschaftliche Entdeckung ein langwieriger und kostspieliger Prozess, der erhebliche Zeit und Ressourcen von der ersten Konzeption bis zu den endgültigen Ergebnissen erforderte. Um wissenschaftliche Entdeckungen zu beschleunigen, Forschungskosten zu senken und die Forschungsqualität zu verbessern, stellen wir Agent Laboratory vor, ein autonomes LLM-basiertes Framework, das in der Lage ist, den gesamten Forschungsprozess abzuschließen. Dieses Framework akzeptiert eine vom Menschen bereitgestellte Forschungsidee und durchläuft drei Phasen - Literaturrecherche, Experimente und Berichterstellung, um umfassende Forschungsergebnisse zu erzeugen, einschließlich eines Code-Repositories und eines Forschungsberichts, wobei Benutzern ermöglicht wird, Feedback und Anleitung in jeder Phase zu geben. Wir setzen Agent Laboratory mit verschiedenen hochmodernen LLMs ein und laden mehrere Forscher ein, seine Qualität zu bewerten, indem sie an einer Umfrage teilnehmen, menschliches Feedback geben, um den Forschungsprozess zu lenken, und dann das endgültige Papier bewerten. Wir haben festgestellt, dass: (1) Agent Laboratory, gesteuert von o1-preview, die besten Forschungsergebnisse erzielt; (2) Der generierte Machine-Learning-Code in der Lage ist, im Vergleich zu bestehenden Methoden Spitzenleistungen zu erzielen; (3) Die menschliche Beteiligung, die Feedback in jeder Phase gibt, verbessert signifikant die Gesamtqualität der Forschung; (4) Agent Laboratory reduziert Forschungskosten signifikant und erreicht eine 84%ige Verringerung im Vergleich zu früheren autonomen Forschungsmethoden. Wir hoffen, dass Agent Laboratory es Forschern ermöglicht, mehr Aufwand für kreative Ideenbildung anstelle von niedrigschwelligem Codieren und Schreiben aufzuwenden und letztendlich die wissenschaftliche Entdeckung zu beschleunigen.

URSA: Verstehen und Überprüfen von Ketten-Gedanken-Argumentationen in multimodaler Mathematik
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Jan 8

ByRuilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang

Die Gedankenkette (CoT) wurde weitreichend in der mathematischen Argumentation von Large Language Models (LLMs) angewendet. Kürzlich hat die Einführung der Derivatprozessüberwachung auf CoT-Trajektorien Diskussionen über die Verbesserung der Skalierbarkeitsfähigkeiten zur Testzeit ausgelöst, wodurch das Potenzial dieser Modelle gesteigert wird. Allerdings hat in multimodaler mathematischer Argumentation die Knappheit hochwertiger CoT-Trainingsdaten bestehende Modelle daran gehindert, eine präzise CoT-Argumentation zu erreichen und die Realisierung des Argumentationspotenzials zur Testzeit eingeschränkt. In dieser Arbeit schlagen wir eine Dreimodul-Synthesestrategie vor, die CoT-Destillation, Trajektorienformat-Umschreibung und Formatvereinheitlichung integriert. Dies führt zu einem hochwertigen CoT-Argumentationsanweisungsfeinabstimmungsdatensatz in multimodaler Mathematik, MMathCoT-1M. Wir validieren umfassend die State-of-the-Art (SOTA)-Leistung des trainierten URSA-7B-Modells an mehreren multimodalen mathematischen Benchmarks. Für die Skalierung zur Testzeit führen wir eine Datensynthesestrategie ein, die automatisch Prozessannotationsdatensätze generiert, bekannt als DualMath-1.1M, die sich auf Interpretation und Logik konzentrieren. Durch weiteres Training von URSA-7B auf DualMath-1.1M wechseln wir von CoT-Argumentationsfähigkeiten zu robusten Überwachungsfähigkeiten. Der trainierte URSA-RM-7B fungiert als Verifizierer und verbessert effektiv die Leistung von URSA-7B zur Testzeit. URSA-RM-7B zeigt auch ausgezeichnete Out-of-Distribution (OOD)-Verifizierungsfähigkeiten und demonstriert damit seine Verallgemeinerungsfähigkeit. Modellgewichte, Trainingsdaten und Code werden Open Source zur Verfügung gestellt.

LLM4SR: Eine Umfrage zu Großen Sprachmodellen für Wissenschaftliche Forschung
LLM4SR: A Survey on Large Language Models for Scientific Research

Jan 8

ByZiming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du

In den letzten Jahren hat der rasante Fortschritt von Großen Sprachmodellen (GSM) die Landschaft der wissenschaftlichen Forschung verändert und bietet beispiellose Unterstützung in verschiedenen Phasen des Forschungszyklus. Dieser Artikel präsentiert die erste systematische Umfrage, die sich damit befasst, wie GSMs den wissenschaftlichen Forschungsprozess revolutionieren. Wir analysieren die einzigartigen Rollen, die GSMs in vier kritischen Phasen der Forschung spielen: Hypothesenfindung, Experimentplanung und -durchführung, wissenschaftliches Schreiben und Peer-Review. Unsere Übersicht zeigt umfassend die aufgabenspezifischen Methoden und Evaluierungskriterien auf. Durch die Identifizierung aktueller Herausforderungen und die Vorschläge für zukünftige Forschungsrichtungen hebt diese Umfrage nicht nur das transformative Potenzial von GSMs hervor, sondern zielt auch darauf ab, Forscher und Praktiker dazu zu inspirieren und anzuleiten, GSMs zur Förderung wissenschaftlicher Untersuchungen einzusetzen. Ressourcen sind im folgenden Repository verfügbar: https://github.com/du-nlp-lab/LLM4SR

InfiGUIAgent: Ein multimodaler Generalist GUI-Agent mit nativer Argumentation und Reflexion
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Jan 8

ByYuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu

Grafische Benutzeroberflächen (GUI)-Agenten, die von multimodalen großen Sprachmodellen (MLLMs) betrieben werden, haben ein großes Potenzial für die Automatisierung von Aufgaben auf Rechengeräten wie Computern und Mobiltelefonen gezeigt. Allerdings stehen bestehende Agenten vor Herausforderungen im mehrstufigen Denken und der Abhängigkeit von textuellen Annotationen, was ihre Wirksamkeit einschränkt. Wir stellen InfiGUIAgent vor, einen GUI-Agenten auf Basis von MLLMs, der mit einer zweistufigen überwachten Feinabstimmungspipeline trainiert wurde. Stufe 1 verbessert grundlegende Fähigkeiten wie GUI-Verständnis und Verankerung, während Stufe 2 hierarchisches Denken und Erwartungs-Reflexions-Denken-Fähigkeiten unter Verwendung synthetisierter Daten integriert, um den Agenten die nativen Denkfähigkeiten zu ermöglichen. InfiGUIAgent erzielt eine wettbewerbsfähige Leistung auf mehreren GUI-Benchmarks und hebt die Auswirkungen nativer Denkfähigkeiten auf die Verbesserung der GUI-Interaktion für Automatisierungsaufgaben hervor. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiGUIAgent.

GeAR: Generationsunterstützte Suche
GeAR: Generation Augmented Retrieval

Jan 6

ByHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang

Dokumentenabruftechniken bilden die Grundlage für die Entwicklung von Informationssystemen im großen Maßstab. Die vorherrschende Methodologie besteht darin, einen Bi-Encoder zu konstruieren und die semantische Ähnlichkeit zu berechnen. Allerdings ist eine solche skalare Ähnlichkeit schwer, ausreichend Informationen widerzuspiegeln und behindert unser Verständnis der Abrufergebnisse. Darüber hinaus betont dieser Berechnungsprozess hauptsächlich die globalen Semantiken und ignoriert die feinkörnige semantische Beziehung zwischen der Abfrage und dem komplexen Text im Dokument. In diesem Paper schlagen wir eine neue Methode namens Generation Augmented Retrieval (GeAR) vor, die gut durchdachte Fusion und Decodierungs-Module integriert. Dies ermöglicht es GeAR, den relevanten Text aus Dokumenten auf der Grundlage der fusionierten Repräsentation der Abfrage und des Dokuments zu generieren und somit das "Fokussieren" auf die feinkörnigen Informationen zu erlernen. Auch wenn GeAR als Abrufsystem verwendet wird, fügt es keine zusätzliche Rechenlast zu den Bi-Encodern hinzu. Zur Unterstützung des Trainings des neuen Frameworks haben wir eine Pipeline eingeführt, um hochwertige Daten effizient zu synthetisieren, indem wir große Sprachmodelle nutzen. GeAR zeigt wettbewerbsfähige Abruf- und Lokalisierungsleistung in verschiedenen Szenarien und Datensätzen. Darüber hinaus bieten die qualitative Analyse und die von GeAR generierten Ergebnisse neue Erkenntnisse zur Interpretation der Abrufergebnisse. Der Code, die Daten und die Modelle werden nach Abschluss der technischen Überprüfung veröffentlicht, um zukünftige Forschung zu erleichtern.

Chirpy3D: Kontinuierliche Teil-Latenzen für kreative 3D-Vogelgenerierung
Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Jan 7

ByKam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu

In diesem Paper erweitern wir die Grenzen der feinkörnigen 3D-Generierung in wirklich kreatives Terrain. Aktuelle Methoden fehlen entweder raffinierte Details oder ahmen einfach vorhandene Objekte nach - wir ermöglichen beides. Indem wir das 2D-feinkörnige Verständnis in 3D durch Multi-View-Diffusion anheben und Part-Latenzen als kontinuierliche Verteilungen modellieren, entsperren wir die Fähigkeit, völlig neue, aber plausible Teile durch Interpolation und Sampling zu generieren. Ein selbstüberwachter Feature-Konsistenzverlust gewährleistet zudem eine stabile Generierung dieser unerforschten Teile. Das Ergebnis ist das erste System, das in der Lage ist, neuartige 3D-Objekte mit artenspezifischen Details zu erstellen, die über bestehende Beispiele hinausgehen. Während wir unseren Ansatz an Vögeln demonstrieren, erstreckt sich der zugrunde liegende Rahmen über Dinge hinaus, die zwitschern können! Der Code wird unter https://github.com/kamwoh/chirpy3d veröffentlicht.

SPAR3D: Stabile punktbewusste Rekonstruktion von 3D-Objekten aus einzelnen Bildern
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Jan 8

ByZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani

Wir untersuchen das Problem der 3D-Objektrekonstruktion aus einem einzigen Bild. Aktuelle Arbeiten haben sich in zwei Richtungen entwickelt: regressionsbasierte Modellierung und generative Modellierung. Regressionsmethoden schließen sichtbare Oberflächen effizient, haben jedoch Schwierigkeiten mit verdeckten Regionen. Generative Methoden handhaben unsichere Regionen besser, indem sie Verteilungen modellieren, sind jedoch rechenaufwendig und die Generierung ist häufig nicht mit den sichtbaren Oberflächen ausgerichtet. In diesem Artikel präsentieren wir SPAR3D, einen neuartigen zweistufigen Ansatz, der das Beste aus beiden Richtungen vereinen soll. Die erste Stufe von SPAR3D generiert spärliche 3D-Punktwolken mithilfe eines leichten Punktverdünnungsmodells, das eine schnelle Abtastgeschwindigkeit aufweist. Die zweite Stufe verwendet sowohl die abgetastete Punktwolke als auch das Eingangsbild, um hochdetaillierte Gitter zu erstellen. Unser zweistufiges Design ermöglicht eine probabilistische Modellierung der schlecht gestellten Aufgabe der 3D-Rekonstruktion aus einem einzigen Bild, während gleichzeitig eine hohe Rechenleistung und eine hohe Ausgabetreue beibehalten werden. Die Verwendung von Punktwolken als Zwischenrepräsentation ermöglicht zudem interaktive Benutzerbearbeitungen. Anhand verschiedener Datensätze zeigt SPAR3D eine überlegene Leistung im Vergleich zu früheren State-of-the-Art-Methoden bei einer Inferenzgeschwindigkeit von 0,7 Sekunden. Projektseite mit Code und Modell: https://spar3d.github.io

EpiCoder: Vielfalt und Komplexität bei der Code-Generierung umfassen
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li

Eine effektive Anpassung der Anweisungen ist unerlässlich, um Code-LLMs zu optimieren, das Verhalten des Modells an die Erwartungen der Benutzer anzupassen und die Leistung des Modells in realen Anwendungen zu verbessern. Die meisten bestehenden Methoden konzentrieren sich jedoch auf Code-Schnipsel, die auf spezifische Funktionalitäten und starre Strukturen beschränkt sind, was die Komplexität und Vielfalt der synthetisierten Daten einschränkt. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges Merkmalbaum-Synthese-Framework vor, das von abstrakten Syntaxbäumen (AST) inspiriert ist. Im Gegensatz zu AST, das die syntaktische Struktur des Codes erfasst, modelliert unser Framework semantische Beziehungen zwischen Code-Elementen, was die Generierung nuancierterer und vielfältigerer Daten ermöglicht. Der Merkmalbaum wird aus Rohdaten konstruiert und iterativ verfeinert, um die Menge und Vielfalt der extrahierten Merkmale zu erhöhen. Dieser Prozess ermöglicht die Identifizierung komplexerer Muster und Beziehungen im Code. Durch die Probenahme von Teilbäumen mit kontrollierter Tiefe und Breite ermöglicht unser Framework präzise Anpassungen an die Komplexität des generierten Codes und unterstützt eine Vielzahl von Aufgaben von einfachen Funktionsoperationen bis hin zu komplexen Szenarien mit mehreren Dateien. Wir haben weit verbreitete Basismodelle feinabgestimmt, um die EpiCoder-Serie zu erstellen, und dabei Spitzenleistungen auf Funktionsebene und Dateiebene in verschiedenen Benchmarks erzielt. Bemerkenswert ist, dass empirische Beweise darauf hindeuten, dass unser Ansatz ein signifikantes Potenzial zur Synthese hochkomplexer Code-Daten auf Repository-Ebene aufweist. Eine weitere Analyse verdeutlicht die Vorzüge dieses Ansatzes, indem Datenkomplexität und -vielfalt durch Softwaretechnikprinzipien und die LLM-als-Richter-Methode rigoros bewertet werden.

Feinabstimmung des Multi-Task-Retrievers für domänenspezifische und effiziente RAG
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Jan 8

ByPatrice Béchard, Orlando Marquez Ayala

Die Retrieval-gestützte Generierung (RAG) ist mittlerweile allgegenwärtig bei der Bereitstellung von Large Language Models (LLMs), da sie typische Einschränkungen wie die Generierung von halluzinierten oder veralteten Informationen bewältigen kann. Beim Aufbau von RAG-Anwendungen in der realen Welt treten jedoch praktische Probleme auf. Erstens ist die abgerufene Information in der Regel domänenspezifisch. Da es rechenintensiv ist, LLMs feinzutunen, ist es sinnvoller, den Retriever zu feinabstimmen, um die Qualität der Daten zu verbessern, die in die LLM-Eingabe einfließen. Zweitens, da immer mehr Anwendungen im selben realen System bereitgestellt werden, kann man es sich nicht leisten, separate Retriever einzusetzen. Darüber hinaus rufen diese RAG-Anwendungen normalerweise unterschiedliche Arten von Daten ab. Unsere Lösung besteht darin, einen kleinen Retriever-Encoder anhand einer Vielzahl von domänenspezifischen Aufgaben zu instruktionsbasiert feinzutunen, um einen Encoder bereitzustellen, der viele Anwendungsfälle bedienen kann, was zu geringen Kosten, Skalierbarkeit und Geschwindigkeit führt. Wir zeigen, wie sich dieser Encoder auf out-of-domain-Einstellungen sowie auf eine unbekannte Abrufaufgabe in realen Unternehmensanwendungsfällen verallgemeinern lässt.

DPO-Kerne: Ein semantisch bewusstes, Kernel-optimiertes und divergenzreiches Paradigma für die direkte Präferenzoptimierung.
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha

Der rasante Aufstieg großer Sprachmodelle (LLMs) hat viele Anwendungen ermöglicht, aber auch die Herausforderung betont, sie mit vielfältigen Werten und Präferenzen in Einklang zu bringen. Die direkte Präferenzoptimierung (DPO) ist zentral für die Ausrichtung, jedoch durch feste Divergenzen und begrenzte Merkmalstransformationen eingeschränkt. Wir schlagen DPO-Kernel vor, der Kernelmethoden integriert, um diese Probleme durch vier Schlüsselbeiträge anzugehen: (i) Kernelisierte Darstellungen mit polynomialen, RBF-, Mahalanobis- und spektralen Kernen für reichhaltigere Transformationen, sowie ein Hybridverlust, der einbettungsbasierte und wahrscheinlichkeitsbasierte Ziele kombiniert; (ii) Divergenzalternativen (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein und f-Divergenzen) für eine größere Stabilität; (iii) Datengetriebene Auswahlmetriken, die automatisch das beste Kernel-Divergenz-Paar wählen; und (iv) eine Hierarchische Mischung von Kernen für sowohl lokale Präzision als auch globales Modellieren. Evaluationen an 12 Datensätzen zeigen eine erstklassige Leistung in Sachen Faktentreue, Sicherheit, Schlussfolgerung und Anweisungsbefolgung. Verankert in der Heavy-Tailed Self-Regularization, gewährleistet DPO-Kernel eine robuste Verallgemeinerung für LLMs und bietet eine umfassende Ressource für weitere Ausrichtungsforschung.

papers.title

papers.description

rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

288

Suche-o1: Agentic Search-verbesserte große Schlussfolgerungsmodelle
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

Richtung System-2-Argumentation in LLMs: Lernen, wie man mit Meta-Gedankenketten denkt.
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Jan 8

Agentenlabor: Verwendung von LLM-Agenten als Forschungsassistenten
Agent Laboratory: Using LLM Agents as Research Assistants

Jan 8

BySamuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zicheng Liu, Emad Barsoum

URSA: Verstehen und Überprüfen von Ketten-Gedanken-Argumentationen in multimodaler Mathematik
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Jan 8

ByRuilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang

LLM4SR: Eine Umfrage zu Großen Sprachmodellen für Wissenschaftliche Forschung
LLM4SR: A Survey on Large Language Models for Scientific Research

Jan 8

ByZiming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du

InfiGUIAgent: Ein multimodaler Generalist GUI-Agent mit nativer Argumentation und Reflexion
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Jan 8

ByYuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu

GeAR: Generationsunterstützte Suche
GeAR: Generation Augmented Retrieval

Jan 6

ByHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang

Chirpy3D: Kontinuierliche Teil-Latenzen für kreative 3D-Vogelgenerierung
Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Jan 7

ByKam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu

SPAR3D: Stabile punktbewusste Rekonstruktion von 3D-Objekten aus einzelnen Bildern
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Jan 8

ByZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani

EpiCoder: Vielfalt und Komplexität bei der Code-Generierung umfassen
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li

Feinabstimmung des Multi-Task-Retrievers für domänenspezifische und effiziente RAG
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Jan 8

ByPatrice Béchard, Orlando Marquez Ayala

DPO-Kerne: Ein semantisch bewusstes, Kernel-optimiertes und divergenzreiches Paradigma für die direkte Präferenzoptimierung.
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha