papers.description
Wir stellen DuPO vor, ein auf dualem Lernen basierendes Präferenzoptimierungsframework, das annotierungsfreies Feedback über eine verallgemeinerte Dualität generiert. DuPO adressiert zwei zentrale Einschränkungen: die Abhängigkeit von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) von kostspieligen Labels und die Beschränkung auf verifizierbare Aufgaben sowie die Beschränkung des traditionellen dualen Lernens auf streng duale Aufgabenpaare (z. B. Übersetzung und Rückübersetzung). Konkret zerlegt DuPO die Eingabe einer primären Aufgabe in bekannte und unbekannte Komponenten und konstruiert dann ihre duale Aufgabe, um den unbekannten Teil unter Verwendung der primären Ausgabe und bekannter Informationen zu rekonstruieren (z. B. die Umkehrung mathematischer Lösungen zur Wiederherstellung versteckter Variablen), wodurch die Anwendbarkeit auf nicht invertierbare Aufgaben erweitert wird. Die Qualität dieser Rekonstruktion dient als selbstüberwachte Belohnung zur Optimierung der primären Aufgabe und ergänzt die Fähigkeit von LLMs, beide Aufgaben über ein einziges Modell zu instanziieren. Empirisch erzielt DuPO erhebliche Verbesserungen über diverse Aufgaben hinweg: Es steigert die durchschnittliche Übersetzungsqualität um 2,13 COMET über 756 Richtungen, erhöht die mathematische Argumentationsgenauigkeit um durchschnittlich 6,4 Punkte auf drei Benchmark-Herausforderungen und verbessert die Leistung um 9,3 Punkte als Reranker zur Inferenzzeit (unter Abwägung von Rechenleistung gegen Genauigkeit). Diese Ergebnisse positionieren DuPO als ein skalierbares, allgemeines und annotierungsfreies Paradigma zur Optimierung von LLMs.
Zukunftsprognosen sind eine komplexe Aufgabe für LLM-Agenten, die ein hohes Maß an analytischem Denken, Informationsbeschaffung, kontextuellem Verständnis und Entscheidungsfindung unter Unsicherheit erfordert. Agenten müssen nicht nur große Mengen dynamischer Informationen sammeln und interpretieren, sondern auch diverse Datenquellen integrieren, Unsicherheiten abwägen und Prognosen basierend auf sich entwickelnden Trends anpassen, ähnlich wie menschliche Experten in Bereichen wie Politik, Wirtschaft und Finanzen. Trotz ihrer Bedeutung existiert kein groß angelegter Benchmark zur Bewertung von Agenten in Bezug auf Zukunftsprognosen, was größtenteils auf die Herausforderungen bei der Handhabung von Echtzeit-Updates und der Beschaffung zeitnaher, genauer Antworten zurückzuführen ist. Um dies zu adressieren, führen wir FutureX ein, einen dynamischen und live-Evaluationsbenchmark, der speziell für LLM-Agenten entwickelt wurde, die Zukunftsprognoseaufgaben durchführen. FutureX ist der größte und vielfältigste Live-Benchmark für Zukunftsprognosen, der tägliche Echtzeit-Updates unterstützt und Datenkontamination durch einen automatisierten Prozess für die Fragensammlung und Antwortbeschaffung eliminiert. Wir evaluieren 25 LLM/Agenten-Modelle, einschließlich solcher mit Fähigkeiten zum logischen Schlussfolgern, zur Informationssuche und zur Integration externer Tools wie dem Open-Source-Modell Deep Research Agent und den Closed-Source-Modellen Deep Research. Diese umfassende Bewertung beurteilt die adaptive Argumentationsfähigkeit und Leistung der Agenten in dynamischen Umgebungen. Zusätzlich bieten wir detaillierte Analysen der Fehlermodi und Leistungsschwächen der Agenten in zukunftsorientierten Aufgaben, einschließlich der Anfälligkeit für gefälschte Webseiten und der zeitlichen Gültigkeit. Unser Ziel ist es, einen dynamischen, kontaminationsfreien Bewertungsstandard zu etablieren, der die Entwicklung von LLM-Agenten vorantreibt, die in der Lage sind, auf dem Niveau professioneller menschlicher Analysten in komplexem Denken und vorausschauendem Denken zu agieren.
Große Sprachmodelle (LLMs) haben Potenzial für finanzielle Anwendungen gezeigt, doch ihre Eignung für diesen hochriskanten Bereich bleibt weitgehend unbestätigt, da bestehende Benchmarks unzureichend sind. Bestehende Benchmarks stützen sich ausschließlich auf eine Bewertung auf Score-Ebene, die die Leistung mit einem einzigen Score zusammenfasst, was das differenzierte Verständnis dessen, was Modelle wirklich wissen, und ihre genauen Grenzen verschleiert. Sie verlassen sich auch auf Datensätze, die nur einen engen Ausschnitt finanzieller Konzepte abdecken, während andere wesentliche Aspekte für reale Anwendungen vernachlässigt werden. Um diese Lücken zu schließen, führen wir FinCDM ein, den ersten kognitiven Diagnosebewertungsrahmen, der speziell für finanzielle LLMs entwickelt wurde. Dieser ermöglicht die Bewertung von LLMs auf der Wissens- und Fähigkeitsebene, indem er identifiziert, welche finanziellen Fähigkeiten und Kenntnisse sie besitzen oder fehlen, basierend auf ihren Antwortmustern in aufgabenbezogenen, mit Fähigkeiten versehenen Aufgaben, anstatt auf einer einzigen aggregierten Zahl. Wir erstellen CPA-QKA, den ersten kognitiv fundierten finanziellen Bewertungsdatensatz, der aus der Prüfung zum Certified Public Accountant (CPA) abgeleitet ist und eine umfassende Abdeckung realer Buchhaltungs- und Finanzfähigkeiten bietet. Er wird streng von Domänenexperten annotiert, die Fragen erstellen, validieren und mit hoher Übereinstimmung zwischen den Annotatoren und feingranularen Wissenslabels versehen. Unsere umfangreichen Experimente mit 30 proprietären, Open-Source- und domänenspezifischen LLMs zeigen, dass FinCDM verborgene Wissenslücken aufdeckt, untertestete Bereiche wie Steuer- und Regulierungslogik identifiziert, die von traditionellen Benchmarks übersehen werden, und Verhaltenscluster unter den Modellen aufzeigt. FinCDM führt ein neues Paradigma für die Bewertung finanzieller LLMs ein, indem es interpretierbare, fähigkeitsbewusste Diagnosen ermöglicht, die eine vertrauenswürdigere und zielgerichtete Modellentwicklung unterstützen. Alle Datensätze und Bewertungsskripte werden öffentlich zugänglich gemacht, um weitere Forschung zu fördern.
Die Rekonstruktion von 3D-Objekten in bearbeitbare Programme ist entscheidend für Anwendungen wie Reverse Engineering und Formbearbeitung. Bisherige Methoden stützen sich jedoch oft auf eingeschränkte domänenspezifische Sprachen (DSLs) und kleinere Datensätze, was ihre Fähigkeit zur Modellierung komplexer Geometrien und Strukturen einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir MeshCoder vor, ein neuartiges Framework, das komplexe 3D-Objekte aus Punktwolken in bearbeitbare Blender-Python-Skripte rekonstruiert. Wir entwickeln einen umfassenden Satz ausdrucksstarker Blender-Python-APIs, die in der Lage sind, komplexe Geometrien zu synthetisieren. Mithilfe dieser APIs erstellen wir einen groß angelegten gepaarten Objekt-Code-Datensatz, bei dem der Code für jedes Objekt in separate semantische Teile zerlegt wird. Anschließend trainieren wir ein multimodales großes Sprachmodell (LLM), das 3D-Punktwolken in ausführbare Blender-Python-Skripte übersetzt. Unser Ansatz erzielt nicht nur überlegene Leistung bei der Rekonstruktion von Formen zu Code, sondern ermöglicht auch intuitive geometrische und topologische Bearbeitungen durch einfache Code-Anpassungen. Darüber hinaus verbessert unsere codebasierte Darstellung die Fähigkeiten von LLMs bei Aufgaben zum Verständnis von 3D-Formen. Zusammengenommen etablieren diese Beiträge MeshCoder als eine leistungsstarke und flexible Lösung für die programmatische Rekonstruktion und das Verständnis von 3D-Formen.
Wir stellen Tinker vor, ein vielseitiges Framework für hochauflösendes 3D-Editing, das sowohl im One-Shot- als auch im Few-Shot-Regime ohne spezifische Feinabstimmung pro Szene arbeitet. Im Gegensatz zu früheren Techniken, die eine umfangreiche Optimierung pro Szene erfordern, um Multi-View-Konsistenz sicherzustellen oder dutzende konsistente bearbeitete Eingabeansichten zu erzeugen, liefert Tinker robuste, multi-view-konsistente Bearbeitungen bereits aus nur ein oder zwei Bildern. Diese Fähigkeit ergibt sich aus der Umnutzung vortrainierter Diffusionsmodelle, die deren latentes 3D-Verständnis freisetzen. Um die Forschung in diesem Bereich voranzutreiben, haben wir den ersten groß angelegten Multi-View-Editing-Datensatz und Datenpipeline kuratiert, der diverse Szenen und Stile abdeckt. Aufbauend auf diesem Datensatz entwickeln wir unser Framework, das in der Lage ist, multi-view-konsistente bearbeitete Ansichten ohne Training pro Szene zu generieren. Es besteht aus zwei neuartigen Komponenten: (1) Referenzbasierter Multi-View-Editor: Ermöglicht präzise, referenzgesteuerte Bearbeitungen, die über alle Blickwinkel hinweg kohärent bleiben. (2) Any-View-to-Video-Synthesizer: Nutzt räumlich-zeitliche Prioritäten aus der Video-Diffusion, um hochwertige Szenenvervollständigung und Neuansichtgenerierung auch bei spärlichen Eingaben durchzuführen. Durch umfangreiche Experimente reduziert Tinker die Hürden für generalisierbare 3D-Inhaltserstellung erheblich und erreicht Spitzenleistungen in den Bereichen Editing, Neuansichtsynthese und Rendering-Verbesserung. Wir glauben, dass Tinker einen wichtigen Schritt hin zu wirklich skalierbarem, Zero-Shot-3D-Editing darstellt. Projektwebseite: https://aim-uofa.github.io/Tinker
Das Model Context Protocol hat sich als ein transformativer Standard für die Verbindung großer Sprachmodelle mit externen Datenquellen und Werkzeugen etabliert und wird schnell von führenden KI-Anbietern und Entwicklungsplattformen übernommen. Allerdings sind bestehende Benchmarks zu vereinfacht und erfassen nicht die realen Anwendungsherausforderungen wie langfristiges Denken und große, unbekannte Werkzeugräume. Um diese kritische Lücke zu schließen, führen wir MCP-Universe ein, den ersten umfassenden Benchmark, der speziell entwickelt wurde, um LLMs in realistischen und anspruchsvollen Aufgaben durch die Interaktion mit realen MCP-Servern zu bewerten. Unser Benchmark umfasst 6 Kernbereiche, die sich über 11 verschiedene MCP-Server erstrecken: Standortnavigation, Repository-Verwaltung, Finanzanalyse, 3D-Design, Browser-Automatisierung und Websuche. Um eine rigorose Bewertung zu gewährleisten, implementieren wir ausführungsbasierte Evaluatoren, darunter Format-Evaluatoren für die Einhaltung des Agentenformats, statische Evaluatoren für zeitinvariante Inhaltsabgleiche und dynamische Evaluatoren, die automatisch Echtzeit-Ground-Truth für zeitkritische Aufgaben abrufen. Durch umfangreiche Bewertungen führender LLMs stellen wir fest, dass selbst SOTA-Modelle wie GPT-5 (43,72 %), Grok-4 (33,33 %) und Claude-4.0-Sonnet (29,44 %) erhebliche Leistungsgrenzen aufweisen. Darüber hinaus stellt unser Benchmark eine erhebliche Herausforderung für LLM-Agenten im Hinblick auf lange Kontexte dar, da die Anzahl der Eingabe-Tokens mit der Anzahl der Interaktionsschritte schnell ansteigt. Zudem führt er eine Herausforderung durch unbekannte Werkzeuge ein, da LLM-Agenten oft nicht mit der präzisen Nutzung der MCP-Server vertraut sind. Bemerkenswerterweise können unternehmensbezogene Agenten wie Cursor keine bessere Leistung erzielen als standardmäßige ReAct-Frameworks. Über die Bewertung hinaus stellen wir unser erweiterbares Evaluationsframework mit UI-Unterstützung als Open Source zur Verfügung, wodurch Forscher und Praktiker neue Agenten und MCP-Server nahtlos integrieren und Innovationen im sich schnell entwickelnden MCP-Ökosystem fördern können.
Wir stellen Nemotron-Nano-9B-v2 vor, ein hybrides Mamba-Transformer-Sprachmodell, das entwickelt wurde, um den Durchsatz für Reasoning-Workloads zu erhöhen und dabei eine state-of-the-art Genauigkeit im Vergleich zu Modellen ähnlicher Größe zu erreichen. Nemotron-Nano-9B-v2 baut auf der Nemotron-H-Architektur auf, bei der die Mehrheit der Self-Attention-Schichten in der herkömmlichen Transformer-Architektur durch Mamba-2-Schichten ersetzt wird, um eine verbesserte Inferenzgeschwindigkeit bei der Erzeugung der langen Denkspuren zu erreichen, die für das Reasoning benötigt werden. Wir erstellen Nemotron-Nano-9B-v2, indem wir zunächst ein Modell mit 12 Milliarden Parametern (Nemotron-Nano-12B-v2-Base) auf 20 Billionen Tokens mit einem FP8-Trainingsrezept vortrainieren. Nach der Ausrichtung von Nemotron-Nano-12B-v2-Base wenden wir die Minitron-Strategie an, um das Modell zu komprimieren und zu destillieren, mit dem Ziel, die Inferenz auf bis zu 128k Tokens auf einer einzelnen NVIDIA A10G GPU (22 GiB Speicher, bfloat16-Präzision) zu ermöglichen. Im Vergleich zu bestehenden Modellen ähnlicher Größe (z. B. Qwen3-8B) zeigen wir, dass Nemotron-Nano-9B-v2 eine gleichwertige oder bessere Genauigkeit auf Reasoning-Benchmarks erreicht, während es in Reasoning-Szenarien wie 8k Eingabe- und 16k Ausgabe-Tokens bis zu 6x höheren Inferenzdurchsatz erzielt. Wir veröffentlichen Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base und Nemotron-Nano-9B-v2-Base Checkpoints zusammen mit dem Großteil unserer Vor- und Nachtrainingsdatensätze auf Hugging Face.
Künstliche Intelligenz (KI) revolutioniert die wissenschaftliche Entdeckung und entwickelt sich von spezialisierten Rechenwerkzeugen zu autonomen Forschungspartnern. Wir positionieren die Agentische Wissenschaft als eine entscheidende Stufe innerhalb des breiteren KI-für-die-Wissenschaft-Paradigmas, in dem KI-Systeme von teilweiser Unterstützung zu vollständiger wissenschaftlicher Handlungsfähigkeit fortschreiten. Ermöglicht durch große Sprachmodelle (LLMs), multimodale Systeme und integrierte Forschungsplattformen, zeigt agentische KI Fähigkeiten in der Hypothesengenerierung, experimentellen Planung, Durchführung, Analyse und iterativen Verbesserung – Verhaltensweisen, die einst als einzigartig menschlich galten. Dieser Überblick bietet eine domänenorientierte Betrachtung der autonomen wissenschaftlichen Entdeckung in den Lebenswissenschaften, der Chemie, den Materialwissenschaften und der Physik. Wir vereinen drei bisher fragmentierte Perspektiven – prozessorientiert, autonomieorientiert und mechanismenorientiert – durch einen umfassenden Rahmen, der grundlegende Fähigkeiten, Kernprozesse und domänenspezifische Realisierungen verbindet. Aufbauend auf diesem Rahmen (i) verfolgen wir die Entwicklung der KI für die Wissenschaft, (ii) identifizieren wir fünf Kernfähigkeiten, die der wissenschaftlichen Handlungsfähigkeit zugrunde liegen, (iii) modellieren wir die Entdeckung als einen dynamischen vierstufigen Arbeitsablauf, (iv) überprüfen wir Anwendungen in den oben genannten Domänen und (v) synthetisieren wir zentrale Herausforderungen und zukünftige Chancen. Diese Arbeit etabliert eine domänenorientierte Synthese der autonomen wissenschaftlichen Entdeckung und positioniert die Agentische Wissenschaft als ein strukturiertes Paradigma zur Weiterentwicklung der KI-gestützten Forschung.
Jüngste Fortschritte bei diffusionsbasierten großen Sprachmodellen (dLLMs) haben eine vielversprechende Alternative zu autoregressiven (AR) LLMs für Aufgaben der natürlichen Sprachgenerierung eingeführt, die volle Aufmerksamkeit und auf Rauschunterdrückung basierende Dekodierungsstrategien nutzen. Die Bereitstellung dieser Modelle auf Edge-Geräten bleibt jedoch aufgrund ihres massiven Parameterumfangs und hohen Ressourcenbedarfs eine Herausforderung. Während die Quantisierung nach dem Training (PTQ) als weit verbreitete Technik zur Komprimierung von AR LLMs hervorgegangen ist, ist ihre Anwendbarkeit auf dLLMs weitgehend unerforscht. In dieser Arbeit präsentieren wir die erste systematische Studie zur Quantisierung diffusionsbasierter Sprachmodelle. Wir beginnen mit der Identifizierung von Aktivierungsausreißern, die durch ungewöhnlich große Aktivierungswerte gekennzeichnet sind, die den dynamischen Bereich dominieren. Diese Ausreißer stellen eine zentrale Herausforderung für die Quantisierung mit niedriger Bitbreite dar, da sie es schwierig machen, die Präzision für die Mehrheit der Werte zu bewahren. Darüber hinaus implementieren wir modernste PTQ-Methoden und führen eine umfassende Bewertung über mehrere Aufgabentypen und Modellvarianten hinweg durch. Unsere Analyse ist entlang vier Schlüsseldimensionen strukturiert: Bitbreite, Quantisierungsmethode, Aufgabenkategorie und Modelltyp. Durch diese multiperspektivische Bewertung bieten wir praktische Einblicke in das Quantisierungsverhalten von dLLMs unter verschiedenen Konfigurationen. Wir hoffen, dass unsere Erkenntnisse eine Grundlage für zukünftige Forschungen zur effizienten Bereitstellung von dLLMs bieten. Alle Codes und experimentellen Aufbauten werden veröffentlicht, um die Community zu unterstützen.
Wir stellen RynnEC vor, ein multimodales großes Sprachmodell für Videos, das für verkörperte Kognition entwickelt wurde. Basierend auf einem allgemeinen Vision-Sprache-Grundlagenmodell integriert RynnEC einen Regionen-Encoder und einen Masken-Decoder, was eine flexible regionenbasierte Videointeraktion ermöglicht. Trotz seiner kompakten Architektur erreicht RynnEC Spitzenleistungen in den Bereichen Objekteigenschaftsverständnis, Objektsegmentierung und räumlichem Denken. Konzeptionell bietet es ein regionenzentriertes Videoparadigma für das Gehirn verkörperter Agenten, das eine fein abgestufte Wahrnehmung der physischen Welt ermöglicht und präzisere Interaktionen unterstützt. Um den Mangel an annotierten 3D-Datensätzen zu beheben, schlagen wir eine Pipeline zur Generierung von Daten für verkörperte Kognition auf Basis von egozentrischen Videos vor. Darüber hinaus führen wir RynnEC-Bench ein, einen regionenzentrierten Benchmark zur Bewertung verkörperter kognitiver Fähigkeiten. Wir gehen davon aus, dass RynnEC die Entwicklung allgemeiner kognitiver Kerne für verkörperte Agenten vorantreiben und die Generalisierung über verschiedene verkörperte Aufgaben hinweg erleichtern wird. Der Code, die Modell-Checkpoints und der Benchmark sind verfügbar unter: https://github.com/alibaba-damo-academy/RynnEC
Künstliche Intelligenzsysteme revolutionieren die wissenschaftliche Entdeckung, indem sie spezifische Forschungsaufgaben beschleunigen, von der Vorhersage von Proteinstrukturen bis hin zum Materialdesign, bleiben jedoch auf enge Domänen beschränkt, die erhebliche menschliche Aufsicht erfordern. Das exponentielle Wachstum der wissenschaftlichen Literatur und die zunehmende Domänenspezialisierung schränken die Fähigkeit von Forschern ein, Wissen über Disziplinen hinweg zu synthetisieren und vereinheitlichende Theorien zu entwickeln, was die Erforschung allgemeinerer KI-Systeme für die Wissenschaft motiviert. Hier zeigen wir, dass ein domänenunabhängiges, agentenbasiertes KI-System den wissenschaftlichen Arbeitsablauf eigenständig navigieren kann – von der Hypothesengenerierung über die Datenerhebung bis zur Manuskripterstellung. Das System entwarf und führte autonom drei psychologische Studien zu visuellem Arbeitsgedächtnis, mentaler Rotation und Bildhaftigkeit durch, führte eine neue Online-Datenerhebung mit 288 Teilnehmern durch, entwickelte Analysepipelines in mehr als 8-stündigen kontinuierlichen Codierungssitzungen und erstellte fertige Manuskripte. Die Ergebnisse demonstrieren die Fähigkeit von KI-gestützten wissenschaftlichen Entdeckungspipelines, nicht-triviale Forschung mit theoretischem Denken und methodischer Strenge durchzuführen, die mit der von erfahrenen Forschern vergleichbar ist, jedoch mit Einschränkungen in konzeptioneller Nuance und theoretischer Interpretation. Dies ist ein Schritt hin zu verkörperter KI, die Hypothesen durch reale Experimente testen kann, indem sie autonom Regionen des wissenschaftlichen Raums erkundet, die aufgrund menschlicher kognitiver und ressourcenbedingter Einschränkungen sonst unerforscht bleiben könnten. Es wirft wichtige Fragen über die Natur des wissenschaftlichen Verständnisses und die Zuschreibung wissenschaftlicher Anerkennung auf.
Die quadratische Komplexität von Self-Attention begrenzt deren Anwendbarkeit und Skalierbarkeit auf großen unstrukturierten Netzen. Wir stellen Fast Low-rank Attention Routing Engine (FLARE) vor, einen Self-Attention-Mechanismus mit linearer Komplexität, der die Aufmerksamkeit durch feste latente Sequenzen lenkt. Jeder Attention-Head führt eine globale Kommunikation zwischen N Tokens durch, indem die Eingabesequenz auf eine feste latente Sequenz von M ll N Tokens projiziert wird, wobei lernbare Query-Tokens verwendet werden. Durch die Lenkung der Aufmerksamkeit über eine Engpasssequenz lernt FLARE eine niedrigrangige Form der Aufmerksamkeit, die mit O(NM)-Kosten angewendet werden kann. FLARE skaliert nicht nur auf bisher unerreichte Problemgrößen, sondern liefert auch eine überlegene Genauigkeit im Vergleich zu modernsten neuronalen PDE-Surrogaten über diverse Benchmarks hinweg. Wir veröffentlichen zudem einen neuen Datensatz zur additiven Fertigung, um weitere Forschungen anzuregen. Unser Code ist unter https://github.com/vpuri3/FLARE.py verfügbar.
Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) sind zwei herausragende Post-Training-Paradigmen zur Verfeinerung der Fähigkeiten und Ausrichtung des Verhaltens von Large Language Models (LLMs). Bestehende Ansätze, die SFT und RL integrieren, stehen oft vor dem Risiko, etablierte Modellmuster zu stören und Overfitting gegenüber Experten-Daten zu verursachen. Um dies zu adressieren, präsentieren wir eine neuartige Untersuchung der einheitlichen Sichtweise von SFT und RL durch die Linse von Off-Policy- versus On-Policy-Lernen. Wir schlagen CHORD vor, ein Framework für die kontrollierbare Harmonisierung von On- und Off-Policy Reinforcement Learning durch dynamische Gewichtung, das SFT nicht als separate Stufe, sondern als dynamisch gewichtetes Hilfsziel innerhalb des On-Policy-RL-Prozesses neu interpretiert. Basierend auf einer Analyse des Einflusses von Off-Policy-Experten-Daten auf sowohl ganzheitlicher als auch granularer Ebene, integrieren wir einen Dual-Control-Mechanismus in CHORD. Konkret verwendet das Framework zunächst einen globalen Koeffizienten, um den Übergang von Off-Policy-Imitation zu On-Policy-Exploration ganzheitlich zu steuern, und wendet dann eine tokenweise Gewichtungsfunktion an, die granulare Lernprozesse von Experten-Tokens ermöglicht, wodurch On-Policy-Exploration bewahrt und Störungen durch Off-Policy-Daten gemildert werden. Wir führen umfangreiche Experimente auf weit verbreiteten Benchmarks durch und liefern empirische Belege dafür, dass CHORD einen stabilen und effizienten Lernprozess erreicht. Durch die effektive Harmonisierung von Off-Policy-Experten-Daten mit On-Policy-Exploration zeigt CHORD signifikante Verbesserungen gegenüber Baseline-Methoden. Wir veröffentlichen die Implementierung unter https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord, um weitere Forschungen zu inspirieren.
Vision Language Models (VLMs) zeigen bemerkenswerte Fähigkeiten bei englischsprachigen multimodalen Aufgaben, ihre Leistung bei ressourcenarmen Sprachen mit authentisch multimodalen Bildungsinhalten bleibt jedoch weitgehend unerforscht. In dieser Arbeit testen wir, wie VLMs bei vietnamesischen Bildungsbewertungen abschneiden, und untersuchen, ob VLMs, die hauptsächlich auf englischen Daten trainiert wurden, reale cross-linguale multimodale Argumentation bewältigen können. Unsere Arbeit präsentiert die erste umfassende Bewertung der Fähigkeiten von VLMs bei multimodalen vietnamesischen Prüfungen durch die Einführung von ViExam, einem Benchmark, der 2.548 multimodale Fragen enthält. Wir stellen fest, dass state-of-the-art VLMs nur 57,74 % erreichen, während Open-Source-Modelle eine durchschnittliche Genauigkeit von 27,70 % über 7 akademische Domänen hinweg erzielen, darunter Mathematik, Physik, Chemie, Biologie, Geographie, Führerscheintest und IQ-Test. Die meisten VLMs schneiden schlechter ab als der durchschnittliche menschliche Prüfungsteilnehmer (66,54 %), wobei nur das denkende VLM o3 (74,07 %) die durchschnittliche menschliche Leistung übertrifft, jedoch deutlich hinter der besten menschlichen Leistung (99,60 %) zurückbleibt. Cross-linguale Prompting mit englischen Anweisungen bei Beibehaltung des vietnamesischen Inhalts verbessert die Leistung nicht, sondern verringert die Genauigkeit bei SOTA-VLMs um 1 Prozentpunkt. Menschliche Zusammenarbeit in der Schleife kann die Leistung von VLMs teilweise um 5 Prozentpunkte verbessern. Code und Daten sind verfügbar unter: https://vi-exam.github.io.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei Denkaufgaben durch Methoden wie die Ketten-Denkweise (Chain-of-Thought, CoT) erzielt. Allerdings zeigen sie oft Schwächen bei Aufgaben, die präzise Berechnungen erfordern. Tool-Integriertes Denken (Tool-Integrated Reasoning, TIR) hat sich als Lösung etabliert, indem externe Werkzeuge in den Denkprozess integriert werden. Dennoch ist die Verallgemeinerung von TIR zur Verbesserung der Denkfähigkeit von LLMs noch unklar. Zudem bleibt zu untersuchen, ob TIR das Denkverhalten des Modells verbessert und ihm geholfen hat, besser zu denken. Wir stellen ReasonZoo vor, einen umfassenden Benchmark, der neun verschiedene Denkkategorien umfasst, um die Wirksamkeit von TIR in verschiedenen Domänen zu bewerten. Zusätzlich schlagen wir zwei neue Metriken vor, Performance-Aware Cost (PAC) und Area Under the Performance-Cost Curve (AUC-PCC), um die Denkeffizienz zu bewerten. Unsere empirische Auswertung zeigt, dass TIR-fähige Modelle durchweg besser abschneiden als ihre nicht-TIR-Pendants, sowohl bei mathematischen als auch bei nicht-mathematischen Aufgaben. Darüber hinaus verbessert TIR die Denkeffizienz, was durch verbesserte PAC- und AUC-PCC-Werte belegt wird, die auf reduziertes Überdenken und einen effizienteren Denkprozess hinweisen. Diese Ergebnisse unterstreichen die domänenübergreifenden Vorteile von TIR und sein Potenzial, die Fähigkeiten von LLMs bei komplexen Denkaufgaben weiter voranzutreiben.
Skalenvariation ist eine grundlegende Herausforderung in der Computer Vision. Objekte derselben Klasse können unterschiedliche Größen haben, und ihre wahrgenommene Größe wird zusätzlich durch die Entfernung zur Kamera beeinflusst. Diese Variationen sind lokal zu den Objekten, d.h., unterschiedliche Objektgrößen können sich innerhalb desselben Bildes unterschiedlich verändern. Um Skalenvariationen effektiv zu bewältigen, stellen wir einen Deep Equilibrium Canonicalizer (DEC) vor, der die lokale Skalenäquivarianz eines Modells verbessert. DEC kann einfach in bestehende Netzwerkarchitekturen integriert und an ein vortrainiertes Modell angepasst werden. Bemerkenswerterweise zeigen wir, dass DEC auf dem wettbewerbsfähigen ImageNet-Benchmark sowohl die Modellleistung als auch die lokale Skalenkonsistenz bei vier beliebten vortrainierten Deep-Nets, z.B. ViT, DeiT, Swin und BEiT, verbessert. Unser Code ist verfügbar unter https://github.com/ashiq24/local-scale-equivariance.
Dieses Papier präsentiert einen neuartigen Ansatz zur Berechnung der Levenshtein- (Edit-) Distanz im Rahmen von Fully Homomorphic Encryption (FHE), wobei speziell drittgenerationelle Schemata wie TFHE im Fokus stehen. Berechnungen der Edit-Distanz sind in Anwendungen in den Bereichen Finanzen und Genomik, wie beispielsweise der DNA-Sequenzausrichtung, von entscheidender Bedeutung. Wir führen einen optimierten Algorithmus ein, der die Kosten für die Berechnung der Edit-Distanz erheblich reduziert und als Leuvenshtein bezeichnet wird. Dieser Algorithmus reduziert speziell die Anzahl der benötigten programmierbaren Bootstraps (PBS) pro Zelle der Berechnung von etwa 94 Operationen – wie sie der konventionelle Wagner-Fisher-Algorithmus erfordert – auf lediglich 1. Darüber hinaus schlagen wir eine effiziente Methode zur Durchführung von Gleichheitsprüfungen von Zeichen vor, die ASCII-Zeichenvergleiche auf nur 2 PBS-Operationen reduziert. Schließlich untersuchen wir das Potenzial für weitere Leistungssteigerungen durch die Nutzung von Vorverarbeitung, wenn einer der Eingabestrings unverschlüsselt ist. Unser Leuvenshtein erreicht eine bis zu 278-fach schnellere Leistung im Vergleich zur besten verfügbaren TFHE-Implementierung und eine bis zu 39-fach schnellere Leistung als eine optimierte Implementierung des Wagner-Fisher-Algorithmus. Zudem kann, wenn eine Offline-Vorverarbeitung aufgrund eines unverschlüsselten Eingabestrings auf der Serverseite möglich ist, eine zusätzliche 3-fache Beschleunigung erreicht werden.
Jüngste Fortschritte bei Large Language Models (LLMs), die mit verstärkten Fähigkeiten zur logischen Schlussfolgerung ausgestattet sind, haben bemerkenswerte Leistungen bei komplexen Denkaufgaben gezeigt. Der Mechanismus, der ihrer Nutzung verschiedener menschlicher Denkfähigkeiten zugrunde liegt, bleibt jedoch weitgehend unerforscht, insbesondere im Bereich des mehrsprachigen Commonsense-Reasonings, das alltägliches Wissen über verschiedene Sprachen und Kulturen hinweg umfasst. Um diese Lücke zu schließen, schlagen wir einen mehrsprachigen und skalierbaren Benchmark für fähigkeitsbasiertes Commonsense-Reasoning (mSCoRe) vor. Unser Benchmark umfasst drei Schlüsselkomponenten, die darauf ausgelegt sind, die Fähigkeiten von LLMs zur logischen Schlussfolgerung systematisch zu bewerten: (1) eine neuartige Taxonomie von Denkfähigkeiten, die eine detaillierte Analyse der Denkprozesse von Modellen ermöglicht, (2) eine robuste Daten-Synthese-Pipeline, die speziell für die Bewertung von Commonsense-Reasoning entwickelt wurde, und (3) ein Komplexitätsskalierungs-Framework, das es ermöglicht, die Schwierigkeit von Aufgaben dynamisch an zukünftige Verbesserungen der Fähigkeiten von LLMs anzupassen. Umfangreiche Experimente mit acht modernsten LLMs unterschiedlicher Größe und Trainingsansätze zeigen, dass mSCoRe für aktuelle Modelle nach wie vor eine erhebliche Herausforderung darstellt, insbesondere auf höheren Komplexitätsstufen. Unsere Ergebnisse offenbaren die Grenzen solcher Modelle mit verstärkten Denkfähigkeiten, wenn sie mit nuanziertem mehrsprachigem allgemeinem und kulturellem Commonsense konfrontiert werden. Wir liefern zudem eine detaillierte Analyse der Denkprozesse der Modelle und geben Hinweise auf zukünftige Richtungen zur Verbesserung der mehrsprachigen Commonsense-Reasoning-Fähigkeiten.
Multi-modale Empfehlungssysteme konzentrieren sich darauf, reichhaltige modale Informationen (z. B. Bilder und textuelle Beschreibungen) von Artikeln zu nutzen, um die Empfehlungsleistung zu verbessern. Die aktuellen Methoden haben mit der leistungsstarken Strukturmodellierungsfähigkeit von Graph-Neuronalen Netzen bemerkenswerte Erfolge erzielt. Diese Methoden werden jedoch oft durch spärliche Daten in realen Szenarien behindert. Obwohl kontrastives Lernen und Homographie (d. h. homogene Graphen) eingesetzt werden, um die Herausforderung der Datensparsamkeit zu bewältigen, leiden bestehende Methoden immer noch unter zwei Hauptbeschränkungen: 1) Einfache kontrastive Multi-Modal-Features erzeugen keine effektiven Repräsentationen, was zu verrauschten modal-übergreifenden Features und dem Verlust wertvoller Informationen in modal-eindeutigen Features führt; 2) Die mangelnde Erforschung der homographischen Beziehungen zwischen Benutzerinteressen und Artikel-Kookkurrenz führt zu einer unvollständigen Erschließung der Benutzer-Artikel-Interaktion. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework zur Verfeinerung von kontrastivem Multi-Modal-Lernen und Homographie-Beziehungen (REARM) vor. Konkret ergänzen wir das kontrastive Multi-Modal-Lernen durch den Einsatz von Meta-Netzwerk- und orthogonalen Beschränkungsstrategien, die Rauschen in modal-übergreifenden Features herausfiltern und empfehlungsrelevante Informationen in modal-eindeutigen Features bewahren. Um homogene Beziehungen effektiv zu erschließen, integrieren wir einen neu konstruierten Benutzerinteressen-Graphen und einen Artikel-Kookkurrenz-Graphen mit den bestehenden Benutzer-Kookkurrenz- und Artikel-Semantik-Graphen für das Graph-Lernen. Umfangreiche Experimente auf drei realen Datensätzen demonstrieren die Überlegenheit von REARM gegenüber verschiedenen state-of-the-art Baselines. Unsere Visualisierung zeigt weiterhin eine Verbesserung durch REARM bei der Unterscheidung zwischen modal-übergreifenden und modal-eindeutigen Features. Der Code ist verfügbar unter https://github.com/MrShouxingMa/REARM{hier}.