Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Skalierung der Rechenleistung zur Testzeit bei großen Sprachmodellen hat beeindruckende Leistungen bei Reasoning-Benchmarks gezeigt. Bestehende Bewertungen der Skalierung zur Testzeit gehen jedoch von der starken Annahme aus, dass ein Reasoning-System immer eine Antwort auf jede gestellte Frage geben sollte. Dabei werden Bedenken außer Acht gelassen, ob ein Modell in seiner Antwort sicher ist und ob es angemessen ist, immer eine Antwort zu geben. Um diese Bedenken zu adressieren, extrahieren wir während des Reasoning-Prozesses Konfidenzscores, um Modellantworten zu schwellenwerten. Wir stellen fest, dass eine Erhöhung des Rechenbudgets zur Inferenzzeit nicht nur dazu beiträgt, dass Modelle mehr Fragen korrekt beantworten, sondern auch das Vertrauen in korrekte Antworten erhöht. Wir erweitern das derzeitige Paradigma der Null-Risiko-Antworten während der Bewertung, indem wir Einstellungen mit nicht-null Risikostufen für Antworten berücksichtigen, und schlagen ein Vorgehen für die Berichterstattung von Bewertungen unter diesen Bedingungen vor.
Bestehende end-to-end Sprachmodelle (LLMs) basieren in der Regel auf groß angelegten annotierten Daten für das Training, während dateneffizientes Training bisher nicht eingehend diskutiert wurde. Wir konzentrieren uns auf zwei grundlegende Probleme zwischen Sprache und Text: die Lücke im Repräsentationsraum und die Inkonsistenz der Sequenzlänge. Wir stellen Soundwave vor, das eine effiziente Trainingsstrategie und eine neuartige Architektur nutzt, um diese Probleme zu lösen. Die Ergebnisse zeigen, dass Soundwave das fortschrittliche Qwen2-Audio in der Sprachübersetzung und den AIR-Bench-Sprachaufgaben übertrifft, wobei nur ein Fünfzigstel der Trainingsdaten verwendet wird. Weitere Analysen zeigen, dass Soundwave seine Intelligenz während der Konversation beibehält. Das Projekt ist unter https://github.com/FreedomIntelligence/Soundwave verfügbar.
Eine Reihe aktueller Arbeiten beschäftigt sich mit dem Problem der Kompression von Token-Sequenzen in kürzere Sequenzen von reellwertigen Vektoren, die anstelle von Token-Embeddings oder Key-Value-Caches als Eingaben verwendet werden. Diese Ansätze ermöglichen es, den Rechenaufwand bestehender Sprachmodelle zu reduzieren. Obwohl leistungsstarke Modelle als Encoder verwendet werden, liegt das maximal erreichbare verlustfreie Kompressionsverhältnis typischerweise nicht höher als x10. Diese Tatsache ist äußerst bemerkenswert, da die maximale Informationskapazität großer reellwertiger Vektoren theoretisch weit über den dargestellten Raten liegt, selbst bei 16-Bit-Genauigkeit und einer moderaten Vektorgröße. In dieser Arbeit untersuchen wir die Grenzen der Kompression, indem wir den Encoder durch ein pro-Probe-Optimierungsverfahren ersetzen. Wir zeigen, dass Vektoren mit Kompressionsverhältnissen von bis zu x1500 existieren, was eine Differenz von zwei Größenordnungen zwischen bestehenden und praktisch erreichbaren Lösungen aufzeigt. Darüber hinaus zeigen wir empirisch, dass die Kompressionsgrenzen nicht durch die Länge der Eingabe, sondern durch die Menge der zu reduzierenden Unsicherheit bestimmt werden, nämlich den Cross-Entropy-Verlust für diese Sequenz ohne jegliche Konditionierung. Die gewonnenen Grenzen verdeutlichen die erhebliche Lücke zwischen der theoretischen Kapazität von Eingabe-Embeddings und ihrer praktischen Nutzung, was auf erheblichen Optimierungsspielraum im Modellentwurf hindeutet.
Die kontinuierliche Entwicklung von Grundmodellen für die Videogenerierung entwickelt sich in verschiedene Anwendungen, wobei die subjektkonsistente Videogenerierung noch im explorativen Stadium ist. Wir bezeichnen dies als Subject-to-Video, das Subjektelemente aus Referenzbildern extrahiert und durch textuelle Anweisungen subjektkonsistente Videos erzeugt. Wir glauben, dass das Wesen von Subject-to-Video in der Balance der dual-modalen Eingaben von Text und Bild liegt, wodurch sowohl Text- als auch visuelle Inhalte tief und gleichzeitig ausgerichtet werden. Zu diesem Zweck schlagen wir Phantom vor, ein einheitliches Videogenerierungsframework für Einzel- und Mehrfachsubjektreferenzen. Aufbauend auf bestehenden Text-zu-Video- und Bild-zu-Video-Architekturen gestalten wir das gemeinsame Text-Bild-Injektionsmodell neu und treiben es an, durch Text-Bild-Video-Tripel-Daten eine cross-modale Ausrichtung zu erlernen. Insbesondere betonen wir die Subjektkonsistenz bei der menschlichen Generierung, die bestehende ID-erhaltende Videogenerierung abdeckt und gleichzeitig verbesserte Vorteile bietet. Die Projekt-Homepage ist hier zu finden: https://phantom-video.github.io/Phantom/.
Wir präsentieren Magma, ein Foundation-Modell, das multimodale agentenbasierte Aufgaben sowohl in der digitalen als auch in der physischen Welt bewältigt. Magma stellt eine bedeutende Erweiterung von Vision-Language (VL)-Modellen dar, da es nicht nur die Verständnisfähigkeit (verbale Intelligenz) der VL-Modelle beibehält, sondern auch mit der Fähigkeit ausgestattet ist, in der visuell-räumlichen Welt zu planen und zu handeln (räumlich-zeitliche Intelligenz) sowie agentenbasierte Aufgaben zu erledigen, die von der UI-Navigation bis zur Robotersteuerung reichen. Um diese agentenbasierten Fähigkeiten zu ermöglichen, wird Magma auf großen Mengen heterogener Datensätze vortrainiert, die von Bildern und Videos bis hin zu Robotikdaten reichen. Dabei werden die handlungsfähigen visuellen Objekte (z. B. klickbare Schaltflächen in GUIs) in Bildern durch Set-of-Mark (SoM) für die Handlungsverankerung gekennzeichnet, und die Objektbewegungen (z. B. die Spur menschlicher Hände oder Roboterarme) in Videos durch Trace-of-Mark (ToM) für die Handlungsplanung markiert. Umfangreiche Experimente zeigen, dass SoM und ToM eine große Synergie erreichen und den Erwerb der räumlich-zeitlichen Intelligenz für unser Magma-Modell fördern, was für eine Vielzahl von Aufgaben, wie in Abb. 1 dargestellt, grundlegend ist. Insbesondere erzielt Magma neue state-of-the-art Ergebnisse bei der UI-Navigation und Robotersteuerung und übertrifft dabei frühere Modelle, die speziell für diese Aufgaben entwickelt wurden. Bei multimodalen Aufgaben im Zusammenhang mit Bildern und Videos schneidet Magma ebenfalls besser ab als beliebte große multimodale Modelle, die auf viel größeren Datensätzen trainiert wurden. Wir stellen unser Modell und den Code zur Reproduzierbarkeit unter https://microsoft.github.io/Magma öffentlich zur Verfügung.
Diffusionsmodelle haben sich als vielversprechende Alternative zu autoregressiven Modellen bei der Modellierung diskreter kategorialer Daten herausgestellt. Allerdings nutzen Diffusionsmodelle, die direkt auf diskreten Datenräumen arbeiten, die Kraft der iterativen Verfeinerung nicht vollständig aus, da die Signale während des Übergangs zwischen diskreten Zuständen verloren gehen. Bestehende kontinuierliche Diffusionsmodelle für diskrete Daten weisen im Vergleich zu diskreten Ansätzen eine begrenzte Leistung auf, und der unklare Zusammenhang zwischen ihnen behindert die Entwicklung von Diffusionsmodellen für diskrete Daten. In dieser Arbeit schlagen wir ein kontinuierliches Diffusionsmodell für die Sprachmodellierung vor, das die Geometrie der zugrunde liegenden kategorialen Verteilung einbezieht. Wir stellen eine Verbindung zwischen der diskreten Diffusion und dem kontinuierlichen Fluss auf der statistischen Mannigfaltigkeit her und führen, basierend auf dieser Analogie, ein einfaches Design für den Diffusionsprozess ein, das frühere diskrete Diffusionsmodelle verallgemeinert. Darüber hinaus schlagen wir ein simulationsfreies Trainingsframework basierend auf radialer Symmetrie und eine einfache Technik zur Bewältigung der hohen Dimensionalität der Mannigfaltigkeit vor. Umfassende Experimente auf Sprachmodellierungs-Benchmarks und anderen Modalitäten zeigen, dass unsere Methode bestehende diskrete Diffusionsmodelle übertrifft und sich der Leistung autoregressiver Modelle annähert. Der Code ist verfügbar unter https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Kürzlich entwickelte Multimodale Große Sprachmodelle (MLLMs) haben bemerkenswerte Leistungen erzielt, stehen jedoch vor Herausforderungen bei der Bereitstellung aufgrund ihrer quadratischen Rechenkomplexität, des wachsenden Bedarfs an Key-Value-Caches und der Abhängigkeit von separaten Vision-Encodern. Wir schlagen mmMamba vor, ein Framework zur Entwicklung von nativen multimodalen State-Space-Modellen mit linearer Komplexität durch progressive Destillation aus bestehenden MLLMs unter Verwendung moderater akademischer Rechenressourcen. Unser Ansatz ermöglicht die direkte Umwandlung von trainierten Decoder-only-MLLMs in Architekturen mit linearer Komplexität, ohne vorgefertigte RNN-basierte LLMs oder Vision-Encoder zu benötigen. Wir schlagen eine Seeding-Strategie vor, um Mamba aus trainierten Transformern zu entwickeln, sowie ein dreistufiges Destillationsverfahren, das effektiv das Wissen vom Transformer auf Mamba übertragen kann, während multimodale Fähigkeiten erhalten bleiben. Unsere Methode unterstützt auch flexible hybride Architekturen, die Transformer- und Mamba-Schichten kombinieren, um anpassbare Effizienz-Leistungs-Kompromisse zu ermöglichen. Aus dem Transformer-basierten Decoder-only-Modell HoVLE destilliert, erreicht mmMamba-linear eine wettbewerbsfähige Leistung im Vergleich zu bestehenden linearen und quadratischen VLMs, während mmMamba-hybrid die Leistung erheblich verbessert und sich den Fähigkeiten von HoVLE annähert. Bei 103K Tokens zeigt mmMamba-linear eine 20,6-fache Beschleunigung und eine 75,8%ige Reduzierung des GPU-Speichers im Vergleich zu HoVLE, während mmMamba-hybrid eine 13,5-fache Beschleunigung und 60,2% Speichereinsparungen erreicht. Code und Modelle sind unter https://github.com/hustvl/mmMamba veröffentlicht.
Das Verständnis menschlicher Präferenzen ist entscheidend für die Verbesserung von Basismodellen und den Aufbau personalisierter KI-Systeme. Allerdings sind Präferenzen von Natur aus vielfältig und komplex, was es traditionellen Belohnungsmodellen erschwert, ihre gesamte Bandbreite zu erfassen. Obwohl feingranulare Präferenzdaten hilfreich sein können, ist deren Erhebung kostspielig und schwer skalierbar. In diesem Artikel stellen wir Decomposed Reward Models (DRMs) vor, einen neuartigen Ansatz, der diverse menschliche Präferenzen aus binären Vergleichen extrahiert, ohne feingranulare Annotationen zu benötigen. Unser zentraler Ansatz besteht darin, menschliche Präferenzen als Vektoren darzustellen und sie mithilfe der Hauptkomponentenanalyse (PCA) zu analysieren. Durch die Konstruktion eines Datensatzes von Einbettungsdifferenzen zwischen bevorzugten und abgelehnten Antworten identifizieren DRMs orthogonale Basisvektoren, die unterschiedliche Aspekte von Präferenzen erfassen. Diese zerlegten Belohnungen können flexibel kombiniert werden, um unterschiedlichen Benutzerbedürfnissen gerecht zu werden, und bieten eine interpretierbare und skalierbare Alternative zu traditionellen Belohnungsmodellen. Wir zeigen, dass DRMs effektiv bedeutungsvolle Präferenzdimensionen (z.B. Hilfsbereitschaft, Sicherheit, Humor) extrahieren und sich ohne zusätzliches Training an neue Benutzer anpassen. Unsere Ergebnisse unterstreichen DRMs als leistungsstarkes Framework für die personalisierte und interpretierbare Ausrichtung von großen Sprachmodellen (LLMs).
Im Gegensatz zu RNNs, die vorherige Token in einen einzelnen versteckten Zustand komprimieren, können Transformers direkt auf alle vorherigen Token zugreifen. Standard-Transformer verwenden jedoch nur Repräsentationen aus der unmittelbar vorhergehenden Schicht. In dieser Arbeit zeigen wir, dass diese Designentscheidung zu einem Repräsentationskollaps führt und eine suboptimale Leistung verursacht. Um dieses Problem zu adressieren, führen wir Layer-Integrated Memory (LIMe) ein, einen einfachen, aber leistungsstarken Ansatz, der den Gesamtspeicherbedarf des Modells beibehält, während dessen Repräsentationskapazität durch den Zugriff auf versteckte Zustände aus früheren Schichten erweitert wird. Durch umfangreiche Experimente über verschiedene Architekturen und unterschiedliche Suchmechanismen hinweg demonstrieren wir konsistente Leistungsverbesserungen bei einer Vielzahl von Aufgaben. Darüber hinaus zeigen unsere Analysen der gelernten Repräsentationsdynamik und unsere Untersuchungen von Tiefenschaltkreisen, wie LIMe Informationen über Schichten hinweg integriert, und weisen auf vielversprechende Richtungen für zukünftige Forschungen hin.
Große Sprachmodelle (LLMs), die auf multimodalen Finanzdaten feinabgestimmt wurden, haben beeindruckende Fähigkeiten in der logischen Schlussfolgerung bei verschiedenen Finanzaufgaben gezeigt. Allerdings haben sie oft Schwierigkeiten mit mehrstufigen, zielorientierten Szenarien in interaktiven Finanzmärkten, wie beispielsweise dem Handel, bei dem komplexe agentenbasierte Ansätze erforderlich sind, um die Entscheidungsfindung zu verbessern. Um dies zu adressieren, schlagen wir FLAG-Trader vor, eine einheitliche Architektur, die linguistische Verarbeitung (über LLMs) mit gradientengetriebener Reinforcement-Learning (RL)-Policy-Optimierung integriert. Dabei fungiert ein teilweise feinabgestimmtes LLM als Policy-Netzwerk, das vortrainiertes Wissen nutzt und sich gleichzeitig durch parameter-effiziente Feinabstimmung an den Finanzbereich anpasst. Durch die Policy-Gradienten-Optimierung, die durch Handelserträge angetrieben wird, verbessert unser Framework nicht nur die Leistung des LLMs im Handel, sondern steigert auch die Ergebnisse bei anderen Aufgaben im Finanzbereich. Wir präsentieren umfangreiche empirische Belege, um diese Verbesserungen zu validieren.
Räumliche Intelligenz ist eine entscheidende Komponente von verkörpertem KI-Systemen, die es Robotern ermöglicht, ihre Umgebung zu verstehen und mit ihr zu interagieren. Obwohl jüngste Fortschritte die Fähigkeit von Vision-Language-Modellen (VLMs) verbessert haben, Objektpositionen und räumliche Beziehungen wahrzunehmen, fehlt ihnen noch die Fähigkeit, Objektausrichtungen präzise zu verstehen – eine Schlüsselvoraussetzung für Aufgaben, die feinmotorische Manipulationen erfordern. Die Bewältigung dieser Einschränkung erfordert nicht nur geometrisches Denken, sondern auch eine ausdrucksstarke und intuitive Möglichkeit, Ausrichtungen darzustellen. In diesem Kontext schlagen wir vor, dass natürliche Sprache einen flexibleren Darstellungsraum bietet als kanonische Bezugssysteme, was sie besonders geeignet für befehlsfolgende Robotersysteme macht. In diesem Artikel führen wir das Konzept der semantischen Ausrichtung ein, das Objektausrichtungen mithilfe natürlicher Sprache in einer bezugssystemfreien Weise definiert (z.B. die „Einsteckrichtung“ eines USB-Sticks oder die „Griffrichtung“ eines Messers). Um dies zu unterstützen, erstellen wir OrienText300K, einen umfangreichen Datensatz von 3D-Modellen, die mit semantischen Ausrichtungen annotiert sind und geometrisches Verständnis mit funktionaler Semantik verknüpfen. Durch die Integration der semantischen Ausrichtung in ein VLM-System ermöglichen wir Robotern, Manipulationsaktionen mit sowohl positions- als auch ausrichtungsbezogenen Einschränkungen zu generieren. Umfangreiche Experimente in Simulation und realer Umgebung zeigen, dass unser Ansatz die Manipulationsfähigkeiten von Robotern erheblich verbessert, z.B. 48,7% Genauigkeit bei Open6DOR und 74,9% Genauigkeit bei SIMPLER.
Der Einsatz großer Sprachmodelle (LLMs) in realen Anwendungen erfordert robuste Sicherheitsmodelle, um schädliche Benutzereingaben zu erkennen und zu blockieren. Während große Sicherheitsmodelle eine hohe Leistung erzielen, sind ihre Rechenkosten erheblich. Um dies zu mindern, werden kleinere destillierte Modelle verwendet, die jedoch oft bei „schwierigen“ Beispielen, bei denen das größere Modell genaue Vorhersagen liefert, schlechter abschneiden. Wir beobachten, dass viele Eingaben zuverlässig vom kleineren Modell verarbeitet werden können, während nur ein kleiner Anteil die Kapazität des größeren Modells erfordert. Ausgehend von dieser Beobachtung schlagen wir SafeRoute vor, einen binären Router, der schwierige von einfachen Beispielen unterscheidet. Unsere Methode wendet das größere Sicherheitsmodell selektiv auf die Daten an, die der Router als schwierig einstuft, und verbessert so die Effizienz bei gleichbleibender Genauigkeit im Vergleich zur alleinigen Verwendung des größeren Sicherheitsmodells. Experimentelle Ergebnisse auf mehreren Benchmark-Datensätzen zeigen, dass unsere adaptive Modellauswahl das Verhältnis zwischen Rechenkosten und Sicherheitsleistung signifikant verbessert und relevante Baselines übertrifft.
Große Sprachmodelle (LLMs) erreichen überragende Leistungen durch Skalierung während des Trainings, und die Skalierung zur Testzeit verbessert ihre Fähigkeiten weiter, indem sie effektives Schlussfolgern während der Inferenz ermöglicht. Allerdings leiden bestehende Methoden zur Skalierung zur Testzeit mit zunehmendem Umfang des Schlussfolgerns unter akkumulierter historischer Information, was nicht nur Rechenressourcen verschwendet, sondern auch effektives Schlussfolgern behindert. Um dieses Problem zu lösen, beobachten wir, dass komplexe Fortschritte im Schlussfolgern oft durch die Lösung einer Abfolge unabhängiger Teilfragen erreicht werden, die jeweils in sich geschlossen und überprüfbar sind. Diese Teilfragen sind im Wesentlichen atomare Fragen, die hauptsächlich auf ihrem aktuellen Zustand und nicht auf akkumulierter Historie basieren, ähnlich den gedächtnislosen Übergängen in einem Markov-Prozess. Basierend auf dieser Beobachtung schlagen wir Atom of Thoughts (AoT) vor, bei dem jeder Zustandsübergang im Schlussfolgerungsprozess darin besteht, die aktuelle Frage in einen abhängigkeitsbasierten gerichteten azyklischen Graphen zu zerlegen und ihre Teilfragen zu kontrahieren, wodurch ein neuer atomarer Fragezustand entsteht. Dieser iterative Zerlegungs-Kontraktionsprozess setzt sich fort, bis direkt lösbare atomare Fragen erreicht sind, wodurch Markov-Übergänge zwischen Fragezuständen natürlich realisiert werden. Darüber hinaus können diese atomaren Fragen nahtlos in bestehende Methoden zur Skalierung zur Testzeit integriert werden, sodass AoT als Plug-in-Erweiterung zur Verbesserung der Schlussfolgerungsfähigkeiten dienen kann. Experimente über sechs Benchmarks demonstrieren die Wirksamkeit von AoT sowohl als eigenständiges Framework als auch als Plug-in-Erweiterung. Bemerkenswert ist, dass AoT auf HotpotQA, wenn es auf gpt-4o-mini angewendet wird, einen F1-Score von 80,6 % erreicht, was o3-mini um 3,4 % und DeepSeek-R1 um 10,6 % übertrifft. Der Code wird unter https://github.com/qixucen/atom verfügbar sein.
Das Lösen komplexer Denkaufgaben kann visuelles Verständnis, die Abfrage von Domänenwissen, numerische Berechnungen und mehrstufiges Schlussfolgern beinhalten. Bestehende Methoden erweitern große Sprachmodelle (LLMs) mit externen Werkzeugen, sind jedoch auf spezialisierte Domänen beschränkt, bieten nur begrenzte Werkzeugtypen oder benötigen zusätzliche Trainingsdaten. In diesem Artikel stellen wir OctoTools vor, ein trainingsfreies, benutzerfreundliches und leicht erweiterbares Open-Source-Agenten-Framework, das entwickelt wurde, um komplexes Denken in verschiedenen Domänen zu bewältigen. OctoTools führt standardisierte Werkzeugkarten ein, um die Funktionalität von Werkzeugen zu kapseln, einen Planer für sowohl hoch- als auch niedrigstufige Planung und einen Ausführer zur Durchführung der Werkzeugnutzung. Wir validieren die Allgemeingültigkeit von OctoTools über 16 verschiedene Aufgaben (einschließlich MathVista, MMLU-Pro, MedQA und GAIA-Text) und erzielen durchschnittliche Genauigkeitssteigerungen von 9,3 % gegenüber GPT-4o. Darüber hinaus übertrifft OctoTools AutoGen, GPT-Functions und LangChain um bis zu 10,6 %, wenn dieselben Werkzeuge zur Verfügung stehen. Durch umfassende Analysen und Ablationen zeigt OctoTools Vorteile in der Aufgabenplanung, effektiven Werkzeugnutzung und mehrstufigen Problemlösung.
Nach dem Vortraining auf umfangreichen Bild-Text-Paaren zeigt Contrastive Language-Image Pre-training (CLIP) vielversprechende Leistungen auf einer Vielzahl von Benchmarks. Ein erheblicher Teil nicht gepaarter Daten, wie multimodale, verschachtelte Dokumente, bleibt jedoch für das Lernen von Vision-Sprache-Repräsentationen ungenutzt. Um diese ungepaarten Dokumente vollständig zu nutzen, etablieren wir zunächst eine Pipeline zur Extraktion von Real-World-Daten, um hochwertige Bilder und Texte zu extrahieren. Anschließend entwerfen wir eine hierarchische Retrieval-Methode, um jedes Bild effizient mit mehreren semantisch relevanten realistischen Texten zu verknüpfen. Um feinkörnige visuelle Informationen weiter zu verbessern, schlagen wir ein Modul zur semantischen Bildverstärkung für die Erzeugung synthetischer Texte vor. Darüber hinaus verwenden wir eine semantische Balance-Sampling-Strategie, um die Diversität des Datensatzes zu erhöhen und das Lernen von Long-Tail-Konzepten zu verbessern. Basierend auf diesen Innovationen konstruieren wir RealSyn, einen Datensatz, der realistische und synthetische Texte kombiniert und in drei Größen verfügbar ist: 15M, 30M und 100M. Umfangreiche Experimente zeigen, dass RealSyn das Lernen von Vision-Sprache-Repräsentationen effektiv vorantreibt und eine starke Skalierbarkeit aufweist. Modelle, die auf RealSyn vortrainiert wurden, erzielen state-of-the-art Leistungen in mehreren Downstream-Aufgaben. Um zukünftige Forschung zu erleichtern, werden der RealSyn-Datensatz und die vortrainierten Modellgewichte unter https://github.com/deepglint/RealSyn veröffentlicht.
Das Aufkommen von Test-Time-Scaling in großen Sprachmodellen (LLMs), veranschaulicht durch die o1-Serie von OpenAI, hat die Fähigkeiten zur logischen Schlussfolgerung durch die Skalierung der Ressourcenzuteilung während der Inferenz verbessert. Während Nachfolger wie QwQ, Deepseek-R1 (R1) und LIMO diese Fortschritte replizieren, bleibt die Frage, ob diese Modelle tatsächlich über Test-Time-Scaling-Fähigkeiten verfügen, weitgehend unerforscht. Diese Studie ergab, dass längere Chain-of-Thoughts (CoTs) dieser o1-ähnlichen Modelle nicht konsequent die Genauigkeit steigern; tatsächlich sind korrekte Lösungen oft kürzer als falsche für dieselben Fragen. Weitere Untersuchungen zeigen, dass dieses Phänomen eng mit den Selbstrevisionsfähigkeiten der Modelle zusammenhängt – längere CoTs enthalten mehr Selbstrevisionen, die häufig zu Leistungsverschlechterungen führen. Anschließend vergleichen wir sequenzielle und parallele Skalierungsstrategien bei QwQ, R1 und LIMO und stellen fest, dass paralleles Skalieren eine bessere Abdeckung und Skalierbarkeit erreicht. Basierend auf diesen Erkenntnissen schlagen wir Shortest Majority Vote vor, eine Methode, die parallele Skalierungsstrategien mit den Merkmalen der CoT-Länge kombiniert und die Test-Time-Skalierbarkeit der Modelle im Vergleich zu herkömmlichen Mehrheitsabstimmungsansätzen deutlich verbessert.
Während sich Large Language Models (LLMs) nach dem Feinabstimmen gut an nachgelagerte Aufgaben anpassen, geht diese Anpassungsfähigkeit oft auf Kosten der Robustheit gegenüber Prompts, da bereits geringfügige Variationen in den Prompts die Leistung erheblich beeinträchtigen können. Um dies zu adressieren, schlagen wir Prompt-Agnostic Fine-Tuning (PAFT) vor, einen einfachen, aber effektiven Ansatz, der Prompts während des Feinabstimmens dynamisch anpasst. Dies ermutigt das Modell, zugrunde liegende Aufgabenprinzipien zu erlernen, anstatt sich an spezifische Prompt-Formulierungen zu überanpassen. PAFT arbeitet in zwei Phasen: Zunächst wird eine vielfältige Menge von bedeutungsvollen, synthetischen Kandidaten-Prompts erstellt. Anschließend werden während des Feinabstimmens Prompts zufällig aus dieser Menge ausgewählt, um dynamische Trainingsinputs zu erzeugen. Umfangreiche Experimente über verschiedene Datensätze und LLMs hinweg zeigen, dass mit PAFT trainierte Modelle eine starke Robustheit und Generalisierungsfähigkeit über eine breite Palette von Prompts hinweg aufweisen, einschließlich solcher, die nicht im Training enthalten waren. Diese verbesserte Robustheit steigert sowohl die Modellleistung als auch die Inferenzgeschwindigkeit, während die Trainings effizienz erhalten bleibt. Ablationsstudien bestätigen weiterhin die Wirksamkeit von PAFT.
In letzter Zeit hat das Interesse zugenommen, große Sprachmodelle (LLMs) zu nutzen, um symbolische Weltmodelle aus textuellen Beschreibungen zu generieren. Obwohl LLMs im Kontext der Weltmodellierung bereits umfassend untersucht wurden, stießen frühere Studien auf mehrere Herausforderungen, darunter Zufälligkeit bei der Evaluation, Abhängigkeit von indirekten Metriken und einen begrenzten Domänenbereich. Um diese Einschränkungen zu überwinden, stellen wir einen neuartigen Benchmark vor, Text2World, der auf der Planungsdomänendefinitionssprache (PDDL) basiert und Hunderte von diversen Domänen sowie mehrkriterielle, ausführungsbasierte Metriken für eine robustere Evaluation umfasst. Wir evaluieren aktuelle LLMs mit Text2World und stellen fest, dass Reasoning-Modelle, die mit groß angelegtem Reinforcement Learning trainiert wurden, andere Modelle übertreffen. Dennoch zeigt selbst das leistungsstärkste Modell begrenzte Fähigkeiten in der Weltmodellierung. Aufbauend auf diesen Erkenntnissen untersuchen wir mehrere vielversprechende Strategien, um die Weltmodellierungsfähigkeiten von LLMs zu verbessern, darunter Test-Time-Scaling, Agententraining und mehr. Wir hoffen, dass Text2World als eine entscheidende Ressource dienen kann, die die Grundlage für zukünftige Forschungen zur Nutzung von LLMs als Weltmodelle legt. Die Projektseite ist unter https://text-to-world.github.io/ verfügbar.
Transformer-basierte große Sprachmodelle (LLMs) zeigen beeindruckende Leistungen bei der Generierung langer Kontexte. Die Erweiterung der Kontextlänge hat den Speicherbedarf von LLMs während der Inferenz unverhältnismäßig stark auf den Key-Value-Cache (KV-Cache) verlagert. In diesem Artikel präsentieren wir HEADINFER, das den KV-Cache in den CPU-RAM auslagert, während es vermeidet, den KV-Cache für jede Transformer-Schicht vollständig auf der GPU zu speichern. HEADINFER verwendet eine feingranulare, kopfweise Auslagerungsstrategie, bei der nur ausgewählte Attention-Heads des KV-Caches auf der GPU gehalten werden, während die Attention-Ausgabe dynamisch berechnet wird. Durch eine Roofline-Analyse zeigen wir, dass HEADINFER die Recheneffizienz beibehält und gleichzeitig den Speicherbedarf erheblich reduziert. Wir evaluieren HEADINFER am Llama-3-8B-Modell mit einer 1-Million-Token-Sequenz und reduzieren den GPU-Speicherbedarf des KV-Caches von 128 GB auf 1 GB sowie den gesamten GPU-Speicherverbrauch von 207 GB auf 17 GB, was einer Reduktion von 92 % im Vergleich zur BF16-Baseline-Inferenz entspricht. Bemerkenswerterweise ermöglicht HEADINFER die Inferenz von 4 Millionen Tokens mit einem 8B-Modell auf einer einzelnen Consumer-GPU mit 24 GB Speicher (z. B. NVIDIA RTX 4090) ohne Näherungsmethoden.
Wir schlagen MUltiway Dynamic Dense (MUDD) Verbindungen vor, eine einfache, aber effektive Methode, um die Einschränkungen von Residualverbindungen zu adressieren und den Informationsfluss zwischen den Schichten in Transformern zu verbessern. Im Gegensatz zu bestehenden Dense-Verbindungsansätzen mit statischen und gemeinsamen Verbindungsgewichten generiert MUDD Verbindungsgewichte dynamisch, abhängig von den verborgenen Zuständen an jeder Sequenzposition und für jeden entkoppelten Eingabestrom (die Abfrage, den Schlüssel, den Wert oder den Rest) eines Transformer-Blocks. MUDD-Verbindungen können nahtlos in jede Transformer-Architektur integriert werden, um MUDDFormer zu erstellen. Umfangreiche Experimente zeigen, dass MUDDFormer Transformers in verschiedenen Modellarchitekturen und -skalen beim Sprachmodellierung deutlich übertrifft und die Leistung von Transformers erreicht, die mit 1,8X-2,4X Rechenleistung trainiert wurden. Insbesondere erreicht MUDDPythia-2.8B Pythia-6.9B im Pretraining ppl und in nachgelagerten Aufgaben und kann sogar Pythia-12B in Five-Shot-Szenarien konkurrieren, während nur 0,23% zusätzliche Parameter und 0,4% zusätzliche Berechnung hinzugefügt werden. Code in JAX und PyTorch sowie vortrainierte Modelle sind unter https://github.com/Caiyun-AI/MUDDFormer verfügbar.
Wir präsentieren HealthGPT, ein leistungsstarkes Medizinisches Großes Vision-Sprache-Modell (Med-LVLM), das medizinische visuelle Verständnis- und Generierungsfähigkeiten in einem einheitlichen autoregressiven Paradigma integriert. Unsere Bootstrapping-Philosophie besteht darin, heterogenes Verständnis- und Generierungswissen schrittweise an vortrainierte große Sprachmodelle (LLMs) anzupassen. Dies wird durch eine neuartige heterogene Low-Rank-Adaptation (H-LoRA) Technik erreicht, die durch einen maßgeschneiderten hierarchischen visuellen Wahrnehmungsansatz und eine dreistufige Lernstrategie ergänzt wird. Um HealthGPT effektiv zu trainieren, entwickeln wir einen umfassenden medizinischen domänenspezifischen Verständnis- und Generierungsdatensatz namens VL-Health. Experimentelle Ergebnisse demonstrieren eine außergewöhnliche Leistung und Skalierbarkeit von HealthGPT in medizinischen visuellen einheitlichen Aufgaben. Unser Projekt ist unter https://github.com/DCDmllm/HealthGPT zugänglich.
Die Verbesserung der Netzwerkarchitektur des YOLO-Frameworks war lange Zeit von entscheidender Bedeutung, konzentrierte sich jedoch trotz der nachgewiesenen Überlegenheit von Aufmerksamkeitsmechanismen in Bezug auf Modellierungsfähigkeiten auf CNN-basierte Verbesserungen. Dies liegt daran, dass auf Aufmerksamkeit basierende Modelle die Geschwindigkeit von CNN-basierten Modellen nicht erreichen können. Dieses Papier schlägt ein auf Aufmerksamkeit zentriertes YOLO-Framework vor, nämlich YOLOv12, das die Geschwindigkeit der bisherigen CNN-basierten Modelle erreicht und gleichzeitig die Leistungsvorteile von Aufmerksamkeitsmechanismen nutzt. YOLOv12 übertrifft alle populären Echtzeit-Objektdetektoren in Bezug auf die Genauigkeit bei wettbewerbsfähiger Geschwindigkeit. Beispielsweise erreicht YOLOv12-N 40,6 % mAP mit einer Inferenzlatenz von 1,64 ms auf einer T4-GPU und übertrifft damit die fortschrittlichen YOLOv10-N / YOLOv11-N um 2,1 % / 1,2 % mAP bei vergleichbarer Geschwindigkeit. Dieser Vorteil erstreckt sich auch auf andere Modellskalen. YOLOv12 übertrifft auch end-to-end Echtzeit-Detektoren, die DETR verbessern, wie RT-DETR / RT-DETRv2: YOLOv12-S schlägt RT-DETR-R18 / RT-DETRv2-R18, während es 42 % schneller läuft und nur 36 % der Berechnung und 45 % der Parameter verwendet. Weitere Vergleiche sind in Abbildung 1 dargestellt.
Verteilte Optimierungsmethoden wie DiLoCo haben sich als effektiv erwiesen, um sehr große Modelle über mehrere verteilte Worker, wie beispielsweise Rechenzentren, zu trainieren. Diese Methoden teilen die Aktualisierungen in zwei Teile auf: eine innere Optimierungsphase, in der die Worker unabhängig voneinander mehrere Optimierungsschritte auf ihren lokalen Daten ausführen, und einen äußeren Optimierungsschritt, bei dem die inneren Aktualisierungen synchronisiert werden. Während solche Ansätze um Größenordnungen weniger Kommunikation erfordern als das standardmäßige datenparallele Training, können selbst die begrenzten Kommunikationsanforderungen dieser Ansätze in Umgebungen, in denen die Worker Rechenzentren sind, erhebliche Verlangsamungen verursachen, da bei jedem äußeren Optimierungsschritt Blockierungen notwendig sind. In diesem Artikel untersuchen wir Techniken, um dieses Problem zu mildern, indem wir die Kommunikation mit der Berechnung so überlappen, dass der äußere Optimierungsschritt vollständig mit der inneren Optimierungsphase überlappt. Wir zeigen, dass eine bestimmte Variante, genannt „eager updates“, in Umgebungen mit geringer Bandbreite zwischen den Workern eine vergleichbare Leistung wie das standardmäßige DiLoCo bietet.
Wir stellen einen neuartigen Ansatz namens Flow-of-Options (FoO) vor, der entwickelt wurde, um intrinsische Verzerrungen in Large Language Models (LLMs) zu adressieren. FoO ermöglicht es LLMs, systematisch eine Vielzahl von Möglichkeiten in ihrer Argumentation zu erkunden, wie durch ein FoO-basiertes agentenbasiertes System zur autonomen Lösung von Machine-Learning-Aufgaben (AutoML) demonstriert wird. Unser Framework übertrifft state-of-the-art Baselines und erzielt Verbesserungen von 38,2 % bis 69,2 % bei standardmäßigen Data-Science-Aufgaben sowie 37,4 % bis 47,9 % bei therapeutischen Chemieaufgaben. Mit Gesamtbetriebskosten von unter 1 US-Dollar pro Aufgabe ist unser Framework gut für kostensensitive Anwendungen geeignet. Über Klassifikation und Regression hinaus zeigen wir die breitere Anwendbarkeit unseres FoO-basierten agentenbasierten Systems auf Aufgaben wie Reinforcement Learning und Bildgenerierung. Unser Framework stellt bedeutende Fortschritte im Vergleich zu aktuellen state-of-the-art agentenbasierten Systemen für AutoML dar, da FoO die Vielfalt in LLM-Lösungen durch komprimierte, erklärbare Repräsentationen fördert, die in Kombination mit fallbasiertem Schließen auch Langzeitgedächtnis unterstützen.
Die rasante Entwicklung großer Reasoning-Modelle wie OpenAI-o3 und DeepSeek-R1 hat zu erheblichen Verbesserungen im komplexen Reasoning im Vergleich zu nicht-reasoning-fähigen großen Sprachmodellen (LLMs) geführt. Ihre erweiterten Fähigkeiten in Kombination mit dem Open-Source-Zugang zu Modellen wie DeepSeek-R1 werfen jedoch ernsthafte Sicherheitsbedenken auf, insbesondere in Bezug auf ihr Missbrauchspotenzial. In dieser Arbeit präsentieren wir eine umfassende Sicherheitsbewertung dieser Reasoning-Modelle, bei der etablierte Sicherheitsbenchmarks genutzt werden, um ihre Einhaltung von Sicherheitsvorschriften zu bewerten. Darüber hinaus untersuchen wir ihre Anfälligkeit für adversariale Angriffe wie Jailbreaking und Prompt-Injection, um ihre Robustheit in realen Anwendungen zu beurteilen. Durch unsere vielschichtige Analyse decken wir vier zentrale Erkenntnisse auf: (1) Es besteht eine erhebliche Sicherheitslücke zwischen den Open-Source-R1-Modellen und dem o3-mini-Modell, sowohl in Bezug auf Sicherheitsbenchmarks als auch auf Angriffe, was darauf hindeutet, dass mehr Sicherheitsanstrengungen für R1 erforderlich sind. (2) Das destillierte Reasoning-Modell zeigt eine schlechtere Sicherheitsleistung im Vergleich zu seinen sicherheitsausgerichteten Basismodellen. (3) Je stärker die Reasoning-Fähigkeit eines Modells ist, desto größer ist der potenzielle Schaden, den es bei der Beantwortung unsicherer Fragen verursachen kann. (4) Der Denkprozess in R1-Modellen birgt größere Sicherheitsbedenken als ihre endgültigen Antworten. Unsere Studie liefert Einblicke in die Sicherheitsimplikationen von Reasoning-Modellen und unterstreicht die Notwendigkeit weiterer Fortschritte in der Sicherheit von R1-Modellen, um die Lücke zu schließen.
Foundation Models, die auf umfangreichen unmarkierten Datensätzen vortrainiert wurden, haben die natürliche Sprachverarbeitung und Computer Vision revolutioniert und zeigen bemerkenswerte Generalisierungsfähigkeiten, was die Bedeutung des Vortrainings unterstreicht. Dennoch haben Bemühungen in der Robotik Schwierigkeiten, ähnliche Erfolge zu erzielen, da sie entweder durch den Bedarf an kostspieligen robotischen Annotationen oder durch den Mangel an Repräsentationen, die die physische Welt effektiv modellieren, eingeschränkt sind. In diesem Artikel stellen wir ARM4R vor, ein autoregressives Robotermodell, das niedrigdimensionale 4D-Repräsentationen, die aus menschlichen Videodaten gelernt wurden, nutzt, um ein besser vortrainiertes Robotermodell zu erzeugen. Insbesondere konzentrieren wir uns auf die Verwendung von 3D-Punkt-Tracking-Repräsentationen aus Videos, die durch das Anheben von 2D-Repräsentationen in den 3D-Raum mittels monokularer Tiefenschätzung über die Zeit abgeleitet werden. Diese 4D-Repräsentationen bewahren eine gemeinsame geometrische Struktur zwischen den Punkten und den Roboterzustandsrepräsentationen bis zu einer linearen Transformation, was ein effizientes Transferlernen von menschlichen Videodaten auf niedrigdimensionale Robotersteuerung ermöglicht. Unsere Experimente zeigen, dass ARM4R effizient von menschlichen Videodaten auf die Robotik übertragen werden kann und die Leistung bei Aufgaben in verschiedenen Roboterumgebungen und -konfigurationen konsistent verbessert.
LLM-as-a-Judge, das Chain-of-Thought (CoT)-Urteile generiert, hat sich zu einer weit verbreiteten Methode zur automatischen Bewertung entwickelt. Allerdings wird seine Zuverlässigkeit durch die Unfähigkeit der CoT-Argumentation beeinträchtigt, umfassende und tiefere Details zu erfassen, was oft zu unvollständigen Ergebnissen führt. Bestehende Methoden stützen sich hauptsächlich auf Mehrheitsabstimmungen oder die Erweiterung von Kriterien, was jedoch nicht ausreicht, um die Einschränkungen der CoT zu beheben. Wir schlagen eine Crowd-basierte vergleichende Bewertung vor, die zusätzliche Crowd-Antworten einführt, um sie mit den Kandidatenantworten zu vergleichen und dadurch tiefere und umfassendere Details innerhalb der Kandidatenantworten aufzudecken. Dieser Prozess leitet LLM-as-a-Judge effektiv an, ein detaillierteres CoT-Urteil abzugeben. Umfangreiche Experimente zeigen, dass unser Ansatz die Bewertungszuverlässigkeit verbessert und einen durchschnittlichen Genauigkeitsgewinn von 6,7 % über fünf Benchmarks hinweg erzielt. Darüber hinaus erzeugt unsere Methode qualitativ hochwertigere CoTs, die die Urteilsdestillation erleichtern und eine überlegene Leistung bei der Ablehnungsstichprobe für überwachtes Fein-Tuning (SFT), bezeichnet als Crowd-Ablehnungsstichprobe, zeigen, wodurch ein effizienteres SFT ermöglicht wird. Unsere Analyse bestätigt, dass die von uns generierten CoTs umfassender und von höherer Qualität sind und dass die Bewertungsgenauigkeit mit zunehmenden Inferenzskalen steigt.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in verschiedenen Aufgaben wie natürlichem Sprachverständnis, Textzusammenfassung und maschineller Übersetzung gezeigt. Ihre allgemeine Natur schränkt jedoch oft ihre Effektivität in domänenspezifischen Anwendungen ein, die spezialisiertes Wissen erfordern, wie beispielsweise im Gesundheitswesen, in der Chemie oder in der juristischen Analyse. Um dies zu adressieren, haben Forscher verschiedene Methoden untersucht, um LLMs durch die Integration von domänenspezifischem Wissen zu verbessern. In dieser Übersicht bieten wir einen umfassenden Überblick über diese Methoden, die wir in vier Schlüsselansätze kategorisieren: dynamische Wissenseinspeisung, statische Wissenseinbettung, modulare Adapter und Prompt-Optimierung. Jeder Ansatz bietet einzigartige Mechanismen, um LLMs mit Domänenexpertise auszustatten, und balanciert dabei die Kompromisse zwischen Flexibilität, Skalierbarkeit und Effizienz. Wir diskutieren, wie diese Methoden es LLMs ermöglichen, spezialisierte Aufgaben zu bewältigen, vergleichen ihre Vor- und Nachteile, bewerten domänenspezifische LLMs im Vergleich zu allgemeinen LLMs und heben die Herausforderungen und Chancen in diesem aufstrebenden Bereich hervor. Für diejenigen, die sich tiefer mit diesem Gebiet befassen möchten, fassen wir auch die häufig verwendeten Datensätze und Benchmarks zusammen. Um Forscher über die neuesten Studien auf dem Laufenden zu halten, pflegen wir ein Open-Source-Repository unter: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, das der Dokumentation von Forschung im Bereich spezialisierter LLMs gewidmet ist.
Embedding-Modelle spielen eine entscheidende Rolle bei der Darstellung und dem Abruf von Informationen in verschiedenen NLP-Anwendungen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Leistung von Embedding-Modellen weiter verbessert. Während diese Modelle oft anhand von allgemeinen Datensätzen bewertet werden, erfordern reale Anwendungen eine domänenspezifische Evaluation. In dieser Arbeit stellen wir den Finance Massive Text Embedding Benchmark (FinMTEB) vor, eine spezialisierte Variante des MTEB für den Finanzbereich. FinMTEB umfasst 64 domänenspezifische Embedding-Datensätze im Finanzbereich, die 7 Aufgaben abdecken und verschiedene Textarten in Chinesisch und Englisch beinhalten, wie Finanznachrichten, Unternehmensberichte, ESG-Berichte, regulatorische Einreichungen und Transkripte von Ergebnispräsentationen. Wir entwickeln außerdem ein finanzspezifisches Modell, FinPersona-E5, das mit einer persona-basierten Daten-Synthese-Methode trainiert wird, um verschiedene finanzbezogene Embedding-Aufgaben abzudecken. Durch eine umfangreiche Evaluation von 15 Embedding-Modellen, einschließlich FinPersona-E5, zeigen wir drei zentrale Erkenntnisse: (1) Die Leistung auf allgemeinen Benchmarks zeigt nur eine begrenzte Korrelation mit Aufgaben im Finanzbereich; (2) domänenangepasste Modelle übertreffen durchweg ihre allgemeinen Gegenstücke; und (3) überraschenderweise übertrifft ein einfacher Bag-of-Words (BoW)-Ansatz komplexe dichte Embeddings in finanziellen Semantic Textual Similarity (STS)-Aufgaben, was die aktuellen Grenzen dichtbasierter Embedding-Techniken verdeutlicht. Unsere Arbeit etabliert ein robustes Evaluationsframework für finanzbezogene NLP-Anwendungen und liefert wichtige Erkenntnisse für die Entwicklung domänenspezifischer Embedding-Modelle.
Die rasante Entwicklung von Perowskit-Solarzellen (PSCs) hat zu einem exponentiellen Anstieg von Forschungsveröffentlichungen geführt, wodurch ein dringender Bedarf an effizienten Wissensmanagement- und Reasoning-Systemen in diesem Bereich entstanden ist. Wir präsentieren ein umfassendes, wissensbasiertes System für PSCs, das drei Schlüsselkomponenten integriert. Zunächst entwickeln wir Perovskite-KG, ein domänenspezifisches Wissensgraphen, das aus 1.517 Forschungsarbeiten erstellt wurde und 23.789 Entitäten sowie 22.272 Beziehungen enthält. Zweitens erstellen wir zwei komplementäre Datensätze: Perovskite-Chat, bestehend aus 55.101 hochwertigen Frage-Antwort-Paaren, die durch ein neuartiges Multi-Agenten-Framework generiert wurden, und Perovskite-Reasoning, das 2.217 sorgfältig kuratierte Materialwissenschaftsprobleme enthält. Drittens führen wir zwei spezialisierte Large Language Models ein: Perovskite-Chat-LLM für domänenspezifische Wissensunterstützung und Perovskite-Reasoning-LLM für wissenschaftliche Reasoning-Aufgaben. Experimentelle Ergebnisse zeigen, dass unser System bestehende Modelle sowohl bei der domänenspezifischen Wissensabfrage als auch bei wissenschaftlichen Reasoning-Aufgaben deutlich übertrifft und Forschern effektive Werkzeuge für die Literaturrecherche, das experimentelle Design und die Lösung komplexer Probleme in der PSC-Forschung bietet.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von Textgenerierungsaufgaben gezeigt. Dennoch haben LLMs immer noch Schwierigkeiten mit Problemen, die mehrstufige Entscheidungsfindung und Umweltfeedback erfordern, wie z.B. Online-Shopping, wissenschaftliches Denken und mathematische Problemlösung. Im Gegensatz zu reinen Textdaten ist die Sammlung von groß angelegten Entscheidungsdaten eine Herausforderung. Darüber hinaus sind viele leistungsstarke LLMs nur über APIs zugänglich, was ihre Feinabstimmung für Agentenaufgaben aufgrund von Kosten und Komplexität behindert. Um die Einschränkungen von LLM-Agenten zu überwinden, schlagen wir ein Framework vor, das automatisch ein Belohnungsmodell aus der Umgebung lernen kann, ohne menschliche Annotationen. Dieses Modell kann verwendet werden, um die Aktionspfade von LLM-Agenten zu bewerten und Heuristiken für die Aufgabenplanung bereitzustellen. Konkret beinhaltet unser Ansatz den Einsatz eines LLM-basierten Agenten, der zufällig in einer Umgebung navigiert und diverse Aktionspfade erzeugt. Anschließend wird ein separates LLM genutzt, um eine Aufgabenabsicht zuzuweisen und eine negative Antwort neben der korrekten Antwort für jeden Pfad zu synthetisieren. Diese Tripel (Aufgabenabsicht, positive Antwort und negative Antwort) werden dann als Trainingsdaten verwendet, um ein Belohnungsmodell zu optimieren, das in der Lage ist, Aktionspfade zu bewerten. Die Wirksamkeit und Generalisierbarkeit unseres Frameworks wird durch Bewertungen auf verschiedenen Agenten-Benchmarks demonstriert. Zusammenfassend stellt unser vorgeschlagenes Framework einen bedeutenden Fortschritt bei der Verbesserung der Entscheidungsfähigkeiten von LLM-Agenten dar. Durch die Automatisierung des Lernens von Belohnungsmodellen überwinden wir die Herausforderungen der Datenknappheit und API-Beschränkungen und revolutionieren potenziell die Anwendung von LLMs in komplexen und interaktiven Umgebungen. Diese Forschung ebnet den Weg für anspruchsvollere KI-Agenten, die in der Lage sind, eine breite Palette von realen Problemen zu bewältigen, die mehrstufige Entscheidungsfindung erfordern.
Während mehrsprachige Sprachmodelle wie XLM-R die Mehrsprachigkeit in der NLP vorangetrieben haben, schneiden sie in extrem ressourcenarmen Sprachen nach wie vor schlecht ab. Diese Situation wird dadurch verschärft, dass moderne LLMs wie LLaMA und Qwen weitaus weniger Sprachen unterstützen als XLM-R, wodurch Textgenerierungsmodelle für viele Sprachen der Welt nicht existieren. Um diese Herausforderung zu bewältigen, schlagen wir ein neuartiges Framework vor, das mehrsprachige Encoder für die Textgenerierung in extrem ressourcenarmen Sprachen anpasst. Durch die Wiederverwendung der Gewichte zwischen Encoder und Decoder ermöglicht unser Framework dem Modell, den gelernten semantischen Raum des Encoders zu nutzen, was effizientes Lernen und effektive Generalisierung in ressourcenarmen Sprachen ermöglicht. Durch die Anwendung dieses Frameworks auf vier chinesische Minderheitensprachen präsentieren wir XLM-SWCM und demonstrieren dessen überlegene Leistung bei verschiedenen Downstream-Aufgaben, selbst im Vergleich zu wesentlich größeren Modellen.
Die Zeitreihenanalyse hat eine inspirierende Entwicklung von traditionellen autoregressiven Modellen über Deep-Learning-Modelle bis hin zu neueren Transformern und Large Language Models (LLMs) erlebt. Parallel dazu wurden auch Bemühungen unternommen, Vision-Modelle für die Zeitreihenanalyse zu nutzen, die jedoch aufgrund des vorherrschenden Forschungsfokus auf Sequenzmodellierung in diesem Bereich weniger sichtbar waren. Die Diskrepanz zwischen kontinuierlichen Zeitreihen und dem diskreten Token-Raum von LLMs sowie die Herausforderungen bei der expliziten Modellierung der Korrelationen von Variablen in multivariaten Zeitreihen haben jedoch die Aufmerksamkeit einiger Forschungsarbeiten auf die ebenso erfolgreichen Large Vision Models (LVMs) und Vision Language Models (VLMs) gelenkt. Um die Lücke in der bestehenden Literatur zu schließen, diskutiert dieser Übersichtsartikel die Vorteile von Vision-Modellen gegenüber LLMs in der Zeitreihenanalyse. Er bietet einen umfassenden und tiefgehenden Überblick über die bestehenden Methoden, mit einer detaillierten Taxonomie, die zentrale Forschungsfragen beantwortet, wie beispielsweise die Kodierung von Zeitreihen als Bilder und die Modellierung der abgebildeten Zeitreihen für verschiedene Aufgaben. Darüber hinaus werden die Herausforderungen in den Vor- und Nachverarbeitungsschritten dieses Frameworks behandelt und zukünftige Richtungen aufgezeigt, um die Zeitreihenanalyse mit Vision-Modellen weiter voranzutreiben.