Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in multimodalen generativen Modellen haben fotorealistische, anweisungsorientierte Bildgenerierung ermöglicht, doch führende Systeme wie GPT-4o-Image bleiben proprietär und unzugänglich. Um diese Fähigkeiten zu demokratisieren, präsentieren wir ShareGPT-4o-Image, den ersten Datensatz, der 45K Text-zu-Bild- und 46K Text-und-Bild-zu-Bild-Daten umfasst, die alle mithilfe der Bildgenerierungsfähigkeiten von GPT-4o synthetisiert wurden, um dessen fortschrittliche Bildgenerierungsfähigkeiten zu destillieren. Aufbauend auf diesem Datensatz entwickeln wir Janus-4o, ein multimodales großes Sprachmodell, das sowohl Text-zu-Bild- als auch Text-und-Bild-zu-Bild-Generierung beherrscht. Janus-4o verbessert nicht nur die Text-zu-Bild-Generierung gegenüber seinem Vorgänger Janus-Pro erheblich, sondern unterstützt auch neu die Text-und-Bild-zu-Bild-Generierung. Bemerkenswerterweise erzielt es beeindruckende Leistungen in der Text-und-Bild-zu-Bild-Generierung von Grund auf, wobei nur 91K synthetische Proben und 6 Stunden Training auf einer 8-A800-GPU-Maschine verwendet werden. Wir hoffen, dass die Veröffentlichung von ShareGPT-4o-Image und Janus-4o die offene Forschung in der fotorealistischen, anweisungsorientierten Bildgenerierung fördern wird.
Das Pre-Training von modernen großen Sprachmodellen (LLMs) erfordert enorme Mengen an sauberen und vielfältigen Textdaten. Während die offene Entwicklung großer, hochwertiger englischer Pre-Training-Datensätze in letzter Zeit erhebliche Fortschritte gemacht hat, bleibt das Training leistungsfähiger mehrsprachiger LLMs eine Herausforderung, nicht zuletzt aufgrund der inhärenten Schwierigkeit, Filterungs- und Deduplizierungspipelines an eine große Anzahl von Sprachen anzupassen. In dieser Arbeit stellen wir eine neue Pipeline zur Erstellung von Pre-Training-Datensätzen vor, die auf FineWeb basiert und automatisch an jede Sprache angepasst werden kann. Wir untersuchen ausführlich die Designentscheidungen unserer Pipeline anhand eines Satzes von neun verschiedenen Sprachen, geleitet durch eine Reihe aussagekräftiger und informativer Evaluierungsaufgaben, die durch einen neuartigen Auswahlprozess basierend auf messbaren Kriterien ausgewählt wurden. Letztendlich zeigen wir, dass unsere Pipeline verwendet werden kann, um nicht-englische Korpora zu erstellen, die leistungsfähigere Modelle hervorbringen als bisherige Datensätze. Zusätzlich führen wir einen einfachen und prinzipiellen Ansatz zur Neugewichtung von Datensätzen ein, der sowohl die Anzahl der Duplikate als auch die Qualität berücksichtigt und somit eine zusätzliche Leistungssteigerung bietet. Schließlich skalieren wir unsere Pipeline auf über 1000 Sprachen unter Verwendung von fast 100 Common-Crawl-Snapshots, um FineWeb2 zu erstellen, einen neuen 20 Terabyte (5 Milliarden Dokumente) umfassenden mehrsprachigen Datensatz, den wir zusammen mit unserer Pipeline, unseren Trainings- und Evaluierungscodebasen veröffentlichen.
Extreme Aktivierungsausreißer in großen Sprachmodellen (LLMs) beeinträchtigen die Quantisierungsleistung erheblich und behindern eine effiziente Bereitstellung auf Endgeräten. Während kanalweise Operationen und adaptive Gradientenskalierung als bekannte Ursachen gelten, bleibt die praktische Abhilfe eine Herausforderung. Wir stellen Outlier-Safe Pre-Training (OSP) vor, eine praktische Richtlinie, die die Bildung von Ausreißern proaktiv verhindert, anstatt sich auf nachträgliche Maßnahmen zu verlassen. OSP kombiniert drei Schlüsselinnovationen: (1) den Muon-Optimierer, der privilegierte Basen eliminiert, während die Trainings effizienz erhalten bleibt; (2) Single-Scale RMSNorm, das eine kanalweise Verstärkung verhindert; und (3) eine lernbare Einbettungsprojektion, die die Aktivierungsgrößen, die von Einbettungsmatrizen stammen, neu verteilt. Wir validieren OSP, indem wir ein Modell mit 1,4 Milliarden Parametern auf 1 Billion Tokens trainieren, das erste produktionsreife LLM, das ohne solche Ausreißer trainiert wurde. Unter aggressiver 4-Bit-Quantisierung erreicht unser OSP-Modell einen durchschnittlichen Score von 35,7 über 10 Benchmarks (verglichen mit 26,5 für ein mit Adam trainiertes Modell), bei nur 2 % zusätzlichem Trainingsaufwand. Bemerkenswerterweise zeigen OSP-Modelle eine nahezu null Überschusskurtosis (0,04) im Vergleich zu extremen Werten (1818,56) in Standardmodellen, was das Quantisierungsverhalten von LLMs grundlegend verändert. Unsere Arbeit zeigt, dass Ausreißer nicht inhärent für LLMs sind, sondern Konsequenzen von Trainingsstrategien, und ebnet den Weg für eine effizientere Bereitstellung von LLMs. Der Quellcode und die vortrainierten Checkpoints sind unter https://github.com/dmis-lab/Outlier-Safe-Pre-Training verfügbar.
Jüngste Fortschritte in der Bildbearbeitung mit Diffusionsmodellen haben beeindruckende Ergebnisse erzielt und eine fein abgestimmte Kontrolle über den Generierungsprozess ermöglicht. Diese Methoden sind jedoch aufgrund ihres iterativen Charakters rechenintensiv. Während destillierte Diffusionsmodelle eine schnellere Inferenz ermöglichen, bleiben ihre Bearbeitungsfähigkeiten begrenzt, hauptsächlich aufgrund einer schlechten Inversionsqualität. Hochwertige Inversion und Rekonstruktion sind für eine präzise Bildbearbeitung unerlässlich, da sie die strukturelle und semantische Integrität des Ausgangsbildes bewahren. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das die Bildinversion mithilfe von Konsistenzmodellen verbessert und eine hochwertige Bearbeitung in nur vier Schritten ermöglicht. Unsere Methode führt eine Zyklus-Konsistenz-Optimierungsstrategie ein, die die Rekonstruktionsgenauigkeit signifikant verbessert und einen kontrollierbaren Kompromiss zwischen Bearbeitbarkeit und Inhaltserhaltung ermöglicht. Wir erreichen state-of-the-art Leistungen in verschiedenen Bildbearbeitungsaufgaben und Datensätzen und zeigen, dass unsere Methode vollständige Diffusionsmodelle erreicht oder übertrifft, während sie deutlich effizienter ist. Der Code unserer Methode ist auf GitHub unter https://github.com/ControlGenAI/Inverse-and-Edit verfügbar.
Verschiedene Basissprachmodellfamilien, wie Llama und Qwen, zeigen unterschiedliche Verhaltensweisen während des Post-Trainings mit Verstärkungslernen (Reinforcement Learning, RL), insbesondere bei aufschlussreichen Aufgaben. Was macht ein Basissprachmodell für Verstärkungslernen geeignet? Ein tieferes Verständnis dieser Frage ist entscheidend für die Entwicklung von RL-skalierbaren Grundmodellen der nächsten Generation. In dieser Arbeit untersuchen wir, wie Mid-Training-Strategien die RL-Dynamik beeinflussen, mit einem Fokus auf zwei repräsentative Modellfamilien: Qwen und Llama. Unsere Studie zeigt, dass (1) hochwertige mathematische Korpora, wie MegaMath-Web-Pro, sowohl die Leistung des Basismodells als auch die RL-Leistung signifikant verbessern, während bestehende Alternativen (z.B. FineMath-4plus) dies nicht erreichen; (2) die zusätzliche Einbindung von QA-Daten, insbesondere langen Chain-of-Thought (CoT)-Beispielen, die RL-Ergebnisse verbessert, und Instruktionsdaten diesen Effekt weiter freisetzen; (3) während lange CoT die Tiefe der Argumentation verbessert, kann dies auch zu ausführlichen Modellantworten und Instabilität im RL-Training führen, was die Bedeutung der Datenformatierung unterstreicht; (4) die Skalierung des Mid-Trainings führt konsequent zu einer stärkeren nachgelagerten RL-Leistung. Basierend auf diesen Erkenntnissen führen wir eine zweistufige Mid-Training-Strategie ein, Stable-then-Decay, bei der Basismodelle zunächst mit einer konstanten Lernrate auf 200B Tokens trainiert werden, gefolgt von 20B Tokens über drei CoT-fokussierte Zweige mit Lernratenabnahme. Dies führt zu OctoThinker, einer Modellfamilie, die eine starke RL-Kompatibilität aufweist und die Leistungslücke zu RL-freundlicheren Modellfamilien, wie Qwen, schließt. Wir hoffen, dass unsere Arbeit dazu beiträgt, Pre-Training-Strategien für Grundmodelle im RL-Zeitalter zu gestalten. Um weitere Forschungen zu unterstützen, veröffentlichen wir unsere Open-Source-Modelle zusammen mit einem kuratierten mathematischen Argumentationskorpus von über 70 Milliarden Tokens (d.h. MegaMath-Web-Pro-Max).
Die Entwicklung von verkörperten Agenten, die in der Lage sind, komplexe interaktive Aufgaben in realen Szenarien auszuführen, bleibt eine grundlegende Herausforderung in der verkörperten KI. Obwohl jüngste Fortschritte in Simulationsplattformen die Aufgabenvielfalt zur Schulung verkörperter Vision-Sprach-Modelle (VLMs) erheblich verbessert haben, verlassen sich die meisten Plattformen auf vereinfachte Robotermorphologien und umgehen die stochastische Natur der Low-Level-Ausführung, was ihre Übertragbarkeit auf reale Roboter einschränkt. Um diese Probleme zu adressieren, präsentieren wir eine physikbasierte Simulationsplattform namens DualTHOR für komplexe humanoide Roboter mit zwei Armen, die auf einer erweiterten Version von AI2-THOR basiert. Unser Simulator umfasst reale Roboter-Assets, eine Aufgabensammlung für die Zusammenarbeit mit zwei Armen und Inverse-Kinematik-Löser für humanoide Roboter. Wir führen außerdem einen Kontingenzmechanismus ein, der potenzielle Fehler durch physikbasierte Low-Level-Ausführung berücksichtigt und so die Lücke zu realen Szenarien schließt. Unser Simulator ermöglicht eine umfassendere Bewertung der Robustheit und Generalisierung von VLMs in häuslichen Umgebungen. Umfangreiche Auswertungen zeigen, dass aktuelle VLMs Schwierigkeiten mit der Koordination von zwei Armen haben und eine begrenzte Robustheit in realistischen Umgebungen mit Kontingenzen aufweisen, was die Bedeutung der Verwendung unseres Simulators zur Entwicklung leistungsfähigerer VLMs für verkörperte Aufgaben unterstreicht. Der Code ist verfügbar unter https://github.com/ds199895/DualTHOR.git.
Simulationsbasierte Datensynthese hat sich als leistungsstarkes Paradigma zur Verbesserung der robotergestützten Manipulation in der realen Welt etabliert. Bestehende synthetische Datensätze sind jedoch aufgrund zweier Herausforderungen unzureichend für eine robuste bimanuelle Manipulation: (1) das Fehlen einer effizienten, skalierbaren Methode zur Datengenerierung für neuartige Aufgaben und (2) übermäßig vereinfachte Simulationsumgebungen, die die Komplexität der realen Welt nicht erfassen. Wir präsentieren RoboTwin 2.0, ein skalierbares Simulationsframework, das die automatisierte, großflächige Generierung vielfältiger und realistischer Daten ermöglicht, zusammen mit einheitlichen Evaluierungsprotokollen für die dualarmige Manipulation. Zunächst erstellen wir RoboTwin-OD, eine umfangreiche Objektbibliothek mit 731 Instanzen aus 147 Kategorien, die jeweils mit semantischen und manipulationsrelevanten Labels versehen sind. Auf dieser Grundlage entwickeln wir eine Expertendatensynthese-Pipeline, die multimodale große Sprachmodelle (MLLMs) mit einer simulationsbasierten Feinabstimmung kombiniert, um aufgabenbezogenen Ausführungscode automatisch zu generieren. Um den Transfer von der Simulation in die reale Welt zu verbessern, integriert RoboTwin 2.0 strukturierte Domänenrandomisierung entlang fünf Achsen: Unordnung, Beleuchtung, Hintergrund, Tischhöhe und Sprachanweisungen, wodurch die Datenvielfalt und die Robustheit der Strategien erhöht werden. Wir instanziieren dieses Framework über 50 dualarmige Aufgaben, die fünf Roboter-Embodiments umfassen, und sammeln im Voraus über 100.000 domänenrandomisierte Experten-Trajektorien. Empirische Ergebnisse zeigen einen Zuwachs von 10,9 % bei der Erfolgsrate der Codegenerierung und eine verbesserte Generalisierung auf neuartige reale Szenarien. Ein auf unserem Datensatz feinabgestimmtes VLA-Modell erzielt eine relative Verbesserung von 367 % (42,0 % vs. 9,0 %) bei unbekannten realen Aufgaben, während Zero-Shot-Modelle, die ausschließlich auf unseren synthetischen Daten trainiert wurden, eine relative Steigerung von 228 % erreichen, was eine starke Generalisierung ohne reale Überwachung verdeutlicht. Wir veröffentlichen den Datengenerator, den Benchmark, den Datensatz und den Code, um skalierbare Forschung in der robusten bimanuellen Manipulation zu unterstützen.
Diffusionsmodelle haben sich als führender Ansatz für die Bildsynthese etabliert und zeigen dabei außergewöhnliche Fotorealismus und Vielfalt. Das Training von Diffusionsmodellen bei hohen Auflösungen bleibt jedoch rechenintensiv, und bestehende Zero-Shot-Generierungstechniken zur Synthese von Bildern jenseits der Trainingsauflösungen erzeugen oft Artefakte wie Objektduplikationen und räumliche Inkohärenz. In diesem Artikel stellen wir HiWave vor, einen trainingsfreien, Zero-Shot-Ansatz, der die visuelle Qualität und strukturelle Kohärenz bei der Synthese von ultrahochauflösenden Bildern mit vortrainierten Diffusionsmodellen erheblich verbessert. Unser Verfahren verwendet eine zweistufige Pipeline: die Generierung eines Basisbildes aus dem vortrainierten Modell, gefolgt von einem patch-basierten DDIM-Inversionsschritt und einem neuartigen, wavelet-basierten Detailverstärker-Modul. Konkret nutzen wir zunächst Inversionsmethoden, um initiale Rauschvektoren abzuleiten, die die globale Kohärenz des Basisbildes bewahren. Anschließend behält unser Detailverstärker im Wavelet-Bereich während des Samplings die niederfrequenten Komponenten des Basisbildes bei, um strukturelle Konsistenz zu gewährleisten, während er selektiv hochfrequente Komponenten anleitet, um feine Details und Texturen zu bereichern. Umfangreiche Auswertungen mit Stable Diffusion XL zeigen, dass HiWave gängige visuelle Artefakte früherer Methoden effektiv reduziert und eine überlegene wahrgenommene Qualität erreicht. Eine Nutzerstudie bestätigte die Leistung von HiWave, das in mehr als 80 % der Vergleiche dem state-of-the-art Alternativansatz vorgezogen wurde, und unterstreicht damit seine Effektivität für hochwertige, ultrahochauflösende Bildsynthese ohne erneutes Training oder architektonische Anpassungen.
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zur Code-Generierung aus, doch die Sicherstellung, dass ihre Ausgaben funktional korrekt sind, insbesondere bei komplexen Programmieraufgaben, bleibt eine anhaltende Herausforderung. Während traditionelle Testgetriebene Entwicklung (TDD) einen Weg zur Code-Verfeinerung bietet, wird ihre Wirksamkeit bei LLMs oft durch den Mangel an hochwertigen Testfällen oder die Fallstricke der automatisierten Testgenerierung untergraben, einschließlich verzerrter Tests oder ungenauer Ausgabevorhersagen, die den Korrekturprozess fehlleiten können. Dieses Papier stellt den Property-Generated Solver vor, ein neuartiges Framework, das Property-Based Testing (PBT) nutzt, um hochrangige Programmeigenschaften oder Invarianten zu validieren, anstatt sich auf spezifische Eingabe-Ausgabe-Beispiele zu verlassen. Diese Eigenschaften sind oft einfacher zu definieren und zu überprüfen als die direkte Vorhersage umfassender Testorakel, wodurch der „Zyklus der Selbsttäuschung“ durchbrochen wird, bei dem Tests möglicherweise die gleichen Fehler wie der Code aufweisen, den sie validieren sollen. Der Property-Generated Solver setzt zwei kollaborative, LLM-basierte Agenten ein: einen Generator, der sich der Code-Generierung und iterativen Verfeinerung widmet, und einen Tester, der den PBT-Lebenszyklus verwaltet und semantisch reichhaltiges Feedback aus Eigenschaftsverletzungen formuliert. Das daraus resultierende umfassende und handlungsorientierte Feedback leitet dann den Generator bei seinen Verfeinerungsbemühungen an. Indem PBT als zentrale Validierungsmaschine innerhalb dieses iterativen, geschlossenen Regelkreises etabliert wird, bietet der Property-Generated Solver einen robusten Mechanismus, um LLMs in Richtung korrekterer und generalisierbarer Codes zu steuern. Umfangreiche experimentelle Ergebnisse auf mehreren Code-Generierungs-Benchmarks zeigen, dass der Property-Generated Solver erhebliche Verbesserungen bei pass@1 erzielt, mit relativen Gewinnen zwischen 23,1 % und 37,3 % gegenüber etablierten TDD-Methoden.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben den Fokus auf die Skalierung der Inferenz-Rechenleistung verlagert, um die Leistung zu verbessern, ohne das Modell neu zu trainieren. Ein gängiger Ansatz besteht darin, mehrere Ausgaben parallel zu generieren und eine davon als endgültige Ausgabe auszuwählen. Bisherige Arbeiten konzentrierten sich jedoch auf Englisch und einige wenige Domänen wie Mathematik und Code. Im Gegensatz dazu interessieren wir uns am meisten für Techniken, die sich auf offene Aufgaben, formal verifizierbare Aufgaben und verschiedene Sprachen verallgemeinern lassen. In dieser Arbeit untersuchen wir, wie die Inferenz-Rechenleistung für offene generative Aufgaben in einem mehrsprachigen, multi-task-Setting robust skaliert werden kann. Unsere Ergebnisse zeigen, dass sowohl die Sampling-Strategie basierend auf Temperaturvariation als auch die Auswahlstrategie an verschiedene Domänen und unterschiedliche Sprachumgebungen angepasst werden müssen. Wir bewerten bestehende Auswahlmethoden und zeigen, dass Strategien, die in Englisch effektiv sind, oft nicht auf andere Sprachen verallgemeinert werden können. Wir schlagen neuartige Sampling- und Auswahlstrategien vor, die speziell für mehrsprachige und multi-task-Inferenzszenarien angepasst sind, und zeigen, dass sie bemerkenswerte Verbesserungen über verschiedene Sprachen und Aufgaben hinweg erzielen. Insbesondere führen unsere kombinierten Sampling- und Auswahlmethoden zu einem durchschnittlichen Anstieg der Gewinnraten um +6,8 für unsere 8B-Modelle bei m-ArenaHard-v2.0-Prompts im Vergleich zu proprietären Modellen wie Gemini. In größerem Maßstab zeigt Command-A (111B-Modell), ausgestattet mit unseren Methoden, eine Verbesserung der Gewinnraten um +9,0 auf demselben Benchmark mit nur fünf Samples gegenüber der Einzel-Sample-Decodierung, ein erheblicher Anstieg bei minimalen Kosten. Unsere Ergebnisse unterstreichen die Notwendigkeit von sprach- und aufgabenbewussten Ansätzen für die Inferenz-Rechenleistung, um Leistungsverbesserungen in unterrepräsentierten Sprachen zu demokratisieren.
Große Sprachmodelle mit Fähigkeiten zum logischen Schlussfolgern haben in letzter Zeit in vielen Bereichen Spitzenleistungen erzielt. Ihre langen Ketten von Denkschritten (Chain-of-Thought Reasoning) stellen jedoch Herausforderungen für die Interpretierbarkeit dar, da jedes erzeugte Token von allen vorherigen abhängt, was die Zerlegung der Berechnungen erschwert. Wir argumentieren, dass die Analyse von Denkspuren auf Satzebene ein vielversprechender Ansatz zum Verständnis von Denkprozessen ist. Wir stellen drei komplementäre Attributionsmethoden vor: (1) eine Black-Box-Methode, die die kontrafaktische Bedeutung jedes Satzes misst, indem sie die endgültigen Antworten über 100 Durchläufe vergleicht, bei denen das Modell entweder diesen Satz oder einen mit anderer Bedeutung generiert; (2) eine White-Box-Methode, die Aufmerksamkeitsmuster zwischen Satzpaaren aggregiert und „Broadcasting“-Sätze identifiziert, die über „Empfänger“-Aufmerksamkeitsköpfe unverhältnismäßig viel Aufmerksamkeit von allen zukünftigen Sätzen erhalten; (3) eine kausale Attributionsmethode, die logische Verbindungen zwischen Sätzen misst, indem die Aufmerksamkeit gegenüber einem Satz unterdrückt und die Auswirkung auf die Tokens jedes zukünftigen Satzes gemessen wird. Jede Methode liefert Belege für die Existenz von „Denkankern“ (Thought Anchors), Denkschritten, die überragende Bedeutung haben und den nachfolgenden Denkprozess unverhältnismäßig stark beeinflussen. Diese Denkanker sind typischerweise Planungs- oder Rückverfolgungssätze. Wir stellen ein Open-Source-Tool (www.thought-anchors.com) zur Visualisierung der Ergebnisse unserer Methoden bereit und präsentieren eine Fallstudie, die konvergierende Muster über die Methoden hinweg zeigt, die abbilden, wie ein Modell mehrstufiges Schlussfolgern durchführt. Die Konsistenz über die Methoden hinweg demonstriert das Potenzial der Satzebenenanalyse für ein tieferes Verständnis von Denkmodellen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Verständnis und der Generierung von Sprache gezeigt. Diese beeindruckende Leistung geht jedoch typischerweise mit einer erheblichen Modellgröße einher, was erhebliche Herausforderungen bei der Bereitstellung und Inferenz mit sich bringt. Während das strukturierte Pruning von Modellparametern einen vielversprechenden Ansatz bietet, um die Rechenkosten bei der Bereitstellung zu reduzieren, konzentrieren sich aktuelle Methoden hauptsächlich auf das Pruning einzelner Modelle. In dieser Arbeit entwickeln wir eine neuartige Strategie zur Komprimierung von Modellen, indem wir Schichten aus feinabgestimmten Modellvarianten strategisch kombinieren oder zusammenführen. Dadurch werden die Fähigkeiten des ursprünglichen Modells bewahrt, indem die in verschiedenen Feinabstimmungen hervorgehobenen Fähigkeiten aggregiert werden. Wir formulieren die optimale Anpassung dieser LLMs als ein Optimierungsproblem nullter Ordnung und verwenden einen Suchraum, der drei verschiedene Operationen unterstützt: (1) Entfernen von Schichten, (2) Auswahl von Schichten aus verschiedenen Kandidatenmodellen und (3) Zusammenführen von Schichten. Unsere Experimente zeigen, dass dieser Ansatz zu einem wettbewerbsfähigen Modell-Pruning führt. Beispielsweise behalten unsere komprimierten Modelle der Llama2-13B-Modellfamilie etwa 97,3 % der ursprünglichen Leistung bei, während sie gleichzeitig ca. 25 % der Parameter entfernen, was frühere state-of-the-art Methoden deutlich übertrifft. Der Code ist unter https://github.com/Guinan-Su/auto-merge-llm verfügbar.
Die Rechen- und Energiekosten von Large Language Models (LLMs) haben exponentiell zugenommen, angetrieben durch die wachsenden Modellgrößen und die massive Nutzung von LLMs durch Hunderte Millionen von Benutzern. Die Einheitskosten eines LLMs sind die Berechnung eines Tokens. Daher spielt der Tokenizer eine wichtige Rolle für die Effizienz eines Modells, und sie werden sorgfältig optimiert, um die Anzahl der Tokens für den Text in ihrem Trainingskorpus zu minimieren. Eine der beliebtesten Anwendungen von LLMs sind Chatbots, die mit Benutzern interagieren. Eine wichtige Beobachtung ist, dass für diese Chatbots die Leistung des Tokenizers im Benutzereingabetext und in den Chatbot-Antworten entscheidend ist. Diese unterscheiden sich höchstwahrscheinlich vom Text im Trainingskorpus. Daher stellt sich unmittelbar die Frage, ob es einen potenziellen Nutzen gibt, Tokenizer für Chatbot-Konversationen zu optimieren. In dieser Arbeit wird diese Idee für verschiedene Tokenizer untersucht, indem ein öffentlich verfügbarer Korpus von Chatbot-Konversationen verwendet wird, um deren Vokabulare neu zu gestalten und ihre Leistung in diesem Bereich zu bewerten. Die Ergebnisse zeigen, dass konversationsoptimierte Tokenizer die Anzahl der Tokens in Chatbot-Dialogen konsequent reduzieren, was zu signifikanten Energieeinsparungen im Bereich von 5 % bis 10 % führen kann, während die Tokenisierungseffizienz für den ursprünglichen Trainingskorpus minimal oder sogar leicht positiv beeinflusst wird.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten in der Code-Generierung, scheitern jedoch bei der Anpassung an häufige Aktualisierungen von externen Bibliotheks-APIs. Diese kritische Einschränkung, die auf der Abhängigkeit von veraltetem API-Wissen aus ihren Trainingsdaten beruht, selbst bei Zugriff auf aktuelle Dokumentation, behindert die zuverlässige Code-Generierung in dynamischen Umgebungen. Um dieses Problem zu lösen, schlagen wir ReCode (regelbasiertes Reinforcement Learning für Code-Aktualisierung) vor, ein neuartiges Framework, das die Anpassung menschlicher Programmierer an API-Änderungen nachahmt. Konkret erstellen wir einen Datensatz von etwa 2.000 Dateneinträgen, um die LLMs zu trainieren, Versionenmigrationen basierend auf aktualisierten Informationen durchzuführen. Anschließend führen wir ein modifiziertes String-Ähnlichkeitsmaß für die Code-Bewertung als Belohnung für das Reinforcement Learning ein. Unsere Experimente zeigen, dass ReCode die Code-Generierungsleistung von LLMs in dynamischen API-Szenarien erheblich steigert, insbesondere bei der unbekannten CodeUpdateArena-Aufgabe. Entscheidend ist, dass ReCode im Vergleich zum überwachten Feinabgleich weniger Auswirkungen auf die allgemeinen Code-Generierungsfähigkeiten der LLMs hat. Wir wenden ReCode auf verschiedene LLMs und Reinforcement-Learning-Algorithmen (GRPO und DAPO) an, die alle konsistente Verbesserungen erzielen. Bemerkenswerterweise übertrifft Qwen2.5-Coder-7B nach dem Training das 32B-Parameter-Code-Instruktionsmodell und das Modell mit der gleichen Architektur. Der Code ist verfügbar unter https://github.com/zjunlp/ReCode.
Barrierefreiheit bleibt ein zentrales Anliegen in der heutigen Gesellschaft, da viele Technologien nicht entwickelt werden, um die gesamte Bandbreite der Benutzerbedürfnisse zu unterstützen. Bestehende Multi-Agenten-Systeme (MAS) können oft keine umfassende Unterstützung für Benutzer in Not bieten, da die fehlende Anpassungsfähigkeit auf geschlossene Systemdesigns zurückzuführen ist. Infolgedessen stoßen Menschen mit Behinderungen häufig auf erhebliche Barrieren, wenn sie versuchen, mit digitalen Umgebungen zu interagieren. Wir stellen MATE vor, ein multimodales Barrierefreiheits-MAS, das Modalitätsumwandlungen basierend auf den Bedürfnissen des Benutzers durchführt. Das System ist nützlich, um Menschen mit Behinderungen zu unterstützen, indem es sicherstellt, dass Daten in ein verständliches Format umgewandelt werden. Wenn ein Benutzer beispielsweise schlecht sieht und ein Bild erhält, wandelt das System dieses Bild in eine Audiobeschreibung um. MATE kann in einer Vielzahl von Bereichen, Branchen und Anwendungsgebieten eingesetzt werden, wie beispielsweise im Gesundheitswesen, und kann zu einem nützlichen Assistenten für verschiedene Benutzergruppen werden. Das System unterstützt mehrere Arten von Modellen, von LLM-API-Aufrufen bis hin zur Verwendung benutzerdefinierter maschineller Lernklassifikatoren (ML). Diese Flexibilität gewährleistet, dass das System an verschiedene Bedürfnisse angepasst werden kann und mit einer Vielzahl von Hardwarekomponenten kompatibel ist. Da das System lokal ausgeführt werden soll, gewährleistet es die Privatsphäre und Sicherheit sensibler Informationen. Darüber hinaus kann das Framework effektiv mit institutionellen Technologien (z. B. digitalen Gesundheitsdiensten) für die Echtzeit-Unterstützung von Benutzern integriert werden. Zusätzlich stellen wir den ModCon-Task-Identifier vor, ein Modell, das in der Lage ist, die genaue Modalitätsumwandlungsaufgabe aus der Benutzereingabe zu extrahieren. Zahlreiche Experimente zeigen, dass der ModCon-Task-Identifier auf unseren benutzerdefinierten Daten durchweg andere LLMs und statistische Modelle übertrifft. Unser Code und unsere Daten sind öffentlich unter https://github.com/AlgazinovAleksandr/Multi-Agent-MATE verfügbar.
KI-gestützte Inhaltserstellung hat Potenzial in der Filmproduktion gezeigt. Allerdings kämpfen bestehende Filmgenerierungssysteme damit, filmische Prinzipien umzusetzen, und scheitern daher daran, professionell hochwertige Filme zu erzeugen, insbesondere mangelt es an vielfältiger Kamerasprache und filmischem Rhythmus. Dies führt zu vorhersehbaren Bildern und wenig fesselnden Erzählungen. Um dies zu beheben, stellen wir FilMaster vor, ein End-to-End-KI-System, das reale filmische Prinzipien für die Erzeugung professioneller Filme integriert und bearbeitbare, industrieübliche Ergebnisse liefert. FilMaster basiert auf zwei Schlüsselprinzipien: (1) dem Erlernen der Kinematografie aus umfangreichen realen Filmdaten und (2) der Nachahmung professioneller, publikumsorientierter Postproduktions-Workflows. Inspiriert von diesen Prinzipien umfasst FilMaster zwei Phasen: eine Referenzgesteuerte Generierungsphase, die Benutzereingaben in Videoclips umwandelt, und eine Generative Postproduktionsphase, die Rohmaterial in audiovisuelle Ausgaben transformiert, indem visuelle und auditive Elemente für einen filmischen Rhythmus orchestriert werden. Unsere Generierungsphase hebt ein Multi-Shot Synergized RAG Camera Language Design-Modul hervor, das die KI anleitet, professionelle Kamerasprache zu erzeugen, indem Referenzclips aus einem umfangreichen Korpus von 440.000 Filmclips abgerufen werden. Unsere Postproduktionsphase ahmt professionelle Workflows nach, indem ein Audience-Centric Cinematic Rhythm Control-Modul entworfen wird, das Rough Cut und Fine Cut Prozesse umfasst, die durch simulierte Publikumsrückmeldungen informiert sind, um eine effektive Integration audiovisueller Elemente für fesselnde Inhalte zu erreichen. Das System wird durch generative KI-Modelle wie (M)LLMs und Videogenerierungsmodelle unterstützt. Darüber hinaus führen wir FilmEval ein, einen umfassenden Benchmark zur Bewertung von KI-generierten Filmen. Umfangreiche Experimente zeigen die überlegene Leistung von FilMaster in der Gestaltung der Kamerasprache und der Kontrolle des filmischen Rhythmus, wodurch generative KI in der professionellen Filmherstellung vorangetrieben wird.
Wir stellen Biomed-Enriched vor, ein biomedizinisches Textdatenset, das aus PubMed über einen zweistufigen Annotationsprozess erstellt wurde. In der ersten Stufe annotiert ein großes Sprachmodell 400.000 Absätze aus wissenschaftlichen Artikeln von PubMed und weist ihnen Bewertungen für ihren Typ (Review, Studie, klinischer Fall, andere), ihre Domäne (klinisch, biomedizinisch, andere) und ihre Bildungsqualität zu. Die Bildungsqualitätsbewertung (skaliert von 1 bis 5) schätzt ein, wie nützlich ein Absatz für das Lernen auf College-Niveau ist. Diese Annotationen werden dann verwendet, um ein kleines Sprachmodell zu feinabzustimmen, das die Labels über den gesamten PMC-OA-Korpus verteilt. Die resultierenden Metadaten ermöglichen es uns, verfeinerte Teilmengen zu extrahieren, darunter 2 Millionen Absätze zu klinischen Fällen mit über 450.000 hochwertigen Absätzen aus Artikeln mit kommerziellen Nutzungslizenzen, sowie mehrere Varianten durch Qualitätsfilterung und Domänen-Upsampling zu erstellen. Klinische Texte sind aufgrund von Datenschutzbeschränkungen typischerweise schwer zugänglich, da Krankenhausakten nicht öffentlich geteilt werden können. Daher bietet unser Datenset eine alternative, groß angelegte und offen verfügbare Sammlung klinischer Fälle aus PubMed, was ihn zu einer wertvollen Ressource für biomedizinische und klinische NLP macht. Vorläufige kontinuierliche Vortrainingsexperimente mit OLMo2 deuten darauf hin, dass diese kuratierten Teilmengen gezielte Verbesserungen ermöglichen, wobei klinisches Upsampling die Leistung auf MMLU ProfMed um ~5 % steigert und die Bildungsqualitätsfilterung MedQA und MedMCQA um ~1 % verbessert. Kombinationen dieser Techniken führten zu einer schnelleren Konvergenz, die mit einem Drittel der Trainings-Token die gleiche Leistung erreichte, was auf das Potenzial für effizientere und effektivere biomedizinische Vortrainingsstrategien hinweist.
Die Effektivität des KI-Debuggings folgt einem vorhersehbaren exponentiellen Abfallmuster; die meisten Modelle verlieren 60-80 % ihrer Debugging-Fähigkeit innerhalb von nur 2-3 Versuchen, obwohl iteratives Debugging eine entscheidende Fähigkeit für praktische Codegenerierungssysteme darstellt. Wir führen den Debugging-Decay-Index (DDI) ein, ein mathematisches Framework, das quantifiziert, wann Debugging ineffektiv wird, und Eingriffspunkte vorhersagt. Unser strategischer Neustart-Ansatz wechselt von der Ausnutzung zur Exploration an strategischen Punkten im Debugging-Prozess und zeigt, dass gut getimte Interventionen die Effektivität des Debuggings retten können. Der DDI offenbart eine grundlegende Einschränkung im aktuellen KI-Debugging und bietet das erste quantitative Framework zur Optimierung iterativer Codegenerierungsstrategien.