Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Reasoning-Modelle (LRMs) wie OpenAI-o1 und DeepSeek-R1 haben bemerkenswerte Fähigkeiten bei komplexen Reasoning-Aufgaben durch die Nutzung langer Chain-of-Thought (CoT)-Sequenzen gezeigt. Allerdings leiden diese Modelle oft unter Halluzinationen und Ineffizienzen, da sie sich ausschließlich auf interne Reasoning-Prozesse verlassen. In diesem Artikel stellen wir START (Self-Taught Reasoner with Tools) vor, ein neuartiges, tool-integriertes CoT-Reasoning-LLM, das die Reasoning-Fähigkeiten durch die Nutzung externer Tools erheblich verbessert. Durch Code-Ausführung ist START in der Lage, komplexe Berechnungen durchzuführen, Selbstüberprüfungen vorzunehmen, verschiedene Methoden zu erkunden und selbst zu debuggen, wodurch die Grenzen von LRMs überwunden werden. Die Kerninnovation von START liegt in seinem Selbstlern-Framework, das zwei Schlüsseltechniken umfasst: 1) Hint-infer: Wir zeigen, dass das Einfügen künstlich gestalteter Hinweise (z. B. „Warte, vielleicht ist die Verwendung von Python hier eine gute Idee.“) während des Inferenzprozesses eines LRMs dessen Fähigkeit effektiv stimuliert, externe Tools zu nutzen, ohne dass Demonstrationsdaten benötigt werden. Hint-infer kann auch als einfache und effektive Methode zur sequenziellen Testzeit-Skalierung dienen; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT kombiniert Hint-infer und RFT, indem es die Reasoning-Pfade mit Tool-Aufrufen, die von einem LRM via Hint-infer generiert wurden, bewertet, filtert und modifiziert, gefolgt von einem Fine-Tuning des LRMs. Durch dieses Framework haben wir das QwQ-32B-Modell zu START feinabgestimmt. Auf PhD-Level Science-QA (GPQA), Wettbewerbs-Level-Mathe-Benchmarks (AMC23, AIME24, AIME25) und dem Wettbewerbs-Level-Code-Benchmark (LiveCodeBench) erreicht START Genauigkeitsraten von 63,6 %, 95,0 %, 66,7 %, 47,1 % bzw. 47,3 %. Es übertrifft das Basismodell QwQ-32B deutlich und erreicht eine Leistung, die mit dem state-of-the-art Open-Weight-Modell R1-Distill-Qwen-32B und dem proprietären Modell o1-Preview vergleichbar ist.
Jüngste Fortschritte in videobasierten multimodalen großen Sprachmodellen (Video-LLMs) haben das Verständnis von Videos erheblich verbessert, indem Videos als Sequenzen von Bildern verarbeitet werden. Viele bestehende Methoden behandeln die Bilder jedoch unabhängig im visuellen Backbone und verfügen über keine explizite zeitliche Modellierung, was ihre Fähigkeit einschränkt, dynamische Muster zu erfassen und lange Videos effizient zu verarbeiten. Um diese Einschränkungen zu überwinden, stellen wir STORM (Spatiotemporal TOken Reduction for Multimodal LLMs) vor, eine neuartige Architektur, die einen speziellen temporalen Encoder zwischen den Bild-Encoder und das LLM integriert. Unser temporaler Encoder nutzt das Mamba State Space Model, um zeitliche Informationen in Bild-Token zu integrieren und angereicherte Repräsentationen zu erzeugen, die die Dynamik zwischen den Bildern über die gesamte Videosequenz hinweg bewahren. Diese angereicherte Kodierung verbessert nicht nur die Fähigkeiten zur Videoanalyse, sondern ermöglicht auch effektive Token-Reduktionsstrategien, einschließlich Testzeit-Sampling und trainingsbasierter zeitlicher und räumlicher Pooling, wodurch der Rechenaufwand für das LLM erheblich reduziert wird, ohne wichtige zeitliche Informationen zu opfern. Durch die Integration dieser Techniken reduziert unser Ansatz gleichzeitig die Trainings- und Inferenzlatenz und verbessert die Leistung, was ein effizientes und robustes Verständnis von Videos über längere zeitliche Kontexte ermöglicht. Umfangreiche Evaluierungen zeigen, dass STORM state-of-the-art Ergebnisse in verschiedenen Benchmarks für das Verständnis langer Videos erzielt (mehr als 5 % Verbesserung bei MLVU und LongVideoBench), während die Rechenkosten um bis zu das 8-fache und die Dekodierungslatenz um das 2,4- bis 2,9-fache für eine feste Anzahl von Eingabebildern reduziert werden. Die Projektseite ist verfügbar unter https://research.nvidia.com/labs/lpr/storm.
Jüngste Fortschritte in Sprach-zu-Sprach-Dialogsystemen nutzen LLMs für multimodale Interaktionen, bleiben jedoch durch Anforderungen an Feinabstimmung, hohen Rechenaufwand und Text-Sprach-Fehlausrichtung eingeschränkt. Bestehende sprachfähige LLMs beeinträchtigen oft die Gesprächsqualität, indem sie die LLM modifizieren und dadurch deren linguistische Fähigkeiten kompromittieren. Im Gegensatz dazu schlagen wir LLMVoX vor, ein leichtgewichtiges, LLM-agnostisches, autoregressives Streaming-TTS-System mit 30M Parametern, das hochwertige Sprache mit geringer Latenz erzeugt und dabei die Fähigkeiten der Basis-LLM vollständig bewahrt. Unser Ansatz erreicht eine signifikant niedrigere Wortfehlerrate im Vergleich zu sprachfähigen LLMs, bei vergleichbarer Latenz und UTMOS-Bewertung. Durch die Entkopplung der Sprachsynthese von der LLM-Verarbeitung mittels eines Multi-Queue-Token-Streaming-Systems unterstützt LLMVoX nahtlose, unendlich lange Dialoge. Sein Plug-and-Play-Design erleichtert auch die Erweiterung auf verschiedene Aufgaben mit unterschiedlichen Backbones. Darüber hinaus generalisiert LLMVoX auf neue Sprachen mit nur geringer Datensatzanpassung und erreicht eine niedrige Zeichenfehlerrate in einer arabischen Sprachaufgabe. Zusätzlich haben wir LLMVoX mit einem Vision-Language-Modell integriert, um ein Omni-Modell mit Sprach-, Text- und Bildfähigkeiten zu schaffen, ohne zusätzliches multimodales Training zu benötigen. Unsere Codebasis und Projektseite ist verfügbar unter https://mbzuai-oryx.github.io/LLMVoX.
Wir stellen EgoLife vor, ein Projekt zur Entwicklung eines egocentrischen Lebensassistenten, der durch KI-gestützte Wearable-Brillen die persönliche Effizienz begleitet und verbessert. Um die Grundlage für diesen Assistenten zu schaffen, führten wir eine umfassende Datenerhebungsstudie durch, bei der sechs Teilnehmer eine Woche lang zusammenlebten und ihre täglichen Aktivitäten – einschließlich Diskussionen, Einkaufen, Kochen, Sozialisieren und Unterhaltung – kontinuierlich mit KI-Brillen zur multimodalen egocentrischen Videoaufzeichnung sowie synchronisierten Third-Person-View-Videoreferenzen aufzeichneten. Diese Bemühungen resultierten im EgoLife-Datensatz, einem umfassenden 300-stündigen egocentrischen, interpersonellen, multiview und multimodalen Alltagsdatensatz mit intensiver Annotation. Basierend auf diesem Datensatz führen wir EgoLifeQA ein, eine Suite von langkontextbezogenen, lebensorientierten Frage-Antwort-Aufgaben, die darauf abzielen, durch die Beantwortung praktischer Fragen wie das Erinnern vergangener relevanter Ereignisse, die Überwachung von Gesundheitsgewohnheiten und das Anbieten personalisierter Empfehlungen eine sinnvolle Unterstützung im Alltag zu bieten. Um die zentralen technischen Herausforderungen (1) der Entwicklung robuster visuell-auditiver Modelle für egocentrische Daten, (2) der Ermöglichung von Identitätserkennung und (3) der Erleichterung langkontextbezogener Frage-Antworten über umfangreiche zeitliche Informationen zu bewältigen, stellen wir EgoButler vor, ein integriertes System bestehend aus EgoGPT und EgoRAG. EgoGPT ist ein omni-modales Modell, das auf egocentrischen Datensätzen trainiert wurde und Spitzenleistungen im Verständnis egocentrischer Videos erzielt. EgoRAG ist eine retrieverbasierte Komponente, die die Beantwortung ultra-langkontextbezogener Fragen unterstützt. Unsere experimentellen Studien bestätigen deren Funktionsmechanismen und decken kritische Faktoren und Engpässe auf, die zukünftige Verbesserungen leiten. Durch die Veröffentlichung unserer Datensätze, Modelle und Benchmarks möchten wir weitere Forschungen im Bereich egocentrischer KI-Assistenten anregen.
Da große Sprachmodelle zunehmend für Online-Inhalte verantwortlich sind, entstehen Bedenken hinsichtlich der Auswirkungen der wiederholten Verarbeitung ihrer eigenen Ausgaben. Inspiriert vom „Stille-Post“-Effekt in menschlichen Kommunikationsketten untersucht diese Studie, ob Sprachmodelle Informationen durch iterative Generierung ähnlich verzerren. Durch translationsbasierte Experimente stellen wir fest, dass sich Verzerrungen im Laufe der Zeit ansammeln, beeinflusst durch Sprachwahl und Kettenkomplexität. Während ein Qualitätsverlust unvermeidlich ist, kann dieser durch strategische Prompting-Techniken gemildert werden. Diese Erkenntnisse tragen zu Diskussionen über die langfristigen Auswirkungen der KI-vermittelten Informationsverbreitung bei und werfen wichtige Fragen zur Zuverlässigkeit von durch Sprachmodelle generierten Inhalten in iterativen Arbeitsabläufen auf.
Die effektive Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung ist anfällig für Überschätzungen aufgrund der Datenexposition von Evaluierungsbenchmarks. Wir stellen ein Framework zur Erstellung linguistischer Denkprobleme vor, das den Einfluss von Auswendiglernen auf die Leistungsschätzungen von Modellen reduziert, und wenden dieses Framework an, um LINGOLY-TOO zu entwickeln, einen anspruchsvollen Evaluierungsbenchmark für linguistisches Denken. Durch die Entwicklung orthografischer Vorlagen verschleiern wir die Schriftsysteme realer Sprachen dynamisch, um zahlreiche Fragenvariationen zu generieren. Diese Variationen bewahren die für jede Lösung erforderlichen Denkschritte, während sie die Wahrscheinlichkeit verringern, dass spezifische Problembeispiele in den Trainingsdaten der Modelle auftauchen. Unsere Experimente zeigen, dass Spitzenmodelle, einschließlich OpenAI o1-preview und DeepSeem R1, mit fortgeschrittenem logischen Denken Schwierigkeiten haben. Unsere Analyse zeigt auch, dass LLMs eine merkliche Varianz in der Genauigkeit bei Permutationen desselben Problems aufweisen und im Durchschnitt besser bei Fragen abschneiden, die in ihrer ursprünglichen Orthografie erscheinen. Unsere Ergebnisse unterstreichen die undurchsichtige Natur der Antwortgenerierung in LLMs und liefern Belege dafür, dass frühere Datenexposition zur Überschätzung der Denkfähigkeiten von Spitzenmodellen beiträgt.
Das Verständnis und die Schlussfolgerung über Nicht-Sprach-Geräusche und Musik sind sowohl für Menschen als auch für KI-Agenten entscheidend, um effektiv mit ihrer Umgebung zu interagieren. In diesem Artikel stellen wir Audio Flamingo 2 (AF2) vor, ein Audio-Sprach-Modell (ALM) mit fortgeschrittenen Fähigkeiten zur Audio-Verarbeitung und Schlussfolgerung. AF2 nutzt (i) ein spezielles CLAP-Modell, (ii) synthetische Audio-QA-Daten für detaillierte Audio-Schlussfolgerungen und (iii) eine mehrstufige Curriculum-Learning-Strategie. AF2 erreicht mit einem kleinen Sprachmodell von nur 3B Parametern Spitzenleistungen und übertrifft große Open-Source- und proprietäre Modelle in über 20 Benchmarks. Darüber hinaus erweitern wir erstmals das Audio-Verständnis auf lange Audio-Segmente (30 Sekunden bis 5 Minuten) und stellen LongAudio vor, einen umfangreichen und neuartigen Datensatz für das Training von ALMs in Aufgaben zur langen Audio-Beschreibung und Fragebeantwortung. Das Feinabstimmen von AF2 auf LongAudio führt zu herausragenden Leistungen auf unserem vorgeschlagenen LongAudioBench, einem von Experten annotierten Benchmark zur Bewertung der Fähigkeiten von ALMs im Verständnis langer Audio-Segmente. Wir führen umfangreiche Ablationsstudien durch, um die Wirksamkeit unseres Ansatzes zu bestätigen. Projekt-Website: https://research.nvidia.com/labs/adlr/AF2/.
Wir etablieren rigoros ein bipartites Skalierungsgesetz der gegenseitigen Information in natürlicher Sprache, das langreichweitige Abhängigkeiten regelt. Dieses Skalierungsgesetz, das sich von der konventionellen Zwei-Punkt-gegenseitigen Information unterscheidet und unabhängig davon skaliert, ist der Schlüssel zum Verständnis der Langkontext-Sprachmodellierung. Unter Verwendung dieses Skalierungsgesetzes formulieren wir die Langkontext-Sprachmodellierungsbedingung (L^2M), die die Fähigkeit eines Modells zur effektiven Modellierung langer Kontextlängen mit der Skalierung seiner latenten Zustandsgröße zur Speicherung vergangener Informationen in Beziehung setzt. Unsere Ergebnisse werden durch Experimente an Transformern und Zustandsraummodellen validiert. Diese Arbeit legt eine theoretische Grundlage, die die Entwicklung großer Sprachmodelle hin zu längeren Kontextlängen leitet.
Wir stellen IFIR vor, den ersten umfassenden Benchmark zur Bewertung von instruktionsbasiertem Information Retrieval (IR) in Expertenbereichen. IFIR umfasst 2.426 hochwertige Beispiele und deckt acht Teilbereiche in vier spezialisierten Domänen ab: Finanzen, Recht, Gesundheitswesen und wissenschaftliche Literatur. Jeder Teilbereich behandelt eine oder mehrere domänenspezifische Retrieval-Aufgaben und repliziert reale Szenarien, in denen maßgeschneiderte Anweisungen entscheidend sind. IFIR ermöglicht eine detaillierte Analyse der Fähigkeiten zum instruktionsbasierten Retrieval, indem Anweisungen auf unterschiedlichen Komplexitätsstufen integriert werden. Wir schlagen zudem eine neuartige, auf LLMs basierende Evaluierungsmethode vor, um eine präzisere und zuverlässigere Bewertung der Modellleistung bei der Befolgung von Anweisungen zu ermöglichen. Durch umfangreiche Experimente mit 15 führenden Retrieval-Modellen, einschließlich solcher, die auf LLMs basieren, zeigen unsere Ergebnisse, dass aktuelle Modelle erhebliche Schwierigkeiten haben, komplexe, domänenspezifische Anweisungen effektiv zu befolgen. Wir liefern weiterführende Analysen, um diese Einschränkungen zu verdeutlichen, und bieten wertvolle Einblicke, um zukünftige Fortschritte in der Entwicklung von Retrieval-Systemen zu leiten.
Transformer haben sich zur De-facto-Architektur für eine Vielzahl von Machine-Learning-Aufgaben entwickelt, insbesondere bei großen Sprachmodellen (LLMs). Trotz ihrer bemerkenswerten Leistung bestehen weiterhin Herausforderungen beim Training tiefer Transformer-Netzwerke, insbesondere in Bezug auf die Position der Layer-Normalisierung. Während Pre-Norm-Strukturen aufgrund ihres stärker ausgeprägten Identitätspfads ein einfacheres Training ermöglichen, liefern sie oft suboptimale Ergebnisse im Vergleich zu Post-Norm. In diesem Artikel schlagen wir HybridNorm vor, eine einfache, aber effektive Hybrid-Normalisierungsstrategie, die die Vorteile beider Ansätze, Pre-Norm und Post-Norm, integriert. Konkret verwendet HybridNorm QKV- Normalisierung innerhalb des Aufmerksamkeitsmechanismus und Post-Norm im Feed-Forward- Netzwerk (FFN) jedes Transformer-Blocks. Dieses Design stabilisiert nicht nur das Training, sondern verbessert auch die Leistung, insbesondere im Kontext von LLMs. Umfassende Experimente in sowohl dichten als auch spärlichen Architekturen zeigen, dass HybridNorm durchweg sowohl Pre-Norm als auch Post-Norm übertrifft und state-of-the-art Ergebnisse in verschiedenen Benchmarks erzielt. Diese Ergebnisse unterstreichen das Potenzial von HybridNorm als stabilere und effektivere Technik zur Verbesserung des Trainings und der Leistung tiefer Transformer-Modelle. %Der Code wird öffentlich zugänglich gemacht. Der Code ist verfügbar unter https://github.com/BryceZhuo/HybridNorm.
Wir stellen FuseChat-3.0 vor, eine Suite von großen Sprachmodellen (LLMs), die durch die Integration der Stärken heterogener Quell-LLMs in kompaktere Ziel-LLMs entwickelt wurde. Unsere Quellmodelle umfassen das leistungsstarke Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct und Llama-3.1-70B-Instruct. Bei den Zielmodellen konzentrieren wir uns auf drei weit verbreitete kleinere Varianten – Llama-3.1-8B-Instruct, Gemma-2-9B-it und Qwen-2.5-7B-Instruct – sowie zwei ultra-kompakte Optionen, Llama-3.2-3B-Instruct und Llama-3.2-1B-Instruct. Um die vielfältigen Fähigkeiten dieser Quellmodelle zu nutzen, entwickeln wir ein spezialisiertes Datenkonstruktionsprotokoll, das auf verschiedene Aufgaben und Domänen zugeschnitten ist. Die FuseChat-3.0-Trainingspipeline besteht aus zwei zentralen Phasen: (1) überwachte Feinabstimmung (SFT), um die Verteilungen der Ziel- und Quellmodelle anzugleichen, und (2) Direct Preference Optimization (DPO), um Präferenzen aus mehreren Quell-LLMs zur Feinabstimmung des Zielmodells anzuwenden. Die resultierenden FuseChat-3.0-Modelle zeigen signifikante Leistungssteigerungen in Aufgaben wie Instruktionsbefolgung, Allgemeinwissen, Mathematik und Programmierung. Wie in Abbildung 1 dargestellt, erreicht unser Fusionsansatz mit Llama-3.1-8B-Instruct als Zielmodell eine durchschnittliche Verbesserung von 6,8 Punkten über 14 Benchmarks hinweg. Darüber hinaus verzeichnet er bemerkenswerte Steigerungen von 37,1 Punkten und 30,1 Punkten auf den Instruktionsbefolgung-Benchmarks AlpacaEval-2 und Arena-Hard. Unser Code, Modelle und Datensätze sind unter https://github.com/SLIT-AI/FuseChat-3.0 verfügbar.
Wir stellen Pok\'eChamp vor, einen Minimax-Agenten, der von Large Language Models (LLMs) für Pok\'emon-Kämpfe angetrieben wird. Basierend auf einem allgemeinen Framework für Zwei-Spieler-Wettkampfspiele nutzt Pok\'eChamp die generalistischen Fähigkeiten von LLMs, um die Minimax-Baumsuche zu verbessern. Konkret ersetzen LLMs drei Schlüsselmodule: (1) die Spieleraktionssammlung, (2) die Gegnermodellierung und (3) die Schätzung der Wertfunktion, wodurch der Agent in der Lage ist, Spielverläufe und menschliches Wissen effektiv zu nutzen, um den Suchraum zu verkleinern und partielle Beobachtbarkeit zu bewältigen. Bemerkenswerterweise erfordert unser Framework kein zusätzliches LLM-Training. Wir evaluieren Pok\'eChamp im populären Gen 9 OU-Format. Wenn es von GPT-4o angetrieben wird, erreicht es eine Gewinnrate von 76 % gegen den besten bestehenden LLM-basierten Bot und 84 % gegen den stärksten regelbasierten Bot, was seine überlegene Leistung demonstriert. Selbst mit einem Open-Source-Modell von Llama 3.1 mit 8 Milliarden Parametern übertrifft Pok\'eChamp den bisher besten LLM-basierten Bot, Pok\'ellmon, der von GPT-4o angetrieben wird, mit einer Gewinnrate von 64 %. Pok\'eChamp erreicht eine projizierte Elo von 1300-1500 auf der Pok\'emon Showdown Online-Leiter, was es unter die besten 30%-10% der menschlichen Spieler platziert. Darüber hinaus stellt diese Arbeit den größten Datensatz von echten Pok\'emon-Kämpfen zusammen, der über 3 Millionen Spiele umfasst, darunter mehr als 500.000 hochrangige Matches. Basierend auf diesem Datensatz etablieren wir eine Reihe von Kampfbenchmarks und Rätseln, um spezifische Kampffähigkeiten zu bewerten. Wir liefern außerdem wichtige Updates für die lokale Spiel-Engine. Wir hoffen, dass diese Arbeit weitere Forschungen fördert, die Pok\'emon-Kämpfe als Benchmark nutzen, um LLM-Technologien mit spieltheoretischen Algorithmen zur Lösung allgemeiner Multiagentenprobleme zu integrieren. Videos, Code und Datensatz sind verfügbar unter https://sites.google.com/view/pokechamp-llm.
Halluzinationen in LLMs stellen ein erhebliches Problem für deren sicheren Einsatz in realen Anwendungen dar. Jüngste Ansätze haben den latenten Raum von LLMs für die Halluzinationserkennung genutzt, doch deren Embeddings, die eher auf linguistische Kohärenz als auf faktische Genauigkeit optimiert sind, scheitern oft daran, wahrheitsgemäße und halluzinierte Inhalte klar zu trennen. Zu diesem Zweck schlagen wir den Truthfulness Separator Vector (TSV) vor, einen leichtgewichtigen und flexiblen Steuerungsvektor, der den Repräsentationsraum des LLMs während der Inferenz umgestaltet, um die Trennung zwischen wahrheitsgemäßen und halluzinierten Ausgaben zu verbessern, ohne dabei Modellparameter zu verändern. Unser zweistufiges Framework trainiert zunächst den TSV anhand einer kleinen Menge gelabelter Beispiele, um kompakte und gut getrennte Cluster zu bilden. Anschließend wird der Beispielsatz mit ungelabelten LLM-Generierungen angereichert, wobei ein auf optimalem Transport basierender Algorithmus für die Pseudolabelierung in Kombination mit einem konfidenzbasierten Filterungsprozess eingesetzt wird. Umfangreiche Experimente zeigen, dass der TSV mit minimalen gelabelten Daten state-of-the-art Leistung erzielt, eine starke Generalisierung über verschiedene Datensätze hinweg aufweist und eine praktische Lösung für reale LLM-Anwendungen bietet.
Jüngste Fortschritte in der Text-zu-Video (T2V)-Generierung wurden durch zwei konkurrierende Paradigmen vorangetrieben: autoregressive Sprachmodelle und Diffusionsmodelle. Jedes dieser Paradigmen weist jedoch inhärente Einschränkungen auf: Sprachmodelle kämpfen mit visueller Qualität und Fehlerakkumulation, während Diffusionsmodelle an semantischem Verständnis und kausaler Modellierung mangeln. In dieser Arbeit schlagen wir LanDiff vor, ein hybrides Framework, das die Stärken beider Paradigmen durch eine grob-zu-fein-Generierung synergistisch vereint. Unsere Architektur führt drei Schlüsselinnovationen ein: (1) einen semantischen Tokenizer, der 3D-Visualmerkmale durch effiziente semantische Kompression in kompakte 1D-diskrete Repräsentationen verdichtet und dabei ein Kompressionsverhältnis von 14.000:1 erreicht; (2) ein Sprachmodell, das semantische Tokens mit hochrangigen semantischen Beziehungen generiert; (3) ein Streaming-Diffusionsmodell, das grobe Semantik in hochauflösende Videos verfeinert. Experimente zeigen, dass LanDiff, ein 5B-Modell, im VBench T2V-Benchmark eine Punktzahl von 85,43 erreicht und damit die state-of-the-art Open-Source-Modelle Hunyuan Video (13B) sowie andere kommerzielle Modelle wie Sora, Keling und Hailuo übertrifft. Darüber hinaus erzielt unser Modell auch Spitzenleistungen in der Generierung langer Videos und übertrifft andere Open-Source-Modelle in diesem Bereich. Unsere Demo kann unter https://landiff.github.io/ eingesehen werden.
Mixture-of-Experts (MoE) verbessert die Modellleistung bei gleichzeitiger Beibehaltung der Recheneffizienz, was es besonders für groß angelegte Anwendungen geeignet macht. Allerdings arbeiten Experten im bestehenden MoE-Paradigma als Einzelpersonen, wodurch hochwertige Interaktionen zwischen den Experten fehlen. Darüber hinaus wurden sie nicht effektiv auf Attention-Blöcke erweitert, was weitere Effizienzsteigerungen einschränkt. Um diese Probleme zu lösen, schlagen wir Union-of-Experts (UoE) vor, das den Transformer in eine gleichwertige Gruppe von Experten zerlegt und dann dynamisches Routing auf Eingabedaten und Experten implementiert. Unser Ansatz erweitert das MoE-Design mit drei wesentlichen Innovationen: (1) Wir haben eine gleichwertige Expertenzerlegung sowohl auf MLP-Blöcke als auch auf Attention-Blöcke basierend auf Matrixpartitionierung in Tensor-Parallelität durchgeführt. (2) Wir haben zwei Routing-Paradigmen entwickelt: patchweise Datenauswahl und Expertenauswahl, um Routing auf verschiedenen Ebenen anzuwenden. (3) Wir entwerfen die Architektur des UoE-Modells, einschließlich Selective Multi-Head Attention (SMHA) und Union-of-MLP-Experts (UoME). (4) Wir entwickeln eine parallele Implementierung des Routings und der Berechnungsoperationen von UoE und optimieren die Effizienz basierend auf der Hardware-Verarbeitungsanalyse. Die Experimente zeigen, dass das mit UoE ausgestattete Modell Full Attention, state-of-the-art MoEs und effiziente Transformer in mehreren Aufgaben sowohl im Bild- als auch im natürlichen Sprachbereich übertrifft. Die Quellcodes sind unter https://github.com/YujiaoYang-work/UoE verfügbar.
Das Bereitstellen von großen Sprachmodellen (LLMs) ist kostspielig. Allerdings kann die Post-Training-Gewichtsquantisierung dieses Problem lösen, indem sie sowohl die Größe der Modelle für begrenzten Speicherplatz komprimiert als auch Bandbreite für die Beschleunigung einspart. Da nicht alle Gewichtsdimensionen gleich wichtig sind, basieren diese Methoden typischerweise auf einem Sensitivitätsmetrik, der den elementweisen Einfluss der Gewichte auf die Verlustfunktion angibt und verwendet wird, um die ursprünglichen Gewichte für eine bessere Quantisierung vorzuverarbeiten. In dieser Arbeit führen wir eine empirische Studie zur Genauigkeit des Sensitivitätsmetriks durch und stellen fest, dass bestehende gradienten- und hessianbasierte Metriken sehr ungenau sind: Sie unterschätzen den Einfluss der Quantisierung auf die Verlustfunktion um Größenordnungen, hauptsächlich aufgrund des kleinen Konvergenzradius der lokalen 2. Ordnungs-Approximation, d.h. des Gradienten- und Hessian-Terms in der Taylor-Formel. Um dieses Problem zu lösen, schlagen wir das Post-Quantization-Integral (PQI) vor, ein genaues Metrik zur feinkörnigen Schätzung der posteriori Sensitivität. Um dieses genaue Metrik zu nutzen, schlagen wir weiterhin ReQuant vor, ein einfaches, aber leistungsstarkes Framework, das hauptsächlich aus zwei Dense-and-Sparse-Detach-Komponenten besteht: selbstadaptive Ausreißerauswahl und schrittweise Detachierung signifikanter Gewichte. Die Ergebnisse zeigen, dass ReQuant state-of-the-art Post-Training-Quantisierungsmethoden verbessert, mit einer deutlichen Verbesserung von 2,66 Perplexity-Gewinn auf Llama 3.2 1B mit QTIP.
Inference-Time Scaling war entscheidend für den Erfolg aktueller Modelle wie OpenAI o1 und DeepSeek R1. Viele Techniken, die zum Trainieren von Modellen für Inference-Time Scaling verwendet werden, erfordern jedoch, dass Aufgaben überprüfbare Antworten haben, was ihre Anwendung auf Bereiche wie Mathematik, Programmierung und logisches Denken beschränkt. Wir lassen uns davon inspirieren, wie Menschen erste Versuche unternehmen, detailliertes Feedback von anderen einholen und auf der Grundlage solcher Rückmeldungen Verbesserungen in einer Vielzahl offener Aufgaben vornehmen. Zu diesem Zweck sammeln wir Daten und trainieren spezialisierte Feedback- und Edit-Modelle, die in der Lage sind, Inference-Time Scaling für offene, allgemeine Aufgaben durchzuführen. In unserem Setup generiert ein Modell eine erste Antwort, die von einem zweiten Modell Feedback erhält, das dann von einem dritten Modell verwendet wird, um die Antwort zu bearbeiten. Wir zeigen, dass die Leistung auf Arena Hard, einem Benchmark, der stark den Chatbot Arena Elo vorhersagt, durch die Skalierung der Anzahl von Entwürfen für erste Antworten, effektivem Feedback und bearbeiteten Antworten gesteigert werden kann. Bei optimaler Skalierung kann unser Setup, das auf 70B-Modellen der Llama-3-Familie basiert, Stand 5. März 2025 eine Spitzenleistung von 92,7 auf Arena Hard erreichen und damit OpenAI o1-preview-2024-09-12 mit 90,4 und DeepSeek R1 mit 92,3 übertreffen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in der maschinellen Übersetzung erzielt und beeindruckende Leistungen über diverse Sprachen hinweg gezeigt. Dennoch bleibt „Translationese“, das durch allzu wörtliche und unnatürliche Übersetzungen gekennzeichnet ist, eine anhaltende Herausforderung in LLM-basierten Übersetzungssystemen. Trotz ihres Vortrainings auf umfangreichen Korpora natürlicher Äußerungen zeigen LLMs Translationese-Fehler und erzeugen unerwartet unnatürliche Übersetzungen, die auf Verzerrungen zurückzuführen sind, die während des überwachten Feinabstimmens (SFT) eingeführt werden. In dieser Arbeit evaluieren wir systematisch die Verbreitung von Translationese in LLM-generierten Übersetzungen und untersuchen ihre Ursprünge während des überwachten Trainings. Wir führen Methoden ein, um diese Verzerrungen zu mildern, einschließlich der Überarbeitung von Goldreferenzen und der Filterung unnatürlicher Trainingsinstanzen. Empirische Auswertungen zeigen, dass diese Ansätze Translationese signifikant reduzieren und gleichzeitig die Natürlichkeit der Übersetzung verbessern, was durch menschliche Bewertungen und automatische Metriken bestätigt wird. Unsere Ergebnisse unterstreichen die Notwendigkeit von trainingsbewussten Anpassungen, um die Übersetzungsausgaben von LLMs zu optimieren und den Weg für flüssigere und zielsprachenkonsistentere Übersetzungen zu ebnen. Wir veröffentlichen die Daten und den Code unter https://github.com/yafuly/LLM_Translationese.
Die effiziente Lösung bayesscher inverser Probleme bleibt eine bedeutende Herausforderung aufgrund der Komplexität posteriorer Verteilungen und der rechenintensiven Natur traditioneller Sampling-Methoden. Gegeben eine Reihe von Beobachtungen und das Vorwärtsmodell, möchten wir die Verteilung der Parameter, bedingt auf die beobachteten experimentellen Daten, rekonstruieren. Wir zeigen, dass durch die Kombination von Conditional Flow Matching (CFM) mit einer transformer-basierten Architektur effizient aus solchen Verteilungen, bedingt auf eine variable Anzahl von Beobachtungen, gesampelt werden kann.
Während der transferübergreifende Sprachtansfer für die multilingualen Fähigkeiten moderner Sprachmodelle entscheidend ist, ist der genaue Mechanismus dahinter noch nicht gut verstanden. In diesem Artikel untersuchen wir, was mit einem monolingualen Sprachmodell geschieht, wenn es beginnt, in einer zweiten Sprache trainiert zu werden. Konkret trainieren wir kleine bilinguale Modelle, bei denen wir die Datenmenge für jede Sprache und die Reihenfolge der Sprachbegegnung kontrollieren. Um Hinweise auf gemeinsame multilinguale Repräsentationen zu finden, greifen wir auf das Konzept des strukturellen Primings zurück, eine Methode, die zur Untersuchung grammatikalischer Repräsentationen bei Menschen verwendet wird. Zunächst replizieren wir frühere Ergebnisse zum transferübergreifenden strukturellen Priming und stellen fest, dass nach der Kontrolle der Trainingsdatenmenge und der Sprachbegegnung asymmetrische Effekte über Sprachpaare und Richtungen hinweg auftreten. Wir argumentieren, dass diese Asymmetrie Hypothesen über menschliche strukturelle Priming-Effekte beeinflussen könnte. Außerdem zeigen wir, dass die strukturellen Priming-Effekte bei weniger ähnlichen Sprachpaaren weniger robust sind, was potenzielle Grenzen des transferübergreifenden Sprachtansferlernens und gemeinsamer Repräsentationen für typologisch unterschiedliche Sprachen verdeutlicht.
Software-Projekte gedeihen durch die Beteiligung und Beiträge von Personen aus unterschiedlichen Hintergründen. Toxische Sprache und negative Interaktionen können jedoch die Teilnahme und Bindung von Mitwirkenden behindern und Neulinge verprellen. Proaktive Moderationsstrategien zielen darauf ab, Toxizität zu verhindern, indem sie Gespräche ansprechen, die von ihrem ursprünglichen Zweck abgewichen sind. Diese Studie zielt darauf ab, Gesprächsabschweifungen, die zu Toxizität auf GitHub führen, zu verstehen und vorherzusagen. Um diese Forschung zu ermöglichen, haben wir einen neuartigen Datensatz zusammengestellt, der 202 toxische Konversationen von GitHub mit annotierten Abschweifungspunkten sowie 696 nicht-toxische Konversationen als Baseline umfasst. Basierend auf diesem Datensatz identifizieren wir einzigartige Merkmale von toxischen Gesprächen und Abschweifungspunkten, einschließlich linguistischer Marker wie Pronomen der zweiten Person, Verneinungsbegriffe und Töne von bitterer Frustration und Ungeduld sowie Muster in der Gesprächsdynamik zwischen Projektmitwirkenden und externen Teilnehmern. Gestützt auf diese empirischen Beobachtungen schlagen wir einen proaktiven Moderationsansatz vor, um potenziell schädliche Gespräche automatisch zu erkennen und zu adressieren, bevor sie eskalieren. Durch die Nutzung moderner LLMs entwickeln wir eine Technik zur Zusammenfassung von Gesprächsverläufen, die die Entwicklung von Diskussionen erfasst und frühe Anzeichen von Abschweifungen identifiziert. Unsere Experimente zeigen, dass LLM-Prompts, die auf die Zusammenfassung von GitHub-Konversationen zugeschnitten sind, einen F1-Score von 69 % bei der Vorhersage von Gesprächsabschweifungen erreichen und damit eine deutliche Verbesserung gegenüber einer Reihe von Baseline-Ansätzen darstellen.