papers.description
Wir untersuchen eine neuartige Architektur für Sprachmodelle, die in der Lage ist, die Rechenleistung zur Testzeit durch implizites Schlussfolgern im latenten Raum zu skalieren. Unser Modell funktioniert, indem es einen rekurrenten Block iteriert und sich somit zur Testzeit beliebig tief entfaltet. Dies steht im Gegensatz zu gängigen Schlussfolgerungsmodellen, die die Rechenleistung durch die Erzeugung von mehr Tokens erhöhen. Im Gegensatz zu Ansätzen, die auf Ketten von Gedanken basieren, erfordert unser Ansatz keine spezialisierten Trainingsdaten, kann mit kleinen Kontextfenstern arbeiten und kann Arten des Schlussfolgerns erfassen, die nicht leicht in Worte gefasst werden können. Wir skalieren ein Proof-of-Concept-Modell auf 3,5 Milliarden Parameter und 800 Milliarden Tokens. Wir zeigen, dass das resultierende Modell seine Leistung bei Schlussfolgerungstests verbessern kann, manchmal sogar dramatisch, bis zu einer Rechenlast, die der von 50 Milliarden Parametern entspricht.
Dieses Paper stellt Goku vor, eine hochmoderne Familie von gemeinsamen Bild- und Videoerzeugungsmodellen, die auf rektifizierten Fluss-Transformatoren basieren, um branchenführende Leistungen zu erzielen. Wir erläutern die grundlegenden Elemente, die eine hochwertige visuelle Erzeugung ermöglichen, einschließlich des Datenkurations-Pipelines, des Modellarchitekturdesigns, der Flussformulierung und der fortschrittlichen Infrastruktur für effizientes und robustes Training im großen Maßstab. Die Goku-Modelle zeigen überlegene Leistungen in qualitativen und quantitativen Bewertungen und setzen neue Maßstäbe in wichtigen Aufgaben. Speziell erzielt Goku 0,76 bei GenEval und 83,65 bei DPG-Bench für die Text-zu-Bild-Erzeugung sowie 84,85 bei VBench für Text-zu-Video-Aufgaben. Wir sind der Überzeugung, dass diese Arbeit wertvolle Einblicke und praktische Fortschritte für die Forschungsgemeinschaft bei der Entwicklung gemeinsamer Bild- und Videoerzeugungsmodelle bietet.
Obwohl Rotary Position Embedding (RoPE) und seine Varianten aufgrund ihrer Fähigkeit, lange Kontexte zu verarbeiten, weit verbreitet sind, bleibt die Erweiterung des 1D RoPE auf Videos mit ihrer komplexen raumzeitlichen Struktur eine offene Herausforderung. Diese Arbeit führt zunächst eine umfassende Analyse ein, die vier Schlüsselmerkmale identifiziert, die für die effektive Anpassung von RoPE an Videos wesentlich sind und die in früheren Arbeiten nicht vollständig berücksichtigt wurden. Im Rahmen unserer Analyse stellen wir eine anspruchsvolle V-NIAH-D (Visual Needle-In-A-Haystack mit Ablenkern) Aufgabe vor, die periodische Ablenker in V-NIAH integriert. Die V-NIAH-D Aufgabe zeigt, dass frühere RoPE-Varianten, die keine angemessene zeitliche Dimensionierung aufweisen, leicht von Ablenkern getäuscht werden. Basierend auf unserer Analyse stellen wir VideoRoPE vor, das über eine 3D-Struktur verfügt, die darauf ausgelegt ist, raumzeitliche Beziehungen zu bewahren. VideoRoPE zeichnet sich durch eine niedrigfrequente zeitliche Zuweisung zur Reduzierung periodischer Schwingungen, ein diagonales Layout zur Erhaltung der räumlichen Symmetrie und anpassbare zeitliche Abstände zur Entkopplung von zeitlicher und räumlicher Indizierung aus. VideoRoPE übertrifft konsistent frühere RoPE-Varianten in verschiedenen nachgelagerten Aufgaben wie der langen Videoabruf, dem Videoverständnis und der Videohalluzination. Unser Code wird verfügbar sein unter https://github.com/Wiselnn570/VideoRoPE.
Diffusions-Transformer (DiTs) mit 3D-Voll-Aufmerksamkeit erreichen einen Spitzenzustand in der Videogenerierung, leiden jedoch unter prohibitiven Rechenkosten - bei der Erzeugung eines nur 5 Sekunden langen 720P-Videos beansprucht die Aufmerksamkeit allein 800 von insgesamt 945 Sekunden Inferenzzeit. Dieser Artikel stellt das Schiebe-Kachel-Aufmerksamkeit (STA) vor, um diese Herausforderung anzugehen. STA nutzt die Beobachtung, dass die Aufmerksamkeitswerte in vorab trainierten Video-Diffusionsmodellen hauptsächlich in lokalisierten 3D-Fenstern konzentriert sind. Durch Verschieben und Aufmerksamkeit auf den lokalen raumzeitlichen Bereich beseitigt STA Redundanzen der Voll-Aufmerksamkeit. Im Gegensatz zur traditionellen tokenweisen Schiebefenster-Aufmerksamkeit (SWA) arbeitet STA kachelweise mit einem neuartigen, hardwarebewussten Schiebefensterdesign, das die Ausdruckskraft bewahrt und gleichzeitig hardwareeffizient ist. Mit sorgfältigen Optimierungen auf Kernebene bietet STA die erste effiziente Implementierung einer 2D/3D-Schiebefenster-ähnlichen Aufmerksamkeit und erreicht 58,79% MFU. Präzise beschleunigt STA die Aufmerksamkeit um das 2,8-17-fache gegenüber FlashAttention-2 (FA2) und das 1,6-10-fache gegenüber FlashAttention-3 (FA3). Bei dem führenden Video-DiT, HunyuanVideo, reduziert STA die Latenz von Ende zu Ende von 945s (FA3) auf 685s, ohne Qualitätsverlust und ohne Training zu benötigen. Durch die Aktivierung des Feintunings wird die Latenz weiter auf 268s gesenkt, bei nur einem 0,09%igen Rückgang auf VBench.
Ein Ansatz zur Reduzierung der massiven Kosten großer Sprachmodelle (LLMs) besteht in der Verwendung von quantisierten oder spärlichen Darstellungen für das Training oder den Einsatz. Während post-Training-Kompressionsmethoden sehr beliebt sind, ist die Frage, ob noch genauere komprimierte Modelle durch direktes Training über solchen Darstellungen erzielt werden können, d.h. Quantisierungs-bewusstes Training (QAT), noch offen: Zum Beispiel hat eine kürzlich durchgeführte Studie (arXiv:2411.04330v2) die "optimale" Bit-Breite ermittelt, mit der Modelle unter Verwendung von QAT trainiert werden können, während sie konkurrenzfähig in Bezug auf Genauigkeit mit der Standard-FP16/BF16-Präzision bleiben, bei 8-Bit-Gewichten und Aktivierungen. Wir bringen diesen Stand der Technik mit einer neuen Methode namens QuEST voran, die Pareto-wettbewerbsfähig mit FP16 ist, d.h. sie bietet eine bessere Genauigkeit bei geringerer Modellgröße, während Modelle mit Gewichten und Aktivierungen in 4-Bit oder weniger trainiert werden. Darüber hinaus ermöglicht QuEST stabiles Training mit 1-Bit-Gewichten und Aktivierungen. QuEST erreicht dies durch Verbesserung zweier Schlüsselaspekte von QAT-Methoden: (1) genaue und schnelle Quantisierung der (kontinuierlichen) Verteilungen von Gewichten und Aktivierungen durch Hadamard-Normalisierung und MSE-optimale Anpassung; (2) ein neuer Vertrauensgradientenschätzer, der auf der Idee basiert, den Fehler zwischen dem über quantisierte Zustände berechneten rauschigen Gradienten und dem "wahren" (aber unbekannten) Vollpräzisionsgradienten explizit zu minimieren. Experimente an Llama-ähnlichen Architekturen zeigen, dass QuEST stabile Skalierungsgesetze über den gesamten Bereich der hardwareunterstützten Präzisionen induziert und auf spärliche Darstellungen erweitert werden kann. Wir bieten GPU-Kernelunterstützung an, die zeigt, dass von QuEST erzeugte Modelle effizient ausgeführt werden können. Unser Code ist unter https://github.com/IST-DASLab/QuEST verfügbar.
Die Inpainting von dreidimensionalen Szenen ist entscheidend für Anwendungen von Virtual Reality bis zur architektonischen Visualisierung, doch bestehende Methoden haben Schwierigkeiten mit der Ansichtskonsistenz und der geometrischen Genauigkeit in 360{\deg} unbeschränkten Szenen. Wir präsentieren AuraFusion360, eine neuartige referenzbasierte Methode, die hochwertige Objektentfernung und Lochfüllung in 3D-Szenen ermöglicht, die durch Gauss'sches Splatting dargestellt werden. Unser Ansatz führt (1) die Tiefen-bewusste Erzeugung von unsichtbaren Masken für eine genaue Okklusionserkennung, (2) Adaptive Guided Depth Diffusion, eine Zero-Shot-Methode für eine genaue initiale Punktplatzierung ohne zusätzliches Training, und (3) SDEdit-basierte Detailverbesserung für eine Mehr-Ansicht-Kohärenz ein. Wir stellen auch 360-USID vor, den ersten umfassenden Datensatz für das Inpainting von 360{\deg} unbeschränkten Szenen mit Ground Truth. Umfangreiche Experimente zeigen, dass AuraFusion360 bestehende Methoden signifikant übertrifft, eine überlegene perzeptive Qualität erreicht und gleichzeitig die geometrische Genauigkeit bei dramatischen Ansichtsänderungen beibehält. Besuchen Sie unsere Projektseite für Videoergebnisse und den Datensatz unter https://kkennethwu.github.io/aurafusion360/.
DiT-Diffusionsmodelle haben große Erfolge bei der Generierung von Text-zu-Video erzielt, indem sie ihre Skalierbarkeit in Modellkapazität und Datenumfang nutzen. Eine hohe inhaltliche und Bewegungstreue, die mit Textvorgaben übereinstimmt, erfordert jedoch oft große Modellparameter und eine beträchtliche Anzahl von Funktionsauswertungen (NFEs). Realistische und visuell ansprechende Details spiegeln sich typischerweise in hochauflösenden Ausgaben wider, was den Rechenaufwand insbesondere für einstufige DiT-Modelle weiter erhöht. Um diesen Herausforderungen zu begegnen, schlagen wir ein neuartiges zweistufiges Framework namens FlashVideo vor, das die Modellkapazität und NFEs strategisch über die Stufen hinweg verteilt, um die Generierungstreue und -qualität auszubalancieren. In der ersten Stufe wird die Treue zum Vorgabewort durch einen Prozess der Generierung mit geringer Auflösung priorisiert, wobei große Parameter und ausreichende NFEs zur Verbesserung der Recheneffizienz eingesetzt werden. Die zweite Stufe etabliert eine Flussanpassung zwischen niedriger und hoher Auflösung, um feine Details mit minimalen NFEs effektiv zu generieren. Quantitative und visuelle Ergebnisse zeigen, dass FlashVideo eine hochmoderne Generierung von hochauflösenden Videos mit überragender Recheneffizienz erreicht. Darüber hinaus ermöglicht das zweistufige Design den Benutzern, die anfängliche Ausgabe vor der Verpflichtung zur Generierung in voller Auflösung zu überprüfen, wodurch die Rechenkosten und Wartezeiten erheblich reduziert und die kommerzielle Machbarkeit verbessert werden.
Die Integration von Mechanismen des langsamen Denkens in große Sprachmodelle (LLMs) bietet einen vielversprechenden Weg zur Erreichung von AGI-Reasonern der Stufe 2, wie es beispielsweise bei Systemen wie OpenAI's o1 der Fall ist. Es bleiben jedoch mehrere bedeutende Herausforderungen bestehen, darunter ineffizientes Überdenken und eine übermäßige Abhängigkeit von Hilfsbelohnungsmodellen. Wir weisen darauf hin, dass diese Einschränkungen auf der Unfähigkeit von LLMs beruhen, den Suchprozess zu internalisieren, einem Schlüsselelement effektiven Denkens. Ein entscheidender Schritt zur Bewältigung dieses Problems besteht darin, LLMs zu ermöglichen, autonom zu bestimmen, wann und wo sie einen Rückzug einlegen sollen, eine grundlegende Operation in traditionellen Suchalgorithmen. Zu diesem Zweck schlagen wir einen Selbstrückzugmechanismus vor, der LLMs die Fähigkeit verleiht, sowohl während des Trainings als auch bei der Inferenz zurückzugehen. Dieser Mechanismus verbessert nicht nur die Denkfähigkeit, sondern auch die Effizienz, indem er langsame Denkprozesse durch Selbstverbesserung in schnellere Denkprozesse umwandelt. Empirische Bewertungen zeigen, dass unser Vorschlag die Denkfähigkeiten von LLMs signifikant verbessert und eine Leistungssteigerung von über 40 Prozent im Vergleich zur Methode des überwachten Feintunings des optimalen Pfads erreicht. Wir sind der Meinung, dass diese Studie einen neuartigen und vielversprechenden Weg für die Entwicklung fortschrittlicherer und robusterer Reasoner aufzeigt.
Agentur ist die Fähigkeit eines Systems, Ergebnisse auf ein Ziel hin zu lenken, und ist ein zentrales Thema in den Bereichen Biologie, Philosophie, Kognitionswissenschaft und künstliche Intelligenz. Die Feststellung, ob ein System Agentur zeigt, ist eine berüchtigt schwierige Frage: Dennett (1989) hebt beispielsweise das Rätsel hervor, welche Prinzipien entscheiden können, ob ein Stein, ein Thermostat oder ein Roboter jeweils über Agentur verfügen. Wir behandeln dieses Rätsel hier aus der Perspektive des Reinforcement-Learning, indem wir argumentieren, dass Agentur grundsätzlich rahmenabhängig ist: Jede Messung der Agentur eines Systems muss relativ zu einem Bezugssystem erfolgen. Wir stützen diese Behauptung, indem wir ein philosophisches Argument vorlegen, dass die von Barandiaran et al. (2009) und Moreno (2018) vorgeschlagenen wesentlichen Eigenschaften der Agentur selbst rahmenabhängig sind. Wir kommen zu dem Schluss, dass jede grundlegende Wissenschaft der Agentur Rahmendependenz erfordert, und diskutieren die Auswirkungen dieser Behauptung für das Reinforcement-Learning.
Der rasante Fortschritt großer Sprachmodelle (Large Language Models, LLMs) hat den Bedarf an Leitplankenmodellen erhöht, um eine verantwortungsbewusste Nutzung sicherzustellen, insbesondere bei der Erkennung von unsicheren und illegalen Inhalten. Während umfangreiche Sicherheitsdaten in Englisch vorhanden sind, ist das mehrsprachige Leitplankenmodellieren aufgrund der Knappheit von Open-Source-Sicherheitsdaten in anderen Sprachen noch wenig erforscht. Um diese Lücke zu schließen, schlagen wir ein neuartiges Zwei-Spieler-Verstärkendes Lernen (Reinforcement Learning, RL)-Framework vor, in dem ein Generator und ein Leitplankenmodell adversativ miteinander interagieren, um hochwertige synthetische Daten für das mehrsprachige Leitplanken-Training zu erzeugen. Wir formalisieren diese Interaktion theoretisch als ein Zwei-Spieler-Spiel und zeigen die Konvergenz zu einem Nash-Gleichgewicht. Empirische Bewertungen zeigen, dass unser Modell \ours die Modelle der Spitzenklasse übertrifft und auf Englisch-Benchmarks eine Verbesserung von fast 10% gegenüber LlamaGuard3 (8B) erzielt, während es bei der Inferenz 4,5-mal schneller ist und ein deutlich kleineres Modell (0,5B) verwendet. Wir erzielen bedeutende Fortschritte bei mehrsprachigen Sicherheitsaufgaben, insbesondere bei der Bewältigung des Ungleichgewichts für Sprachen mit geringeren Ressourcen in einem gesammelten realen Datensatz. Ablationsstudien betonen die entscheidende Rolle der synthetischen Datenerzeugung bei der Überbrückung des Ungleichgewichts bei Open-Source-Daten zwischen Englisch und anderen Sprachen. Diese Ergebnisse etablieren einen skalierbaren und effizienten Ansatz zur Erzeugung synthetischer Daten und ebnet den Weg für verbesserte mehrsprachige Leitplankenmodelle zur Verbesserung der Sicherheit von LLMs. Der Code, das Modell und die Daten werden unter https://github.com/yihedeng9/DuoGuard als Open Source verfügbar sein.
Die Lösung komplexer Planungsprobleme erfordert, dass Large Language Models (LLMs) den Zustandsübergang explizit modellieren, um Regelverstöße zu vermeiden, Einschränkungen einzuhalten und die Optimalität sicherzustellen - eine Aufgabe, die durch die inhärente Mehrdeutigkeit natürlicher Sprache behindert wird. Um diese Mehrdeutigkeit zu überwinden, wird die Planning Domain Definition Language (PDDL) als Planungsabstraktion genutzt, die präzise und formale Zustandsbeschreibungen ermöglicht. Mit PDDL können wir ein symbolisches Weltmodell generieren, auf das klassische Suchalgorithmen wie A* nahtlos angewendet werden können, um optimale Pläne zu finden. Allerdings bleibt die direkte Generierung von PDDL-Domänen mit aktuellen LLMs aufgrund des Mangels an PDDL-Trainingsdaten eine offene Herausforderung. Um dieser Herausforderung zu begegnen, schlagen wir vor, die Testzeitberechnung von LLMs zu erhöhen, um ihre PDDL-Argumentationsfähigkeiten zu verbessern und somit die Erzeugung hochwertiger PDDL-Domänen zu ermöglichen. Konkret führen wir einen einfachen, aber effektiven Algorithmus ein, der zunächst einen Best-of-N-Sampling-Ansatz verwendet, um die Qualität der anfänglichen Lösung zu verbessern, und dann die Lösung auf fein abgestimmte Weise mit verbalisiertem maschinellem Lernen verfeinert. Unsere Methode übertrifft o1-mini bei der Generierung von PDDL-Domänen um einen erheblichen Betrag und erreicht eine Erfolgsrate von über 50% bei zwei Aufgaben (d.h. Generierung von PDDL-Domänen aus natürlicher Sprachbeschreibung oder PDDL-Problemen). Dies erfolgt ohne zusätzliches Training. Indem wir PDDL als Zustandsabstraktion nutzen, ist unsere Methode in der Lage, fast alle Wettbewerbsplanungsaufgaben auf dem aktuellen Stand der Technik zu übertreffen.
Große Sprachmodelle (LLMs) erzielen beeindruckende Leistungen durch die Skalierung von Modellparametern, was jedoch mit erheblichem Inferenzaufwand einhergeht. Feedforward-Netzwerke (FFNs), die die Parameter von LLMs dominieren, weisen eine hohe Aktivitätssparsamkeit in versteckten Neuronen auf. Um dies auszunutzen, haben Forscher vorgeschlagen, eine Mischung-von-Experten (MoE)-Architektur zu verwenden, bei der nur eine Teilmenge der Parameter aktiviert wird. Allerdings erfordern bestehende Ansätze oft umfangreiche Trainingsdaten und Ressourcen, was ihre Praktikabilität einschränkt. Wir schlagen CMoE (Carved MoE) vor, ein neuartiges Framework zur effizienten Erstellung von MoE-Modellen aus dichten Modellen. CMoE erzielt bemerkenswerte Leistungen durch effiziente Expertengruppierung und leichte Anpassung. Zunächst werden Neuronen basierend auf Aktivierungsraten in gemeinsame und geroutete Experten gruppiert. Anschließend konstruieren wir einen Routing-Mechanismus ohne Neuausrichtung, der einen differenzierbaren Routing-Prozess und Lastenausgleich integriert. Mit bescheidenen Daten erzeugt CMoE innerhalb von fünf Minuten ein gut gestaltetes, nutzbares MoE aus einem 7B-dichten Modell. Durch leichtgewichtiges Feintuning erreicht es eine schnelle Leistungssteigerung in weniger als einer Stunde. Unser Code ist öffentlich verfügbar unter https://github.com/JarvisPei/CMoE.
Wir präsentieren On-device Sora, eine wegweisende Lösung für die auf Diffusion basierende Text-zu-Video-Erzeugung auf Mobilgeräten, die effizient auf Geräten der Smartphone-Klasse arbeitet. Aufbauend auf Open-Sora wendet On-device Sora drei neuartige Techniken an, um den Herausforderungen der auf Diffusion basierenden Text-zu-Video-Erzeugung auf rechen- und speicherbegrenzten mobilen Geräten zu begegnen. Erstens reduziert Linear Proportional Leap (LPL) die übermäßigen Rauschunterdrückungsschritte, die für die Video-Diffusion erforderlich sind, durch einen effizienten sprungbasierten Ansatz. Zweitens minimiert Temporal Dimension Token Merging (TDTM) die intensive Token-Verarbeitung in Aufmerksamkeitsschichten, indem aufeinanderfolgende Tokens entlang der zeitlichen Dimension zusammengeführt werden. Drittens partitioniert Concurrent Inference with Dynamic Loading (CI-DL) große Modelle dynamisch in kleinere Blöcke und lädt sie in den Speicher für gleichzeitige Modellinferenz, um effektiv den Herausforderungen des begrenzten Gerätespeichers zu begegnen. Wir implementieren On-device Sora auf dem iPhone 15 Pro, und experimentelle Evaluationen zeigen, dass es in der Lage ist, hochwertige Videos auf dem Gerät zu erzeugen, vergleichbar mit denen, die von Open-Sora auf leistungsstarken GPUs erstellt werden. Diese Ergebnisse zeigen, dass On-device Sora eine effiziente und hochwertige Videoerzeugung auf ressourcenbeschränkten mobilen Geräten ermöglicht, die Zugänglichkeit erweitert, die Benutzerdaten schützt, die Abhängigkeit von Cloud-Infrastruktur verringert und die damit verbundenen Kosten senkt. Wir sehen das vorgeschlagene On-device Sora als einen bedeutenden ersten Schritt zur Demokratisierung modernster generativer Technologien an, die Videoerzeugungsfähigkeiten auf handelsüblichen mobilen und eingebetteten Geräten ermöglichen. Die Code-Implementierung ist öffentlich auf einem GitHub-Repository verfügbar: https://github.com/eai-lab/On-device-Sora.
Die Modellfusion integriert die Gewichte mehrerer aufgabenbezogener Modelle in ein einziges Multi-Task-Modell. Trotz des aktuellen Interesses an diesem Problem bleibt eine signifikante Leistungslücke zwischen den kombinierten und einzelnen Task-Modellen bestehen. In diesem Paper untersuchen wir die Schlüsselmerkmale von Aufgabenmatrizen - Gewichtsaktualisierungsmatrizen, die auf ein vorab trainiertes Modell angewendet werden -, die eine effektive Fusion ermöglichen. Wir zeigen, dass die Ausrichtung zwischen singulären Komponenten von aufgabenbezogenen und fusionierten Matrizen stark mit der Leistungsverbesserung gegenüber dem vorab trainierten Modell korreliert. Basierend darauf schlagen wir ein isotropes Fusionsframework vor, das das singuläre Wertespektrum von Aufgabenmatrizen abflacht, die Ausrichtung verbessert und die Leistungslücke reduziert. Darüber hinaus integrieren wir sowohl gemeinsame als auch aufgabenbezogene Unterräume, um die Ausrichtung und Leistung weiter zu verbessern. Unser vorgeschlagener Ansatz erzielt Spitzenleistungen in verschiedenen Szenarien, einschließlich verschiedener Aufgabensets und Modellgrößen. Diese Arbeit trägt zum Verständnis der Dynamik der Modellfusion bei und bietet eine effektive Methodik zur Fusion von Modellen, ohne zusätzliches Training zu erfordern. Der Code ist verfügbar unter https://github.com/danielm1405/iso-merging.
Die Verallgemeinerung von Sprachmodellen (LMs) wird in aktiven Debatten diskutiert, die ihr Potenzial für allgemeine Intelligenz mit ihren Schwierigkeiten bei der grundlegenden Wissenszusammensetzung (z. B. Reverse/Transition Curse) gegenüberstellen. Diese Arbeit deckt das Phänomen linearer Korrelationen in LMs während der Wissenszusammensetzung auf. Zur Erklärung existiert eine lineare Transformation zwischen bestimmten verwandten Wissensinhalten, die die Vorhersage-Logits des nächsten Tokens von einem Prompt zum anderen abbildet, z. B. "X lebt in der Stadt" ⟶ "X lebt im Land" für jedes gegebene X. Dies spiegelt die Linearität in der menschlichen Wissenszusammensetzung wider, wie z. B. Paris ⟶ Frankreich. Unsere Ergebnisse deuten darauf hin, dass die lineare Transformation gegenüber groß angelegtem Feintuning widerstandsfähig ist, aktualisiertes Wissen verallgemeinert, wenn es mit realen Beziehungen übereinstimmt, aber Halluzinationen verursacht, wenn es abweicht. Empirische Ergebnisse legen nahe, dass lineare Korrelationen als potenzieller Identifikator für die Verallgemeinerung von LMs dienen können. Schließlich zeigen wir, dass solche linearen Korrelationen mit einem einzigen Feedforward-Netzwerk und vorab trainierten Vokabularrepräsentationen erlernt werden können, was darauf hindeutet, dass die Verallgemeinerung von LMs stark von Letzteren abhängt.
Seit der Einführung des Vision Transformers (ViT) wird die Patchifizierung schon lange als eine quasi Standardmethode zur Tokenisierung von Bildern für einfache visuelle Architekturen angesehen. Durch die Komprimierung der räumlichen Größe von Bildern kann dieser Ansatz die Tokenfolge effektiv verkürzen und die Rechenkosten von ViT-ähnlichen einfachen Architekturen reduzieren. In dieser Arbeit zielen wir darauf ab, den Informationsverlust zu untersuchen, der durch dieses auf Patchifizierung basierende komprimierende Kodierparadigma verursacht wird, und wie es das visuelle Verständnis beeinflusst. Wir führen umfangreiche Experimente zum Skalieren der Patchgröße durch und beobachten mit Begeisterung ein faszinierendes Skalierungsgesetz bei der Patchifizierung: Die Modelle können kontinuierlich von kleineren Patchgrößen profitieren und eine verbesserte Vorhersageleistung erzielen, bis sie die minimale Patchgröße von 1x1 erreichen, d.h., die Pixel-Tokenisierung. Diese Schlussfolgerung ist weitgehend auf verschiedene Vision-Aufgaben, verschiedene Eingabemaßstäbe und verschiedene Architekturen wie ViT und die neueren Mamba-Modelle anwendbar. Darüber hinaus entdecken wir als Nebenprodukt, dass bei kleineren Patches aufgabenbezogene Decoder-Köpfe für dichte Vorhersagen weniger kritisch werden. In den Experimenten skalieren wir erfolgreich die visuelle Sequenz auf eine außergewöhnliche Länge von 50.176 Token und erreichen eine wettbewerbsfähige Testgenauigkeit von 84,6% mit einem Modell in Basisgröße auf dem ImageNet-1k-Benchmark. Wir hoffen, dass diese Studie Einblicke und theoretische Grundlagen für zukünftige Arbeiten zum Aufbau nicht-kompressiver Vision-Modelle bieten kann. Der Code ist verfügbar unter https://github.com/wangf3014/Patch_Scaling.
Bestehende Methoden versagen dabei, Large Language Models (LLMs) effektiv zwischen textueller Argumentation und Code-Generierung zu lenken, wodurch symbolische Rechenfähigkeiten untergenutzt bleiben. Wir stellen CodeSteer vor, eine effektive Methode zur Steuerung der Code-/Textgenerierung von LLMs. Wir erstellen einen umfassenden Benchmark namens SymBench, der 37 symbolische Aufgaben mit anpassbarer Komplexität umfasst, und synthetisieren auch Datensätze von 12.000 mehrstufigen Anleitungs-/Generierungstrajectories und 5.500 Anleitungsvergleichspaaren. Wir feinabstimmen das Llama-3-8B-Modell mit einem neu konzipierten mehrstufigen überwachten Feintuning (SFT) und direkter Präferenzoptimierung (DPO). Das resultierende Modell, CodeSteerLLM, ergänzt um die vorgeschlagenen symbolischen und Selbstantwort-Prüfer, lenkt die Code-/Textgenerierung größerer Modelle effektiv. Die Ergänzung von GPT-4o mit CodeSteer erhöht seine durchschnittliche Leistung von 53,3 auf 86,4 und übertrifft sogar die bisher besten LLMs von OpenAI o1 (82,7), o1-preview (74,8) und DeepSeek R1 (76,8) in allen 37 Aufgaben (28 gesehen, 9 ungesehen). Für GPT-4o trainiert, zeigt CodeSteer eine überlegene Verallgemeinerbarkeit und bietet einen durchschnittlichen Leistungsschub von 41,8 auf Claude, Mistral und GPT-3.5. CodeSteer-geführte LLMs nutzen symbolisches Rechnen voll aus, um eine starke Leistung bei hochkomplexen Aufgaben aufrechtzuerhalten. Modelle, Datensätze und Codes sind verfügbar unter https://github.com/yongchao98/CodeSteer-v1.0.
Wir stellen Quantized Language-Image Pretraining (QLIP) vor, eine visuelle Tokenisierungsmethode, die modernste Rekonstruktionsqualität mit modernstem Zero-Shot-Bildverständnis kombiniert. QLIP trainiert einen binär-sphärisch-quantisierten Autoencoder mit Rekonstruktions- und Sprachbildausrichtungszielen. Wir sind die ersten, die zeigen, dass die beiden Ziele nicht im Widerspruch stehen müssen. Wir balancieren die beiden Verlustbegriffe dynamisch während des Trainings und zeigen, dass ein zweistufiger Trainingsansatz die Anforderungen an große Batches des Bild-Sprach-Pretrainings effektiv mit dem durch das Rekonstruktionsziel auferlegten Speicherengpass mischt. Wir validieren die Wirksamkeit von QLIP für multimodales Verständnis und textkonditionierte Bildgenerierung mit einem einzigen Modell. Speziell dient QLIP als Plug-and-Play-Ersatz für den visuellen Encoder für LLaVA und den Bild-Tokenizer für LlamaGen mit vergleichbarer oder sogar besserer Leistung. Schließlich zeigen wir, dass QLIP ein vereinheitlichtes gemischt-modalitäts-autoregressives Modell für Verständnis und Generierung ermöglicht.
Das Verständnis von Zeit anhand visueller Darstellungen ist eine grundlegende kognitive Fähigkeit, stellt jedoch nach wie vor eine Herausforderung für multimodale große Sprachmodelle (MLLMs) dar. In dieser Arbeit untersuchen wir die Fähigkeiten von MLLMs bei der Interpretation von Zeit und Datum anhand analoger Uhren und jährlicher Kalender. Um dies zu erleichtern, haben wir einen strukturierten Datensatz erstellt, der aus zwei Teilmengen besteht: 1) ClockQA, die verschiedene Arten von Uhren umfasst - Standard, Schwarz-Zifferblatt, ohne Sekundenzeiger, römische Ziffern und Pfeilzeiger - gepaart mit zeitbezogenen Fragen; und 2) CalendarQA, die aus jährlichen Kalenderbildern mit Fragen von allgemein bekannten Daten (z. B. Weihnachten, Neujahr) bis hin zu berechneten Daten (z. B. der 100. oder 153. Tag des Jahres) besteht. Unser Ziel ist es zu analysieren, wie MLLMs visuelle Erkennung, numerisches Denken und zeitliche Schlussfolgerungen durchführen können, wenn sie mit zeitbezogenen visuellen Daten konfrontiert werden. Unsere Bewertungen zeigen, dass trotz jüngster Fortschritte das zuverlässige Verständnis von Zeit für MLLMs nach wie vor eine bedeutende Herausforderung darstellt.
Große Sprachmodelle (LLMs) erzielen bemerkenswerte Leistungen bei anspruchsvollen Benchmarks, die häufig als Multiple-Choice-Frage-Antwort-Aufgaben strukturiert sind. Die Zero-shot Chain-of-Thought (CoT) Anregung verbessert das Denkvermögen in LLMs, bietet jedoch nur vage und allgemeine Anleitung ("denke Schritt für Schritt"). Dieses Papier stellt ARR vor, eine intuitive und effektive Zero-shot Anregungsmethode, die explizit drei Schlüsselschritte beim Lösen von Frage-Antwort-Aufgaben integriert: die Analyse der Frageabsicht, das Abrufen relevanter Informationen und das schrittweise Argumentieren. Umfassende Experimente über verschiedene und anspruchsvolle Frage-Antwort-Aufgaben zeigen, dass ARR die Baseline (ohne ARR-Anregung) konsistent verbessert und CoT übertrifft. Ablations- und Fallstudien bestätigen weiterhin die positiven Beiträge jedes Bestandteils: Analyse, Abruf und Argumentation. Insbesondere die Absichtsanalyse spielt eine wichtige Rolle bei ARR. Darüber hinaus festigen umfangreiche Bewertungen über verschiedene Modellgrößen, LLM-Serien und Generierungseinstellungen die Wirksamkeit, Robustheit und Generalisierbarkeit von ARR.
Das Skalieren von Daten und Rechenleistung ist entscheidend für den Erfolg des maschinellen Lernens. Allerdings erfordert Skalierung Vorhersagbarkeit: Wir möchten, dass Methoden nicht nur mit mehr Rechenleistung oder Daten gut funktionieren, sondern auch, dass ihre Leistung von kleinen Durchläufen aus vorhersehbar ist, ohne das groß angelegte Experiment durchführen zu müssen. In diesem Artikel zeigen wir, dass wertbasierte Off-Policy-RL-Methoden trotz der in der Community kursierenden Überlieferungen über ihr pathologisches Verhalten vorhersehbar sind. Zunächst zeigen wir, dass die Anforderungen an Daten und Rechenleistung zur Erreichung eines bestimmten Leistungsniveaus auf einer Pareto-Front liegen, die durch das Verhältnis von Aktualisierungen zu Daten (UTD) gesteuert wird. Durch die Schätzung dieser Front können wir den Bedarf an Daten vorhersagen, wenn mehr Rechenleistung gegeben ist, und den Bedarf an Rechenleistung vorhersagen, wenn mehr Daten gegeben sind. Zweitens bestimmen wir die optimale Zuweisung eines Gesamtressourcenbudgets für Daten und Rechenleistung für eine bestimmte Leistung und verwenden sie, um Hyperparameter zu bestimmen, die die Leistung für ein bestimmtes Budget maximieren. Drittens wird dieses Skalierungsverhalten durch die erste Schätzung vorhersagbarer Beziehungen zwischen Hyperparametern ermöglicht, die zur Verwaltung der Effekte von Überanpassung und Plastizitätsverlust, die für RL einzigartig sind, verwendet werden. Wir validieren unseren Ansatz unter Verwendung von drei Algorithmen: SAC, BRO und PQL auf DeepMind Control, OpenAI Gym und IsaacGym, wenn es um die Extrapolation auf höhere Ebenen von Daten, Rechenleistung, Budget oder Leistung geht.
Eine präzise Ausrichtung in Text-zu-Bild (T2I)-Systemen ist entscheidend, um sicherzustellen, dass die generierten visuellen Darstellungen nicht nur die Benutzerintentionen genau erfassen, sondern auch strengen ethischen und ästhetischen Maßstäben entsprechen. Vorfälle wie das Google Gemini-Fiasko, bei dem fehlgeleitete Ausgaben erheblichen öffentlichen Widerstand auslösten, unterstreichen die kritische Notwendigkeit robuster Ausrichtungsmechanismen. Im Gegensatz dazu haben große Sprachmodelle (LLMs) beachtliche Erfolge bei der Ausrichtung erzielt. Aufbauend auf diesen Fortschritten sind Forscher bestrebt, ähnliche Ausrichtungstechniken wie die Direkte Präferenzoptimierung (DPO) auf T2I-Systeme anzuwenden, um die Bildgenerierungstreue und -zuverlässigkeit zu verbessern. Wir stellen YinYangAlign vor, ein fortschrittliches Benchmarking-Framework, das systematisch die Ausrichtungstreue von T2I-Systemen quantifiziert und dabei sechs grundlegende und inhärent widersprüchliche Designziele anspricht. Jedes Paar repräsentiert grundlegende Spannungen in der Bildgenerierung, wie das Ausbalancieren der Einhaltung von Benutzeranweisungen mit kreativen Modifikationen oder das Aufrechterhalten von Vielfalt neben visueller Kohärenz. YinYangAlign umfasst detaillierte Axiom-Datensätze mit menschlichen Anweisungen, ausgerichteten (ausgewählten) Antworten, fehlgeleiteten (abgelehnten) KI-generierten Ausgaben und Erläuterungen der zugrunde liegenden Widersprüche.
Wir präsentieren einen vereinheitlichten Rahmen, der in der Lage ist, eine breite Palette von 3D-Aufgaben zu lösen. Unser Ansatz umfasst ein zustandsbehaftetes rekurrentes Modell, das seinen Zustandsrepräsentation kontinuierlich mit jeder neuen Beobachtung aktualisiert. Basierend auf einer Bildsequenz kann dieser sich entwickelnde Zustand verwendet werden, um metrische Punktwolken (3D-Punkte pro Pixel) für jedes neue Eingangsbild in Echtzeit zu generieren. Diese Punktwolken befinden sich in einem gemeinsamen Koordinatensystem und können zu einer kohärenten, dichten Szenenrekonstruktion akkumuliert werden, die sich mit dem Eintreffen neuer Bilder aktualisiert. Unser Modell, genannt CUT3R (Continuous Updating Transformer for 3D Reconstruction), erfasst umfassende Vorkenntnisse über reale Szenen: Es kann nicht nur präzise Punktwolken aus Bildbeobachtungen vorhersagen, sondern auch nicht gesehene Bereiche der Szene durch Erkundung virtueller, unbeobachteter Ansichten erschließen. Unsere Methode ist einfach, aber äußerst flexibel und akzeptiert natürlicherweise unterschiedliche Längen von Bildern, die entweder Videosequenzen oder ungeordnete Fotosammlungen sein können, die sowohl statische als auch dynamische Inhalte enthalten. Wir evaluieren unsere Methode in verschiedenen 3D/4D-Aufgaben und zeigen in jeder davon eine wettbewerbsfähige oder hochmoderne Leistung. Projektseite: https://cut3r.github.io/
Semantische Prompt-Caches reduzieren die Latenz und die Kosten großer Sprachmodell (LLM)-Inferenzen, indem sie zwischengespeicherte, von LLM generierte Antworten für semantisch ähnliche Prompts wiederverwenden. Vektorsimilaritätsmetriken weisen eine numerische Punktzahl zu, um die Ähnlichkeit zwischen einem eingebetteten Prompt und seinem nächsten Nachbarn im Cache zu quantifizieren. Bestehende Systeme verlassen sich auf einen statischen Schwellenwert, um zu klassifizieren, ob die Ähnlichkeitspunktzahl ausreicht, um zu einem Cachetreffer zu führen. Wir zeigen, dass dieser Einheitswert-Schwellenwert für verschiedene Prompts unzureichend ist. Wir schlagen VectorQ vor, ein Rahmenwerk zum Erlernen von einbettungsspezifischen Schwellenwertbereichen, die sich an die Komplexität und Unsicherheit einer Einbettung anpassen. Durch Evaluierungen an einer Kombination von vier verschiedenen Datensätzen zeigen wir, dass VectorQ konsistent besser abschneidet als führende Systeme bei allen statischen Schwellenwerten, wodurch die Cachetrefferquote um bis zu 12-fach erhöht und Fehlerquoten um bis zu 92% reduziert werden.
In zeitgenössischen Arbeitsumgebungen sind Besprechungen wesentlich für den Austausch von Ideen und die Sicherstellung der Teamausrichtung, stehen jedoch oft vor Herausforderungen wie Zeitverbrauch, Terminüberschneidungen und ineffizienter Beteiligung. Die jüngsten Fortschritte in Large Language Models (LLMs) haben ihre starken Fähigkeiten in der natürlichen Sprachgenerierung und im Schlussfolgern gezeigt, was die Frage aufwirft: Können LLMs Teilnehmer in Besprechungen effektiv delegieren? Um dies zu untersuchen, entwickeln wir ein Prototyp-LLM-gestütztes Besprechungsdelegierungssystem und erstellen einen umfassenden Leistungsmaßstab unter Verwendung echter Besprechungstranskripte. Unsere Bewertung zeigt, dass GPT-4/4o eine ausgewogene Leistung zwischen aktiven und vorsichtigen Engagementstrategien aufrechterhalten. Im Gegensatz dazu neigt Gemini 1.5 Pro dazu, vorsichtiger zu sein, während Gemini 1.5 Flash und Llama3-8B/70B aktivere Tendenzen aufweisen. Insgesamt behandeln etwa 60\% der Antworten mindestens einen Schlüsselpunkt aus der Realität. Es sind jedoch Verbesserungen erforderlich, um irrelevante oder repetitive Inhalte zu reduzieren und die Toleranz gegenüber in realen Umgebungen häufig auftretenden Transkriptionsfehlern zu erhöhen. Darüber hinaus implementieren wir das System in praktischen Umgebungen und sammeln Rückmeldungen aus Demos in der realen Welt. Unsere Ergebnisse unterstreichen das Potenzial und die Herausforderungen bei der Nutzung von LLMs als Besprechungsdelegierte und bieten wertvolle Einblicke in ihre praktische Anwendung zur Linderung der Belastung durch Besprechungen.
Wir schlagen SPARC vor, ein leichtgewichtiges kontinuierliches Lernframework für große Sprachmodelle (LLMs), das eine effiziente Anpassung an Aufgaben durch Prompt-Feinabstimmung in einem niedrigdimensionalen Raum ermöglicht. Durch die Nutzung der Hauptkomponentenanalyse (PCA) identifizieren wir einen kompakten Unterraum der Trainingsdaten. Die Optimierung von Prompts in diesem niedrigdimensionalen Raum verbessert die Trainingseffizienz, da sie Aktualisierungen auf die relevantesten Merkmale konzentriert und den Rechenaufwand reduziert. Darüber hinaus bleibt die interne Struktur des Modells unverändert, wodurch das umfangreiche Wissen aus dem Pretraining vollständig erhalten bleibt und sichergestellt wird, dass zuvor gelernte Informationen während der Anpassung nicht beeinträchtigt werden. Unsere Methode erzielt eine hohe Wissensretention sowohl in inkrementellen Aufgaben- als auch in inkrementellen Domänenkontinuierlichen Lernszenarien, während nur 0,04% der Modellparameter feinabgestimmt werden. Durch die Integration von LoRA verbessern wir die Anpassungsfähigkeit an Rechenbeschränkungen, was einen Kompromiss zwischen Genauigkeit und Trainingskosten ermöglicht. Experimente am SuperGLUE-Benchmark zeigen, dass unsere PCA-basierte Prompt-Feinabstimmung in Kombination mit LoRA die volle Wissensretention gewährleistet und die Genauigkeit verbessert, wobei nur 1% der Modellparameter verwendet werden. Diese Ergebnisse etablieren unseren Ansatz als eine skalierbare und ressourceneffiziente Lösung für kontinuierliches Lernen in LLMs.
Autonome Edge-Computing in Robotik, Smart Cities und autonomen Fahrzeugen basiert auf der nahtlosen Integration von Erfassung, Verarbeitung und Aktuierung für Echtzeit-Entscheidungsfindung in dynamischen Umgebungen. Im Kern steht die Erfassung-zu-Aktion-Schleife, die sensorische Eingaben iterativ mit Rechenmodellen abgleicht, um adaptive Steuerungsstrategien zu entwickeln. Diese Schleifen können sich an hyperlokale Bedingungen anpassen, die Ressourceneffizienz und Reaktionsfähigkeit verbessern, stehen jedoch auch vor Herausforderungen wie Ressourcenbeschränkungen, Synchronisationsverzögerungen bei der multimodalen Datenfusion und dem Risiko von sich verstärkenden Fehlern in Rückkopplungsschleifen. Dieser Artikel untersucht, wie proaktive, kontextbewusste Anpassungen von Erfassung zu Aktion und von Aktion zu Erfassung die Effizienz steigern können, indem die Erfassung und Berechnung dynamisch an die Anforderungen der Aufgabe angepasst werden, wie z.B. die Erfassung eines sehr begrenzten Teils der Umgebung und die Vorhersage des Rests. Durch die Lenkung der Erfassung durch Steuerungsaktionen können Aktion-zu-Erfassungspfade die Aufgabenrelevanz und Ressourcennutzung verbessern, erfordern jedoch auch eine robuste Überwachung, um sich verstärkende Fehler zu verhindern und die Zuverlässigkeit aufrechtzuerhalten. Multi-Agenten-Erfassungs-Aktions-Schleifen erweitern diese Fähigkeiten weiter durch koordinierte Erfassung und Aktionen über verteilte Agenten hinweg, optimieren die Ressourcennutzung durch Zusammenarbeit. Darüber hinaus bietet neuromorphes Computing, inspiriert von biologischen Systemen, einen effizienten Rahmen für ereignisgesteuerte Verarbeitung auf Basis von Spikes, der Energie spart, Latenz reduziert und hierarchische Steuerung unterstützt - was es ideal für die Multi-Agenten-Optimierung macht. Dieser Artikel hebt die Bedeutung von End-to-End-Co-Design-Strategien hervor, die algorithmische Modelle mit Hardware und Umweltdynamik abstimmen und die Wechselwirkungen zwischen Schichten verbessern, um Durchsatz, Präzision und Anpassungsfähigkeit für energieeffiziente Edge-Autonomie in komplexen Umgebungen zu verbessern.