Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben starke allgemeine Argumentationsfähigkeiten gezeigt, aber ihre Wirksamkeit bei finanzieller Argumentation bleibt untererforscht. In dieser Studie bewerten wir umfassend 16 leistungsstarke Argumentations- und allgemeine LLMs in drei komplexen finanziellen Aufgaben, die finanziellen Text, tabellarische Daten und Gleichungen umfassen. Dabei bewerten wir numerische Argumentation, tabellarische Interpretation, das Verständnis finanzieller Terminologie, die Verarbeitung langer Kontexte und die Lösung von Gleichungsproblemen. Unsere Ergebnisse zeigen, dass bessere Datensätze und Vortrainieren die finanzielle Argumentation verbessern, allgemeine Verbesserungen wie CoT Feinabstimmung jedoch nicht immer konsistente Gewinne bringen. Darüber hinaus haben alle Argumentationsstrategien Schwierigkeiten, die Leistung bei langen Kontexten und Aufgaben mit mehreren Tabellen zu verbessern. Um diese Einschränkungen zu adressieren, entwickeln wir ein finanzargumentationsverbessertes Modell basierend auf Llama-3.1-8B-Instruct, durch CoT Feinabstimmung und Verstärkungslernen mit domänenspezifischen Argumentationspfaden. Selbst mit einfacher Feinabstimmung mit einem finanziellen Datensatz erzielt unser Modell eine konsistente Leistungssteigerung von 10 % über alle Aufgaben hinweg, und übertrifft alle 8B-Modelle und sogar Llama3-70B-Instruct und Llama3.1-70B-Instruct im Durchschnitt. Unsere Ergebnisse unterstreichen die Notwendigkeit domänenspezifischer Anpassungen bei finanziellen Aufgaben und betonen zukünftige Richtungen wie die Argumentation mit mehreren Tabellen, die Verarbeitung langer Kontexte und das Verständnis finanzieller Terminologie. Alle unsere Datensätze, Modelle und Codes sind öffentlich verfügbar. Darüber hinaus führen wir eine Bestenliste zur Benchmarking zukünftiger Datensätze und Modelle ein.
Moderne große Sprachmodelle (LLMs) stoßen häufig auf Kommunikationsengpässe auf aktuellen Hardwareplattformen, anstatt rein rechnerische Beschränkungen zu haben. Multi-Head Latent Attention (MLA) bewältigt diese Herausforderung, indem es Low-Rank-Matrizen in den Schlüssel-Wert (KV)-Schichten verwendet, wodurch komprimierte latente KV-Zustände zwischengespeichert werden können. Dieser Ansatz reduziert die Größe des KV-Caches im Vergleich zur traditionellen Multi-Head Attention erheblich, was zu schnelleren Inferenzzeiten führt. Darüber hinaus verwendet MLA eine Up-Projektionsmatrix, um die Ausdruckskraft zu erhöhen, wobei zusätzliche Berechnungen gegen reduzierten Kommunikationsaufwand getauscht werden. Obwohl MLA Effizienz und Effektivität in Deepseek V2/V3/R1 gezeigt hat, verlassen sich viele führende Modellanbieter immer noch auf Group Query Attention (GQA) und haben keine Pläne bekannt gegeben, MLA zu übernehmen. In diesem Artikel zeigen wir, dass GQA immer durch MLA dargestellt werden kann, während der umgekehrte Fall nicht zutrifft. Um die breitere Verwendung von MLA zu fördern, stellen wir **TransMLA** vor, eine Post-Training-Methode, die weit verbreitete GQA-basierte vortrainierte Modelle (z. B. LLaMA, Qwen, Mixtral) in MLA-basierte Modelle umwandelt. Nach der Konvertierung kann das Modell zusätzliches Training durchlaufen, um die Ausdruckskraft zu steigern, ohne die Größe des KV-Caches zu erhöhen. Darüber hinaus planen wir, MLA-spezifische Beschleunigungstechniken für die Inferenz zu entwickeln, um eine geringe Latenz in transformierten Modellen beizubehalten und somit eine effizientere Destillation von Deepseek R1 zu ermöglichen.
Bisherige mehrsprachige Benchmarks konzentrieren sich hauptsächlich auf einfache Verständnisaufgaben, aber für große Sprachmodelle (LLMs) legen wir den Schwerpunkt auf die Beherrschung von Anweisungen, Schlussfolgerungen, das Verstehen langer Kontexte, Codegenerierung und so weiter. Die Messung dieser fortgeschrittenen Fähigkeiten über Sprachen hinweg ist jedoch wenig erforscht. Um die Diskrepanz anzugehen, führen wir BenchMAX ein, einen mehrwegigen mehrsprachigen Evaluierungsbenchmark, der faire Vergleiche dieser wichtigen Fähigkeiten über Sprachen hinweg ermöglicht. Um eine hohe Qualität zu gewährleisten, annotieren drei verschiedene Muttersprachler unabhängig voneinander jedes Beispiel in allen Aufgaben, nachdem die Daten aus dem Englischen in 16 andere Sprachen maschinell übersetzt wurden. Darüber hinaus präsentieren wir eine neuartige Übersetzungsherausforderung, die sich aus dem Datensatzaufbau ergibt. Umfangreiche Experimente auf BenchMAX zeigen unterschiedliche Effektivität der Kernfähigkeiten über Sprachen hinweg auf und verdeutlichen Leistungslücken, die nicht einfach durch Skalierung der Modellgröße überbrückt werden können. BenchMAX dient als umfassende mehrsprachige Evaluierungsplattform und bietet ein vielversprechendes Testfeld zur Förderung der Entwicklung mehrsprachiger Sprachmodelle. Der Datensatz und der Code sind öffentlich zugänglich.
Wir stellen ein Destillations-Scaling-Gesetz vor, das die Leistung des destillierten Modells anhand eines Rechenbudgets und seiner Aufteilung zwischen dem Schüler und dem Lehrer schätzt. Unsere Ergebnisse reduzieren die Risiken, die mit der Verwendung von Destillation im großen Maßstab verbunden sind; die Rechenzuweisung für sowohl die Lehrer- als auch die Schülermodelle kann nun optimiert werden, um die Leistung des Schülers zu maximieren. Wir bieten optimale Rezepte für die Rechenoptimierung bei Destillation an, wenn 1) ein Lehrer vorhanden ist oder 2) ein Lehrer geschult werden muss. Wenn viele Schüler destilliert werden sollen oder bereits ein Lehrer vorhanden ist, übertrifft Destillation das überwachte Vortraining bis zu einem Rechenlevel, der mit der Schülergröße vorhersehbar wächst. Soll ein Schüler destilliert werden und der Lehrer muss ebenfalls geschult werden, sollte stattdessen überwachtes Lernen durchgeführt werden. Darüber hinaus bieten wir Einblicke in unsere groß angelegte Studie zur Destillation, die unser Verständnis der Destillation vertiefen und das experimentelle Design informieren.
Die bildbasierte Textgenerierung hat in den letzten Jahren erhebliche Aufmerksamkeit erlangt und verarbeitet zunehmend längere und umfassendere Textvorgaben. Im Alltag erscheinen dichte und komplexe Texte in Kontexten wie Werbung, Infografiken und Beschilderungen, in denen die Integration von Text und visuellen Elementen entscheidend ist, um komplexe Informationen zu vermitteln. Trotz dieser Fortschritte bleibt die Generierung von Bildern mit Langtexten eine anhaltende Herausforderung, hauptsächlich aufgrund der Einschränkungen bestehender Datensätze, die sich oft auf kürzere und einfachere Texte konzentrieren. Um diese Lücke zu schließen, stellen wir TextAtlas5M vor, einen neuartigen Datensatz, der speziell zur Bewertung der Textrendering in der bildbasierten Textgenerierung entwickelt wurde. Unser Datensatz besteht aus 5 Millionen generierten und gesammelten Bildern mit Langtexten aus verschiedenen Datentypen, was eine umfassende Bewertung von groß angelegten generativen Modellen zur Bildgenerierung mit Langtext ermöglicht. Darüber hinaus kuratieren wir 3000 menschenverbesserte Testsets TextAtlasEval über 3 Datendomänen hinweg und etablieren einen der umfangreichsten Benchmarks für die textbasierte Generierung. Bewertungen legen nahe, dass die TextAtlasEval-Benchmarks selbst für die fortschrittlichsten proprietären Modelle (z. B. GPT4o mit DallE-3) erhebliche Herausforderungen darstellen, während ihre Open-Source-Gegenstücke eine noch größere Leistungslücke aufweisen. Diese Belege positionieren TextAtlas5M als einen wertvollen Datensatz für das Training und die Bewertung von zukünftigen Modellen zur bildbasierten Textgenerierung.
Durch die jüngsten Fortschritte bei Bildrelighting-Modellen, die durch umfangreiche Datensätze und vorab trainierte Diffusionsmodelle angetrieben werden, wurde die Durchsetzung konsistenter Beleuchtung ermöglicht. Die Video-Relighting-Technik hinkt jedoch immer noch hinterher, hauptsächlich aufgrund der hohen Trainingskosten und des Mangels an vielfältigen, hochwertigen Video-Relighting-Datensätzen. Eine einfache Anwendung von Bildrelighting-Modellen auf Frame-Ebene führt zu mehreren Problemen: Inkonsistenz der Lichtquelle und Inkonsistenz des relighteten Erscheinungsbilds, was zu Flackern in den generierten Videos führt. In dieser Arbeit schlagen wir Light-A-Video vor, einen trainingsfreien Ansatz zur Erzielung einer zeitlich gleichmäßigen Video-Beleuchtung. Angelehnt an Bildrelighting-Modelle führt Light-A-Video zwei Schlüsseltechniken ein, um die Beleuchtungskonsistenz zu verbessern. Erstens entwerfen wir ein Modul für konsistente Lichtaufmerksamkeit (CLA), das die Wechselwirkungen zwischen den Frames innerhalb der Self-Attention-Schichten verstärkt, um die Generierung der Hintergrundlichtquelle zu stabilisieren. Zweitens wenden wir unter Nutzung des physikalischen Prinzips der Unabhängigkeit des Lichttransports ein lineares Mischen zwischen dem Erscheinungsbild des Quellvideos und dem relighteten Erscheinungsbild an, wobei eine Strategie des Progressiven Lichtfusions (PLF) verwendet wird, um eine reibungslose zeitliche Übergänge in der Beleuchtung zu gewährleisten. Experimente zeigen, dass Light-A-Video die zeitliche Konsistenz von relighteten Videos verbessert, während die Bildqualität beibehalten wird und so kohärente Beleuchtungsübergänge über die Frames hinweg gewährleistet werden. Projektpage: https://bujiazi.github.io/light-a-video.github.io/.
In dieser Arbeit präsentieren wir CineMaster, ein neuartiges Framework für die Generierung von Text-zu-Video unter Berücksichtigung von 3D und Steuerbarkeit. Unser Ziel ist es, Benutzern eine vergleichbare Steuerbarkeit wie professionellen Filmregisseuren zu ermöglichen: präzise Platzierung von Objekten innerhalb der Szene, flexible Manipulation sowohl von Objekten als auch der Kamera im 3D-Raum und intuitive Layoutsteuerung über die gerenderten Frames. Um dies zu erreichen, arbeitet CineMaster in zwei Phasen. In der ersten Phase entwerfen wir einen interaktiven Arbeitsablauf, der es Benutzern ermöglicht, intuitiv 3D-bewusste bedingte Signale zu konstruieren, indem sie Objektbegrenzungsrahmen positionieren und Kamerabewegungen im 3D-Raum definieren. In der zweiten Phase dienen diese Steuersignale - bestehend aus gerenderten Tiefenkarten, Kameratrajektorien und Objektklassenbezeichnungen - als Anleitung für ein Text-zu-Video-Diffusionsmodell, um sicherzustellen, dass der vom Benutzer beabsichtigte Videoinhalt generiert wird. Darüber hinaus haben wir, um den Mangel an in-the-wild Datensätzen mit 3D-Objektbewegungen und Kamerapositionsanmerkungen zu überwinden, eine automatisierte Datenannotationspipeline sorgfältig aufgebaut, die 3D-Begrenzungsrahmen und Kameratrajektorien aus groß angelegten Videodaten extrahiert. Umfangreiche qualitative und quantitative Experimente zeigen, dass CineMaster signifikant bessere Leistungen als bestehende Methoden erbringt und eine herausragende 3D-bewusste Text-zu-Video-Generierung implementiert. Projektseite: https://cinemaster-dev.github.io/.
Die Vorhersage des nächsten Tokens war das Standard-Trainingsziel, das bei der Vorbereitung großer Sprachmodelle verwendet wurde. Die Repräsentationen werden als Ergebnis der Optimierung für Token-Level-Perplexität gelernt. Wir schlagen Continuous Concept Mixing (CoCoMix) vor, ein neuartiges Vorbereitungsframework, das diskrete Vorhersage des nächsten Tokens mit kontinuierlichen Konzepten kombiniert. Speziell sagt CoCoMix kontinuierliche Konzepte vorher, die von einem vorab trainierten dünnen Autoencoder gelernt wurden, und mischt sie in den versteckten Zustand des Modells, indem sie mit den versteckten Token-Repräsentationen abwechseln. Durch Experimente an mehreren Benchmarks, einschließlich Sprachmodellierung und nachgelagerten Denkaufgaben, zeigen wir, dass CoCoMix effizienter in der Stichprobenverwendung ist und standardmäßige Vorhersage des nächsten Tokens, Wissensverdichtung und das Einfügen von Pause-Tokens konsequent übertrifft. Wir stellen fest, dass die Kombination von Konzeptlernen und Abwechseln in einem End-to-End-Framework entscheidend für Leistungssteigerungen ist. Darüber hinaus verbessert CoCoMix die Interpretierbarkeit und Steuerbarkeit, indem es eine direkte Inspektion und Modifikation des vorhergesagten Konzepts ermöglicht und somit einen transparenten Weg bietet, um den internen Denkprozess des Modells zu lenken.
Aktuelle GUI-Agenten haben eine herausragende Leistung bei der Verankerung von GUI-Elementen erzielt. Die Planung bleibt jedoch äußerst herausfordernd, insbesondere aufgrund der Empfindlichkeit gegenüber dem Anfangszustand der Umgebung. Geringfügige Unterschiede im Anfangszustand - wie beispielsweise die Zielsoftware, die nicht geöffnet ist oder die Benutzeroberfläche, die sich nicht im Standardzustand befindet - führen oft zu Planungsfehlern. Dieses Problem ist in realen Benutzerszenarien weit verbreitet, aber bestehende Benchmarks versagen bei der Bewertung. In diesem Artikel präsentieren wir WorldGUI, einen neuen GUI-Benchmark, der GUI-Aufgaben mit verschiedenen Anfangszuständen entwirft, um reale Computer-Benutzerinteraktionen zu simulieren. Der Benchmark umfasst eine Vielzahl von Aufgaben in 10 beliebten Softwareanwendungen, darunter PowerPoint, VSCode und Adobe Acrobat. Darüber hinaus schlagen wir zur Bewältigung der Herausforderungen dynamischer GUI-Automatisierungsaufgaben GUI-Thinker vor, ein ganzheitliches Framework, das einen Kritikmechanismus nutzt, um die Unvorhersehbarkeit und Komplexität von GUI-Interaktionen effektiv zu bewältigen. Experimentelle Ergebnisse zeigen, dass GUI-Thinker den Erfolg bei WorldGUI-Aufgaben um 14,9% gegenüber Claude-3.5 (Computer Use) signifikant übertrifft. Diese Verbesserung unterstreicht die Wirksamkeit unseres auf kritischem Denken basierenden Frameworks bei der Verbesserung der GUI-Automatisierung.
Ansätze zur linearen Sequenzmodellierung, wie lineare Aufmerksamkeit, bieten Vorteile wie ein Training in linearer Zeit und eine konstante Speichernutzung bei Sequenzlängen. Allerdings sind bestehende Methoden zur Sequenzparallelität (SP) entweder nicht für das Merkmal des richtigen Produkt-zuerst bei linearer Aufmerksamkeit optimiert oder verwenden eine Ring-Kommunikationsstrategie, die zu einer geringeren Rechenparallelität führt und ihre Skalierbarkeit für längere Sequenzen in verteilten Systemen einschränkt. In diesem Paper stellen wir LASP-2 vor, eine neue SP-Methode zur Verbesserung sowohl der Kommunikations- als auch der Rechenparallelität beim Training von Transformer-Modellen mit linearer Aufmerksamkeit und sehr langen Eingabesequenzen. Im Vergleich zur vorherigen Arbeit LASP überdenkt LASP-2 die minimale Kommunikationsanforderung für SP bei linearen Aufmerksamkeitsschichten, reorganisiert den gesamten Kommunikations-Rechen-Workflow von LASP. Auf diese Weise ist nur eine einzige AllGather-Kollektivkommunikation auf Zwischenspeicherzustände erforderlich, deren Größen unabhängig von der Sequenzlänge sind, was zu signifikanten Verbesserungen sowohl bei der Kommunikations- als auch der Rechenparallelität sowie deren Überlappung führt. Darüber hinaus erweitern wir LASP-2 zu LASP-2H, indem wir eine ähnliche Kommunikationsneugestaltung auf Standard-Aufmerksamkeitsmodule anwenden, um eine effiziente SP-Lösung für Hybridmodelle anzubieten, die lineare und Standard-Aufmerksamkeitsschichten kombinieren. Unsere Evaluation an einem Linear-Llama3-Modell, einer Variante von Llama3 mit linearer Aufmerksamkeit anstelle von Standard-Aufmerksamkeit, zeigt die Wirksamkeit von LASP-2 und LASP-2H. Insbesondere erzielt LASP-2 Schulungsgeschwindigkeitsverbesserungen von 15,2% gegenüber LASP und 36,6% gegenüber Ring-Aufmerksamkeit bei einer Sequenzlänge von 2048K auf 64 GPUs. Der Code ist als Teil von: https://github.com/OpenSparseLLMs/Linear-MoE veröffentlicht.
Die Fähigkeit, langfristige Ziele zu erreichen, ist eine zentrale Herausforderung bei der aktuellen Entwicklung großer Sprachmodelle (LLMs). Um dies zu bewältigen, können vortrainierte LLMs mit reinforcement learning (RL) feinabgestimmt werden, um Lösungen zu erkunden, die ein gegebenes Ziel optimieren. Die Exploration mit LLMs ist jedoch schwierig, da ein Gleichgewicht zwischen der Entdeckung neuer Lösungen und der Nähe zum vortrainierten Modell gefunden werden muss, um grundlegende Fähigkeiten nicht zu beeinträchtigen. Dies wird in der Regel mit einer Kullback-Leibler (KL)-Strafe gesteuert. In diesem Paper untersuchen wir die Explorationsdynamik eines kleinen Sprachmodells bei einer einfachen arithmetischen Aufgabe. Wir zeigen, wie unterschiedliche Grade des Vortrainings die Exploration beeinflussen und die Bedeutung von "kritischen Tokens" aufzeigen, die einen dramatischen Einfluss auf das Endergebnis haben. Dementsprechend führen wir eine einfache Modifikation der KL-Strafe ein, die die Exploration bei kritischen Tokens begünstigt und die Effizienz der RL-Feinabstimmungsphase erhöht.
Aktuelle Methoden zur Animation von Charakterbildern auf Basis von Diffusionsmodellen, wie z.B. "Animate Anyone", haben bedeutende Fortschritte bei der Erzeugung konsistenter und generalisierbarer Charakteranimationen erzielt. Diese Ansätze scheitern jedoch daran, vernünftige Verknüpfungen zwischen Charakteren und ihrer Umgebung zu erzeugen. Um diese Einschränkung zu überwinden, stellen wir "Animate Anyone 2" vor, das darauf abzielt, Charaktere mit Umgebungsfunktionalität zu animieren. Neben der Extraktion von Bewegungssignalen aus dem Quellvideo erfassen wir zusätzlich Umgebungsrepräsentationen als bedingte Eingaben. Die Umgebung wird als die Region formuliert, die von Charakteren ausgeschlossen ist, und unser Modell generiert Charaktere, um diese Regionen zu bevölkern, während es die Kohärenz mit dem Umgebungskontext aufrechterhält. Wir schlagen eine formagnostische Maskenstrategie vor, die die Beziehung zwischen Charakter und Umgebung effektiver charakterisiert. Darüber hinaus nutzen wir zur Verbesserung der Genauigkeit von Objektinteraktionen einen Objektführer, um Merkmale der interagierenden Objekte zu extrahieren, und verwenden räumliches Mischen für Merkmalseinspritzung. Wir führen auch eine Pose-Modulationsstrategie ein, die es dem Modell ermöglicht, mit vielfältigeren Bewegungsmustern umzugehen. Experimentelle Ergebnisse zeigen die überlegene Leistung der vorgeschlagenen Methode.
Während die jüngste KI-für-Mathematik Fortschritte in reiner Mathematik gemacht hat, bleiben Bereiche der angewandten Mathematik, insbesondere partielle Differentialgleichungen (PDEs), trotz ihrer bedeutenden realen Anwendungen untererforscht. Wir stellen PDE-Controller vor, ein Framework, das es großen Sprachmodellen (LLMs) ermöglicht, Systeme, die von partiellen Differentialgleichungen (PDEs) gesteuert werden, zu kontrollieren. Unser Ansatz ermöglicht es LLMs, informelle natürlichsprachliche Anweisungen in formale Spezifikationen umzuwandeln und dann Schlussfolgerungen und Planungsschritte auszuführen, um die Nützlichkeit der PDE-Steuerung zu verbessern. Wir entwickeln eine ganzheitliche Lösung, bestehend aus Datensätzen (sowohl von Menschen geschriebene Fälle als auch 2 Millionen synthetische Proben), mathematischen Schlussfolgerungsmodellen und neuartigen Evaluierungsmetriken, die alle erheblichen Aufwand erfordern. Unser PDE-Controller übertrifft signifikant die Aufforderung der neuesten Open-Source- und GPT-Modelle in Schlussfolgerung, Autoformalisierung und Programmierungssynthese und erzielt eine bis zu 62%ige Verbesserung des Nützlichkeitsgewinns für die PDE-Steuerung. Indem wir die Kluft zwischen Sprachgenerierung und PDE-Systemen überbrücken, zeigen wir das Potenzial von LLMs bei der Bewältigung komplexer wissenschaftlicher und technischer Herausforderungen. Wir werden alle Daten, Modell-Checkpoints und den Code unter https://pde-controller.github.io/ veröffentlichen.
Die direkte Präferenzoptimierung (DPO) und ihre Varianten sind zunehmend beliebt geworden, um Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Diese Methoden zielen darauf ab, den Modellen beizubringen, besser zwischen ausgewählten (oder bevorzugten) und abgelehnten (oder nicht bevorzugten) Antworten zu unterscheiden. Allerdings hat die bisherige Forschung festgestellt, dass die Wahrscheinlichkeit von ausgewählten Antworten während des Trainings oft abnimmt, und dieses Phänomen wird als Wahrscheinlichkeitsverschiebung bezeichnet. Um diese Herausforderung anzugehen, führen wir in dieser Arbeit \method ein, um die Verteilung der ausgewählten Wahrscheinlichkeit kontrolliert zu verschieben. Anschließend zeigen wir, dass \method einen grundlegenden Kompromiss zwischen der Verbesserung der ausgewählten Wahrscheinlichkeit und dem Verzicht auf den Belohnungsabstand aufweist, wie sowohl durch theoretische Analysen als auch durch experimentelle Validierung unterstützt wird. Darüber hinaus zeigen wir die Überlegenheit von \method gegenüber DPO bei nachgelagerten Aufgaben wie MT-Bench und einem konzipierten Gewinnraten-Experiment. Wir sind der Ansicht, dass diese Studie zeigt, dass das Problem der Wahrscheinlichkeitsverschiebung von DPO mit einer einfachen, theoretisch fundierten Lösung wirksam gemildert werden kann. Unser Code ist unter https://github.com/Meaquadddd/DPO-Shift verfügbar.
Aktuelle große Sprachmodelle (LLMs) unterstützen lange Kontexte von 128K bis 1M Tokens. Eine beliebte Methode zur Bewertung dieser Fähigkeiten ist der Nadel-im-Heuhaufen (NIAH) Test, bei dem es darum geht, eine "Nadel" (relevante Information) aus einem "Heuhaufen" (langen irrelevanten Kontext) abzurufen. Erweiterungen dieses Ansatzes umfassen die Erhöhung von Ablenkungen, Faktenverkettung und kontextbezogenes Denken. In diesen Leistungstests können Modelle jedoch bestehende wörtliche Übereinstimmungen zwischen Nadel und Heuhaufen ausnutzen, um die Aufgabe zu vereinfachen. Um dies zu lösen, stellen wir NoLiMa vor, einen Leistungstest, der NIAH mit einem sorgfältig gestalteten Nadelset erweitert, bei dem Fragen und Nadeln minimale lexikalische Überschneidungen aufweisen und Modelle dazu zwingen, latente Verbindungen zu erschließen, um die Nadel im Heuhaufen zu finden. Wir bewerten 12 beliebte LLMs, die behaupten, Kontexte von mindestens 128K Tokens zu unterstützen. Während sie sich in kurzen Kontexten (<1K) gut schlagen, nimmt die Leistung signifikant ab, wenn die Kontextlänge zunimmt. Bei 32K fallen beispielsweise 10 Modelle unter 50% ihrer starken Baseline für kurze Längen. Selbst GPT-4o, eine der leistungsstärksten Ausnahmen, erlebt einen Rückgang von einer nahezu perfekten Baseline von 99,3% auf 69,7%. Unsere Analyse legt nahe, dass diese Rückgänge auf die erhöhte Schwierigkeit zurückzuführen sind, der das Aufmerksamkeitsmechanismus in längeren Kontexten gegenübersteht, wenn wörtliche Übereinstimmungen fehlen und es schwieriger wird, relevante Informationen abzurufen.
Im Bereich der Interpretation von Synthetic Aperture Radar (SAR) Fernerkundungsbildern haben Vision Language Models (VLMs) zwar bemerkenswerte Fortschritte in der natürlichen Sprachverarbeitung und im Bildverständnis erzielt, jedoch bleiben ihre Anwendungen in professionellen Bereichen aufgrund unzureichender Fachkenntnisse begrenzt. Dieser Artikel schlägt innovativ den ersten groß angelegten multimodalen Dialogdatensatz für SAR-Bilder vor, namens SARChat-2M, der ungefähr 2 Millionen hochwertige Bild-Text-Paare enthält, verschiedene Szenarien mit detaillierten Zielannotationen umfasst. Dieser Datensatz unterstützt nicht nur mehrere Schlüsselaufgaben wie visuelles Verständnis und Objekterkennungsaufgaben, sondern weist auch einzigartige innovative Aspekte auf: Diese Studie entwickelt einen visuell-sprachlichen Datensatz und Benchmark für das SAR-Gebiet, um die Fähigkeiten von VLMs in der Interpretation von SAR-Bildern zu ermöglichen und zu bewerten, was einen paradigmatischen Rahmen für die Konstruktion multimodaler Datensätze in verschiedenen vertikalen Bereichen der Fernerkundung bietet. Durch Experimente mit 16 gängigen VLMs wurde die Wirksamkeit des Datensatzes vollständig bestätigt und der erste Multi-Task-Dialog-Benchmark im SAR-Bereich erfolgreich etabliert. Das Projekt wird unter https://github.com/JimmyMa99/SARChat veröffentlicht, mit dem Ziel, die eingehende Entwicklung und breite Anwendung von SAR-Visuell-Sprachmodellen zu fördern.
Die Next-Token Prediction (NTP) ist ein de facto Ansatz für die autoregressive (AR) Videogenerierung, leidet jedoch unter suboptimalen unidirektionalen Abhängigkeiten und langsamer Inferenzgeschwindigkeit. In dieser Arbeit schlagen wir ein semi-autoregressives (semi-AR) Framework namens Next-Block Prediction (NBP) für die Videogenerierung vor. Durch die gleichmäßige Zerlegung des Videomaterials in gleichgroße Blöcke (z. B. Zeilen oder Frames) verschieben wir die Generierungseinheit von einzelnen Tokens auf Blöcke, wodurch jedes Token im aktuellen Block gleichzeitig das entsprechende Token im nächsten Block vorhersagen kann. Im Gegensatz zur traditionellen AR-Modellierung verwendet unser Framework eine bidirektionale Aufmerksamkeit innerhalb jedes Blocks, wodurch Tokens robustere räumliche Abhängigkeiten erfassen können. Durch die gleichzeitige Vorhersage mehrerer Tokens reduzieren NBP-Modelle signifikant die Anzahl der Generierungsschritte, was zu einer schnelleren und effizienteren Inferenz führt. Unser Modell erreicht FVD-Werte von 103,3 auf UCF101 und 25,5 auf K600 und übertrifft das herkömmliche NTP-Modell im Durchschnitt um 4,4. Darüber hinaus generiert das NBP-Modell aufgrund der reduzierten Anzahl von Inferenzschritten 8,89 Frames (Auflösung 128x128) pro Sekunde und erzielt eine 11-fache Beschleunigung. Wir haben auch Modellskalen von 700M bis 3B Parametern untersucht und dabei signifikante Verbesserungen in der Generierungsqualität festgestellt, wobei die FVD-Werte von 103,3 auf UCF101 und von 25,5 auf 19,5 auf K600 sanken, was die Skalierbarkeit unseres Ansatzes zeigt.
Die Retrieval-Augmented Generation (RAG) ist eine fortschrittliche Technik, die entwickelt wurde, um den Herausforderungen von KI-generierten Inhalten (AIGC) zu begegnen. Durch die Integration von Kontextabruf in die Inhaltegenerierung bietet RAG zuverlässiges und aktuelles externes Wissen, reduziert Halluzinationen und gewährleistet relevanten Kontext über eine Vielzahl von Aufgaben hinweg. Trotz des Erfolgs und Potenzials von RAG haben jüngste Studien gezeigt, dass das RAG-Paradigma auch neue Risiken mit sich bringt, darunter Robustheitsprobleme, Datenschutzbedenken, adversarielle Angriffe und Verantwortlichkeitsfragen. Die Bewältigung dieser Risiken ist entscheidend für zukünftige Anwendungen von RAG-Systemen, da sie direkt deren Vertrauenswürdigkeit beeinflussen. Obwohl verschiedene Methoden entwickelt wurden, um die Vertrauenswürdigkeit von RAG-Methoden zu verbessern, fehlt es an einer einheitlichen Perspektive und einem Rahmen für die Forschung zu diesem Thema. Daher zielen wir in diesem Artikel darauf ab, diese Lücke zu schließen, indem wir einen umfassenden Fahrplan für die Entwicklung vertrauenswürdiger RAG-Systeme bereitstellen. Wir strukturieren unsere Diskussion um fünf Schlüsselperspektiven: Zuverlässigkeit, Datenschutz, Sicherheit, Fairness, Erklärbarkeit und Verantwortlichkeit. Für jede Perspektive präsentieren wir einen allgemeinen Rahmen und eine Taxonomie, die einen strukturierten Ansatz zur Erfassung der aktuellen Herausforderungen, zur Bewertung bestehender Lösungen und zur Identifizierung vielversprechender zukünftiger Forschungsrichtungen bieten. Um eine breitere Akzeptanz und Innovation zu fördern, heben wir auch die nachgelagerten Anwendungen hervor, in denen vertrauenswürdige RAG-Systeme einen signifikanten Einfluss haben.
In dieser Arbeit schlagen wir eine Architektur von LLM-Modulen vor, die den Wissenstransfer von einem großen vorab trainierten Modell auf ein kleineres Modell mithilfe eines verbesserten Kreuz-Aufmerksamkeitsmechanismus ermöglicht. In dem vorgeschlagenen Schema wird das Qwen2-1.5B-Modell eingefroren und seine Repräsentationen werden durch speziell entworfene Aufmerksamkeitsschichten zum GPT-Neo-125M-Modell weitergeleitet, das auf begrenzten Rechenressourcen trainiert ist. Experimentelle Ergebnisse auf dem Bespoke-Stratos-17k-Datensatz zeigen, dass nach 15 Epochen des Trainings das kombinierte Modell Antworten von vergleichbarer Qualität wie beim Destillationsverfahren erzeugt. Wir diskutieren die Vorteile des modularen Ansatzes, liefern Beispiele für Eingabeabfragen und vergleichende Analysen und skizzieren Aussichten für die weitere Erweiterung der Methode.
Die Modellzusammenführung aggregiert Large Language Models (LLMs), die auf verschiedenen Aufgaben feinabgestimmt sind, zu einem stärkeren Modell. Allerdings führen Parameterkonflikte zwischen den Modellen zu Leistungseinbußen beim Durchschnitt. Während das Modell-Routing dieses Problem durch die Auswahl einzelner Modelle während der Inferenz löst, bringt es übermäßige Speicher- und Rechenkosten mit sich und nutzt das gemeinsame Wissen aus verschiedenen Modellen nicht aus. In dieser Arbeit beobachten wir, dass verschiedene Schichten unterschiedliche Ebenen von Parameterkonflikten aufweisen. Basierend auf dieser Erkenntnis mitteln wir Schichten mit minimalen Parameterkonflikten und verwenden ein neuartiges taskbasiertes Experten-Routing für Schichten mit signifikanten Konflikten. Um die Speicherkosten weiter zu reduzieren, inspiriert von der Aufgabenarithmetik-Spärlichkeit, trennen wir mehrere feinabgestimmte Experten in einen dichten Experten und mehrere spärliche Experten auf. Unter Berücksichtigung der Out-of-Distribution-Stichproben wählen wir geeignete Experten basierend auf der Aufgabenunsicherheit der Eingabedaten aus und führen sie zusammen. Wir führen umfangreiche Experimente sowohl an LLaMA als auch an Qwen mit unterschiedlichen Parametermaßstäben durch und evaluieren sie an realen Denkaufgaben. Die Ergebnisse zeigen, dass unsere Methode konsistent signifikante Leistungsverbesserungen erzielt und dabei im Vergleich zu bestehenden Methoden weniger Systemkosten erfordert.
Wir schlagen ein neuartiges dynamisches Sicherheitsframework vor, das die Sicherheitsüberlegungen von Sprachmodellen (LM) zur Inferenzzeit optimiert, ohne die Modellgewichte zu verändern. Aufbauend auf den neuesten Fortschritten in der Selbstkritik-Methode nutzt unser Ansatz einen Meta-Kritik-Mechanismus, der sicherheitsrelevante Aufforderungen - sogenannte Spezifikationen - iterativ aktualisiert, um den Kritik- und Überarbeitungsprozess adaptiv voranzutreiben. Diese Optimierung zur Testzeit verbessert nicht nur die Leistung gegenüber adversen Jailbreak-Anfragen, sondern auch bei verschiedenen allgemeinen sicherheitsbezogenen Aufgaben, wie dem Vermeiden moralischer Schäden oder dem Streben nach ehrlichen Antworten. Unsere empirischen Bewertungen über mehrere Sprachmodelle hinweg zeigen, dass dynamisch optimierte Sicherheitsaufforderungen im Vergleich zu festen Systemaufforderungen und statischen Selbstkritik-Verteidigungen signifikant höhere Sicherheitsbewertungen erzielen. Der Code wird unter https://github.com/vicgalle/meta-self-critique.git veröffentlicht.
Die dichte kontrastive Repräsentationslernen (DCRL) hat die Lerneffizienz für bildreiche Vorhersageaufgaben erheblich verbessert und zeigt ihr großes Potenzial, die hohen Kosten für die Sammlung medizinischer Bilder und dichte Annotationen zu reduzieren. Die Eigenschaften medizinischer Bilder machen jedoch die Entdeckung unzuverlässiger Entsprechungen, was ein offenes Problem großer Mengen an falsch positiven und negativen (FP&N) Paaren in DCRL mit sich bringt. In diesem Artikel schlagen wir das GEoMetric vIsual deNse sImilarity (GEMINI) Lernen vor, das das Homöomorphismus-Prinzip vor DCRL einbettet und eine zuverlässige Entsprechungsentdeckung für effektiven dichten Kontrast ermöglicht. Wir schlagen ein deformierbares Homöomorphismus-Lernen (DHL) vor, das den Homöomorphismus von medizinischen Bildern modelliert und lernt, eine deformierbare Zuordnung zur Vorhersage der Pixelkorrespondenz unter topologischer Erhaltung zu schätzen. Dies reduziert effektiv den Suchraum für Paarungen und fördert ein implizites und weiches Lernen von negativen Paaren über einen Gradienten. Wir schlagen auch eine geometrische semantische Ähnlichkeit (GSS) vor, die semantische Informationen in Merkmalen extrahiert, um den Ausrichtungsgrad für das Korrespondenzlernen zu messen. Dies wird die Lerneffizienz und Leistung der Verformung fördern und zuverlässig positive Paare konstruieren. Wir implementieren zwei praktische Varianten in zwei typischen Repräsentationslernaufgaben in unseren Experimenten. Unsere vielversprechenden Ergebnisse auf sieben Datensätzen, die die vorhandenen Methoden übertreffen, zeigen unsere große Überlegenheit. Wir werden unseren Code über einen Begleitlink veröffentlichen: https://github.com/YutingHe-list/GEMINI.