Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die kürzliche Veröffentlichung von DeepSeek-R1 hat das immense Potenzial von Reinforcement Learning (RL) zur Verbesserung der allgemeinen Denkfähigkeiten großer Sprachmodelle (LLMs) aufgezeigt. Während DeepSeek-R1 und nachfolgende Arbeiten sich hauptsächlich auf die Anwendung von RL auf wettbewerbsorientiertes Programmieren und mathematische Probleme konzentrieren, führt diese Arbeit SWE-RL ein, den ersten Ansatz, der RL-basiertes Denken von LLMs für die reale Softwareentwicklung skalierbar macht. Durch die Nutzung einer leichtgewichtigen regelbasierten Belohnung (z. B. der Ähnlichkeitswert zwischen der Ground-Truth und den von LLMs generierten Lösungen) ermöglicht SWE-RL LLMs, die Denkprozesse und Lösungen von Entwicklern autonom wiederherzustellen, indem sie aus umfangreichen Open-Source-Software-Evolutionsdaten lernen – der Aufzeichnung des gesamten Lebenszyklus einer Software, einschließlich ihrer Code-Snapshots, Code-Änderungen und Ereignisse wie Issues und Pull Requests. Unser darauf aufbauendes Denkmodell, Llama3-SWE-RL-70B, das auf Llama 3 trainiert wurde, erreicht eine Lösungrate von 41,0 % auf SWE-bench Verified – einer von Menschen verifizierten Sammlung realer GitHub-Issues. Nach unserem Wissen ist dies die bisher beste Leistung, die für mittelgroße LLMs (<100B) berichtet wurde, und sie ist sogar mit führenden proprietären LLMs wie GPT-4o vergleichbar. Überraschenderweise hat Llama3-SWE-RL, obwohl es RL ausschließlich auf Software-Evolutionsdaten durchgeführt hat, sogar verallgemeinerte Denkfähigkeiten entwickelt. Beispielsweise zeigt es verbesserte Ergebnisse bei fünf Aufgaben außerhalb des eigentlichen Anwendungsbereichs, nämlich Funktionscodierung, Bibliotheksnutzung, Code-Denken, Mathematik und allgemeines Sprachverständnis, während ein Baseline-Modell mit überwachtem Feinabstimmen im Durchschnitt sogar zu Leistungseinbußen führt. Insgesamt eröffnet SWE-RL eine neue Richtung, um die Denkfähigkeiten von LLMs durch Reinforcement Learning auf umfangreichen Softwareentwicklungsdaten zu verbessern.
Jüngste Fortschritte bei Open-Source-Multi-Modalen Großen Sprachmodellen (MLLMs) haben sich hauptsächlich auf die Verbesserung grundlegender Fähigkeiten konzentriert, wodurch eine erhebliche Lücke in der Ausrichtung auf menschliche Präferenzen entstanden ist. Dieses Papier stellt OmniAlign-V vor, einen umfassenden Datensatz mit 200.000 hochwertigen Trainingsbeispielen, die vielfältige Bilder, komplexe Fragen und unterschiedliche Antwortformate enthalten, um die Ausrichtung von MLLMs auf menschliche Präferenzen zu verbessern. Wir präsentieren außerdem MM-AlignBench, einen von Menschen annotierten Benchmark, der speziell zur Bewertung der Ausrichtung von MLLMs auf menschliche Werte entwickelt wurde. Experimentelle Ergebnisse zeigen, dass das Feinabstimmen von MLLMs mit OmniAlign-V, entweder durch Supervised Fine-Tuning (SFT) oder Direct Preference Optimization (DPO), die Ausrichtung auf menschliche Präferenzen signifikant verbessert, während die Leistung auf standardmäßigen VQA-Benchmarks erhalten bleibt oder sogar gesteigert wird, wodurch ihre grundlegenden Fähigkeiten bewahrt werden. Unsere Datensätze, Benchmarks, Code und Checkpoints wurden unter https://github.com/PhoenixZ810/OmniAlign-V veröffentlicht.
Eine effiziente Implementierung von Attention ist für große Modelle aufgrund ihrer quadratischen Zeitkomplexität entscheidend. Glücklicherweise zeigt Attention häufig Sparsity, d.h., viele Werte in der Attention-Map sind nahe null, was das Weglassen entsprechender Berechnungen ermöglicht. Viele Studien haben dieses spärliche Muster genutzt, um Attention zu beschleunigen. Die meisten bestehenden Arbeiten konzentrieren sich jedoch darauf, Attention innerhalb spezifischer Modelle zu optimieren, indem bestimmte spärliche Muster der Attention-Map ausgenutzt werden. Eine universelle spärliche Attention, die sowohl die Beschleunigung als auch die End-to-End-Leistung verschiedener Modelle gewährleistet, bleibt jedoch schwer fassbar. In diesem Artikel schlagen wir SpargeAttn vor, eine universelle spärliche und quantisierte Attention für jedes Modell. Unsere Methode verwendet einen zweistufigen Online-Filter: In der ersten Stufe sagen wir die Attention-Map schnell und genau voraus, wodurch einige Matrixmultiplikationen in der Attention übersprungen werden können. In der zweiten Stufe entwerfen wir einen Online-Softmax-Filter, der keinen zusätzlichen Overhead verursacht und weitere Matrixmultiplikationen überspringt. Experimente zeigen, dass unsere Methode verschiedene Modelle, einschließlich Sprach-, Bild- und Videogenerierung, erheblich beschleunigt, ohne die End-to-End-Metriken zu beeinträchtigen. Die Codes sind unter https://github.com/thu-ml/SpargeAttn verfügbar.
Die Hintergrundkonsistenz bleibt eine wesentliche Herausforderung bei Bildbearbeitungsaufgaben. Trotz umfangreicher Entwicklungen besteht bei bestehenden Arbeiten weiterhin ein Kompromiss zwischen der Beibehaltung der Ähnlichkeit zum Originalbild und der Erzeugung von Inhalten, die mit dem Ziel übereinstimmen. Hier schlagen wir KV-Edit vor, einen trainingsfreien Ansatz, der den KV-Cache in DiTs nutzt, um die Hintergrundkonsistenz zu bewahren, wobei Hintergrund-Tokens erhalten bleiben, anstatt neu generiert zu werden. Dadurch entfällt die Notwendigkeit für komplexe Mechanismen oder aufwändiges Training, und es wird letztendlich neuer Inhalt erzeugt, der sich nahtlos in den Hintergrund innerhalb der vom Benutzer vorgegebenen Regionen einfügt. Wir untersuchen weiterhin den Speicherverbrauch des KV-Caches während der Bearbeitung und optimieren die Raumkomplexität auf O(1) mittels einer inversionsfreien Methode. Unser Ansatz ist mit jedem DiT-basierten generativen Modell kompatibel, ohne dass zusätzliches Training erforderlich ist. Experimente zeigen, dass KV-Edit bestehende Ansätze sowohl in Bezug auf die Hintergrund- als auch auf die Bildqualität deutlich übertrifft und sogar trainierte Methoden übertrumpft. Die Projektwebseite ist verfügbar unter https://xilluill.github.io/projectpages/KV-Edit.
Die Erzeugung mehrschichtiger Bilder ist eine grundlegende Aufgabe, die es Nutzern ermöglicht, spezifische Bildebenen zu isolieren, auszuwählen und zu bearbeiten, wodurch die Interaktion mit generativen Modellen revolutioniert wird. In diesem Artikel stellen wir den Anonymous Region Transformer (ART) vor, der die direkte Erzeugung variabler mehrschichtiger transparenter Bilder basierend auf einem globalen Text-Prompt und einem anonymen Regionen-Layout ermöglicht. Inspiriert von der Schema-Theorie, die besagt, dass Wissen in Rahmenwerken (Schemata) organisiert ist, die es Menschen ermöglichen, neue Informationen zu interpretieren und zu lernen, indem sie diese mit vorhandenem Wissen verknüpfen, erlaubt dieses anonyme Regionen-Layout dem generativen Modell, autonom zu bestimmen, welche Gruppe von visuellen Tokens welchen Text-Tokens zugeordnet werden soll. Dies steht im Gegensatz zu dem bisher dominierenden semantischen Layout für die Bildgenerierungsaufgabe. Darüber hinaus reduziert der schichtweise Regionen-Crop-Mechanismus, der nur die visuellen Tokens auswählt, die zu jeder anonymen Region gehören, die Aufmerksamkeitsberechnungskosten erheblich und ermöglicht die effiziente Erzeugung von Bildern mit zahlreichen unterschiedlichen Ebenen (z. B. 50+). Im Vergleich zum vollständigen Aufmerksamkeitsansatz ist unsere Methode über 12-mal schneller und zeigt weniger Ebenenkonflikte. Zusätzlich schlagen wir einen hochwertigen mehrschichtigen transparenten Bild-Autoencoder vor, der die direkte Kodierung und Dekodierung der Transparenz variabler mehrschichtiger Bilder in einer gemeinsamen Weise unterstützt. Durch die Ermöglichung präziser Kontrolle und skalierbarer Ebenengenerierung etabliert ART ein neues Paradigma für die interaktive Inhaltserstellung.
Die rasanten Fortschritte in der Computertechnologie erhöhen den Umfang und die Kosten des Trainings von Large Language Models (LLMs) dramatisch. Die genaue Vorhersage der Leistung bei nachgelagerten Aufgaben vor dem Modelltraining ist entscheidend für eine effiziente Ressourcenallokation, bleibt jedoch aufgrund von zwei Hauptbeschränkungen eine Herausforderung: (1) das „Emergenzphänomen“, bei dem Metriken für die nachgelagerte Leistung erst nach umfangreichem Training aussagekräftig werden, was die Verwendung kleinerer Modelle zur Vorhersage einschränkt; (2) ungleichmäßige Verteilungen der Aufgabenkomplexität und das Fehlen konsistenter Skalierungsgesetze, was zu erheblichen Schwankungen in den Metriken führt. Bestehende Methoden zur Leistungsvorhersage leiden unter begrenzter Genauigkeit und Zuverlässigkeit, was die Bewertung der potenziellen Fähigkeiten von LLMs behindert. Um diese Herausforderungen zu bewältigen, schlagen wir ein Clustering-On-Difficulty (COD)-Framework zur Vorhersage der nachgelagerten Leistung vor. COD konstruiert zunächst eine vorhersagbare Unterstützungsmenge, indem Aufgaben basierend auf Schwierigkeitsmerkmenge gruppiert werden, wobei strategisch nicht-emergente und nicht skalierbare Cluster ausgeschlossen werden. Die Bewertungen auf der ausgewählten Teilmenge dienen als effektive Zwischenprädiktoren für die nachgelagerte Leistung auf dem vollständigen Evaluationsdatensatz. Mit theoretischer Unterstützung leiten wir eine Abbildungsfunktion ab, die Leistungsmetriken von der vorhersagbaren Teilmenge auf den vollständigen Evaluationsdatensatz transformiert, wodurch eine genaue Extrapolation der nachgelagerten Leistung von LLMs sichergestellt wird. Die vorgeschlagene Methode wurde zur Vorhersage der Leistungsskalierung eines 70B-LLMs eingesetzt und liefert umsetzbare Erkenntnisse für die Allokation von Trainingsressourcen sowie für die Überwachung des Trainingsprozesses. Bemerkenswert ist, dass COD eine bemerkenswerte Vorhersagegenauigkeit beim 70B-LLM erreicht, indem ein Ensemble kleiner Modelle genutzt wird, was eine absolute mittlere Abweichung von 1,36 % über acht wichtige LLM-Evaluationsbenchmarks demonstriert.
Wissenschaftliche Experimente, ein Eckpfeiler des menschlichen Fortschritts, erfordern Strenge in Bezug auf Zuverlässigkeit, methodische Kontrolle und Interpretierbarkeit, um aussagekräftige Ergebnisse zu erzielen. Trotz der zunehmenden Fähigkeiten großer Sprachmodelle (LLMs) bei der Automatisierung verschiedener Aspekte des wissenschaftlichen Prozesses bleibt die Automatisierung rigoroser Experimente eine erhebliche Herausforderung. Um diese Lücke zu schließen, schlagen wir Curie vor, ein KI-Agenten-Framework, das darauf abzielt, Strenge in den Experimentierprozess zu integrieren, und zwar durch drei Schlüsselkomponenten: ein Intra-Agenten-Rigor-Modul zur Verbesserung der Zuverlässigkeit, ein Inter-Agenten-Rigor-Modul zur Aufrechterhaltung methodischer Kontrolle und ein Experimentwissens-Modul zur Verbesserung der Interpretierbarkeit. Um Curie zu bewerten, entwerfen wir einen neuartigen experimentellen Benchmark, der aus 46 Fragen in vier Informatikbereichen besteht, die aus einflussreichen Forschungsarbeiten und weit verbreiteten Open-Source-Projekten abgeleitet sind. Im Vergleich zum stärksten getesteten Baseline-Modell erreichen wir eine 3,4-fache Verbesserung bei der korrekten Beantwortung experimenteller Fragen. Curie ist unter https://github.com/Just-Curieous/Curie quelloffen verfügbar.
Aktuelle Studien haben die Kombination verschiedener LoRAs untersucht, um gelernte Stile und Inhalte gemeinsam zu erzeugen. Bisherige Methoden scheitern jedoch entweder daran, sowohl das ursprüngliche Subjekt als auch den Stil effektiv gleichzeitig zu bewahren, oder sie erfordern zusätzliches Training. In diesem Artikel argumentieren wir, dass die intrinsischen Eigenschaften von LoRA Diffusionsmodelle effektiv bei der Verschmelzung von gelerntem Subjekt und Stil leiten können. Aufbauend auf dieser Erkenntnis schlagen wir K-LoRA vor, einen einfachen, aber effektiven trainingsfreien Ansatz zur LoRA-Fusion. In jeder Aufmerksamkeitsschicht vergleicht K-LoRA die Top-K-Elemente in den zu verschmelzenden LoRAs, um zu bestimmen, welche LoRA für eine optimale Fusion ausgewählt werden soll. Dieser Auswahlmechanismus stellt sicher, dass die repräsentativsten Merkmale sowohl des Subjekts als auch des Stils während des Fusionsprozesses erhalten bleiben und ihre Beiträge effektiv ausbalanciert werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode die vom ursprünglichen LoRA erlernten Subjekt- und Stilinformationen effektiv integriert und sowohl in qualitativen als auch quantitativen Ergebnissen state-of-the-art, trainingsbasierte Ansätze übertrifft.
Um visuelle Informationen zu nutzen, verlässt sich ein Multimodales Großes Sprachmodell (MLLM) auf den Wahrnehmungsprozess seines Vision-Encoders. Die Vollständigkeit und Genauigkeit der visuellen Wahrnehmung beeinflussen maßgeblich die Präzision von räumlichem Denken, feinkörnigem Verständnis und anderen Aufgaben. Allerdings fehlt MLLM noch die autonome Fähigkeit, seine eigenen visuellen Wahrnehmungsprozesse zu steuern, beispielsweise spezifische Bildregionen selektiv zu überprüfen oder sich auf Informationen bestimmter Objektkategorien zu konzentrieren. In dieser Arbeit schlagen wir das Konzept des Visuellen Wahrnehmungs-Tokens vor, mit dem Ziel, MLLM mit einem Mechanismus zur Steuerung seiner visuellen Wahrnehmungsprozesse auszustatten. Wir entwerfen zwei Arten von Visuellen Wahrnehmungs-Tokens, den Regionenauswahl-Token und den Vision-Re-Encoding-Token. MLLMs generieren diese Tokens autonom, genauso wie sie Text generieren, und verwenden sie, um zusätzliche visuelle Wahrnehmungsaktionen auszulösen. Der Regionenauswahl-Token identifiziert explizit spezifische Regionen in einem Bild, die eine weitere Wahrnehmung erfordern, während der Vision-Re-Encoding-Token seine verborgenen Zustände als Steuersignale nutzt, um zusätzliche visuelle Wahrnehmungsprozesse zu leiten. Umfangreiche Experimente zeigen die Vorteile dieser Tokens bei der Bewältigung von räumlichem Denken, der Verbesserung des feinkörnigen Verständnisses und anderen Aufgaben. Im Durchschnitt verbessert die Einführung von Visuellen Wahrnehmungs-Tokens die Leistung eines 2B-Modells um 23,6\%, erhöht seine Punktzahl von 0,572 auf 0,708 und übertrifft sogar ein 7B-Parameter-Modell um 13,4\% (von 0,624). Bitte besuchen Sie unser Repo https://github.com/yu-rp/VisualPerceptionToken.
Die Trainingsstabilität ist eine anhaltende Herausforderung bei der Vorverarbeitung großer Sprachmodelle (LLMs), insbesondere für Architekturen wie Post-Norm-Transformer, die anfällig für Gradientenexplosion und -dissipation sind. In diesem Artikel schlagen wir Scale-Distribution Decoupling (SDD) vor, einen neuartigen Ansatz, der das Training stabilisiert, indem er die Skalierung und Verteilung der Gewichtsmatrix in vollständig verbundenen Schichten explizit entkoppelt. SDD wendet einen Normalisierungsmechanismus an, um Aktivierungen zu regulieren, und einen lernbaren Skalierungsvektor, um gut konditionierte Gradienten aufrechtzuerhalten, wodurch Gradientenexplosion und -dissipation effektiv verhindert werden. Diese Trennung verbessert die Optimierungseffizienz, insbesondere in tiefen Netzwerken, indem sie eine stabile Gradientenausbreitung sicherstellt. Experimentelle Ergebnisse zeigen, dass unsere Methode das Training über verschiedene LLM-Architekturen hinweg stabilisiert und bestehende Techniken in unterschiedlichen Normalisierungskonfigurationen übertrifft. Darüber hinaus ist die vorgeschlagene Methode ressourcenschonend und mit bestehenden Frameworks kompatibel, was sie zu einer praktischen Lösung für die Stabilisierung des LLM-Trainings macht. Der Code ist unter https://github.com/kaihemo/SDD verfügbar.
Wir stellen WebGames vor, eine umfassende Benchmark-Suite, die entwickelt wurde, um allgemeine Web-Browsing-KI-Agenten durch eine Sammlung von über 50 interaktiven Herausforderungen zu bewerten. Diese Herausforderungen sind speziell so gestaltet, dass sie für Menschen einfach zu bewältigen sind, während sie systematisch die Grenzen aktueller KI-Systeme in Bezug auf grundlegende Browser-Interaktionen, fortgeschrittene Eingabeverarbeitung, kognitive Aufgaben, Workflow-Automatisierung und interaktive Unterhaltung testen. Unser Framework eliminiert externe Abhängigkeiten durch eine hermetische Testumgebung und gewährleistet so reproduzierbare Bewertungen mit überprüfbaren Referenzlösungen. Wir bewerten führende Vision-Sprach-Modelle, darunter GPT-4o, Claude Computer-Use, Gemini-1.5-Pro und Qwen2-VL, im Vergleich zur menschlichen Leistung. Die Ergebnisse zeigen eine erhebliche Fähigkeitslücke, wobei das beste KI-System nur eine Erfolgsquote von 43,1 % erreicht, verglichen mit einer menschlichen Leistung von 95,7 %. Dies unterstreicht grundlegende Einschränkungen aktueller KI-Systeme bei der Bewältigung gängiger Web-Interaktionsmuster, die für Menschen intuitiv sind. Der Benchmark ist öffentlich unter webgames.convergence.ai verfügbar und bietet eine leichtgewichtige, clientseitige Implementierung, die schnelle Evaluationszyklen ermöglicht. Durch seine modulare Architektur und standardisierten Herausforderungsspezifikationen bietet WebGames eine robuste Grundlage für die Messung von Fortschritten bei der Entwicklung leistungsfähigerer Web-Browsing-Agenten.
Motiviert durch die Reduzierung der Rechen- und Speicherkosten von LLMs (Large Language Models) haben Modellkompression und KV-Cache-Kompression viel Aufmerksamkeit von Forschern auf sich gezogen. Allerdings konzentrieren sich aktuelle Methoden hauptsächlich darauf, die Leistung komprimierter LLMs aufrechtzuerhalten, gemessen an Perplexität oder einfacher Genauigkeit bei Aufgaben wie Common-Sense-Wissensfragen und grundlegender arithmetischer Logik. In diesem Blog präsentieren wir einen kurzen Überblick über die jüngsten Fortschritte bei LLMs im Zusammenhang mit retrieval-augmentierter Generierung, mehrschrittigem Schlussfolgern, externen Werkzeugen und rechnerischer Ausdrucksfähigkeit, die allesamt die Leistung von LLMs erheblich verbessern. Anschließend stellen wir eine Lotterie-LLM-Hypothese vor, die besagt, dass es für ein gegebenes LLM und eine gegebene Aufgabe ein kleineres Lotterie-LLM gibt, das mit Hilfe von mehrschrittigem Schlussfolgern und externen Werkzeugen die gleiche Leistung wie das ursprüngliche LLM erzielen kann. Basierend auf der Überprüfung des aktuellen Fortschritts bei LLMs diskutieren und fassen wir die wesentlichen Fähigkeiten zusammen, die das Lotterie-LLM und die KV-Cache-Kompression besitzen müssen, die in bestehenden Methoden derzeit übersehen werden.
Multimodale Large Language Models (MLLMs) haben in den letzten Jahren rasante Fortschritte bei visuellen Erkennungsaufgaben erzielt. Angesichts ihres potenziellen Einsatzes in vielen kritischen Anwendungen ist es wichtig, die Grenzen ihrer visuellen Wahrnehmung zu verstehen. In dieser Arbeit untersuchen wir, ob MLLMs kleine visuelle Details ebenso effektiv wahrnehmen können wie große, wenn sie Fragen zu Bildern beantworten. Wir beobachten, dass ihre Leistung sehr empfindlich auf die Größe des visuellen Subjekts der Frage reagiert, und zeigen weiterhin durch eine Interventionsstudie, dass dieser Effekt tatsächlich kausal ist. Anschließend untersuchen wir die Aufmerksamkeitsmuster von MLLMs bei der Beantwortung visueller Fragen und stellen interessanterweise fest, dass sie konsequent wissen, wohin sie schauen müssen, selbst wenn sie die falsche Antwort geben. Basierend auf diesen Erkenntnissen schlagen wir dann trainierungsfreie visuelle Interventionsmethoden vor, die das interne Wissen eines MLLMs selbst in Form von Aufmerksamkeits- und Gradientenkarten nutzen, um seine Wahrnehmung kleiner visueller Details zu verbessern. Wir evaluieren unsere vorgeschlagenen Methoden an zwei weit verbreiteten MLLMs und sieben visuellen Frage-Antwort-Benchmarks und zeigen, dass sie die Genauigkeit von MLLMs signifikant verbessern können, ohne dass ein Training erforderlich ist. Unsere Ergebnisse verdeutlichen das Risiko, MLLMs bei visuellen Erkennungsaufgaben im Zusammenhang mit kleinen Details einzusetzen, und weisen darauf hin, dass visuelle Interventionen unter Nutzung des internen Zustands des Modells ein vielversprechender Ansatz sind, um dieses Risiko zu mindern.
Die Bewertung von großen Sprachmodellen (LLMs) stützt sich typischerweise auf aggregierte Metriken wie Genauigkeit oder menschliche Präferenzen, die über Benutzer und Prompts gemittelt werden. Diese Mittelung verschleiert jedoch benutzer- und promptspezifische Variationen in der Modellleistung. Um dies zu adressieren, schlagen wir Prompt-to-Leaderboard (P2L) vor, eine Methode, die spezifische Leaderboards für einen Prompt erzeugt. Die Kernidee besteht darin, ein LLM zu trainieren, das natürliche Sprachprompts als Eingabe verwendet, um einen Vektor von Bradley-Terry-Koeffizienten auszugeben, die dann zur Vorhersage der menschlichen Präferenzabstimmung verwendet werden. Die daraus resultierenden promptspezifischen Leaderboards ermöglichen eine unüberwachte, aufgabenbezogene Bewertung, das optimale Routing von Anfragen an Modelle, Personalisierung sowie die automatisierte Bewertung von Stärken und Schwächen der Modelle. Daten aus der Chatbot Arena deuten darauf hin, dass P2L die nuancierte Landschaft der Sprachmodellleistung besser erfasst als der gemittelte Leaderboard. Darüber hinaus legen unsere Ergebnisse nahe, dass die Fähigkeit von P2L, promptspezifische Bewertungen zu erzeugen, einer Potenzgesetz-Skalierung folgt, die der in LLMs selbst beobachteten ähnelt. Im Januar 2025 erreichte der auf dieser Methodik basierende Router, den wir trainiert haben, den ersten Platz im Chatbot Arena Leaderboard. Unser Code ist unter diesem GitHub-Link verfügbar: https://github.com/lmarena/p2l.
Iterative Datengenerierung und Modell-Neuausrichtung werden häufig eingesetzt, um große Sprachmodelle (LLMs) auszurichten. Dabei wird typischerweise ein Policy-Modell verwendet, um on-policy Antworten zu generieren, und ein Belohnungsmodell, um die Auswahl der Trainingsdaten zu steuern. Direct Preference Optimization (DPO) verbessert diesen Prozess weiter, indem es Präferenzpaare aus ausgewählten und abgelehnten Antworten konstruiert. In dieser Arbeit streben wir an, die Anzahl der on-policy Stichproben durch wiederholte Zufallsstichproben zu erhöhen, um die Ausrichtungsleistung zu verbessern. Die herkömmliche Praxis wählt die Stichprobe mit der höchsten Belohnung als ausgewählt und die mit der niedrigsten Belohnung als abgelehnt für DPO aus. Unsere Experimente zeigen jedoch, dass diese Strategie zu einer Leistungsverschlechterung führt, wenn die Stichprobengröße zunimmt. Um dies zu beheben, untersuchen wir die Konstruktion von Präferenzdaten durch die Linse der zugrunde liegenden Normalverteilung der Stichprobenbelohnungen. Wir kategorisieren den Belohnungsraum in sieben repräsentative Punkte und untersuchen systematisch alle 21 (C_7^2) paarweisen Kombinationen. Durch Bewertungen an vier Modellen mit AlpacaEval 2 stellen wir fest, dass die Auswahl der abgelehnten Antwort an der Belohnungsposition mu - 2sigma anstelle der minimalen Belohnung entscheidend für eine optimale Leistung ist. Schließlich führen wir eine skalierbare Strategie zur Konstruktion von Präferenzdaten ein, die die Modellleistung konsistent verbessert, wenn der Stichprobenumfang zunimmt.
In diesem Artikel stellen wir LDGen vor, eine neuartige Methode zur Integration großer Sprachmodelle (LLMs) in bestehende Text-zu-Bild-Diffusionsmodelle bei gleichzeitiger Minimierung des Rechenaufwands. Traditionelle Textkodierer wie CLIP und T5 weisen Einschränkungen bei der multilingualen Verarbeitung auf, was die Bildgenerierung über verschiedene Sprachen hinweg behindert. Wir adressieren diese Herausforderungen, indem wir die fortschrittlichen Fähigkeiten von LLMs nutzen. Unser Ansatz verwendet eine Sprachrepräsentationsstrategie, die hierarchische Bildunterschriftenoptimierung und menschliche Instruktionstechniken anwendet, um präzise semantische Informationen abzuleiten. Anschließend integrieren wir einen leichtgewichtigen Adapter und einen Cross-Modal-Refiner, um eine effiziente Merkmalsausrichtung und Interaktion zwischen LLMs und Bildmerkmalen zu ermöglichen. LDGen reduziert die Trainingszeit und ermöglicht die Zero-Shot-Bildgenerierung in mehreren Sprachen. Experimentelle Ergebnisse zeigen, dass unsere Methode die Basismodelle sowohl in Bezug auf die Prompt-Treue als auch auf die ästhetische Qualität der Bilder übertrifft und dabei nahtlos mehrere Sprachen unterstützt. Projektseite: https://zrealli.github.io/LDGen.
Auditive Foundation Models, einschließlich auditiver Large Language Models (LLMs), verarbeiten alle Schalleingaben gleichwertig, unabhängig von der Wahrnehmung des Zuhörers. Die menschliche Hörwahrnehmung ist jedoch von Natur aus selektiv: Zuhörer konzentrieren sich auf bestimmte Sprecher und ignorieren andere in komplexen auditiven Szenen. Bestehende Modelle berücksichtigen diese Selektivität nicht, was ihre Fähigkeit einschränkt, wahrnehmungsgerechte Antworten zu generieren. Um dies zu adressieren, führen wir Intention-Informed Auditory Scene Understanding (II-ASU) ein und präsentieren Auditory Attention-Driven LLM (AAD-LLM), ein Prototypsystem, das Gehirnsignale integriert, um die Aufmerksamkeit des Zuhörers abzuleiten. AAD-LLM erweitert ein auditives LLM, indem es intrakranielle Elektroenzephalographie (iEEG)-Aufnahmen einbezieht, um zu entschlüsseln, welchem Sprecher der Zuhörer folgt, und die Antworten entsprechend anzupassen. Das Modell sagt zunächst den beachteten Sprecher aus der neuronalen Aktivität voraus und passt dann die Antwortgenerierung an diesen abgeleiteten Aufmerksamkeitszustand an. Wir evaluieren AAD-LLM in Bezug auf Sprecherbeschreibung, Sprachtran-skription und -extraktion sowie Fragebeantwortung in Mehrsprecherszenarien, wobei sowohl objektive als auch subjektive Bewertungen eine verbesserte Ausrichtung auf die Absicht des Zuhörers zeigen. Indem wir einen ersten Schritt in Richtung absichtsbewusster auditiver KI machen, erkundet diese Arbeit ein neues Paradigma, bei dem die Wahrnehmung des Zuhörers das maschinelle Hören informiert, und ebnet den Weg für zukünftige zuhörerzentrierte auditive Systeme. Demo und Code verfügbar: https://aad-llm.github.io.
Große Sprachmodelle (Large Language Models, LLMs) haben sich als transformative Werkzeuge in der künstlichen Intelligenz (KI) etabliert und zeigen bemerkenswerte Fähigkeiten in vielfältigen Aufgaben wie Textgenerierung, logischem Denken und Entscheidungsfindung. Während ihr Erfolg maßgeblich durch Fortschritte in der Rechenleistung und den Architekturen des Deep Learning vorangetrieben wurde, erfordern neu auftretende Probleme – in Bereichen wie Unsicherheitsquantifizierung, Entscheidungsfindung, kausaler Inferenz und Verteilungsverschiebung – eine tiefere Auseinandersetzung mit dem Bereich der Statistik. Dieses Papier untersucht potenzielle Bereiche, in denen Statistiker wichtige Beiträge zur Entwicklung von LLMs leisten können, insbesondere solchen, die darauf abzielen, Vertrauenswürdigkeit und Transparenz für menschliche Nutzer zu schaffen. Daher konzentrieren wir uns auf Themen wie Unsicherheitsquantifizierung, Interpretierbarkeit, Fairness, Datenschutz, Wasserzeichen und Modellanpassung. Wir betrachten auch mögliche Rollen von LLMs in der statistischen Analyse. Durch die Brücke zwischen KI und Statistik streben wir eine vertiefte Zusammenarbeit an, die sowohl die theoretischen Grundlagen als auch die praktischen Anwendungen von LLMs vorantreibt und letztlich ihre Rolle bei der Bewältigung komplexer gesellschaftlicher Herausforderungen prägt.
Zustandsraummodelle (State Space Models, SSMs), wie Mamba, haben sich als effiziente Alternative zu Transformern für die Modellierung langer Kontextsequenzen etabliert. Trotz ihrer zunehmenden Verbreitung fehlen SSMs jedoch die Interpretierbarkeitstools, die für das Verständnis und die Verbesserung von auf Aufmerksamkeit basierenden Architekturen entscheidend waren. Während jüngste Bemühungen Einblicke in die internen Mechanismen von Mamba bieten, zerlegen sie die tokenweisen Beiträge nicht explizit, wodurch Lücken im Verständnis bestehen, wie Mamba Sequenzen über verschiedene Schichten hinweg selektiv verarbeitet. In dieser Arbeit stellen wir LaTIM vor, eine neuartige Methode zur tokenweisen Zerlegung für sowohl Mamba-1 als auch Mamba-2, die eine feinkörnige Interpretierbarkeit ermöglicht. Wir evaluieren unsere Methode umfassend in verschiedenen Aufgaben, einschließlich maschineller Übersetzung, Kopieren und retrieval-basierter Generierung, und demonstrieren ihre Effektivität bei der Aufdeckung der Token-zu-Token-Interaktionsmuster von Mamba.
Wir stellen Shakti VLM vor, eine Familie von Vision-Language-Modellen mit 1B und 4B Parametern, die entwickelt wurden, um Herausforderungen in der Dateneffizienz beim multimodalen Lernen zu adressieren. Während aktuelle Vision-Language-Modelle (VLMs) durch umfangreiche Trainingsdaten starke Leistungen erzielen, nutzen Shakti-Modelle architektonische Innovationen, um mit weniger Tokens wettbewerbsfähige Ergebnisse zu erreichen. Zu den wesentlichen Fortschritten gehören QK-Normalisierung für die Stabilität der Aufmerksamkeit, hybride Normalisierungstechniken und verbesserte Positionskodierung. Eine dreistufige Trainingsstrategie optimiert die Lerneffizienz weiter. Evaluierungen zeigen, dass Shakti-VLM-1B und Shakti-VLM-4B in den Bereichen Dokumentenverständnis, visuelles Schließen, OCR-Extraktion und allgemeinem multimodalen Schließen herausragen. Unsere Ergebnisse verdeutlichen, dass hohe Leistung durch Modellgestaltung und Trainingsstrategie anstelle von reinem Datenvolumen erreicht werden kann, was Shakti zu einer effizienten Lösung für multimodale Aufgaben im Unternehmensmaßstab macht.
Wir stellen WiCkeD vor, eine einfache Methode, um die Komplexität bestehender Multiple-Choice-Benchmarks zu erhöhen, indem zufällig eine Antwortoption durch „Keine der oben genannten“ ersetzt wird – eine Methode, die häufig in Bildungstests verwendet wird. Wir zeigen, dass WiCkeD automatisch auf jeden bestehenden Benchmark angewendet werden kann, wodurch dieser anspruchsvoller wird. Wir wenden WiCkeD auf 6 beliebte Benchmarks an und nutzen es, um 18 Open-Weight-LLMs zu evaluieren. Die Leistung der Modelle sinkt im Durchschnitt um 12,1 Punkte im Vergleich zu den Originalversionen der Datensätze. Bei der Verwendung von Chain-of-Thought auf 3 MMLU-Datensätzen ist der Leistungsabfall für die WiCkeD-Variante ähnlich dem, der bei der direkten Verwendung der LLMs beobachtet wird, was zeigt, dass WiCkeD auch für Modelle mit verbesserten Fähigkeiten zur logischen Schlussfolgerung herausfordernd ist. WiCkeD deckt zudem auf, dass einige Modelle empfindlicher auf den zusätzlichen Denkaufwand reagieren, und liefert somit zusätzliche Informationen im Vergleich zu den ursprünglichen Benchmarks. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/ahmedselhady/wicked-benchmarks.
Moderne Sprachmodelle basieren auf statischen Vokabularen, die vor dem Vortraining festgelegt werden, im Gegensatz zum adaptiven Vokabularerwerb, der beim menschlichen Spracherwerb beobachtet wird. Um diese Lücke zu schließen, führen wir das Konzept des Vokabular-Curriculum-Lernens ein, einen Ansatz, der die Effizienz des Vortrainings durch logarithmisch-lineare Skalierungsgewinne in Bezug auf die Vokabulargröße verbessert. Unsere Methode wechselt zwischen entropiegesteuerter Vokabularerweiterung und Modelloptimierung, wodurch Modelle in der Lage sind, übertragbare Repräsentationen über verschiedene Tokenisierungsgranularitäten hinweg zu erlernen. Dieser Ansatz führt natürlich zu einem optimalen Muster der Rechenressourcenverteilung: längere Token erfassen vorhersehbare Inhalte, während kürzere Token sich auf komplexere, schwerer vorhersagbare Kontexte konzentrieren. Experimente mit kleinen GPT-Modellen zeigen eine verbesserte Skalierungseffizienz und unterstreichen die Wirksamkeit der dynamischen Tokenisierung. Wir veröffentlichen unseren Code, um weitere Forschung zu unterstützen, und planen, unsere Experimente auf größere Modelle und verschiedene Domänen auszuweiten.