Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Testzeit-Skalierung ist ein vielversprechender neuer Ansatz für die Sprachmodellierung, der zusätzliche Testzeitberechnungen verwendet, um die Leistung zu verbessern. Kürzlich hat das o1-Modell von OpenAI diese Fähigkeit gezeigt, jedoch seine Methodik nicht öffentlich geteilt, was zu vielen Replikationsbemühungen geführt hat. Wir suchen den einfachsten Ansatz, um Testzeit-Skalierung und starke Argumentationsleistung zu erreichen. Zunächst kuratieren wir einen kleinen Datensatz s1K von 1.000 Fragen, die mit Argumentationsspuren gepaart sind, die auf drei Kriterien beruhen, die wir durch Ablationen validieren: Schwierigkeit, Vielfalt und Qualität. Zweitens entwickeln wir Budgetforcing, um die Testzeitberechnung zu kontrollieren, indem wir den Denkprozess des Modells zwangsweise beenden oder verlängern, indem wir "Warten" mehrmals an die Generierung des Modells anhängen, wenn es versucht zu enden. Dies kann das Modell dazu bringen, seine Antwort zu überprüfen, und oft falsche Argumentationsschritte korrigieren. Nach dem überwachten Feintuning des Qwen2.5-32B-Instruct-Sprachmodells auf s1K und der Ausstattung mit Budgetforcing übertrifft unser Modell s1 das o1-Preview bei Wettbewerbsmathematikfragen um bis zu 27% (MATH und AIME24). Darüber hinaus ermöglicht die Skalierung von s1 mit Budgetforcing eine Extrapolation über seine Leistung hinaus ohne Testzeitintervention: von 50% auf 57% bei AIME24. Unser Modell, Daten und Code sind Open Source unter https://github.com/simplescaling/s1 verfügbar.
Wir stellen Reward-Guided Speculative Decoding (RSD) vor, ein neuartiges Framework zur Verbesserung der Effizienz der Inferenz in großen Sprachmodellen (LLMs). RSD kombiniert synergistisch ein leichtgewichtiges Entwurfsmodell mit einem leistungsstärkeren Zielmodell und integriert eine kontrollierte Voreingenommenheit, um Ausgaben mit hoher Belohnung zu priorisieren, im Gegensatz zu bestehenden spekulativen Dekodierungsmethoden, die strenge Voreingenommenheit durchsetzen. RSD verwendet ein Prozessbelohnungsmodell, um Zwischendekodierungsschritte zu bewerten und dynamisch zu entscheiden, ob das Zielmodell aufgerufen werden soll, um den Kompromiss zwischen Rechenkosten und Ausgabequalität zu optimieren. Wir zeigen theoretisch, dass eine schwellenbasierte Mischstrategie ein optimales Gleichgewicht zwischen Ressourcennutzung und Leistung erreicht. Umfangreiche Evaluationen an anspruchsvollen Denkprüfungen, einschließlich Aufgaben auf Olympiade-Niveau, zeigen, dass RSD signifikante Effizienzgewinne gegenüber der Dekodierung nur mit dem Zielmodell erzielt (bis zu 4,4-mal weniger FLOPs), während eine signifikant bessere Genauigkeit als die parallele Dekodierungsmethode im Durchschnitt erreicht wird (bis zu +3,5). Diese Ergebnisse heben RSD als einen robusten und kosteneffektiven Ansatz für den Einsatz von LLMs in ressourcenintensiven Szenarien hervor.
Auxiliarfreie Methoden für die Videomaskierung von Personen, die ausschließlich auf Eingabeframes basieren, haben oft Schwierigkeiten mit komplexen oder mehrdeutigen Hintergründen. Um dies zu lösen, schlagen wir MatAnyone vor, ein robustes Framework, das speziell für die zielgerichtete Videomaskierung entwickelt wurde. Konkret bauen wir auf einem speicherbasierten Paradigma auf und führen ein konsistentes Speicherpropagationsmodul über eine regionsadaptive Speicherfusion ein, das adaptiv Speicher aus dem vorherigen Frame integriert. Dies gewährleistet semantische Stabilität in Kernregionen und bewahrt fein abgestufte Details entlang der Objektgrenzen. Für ein robustes Training präsentieren wir einen größeren, qualitativ hochwertigen und vielfältigen Datensatz für die Videomaskierung. Zusätzlich integrieren wir eine neuartige Trainingsstrategie, die effizient große Mengen an Segmentierungsdaten nutzt und die Stabilität der Maskierung verbessert. Mit diesem neuen Netzwerkdesign, Datensatz und Trainingsstrategie liefert MatAnyone robuste und präzise Ergebnisse bei der Videomaskierung in verschiedenen realen Szenarien und übertrifft dabei bestehende Methoden.
Aufgrund der natürlichen Kluft zwischen Wissensgraph (KG)-Strukturen und natürlicher Sprache ist die effektive Integration ganzheitlicher struktureller Informationen von KGs mit Large Language Models (LLMs) zu einer bedeutenden Fragestellung geworden. Zu diesem Zweck schlagen wir einen Zwei-Stufen-Ansatz vor, um quantisierte Codes für jede Entität zu erlernen und anzuwenden, mit dem Ziel, eine nahtlose Integration von KGs mit LLMs zu erreichen. Zunächst wird eine selbstüberwachte quantisierte Repräsentationsmethode (SSQR) vorgeschlagen, um sowohl strukturelles als auch semantisches Wissen von KGs in diskrete Codes (d. h. Tokens) zu komprimieren, die das Format von Sprachsätzen anpassen. Wir entwerfen weiterhin KG-Instruktionsfolgedaten, indem wir diese erlernten Codes als Merkmale betrachten, die direkt in LLMs eingegeben werden, um so eine nahtlose Integration zu erreichen. Die Experimentergebnisse zeigen, dass SSQR bestehende unüberwachte quantisierte Methoden übertrifft und deutlicher unterscheidbare Codes erzeugt. Darüber hinaus weisen die feinabgestimmten LLaMA2 und LLaMA3.1 eine überlegene Leistung bei der KG-Verknüpfungsvorhersage und der Tripelklassifizierung auf, wobei nur 16 Tokens pro Entität verwendet werden, anstelle von Tausenden in herkömmlichen Prompting-Methoden.
Das maximale Element des Vektors, der von der Softmax-Funktion ausgegeben wird, nähert sich null an, wenn die Größe des Eingabevektors zunimmt. Transformer-basierte Sprachmodelle verlassen sich auf Softmax, um Aufmerksamkeitswerte zu berechnen, was dazu führt, dass die Aufmerksamkeitsverteilung abflacht, wenn die Kontextgröße wächst. Dies verringert die Fähigkeit des Modells, Schlüsselinformationen effektiv zu priorisieren und begrenzt möglicherweise seine Längenverallgemeinerung. Um dieses Problem zu lösen, schlagen wir Scalable-Softmax (SSMax) vor, das Softmax in Szenarien ersetzt, in denen die Größe des Eingabevektors variiert. SSMax kann nahtlos in bestehende Transformer-basierte Architekturen integriert werden. Experimentelle Ergebnisse im Sprachmodellieren zeigen, dass Modelle, die SSMax verwenden, nicht nur eine schnellere Reduzierung des Verlusts während des Pretrainings erreichen, sondern auch die Leistung in langen Kontexten und bei der Schlüsselinformationsabfrage signifikant verbessern. Darüber hinaus zeigt eine Analyse der Aufmerksamkeitswerte, dass SSMax dem Modell ermöglicht, die Aufmerksamkeit auch in langen Kontexten auf Schlüsselinformationen zu richten. Zusätzlich können Modelle, die von Anfang an SSMax verwenden, eine bessere Längenverallgemeinerung erzielen, während solche, die bereits mit dem Pretraining begonnen haben, durch den Ersatz von Softmax in den Aufmerksamkeitsschichten durch SSMax, entweder während oder nach dem Pretraining, einige dieser Fähigkeiten erlangen.
Bestehende Grundlagenmodelle verarbeiten visuelle Eingaben in der Regel als Pixel und textuelle Eingaben als Token, ein Paradigma, das im Gegensatz zur menschlichen Wahrnehmung steht, wo beide Modalitäten auf vereinheitlichte Weise verarbeitet werden. Mit dem Aufkommen von verkörpertem und agierendem KI, bei dem die Eingaben hauptsächlich von Kamerapixeln stammen, wird die Notwendigkeit eines vereinheitlichten Wahrnehmungsrahmens zunehmend deutlich. In diesem Artikel schlagen wir vor, alle Modalitäten (Text, Tabellen, Code, Diagramme, Bilder usw.) als Pixel-Eingaben zu vereinheitlichen, d.h. "Alles als Pixel wahrnehmen" (PEAP). Wir stellen PixelWorld vor, eine neuartige Evaluierungssuite, die alle genannten Modalitäten in den Pixelraum vereinheitlicht, um die Leistung der bestehenden Modelle zu bewerten. Unsere Ergebnisse zeigen, dass (1) PEAP in multimodalen Datensätzen die Baseline mit tokenbasierten Eingaben übertrifft, indem es von vereinheitlichten Eingaben für eine bessere Disambiguierung profitiert, (2) signifikante Rückgänge in den Denk- und Kodierfähigkeiten aller Modelle bei der Verarbeitung von pixelbasierten Eingaben, was die Notwendigkeit unterstreicht, die Wahrnehmungsfähigkeiten der Grundlagenmodelle zu verbessern, (3) größere Modelle eine starke Leistung bei nicht-denkbasierten Aufgaben unter PEAP aufrechterhalten können, während kleinere Modelle wie Phi-3.5-V erhebliche Leistungsabfälle verzeichnen, (4) das Aufmerksamkeitsmuster von PEAP stark mit textuellen Token-Eingaben übereinstimmt, (5) PEAP kann durch die Nutzung der räumlichen Sparsamkeit erheblich beschleunigt werden. Wir kommen zu dem Schluss, dass die bestehenden Spitzenmodelle in der Pixelwahrnehmung kompetent sind, es jedoch noch Raum für Verbesserungen gibt. Unser Code und Datensatz werden nach Annahme veröffentlicht.
Die Fähigkeit, zukünftige Ergebnisse basierend auf Steuerungsmaßnahmen vorherzusagen, ist grundlegend für das physikalische Denken. Allerdings haben sich solche Vorhersagemodelle, oft als Weltmodelle bezeichnet, als schwierig zu erlernen erwiesen und werden typischerweise für aufgabenspezifische Lösungen mit Online-Policy-Lernen entwickelt. Wir argumentieren, dass das wahre Potenzial von Weltmodellen in ihrer Fähigkeit liegt, über verschiedene Probleme hinweg zu denken und zu planen, indem sie nur passive Daten verwenden. Konkret benötigen wir, dass Weltmodelle die folgenden drei Eigenschaften aufweisen: 1) trainierbar auf offline vorgesammelten Trajektorien, 2) Unterstützung der Verhaltensoptimierung zur Testzeit und 3) Förderung einer aufgabenagnostischen Denkweise. Um dies zu verwirklichen, präsentieren wir DINO World Model (DINO-WM), eine neue Methode zur Modellierung visueller Dynamik ohne Rekonstruktion der visuellen Welt. DINO-WM nutzt räumliche Patch-Merkmale, die mit DINOv2 vorab trainiert wurden, und ermöglicht es ihm, aus offline Verhaltens-Trajektorien zu lernen, indem er zukünftige Patch-Merkmale vorhersagt. Dieses Design ermöglicht es DINO-WM, Beobachtungsziele durch die Optimierung von Aktionssequenzen zu erreichen, wodurch eine aufgabenagnostische Verhaltensplanung erleichtert wird, indem gewünschte Ziel-Patch-Merkmale als Vorhersageziele behandelt werden. Wir evaluieren DINO-WM in verschiedenen Bereichen, einschließlich Irrgarten-Navigation, Tisch-Pushen und Partikelmanipulation. Unsere Experimente zeigen, dass DINO-WM zur Testzeit Null-Schuss-Verhaltenslösungen generieren kann, ohne auf Expertenvorführungen, Belohnungsmodellierung oder vorab erlernte inverse Modelle angewiesen zu sein. Insbesondere zeigt DINO-WM im Vergleich zu früheren State-of-the-Art-Arbeiten starke Verallgemeinerungsfähigkeiten, indem es sich an verschiedene Aufgabenfamilien wie beliebig konfigurierte Irrgärten, Push-Manipulation mit unterschiedlichen Objektformen und Szenarien mit mehreren Partikeln anpasst.
Große Sprachmodelle (LLMs) sind anfällig für universelle Jailbreaks, die Strategien hervorrufen, die systematisch Modellsicherheitsvorkehrungen umgehen und es Benutzern ermöglichen, schädliche Prozesse durchzuführen, die viele Modellinteraktionen erfordern, wie die Herstellung illegaler Substanzen im großen Maßstab. Um sich gegen diese Angriffe zu verteidigen, führen wir Verfassungsklassifikatoren ein: Sicherheitsvorkehrungen, die auf synthetischen Daten trainiert sind, die durch das Anregen von LLMs mit natürlichsprachlichen Regeln (d.h. einer Verfassung) generiert werden, die erlaubte und eingeschränkte Inhalte festlegen. In über 3.000 geschätzten Stunden des Red Teaming fand kein Red Teamer einen universellen Jailbreak, der Informationen aus einem frühzeitig von einem Klassifikator geschützten LLM auf ähnlichem Detailniveau wie ein ungeschütztes Modell bei den meisten Zielabfragen extrahieren konnte. Bei automatisierten Bewertungen zeigten verbesserte Klassifikatoren eine robuste Verteidigung gegen zurückgehaltene domänenspezifische Jailbreaks. Diese Klassifikatoren gewährleisten auch die Einsatzfähigkeit, mit einer absoluten Zunahme von 0,38% bei Ablehnungen des Produktionsverkehrs und einem Inferenz-Overhead von 23,7%. Unsere Arbeit zeigt, dass es möglich ist, sich gegen universelle Jailbreaks zu verteidigen und gleichzeitig die praktische Einsatzfähigkeit aufrechtzuerhalten.
Diffusionsmodelle können trotz ihrer Leistungsfähigkeit unbeabsichtigt schädliche oder unerwünschte Inhalte erzeugen, was bedeutende ethische und Sicherheitsbedenken aufwirft. Aktuelle Ansätze zum Maschinenverlernen bieten potenzielle Lösungen, weisen jedoch oft eine mangelnde Transparenz auf, was es schwierig macht, die Änderungen zu verstehen, die sie am Basismodell vornehmen. In dieser Arbeit stellen wir SAeUron vor, eine neuartige Methode, die auf den von Sparse Autoencodern (SAEs) gelernten Merkmalen basiert, um unerwünschte Konzepte in Text-zu-Bild-Diffusionsmodellen zu entfernen. Zunächst zeigen wir, dass SAEs, die in einem unüberwachten Verfahren auf Aktivierungen aus mehreren Rauschunterdrückungszeitpunkten des Diffusionsmodells trainiert sind, spärliche und interpretierbare Merkmale erfassen, die spezifischen Konzepten entsprechen. Aufbauend darauf schlagen wir eine Merkmalsauswahlmethode vor, die präzise Eingriffe auf Modellaktivierungen ermöglicht, um gezielte Inhalte zu blockieren, während die Gesamtleistung erhalten bleibt. Die Evaluation mit dem wettbewerbsfähigen UnlearnCanvas-Benchmark zum Entlernen von Objekten und Stilen hebt die erstklassige Leistung von SAeUron hervor. Darüber hinaus zeigen wir, dass wir mit einem einzigen SAE mehrere Konzepte gleichzeitig entfernen können und dass SAeUron im Gegensatz zu anderen Methoden die Möglichkeit der Erzeugung unerwünschter Inhalte selbst unter einem adversariellen Angriff verringert. Der Code und die Checkpoints sind verfügbar unter: https://github.com/cywinski/SAeUron.
Wir zeigen, dass Lernratenpläne für das Training großer Modelle überraschend ähnlich zu einer Leistungsgrenze aus der Theorie der nicht-glatten konvexen Optimierung verhalten. Wir liefern eine Grenze für den konstanten Plan mit linearem Abkühlen; insbesondere spiegelt sich der praktische Nutzen des Abkühlens in der Grenze aufgrund des Fehlens von logarithmischen Termen wider. Weiterhin zeigen wir, dass diese überraschend enge Übereinstimmung zwischen Optimierungstheorie und Praxis für die Feinabstimmung der Lernrate genutzt werden kann: Wir erzielen deutliche Verbesserungen beim Training von 124M und 210M Llama-Modellen, indem wir (i) den Plan für das fortgesetzte Training mit optimaler Lernrate erweitern und (ii) die optimale Lernrate zwischen Plänen übertragen.
Aktuelle Methoden zur 3D-Szenenrekonstruktion aus spärlichen posierten Bildern verwenden Zwischen-3D-Repräsentationen wie neuronale Felder, Voxelgitter oder 3D-Gaußsche, um eine konsistente Mehransichtenszene in Erscheinung und Geometrie zu erreichen. In diesem Paper stellen wir MVGD vor, eine auf Diffusion basierende Architektur, die in der Lage ist, direkt auf Pixel-Ebene Bilder und Tiefenkarten aus neuen Blickwinkeln zu generieren, basierend auf einer beliebigen Anzahl von Eingabeblicken. Unsere Methode verwendet Raymap-Konditionierung, um visuelle Merkmale sowohl mit räumlichen Informationen aus verschiedenen Blickwinkeln zu erweitern, als auch um die Generierung von Bildern und Tiefenkarten aus neuen Ansichten zu lenken. Ein Schlüsselelement unseres Ansatzes ist die Mehrfachaufgaben-Generierung von Bildern und Tiefenkarten, wobei erlernbare Aufgaben-Einbettungen den Diffusionsprozess auf spezifische Modalitäten lenken. Wir trainieren dieses Modell anhand einer Sammlung von mehr als 60 Millionen Mehrblick-Mustern aus öffentlich verfügbaren Datensätzen und schlagen Techniken vor, um effizientes und konsistentes Lernen in solch vielfältigen Bedingungen zu ermöglichen. Wir schlagen auch eine neuartige Strategie vor, die das effiziente Training größerer Modelle durch inkrementelles Feinabstimmen kleinerer Modelle ermöglicht, mit vielversprechendem Skalierungsverhalten. Durch umfangreiche Experimente berichten wir über Spitzenleistung in mehreren Benchmarks zur Synthese neuer Ansichten sowie zur Mehrblick-Stereo- und Videotiefenschätzung.
Wir führen Experimente zum Einfluss der Erhöhung der Inferenzzeit-Berechnung in Begründungsmodellen (speziell OpenAI o1-preview und o1-mini) auf deren Robustheit gegenüber adversen Angriffen durch. Wir stellen fest, dass bei einer Vielzahl von Angriffen eine erhöhte Inferenzzeit-Berechnung zu einer verbesserten Robustheit führt. In vielen Fällen (mit wichtigen Ausnahmen) neigt der Anteil der Modellproben, bei denen der Angriff erfolgreich ist, gegen null, je mehr Testzeit-Berechnung erfolgt. Wir führen keine adversen Schulungen für die Aufgaben durch, die wir untersuchen, und erhöhen die Inferenzzeit-Berechnung, indem wir den Modellen einfach erlauben, mehr Berechnungen für das Argumentieren zu verwenden, unabhängig von der Angriffsform. Unsere Ergebnisse legen nahe, dass die Inferenzzeit-Berechnung das Potenzial hat, die adversäre Robustheit von großen Sprachmodellen zu verbessern. Wir untersuchen auch neue Angriffe, die auf Begründungsmodelle abzielen, sowie Einstellungen, in denen die Inferenzzeit-Berechnung die Zuverlässigkeit nicht verbessert, und spekulieren über die Gründe dafür sowie Möglichkeiten, ihnen zu begegnen.
Angesichts der jüngsten Einführung mehrerer Sprachmodelle und der fortwährenden Nachfrage nach verbesserten Aufgaben zur natürlichen Sprachverarbeitung, insbesondere Zusammenfassungen, bietet diese Arbeit eine umfassende Bewertung von 20 aktuellen Sprachmodellen, wobei der Fokus auf kleineren Modellen für die Aufgabe der Nachrichtenzusammenfassung liegt. In dieser Arbeit testen wir systematisch die Fähigkeiten und die Wirksamkeit dieser Modelle bei der Zusammenfassung von Nachrichtenartikeln, die in verschiedenen Stilen verfasst sind und in drei unterschiedlichen Datensätzen präsentiert werden. Speziell konzentrieren wir uns in dieser Studie auf die Einstellungen des Zero-Shot- und Few-Shot-Lernens und wenden eine robuste Evaluierungsmethodik an, die verschiedene Evaluierungskonzepte kombiniert, einschließlich automatischer Metriken, menschlicher Bewertung und LLM-als-Richter. Interessanterweise verbesserten die Einbeziehung von Demonstrationsbeispielen in der Few-Shot-Lernumgebung nicht die Leistung der Modelle und führten in einigen Fällen sogar zu einer schlechteren Qualität der generierten Zusammenfassungen. Dieses Problem entsteht hauptsächlich aufgrund der schlechten Qualität der Goldzusammenfassungen, die als Referenzzusammenfassungen verwendet wurden, was sich negativ auf die Leistung der Modelle auswirkt. Darüber hinaus heben die Ergebnisse unserer Studie die außergewöhnliche Leistung von GPT-3.5-Turbo und GPT-4 hervor, die im Allgemeinen aufgrund ihrer fortgeschrittenen Fähigkeiten dominieren. Unter den bewerteten öffentlichen Modellen zeigten jedoch bestimmte Modelle wie Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B und Zephyr-7B-Beta vielversprechende Ergebnisse. Diese Modelle zeigten ein signifikantes Potenzial und positionieren sie als wettbewerbsfähige Alternativen zu großen Modellen für die Aufgabe der Nachrichtenzusammenfassung.
Dieses Papier befasst sich mit der langjährigen Herausforderung, 3D-Strukturen aus Videos mit dynamischen Inhalten zu rekonstruieren. Aktuelle Ansätze zu diesem Problem waren nicht darauf ausgelegt, mit zufälligen Videos, die von Standardkameras aufgenommen wurden, zu arbeiten oder erfordern eine lange Optimierungszeit. Mit dem Ziel, die Effizienz früherer Ansätze signifikant zu verbessern, präsentieren wir TracksTo4D, einen lernbasierten Ansatz, der es ermöglicht, 3D-Strukturen und Kamerapositionen aus dynamischen Inhalten von zufälligen Videos mithilfe eines einzigen effizienten Feedforward-Durchlaufs zu erschließen. Um dies zu erreichen, schlagen wir vor, direkt über 2D-Punktspuren als Eingabe zu arbeiten und eine Architektur zu entwerfen, die speziell für die Verarbeitung von 2D-Punktspuren ausgelegt ist. Unsere vorgeschlagene Architektur wurde mit zwei Schlüsselprinzipien entworfen: (1) Sie berücksichtigt die inhärenten Symmetrien in den Eingabedaten der Punktspuren und (2) sie geht davon aus, dass die Bewegungsmuster effektiv durch eine niederdimensionale Approximation dargestellt werden können. TracksTo4D wird auf einem Datensatz von zufälligen Videos unüberwacht trainiert, wobei nur die aus den Videos extrahierten 2D-Punktspuren verwendet werden, ohne jegliche 3D-Überwachung. Unsere Experimente zeigen, dass TracksTo4D eine zeitliche Punktwolke und Kamerapositionen des zugrunde liegenden Videos mit einer Genauigkeit rekonstruieren kann, die mit den modernsten Methoden vergleichbar ist, während die Laufzeit um bis zu 95\% reduziert wird. Wir zeigen außerdem, dass TracksTo4D gut auf unbekannte Videos von unbekannten semantischen Kategorien zur Inferenzzeit verallgemeinert.
Die promptbare Bildsegmentierung, die aufgabenübergreifend ist, zielt darauf ab, die Segmentierung verschiedener Proben unter einer einzigen Aufgabenbeschreibung zu erreichen, indem nur ein aufgabenübergreifender Prompt verwendet wird. Aktuelle Methoden nutzen die Verallgemeinerungsfähigkeiten von Vision-Language-Modellen (VLMs) aus, um instanzspezifische Prompts aus diesen aufgabenübergreifenden Prompts abzuleiten, um den Segmentierungsprozess zu steuern. Wenn VLMs jedoch Schwierigkeiten haben, sich auf einige Bildinstanzen zu verallgemeinern, wird die Vorhersage von instanzspezifischen Prompts schlecht. Um dieses Problem zu lösen, führen wir das Instanzspezifische Negativ-Mining für Aufgabenübergreifende Promptable Segmentierung (INT) ein. Die Schlüsselidee von INT besteht darin, den Einfluss irrelevanter (negativer) Vorwissens adaptiv zu reduzieren, während gleichzeitig das plausibelste Vorwissen, das durch Negativ-Mining mit höherem Kontrast ausgewählt wird, verstärkt genutzt wird, um die Generierung instanzspezifischer Prompts zu optimieren. Konkret besteht INT aus zwei Komponenten: (1) Generierung instanzspezifischer Prompts, die schrittweise falsche Informationen in der Promptgenerierung herausfiltern; (2) Generierung semantischer Masken, die sicherstellen, dass die Segmentierung jeder Bildinstanz korrekt mit der Semantik der instanzspezifischen Prompts übereinstimmt. INT wird auf sechs Datensätzen validiert, darunter getarnte Objekte und medizinische Bilder, was seine Wirksamkeit, Robustheit und Skalierbarkeit zeigt.
Um die Speicherkosten bei der Inferenz mit Large Language Models (LLMs) und langem Kontext zu reduzieren, konzentrieren sich viele aktuelle Arbeiten auf die Komprimierung des Schlüssel-Wert (KV)-Caches verschiedener Tokens. Wir stellen jedoch fest, dass die bisherigen Methoden zur KV-Cache-Komprimierung die Bedeutung der Tokens individuell messen und die Abhängigkeit zwischen verschiedenen Tokens in den sprachlichen Eigenschaften der realen Welt vernachlässigen. Vor diesem Hintergrund führen wir ChunkKV ein, das die Tokens in einem Chunk als grundlegende Kompressionseinheit gruppiert und die informativsten semantischen Chunks beibehält, während weniger wichtige verworfen werden. Darüber hinaus schlagen wir aufgrund der höheren Ähnlichkeit der erhaltenen Indizes über verschiedene Ebenen hinweg vor, den Index-Wiederverwendung auf Ebenenebene einzuführen, um den Rechenaufwand weiter zu reduzieren. Wir haben ChunkKV an führenden Benchmarks für langen Kontext wie LongBench und Needle-In-A-HayStack sowie am GSM8K- und JailbreakV-In-Context-Lernbenchmark evaluiert. Unsere Experimente mit der Anweisungsabstimmung und den LLMs für Mehrschritt-Argumentation (O1 und R1) erzielen bei aggressiven Kompressionsraten im Vergleich zu bestehenden Methoden eine Leistungssteigerung von bis zu 10\%.