Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben beeindruckende Erfolge bei vielen Benchmarks für mathematisches Denken erzielt. Es gibt jedoch zunehmende Bedenken, dass ein Teil dieser Leistung tatsächlich auf einer Kontamination des Datensatzes beruht, bei der Daten, die den Benchmark-Fragen ähneln, in die Trainingsdaten gelangen, anstatt auf echter Denkfähigkeit. Um diese Behauptung gründlich zu untersuchen, haben wir Grade School Math 1000 (GSM1k) in Auftrag gegeben. GSM1k ist so konzipiert, dass es den Stil und die Komplexität des etablierten GSM8k-Benchmarks widerspiegelt, dem Goldstandard zur Messung elementarer mathematischer Denkfähigkeit. Wir stellen sicher, dass die beiden Benchmarks in wichtigen Metriken wie menschlichen Lösungsraten, Anzahl der Schritte in der Lösung, Antwortgröße und mehr vergleichbar sind. Bei der Bewertung führender Open- und Closed-Source LLMs auf GSM1k beobachten wir Genauigkeitsrückgänge von bis zu 13 %, wobei mehrere Modellfamilien (z. B. Phi und Mistral) Anzeichen für systematisches Overfitting bei fast allen Modellgrößen zeigen. Gleichzeitig zeigen viele Modelle, insbesondere diejenigen an der Spitze (z. B. Gemini/GPT/Claude), minimale Anzeichen von Overfitting. Weitere Analysen legen eine positive Beziehung (Spearman's r^2=0,32) zwischen der Wahrscheinlichkeit eines Modells, ein Beispiel aus GSM8k zu generieren, und der Leistungsdifferenz zwischen GSM8k und GSM1k nahe, was darauf hindeutet, dass viele Modelle GSM8k teilweise auswendig gelernt haben könnten.
Die Bildbearbeitung hat sich mit der Einführung von textkonditionierten Diffusionsmodellen erheblich weiterentwickelt. Trotz dieses Fortschritts bleibt das nahtlose Hinzufügen von Objekten zu Bildern basierend auf textuellen Anweisungen ohne die Notwendigkeit von benutzerbereitgestellten Eingabemasken eine Herausforderung. Wir gehen dieses Problem an, indem wir die Erkenntnis nutzen, dass das Entfernen von Objekten (Inpaint) wesentlich einfacher ist als sein umgekehrter Prozess des Hinzufügens (Paint), was auf der Verwendung von Segmentierungsmaskendatensätzen neben Inpainting-Modellen beruht, die innerhalb dieser Masken Inpainting durchführen. Durch die Umsetzung eines automatisierten und umfassenden Workflows nutzen wir diese Erkenntnis, um einen gefilterten, groß angelegten Bilddatensatz zu kuratieren, der Paare von Bildern und ihren entsprechenden objektentfernten Versionen enthält. Mit diesen Paaren trainieren wir ein Diffusionsmodell, um den Inpainting-Prozess umzukehren und effektiv Objekte in Bilder hinzuzufügen. Im Gegensatz zu anderen Bearbeitungsdatensätzen enthält unserer natürliche Zielbilder anstelle von synthetischen; zudem wird die Konsistenz zwischen Quelle und Ziel durch die Konstruktion aufrechterhalten. Darüber hinaus nutzen wir ein großes Vision-Language-Modell, um detaillierte Beschreibungen der entfernten Objekte bereitzustellen, und ein großes Sprachmodell, um diese Beschreibungen in vielfältige, natürlichsprachige Anweisungen umzuwandeln. Wir zeigen, dass das trainierte Modell sowohl qualitativ als auch quantitativ bestehende Modelle übertrifft, und stellen den groß angelegten Datensatz zusammen mit den trainierten Modellen der Community zur Verfügung.
Traditionelle Verstärkungslernen aus menschlichem Feedback (RLHF)-Ansätze, die auf parametrischen Modellen wie dem Bradley-Terry-Modell beruhen, scheitern daran, die Intransitivität und Irrationalität menschlicher Präferenzen zu erfassen. Neueste Fortschritte legen nahe, dass die direkte Arbeit mit Präferenzwahrscheinlichkeiten eine genauere Abbildung menschlicher Präferenzen ermöglichen kann, was eine flexiblere und genauere Ausrichtung von Sprachmodellen ermöglicht. In diesem Paper schlagen wir eine Self-Play-basierte Methode für die Ausrichtung von Sprachmodellen vor, die das Problem als ein konstantes Zwei-Spieler-Spiel behandelt, das darauf abzielt, die Nash-Gleichgewichtspolitik zu identifizieren. Unser Ansatz, genannt Self-Play Preference Optimization (SPPO), approximiert das Nash-Gleichgewicht durch iterative Politikaktualisierungen und bietet eine theoretische Konvergenzgarantie. Unsere Methode kann effektiv die Log-Likelihood der ausgewählten Antwort erhöhen und die der abgelehnten Antwort verringern, was nicht trivial durch symmetrische paarweise Verluste wie Direct Preference Optimization (DPO) und Identity Preference Optimization (IPO) erreicht werden kann. In unseren Experimenten, unter Verwendung von nur 60k Anfragen (ohne Antworten) aus dem UltraFeedback-Datensatz und ohne Anfragenvergrößerung, kann SPPO mithilfe eines vortrainierten Präferenzmodells PairRM mit nur 0.4B Parametern ein Modell aus dem Feintuning von Mistral-7B-Instruct-v0.2 erhalten, das den state-of-the-art Längenkontroll-Sieganteil von 28.53% gegenüber GPT-4-Turbo auf AlpacaEval 2.0 erreicht. Es übertrifft auch das (iterative) DPO und IPO auf MT-Bench und dem Open LLM Leaderboard. Bemerkenswert ist, dass die starke Leistung von SPPO ohne zusätzliche externe Aufsicht (z. B. Antworten, Präferenzen usw.) von GPT-4 oder anderen stärkeren Sprachmodellen erreicht wird.
Diese Studie präsentiert eine gezielte Modellbearbeitungsanalyse, die sich auf das neueste große Sprachmodell, Llama-3, konzentriert. Wir untersuchen die Wirksamkeit beliebter Modellbearbeitungstechniken - ROME, MEMIT und EMMET, die für präzise Schichteingriffe entwickelt wurden. Wir identifizieren die effektivsten Schichten für gezielte Bearbeitungen durch eine Bewertung, die bis zu 4096 Bearbeitungen über drei verschiedene Strategien umfasst: sequenzielle Bearbeitung, Stapelbearbeitung und einen Hybridansatz, den wir als sequenzielle Stapelbearbeitung bezeichnen. Unsere Ergebnisse deuten darauf hin, dass eine Erhöhung der Stapelgröße die Modellleistung signifikanter beeinträchtigen kann als die Verwendung kleinerer Bearbeitungsstapel sequenziell für die gleiche Anzahl von Bearbeitungen. Damit argumentieren wir, dass die sequenzielle Modellbearbeitung eine wichtige Komponente für die Skalierung von Modellbearbeitungsmethoden ist und zukünftige Forschungsmethoden im Fokus stehen sollte, die sowohl Stapel- als auch sequenzielle Bearbeitung kombinieren. Diese Beobachtung deutet auf eine potenzielle Einschränkung bei aktuellen Modellbearbeitungsmethoden hin, die auf größere Bearbeitungsstapelgrößen abzielen, und wir hoffen, dass dies den Weg für zukünftige Untersuchungen zur Optimierung von Stapelgrößen und Modellbearbeitungsleistung ebnet.
Große Sprachmodelle (LLMs) haben die Audiobearbeitung erheblich vorangetrieben durch Audiocodecs, die Audio in diskrete Tokens umwandeln und somit die Anwendung von Sprachmodellierungstechniken auf Audio-Daten ermöglichen. Traditionelle Codecs arbeiten jedoch oft mit hohen Bitraten oder innerhalb enger Bereiche wie Sprache und fehlen den für effiziente Sprachmodellierung erforderlichen semantischen Hinweisen. Um diese Herausforderungen anzugehen, stellen wir SemantiCodec vor, einen neuartigen Codec, der darauf ausgelegt ist, Audio über verschiedene Audiotypen hinweg, einschließlich Sprache, allgemeines Audio und Musik, in weniger als hundert Tokens pro Sekunde zu komprimieren, ohne die Qualität zu beeinträchtigen. SemantiCodec verfügt über eine Dual-Encoder-Architektur: einen semantischen Encoder, der einen selbstüberwachten AudioMAE verwendet, der durch k-Means-Clustering auf umfangreichen Audio-Daten diskretisiert wird, und einen akustischen Encoder, um die verbleibenden Details zu erfassen. Die Ausgaben des semantischen und des akustischen Encoders werden verwendet, um Audio über einen Decoder auf Basis eines Diffusionsmodells zu rekonstruieren. SemantiCodec wird in drei Varianten mit Tokenraten von 25, 50 und 100 pro Sekunde präsentiert und unterstützt eine Reihe von extrem niedrigen Bitraten zwischen 0,31 kbps und 1,43 kbps. Experimentelle Ergebnisse zeigen, dass SemantiCodec die Qualitätsrekonstruktion des State-of-the-Art-Codecs Descript signifikant übertrifft. Unsere Ergebnisse legen auch nahe, dass SemantiCodec selbst bei erheblich niedrigeren Bitraten signifikant reichhaltigere semantische Informationen als alle bewerteten Audiocodecs enthält. Unser Code und Demos sind verfügbar unter https://haoheliu.github.io/SemantiCodec/.
Große Sprachmodelle (LLMs) leiden unter geringer Effizienz aufgrund der Diskrepanz zwischen den Anforderungen des autoregressiven Decodings und dem Design der meisten zeitgenössischen GPUs. Speziell müssen Milliarden bis Billionen von Parametern über die begrenzte Speicherbandbreite der GPU in den GPU-Cache geladen werden, um berechnet zu werden, jedoch wird nur eine kleine Charge von Tokens tatsächlich berechnet. Folglich verbringt die GPU die meiste Zeit mit dem Speichertransfer anstelle von Berechnungen. In letzter Zeit wird das parallele Decoding, eine Art spekulativer Decoding-Algorithmen, immer beliebter und hat eine beeindruckende Effizienzsteigerung bei der Generierung gezeigt. Es führt zusätzliche Decoding-Köpfe in große Modelle ein, die es ihnen ermöglichen, mehrere nachfolgende Tokens gleichzeitig vorherzusagen und diese Kandidatenfortsetzungen in einem einzigen Decoding-Schritt zu überprüfen. Allerdings weicht dieser Ansatz vom Trainingsziel der nächsten Token-Vorhersage ab, das während des Pre-Trainings verwendet wird, was zu einer niedrigen Trefferquote für Kandidatentokens führt. In diesem Paper schlagen wir einen neuen spekulativen Decoding-Algorithmus namens Clover vor, der sequenzielles Wissen in den parallelen Decoding-Prozess integriert. Diese Verbesserung erhöht die Trefferquote der Spekulanten und steigert somit die Gesamteffizienz. Clover überträgt das sequenzielle Wissen von vorher spekulierten Tokens über die Regressive Verbindung und verwendet dann einen Aufmerksamkeitsdecoder, um diese spekulierten Tokens zu integrieren. Darüber hinaus integriert Clover einen Augmenting Block, der die verborgenen Zustände modifiziert, um besser mit dem Zweck der spekulativen Generierung anstatt der nächsten Token-Vorhersage übereinzustimmen. Die Experimentergebnisse zeigen, dass Clover die Baseline um bis zu 91% bei Baichuan-Small und 146% bei Baichuan-Large übertrifft und die Leistung der zuvor besten Methode, Medusa, um bis zu 37% bei Baichuan-Small und 57% bei Baichuan-Large übertrifft.
In letzter Zeit hat das 3D-Gauß-Splatting als neuartige 3D-Darstellung Aufmerksamkeit erregt, aufgrund seiner schnellen Rendergeschwindigkeit und hohen Renderqualität. Dies geht jedoch mit einem hohen Speicherverbrauch einher, z.B. kann ein gut trainiertes Gauß-Feld drei Millionen Gauß-Primitiven und über 700 MB Speicher nutzen. Wir führen diesen hohen Speicherbedarf auf das Fehlen der Berücksichtigung der Beziehung zwischen den Primitiven zurück. In diesem Papier schlagen wir ein speichereffizientes Gauß-Feld namens SUNDAE mit spektraler Reduzierung und neuronaler Kompensation vor. Einerseits erstellen wir einen Graphen auf der Menge der Gauß-Primitiven, um ihre Beziehung zu modellieren, und entwerfen ein spektrales Down-Sampling-Modul, um Primitiven zu reduzieren, während gewünschte Signale erhalten bleiben. Andererseits, um den Qualitätsverlust beim Beschneiden von Gaußschen zu kompensieren, nutzen wir ein leichtgewichtiges neuronales Netzwerk, um gesplittete Merkmale zu mischen, was Qualitätsverluste effektiv ausgleicht, während die Beziehung zwischen den Primitiven in seinen Gewichten erfasst wird. Wir zeigen die Leistung von SUNDAE mit umfangreichen Ergebnissen auf. Beispielsweise kann SUNDAE auf dem Mip-NeRF360-Datensatz bei 145 FPS 26,80 PSNR mit 104 MB Speicher erreichen, während der herkömmliche Gauß-Splatting-Algorithmus bei 160 FPS 25,60 PSNR mit 523 MB Speicher erreicht. Die Codes sind öffentlich verfügbar unter https://runyiyang.github.io/projects/SUNDAE/.
Die Verfolgung von Objekten im dreidimensionalen Raum ist entscheidend für das autonome Fahren. Um die Sicherheit beim Fahren zu gewährleisten, muss der Tracker in der Lage sein, Objekte zuverlässig über Frames hinweg zu verfolgen und ihre Zustände wie Geschwindigkeit und Beschleunigung präzise im aktuellen Zustand zu schätzen. Bestehende Arbeiten konzentrieren sich häufig auf die Assoziationsaufgabe, vernachlässigen jedoch entweder die Leistung des Modells bei der Zustandsschätzung oder setzen komplexe Heuristiken ein, um die Zustände vorherzusagen. In diesem Paper schlagen wir STT vor, ein Stateful Tracking-Modell, das mit Transformers aufgebaut ist und Objekte in Szenen konsistent verfolgen kann, während es auch ihre Zustände präzise vorhersagt. STT nutzt reiche Erscheinungsbilder, Geometrie- und Bewegungssignale über die langfristige Historie von Erkennungen und wird gemeinsam für die Aufgaben der Datenassoziation und Zustandsschätzung optimiert. Da die Standard-Tracking-Metriken wie MOTA und MOTP die kombinierte Leistung der beiden Aufgaben im breiteren Spektrum der Objektzustände nicht erfassen, erweitern wir sie um neue Metriken namens S-MOTA und MOTPS, die diese Einschränkung adressieren. STT erzielt eine wettbewerbsfähige Echtzeitleistung auf dem Waymo Open Dataset.
Anwendungsentwickler bewerben ihre Apps, indem sie Produktseiten mit App-Bildern erstellen und auf Suchbegriffe bieten. Es ist daher entscheidend, dass die App-Bilder sehr relevant zu den Suchbegriffen sind. Lösungen für dieses Problem erfordern ein Bild-Text-Matching-Modell, um die Qualität der Übereinstimmung zwischen dem ausgewählten Bild und den Suchbegriffen vorherzusagen. In dieser Arbeit präsentieren wir einen neuartigen Ansatz, um ein App-Bild mit Suchbegriffen abzugleichen, basierend auf dem Feinabstimmen eines vorab trainierten LXMERT-Modells. Wir zeigen, dass im Vergleich zum CLIP-Modell und einem Baseline-Modell, das ein Transformer-Modell für Suchbegriffe und ein ResNet-Modell für Bilder verwendet, die Übereinstimmungsgenauigkeit signifikant verbessert wird. Wir evaluieren unseren Ansatz unter Verwendung von zwei Label-Sets: Werbetreibende zugeordnete (Bild, Suchbegriff)-Paare für eine bestimmte Anwendung und menschliche Bewertungen für die Relevanz zwischen (Bild, Suchbegriff)-Paaren. Unser Ansatz erzielt einen AUC-Score von 0,96 für werbetreibende zugeordnete Ground-Truth-Daten und übertrifft die Transformer+ResNet-Baseline und das feinabgestimmte CLIP-Modell um 8% bzw. 14%. Für menschlich bewertete Ground-Truth-Daten erzielt unser Ansatz einen AUC-Score von 0,95 und übertrifft die Transformer+ResNet-Baseline und das feinabgestimmte CLIP-Modell um 16% bzw. 17%.