Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Phi-4-Mini und Phi-4-Multimodal vor, kompakte, aber äußerst leistungsfähige Sprach- und Multimodellmodelle. Phi-4-Mini ist ein Sprachmodell mit 3,8 Milliarden Parametern, das auf hochwertigen Web- und synthetischen Daten trainiert wurde und aktuelle Open-Source-Modelle ähnlicher Größe deutlich übertrifft sowie die Leistung von Modellen, die doppelt so groß sind, bei mathematischen und Programmieraufgaben, die komplexes Denken erfordern, erreicht. Dieser Erfolg wird durch ein sorgfältig kuratiertes synthetisches Datenrezept ermöglicht, das hochwertige mathematische und Programmierdatensätze betont. Im Vergleich zu seinem Vorgänger, Phi-3.5-Mini, verfügt Phi-4-Mini über einen erweiterten Wortschatz von 200.000 Tokens, um multilinguale Anwendungen besser zu unterstützen, sowie über Group-Query-Attention für eine effizientere Erzeugung langer Sequenzen. Phi-4-Multimodal ist ein multimodales Modell, das Text-, Bild- und Sprach-/Audio-Eingabemodalitäten in einem einzigen Modell integriert. Sein neuartiger Ansatz zur Modalerweiterung nutzt LoRA-Adapter und modalitätsspezifische Router, um mehrere Inferenzmodi zu ermöglichen, die verschiedene Modalitäten ohne Interferenz kombinieren. Beispielsweise belegt es derzeit den ersten Platz im OpenASR-Leaderboard, obwohl die LoRA-Komponente der Sprach-/Audio-Modalität nur 460 Millionen Parameter hat. Phi-4-Multimodal unterstützt Szenarien mit (Bild + Sprache), (Bild + Sprache) und (Sprache/Audio) Eingaben und übertrifft größere Vision-Sprache- und Sprach-Sprache-Modelle bei einer Vielzahl von Aufgaben. Zusätzlich experimentieren wir damit, Phi-4-Mini weiter zu trainieren, um seine Denkfähigkeiten zu verbessern. Trotz seiner kompakten Größe von 3,8 Milliarden Parametern erreicht diese experimentelle Version eine Denkleistung, die mit deutlich größeren Modellen wie DeepSeek-R1-Distill-Qwen-7B und DeepSeek-R1-Distill-Llama-8B vergleichbar ist oder diese sogar übertrifft.
Reinforcement Fine-Tuning (RFT) in großen Reasoning-Modellen wie OpenAI o1 lernt aus Feedback zu seinen Antworten, was besonders in Anwendungen nützlich ist, in denen Feinabstimmungsdaten knapp sind. Aktuelle Open-Source-Arbeiten wie DeepSeek-R1 zeigen, dass Reinforcement Learning mit verifizierbaren Belohnungen eine zentrale Richtung bei der Reproduktion von o1 ist. Während das R1-ähnliche Modell bei Sprachmodellen Erfolge gezeigt hat, bleibt seine Anwendung in multimodalen Bereichen weitgehend unerforscht. Diese Arbeit führt Visual Reinforcement Fine-Tuning (Visual-RFT) ein, das die Anwendungsbereiche von RFT auf visuelle Aufgaben erweitert. Konkret generiert Visual-RFT zunächst mithilfe von Large Vision-Language Models (LVLMs) mehrere Antworten mit Reasoning-Tokens und endgültigen Lösungen für jede Eingabe und verwendet dann unsere vorgeschlagenen visuellen Wahrnehmungs-Belohnungsfunktionen, um das Modell über Policy-Optimierungsalgorithmen wie Group Relative Policy Optimization (GRPO) zu aktualisieren. Wir entwerfen unterschiedliche verifizierbare Belohnungsfunktionen für verschiedene Wahrnehmungsaufgaben, wie beispielsweise die Intersection over Union (IoU)-Belohnung für die Objekterkennung. Experimentelle Ergebnisse in den Bereichen feinkörnige Bildklassifizierung, Few-Shot-Objekterkennung, Reasoning-Grounding sowie Open-Vocabulary-Objekterkennung zeigen die wettbewerbsfähige Leistung und fortgeschrittene Generalisierungsfähigkeit von Visual-RFT im Vergleich zu Supervised Fine-Tuning (SFT). Beispielsweise verbessert Visual-RFT die Genauigkeit um 24,3 % gegenüber der Baseline bei der One-Shot-feinkörnigen Bildklassifizierung mit etwa 100 Proben. In der Few-Shot-Objekterkennung übertrifft Visual-RFT die Baseline ebenfalls um 21,9 im COCO-Zwei-Shot-Setting und um 15,4 bei LVIS. Unser Visual-RFT stellt einen Paradigmenwechsel in der Feinabstimmung von LVLMs dar und bietet einen dateneffizienten, belohnungsgesteuerten Ansatz, der das Reasoning und die Anpassungsfähigkeit für domänenspezifische Aufgaben verbessert.
Neural Radiance Fields und 3D Gaussian Splatting haben die 3D-Rekonstruktion und die Aufgabe der Neuansichtssynthese revolutioniert. Dennoch bleibt die Erzielung fotorealistischer Renderungen aus extremen neuen Blickwinkeln eine Herausforderung, da Artefakte in den Darstellungen bestehen bleiben. In dieser Arbeit stellen wir Difix3D+ vor, eine neuartige Pipeline, die darauf abzielt, die 3D-Rekonstruktion und die Neuansichtssynthese durch Einzelschritt-Diffusionsmodelle zu verbessern. Kern unseres Ansatzes ist Difix, ein Einzelschritt-Bilddiffusionsmodell, das darauf trainiert ist, Artefakte in gerenderten Neuansichten zu verbessern und zu entfernen, die durch unterbestimmte Regionen der 3D-Darstellung verursacht werden. Difix erfüllt zwei kritische Rollen in unserer Pipeline. Erstens wird es während der Rekonstruktionsphase verwendet, um Pseudo-Trainingsansichten zu bereinigen, die aus der Rekonstruktion gerendert und dann wieder in 3D destilliert werden. Dies verbessert stark die unterbestimmten Regionen und steigert die Gesamtqualität der 3D-Darstellung. Noch wichtiger ist, dass Difix auch während der Inferenz als neuronaler Enhancer fungiert und effektiv verbleibende Artefakte entfernt, die aus unvollkommener 3D-Supervision und der begrenzten Kapazität aktueller Rekonstruktionsmodelle resultieren. Difix3D+ ist eine allgemeine Lösung, ein einzelnes Modell, das sowohl mit NeRF- als auch mit 3DGS-Darstellungen kompatibel ist, und es erreicht eine durchschnittliche Verbesserung des FID-Scores um das 2-fache gegenüber den Baselines, während die 3D-Konsistenz gewahrt bleibt.
Die Inferenz zur Testzeit hat sich als leistungsstarkes Paradigma etabliert, um Sprachmodelle dazu zu befähigen, länger und sorgfältiger über komplexe Herausforderungen „nachzudenken“, ähnlich wie erfahrene menschliche Experten. Während Reinforcement Learning (RL) die Selbstverbesserung von Sprachmodellen bei überprüfbaren Aufgaben vorantreiben kann, zeigen einige Modelle erhebliche Fortschritte, während andere schnell ein Plateau erreichen. Beispielsweise stellen wir fest, dass Qwen-2.5-3B Llama-3.2-3B bei identischem RL-Training für das Spiel Countdown deutlich übertrifft. Diese Diskrepanz wirft eine entscheidende Frage auf: Welche intrinsischen Eigenschaften ermöglichen eine effektive Selbstverbesserung? Wir stellen ein Framework vor, um diese Frage zu untersuchen, indem wir vier zentrale kognitive Verhaltensweisen analysieren – Verifikation, Rückverfolgung, Unterzielsetzung und Rückwärtsverkettung –, die sowohl erfahrene menschliche Problemlöser als auch erfolgreiche Sprachmodelle anwenden. Unsere Studie zeigt, dass Qwen diese Denkweisen natürlich aufweist, während Llama sie zunächst nicht besitzt. In systematischen Experimenten mit kontrollierten Verhaltensdatensätzen stellen wir fest, dass Llama durch das Vorbereiten mit Beispielen, die diese Denkweisen enthalten, erhebliche Verbesserungen während des RL erreicht und die Leistung von Qwen erreicht oder übertrifft. Entscheidend ist, dass das Vorhandensein von Denkweisen und nicht die Korrektheit der Antworten der kritische Faktor ist – Modelle, die mit falschen Lösungen, aber korrekten Denkmustern vorbereitet werden, erreichen eine vergleichbare Leistung wie solche, die mit korrekten Lösungen trainiert wurden. Schließlich ermöglicht die Nutzung von fortgesetztem Pretraining mit OpenWebMath-Daten, die gefiltert wurden, um Denkweisen zu verstärken, dem Llama-Modell, den Selbstverbesserungspfad von Qwen zu erreichen. Unsere Ergebnisse stellen eine grundlegende Beziehung zwischen anfänglichen Denkweisen und der Fähigkeit zur Verbesserung her und erklären, warum einige Sprachmodelle zusätzliche Rechenleistung effektiv nutzen, während andere ein Plateau erreichen.
Die Erzeugung ultra-langer Sequenzen mit großen Sprachmodellen (LLMs) wird zunehmend entscheidend, bleibt jedoch eine äußerst zeitintensive Aufgabe, insbesondere für Sequenzen mit bis zu 100.000 Tokens. Obwohl traditionelle spekulative Dekodierungsmethoden existieren, führt eine einfache Erweiterung ihrer Generierungsgrenzen nicht zu einer Beschleunigung des Prozesses und kann sogar nachteilig sein. Durch eine detaillierte Analyse identifizieren wir drei Hauptherausforderungen, die eine effiziente Generierung behindern: häufiges Neuladen des Modells, dynamische Verwaltung von Schlüssel-Wert-Paaren (KV) und repetitive Generierung. Um diese Probleme zu lösen, stellen wir TOKENSWIFT vor, ein neuartiges Framework, das entwickelt wurde, um den Generierungsprozess ultra-langer Sequenzen erheblich zu beschleunigen, während die inhärente Qualität des Zielmodells erhalten bleibt. Experimentelle Ergebnisse zeigen, dass TOKENSWIFT eine mehr als dreifache Beschleunigung über Modelle verschiedener Größen (1,5B, 7B, 8B, 14B) und Architekturen (MHA, GQA) hinweg erreicht. Diese Beschleunigung bedeutet eine Zeitersparnis von Stunden bei der Generierung ultra-langer Sequenzen und etabliert TOKENSWIFT als eine skalierbare und effektive Lösung für bisher unerreichte Längen. Der Code ist unter https://github.com/bigai-nlco/TokenSwift verfügbar.
Jüngste Fortschritte in der Musikgenerierung haben erhebliche Aufmerksamkeit erregt, doch bestehende Ansätze stoßen auf kritische Einschränkungen. Einige aktuelle generative Modelle können entweder nur den Gesang oder die Begleitung synthetisieren. Während einige Modelle kombinierte Gesangs- und Begleitungsspuren erzeugen können, basieren sie typischerweise auf sorgfältig entworfenen mehrstufigen Kaskadenarchitekturen und komplexen Datenpipelines, was die Skalierbarkeit behindert. Darüber hinaus sind die meisten Systeme darauf beschränkt, kurze musikalische Segmente anstelle von vollständigen Songs zu generieren. Zudem leiden weit verbreitete, auf Sprachmodellen basierende Methoden unter langsamen Inferenzgeschwindigkeiten. Um diese Herausforderungen zu bewältigen, schlagen wir DiffRhythm vor, das erste latente diffusionsbasierte Songgenerierungsmodell, das in der Lage ist, vollständige Songs mit Gesang und Begleitung für eine Dauer von bis zu 4m45s in nur zehn Sekunden zu synthetisieren, wobei eine hohe Musikalität und Verständlichkeit erhalten bleibt. Trotz seiner bemerkenswerten Fähigkeiten ist DiffRhythm einfach und elegant konzipiert: Es eliminiert die Notwendigkeit komplexer Datenvorbereitung, verwendet eine unkomplizierte Modellstruktur und benötigt während der Inferenz lediglich Songtexte und einen Stil-Prompt. Zusätzlich gewährleistet seine nicht-autoregressive Struktur schnelle Inferenzgeschwindigkeiten. Diese Einfachheit garantiert die Skalierbarkeit von DiffRhythm. Darüber hinaus veröffentlichen wir den vollständigen Trainingscode zusammen mit dem vortrainierten Modell auf groß angelegten Daten, um Reproduzierbarkeit und weitere Forschung zu fördern.
Kürzlich haben generative, retrieverbasierte Empfehlungssysteme als vielversprechendes Paradigma an Bedeutung gewonnen. Die meisten modernen Empfehlungssysteme verfolgen jedoch eine Retrieve-and-Rank-Strategie, bei der das generative Modell lediglich als Selektor während der Retrieval-Phase fungiert. In diesem Artikel stellen wir OneRec vor, das das kaskadierte Lernframework durch ein einheitliches generatives Modell ersetzt. Unseres Wissens ist dies das erste End-to-End-generative Modell, das aktuelle komplexe und gut durchdachte Empfehlungssysteme in realen Szenarien deutlich übertrifft. Konkret umfasst OneRec: 1) eine Encoder-Decoder-Struktur, die die historischen Verhaltenssequenzen des Nutzers kodiert und schrittweise die Videos dekodiert, an denen der Nutzer interessiert sein könnte. Wir verwenden ein spärliches Mixture-of-Experts (MoE), um die Modellkapazität zu skalieren, ohne die Rechen-FLOPs proportional zu erhöhen. 2) einen sitzungsbasierten Generierungsansatz. Im Gegensatz zur traditionellen Next-Item-Vorhersage schlagen wir eine sitzungsweise Generierung vor, die eleganter und kontextuell kohärenter ist als eine punktweise Generierung, die auf handgefertigten Regeln basiert, um die generierten Ergebnisse angemessen zu kombinieren. 3) ein Iterative Preference Alignment-Modul in Kombination mit Direct Preference Optimization (DPO), um die Qualität der generierten Ergebnisse zu verbessern. Im Gegensatz zu DPO in der NLP hat ein Empfehlungssystem typischerweise nur eine Gelegenheit, Ergebnisse für jede Nutzeranfrage anzuzeigen, was es unmöglich macht, positive und negative Proben gleichzeitig zu erhalten. Um diese Einschränkung zu adressieren, haben wir ein Belohnungsmodell entworfen, um die Nutzergenerierung zu simulieren und die Sampling-Strategie anzupassen. Umfangreiche Experimente haben gezeigt, dass eine begrenzte Anzahl von DPO-Proben die Interessenpräferenzen der Nutzer ausrichten und die Qualität der generierten Ergebnisse deutlich verbessern kann. Wir haben OneRec in der Hauptszene von Kuaishou eingesetzt und eine Steigerung der Sehdauer um 1,6 % erreicht, was eine erhebliche Verbesserung darstellt.
Die Schätzung von Unsicherheit ist entscheidend für die Bewertung von Large Language Models (LLMs), insbesondere in hochriskanten Bereichen, in denen falsche Antworten erhebliche Konsequenzen nach sich ziehen. Zahlreiche Ansätze befassen sich mit diesem Problem, konzentrieren sich jedoch auf eine spezifische Art von Unsicherheit und ignorieren andere. Wir untersuchen, welche Schätzungen, insbesondere tokenweise Entropie und Model-as-Judge (MASJ), für Multiple-Choice-Frage-Antwort-Aufgaben zu verschiedenen Fragenthemen geeignet sind. Unsere Experimente berücksichtigen drei LLMs: Phi-4, Mistral und Qwen in verschiedenen Größen von 1,5B bis 72B sowie 14 Themen. Während MASJ ähnlich wie ein zufälliger Fehlerprädiktor abschneidet, sagt die Antwortentropie Modellfehler in wissensabhängigen Domänen voraus und dient als effektiver Indikator für die Schwierigkeit von Fragen: für Biologie beträgt der ROC AUC 0,73. Diese Korrelation verschwindet im reasoning-abhängigen Bereich: für mathematische Fragen liegt der ROC-AUC bei 0,55. Grundsätzlicher stellten wir fest, dass das Entropiemaß einen bestimmten Grad an logischem Denken erfordert. Daher sollte die datenbezogene Unsicherheitsentropie in Unsicherheitsschätzungsrahmen integriert werden, während MASJ einer Verbesserung bedarf. Darüber hinaus sind die bestehenden MMLU-Pro-Stichproben verzerrt und sollten den erforderlichen Umfang an logischem Denken für verschiedene Subdomänen ausgleichen, um eine fairere Bewertung der Leistung von LLMs zu ermöglichen.
Transformer mit linearer rekurrenter Modellierung bieten Training in linearer Zeit und Inferenz mit konstantem Speicherbedarf. Trotz ihrer nachgewiesenen Effizienz und Leistung bleibt das Pretraining solcher nicht-standardmäßiger Architekturen von Grund auf kostspielig und risikoreich. Die Linearisierung großer Sprachmodelle (LLMs) transformiert vortrainierte Standardmodelle in lineare rekurrente Strukturen, was eine effizientere Bereitstellung ermöglicht. Allerdings führen aktuelle Linearisierungsmethoden typischerweise zusätzliche Feature-Map-Module ein, die umfangreiche Feinabstimmung erfordern und die Gating-Mechanismen, die in modernsten linearen rekurrenten Modellen verwendet werden, übersehen. Um diese Probleme zu lösen, stellt dieses Paper Liger vor, kurz für Linearizing LLMs to gated recurrent structures. Liger ist ein neuartiger Ansatz zur Umwandlung vortrainierter LLMs in gated lineare rekurrente Modelle, ohne zusätzliche Parameter hinzuzufügen. Es nutzt die vortrainierten Gewichte der Schlüsselmatrix, um diverse Gating-Mechanismen zu konstruieren, was die Bildung verschiedener gated rekurrenter Strukturen erleichtert und gleichzeitig die Notwendigkeit vermeidet, zusätzliche Komponenten von Grund auf zu trainieren. Durch leichte Feinabstimmung mit Low-Rank Adaptation (LoRA) stellt Liger die Leistung der linearisierten gated rekurrenten Modelle auf das Niveau der ursprünglichen LLMs wieder her. Zusätzlich führen wir Liger Attention ein, einen intra-schichtigen hybriden Aufmerksamkeitsmechanismus, der während des Linearisierungsprozesses 93 % des Transformer-basierten LLMs bei 0,02 % der Pretraining-Token signifikant wiederherstellt und wettbewerbsfähige Ergebnisse über mehrere Benchmarks hinweg erzielt, wie an Modellen mit 1B bis 8B Parametern validiert wurde. Der Code ist verfügbar unter https://github.com/OpenSparseLLMs/Linearization.
Diffusionsmodelle haben große Erfolge bei der Generierung von 2D-Bildern erzielt. Die Qualität und Generalisierbarkeit der 3D-Inhaltsgenerierung bleiben jedoch begrenzt. State-of-the-Art-Methoden erfordern oft groß angelegte 3D-Assets für das Training, die schwer zu beschaffen sind. In dieser Arbeit stellen wir Kiss3DGen (Keep It Simple and Straightforward in 3D Generation) vor, ein effizientes Framework zur Generierung, Bearbeitung und Verbesserung von 3D-Objekten, indem ein gut trainiertes 2D-Bilddiffusionsmodell für die 3D-Generierung wiederverwendet wird. Konkret feintunen wir ein Diffusionsmodell, um „3D-Bundle-Images“ zu generieren, eine gekachelte Darstellung, die aus Multi-View-Bildern und ihren entsprechenden Normalmaps besteht. Die Normalmaps werden dann verwendet, um ein 3D-Mesh zu rekonstruieren, und die Multi-View-Bilder liefern die Texturabbildung, was zu einem vollständigen 3D-Modell führt. Diese einfache Methode transformiert das Problem der 3D-Generierung effektiv in eine 2D-Bildgenerierungsaufgabe und maximiert die Nutzung des Wissens in vortrainierten Diffusionsmodellen. Darüber hinaus zeigen wir, dass unser Kiss3DGen-Modell mit verschiedenen Diffusionsmodelltechniken kompatibel ist und erweiterte Funktionen wie 3D-Bearbeitung, Mesh- und Texturverbesserung usw. ermöglicht. Durch umfangreiche Experimente demonstrieren wir die Wirksamkeit unseres Ansatzes und zeigen seine Fähigkeit, hochwertige 3D-Modelle effizient zu erzeugen.
Die Erhöhung des Rechenaufwands zur Testzeit ist ein direkter Ansatz, um die Qualität der Antworten von Large Language Models (LLMs) zu verbessern. Während Best-of-N-Sampling und Self-Consistency mit Mehrheitsentscheid einfach und effektiv sind, erfordern sie eine feste Anzahl von Sampling-Antworten für jede Anfrage, unabhängig von deren Komplexität. Dies kann zu verschwendetem Rechenaufwand bei einfacheren Fragen und unzureichender Exploration bei schwierigeren Fragen führen. In dieser Arbeit argumentieren wir, dass das Modellvertrauen in die Antworten genutzt werden kann, um die Effizienz der Skalierung zur Testzeit zu verbessern. Leider ist bekannt, dass LLMs übermäßig selbstbewusst sind und unzuverlässige Vertrauensschätzungen liefern. Um diese Einschränkung zu überwinden, führen wir Self-Calibration ein, indem wir das aus Self-Consistency abgeleitete Vertrauen in das Modell selbst destillieren. Dies ermöglicht eine zuverlässige Vertrauensschätzung zur Testzeit mit einem einzigen Vorwärtsdurchlauf. Anschließend entwerfen wir effiziente Testzeit-Skalierungsmethoden basierend auf Vertrauen, um Anfragen unterschiedlicher Schwierigkeit zu behandeln, wie z.B. Early-Stopping für Best-of-N und Self-Consistency mit kalibriertem Vertrauen. Experimente mit drei LLMs über sechs Datensätze demonstrieren die Wirksamkeit unseres Ansatzes. Insbesondere verbessert die Anwendung von Early Stopping basierend auf Vertrauen bei Best-of-N die Genauigkeit von MathQA von 81,0 auf 83,6 bei einem Stichprobenbudget von 16 Antworten, was die Effektivität der vertrauensbasierten Sampling-Strategie zur Inferenzzeit verdeutlicht.
Große Sprachmodelle (LLMs) zeigen außergewöhnliche Leistungen bei einer Vielzahl von Aufgaben; jedoch behindert ihr tokenweise autoregressiver Generierungsprozess die Inferenzgeschwindigkeit erheblich. Spekulative Dekodierung bietet ein vielversprechendes Draft-then-Verify-Framework, das die Generierungslatenz reduziert, während die Treue der Ausgabeverteilung erhalten bleibt. Dennoch führt das Draft-Modell zusätzlichen Rechenaufwand ein, was zu einem Leistungsengpass wird und die Zeit bis zum ersten Token (TTFT) erhöht. Bisherige Ansätze zur Minderung des Draft-Modell-Overheads stützten sich hauptsächlich auf Heuristiken und konnten die Qualität der Draft-Sprachmodelle in der Regel nicht erreichen. Um diese Herausforderungen zu bewältigen, schlagen wir DuoDecoding vor, einen neuartigen Ansatz, der das Draft- und das Zielmodell strategisch auf der CPU bzw. der GPU einsetzt und so eine parallele Dekodierung ermöglicht, während die Draft-Qualität erhalten bleibt. Unsere Methode integriert ein hardwarebewusstes optimales Draft-Budget, um Leerlaufzeiten zu minimieren, und verwendet dynamisches Multi-Sequenz-Drafting, um die Draft-Qualität zu verbessern. Umfangreiche Experimente über sieben Aufgaben zeigen, dass DuoDecoding eine bis zu 2,61-fache Beschleunigung der Generierungslatenz erreicht, während die TTFT auf 83 % derjenigen in der konventionellen spekulativen Dekodierung reduziert wird. Der Code ist verfügbar unter https://github.com/KaiLv69/DuoDecoding.
Die Analyse großer Datensätze erfordert eine reaktionsschnelle Abfrageausführung, doch die Ausführung von SQL-Abfragen auf massiven Datensätzen kann langsam sein. Dieses Papier untersucht, ob die Abfrageausführung bereits beginnen kann, bevor der Benutzer das Tippen beendet hat, sodass Ergebnisse nahezu sofort erscheinen. Wir stellen SpeQL vor, ein System, das Large Language Models (LLMs) nutzt, um wahrscheinliche Abfragen basierend auf dem Datenbankschema, den bisherigen Abfragen des Benutzers und seiner unvollständigen Abfrage vorherzusagen. Da eine exakte Abfragevorhersage nicht möglich ist, spekuliert SpeQL auf zwei Arten über Teilabfragen: 1) Es sagt die Abfragestruktur voraus, um Abfragen im Voraus zu kompilieren und zu planen, und 2) es berechnet kleinere temporäre Tabellen vor, die deutlich kleiner als die ursprüngliche Datenbank sind, aber dennoch alle Informationen enthalten sollen, die zur Beantwortung der endgültigen Abfrage des Benutzers notwendig sind. Zusätzlich zeigt SpeQL kontinuierlich Ergebnisse für spekulative Abfragen und Teilabfragen in Echtzeit an, was die explorative Analyse unterstützt. Eine Nutzerstudie zeigte, dass SpeQL die Zeit zur Aufgabenbewältigung verbesserte, und die Teilnehmer berichteten, dass die spekulative Anzeige von Ergebnissen ihnen half, Muster in den Daten schneller zu entdecken. In der Studie reduzierte SpeQL die Abfragelatenz der Benutzer um bis zu das 289-fache und hielt den Overhead mit 4$ pro Stunde in einem angemessenen Rahmen.
Die Auswahl hochwertiger Trainingsdaten aus einem größeren Pool ist ein entscheidender Schritt beim Instruction-Tuning von Sprachmodellen, da sorgfältig kuratierte Datensätze oft Modelle hervorbringen, die solche übertreffen, die auf viel größeren, verrauschteren Datensätzen trainiert wurden. Automatisierte Ansätze zur Datenauswahl für das Instruction-Tuning werden typischerweise getestet, indem kleine Datensätze (etwa 10.000 Beispiele) aus kleinen Pools (100.000–200.000 Beispiele) ausgewählt werden. Allerdings trainieren häufig eingesetzte instruction-getunte Modelle oft auf Hunderttausenden bis Millionen von Beispielen, die aus noch größeren Datenpools subsampelt werden. Wir präsentieren eine systematische Studie darüber, wie gut sich Datenauswahlmethoden auf diese Szenarien skalieren lassen, indem wir bis zu 2,5 Millionen Beispiele aus Pools von bis zu 5,8 Millionen Beispielen auswählen und über 7 verschiedene Aufgaben hinweg evaluieren. Wir zeigen, dass viele kürzlich vorgeschlagene Methoden in diesem Kontext hinter einer zufälligen Auswahl zurückbleiben (während sie mehr Rechenleistung verbrauchen) und sogar an Leistung verlieren, wenn sie Zugang zu größeren Datenpools zur Auswahl erhalten. Allerdings stellen wir fest, dass eine Variante der repräsentationsbasierten Datenauswahl (RDS+), die gewichtetes Mean-Pooling von versteckten Zuständen vortrainierter Sprachmodelle verwendet, durchweg komplexere Methoden in allen getesteten Szenarien übertrifft – und dabei recheneffizienter ist. Unsere Ergebnisse unterstreichen, dass die Skalierungseigenschaften vorgeschlagener automatisierter Auswahlmethoden genauer untersucht werden sollten. Wir veröffentlichen unseren Code, Daten und Modelle unter https://github.com/hamishivi/automated-instruction-selection.
Nutzer-generierte Inhalte (UGC)-Communities, insbesondere solche mit multimodalem Inhalt, verbessern das Nutzererlebnis, indem sie visuelle und textuelle Informationen in die Ergebnisse (oder Elemente) integrieren. Die Herausforderung, das Nutzererlebnis in komplexen Systemen mit Such- und Empfehlungsdiensten (S\&R) zu verbessern, hat in den letzten Jahren sowohl in der Wissenschaft als auch in der Industrie erhebliche Aufmerksamkeit erregt. Der Mangel an hochwertigen Datensätzen hat jedoch den Forschungsfortschritt im Bereich des multimodalen S\&R eingeschränkt. Um dem wachsenden Bedarf an der Entwicklung besserer S\&R-Dienste gerecht zu werden, stellen wir in diesem Artikel einen neuartigen multimodalen Informationsabruf-Datensatz vor, nämlich Qilin. Der Datensatz wurde von Xiaohongshu, einer beliebten Social-Media-Plattform mit über 300 Millionen monatlich aktiven Nutzern und einer durchschnittlichen Suchpenetrationsrate von über 70\%, gesammelt. Im Gegensatz zu bestehenden Datensätzen bietet Qilin eine umfassende Sammlung von Nutzersitzungen mit heterogenen Ergebnissen wie Bild-Text-Notizen, Video-Notizen, kommerziellen Notizen und direkten Antworten, was die Entwicklung fortschrittlicher multimodaler neuronaler Retrieval-Modelle in verschiedenen Aufgabenstellungen erleichtert. Um die Nutzerzufriedenheit besser zu modellieren und die Analyse heterogener Nutzerverhaltensweisen zu unterstützen, sammeln wir auch umfangreiche APP-bezogene Kontextsignale und echte Nutzerfeedback. Bemerkenswert ist, dass Qilin nutzerbegünstigte Antworten und deren referenzierte Ergebnisse für Suchanfragen enthält, die das Deep Query Answering (DQA)-Modul auslösen. Dies ermöglicht nicht nur das Training und die Bewertung einer Retrieval-augmented Generation (RAG)-Pipeline, sondern auch die Untersuchung, wie ein solches Modul das Suchverhalten der Nutzer beeinflussen würde. Durch umfassende Analysen und Experimente liefern wir interessante Erkenntnisse und Einblicke für die weitere Verbesserung von S\&R-Systemen. Wir hoffen, dass Qilin in Zukunft einen bedeutenden Beitrag zur Weiterentwicklung von Plattformen mit multimodalem Inhalt und S\&R-Diensten leisten wird.
Bestehende Methoden zur Mischung von Vortrainingsdaten für große Sprachmodelle (LLMs) folgen typischerweise einem domänenbasierten Ansatz, einem Top-down-Prozess, bei dem zunächst Domänengewichte bestimmt und dann eine gleichmäßige Datenstichprobe innerhalb jeder Domäne durchgeführt wird. Diese Ansätze vernachlässigen jedoch signifikante Überschneidungen und Gemeinsamkeiten zwischen den Domänen und versäumen es, die globale Diversität des erstellten Trainingsdatensatzes zu steuern. Darüber hinaus ignoriert die gleichmäßige Stichprobenziehung innerhalb der Domänen feinkörnige, spezifische Merkmale der einzelnen Proben, was potenziell zu einer suboptimalen Datenverteilung führt. Um diese Mängel zu beheben, schlagen wir einen neuartigen, probenbasierten Datenmischungsansatz vor, der auf einem Bottom-up-Paradigma basiert. Diese Methode führt eine globale, domänenübergreifende Stichprobenziehung durch, indem sie systematisch die Qualität und Diversität jeder Probe bewertet und dadurch die optimale Domänenverteilung dynamisch bestimmt. Umfassende Experimente über mehrere Downstream-Aufgaben und Perplexitätsbewertungen zeigen, dass SampleMix bestehende domänenbasierte Methoden übertrifft. Gleichzeitig benötigt SampleMix 1,4x bis 2,1x mehr Trainingsschritte, um die Leistung der Baselines zu erreichen, was das erhebliche Potenzial von SampleMix zur Optimierung von Vortrainingsdaten unterstreicht.
Text-to-Video-Generativmodelle wandeln Textanweisungen in dynamische visuelle Inhalte um und bieten vielfältige Anwendungsmöglichkeiten in der Filmproduktion, im Gaming und im Bildungsbereich. Allerdings bleibt ihre Leistung in der Praxis oft hinter den Erwartungen der Nutzer zurück. Ein Hauptgrund dafür ist, dass diese Modelle nicht mit Videos zu bestimmten Themen trainiert wurden, die Nutzer erstellen möchten. In diesem Artikel stellen wir VideoUFO vor, den ersten Video-Datensatz, der speziell darauf ausgerichtet ist, den Fokus der Nutzer in realen Szenarien abzubilden. Darüber hinaus zeichnet sich VideoUFO durch folgende Merkmale aus: (1) eine minimale Überschneidung (0,29 %) mit bestehenden Video-Datensätzen und (2) Videos, die ausschließlich über die offizielle YouTube-API unter der Creative-Commons-Lizenz gesucht wurden. Diese beiden Eigenschaften bieten zukünftigen Forschern mehr Freiheit, ihre Trainingsquellen zu erweitern. VideoUFO umfasst über 1,09 Millionen Videoclips, die jeweils mit einer kurzen und einer detaillierten Beschreibung versehen sind. Konkret identifizieren wir durch Clustering zunächst 1.291 nutzerfokussierte Themen aus dem millionenfachen realen Text-to-Video-Prompt-Datensatz VidProM. Anschließend verwenden wir diese Themen, um Videos von YouTube abzurufen, die abgerufenen Videos in Clips zu unterteilen und sowohl kurze als auch detaillierte Beschreibungen für jeden Clip zu generieren. Nach der Überprüfung der Clips mit den spezifizierten Themen bleiben etwa 1,09 Millionen Videoclips übrig. Unsere Experimente zeigen, dass (1) aktuelle 16 Text-to-Video-Modelle keine konsistente Leistung über alle nutzerfokussierten Themen hinweg erzielen und (2) ein einfaches Modell, das auf VideoUFO trainiert wurde, bei den am schlechtesten abschneidenden Themen besser abschneidet als andere. Der Datensatz ist öffentlich unter https://huggingface.co/datasets/WenhaoWang/VideoUFO unter der CC BY 4.0-Lizenz verfügbar.
Große Sprachmodelle (LLMs) haben die Code-Generierung revolutioniert, indem sie ihr außergewöhnliches Verständnis von natürlicher Sprache und Programmsyntax synergistisch nutzen, wodurch die Produktivität von Entwicklern erheblich gesteigert wurde. Diese Fortschritte haben zahlreiche Bemühungen angeregt, ihre Programmierfähigkeiten quantitativ zu bewerten. Dennoch behindern anhaltende Herausforderungen wie Benchmark-Leakage, Datenverlust und begrenzte Systemzugänglichkeit eine zeitnahe und genaue Bewertung. Um diese Einschränkungen zu überwinden, stellen wir CodeArena vor, ein Online-Bewertungsframework, das speziell für die Code-Generierung durch LLMs entwickelt wurde. Die zentrale Innovation ist ein kollektives Bewertungsmechanismus, der die individuellen Modellbewertungen dynamisch anhand der Gesamtleistung aller teilnehmenden Modelle neu kalibriert und dadurch Bewertungsverzerrungen durch weit verbreitete Benchmark-Leakage mildert. Darüber hinaus gewährleistet CodeArena den offenen Zugang zu allen eingereichten Lösungen und Testfällen und bietet automatisierungsfreundliche APIs, um den Code-Bewertungsprozess zu optimieren. Unsere Hauptbeiträge sind: (1) ein kollektives Bewertungssystem für unvoreingenommene Bewertungen, (2) ein öffentliches Repository von Lösungen und Testfällen sowie (3) automatisierungsbereite APIs für nahtlose Integration.
Bestehende automatische Audioerzeugungsmethoden haben Schwierigkeiten, podcast-ähnliche Audioprogramme effektiv zu generieren. Die zentralen Herausforderungen liegen in der tiefgehenden Inhaltsgenerierung sowie der angemessenen und ausdrucksstarken Sprachproduktion. Dieses Papier stellt PodAgent vor, ein umfassendes Framework zur Erstellung von Audioprogrammen. PodAgent 1) generiert informative Themen-Diskussionsinhalte durch die Gestaltung eines Host-Gast-Autor-Multi-Agenten-Kollaborationssystems, 2) erstellt einen Sprachpool für eine geeignete Sprach-Rollen-Zuordnung und 3) nutzt eine LLM-verbesserte Sprachsynthesemethode, um ausdrucksstarke Konversationssprache zu erzeugen. Angesichts des Fehlens standardisierter Bewertungskriterien für podcast-ähnliche Audioerzeugung haben wir umfassende Bewertungsrichtlinien entwickelt, um die Leistung des Modells effektiv zu evaluieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von PodAgent, die direkte GPT-4-Generierung in Themen-Diskussionsdialoginhalten deutlich übertrifft, eine Sprach-Zuordnungsgenauigkeit von 87,4 % erreicht und durch LLM-gesteuerte Synthese ausdrucksvollere Sprache produziert. Demoseite: https://podcast-agent.github.io/demo/. Quellcode: https://github.com/yujxx/PodAgent.
Diese Arbeit untersucht das Potenzial großer Sprachmodelle (LLMs), private tonale Sprachen für die Maschine-zu-Maschine-Kommunikation (M2M) zu entwickeln. Inspiriert von der Kryptophasie bei menschlichen Zwillingen (die bis zu 50 % der Zwillingsgeburten betrifft) und natürlichen tonalen Sprachen wie Mandarin und Vietnamesisch, implementieren wir ein präzises Zeichen-zu-Frequenz-Mappingsystem, das den gesamten ASCII-Zeichensatz (32-126) mithilfe musikalischer Halbtöne kodiert. Jedes Zeichen wird einer eindeutigen Frequenz zugeordnet, wodurch eine logarithmische Progression entsteht, die mit dem Leerzeichen (220 Hz) beginnt und mit der Tilde (50.175,42 Hz) endet. Dies umfasst etwa 7,9 Oktaven, wobei höhere Zeichen bewusst auf Ultraschallfrequenzen jenseits der menschlichen Wahrnehmung (>20 kHz) abgebildet werden. Unser implementierter Softwareprototyp demonstriert diese Kodierung durch Visualisierung, akustische Wiedergabe und ABC-Musiknotation, was die Analyse von Informationsdichte und Übertragungsgeschwindigkeit ermöglicht. Tests zeigen, dass tonale Kodierung Informationsraten erreichen kann, die die menschliche Sprache übertreffen, während sie teilweise außerhalb der menschlichen Wahrnehmungsgrenzen operiert. Diese Arbeit reagiert direkt auf Bedenken, dass KI-Systeme innerhalb der nächsten fünf Jahre katastrophal private Sprachen entwickeln könnten, indem sie ein konkretes Softwareprototypbeispiel liefert, wie eine solche Kommunikation funktionieren könnte, sowie die technische Grundlage für deren Entstehung, Erkennung und Regulierung.
Große Sprachmodelle (LLMs) haben beeindruckende praktische Nützlichkeit bewiesen und verkörpern damit künstliche nützliche Intelligenz (AUI). Ihre Fähigkeit, adaptiv und robust zu schlussfolgern – die Kennzeichen künstlicher allgemeiner Intelligenz (AGI) – bleibt jedoch fragil. Obwohl LLMs scheinbar Erfolge im gesunden Menschenverstand, in der Programmierung und in der Mathematik zeigen, haben sie Schwierigkeiten, algorithmisches Verständnis über neue Kontexte hinweg zu verallgemeinern. Unsere Experimente mit algorithmischen Aufgaben in esoterischen Programmiersprachen offenbaren, dass das Schlussfolgern der LLMs zu stark an die Trainingsdaten angepasst ist und in seiner Übertragbarkeit begrenzt ist. Wir vermuten, dass das Kernproblem hinter dieser begrenzten Übertragbarkeit die Kopplung von Schlussfolgern und Wissen in LLMs ist. Um den Übergang von AUI zu AGI zu schaffen, schlagen wir vor, Wissen und Schlussfolgern durch drei zentrale Ansätze zu entkoppeln: (1) Vorabtraining zum Schlussfolgern mittels Reinforcement Learning (RL) von Grund auf als Alternative zum weit verbreiteten Vorabtraining durch nächste-Token-Vorhersage, (2) die Verwendung eines Lehrplans synthetischer Aufgaben, um das Erlernen eines Schlussfolgerungs-Priors für RL zu erleichtern, der dann auf natürliche Sprachaufgaben übertragen werden kann, und (3) das Erlernen generalisierbarerer Schlussfolgerungsfunktionen durch ein kleines Kontextfenster, um die Ausnutzung zufälliger Korrelationen zwischen Tokens zu reduzieren. Ein solches Schlussfolgerungssystem, gekoppelt mit einem trainierten Retrieval-System und einem großen externen Speicher als Wissensspeicher, kann mehrere Einschränkungen bestehender Architekturen überwinden, um das Schlussfolgern in neuen Szenarien zu erlernen.
Da große Sprachmodelle über natürliche Sprache hinaus in Bereiche wie Mathematik, multimodales Verständnis und verkörperte Agenten expandieren, spiegeln Tokens zunehmend metrische Beziehungen wider, anstatt rein linguistische Bedeutung. Wir stellen DIST2Loss vor, ein distanzbewusstes Framework, das darauf abzielt, autoregressive diskrete Modelle zu trainieren, indem es vordefinierte Distanzbeziehungen zwischen Ausgabe-Tokens nutzt. Kern von DIST2Loss ist die Transformation kontinuierlicher Exponentialfamilienverteilungen, die aus inhärenten Distanzmetriken abgeleitet werden, in diskrete, kategoriale Optimierungsziele, die mit den Architekturen der Modelle kompatibel sind. Dieser Ansatz ermöglicht es den Modellen, bedeutungsvolle Distanzbeziehungen während der Token-Generierung zu lernen und zu bewahren, während die Kompatibilität mit bestehenden Architekturen erhalten bleibt. Empirische Auswertungen zeigen konsistente Leistungssteigerungen in diversen multimodalen Anwendungen, einschließlich visueller Verankerung, robotischer Manipulation, generativer Belohnungsmodellierung und Bildgenerierung mit vektorquantisierten Merkmalen. Diese Verbesserungen sind besonders ausgeprägt bei begrenzten Trainingsdaten, was die Effektivität von DIST2Loss in ressourcenbeschränkten Umgebungen unterstreicht.
Menschliche Leser können effizient verschlüsselte Wörter verstehen, ein Phänomen, das als Typoglykämie bekannt ist, indem sie sich hauptsächlich auf die Wortform verlassen; wenn die Wortform allein nicht ausreicht, nutzen sie zusätzlich kontextuelle Hinweise zur Interpretation. Während fortschrittliche große Sprachmodelle (LLMs) ähnliche Fähigkeiten aufweisen, bleiben die zugrunde liegenden Mechanismen unklar. Um dies zu untersuchen, führen wir kontrollierte Experimente durch, um die Rollen der Wortform und der kontextuellen Informationen bei der semantischen Rekonstruktion zu analysieren und die Aufmerksamkeitsmuster von LLMs zu untersuchen. Insbesondere schlagen wir zunächst SemRecScore vor, eine zuverlässige Metrik zur Quantifizierung des Grades der semantischen Rekonstruktion, und validieren deren Wirksamkeit. Mit dieser Metrik untersuchen wir, wie die Wortform und kontextuelle Informationen die semantische Rekonstruktionsfähigkeit von LLMs beeinflussen, und identifizieren die Wortform als den Kernfaktor in diesem Prozess. Darüber hinaus analysieren wir, wie LLMs die Wortform nutzen, und stellen fest, dass sie sich auf spezialisierte Aufmerksamkeitsköpfe verlassen, um Wortforminformationen zu extrahieren und zu verarbeiten, wobei dieser Mechanismus über verschiedene Grade der Wortverschlüsselung hinweg stabil bleibt. Dieser Unterschied zwischen den festen Aufmerksamkeitsmustern von LLMs, die sich hauptsächlich auf die Wortform konzentrieren, und der adaptiven Strategie menschlicher Leser, die Wortform und kontextuelle Informationen ausbalanciert, bietet Einblicke in die Verbesserung der Leistung von LLMs durch die Integration von menschenähnlichen, kontextbewussten Mechanismen.
Während wahrscheinlichkeitsbasierte generative Modelle, insbesondere Diffusions- und autoregressive Modelle, bemerkenswerte Detailtreue in der visuellen Generierung erreicht haben, leidet das Maximum-Likelihood-Schätzungsziel (MLE) inhärent unter einer Modus-Abdeckungstendenz, die die Generierungsqualität bei begrenzter Modellkapazität einschränkt. In dieser Arbeit schlagen wir Direct Discriminative Optimization (DDO) als einheitliches Framework vor, das wahrscheinlichkeitsbasiertes generatives Training und das GAN-Ziel verbindet, um diese grundlegende Einschränkung zu umgehen. Unsere zentrale Erkenntnis besteht darin, einen Diskriminator implizit zu parametrisieren, indem das Likelihood-Verhältnis zwischen einem lernbaren Zielmodell und einem festen Referenzmodell verwendet wird, was Parallelen zur Philosophie von Direct Preference Optimization (DPO) aufzeigt. Im Gegensatz zu GANs eliminiert diese Parametrisierung die Notwendigkeit einer gemeinsamen Training von Generator- und Diskriminator-Netzwerken, was eine direkte, effiziente und effektive Feinabstimmung eines gut trainierten Modells über die Grenzen von MLE hinaus ermöglicht. DDO kann iterativ in einer Selbstspielweise zur progressiven Modellverfeinerung durchgeführt werden, wobei jede Runde weniger als 1 % der Vortrainings-Epochen erfordert. Unsere Experimente demonstrieren die Wirksamkeit von DDO, indem sie das bisherige State-of-the-Art-Diffusionsmodell EDM erheblich verbessern, die FID-Werte von 1,79/1,58 auf neue Rekorde von 1,30/0,97 auf den CIFAR-10/ImageNet-64-Datensätzen reduzieren und sowohl die führungsfreien als auch die CFG-verbesserten FIDs von visuellen autoregressiven Modellen auf ImageNet 256×256 konsequent verbessern.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten in der hierarchischen Zerlegung komplexer Aufgaben durch semantisches Schlussfolgern. Ihre Anwendung in verkörperten Systemen steht jedoch vor Herausforderungen bei der zuverlässigen Ausführung von Teilaufgabenfolgen und der Erreichung von One-Shot-Erfolg bei der langfristigen Aufgabenbewältigung. Um diese Einschränkungen in dynamischen Umgebungen zu überwinden, schlagen wir Closed-Loop Embodied Agent (CLEA) vor – eine neuartige Architektur, die vier spezialisierte Open-Source-LLMs mit funktionaler Entkopplung für das geschlossene Aufgabenmanagement integriert. Das Framework zeichnet sich durch zwei Kerninnovationen aus: (1) Ein interaktiver Aufgabenplaner, der dynamisch ausführbare Teilaufgaben basierend auf dem Umgebungsgedächtnis generiert, und (2) Ein multimodaler Ausführungskritiker, der ein Bewertungsframework einsetzt, um eine probabilistische Einschätzung der Handlungsdurchführbarkeit vorzunehmen und hierarchische Neuplanungsmechanismen auszulösen, wenn Umgebungsstörungen vorgegebene Schwellenwerte überschreiten. Um die Wirksamkeit von CLEA zu validieren, führen wir Experimente in einer realen Umgebung mit manipulierbaren Objekten durch, wobei zwei heterogene Roboter für Objektsuche, Manipulation und die Integration von Such- und Manipulationsaufgaben eingesetzt werden. Über 12 Aufgabenversuche hinweg übertrifft CLEA das Basismodell und erreicht eine Verbesserung der Erfolgsrate um 67,3 % und eine Steigerung der Aufgabenabschlussrate um 52,8 %. Diese Ergebnisse zeigen, dass CLEA die Robustheit der Aufgabenplanung und -ausführung in dynamischen Umgebungen erheblich verbessert.
Jüngste Fortschritte bei Web-KI-Agenten haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer Web-Navigationsaufgaben gezeigt. Neuere Forschungsergebnisse zeigen jedoch, dass diese Agenten im Vergleich zu eigenständigen Large Language Models (LLMs) eine größere Anfälligkeit aufweisen, obwohl beide auf denselben sicherheitsausgerichteten Modellen basieren. Diese Diskrepanz ist besonders besorgniserregend, da Web-KI-Agenten im Vergleich zu eigenständigen LLMs eine größere Flexibilität aufweisen, was sie einem breiteren Spektrum von adversarischen Benutzereingaben aussetzen könnte. Um ein Gerüst zu schaffen, das diese Bedenken adressiert, untersucht diese Studie die zugrunde liegenden Faktoren, die zur erhöhten Anfälligkeit von Web-KI-Agenten beitragen. Insbesondere resultiert diese Diskrepanz aus den vielschichtigen Unterschieden zwischen Web-KI-Agenten und eigenständigen LLMs sowie den komplexen Signalen – Nuancen, die einfache Bewertungsmetriken wie die Erfolgsrate oft nicht erfassen. Um diese Herausforderungen zu bewältigen, schlagen wir eine Komponentenanalyse und ein detaillierteres, systematisches Bewertungsframework vor. Durch diese feingranulare Untersuchung identifizieren wir drei kritische Faktoren, die die Anfälligkeit von Web-KI-Agenten verstärken: (1) die Einbettung von Benutzerzielen in den System-Prompt, (2) die Erzeugung von mehrstufigen Aktionen und (3) die Beobachtungsfähigkeiten. Unsere Ergebnisse unterstreichen den dringenden Bedarf, die Sicherheit und Robustheit im Design von KI-Agenten zu verbessern, und liefern umsetzbare Erkenntnisse für gezielte Verteidigungsstrategien.
Die Schätzung von Raumlayouts aus Mehrperspektivenbildern ist aufgrund der Komplexitäten, die sich aus der Multi-View-Geometrie ergeben, bisher wenig erforscht. Diese erfordert mehrstufige Lösungen wie die Schätzung der intrinsischen und extrinsischen Kameraparameter, Bildabgleich und Triangulation. Im Bereich der 3D-Rekonstruktion hat jedoch der Fortschritt bei neueren 3D-Foundation-Modellen wie DUSt3R das Paradigma vom traditionellen mehrstufigen Structure-from-Motion-Prozess zu einem End-to-End-Ansatz in einem einzigen Schritt verschoben. In diesem Zusammenhang stellen wir Plane-DUSt3R vor, eine neuartige Methode zur Schätzung von Raumlayouts aus Mehrperspektivenbildern, die das 3D-Foundation-Modell DUSt3R nutzt. Plane-DUSt3R integriert das DUSt3R-Framework und wird auf einem Raumlayout-Datensatz (Structure3D) mit einem modifizierten Ziel feinabgestimmt, um strukturelle Ebenen zu schätzen. Durch die Erzeugung einheitlicher und sparsamer Ergebnisse ermöglicht Plane-DUSt3R die Schätzung von Raumlayouts mit nur einem einzigen Nachbearbeitungsschritt und 2D-Erkennungsergebnissen. Im Gegensatz zu früheren Methoden, die sich auf Einzelperspektiven- oder Panoramabilder stützen, erweitert Plane-DUSt3R die Einstellung, um Mehrperspektivenbilder zu verarbeiten. Darüber hinaus bietet es eine effiziente, End-to-End-Lösung, die den Prozess vereinfacht und die Fehlerakkumulation reduziert. Experimentelle Ergebnisse zeigen, dass Plane-DUSt3R nicht nur state-of-the-art-Methoden auf dem synthetischen Datensatz übertrifft, sondern sich auch als robust und effektiv auf realen Daten mit verschiedenen Bildstilen wie Cartoon erweist. Unser Code ist verfügbar unter: https://github.com/justacar/Plane-DUSt3R
Schichtweise Quantisierung ist eine Schlüsseltechnik zur effizienten Kompression großer Modelle ohne aufwendiges Neutraining. Bisherige Methoden quantisieren typischerweise die Gewichte jeder Schicht, indem sie den Rekonstruktionsverlust der Schicht „gleichmäßig“ über alle Ausgabe-Tokens optimieren. In diesem Artikel zeigen wir jedoch, dass besser quantisierte Modelle erzielt werden können, indem das Lernen von wichtigen Tokens (z. B. solchen mit hohen Aufmerksamkeitswerten) priorisiert wird. Aufbauend auf dieser Erkenntnis schlagen wir RSQ (Rotate, Scale, then Quantize) vor, das (1) Rotationen (orthogonale Transformationen) auf das Modell anwendet, um Ausreißer (d. h. Werte mit außergewöhnlich großer Magnitude) zu reduzieren, (2) die Token-Features basierend auf ihrer Wichtigkeit skaliert und (3) das Modell mithilfe des GPTQ-Frameworks mit den durch skalierte Tokens berechneten Statistiken zweiter Ordnung quantisiert. Um die Wichtigkeit der Tokens zu bestimmen, untersuchen wir sowohl heuristische als auch dynamische Strategien. Basierend auf einer umfassenden Analyse aller Ansätze verwenden wir die Aufmerksamkeitskonzentration, die die Aufmerksamkeitswerte jedes Tokens als dessen Wichtigkeit nutzt, als den besten Ansatz. Wir zeigen, dass RSQ Baseline-Methoden in mehreren Downstream-Aufgaben und drei Modellfamilien – LLaMA3, Mistral und Qwen2.5 – durchweg übertrifft. Darüber hinaus erzielen mit RSQ quantisierte Modelle eine überlegene Leistung bei Aufgaben mit langem Kontext, was ihre Effektivität weiter unterstreicht. Schließlich zeigt RSQ Generalisierbarkeit über verschiedene Konfigurationen hinweg, einschließlich unterschiedlicher Modellgrößen, Kalibrierungsdatensätze, Bit-Präzisionen und Quantisierungsmethoden.