Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Vision-Sprach-Modelle (VLMs) liefern außergewöhnliche Leistungen, erfordern jedoch erhebliche Rechenressourcen, was ihre Bereitstellung auf mobilen und Edge-Geräten einschränkt. Kleinere VLMs übernehmen typischerweise Designentscheidungen größerer Modelle, wie z. B. umfangreiche Bild-Tokenisierung, was zu ineffizienter GPU-Speichernutzung und eingeschränkter Praktikabilität für On-Device-Anwendungen führt. Wir stellen SmolVLM vor, eine Reihe kompakter multimodaler Modelle, die speziell für ressourceneffizientes Inferenzieren entwickelt wurden. Wir untersuchen systematisch Architekturkonfigurationen, Tokenisierungsstrategien und Datenkuratierung, die für geringen Rechenaufwand optimiert sind. Dadurch identifizieren wir zentrale Designentscheidungen, die erhebliche Leistungssteigerungen bei Bild- und Videoaufgaben mit minimalem Speicherbedarf erzielen. Unser kleinstes Modell, SmolVLM-256M, verwendet während der Inferenz weniger als 1 GB GPU-Speicher und übertrifft das 300-mal größere Idefics-80B-Modell trotz eines Entwicklungsrückstands von 18 Monaten. Unser größtes Modell mit 2,2 Milliarden Parametern steht modernsten VLMs in nichts nach, verbraucht jedoch nur die Hälfte des GPU-Speichers. Die SmolVLM-Modelle gehen über statische Bilder hinaus und zeigen robuste Fähigkeiten im Verständnis von Videos. Unsere Ergebnisse unterstreichen, dass strategische Architekturoptimierungen, aggressive aber effiziente Tokenisierung und sorgfältig kuratierte Trainingsdaten die multimodale Leistung erheblich verbessern und praktische, energieeffiziente Bereitstellungen in deutlich kleinerem Maßstab ermöglichen.
Transformer haben heute noch Schwierigkeiten, einminütige Videos zu generieren, da Self-Attention-Schichten für lange Kontexte ineffizient sind. Alternativen wie Mamba-Schichten scheitern an komplexen Mehrszenen-Geschichten, da ihre verborgenen Zustände weniger ausdrucksstark sind. Wir experimentieren mit Test-Time Training (TTT)-Schichten, deren verborgene Zustände selbst neuronale Netze sein können und somit ausdrucksstärker sind. Durch die Integration von TTT-Schichten in einen vortrainierten Transformer kann dieser einminütige Videos aus Text-Storyboards generieren. Als Proof of Concept haben wir einen Datensatz basierend auf Tom und Jerry-Cartoons erstellt. Im Vergleich zu Baseline-Methoden wie Mamba~2, Gated DeltaNet und Sliding-Window-Attention-Schichten generieren TTT-Schichten deutlich kohärentere Videos, die komplexe Geschichten erzählen, und führen mit 34 Elo-Punkten in einer menschlichen Bewertung von 100 Videos pro Methode. Obwohl vielversprechend, enthalten die Ergebnisse noch Artefakte, wahrscheinlich aufgrund der begrenzten Fähigkeiten des vortrainierten 5B-Modells. Die Effizienz unserer Implementierung kann ebenfalls verbessert werden. Wir haben aufgrund von Ressourcenbeschränkungen nur mit einminütigen Videos experimentiert, aber der Ansatz kann auf längere Videos und komplexere Geschichten erweitert werden. Beispielvideos, Code und Annotationen sind verfügbar unter: https://test-time-training.github.io/video-dit
Die Fähigkeit eines Sprachmodells, über seine eigene Argumentation zu reflektieren, bietet einen entscheidenden Vorteil bei der Lösung komplexer Probleme. Während sich die jüngste Forschung hauptsächlich darauf konzentriert hat, wie sich diese Fähigkeit während des Reinforcement Learning entwickelt, zeigen wir, dass sie tatsächlich viel früher entsteht – bereits während des Pre-Trainings des Modells. Um dies zu untersuchen, führen wir gezielte Fehler in Gedankenketten ein und testen, ob das Modell dennoch die richtige Antwort finden kann, indem es diese Fehler erkennt und korrigiert. Durch die Beobachtung der Leistung in verschiedenen Phasen des Pre-Trainings stellen wir fest, dass diese selbstkorrigierende Fähigkeit früh auftritt und sich kontinuierlich verbessert. Beispielsweise zeigt ein OLMo2-7B-Modell, das mit 4 Billionen Tokens pre-trainiert wurde, Selbstkorrektur in unseren sechs Selbstreflexionsaufgaben.
Aktuelle Studien haben gezeigt, dass die Skalierung der Rechenleistung zur Testzeit die Leistung kleiner Sprachmodelle (sLMs) effektiv verbessert. Bisherige Forschungen haben jedoch hauptsächlich die Skalierung der Rechenleistung zur Testzeit mit einem zusätzlichen größeren Modell als Verifizierer untersucht, wodurch die Selbstverifizierung durch sLMs weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir, ob sLMs ihre Ausgaben unter Testzeit-Skalierung zuverlässig selbst verifizieren können. Wir stellen fest, dass sLMs selbst mit Wissensdistillation von größeren Verifizierern Schwierigkeiten bei Verifizierungsaufgaben haben, die Auswendiglernen erfordern, wie z. B. numerische Berechnungen und Faktenprüfungen. Um diese Einschränkung zu überwinden, schlagen wir die Tool-integrierte Selbstverifizierung (T1) vor, die speicherintensive Verifizierungsschritte an externe Tools wie einen Code-Interpreter delegiert. Unsere theoretische Analyse zeigt, dass die Tool-Integration die Anforderungen an das Auswendiglernen reduziert und die Leistung bei der Testzeit-Skalierung verbessert. Experimente auf dem MATH-Benchmark demonstrieren, dass mit T1 ein Llama-3.2 1B-Modell unter Testzeit-Skalierung das deutlich größere Llama-3.1 8B-Modell übertrifft. Darüber hinaus verallgemeinert T1 effektiv auf sowohl mathematische (MATH500) als auch multidisziplinäre, wissensintensive Aufgaben (MMLU-Pro). Unsere Ergebnisse unterstreichen das Potenzial der Tool-Integration, die Selbstverifizierungsfähigkeiten von sLMs erheblich zu verbessern.
Die Beschreibung auf Regionsebene zielt darauf ab, natürliche Sprachbeschreibungen für spezifische Bildregionen zu generieren und dabei deren charakteristische Merkmale hervorzuheben. Bisherige Methoden haben jedoch Schwierigkeiten, einzigartige Beschreibungen über mehrere Granularitäten hinweg zu erzeugen, was ihre praktische Anwendbarkeit einschränkt. Um den Bedarf an detailliertem Verständnis auf Regionsebene zu adressieren, stellen wir den URECA-Datensatz vor, einen groß angelegten Datensatz, der speziell für die Beschreibung von Regionen mit mehreren Granularitäten entwickelt wurde. Im Gegensatz zu früheren Datensätzen, die sich hauptsächlich auf auffällige Objekte konzentrieren, gewährleistet der URECA-Datensatz eine eindeutige und konsistente Zuordnung zwischen Regionen und Beschreibungen, indem er eine Vielzahl von Objekten, Teilen und Hintergrundelementen einbezieht. Kernstück hierbei ist ein stufenweiser Datenkuratierungsprozess, bei dem jede Stufe die Regionenauswahl und die Generierung von Beschreibungen schrittweise verfeinert. Durch die Nutzung von Multimodalen Großen Sprachmodellen (MLLMs) in jeder Stufe erzeugt unser Prozess einzigartige und kontextuell fundierte Beschreibungen mit verbesserter Genauigkeit und semantischer Vielfalt. Aufbauend auf diesem Datensatz präsentieren wir URECA, ein neuartiges Beschreibungsmodell, das entwickelt wurde, um Regionen mit mehreren Granularitäten effektiv zu kodieren. URECA bewahrt wesentliche räumliche Eigenschaften wie Position und Form durch einfache, aber wirkungsvolle Modifikationen bestehender MLLMs und ermöglicht so fein abgestufte und semantisch reiche Regionsbeschreibungen. Unser Ansatz führt dynamische Maskenmodellierung und einen hochauflösenden Maskenencoder ein, um die Einzigartigkeit der Beschreibungen zu verbessern. Experimente zeigen, dass URECA auf dem URECA-Datensatz state-of-the-art Leistung erzielt und sich gut auf bestehende Benchmarks für die Beschreibung auf Regionsebene verallgemeinern lässt.
Jüngste Fortschritte bei Reasoning-Sprachmodellen haben bemerkenswerte Leistungen bei komplexen Aufgaben gezeigt, doch ihr erweiterter Chain-of-Thought-Reasoning-Prozess erhöht den Inferenzaufwand. Während Quantisierung weit verbreitet ist, um die Inferenzkosten großer Sprachmodelle zu reduzieren, ist ihre Auswirkung auf Reasoning-Modelle noch wenig erforscht. In dieser Studie führen wir die erste systematische Untersuchung zu quantisierten Reasoning-Modellen durch und evaluieren die Open-Source-Modelle DeepSeek-R1-Distilled Qwen und LLaMA mit Parametern von 1,5B bis 70B sowie QwQ-32B. Unsere Untersuchung umfasst Gewichts-, KV-Cache- und Aktivierungsquantisierung mit state-of-the-art Algorithmen bei verschiedenen Bit-Breiten, begleitet von umfangreichen Bewertungen über mathematische (AIME, MATH-500), wissenschaftliche (GPQA) und programmierbezogene (LiveCodeBench) Reasoning-Benchmarks. Unsere Ergebnisse zeigen, dass verlustfreie Quantisierung mit W8A8 oder W4A16 erreicht werden kann, während niedrigere Bit-Breiten erhebliche Genauigkeitsrisiken mit sich bringen. Wir identifizieren weiterhin Modellgröße, Modellherkunft und Aufgabenkomplexität als entscheidende Leistungsfaktoren. Entgegen den Erwartungen zeigen quantisierte Modelle keine erhöhten Ausgabelängen. Darüber hinaus kann eine strategische Skalierung der Modellgrößen oder Reasoning-Schritte die Leistung effektiv verbessern. Alle quantisierten Modelle und Codes werden unter https://github.com/ruikangliu/Quantized-Reasoning-Models open-source veröffentlicht.
Wir präsentieren VAPO, ein Value-based Augmented Proximal Policy Optimization Framework für Reasoning-Modelle, ein neuartiges Framework, das speziell für Reasoning-Modelle im wertbasierten Paradigma entwickelt wurde. Auf dem AIME 2024-Datensatz getestet, erreicht VAPO, basierend auf dem vortrainierten Qwen 32B-Modell, einen state-of-the-art-Score von 60,4. Im direkten Vergleich unter identischen experimentellen Bedingungen übertrifft VAPO die bisher berichteten Ergebnisse von DeepSeek-R1-Zero-Qwen-32B und DAPO um mehr als 10 Punkte. Der Trainingsprozess von VAPO zeichnet sich durch seine Stabilität und Effizienz aus. Es erreicht state-of-the-art-Leistung in nur 5.000 Schritten. Darüber hinaus treten über mehrere unabhängige Durchläufe hinweg keine Trainingsabstürze auf, was seine Zuverlässigkeit unterstreicht. Diese Forschung befasst sich mit langen Chain-of-Thought (long-CoT)-Reasoning-Prozessen unter Verwendung eines wertbasierten Reinforcement-Learning-Frameworks. Wir identifizieren drei zentrale Herausforderungen, die wertbasierte Methoden beeinträchtigen: Bias des Wertmodells, das Vorhandensein heterogener Sequenzlängen und die Sparsity von Belohnungssignalen. Durch systematisches Design bietet VAPO eine integrierte Lösung, die diese Herausforderungen effektiv mildert und so eine verbesserte Leistung bei langen CoT-Reasoning-Aufgaben ermöglicht.
Diffusionsmodelle werden häufig für Bildbearbeitungsaufgaben eingesetzt. Bestehende Bearbeitungsmethoden entwerfen oft ein Verfahren zur Manipulation von Repräsentationen, indem sie eine Bearbeitungsrichtung im Text-Embedding- oder Score-Raum kuratieren. Ein zentrales Problem bei diesem Vorgehen ist jedoch: Eine Überschätzung der Bearbeitungsstärke beeinträchtigt die visuelle Konsistenz, während eine Unterschätzung die Bearbeitungsaufgabe verfehlt. Dabei kann jedes Ausgangsbild eine unterschiedliche Bearbeitungsstärke erfordern, und es ist aufwändig, eine geeignete Stärke durch Versuch und Irrtum zu ermitteln. Um diese Herausforderung zu bewältigen, schlagen wir Concept Lancet (CoLan) vor, ein Zero-Shot Plug-and-Play-Framework für prinzipiengeleitete Repräsentationsmanipulation bei der diffusionsbasierten Bildbearbeitung. Zum Inferenzzeitpunkt zerlegen wir die Eingabe im latenten Raum (Text-Embedding oder Diffusionsscore) als eine spärliche lineare Kombination der Repräsentationen gesammelter visueller Konzepte. Dies ermöglicht es uns, das Vorhandensein von Konzepten in jedem Bild präzise zu schätzen, was die Bearbeitung informiert. Basierend auf der Bearbeitungsaufgabe (Ersetzen/Hinzufügen/Entfernen) führen wir einen angepassten Konzepttransplantationsprozess durch, um die entsprechende Bearbeitungsrichtung zu implementieren. Um den Konzeptraum ausreichend zu modellieren, kuratieren wir einen konzeptuellen Repräsentationsdatensatz, CoLan-150K, der vielfältige Beschreibungen und Szenarien visueller Begriffe und Phrasen für das latente Wörterbuch enthält. Experimente mit mehreren diffusionsbasierten Bildbearbeitungs-Baselines zeigen, dass Methoden, die mit CoLan ausgestattet sind, state-of-the-art Leistungen in Bezug auf Bearbeitungseffektivität und Konsistenzbewahrung erzielen.
Wir stellen LiveVQA vor, einen automatisch erstellten Datensatz mit aktuellen visuellen Informationen aus dem Internet und synthetisierten VQA-Problemen. LiveVQA besteht aus 3.602 ein- und mehrschrittigen visuellen Fragen von 6 Nachrichtenwebsites aus 14 Nachrichtenkategorien, die sich durch eine hohe Bild-Text-Kohärenz und authentische Informationen auszeichnen. Unsere Evaluierung über 15 MLLMs (z. B. GPT-4o, Gemma-3 und die Qwen-2.5-VL-Familie) zeigt, dass stärkere Modelle insgesamt besser abschneiden, wobei fortgeschrittene visuelle Fähigkeiten entscheidend für komplexe mehrschrittige Fragen sind. Trotz hervorragender Leistung bei textbasierten Problemen zeigen Modelle mit Werkzeugen wie Suchmaschinen weiterhin erhebliche Lücken bei der Bearbeitung visueller Fragen, die aktuelle visuelle Kenntnisse erfordern, was wichtige Bereiche für zukünftige Forschung aufzeigt.
Die Verbreitung von Large Language Models (LLMs), die über Black-Box-APIs zugänglich sind, stellt eine erhebliche Vertrauensherausforderung dar: Nutzer zahlen für Dienstleistungen basierend auf beworbenen Modellfähigkeiten (z. B. Größe, Leistung), doch Anbieter könnten das spezifizierte Modell heimlich durch eine kostengünstigere, qualitativ minderwertige Alternative ersetzen, um Betriebskosten zu senken. Dieser Mangel an Transparenz untergräbt Fairness, beeinträchtigt das Vertrauen und erschwert zuverlässige Benchmarking-Verfahren. Das Erkennen solcher Substitutionen ist aufgrund der Black-Box-Natur schwierig, da die Interaktion typischerweise auf Eingabe-Ausgabe-Abfragen beschränkt ist. Dieses Papier formalisiert das Problem der Modellsubstitutionserkennung in LLM-APIs. Wir evaluieren systematisch bestehende Verifikationstechniken, einschließlich output-basierter statistischer Tests, Benchmark-Evaluierungen und Log-Wahrscheinlichkeitsanalysen, unter verschiedenen realistischen Angriffsszenarien wie Modellquantisierung, randomisierter Substitution und Benchmark-Umgehung. Unsere Ergebnisse zeigen die Grenzen von Methoden, die sich ausschließlich auf Textausgaben verlassen, insbesondere gegenüber subtilen oder adaptiven Angriffen. Während die Log-Wahrscheinlichkeitsanalyse stärkere Garantien bietet, wenn sie verfügbar ist, ist ihre Zugänglichkeit oft eingeschränkt. Wir schließen mit einer Diskussion über das Potenzial hardwarebasierter Lösungen wie Trusted Execution Environments (TEEs) als Weg zur nachweisbaren Modellintegrität und beleuchten die Abwägungen zwischen Sicherheit, Leistung und Anbieterakzeptanz. Der Code ist verfügbar unter https://github.com/sunblaze-ucb/llm-api-audit.
Das logische Denken ist zentral für die menschliche Intelligenz und ermöglicht strukturierte Problemlösungen in vielfältigen Aufgaben. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben deren Fähigkeiten im Bereich des arithmetischen, des gesunden Menschenverstands und des symbolischen Denkens erheblich verbessert. Die effektive Erweiterung dieser Fähigkeiten auf multimodale Kontexte – in denen Modelle sowohl visuelle als auch textuelle Eingaben integrieren müssen – bleibt jedoch eine erhebliche Herausforderung. Multimodales Denken führt zu Komplexitäten, wie der Handhabung widersprüchlicher Informationen über verschiedene Modalitäten hinweg, was von Modellen fortgeschrittene Interpretationsstrategien erfordert. Die Bewältigung dieser Herausforderungen erfordert nicht nur ausgeklügelte Algorithmen, sondern auch robuste Methoden zur Bewertung der Genauigkeit und Kohärenz des Denkens. Dieser Artikel bietet eine prägnante und dennoch aufschlussreiche Übersicht über Denktechniken in textbasierten und multimodalen LLMs. Durch einen gründlichen und aktuellen Vergleich formulieren wir die zentralen Herausforderungen und Chancen des logischen Denkens klar und heben praktische Methoden zur Nachschulungsoptimierung und Inferenz zur Testzeit hervor. Unsere Arbeit liefert wertvolle Einblicke und Anleitungen, verbindet theoretische Rahmenbedingungen mit praktischen Implementierungen und setzt klare Richtungen für zukünftige Forschung.
Diffusionsmodelle approximieren die Entrauschungsverteilung als Gaußverteilung und prognostizieren deren Mittelwert, während Flow-Matching-Modelle den Gaußschen Mittelwert als Flussgeschwindigkeit umparametrisieren. Allerdings schneiden sie bei der Abtastung mit wenigen Schritten aufgrund von Diskretisierungsfehlern schlechter ab und neigen dazu, unter Classifier-Free Guidance (CFG) übermäßig gesättigte Farben zu erzeugen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Gaussian Mixture Flow Matching (GMFlow)-Modell vor: Anstatt den Mittelwert vorherzusagen, prognostiziert GMFlow dynamische Gaußsche Mischungs-(GM)-Parameter, um eine multimodale Flussgeschwindigkeitsverteilung zu erfassen, die mit einem KL-Divergenzverlust gelernt werden kann. Wir zeigen, dass GMFlow frühere Diffusions- und Flow-Matching-Modelle verallgemeinert, bei denen eine einzelne Gaußverteilung mit einem L_2-Entrauschungsverlust gelernt wird. Für die Inferenz leiten wir GM-SDE/ODE-Löser ab, die analytische Entrauschungsverteilungen und Geschwindigkeitsfelder für eine präzise Abtastung mit wenigen Schritten nutzen. Darüber hinaus führen wir ein neuartiges probabilistisches Guidance-Schema ein, das die Übersättigungsprobleme von CFG mildert und die Bildgenerierungsqualität verbessert. Umfangreiche Experimente zeigen, dass GMFlow in der Generierungsqualität durchgängig besser abschneidet als Flow-Matching-Baselines und eine Präzision von 0,942 mit nur 6 Abtastschritten auf ImageNet 256×256 erreicht.
Tool-Augmented Large Language Models (TA-LLMs) haben vielversprechende Ergebnisse in realen Anwendungen gezeigt, stehen jedoch vor Herausforderungen bei der Verarbeitung unvollständiger Anfragen und außerhalb des Anwendungsbereichs liegender Anfragen. Während bestehende Ansätze hauptsächlich auf Supervised Fine-Tuning mit Experten-Trajektorien setzen, schlagen wir DiaTool-DPO vor, eine neuartige Methode, die die Dialogfähigkeiten von TA-LLMs durch Direct Preference Optimization verbessert. Wir modellieren die Interaktionen von TA-LLMs als Markov-Entscheidungsprozess mit 5 verschiedenen Dialogzuständen und kategorisieren Benutzeranfragen in 3 Typen basierend auf ihren Zustandsübergangstrajektorien. Wir konstruieren automatisch gepaarte Trajektorien-Datensätze von korrekten und inkorrekten Dialogabläufen und führen einen spezialisierten Zielfunktionsverlust für die Dialogsteuerung ein. Unsere umfassende Auswertung zeigt, dass DiaTool-DPO die Leistung von GPT-4o annähernd erreicht (94,8 % bei der Informationssammlung, 91 % bei der Ablehnung von Werkzeugaufrufen) und dabei erhebliche Verbesserungen gegenüber der Baseline (44 % bzw. 9,6 %) erzielt, während die Kernfunktionalität erhalten bleibt. Unser Ansatz eröffnet neue Möglichkeiten für die Entwicklung von TA-LLMs, die diverse reale Szenarien bewältigen können, ohne zusätzliche Experten-Demonstrationen oder menschliche Kennzeichnung zu erfordern.
Wir stellen Clinical ModernBERT vor, einen auf Transformer basierenden Encoder, der auf umfangreicher biomedizinischer Literatur, klinischen Notizen und medizinischen Ontologien vortrainiert wurde und dabei PubMed-Abstracts, MIMIC-IV-Klinikdaten sowie medizinische Codes mit ihren textuellen Beschreibungen einbezieht. Basierend auf ModernBERT, dem derzeitigen State-of-the-Art-Textencoder für natürliche Sprache, der architektonische Verbesserungen wie Rotary Positional Embeddings (RoPE), Flash Attention und eine erweiterte Kontextlänge von bis zu 8.192 Tokens bietet, passt unser Modell diese Innovationen speziell für biomedizinische und klinische Domänen an. Clinical ModernBERT zeichnet sich durch die Erzeugung semantisch reicher Repräsentationen aus, die für Aufgaben mit langem Kontext optimiert sind. Dies validieren wir sowohl durch die Analyse seiner vortrainierten Gewichte als auch durch empirische Evaluierung auf einer umfassenden Suite von klinischen NLP-Benchmarks.
Das Verständnis von 3D-Szenen aus Einzelbildern ist ein zentrales Problem in der Computer Vision mit zahlreichen Anwendungen in den Bereichen Grafik, Augmented Reality und Robotik. Während diffusionsbasierte Modellierungsansätze vielversprechend sind, haben sie oft Schwierigkeiten, die Konsistenz von Objekten und Szenen zu bewahren, insbesondere in komplexen realen Szenarien. Um diese Einschränkungen zu überwinden, schlagen wir einen autoregressiven generativen Ansatz namens Local Random Access Sequence (LRAS)-Modellierung vor, der lokale Patch-Quantisierung und zufällig geordnete Sequenzgenerierung verwendet. Durch die Nutzung von optischem Fluss als Zwischendarstellung für die 3D-Szenenbearbeitung zeigen unsere Experimente, dass LRAS state-of-the-art Fähigkeiten in der Synthese neuer Ansichten und der Manipulation von 3D-Objekten erreicht. Darüber hinaus demonstrieren wir, dass sich unser Framework durch eine einfache Modifikation des Sequenzdesigns natürlich auf die selbstüberwachte Tiefenschätzung erweitern lässt. Durch die Erzielung starker Leistungen bei mehreren 3D-Szenenverständnisaufgaben bietet LRAS ein einheitliches und effektives Framework für die Entwicklung der nächsten Generation von 3D-Vision-Modellen.
Vision Foundation Models (VFMs) und Vision-Language Models (VLMs) haben in der Domain Generalized Semantic Segmentation (DGSS) aufgrund ihrer starken Generalisierungsfähigkeiten an Bedeutung gewonnen. Allerdings stützen sich bestehende DGSS-Methoden oft ausschließlich auf entweder VFMs oder VLMs und übersehen dabei deren komplementäre Stärken. VFMs (z. B. DINOv2) zeichnen sich durch die Erfassung feinkörniger Merkmale aus, während VLMs (z. B. CLIP) eine robuste Textausrichtung bieten, jedoch mit grober Granularität kämpfen. Trotz ihrer komplementären Stärken ist die effektive Integration von VFMs und VLMs mit Aufmerksamkeitsmechanismen eine Herausforderung, da die erhöhte Anzahl von Patch-Tokens die Modellierung langer Sequenzen erschwert. Um dies zu adressieren, schlagen wir MFuser vor, ein neuartiges Mamba-basiertes Fusionsframework, das die Stärken von VFMs und VLMs effizient kombiniert und dabei lineare Skalierbarkeit in der Sequenzlänge beibehält. MFuser besteht aus zwei Schlüsselkomponenten: MVFuser, das als Co-Adapter fungiert, um beide Modelle durch die Erfassung sowohl sequenzieller als auch räumlicher Dynamiken gemeinsam zu feinabstimmen; und MTEnhancer, ein hybrides Aufmerksamkeits-Mamba-Modul, das Text-Embeddings durch die Einbindung von Bildpriors verfeinert. Unser Ansatz erreicht präzise Merkmalslokalität und starke Textausrichtung, ohne signifikanten Rechenaufwand zu verursachen. Umfangreiche Experimente zeigen, dass MFuser state-of-the-art DGSS-Methoden deutlich übertrifft und 68,20 mIoU auf synthetisch-zu-real und 71,87 mIoU auf real-zu-real Benchmarks erreicht. Der Code ist verfügbar unter https://github.com/devinxzhang/MFuser.
Wir präsentieren die Evaluierungsmethodik, Datensätze und Ergebnisse der BOP Challenge 2024, der sechsten in einer Reihe öffentlicher Wettbewerbe, die organisiert wurden, um den Stand der Technik in der 6D-Objekterkennung und verwandten Aufgaben zu erfassen. Im Jahr 2024 war unser Ziel, BOP von Labor-ähnlichen Aufbauten zu realen Szenarien zu überführen. Zunächst führten wir neue modellfreie Aufgaben ein, bei denen keine 3D-Objektmodelle verfügbar sind und Methoden Objekte allein aus bereitgestellten Referenzvideos integrieren müssen. Zweitens definierten wir eine neue, praktischere 6D-Objekterkennungsaufgabe, bei der die Identitäten der in einem Testbild sichtbaren Objekte nicht als Eingabe bereitgestellt werden. Drittens stellten wir neue BOP-H3-Datensätze vor, die mit hochauflösenden Sensoren und AR/VR-Headsets aufgenommen wurden und reale Szenarien eng nachahmen. BOP-H3 umfasst 3D-Modelle und Onboarding-Videos, um sowohl modellbasierte als auch modellfreie Aufgaben zu unterstützen. Die Teilnehmer traten in sieben Challenge-Tracks an, die jeweils durch eine Aufgabe, ein Objekt-Onboarding-Setup und eine Datensatzgruppe definiert waren. Bemerkenswert ist, dass die beste Methode von 2024 für die modellbasierte 6D-Lokalisierung von unbekannten Objekten (FreeZeV2.1) eine um 22 % höhere Genauigkeit auf BOP-Classic-Core erreicht als die beste Methode von 2023 (GenFlow) und nur 4 % hinter der besten Methode von 2023 für bekannte Objekte (GPose2023) liegt, obwohl sie deutlich langsamer ist (24,9 vs. 2,7 s pro Bild). Eine praktischere Methode von 2024 für diese Aufgabe ist Co-op, die nur 0,8 s pro Bild benötigt und 25-mal schneller sowie 13 % genauer als GenFlow ist. Methoden haben eine ähnliche Rangfolge bei der 6D-Erkennung wie bei der 6D-Lokalisierung, jedoch eine höhere Laufzeit. Bei der modellbasierten 2D-Erkennung von unbekannten Objekten erreicht die beste Methode von 2024 (MUSE) eine relative Verbesserung von 21 % im Vergleich zur besten Methode von 2023 (CNOS). Die 2D-Erkennungsgenauigkeit für unbekannte Objekte liegt jedoch immer noch deutlich (-53 %) hinter der Genauigkeit für bekannte Objekte (GDet2023). Das Online-Evaluierungssystem bleibt offen und ist unter http://bop.felk.cvut.cz/ verfügbar.
Wir präsentieren einen neuartigen Ansatz zur Schulung kleiner Sprachmodelle für aufwändige Dokumentenbewertungen, der Wissensdistillation mit Optimierung durch Reinforcement Learning kombiniert. Während bestehende Methoden oft auf teure menschliche Annotationen oder große Black-Box-Sprachmodelle angewiesen sind, nutzt unsere Methodik Webdaten und ein Lehrer-LLM, um automatisch hochwertige Trainingsbeispiele mit Relevanzerklärungen zu generieren. Indem wir die Dokumentenbewertung als ein Reinforcement-Learning-Problem formulieren und explizite Fähigkeiten zur Schlussfolgerung fördern, trainieren wir ein kompaktes Sprachmodell mit 3 Milliarden Parametern, das Spitzenleistungen auf dem BRIGHT-Benchmark erzielt. Unser Modell belegt den dritten Platz auf der Bestenliste, verwendet dabei deutlich weniger Parameter als andere Ansätze und übertrifft Modelle, die mehr als 20-mal größer sind. Durch umfangreiche Experimente zeigen wir, dass die Generierung von Erklärungen während der Inferenz, anstatt der direkten Vorhersage von Relevanzwerten, eine effektivere Schlussfolgerung mit kleineren Sprachmodellen ermöglicht. Der selbstüberwachte Charakter unserer Methode bietet eine skalierbare und interpretierbare Lösung für moderne Informationsabfragesysteme.
Multimodale große Sprachmodelle (MLLMs) zeichnen sich in Vision-Sprache-Aufgaben aus, bergen jedoch auch erhebliche Risiken, schädliche Inhalte zu generieren, insbesondere durch Jailbreak-Angriffe. Jailbreak-Angriffe beziehen sich auf gezielte Manipulationen, die Sicherheitsmechanismen in Modellen umgehen und zur Erzeugung unangemessener oder unsicherer Inhalte führen. Die Erkennung solcher Angriffe ist entscheidend, um den verantwortungsvollen Einsatz von MLLMs zu gewährleisten. Bestehende Methoden zur Jailbreak-Erkennung stehen vor drei Hauptherausforderungen: (1) Viele basieren auf verborgenen Modellzuständen oder Gradienten, was ihre Anwendbarkeit auf White-Box-Modelle beschränkt, bei denen die internen Abläufe des Modells zugänglich sind; (2) Sie beinhalten einen hohen Rechenaufwand durch unsicherheitsbasierte Analysen, was die Echtzeiterkennung einschränkt, und (3) Sie erfordern vollständig annotierte schädliche Datensätze, die in realen Anwendungen oft knapp sind. Um diese Probleme zu lösen, führen wir ein testzeitadaptives Framework namens JAILDAM ein. Unsere Methode nutzt einen speicherbasierten Ansatz, der durch politikgesteuerte unsichere Wissensrepräsentationen geleitet wird, wodurch die Notwendigkeit einer expliziten Exposition gegenüber schädlichen Daten entfällt. Durch die dynamische Aktualisierung unsicheren Wissens während der Testzeit verbessert unser Framework die Generalisierung auf unbekannte Jailbreak-Strategien bei gleichzeitiger Aufrechterhaltung der Effizienz. Experimente auf mehreren VLM-Jailbreak-Benchmarks zeigen, dass JAILDAM Spitzenleistungen in der Erkennung schädlicher Inhalte erzielt und sowohl die Genauigkeit als auch die Geschwindigkeit verbessert.
Die Erhöhung der Rechenleistung zur Testzeit hat sich als vielversprechende Richtung zur Verbesserung der Leistung von Sprachmodellen erwiesen, insbesondere in Szenarien, in denen das Feinabstimmen des Modells aufgrund von Rechenbeschränkungen oder privaten Modellgewichten unpraktisch oder unmöglich ist. Allerdings verschlechtern sich bestehende Suchmethoden zur Testzeit, die ein Belohnungsmodell (RM) verwenden, oft in ihrer Qualität, wenn die Rechenleistung skaliert wird, aufgrund der Überoptimierung von inhärent unvollkommenen Belohnungsproxys. Wir stellen QAlign vor, einen neuen Ansatz zur Ausrichtung zur Testzeit. Während wir die Rechenleistung zur Testzeit skalieren, konvergiert QAlign zur Stichprobenentnahme aus der optimal ausgerichteten Verteilung für jede individuelle Eingabeaufforderung. Durch die Übernahme neuer Fortschritte in der Markov-Ketten-Monte-Carlo-Methode für die Textgenerierung ermöglicht unsere Methode besser ausgerichtete Ausgaben, ohne das zugrunde liegende Modell zu verändern oder sogar Zugriff auf Logits zu benötigen. Wir demonstrieren die Wirksamkeit von QAlign anhand von Benchmarks für mathematisches Denken (GSM8K und GSM-Symbolic) unter Verwendung eines aufgabenbezogenen RM und zeigen konsistente Verbesserungen gegenüber bestehenden Methoden zur Rechenleistung zur Testzeit wie Best-of-n und Mehrheitsentscheidung. Darüber hinaus übertrifft QAlign, wenn es mit realistischeren RMs angewendet wird, die auf dem Tulu 3-Präferenzdatensatz trainiert wurden, die direkte Präferenzoptimierung (DPO), Best-of-n, Mehrheitsentscheidung und gewichtete Mehrheitsentscheidung auf einer Vielzahl von Datensätzen (GSM8K, MATH500, IFEval, MMLU-Redux und TruthfulQA). Als praktische Lösung zur Ausrichtung von Sprachmodellen zur Testzeit unter Verwendung zusätzlicher Rechenleistung ohne Verschlechterung erweitert unser Ansatz die Grenzen der Fähigkeiten, die aus Standard-Sprachmodellen ohne weiteres Training erzielt werden können.
Große Sprachmodelle (LLMs) entwickeln sich weltweit in einem beispiellosen Tempo weiter, wobei Regionen zunehmend diese Modelle für Anwendungen in ihrer Hauptsprache übernehmen. Die Bewertung dieser Modelle in verschiedenen sprachlichen Umgebungen, insbesondere in ressourcenarmen Sprachen, ist zu einer großen Herausforderung für Wissenschaft und Industrie geworden. Bestehende Bewertungsrahmen konzentrieren sich überproportional auf Englisch und eine Handvoll ressourcenreicher Sprachen, wodurch die realistische Leistung von LLMs in mehrsprachigen und ressourcenärmeren Szenarien übersehen wird. Um diese Lücke zu schließen, stellen wir GlotEval vor, einen schlanken Rahmen, der für massiv mehrsprachige Bewertungen konzipiert ist. Mit Unterstützung für sieben Schlüsselaufgaben (Maschinelle Übersetzung, Textklassifizierung, Zusammenfassung, offene Textgenerierung, Leseverständnis, Sequenzbeschriftung und intrinsische Bewertung), die Dutzende bis Hunderte von Sprachen umfassen, hebt GlotEval konsistente mehrsprachige Benchmarking, sprachspezifische Prompt-Vorlagen und nicht-englischzentrierte maschinelle Übersetzung hervor. Dies ermöglicht eine präzise Diagnose der Stärken und Schwächen von Modellen in verschiedenen sprachlichen Kontexten. Eine mehrsprachige Übersetzungsfallstudie demonstriert die Anwendbarkeit von GlotEval für mehrsprachige und sprachspezifische Bewertungen.
Große Sprachmodelle (LLMs) zeigen erhebliche Leistungsunterschiede zwischen verschiedenen Sprachen, wobei sie hauptsächlich hochressourcenreiche Sprachen begünstigen, während unterrepräsentierte Sprachen marginalisiert werden. Kontinuierliches Vortraining (Continual Pretraining, CPT) hat sich als vielversprechender Ansatz erwiesen, um dieses Ungleichgewicht zu adressieren, obwohl die relative Wirksamkeit von monolingualen, bilingualen und code-augmentierten Datenstrategien noch unklar ist. Diese Studie evaluiert systematisch 36 CPT-Konfigurationen, die drei multilinguale Basismodelle umfassen, über 30+ Sprachen hinweg, die als altruistisch, egoistisch und stagnierend kategorisiert sind und verschiedene Ressourcenniveaus abdecken. Unsere Ergebnisse offenbaren drei wesentliche Erkenntnisse: (1) Bilinguales CPT verbessert die multilinguale Klassifikation, führt jedoch häufig zu Sprachmischungsproblemen während der Generierung. (2) Die Einbeziehung von Programmiercode-Daten während des CPT steigert durchgängig die Genauigkeit der multilingualen Klassifikation, insbesondere zugunsten ressourcenarmer Sprachen, führt jedoch zu einem Kompromiss durch eine leichte Verschlechterung der Generierungsqualität. (3) Im Gegensatz zu früheren Arbeiten beobachten wir erhebliche Abweichungen von Sprachklassifikationen gemäß ihrer Auswirkung auf den sprachübergreifenden Transfer: Sprachen, die als altruistisch klassifiziert sind, wirken sich oft negativ auf verwandte Sprachen aus, egoistische Sprachen zeigen ein bedingtes und konfigurationsabhängiges Verhalten, und stagnierende Sprachen demonstrieren überraschende Anpassungsfähigkeit unter bestimmten CPT-Bedingungen. Diese differenzierten Interaktionen unterstreichen die Komplexität des multilingualen Repräsentationslernens und betonen die Bedeutung systematischer Studien zur generalisierbaren Sprachklassifikation, um zukünftige multilinguale CPT-Strategien zu informieren.