Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben den Fortschritt im Bereich der finanziellen NLP und Anwendungen beschleunigt, doch bestehende Benchmarks beschränken sich weiterhin auf monolinguale und unimodale Settings, die oft zu stark auf einfache Aufgaben setzen und die Komplexität der realen finanziellen Kommunikation nicht widerspiegeln. Wir stellen MultiFinBen vor, den ersten mehrsprachigen und multimodalen Benchmark, der speziell für den globalen Finanzbereich entwickelt wurde und LLMs über Modalitäten (Text, Vision, Audio) und sprachliche Settings (monolingual, bilingual, mehrsprachig) in domänenspezifischen Aufgaben bewertet. Wir führen zwei neuartige Aufgaben ein, darunter PolyFiQA-Easy und PolyFiQA-Expert, die ersten mehrsprachigen finanziellen Benchmarks, die von Modellen komplexes Schlussfolgern über gemischtsprachige Eingaben erfordern; sowie EnglishOCR und SpanishOCR, die ersten OCR-integrierten finanziellen Frage-Antwort-Aufgaben, die Modelle dazu herausfordern, Informationen aus visuell-textuellen Finanzdokumenten zu extrahieren und darüber zu schlussfolgern. Darüber hinaus schlagen wir einen dynamischen, schwierigkeitsbewussten Auswahlmechanismus vor und kuratieren einen kompakten, ausgewogenen Benchmark anstelle einer einfachen Aggregation bestehender Datensätze. Eine umfangreiche Evaluierung von 22 state-of-the-art Modellen zeigt, dass selbst die leistungsstärksten Modelle trotz ihrer allgemeinen multimodalen und mehrsprachigen Fähigkeiten erhebliche Schwierigkeiten haben, wenn sie mit komplexen cross-lingualen und multimodalen Aufgaben im Finanzbereich konfrontiert werden. MultiFinBen wird öffentlich zugänglich gemacht, um transparente, reproduzierbare und inklusive Fortschritte in finanziellen Studien und Anwendungen zu fördern.
Die Skalierung der Rechenleistung zur Testzeit hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) gezeigt. In dieser Arbeit führen wir die erste systematische Untersuchung zur Anwendung von Testzeit-Skalierungsmethoden auf Sprachagenten durch und untersuchen, inwieweit dies deren Effektivität steigert. Konkret erforschen wir verschiedene Testzeit-Skalierungsstrategien, darunter: (1) parallele Sampling-Algorithmen; (2) sequenzielle Revisionsstrategien; (3) Verifizierer und Zusammenführungsmethoden; (4) Strategien zur Diversifizierung von Rollouts. Wir analysieren und untersuchen sorgfältig die Auswirkungen verschiedener Designstrategien auf die Anwendung der Testzeit-Skalierung bei Sprachagenten und kommen zu folgenden Erkenntnissen: 1. Die Skalierung der Rechenleistung zur Testzeit kann die Leistung von Agenten verbessern. 2. Es ist wichtig, dass Agenten wissen, wann sie reflektieren sollten. 3. Unter den verschiedenen Verifizierungs- und Ergebniszusammenführungsansätzen schneidet die listenbasierte Methode am besten ab. 4. Die Erhöhung diversifizierter Rollouts hat einen positiven Effekt auf die Aufgabenleistung des Agenten.
Jüngste Fortschritte bei Audio-Text-Großsprachmodellen (LLMs) haben neue Möglichkeiten für das Verständnis und die Generierung von Musik eröffnet. Allerdings sind bestehende Benchmarks in ihrem Umfang begrenzt und stützen sich oft auf vereinfachte Aufgaben oder Multiple-Choice-Bewertungen, die die Komplexität der realen Musikanalyse nicht widerspiegeln. Wir interpretieren eine breite Palette traditioneller MIR-Annotationen in Instruktionsfolgeformate um und führen CMI-Bench ein, einen umfassenden Benchmark für die Befolgung von Musikinstruktionen, der entwickelt wurde, um Audio-Text-LLMs anhand einer Vielzahl von Aufgaben zur Musikinformationsgewinnung (MIR) zu bewerten. Dazu gehören Genreklassifizierung, Emotionsregression, Emotionstagging, Instrumentenklassifizierung, Tonhöhenschätzung, Tonartenerkennung, Liedtexttranskription, Melodieextraktion, Erkennung von Gesangstechniken, Erkennung von Instrumentenspieltechniken, Musiktagging, Musikkaptionierung und (Down)Beat-Tracking: Kernherausforderungen der MIR-Forschung. Im Gegensatz zu früheren Benchmarks verwendet CMI-Bench standardisierte Bewertungsmetriken, die mit früheren State-of-the-Art-MIR-Modellen konsistent sind, und gewährleistet so eine direkte Vergleichbarkeit mit überwachten Ansätzen. Wir stellen ein Bewertungstoolkit zur Verfügung, das alle Open-Source-Audio-Text-LLMs unterstützt, darunter LTU, Qwen-audio, SALMONN, MusiLingo usw. Die experimentellen Ergebnisse zeigen erhebliche Leistungsunterschiede zwischen LLMs und überwachten Modellen sowie deren kulturelle, chronologische und geschlechtsspezifische Verzerrungen, was die Potenziale und Grenzen aktueller Modelle bei der Bewältigung von MIR-Aufgaben verdeutlicht. CMI-Bench schafft eine einheitliche Grundlage für die Bewertung der Befolgung von Musikinstruktionen und treibt den Fortschritt bei musikbewussten LLMs voran.
Große Sprachdiffusionsmodelle, oder Diffusions-LLMs, haben sich zu einem bedeutenden Schwerpunkt in der NLP-Forschung entwickelt, wobei erhebliche Anstrengungen darauf gerichtet sind, ihre Skalierbarkeit und Leistung bei nachgelagerten Aufgaben zu verstehen. Ihre Fähigkeiten im Umgang mit langen Kontexten bleiben jedoch unerforscht, da es an systematischen Analysen oder Methoden zur Kontextausdehnung mangelt. In dieser Arbeit präsentieren wir die erste systematische Untersuchung, die die Langkontextleistung von Diffusions-LLMs mit der traditioneller autoregressiver LLMs vergleicht. Wir identifizieren zunächst eine einzigartige Eigenschaft von Diffusions-LLMs: Im Gegensatz zu autoregressiven LLMs behalten sie während der direkten Kontextextrapolation eine bemerkenswert \textit{stabile Perplexität} bei. Darüber hinaus entdecken wir, dass Diffusions-LLMs bei der Needle-In-A-Haystack-Aufgabe, bei der der Kontext die vorab trainierte Länge überschreitet, ein ausgeprägtes \textit{lokales Wahrnehmungsphänomen} zeigen, das die erfolgreiche Extraktion aus kürzlichen Kontextsegmenten ermöglicht. Wir erklären beide Phänomene durch die Theorie der Rotary Position Embedding (RoPE)-Skalierung. Aufbauend auf diesen Beobachtungen schlagen wir LongLLaDA vor, eine trainingsfreie Methode, die LLaDA mit der NTK-basierten RoPE-Extrapolation kombiniert. Unsere Ergebnisse bestätigen, dass etablierte Extrapolationsskalierungsgesetze weiterhin effektiv sind, um die Kontextfenster von Diffusions-LLMs zu erweitern. Darüber hinaus identifizieren wir Langkontextaufgaben, bei denen Diffusions-LLMs autoregressive LLMs übertreffen, und andere, bei denen sie zurückbleiben. Folglich etabliert diese Studie die erste Kontextextrapolationsmethode für Diffusions-LLMs und liefert gleichzeitig wesentliche theoretische Einblicke und empirische Benchmarks, die für die Weiterentwicklung zukünftiger Forschungen zu Langkontext-Diffusions-LLMs entscheidend sind.
Trotz beeindruckender Fortschritte im Bereich des komplexen Denkens arbeiten aktuelle große Sprachmodelle (LLMs) typischerweise isoliert – sie behandeln jedes Problem als einen unabhängigen Versuch, ohne erfahrungsbasiertes Wissen anzusammeln oder zu integrieren. Im Gegensatz dazu nutzen Experten in der Problemlösung – wie etwa Olympiade- oder Programmierwettbewerbsteams – ein reiches Geflecht von Erfahrungen: Sie nehmen Mentoring von Trainern auf, entwickeln Intuition aus vergangenen Problemen, nutzen Wissen über Werkzeuge und Bibliotheksfunktionen, passen Strategien basierend auf dem Fachwissen und den Erfahrungen von Kollegen an, verfeinern kontinuierlich ihr Denken durch Versuch und Irrtum und lernen sogar während des Wettbewerbs aus anderen verwandten Problemen. Wir stellen Xolver vor, ein trainingsfreies Multi-Agenten-Denkframework, das ein Black-Box-LLM mit einem persistenten, sich entwickelnden Gedächtnis ganzheitlicher Erfahrungen ausstattet. Xolver integriert verschiedene Erfahrungsmodalitäten, einschließlich externer und selbstgesteuerter Informationsbeschaffung, Werkzeugnutzung, kollaborativer Interaktionen, agentengesteuerter Bewertung und iterativer Verfeinerung. Indem es relevante Strategien, Codefragmente und abstrakte Denkmuster zur Inferenzzeit lernt, vermeidet Xolver die Generierung von Lösungen von Grund auf – ein Übergang von isolierter Inferenz hin zu erfahrungsbewussten Sprachagenten. Basierend auf sowohl Open-Weight- als auch proprietären Modellen übertrifft Xolver durchweg spezialisierte Denkagenten. Selbst mit leichten Backbones (z.B. QWQ-32B) übertrifft es oft fortschrittliche Modelle wie Qwen3-235B, Gemini 2.5 Pro, o3 und o4-mini-high. Mit o3-mini-high erzielt es neue Bestwerte auf GSM8K (98,1 %), AIME'24 (94,4 %), AIME'25 (93,7 %), Math-500 (99,8 %) und LiveCodeBench-V5 (91,6 %) – was das ganzheitliche Erfahrungslernen als einen entscheidenden Schritt hin zu Generalistenagenten mit Expertenniveau im Denken hervorhebt. Code und Daten sind verfügbar unter https://kagnlp.github.io/xolver.github.io/.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens erwiesen. Allerdings wird seine Wirksamkeit durch ein entscheidendes Paradoxon getrübt: RLVR-optimierte Modelle schneiden oft schlechter ab als ihre Basismodelle bei der Pass@K-Metrik zur Lösungsfindung, was zu der Hypothese führt, dass RLVR lediglich bestehende Denkpfade neu gewichtet, jedoch auf Kosten der Vielfalt des Denkens. In dieser Arbeit lösen wir diesen Widerspruch, indem wir die Ursache des Problems identifizieren: Die Pass@K-Metrik selbst ist ein fehlerhaftes Maß für das logische Denken, da sie korrekte Endantworten honoriert, die wahrscheinlich aus ungenauen oder unvollständigen Denkketten (Chains of Thought, CoTs) entstehen. Um dies zu beheben, führen wir eine präzisere Bewertungsmetrik ein, CoT-Pass@K, die sowohl den Denkpfad als auch die Endantwort korrekt bewertet. Wir legen eine neue theoretische Grundlage dar, die formalisiert, wie RLVR im Gegensatz zu traditionellem Reinforcement Learning (RL) einzigartig strukturiert ist, um logische Integrität zu fördern. Unsere empirischen Ergebnisse bestätigen dies: Mit CoT-Pass@K beobachten wir, dass RLVR die Verallgemeinerung korrekten Denkens für alle Werte von K fördern kann. Darüber hinaus zeigen unsere Analysen der Trainingsdynamik, dass diese verbesserte Denkfähigkeit früh im Trainingsprozess entsteht und sich reibungslos verallgemeinert. Unsere Arbeit bietet eine klare Perspektive auf die Rolle von RLVR, stellt eine zuverlässigere Methode zu seiner Bewertung bereit und bestätigt sein Potenzial, das maschinelle Denken tatsächlich voranzubringen.
Das Aufkommen von GPT-4o-ähnlichen großen multimodalen Modellen (LMMs) hat die Erforschung der Integration von Text-, Bild- und Sprachmodalitäten vorangetrieben, um flexiblere multimodale Interaktionen zu ermöglichen. Bisherige LMMs verketten typischerweise die Repräsentationen der Modalitäten entlang der Sequenzdimension und speisen sie in ein großes Sprachmodell (LLM) als Rückgrat ein. Während die Verkettung entlang der Sequenzdimension eine einfache Methode zur Modalitätsintegration darstellt, ist sie oft stark auf umfangreiche Daten angewiesen, um die Ausrichtungen der Modalitäten zu erlernen. In diesem Artikel zielen wir darauf ab, die Beziehungen zwischen den Modalitäten gezielter zu modellieren, um effizientere und flexiblere Modalitätsausrichtungen zu erreichen. Zu diesem Zweck schlagen wir Stream-Omni vor, ein großes Sprach-Bild-Sprach-Modell mit effizienten Modalitätsausrichtungen, das gleichzeitig Interaktionen unter verschiedenen Modalitätskombinationen unterstützen kann. Stream-Omni verwendet ein LLM als Rückgrat und richtet Bild und Sprache basierend auf ihren Beziehungen zum Text aus. Für Bilder, die semantisch komplementär zum Text sind, verwendet Stream-Omni die Verkettung entlang der Sequenzdimension, um die Bild-Text-Ausrichtung zu erreichen. Für Sprache, die semantisch mit dem Text übereinstimmt, führt Stream-Omni eine CTC-basierte Schichtdimensionsabbildung ein, um die Sprach-Text-Ausrichtung zu erreichen. Auf diese Weise kann Stream-Omni Modalitätsausrichtungen mit weniger Daten (insbesondere Sprache) erreichen, was die Übertragung von Textfähigkeiten auf andere Modalitäten ermöglicht. Experimente auf verschiedenen Benchmarks zeigen, dass Stream-Omni starke Leistungen bei Aufgaben zur visuellen Verständnis, Sprachinteraktion und bildgestützten Sprachinteraktion erzielt. Dank der schichtdimensionalen Abbildung kann Stream-Omni gleichzeitig Zwischentextausgaben (wie ASR-Transkriptionen und Modellantworten) während der Sprachinteraktion bereitstellen und den Nutzern so ein umfassendes multimodales Erlebnis bieten.
Visual Information Extraction (VIE) wandelt unstrukturierte Dokumentbilder in strukturierte Formate wie JSON um, was für medizinische Anwendungen wie Berichtsanalysen und Online-Konsultationen entscheidend ist. Traditionelle Methoden stützen sich auf OCR und Sprachmodelle, während end-to-end multimodale Modelle eine direkte JSON-Generierung ermöglichen. Allerdings schränken domänenspezifische Schemata und hohe Annotationskosten ihre Effektivität im Bereich der medizinischen VIE ein. Unser Ansatz basiert auf dem Reinforcement Learning with Verifiable Rewards (RLVR)-Framework, um diese Herausforderungen mit nur 100 annotierten Proben zu bewältigen. Unser Ansatz gewährleistet Diversität im Datensatz, einen ausgewogenen Präzisions-Recall-Belohnungsmechanismus zur Reduzierung von Halluzinationen und Verbesserung der Feldabdeckung sowie innovative Sampling-Strategien zur Steigerung der Fähigkeiten zur logischen Schlussfolgerung. Durch das Feinabstimmen von Qwen2.5-VL-7B mit unserer RLVR-Methode erreichen wir Spitzenleistungen bei medizinischen VIE-Aufgaben und verbessern F1, Präzision und Recall signifikant. Während unsere Modelle bei Aufgaben, die medizinischen Datensätzen ähneln, hervorragend abschneiden, sinkt die Leistung bei unähnlichen Aufgaben, was die Notwendigkeit einer domänenspezifischen Optimierung unterstreicht. Fallstudien demonstrieren weiterhin den Wert des logischen Schlussfolgerns während des Trainings und der Inferenz für VIE.
Das Ausbalancieren von Exploration und Exploitation ist ein zentrales Ziel im Reinforcement Learning (RL). Trotz jüngster Fortschritte bei der Verbesserung des Denkens von Sprachmodellen (LMs) neigen die meisten Methoden zur Exploitation und stoßen zunehmend auf Leistungsplateaus. In dieser Arbeit untersuchen wir die Entropie – ein Signal für Exploration im RL – und deren Beziehung zum explorativen Denken in LMs. Durch empirische Analysen decken wir starke positive Korrelationen zwischen hoch-entropischen Regionen und drei Arten von explorativen Denkhandlungen auf: (1) entscheidende Tokens, die logische Schritte bestimmen oder verbinden, (2) reflektierende Handlungen wie Selbstüberprüfung und Korrektur, und (3) seltene Verhaltensweisen, die von den Basis-LMs untererforscht sind. Motiviert durch diese Erkenntnisse führen wir eine minimale Modifikation des Standard-RL mit nur einer Codezeile ein: die Erweiterung der Advantage-Funktion um einen entropiebasierten Term. Im Gegensatz zu traditionellen Maximum-Entropie-Methoden, die Exploration durch die Förderung von Unsicherheit anregen, fördern wir Exploration durch die Förderung längerer und tieferer Denkketten. Bemerkenswerterweise erzielt unsere Methode signifikante Verbesserungen beim Pass@K-Metrik – einem oberen Schätzer der Denkfähigkeiten von LMs – selbst bei der Bewertung mit extrem großen K-Werten, wodurch die Grenzen des LM-Denkens erweitert werden.
Eine große Herausforderung für die moderne KI besteht darin, zu lernen, die Welt zu verstehen und weitgehend durch Beobachtung zu handeln. Dieses Papier untersucht einen selbstüberwachten Ansatz, der internetgroße Videodaten mit einer kleinen Menge an Interaktionsdaten (Roboter-Trajektorien) kombiniert, um Modelle zu entwickeln, die in der Lage sind, die physische Welt zu verstehen, vorherzusagen und zu planen. Wir trainieren zunächst eine aktionsfreie Joint-Embedding-Predictive-Architektur, V-JEPA 2, auf einem Video- und Bilddatensatz, der über 1 Million Stunden Internetvideo umfasst. V-JEPA 2 erzielt starke Leistungen im Bereich des Bewegungsverständnisses (77,3 Top-1-Genauigkeit auf Something-Something v2) und state-of-the-art-Leistungen bei der Vorhersage menschlicher Handlungen (39,7 Recall-at-5 auf Epic-Kitchens-100), wobei es bisherige aufgabenspezifische Modelle übertrifft. Darüber hinaus zeigen wir nach der Ausrichtung von V-JEPA 2 mit einem großen Sprachmodell state-of-the-art-Leistungen bei mehreren Video-Frage-Antwort-Aufgaben im 8-Milliarden-Parameter-Maßstab (z. B. 84,0 auf PerceptionTest, 76,9 auf TempCompass). Schließlich zeigen wir, wie selbstüberwachtes Lernen auf Roboter-Planungsaufgaben angewendet werden kann, indem wir ein latentes aktionsbedingtes Weltmodell, V-JEPA 2-AC, mit weniger als 62 Stunden unmarkierter Roboter-Videos aus dem Droid-Datensatz nachtrainieren. Wir setzen V-JEPA 2-AC zero-shot auf Franka-Armen in zwei verschiedenen Laboren ein und ermöglichen das Aufnehmen und Ablegen von Objekten durch Planung mit Bildzielen. Bemerkenswert ist, dass dies erreicht wird, ohne Daten von den Robotern in diesen Umgebungen zu sammeln und ohne aufgabenspezifisches Training oder Belohnungen. Diese Arbeit zeigt, wie selbstüberwachtes Lernen aus internetgroßen Daten und einer kleinen Menge an Roboter-Interaktionsdaten ein Weltmodell hervorbringen kann, das in der Lage ist, in der physischen Welt zu planen.
Diffusions- und Flow-basierte Modelle haben sich als state-of-the-art Ansätze im Bereich des generativen Modellierens etabliert, erfordern jedoch viele Sampling-Schritte. Konsistenzmodelle können diese Modelle in effiziente Ein-Schritt-Generatoren destillieren; im Gegensatz zu Flow- und Diffusions-basierten Methoden verschlechtert sich ihre Leistung jedoch unweigerlich, wenn die Anzahl der Schritte erhöht wird, was wir sowohl analytisch als auch empirisch zeigen. Flow-Maps verallgemeinern diese Ansätze, indem sie beliebige zwei Rauschpegel in einem einzigen Schritt verbinden und dabei über alle Schrittanzahlen hinweg effektiv bleiben. In diesem Artikel führen wir zwei neue kontinuierliche Zeitziele für das Training von Flow-Maps ein, zusammen mit zusätzlichen neuartigen Trainingstechniken, die bestehende Konsistenz- und Flow-Matching-Ziele verallgemeinern. Wir zeigen weiterhin, dass Autoguidance die Leistung verbessern kann, indem ein qualitativ minderwertiges Modell zur Führung während der Destillation verwendet wird, und ein zusätzlicher Schub durch adversarisches Feintuning erreicht werden kann, mit minimalem Verlust an Probenvielfalt. Wir validieren unsere Flow-Map-Modelle, genannt Align Your Flow, umfassend auf anspruchsvollen Bildgenerierungs-Benchmarks und erreichen state-of-the-art Leistung bei der Few-Step-Generierung sowohl auf ImageNet 64x64 als auch 512x512, unter Verwendung kleiner und effizienter neuronaler Netze. Schließlich zeigen wir Text-zu-Bild Flow-Map-Modelle, die alle bestehenden nicht-adversarisch trainierten Few-Step-Sampler in der textkonditionierten Synthese übertreffen.
Jüngste Fortschritte bei Long Chain-of-Thought (CoT)-Modellen haben die Leistung bei komplexen Aufgaben verbessert, jedoch leiden sie unter Überdenken, was redundante Denkschritte erzeugt, insbesondere bei einfachen Fragen. Diese Arbeit untersucht erneut die Denkmuster von Long- und Short-CoT-Modellen und stellt fest, dass die Short-CoT-Muster effizient prägnantes Denken ermöglichen, während die Long-CoT-Muster in herausfordernden Szenarien, in denen die Short-CoT-Muster Schwierigkeiten haben, überzeugen. Um Modellen die Nutzung beider Muster zu ermöglichen, schlagen wir Question-Free Fine-Tuning (QFFT) vor, einen Feinabstimmungsansatz, der die Eingabefrage während des Trainings entfernt und ausschließlich aus Long-CoT-Antworten lernt. Dieser Ansatz ermöglicht es dem Modell, beide Denkmuster adaptiv einzusetzen: Es priorisiert die Short-CoT-Muster und aktiviert die Long-CoT-Muster nur bei Bedarf. Experimente auf verschiedenen mathematischen Datensätzen zeigen, dass QFFT die durchschnittliche Antwortlänge um mehr als 50\% reduziert, während es eine Leistung erzielt, die mit Supervised Fine-Tuning (SFT) vergleichbar ist. Darüber hinaus zeigt QFFT im Vergleich zu SFT eine überlegene Leistung in verrauschten, außerhalb der Domäne liegenden und ressourcenarmen Szenarien.
Wir stellen TestCase-Eval vor, einen neuen Benchmark für die systematische Bewertung von LLMs in der Testfallgenerierung. TestCase-Eval umfasst 500 Algorithmusprobleme und 100.000 von Menschen erstellte Lösungen von der Codeforces-Plattform. Es konzentriert sich auf zwei zentrale Aufgaben: (1) Fehlerabdeckung, die misst, wie gut LLM-generierte Testsets verschiedene Eingabeszenarien untersuchen und ein breites Spektrum potenzieller Fehlermodi abdecken. (2) Fehleraufdeckung, die bewertet, ob LLMs einen maßgeschneiderten Testeingang erstellen können, der eine spezifische fehlerhafte Codeimplementierung aufdeckt. Wir bieten eine umfassende Bewertung von 19 state-of-the-art Open-Source- und proprietären LLMs auf TestCase-Eval, die Einblicke in ihre Stärken und Grenzen bei der Generierung effektiver Testfälle für Algorithmusprobleme liefert.
Tokenisierung legt eine feste Granularität auf den Eingabetext fest und fixiert, wie ein Sprachmodell mit Daten arbeitet und wie weit in die Zukunft es Vorhersagen trifft. Byte-Pair-Encoding (BPE) und ähnliche Verfahren teilen den Text einmal auf, erstellen ein statisches Vokabular und lassen das Modell mit dieser Wahl zurück. Wir lockern diese Starrheit, indem wir ein autoregressives U-Net einführen, das lernt, seine eigenen Tokens während des Trainings zu embedden. Das Netzwerk liest Rohbytes, fasst sie zu Wörtern zusammen, dann zu Wortpaaren und schließlich zu bis zu vier Wörtern, wodurch es eine mehrstufige Sicht auf die Sequenz erhält. In tieferen Stufen muss das Modell weiter in die Zukunft vorhersagen – es antizipiert die nächsten Wörter anstelle des nächsten Bytes –, sodass sich tiefere Stufen auf breitere semantische Muster konzentrieren, während frühere Stufen feine Details verarbeiten. Bei sorgfältiger Abstimmung und Kontrolle der Vorabtrainingsrechenleistung erreichen flache Hierarchien starke BPE-Baselines, und tiefere Hierarchien zeigen einen vielversprechenden Trend. Da die Tokenisierung nun innerhalb des Modells stattfindet, kann dasselbe System Aufgaben auf Zeichenebene bewältigen und Wissen über ressourcenarme Sprachen hinweg übertragen.
Die Hardware-Ökosysteme entwickeln sich rasant, wobei das Interesse an der Übersetzung von Low-Level-Programmen zwischen verschiedenen Befehlssatzarchitekturen (ISAs) auf schnelle, flexible und korrekte Weise zunimmt, um die Portabilität und Langlebigkeit bestehender Codes zu verbessern. Eine besonders anspruchsvolle Klasse dieses Transpilationsproblems ist die Übersetzung zwischen komplexen (CISC) und reduzierten (RISC) Hardware-Architekturen, bedingt durch grundlegende Unterschiede in der Befehlskomplexität, Speichermodellen und Ausführungsparadigmen. In dieser Arbeit stellen wir GG (Guaranteed Guess) vor, eine ISA-zentrierte Transpilationspipeline, die die Übersetzungsleistung von vortrainierten großen Sprachmodellen (LLMs) mit der Strenge etablierter Software-Testkonstrukte kombiniert. Unser Ansatz generiert Kandidatenübersetzungen mithilfe eines LLMs von einer ISA zu einer anderen und bettet diese Übersetzungen in einen Software-Testrahmen ein, um ein quantifizierbares Vertrauen in die Übersetzung aufzubauen. Wir evaluieren unseren GG-Ansatz anhand von zwei diversen Datensätzen, erreichen eine hohe Code-Abdeckung (>98 %) in Unit-Tests und erzielen eine funktionale/semantische Korrektheit von 99 % bei HumanEval-Programmen und 49 % bei BringupBench-Programmen. Darüber hinaus vergleichen wir unseren Ansatz mit dem state-of-the-art Rosetta 2-Framework auf Apple Silicon und zeigen eine 1,73x schnellere Laufzeitleistung, eine 1,47x bessere Energieeffizienz und eine 2,41x bessere Speichernutzung für unseren transpilierten Code, was die Effektivität von GG für reale CISC-zu-RISC-Übersetzungsaufgaben demonstriert. Wir werden unsere Codes, Daten, Modelle und Benchmarks open-source bereitstellen, um eine gemeinsame Grundlage für die Forschung zur ISA-Ebene-Code-Übersetzung zu schaffen.
Vision-Language-Action (VLA)-Modelle, insbesondere diffusionsbasierte Architekturen, zeigen ein transformatives Potenzial für verkörperte Intelligenz, werden jedoch durch hohe Rechen- und Speicheranforderungen erheblich behindert, die sich aus umfangreichen inhärenten und Inferenzzeit-Redundanzen ergeben. Während bestehende Beschleunigungsbemühungen oft isolierte Ineffizienzen ins Visier nehmen, scheitern solche punktuellen Lösungen typischerweise daran, die vielfältigen Rechen- und Speicher-Engpässe entlang der gesamten VLA-Pipeline ganzheitlich zu adressieren, was die praktische Einsatzfähigkeit einschränkt. Wir stellen EfficientVLA vor, ein strukturiertes und trainingsfreies Inferenz-Beschleunigungsframework, das diese Barrieren systematisch beseitigt, indem es vielschichtige Redundanzen kohärent ausnutzt. EfficientVLA integriert synergetisch drei gezielte Strategien: (1) das Beschneiden funktional unbedeutender Schichten im Sprachmodul, geleitet durch eine Analyse von Inter-Schicht-Redundanzen; (2) die Optimierung des visuellen Verarbeitungspfads durch eine aufgabenbewusste Strategie, die eine kompakte, diverse Auswahl visueller Tokens auswählt und dabei Aufgabenrelevanz mit Informationsabdeckung ausbalanciert; und (3) die Reduzierung temporärer Rechenredundanz innerhalb des iterativen, diffusionsbasierten Aktionskopfes durch strategisches Zwischenspeichern und Wiederverwenden wichtiger Zwischenmerkmale. Wir wenden unsere Methode auf das Standard-VLA-Modell CogACT an und erzielen eine 1,93-fache Beschleunigung der Inferenz sowie eine Reduzierung der FLOPs auf 28,9 %, bei lediglich einem Rückgang der Erfolgsrate von 0,6 % im SIMPLER-Benchmark.
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Erfolge erzielt, leiden jedoch oft darunter, unnötige und ausführliche Reasoning-Ketten zu produzieren. Wir identifizieren einen Kernaspekt dieses Problems als „ungültiges Denken“ – Modelle neigen dazu, ihre Arbeit wiederholt zu überprüfen, nachdem sie die richtige Antwort abgeleitet haben. Um diese spezifische Ineffizienz zu beheben, gehen wir über die allgemeinen Prinzipien von Effektivität und Effizienz hinaus und schlagen zwei neue, fein abgestimmte Prinzipien vor: Kürze, die die Beseitigung von Redundanz befürwortet, und Ausreichendheit, die sicherstellt, dass kritische Reasoning-Schritte erhalten bleiben. Angeleitet von diesen Prinzipien führen wir LC-R1 ein, eine Post-Training-Methode basierend auf Group Relative Policy Optimization (GRPO). LC-R1 verwendet eine neuartige Kombination aus einem Längen-Belohnungssystem für allgemeine Prägnanz und einem Kompressions-Belohnungssystem, das speziell darauf ausgelegt ist, den ungültigen Teil des Denkprozesses zu entfernen. Umfangreiche Experimente auf mehreren Reasoning-Benchmarks zeigen, dass LC-R1 eine signifikante Reduzierung der Sequenzlänge (~50%) bei nur einem marginalen (~2%) Genauigkeitsverlust erreicht und damit einen günstigen Kompromiss auf der Pareto-Front erzielt, der eine hohe Kompression priorisiert. Unsere Analyse bestätigt weiterhin die Robustheit von LC-R1 und liefert wertvolle Erkenntnisse für die Entwicklung leistungsfähigerer und gleichzeitig recheneffizienterer LRMs. Unser Code ist unter https://github.com/zxiangx/LC-R1 veröffentlicht.
Wir stellen xbench vor, eine dynamische, berufsbezogene Evaluationssuite, die darauf abzielt, die Lücke zwischen den Fähigkeiten von KI-Agenten und der realen Produktivität zu schließen. Während bestehende Benchmarks oft auf isolierte technische Fähigkeiten fokussieren, spiegeln sie möglicherweise nicht genau den wirtschaftlichen Wert wider, den Agenten in professionellen Umgebungen liefern. Um dies zu adressieren, zielt xbench auf kommerziell bedeutende Domänen ab, wobei die Evaluationsaufgaben von Branchenexperten definiert werden. Unser Framework erstellt Metriken, die stark mit dem Produktivitätswert korrelieren, ermöglicht die Vorhersage von Technology-Market Fit (TMF) und erleichtert die Verfolgung von Produktfähigkeiten über die Zeit. Als unsere ersten Implementierungen präsentieren wir zwei Benchmarks: Rekrutierung und Marketing. Für die Rekrutierung sammeln wir 50 Aufgaben aus realen Headhunting-Szenarien, um die Fähigkeiten der Agenten in den Bereichen Unternehmensmapping, Informationsbeschaffung und Talentsuche zu bewerten. Für das Marketing bewerten wir die Fähigkeit der Agenten, Influencer mit den Bedürfnissen von Werbetreibenden abzugleichen, indem wir ihre Leistung anhand von 50 Werbetreibendenanforderungen in einem kuratierten Pool von 836 Kandidaten-Influencern bewerten. Wir präsentieren erste Evaluationsergebnisse für führende zeitgenössische Agenten und etablieren damit eine Baseline für diese professionellen Domänen. Unsere kontinuierlich aktualisierten Evaluationsdatensätze und Bewertungen sind unter https://xbench.org verfügbar.
Die Fähigkeit großer Sprachmodelle (LLMs), externe Werkzeuge zu nutzen, ermöglicht es ihnen, eine zunehmend vielfältige Palette von Aufgaben zu bewältigen. Allerdings können bei komplexeren und langfristigen Aufgaben die komplizierten Prozesse der Werkzeugnutzung verschiedene unerwartete Fehler auslösen. Daher ist die effektive Handhabung solcher Fehler, einschließlich ihrer Identifizierung, Diagnose und Behebung, zu einem zentralen Forschungsziel für die Weiterentwicklung des Werkzeuglernens geworden. In dieser Arbeit analysieren wir zunächst umfassend die Arten von Fehlern, die während des Funktionsaufrufprozesses in mehreren wettbewerbsfähigen Werkzeug-Evaluierungs-Benchmarks auftreten. Basierend darauf stellen wir CRITICTOOL vor, einen umfassenden Kritik-Evaluierungs-Benchmark, der speziell für das Werkzeuglernen entwickelt wurde. Aufbauend auf einer neuartigen evolutionären Strategie zur Datensatzerstellung, enthält CRITICTOOL diverse Werkzeugnutzungsfehler mit unterschiedlichen Komplexitäten, die realistische Szenarien besser widerspiegeln. Wir führen umfangreiche Experimente auf CRITICTOOL durch und validieren die Generalisierungsfähigkeit und Effektivität unserer konstruierten Benchmark-Strategie. Zudem bieten wir eine detaillierte Analyse der Fähigkeit zur Werkzeugreflexion bei verschiedenen LLMs, was eine neue Perspektive auf das Feld des Werkzeuglernens in LLMs eröffnet. Der Code ist verfügbar unter https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
Wir zeigen, wie man qualitativ minderwertige, synthetische und außerhalb der Verteilung liegende Bilder nutzen kann, um die Qualität eines Diffusionsmodells zu verbessern. Typischerweise werden Diffusionsmodelle auf kuratierten Datensätzen trainiert, die aus stark gefilterten Datenpools des Webs und anderen Quellen stammen. Wir zeigen, dass die oft verworfenen, qualitativ niedrigeren Bilder einen immensen Wert besitzen. Wir präsentieren Ambient Diffusion Omni, ein einfaches, prinzipielles Framework, um Diffusionsmodelle zu trainieren, die während des Trainings Signale aus allen verfügbaren Bildern extrahieren können. Unser Framework nutzt zwei Eigenschaften natürlicher Bilder – das spektrale Potenzgesetz des Leistungsabfalls und die Lokalität. Wir validieren unser Framework zunächst, indem wir Diffusionsmodelle erfolgreich mit Bildern trainieren, die synthetisch durch Gaußsche Unschärfe, JPEG-Kompression und Bewegungsunschärfe verfälscht wurden. Anschließend verwenden wir unser Framework, um state-of-the-art ImageNet FID zu erreichen, und zeigen signifikante Verbesserungen sowohl in der Bildqualität als auch in der Vielfalt für die Text-zu-Bild-Generierung. Die zentrale Erkenntnis ist, dass Rauschen die anfängliche Schiefe zwischen der gewünschten hochqualitativen Verteilung und der gemischten Verteilung, die wir tatsächlich beobachten, dämpft. Wir liefern eine strenge theoretische Begründung für unseren Ansatz, indem wir den Kompromiss zwischen dem Lernen aus verzerrten Daten gegenüber begrenzten unverzerrten Daten über verschiedene Diffusionszeiten hinweg analysieren.
Wir untersuchen die Herausforderung der theoretisch fundierten Merkmalsrückgewinnung mithilfe von Sparse Autoencodern (SAEs) zur Interpretation von Large Language Models. Bisherige SAE-Trainingsalgorithmen verfügen oft nicht über rigorose mathematische Garantien und leiden unter praktischen Einschränkungen wie Hyperparameterempfindlichkeit und Instabilität. Um diese Probleme zu adressieren, schlagen wir zunächst ein neuartiges statistisches Rahmenwerk für das Problem der Merkmalsrückgewinnung vor, das ein neues Konzept der Merkmalsidentifizierbarkeit beinhaltet, indem polysemantische Merkmale als spärliche Mischungen zugrunde liegender monosemantischer Konzepte modelliert werden. Aufbauend auf diesem Rahmenwerk führen wir einen neuen SAE-Trainingsalgorithmus ein, der auf „Bias-Adaptation“ basiert, einer Technik, die die Bias-Parameter von neuronalen Netzen adaptiv anpasst, um eine angemessene Aktivierungssparsität zu gewährleisten. Wir beweisen theoretisch, dass dieser Algorithmus alle monosemantischen Merkmale korrekt zurückgewinnt, wenn die Eingabedaten aus unserem vorgeschlagenen statistischen Modell stammen. Darüber hinaus entwickeln wir eine verbesserte empirische Variante, die Group Bias Adaptation (GBA), und demonstrieren ihre überlegene Leistung im Vergleich zu Benchmark-Methoden bei der Anwendung auf LLMs mit bis zu 1,5 Milliarden Parametern. Diese Arbeit stellt einen grundlegenden Schritt dar, um das Training von SAEs zu entmystifizieren, indem sie den ersten SAE-Algorithmus mit theoretischen Rückgewinnungsgarantien liefert und dadurch die Entwicklung transparenterer und vertrauenswürdiger KI-Systeme durch verbesserte mechanistische Interpretierbarkeit vorantreibt.
Das rasche Aufkommen verschiedener großer Sprachmodelle (LLMs) hat die Entwicklung von LLM-Routern vorangetrieben, die Benutzeranfragen dem am besten geeigneten Modell zuweisen. Bisherige LLM-Router führen jedoch typischerweise eine einstufige, eins-zu-eins-Zuordnung durch (d. h., jede Anfrage wird isoliert einem einzelnen Modell zugewiesen), was ihre Fähigkeit einschränkt, komplexe Aufgaben zu bewältigen, die die komplementären Stärken mehrerer LLMs erfordern. In diesem Artikel stellen wir Router-R1 vor, ein auf Reinforcement Learning (RL) basierendes Framework, das das Routing und die Aggregation mehrerer LLMs als sequenziellen Entscheidungsprozess formuliert. Router-R1 implementiert den Router selbst als ein leistungsfähiges LLM, nutzt dessen Fähigkeit zum logischen Denken, um „Denk“-Aktionen (interne Überlegungen) mit „Routing“-Aktionen (dynamische Modellaufrufe) zu verknüpfen, und integriert jede Antwort in seinen sich entwickelnden Kontext. Um das Lernen zu steuern, verwenden wir eine leichtgewichtige, regelbasierte Belohnung, die Formatbelohnungen, Endergebnisbelohnungen und eine neuartige Kostenbelohnung zur Optimierung des Leistungs-Kosten-Verhältnisses umfasst, wodurch ein Weg zur Optimierung von Leistungs-Kosten-Abwägungen über RL eröffnet wird. Router-R1 berücksichtigt zudem nur einfache Modellbeschreibungen wie Preise, Latenz und Beispielleistungen, was eine starke Generalisierung auf unbekannte Modellauswahlen ermöglicht. Experimente auf sieben allgemeinen und Multi-Hop-QA-Benchmarks zeigen, dass Router-R1 mehrere starke Baselines übertrifft, eine überlegene Leistung erzielt und dabei eine robuste Generalisierung und Kostenkontrolle beibehält. Der Code ist verfügbar unter https://github.com/ulab-uiuc/Router-R1.
Die räumlich-zeitliche Lokalisierung ist entscheidend für präzise Interaktionen in verschiedenen Bereichen, von der biologischen Forschung über die autonome Navigation bis hin zu interaktiven Schnittstellen. Aktuelle videobasierte Ansätze, obwohl sie in der Verfolgung von Objekten kompetent sind, verfügen nicht über die ausgefeilten Fähigkeiten zur Schlussfolgerung, die große Sprachmodelle bieten, was ihr kontextuelles Verständnis und ihre Generalisierungsfähigkeit einschränkt. Wir stellen VideoMolmo vor, ein großes multimodales Modell, das für die feinkörnige räumlich-zeitliche Lokalisierung auf der Grundlage von Textbeschreibungen entwickelt wurde. Basierend auf der Molmo-Architektur integriert VideoMolmo ein temporales Modul, das einen Aufmerksamkeitsmechanismus nutzt, um jedes Bild auf vorherige Bilder zu konditionieren und so zeitliche Konsistenz zu gewährleisten. Zusätzlich verwendet unsere neuartige Pipeline zur temporalen Maskenfusion SAM2 für die bidirektionale Punktpropagation, was die Kohärenz über Videosequenzen hinweg erheblich verbessert. Diese zweistufige Zerlegung, d.h. zunächst die Verwendung des Sprachmodells zur Erzeugung präziser Lokalisierungskoordinaten, gefolgt von einem sequenziellen Maskenfusionsmodul zur Erzeugung kohärenter Segmentierung, vereinfacht nicht nur die Aufgabe für das Sprachmodell, sondern erhöht auch die Interpretierbarkeit. Aufgrund des Mangels an geeigneten Datensätzen haben wir einen umfassenden Datensatz mit 72.000 Video-Beschreibungs-Paaren kuratiert, die mit 100.000 Objektpunkten annotiert sind. Um die Generalisierungsfähigkeit von VideoMolmo zu bewerten, führen wir VPoS-Bench ein, einen herausfordernden Out-of-Distribution-Benchmark, der fünf reale Szenarien abdeckt: Zellverfolgung, egozentrische Vision, autonomes Fahren, Video-GUI-Interaktion und Robotik. Wir bewerten unser Modell auch anhand von Referring Video Object Segmentation (Refer-VOS) und Reasoning VOS Aufgaben. Im Vergleich zu bestehenden Modellen verbessert VideoMolmo die räumlich-zeitliche Lokalisierungsgenauigkeit und die Fähigkeit zur Schlussfolgerung erheblich. Unser Code und unsere Modelle sind öffentlich unter https://github.com/mbzuai-oryx/VideoMolmo verfügbar.
Wir stellen AgentSynth vor, eine skalierbare und kosteneffiziente Pipeline zur automatischen Synthese hochwertiger Aufgaben und Trajektorien-Datensätze für generalistische Computer-Nutzungs-Agenten. Durch die Nutzung von Informationsasymmetrie konstruiert AgentSynth Teilaufgaben, die während der Generierung einfach sind, aber deutlich anspruchsvoller werden, wenn sie zu langfristigen Aufgaben zusammengesetzt werden. Dies ermöglicht die Erstellung von über 6.000 vielfältigen und realistischen Aufgaben. Unsere Pipeline beginnt mit einem auf einer Persona basierenden LLM-Aufgabenplaner, gefolgt von einem Ausführungsagenten, der die Aufgabe abschließt und die Trajektorie protokolliert. Dieser Prozess wird iterativ wiederholt, um eine Sequenz von Teilaufgaben zu bilden, die dann von einem separaten Agenten zu einer zusammengesetzten Aufgabe mit kontrollierbarer Schwierigkeit zusammengefasst werden. Eine wesentliche Stärke von AgentSynth ist die Fähigkeit, die Aufgabenkomplexität präzise zu modulieren, indem die Anzahl der Teilaufgaben variiert wird. Empirische Auswertungen zeigen, dass state-of-the-art LLM-Agenten einen starken Leistungsabfall aufweisen, von 18 % Erfolgsquote bei Schwierigkeitsgrad 1 auf nur 4 % bei Grad 6, was die Schwierigkeit und die diskriminative Kraft des Benchmarks unterstreicht. Darüber hinaus erreicht unsere Pipeline durchschnittliche Kosten von 0,60 US-Dollar pro Trajektorie, was um Größenordnungen günstiger ist als menschliche Annotationen. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/sunblaze-ucb/AgentSynth.
Wir präsentieren Ring-lite, ein auf Mixture-of-Experts (MoE) basierendes großes Sprachmodell, das durch Reinforcement Learning (RL) optimiert wurde, um effiziente und robuste Fähigkeiten zur logischen Schlussfolgerung zu erreichen. Aufbauend auf dem öffentlich verfügbaren Ling-lite-Modell, einem Modell mit 16,8 Milliarden Parametern und 2,75 Milliarden aktivierten Parametern, erreicht unser Ansatz die Leistung von state-of-the-art (SOTA) Modellen für logische Schlussfolgerung in kleinem Maßstab auf anspruchsvollen Benchmarks (z. B. AIME, LiveCodeBench, GPQA-Diamond), während nur ein Drittel der Parameter aktiviert wird, die vergleichbare Modelle benötigen. Um dies zu erreichen, führen wir eine gemeinsame Trainingspipeline ein, die Destillation mit RL integriert und bisher nicht dokumentierte Herausforderungen im RL-Training von MoE-Modellen aufdeckt. Erstens identifizieren wir Optimierungsinstabilitäten während des RL-Trainings und schlagen Constrained Contextual Computation Policy Optimization (C3PO) vor, einen neuartigen Ansatz, der die Trainingsstabilität verbessert und den Rechendurchsatz durch eine Algorithmus-System-Co-Design-Methodik steigert. Zweitens zeigen wir empirisch, dass die Auswahl von Destillations-Checkpoints basierend auf dem Entropieverlust für das RL-Training, anstelle von Validierungsmetriken, überlegene Leistungs-Effizienz-Kompromisse im nachfolgenden RL-Training liefert. Schließlich entwickeln wir ein zweistufiges Trainingsparadigma, um die Integration von Multi-Domain-Daten zu harmonisieren und Domänenkonflikte zu adressieren, die beim Training mit gemischten Datensätzen auftreten. Wir werden das Modell, den Datensatz und den Code veröffentlichen.
Die Simulation menschlicher Mobilität spielt eine entscheidende Rolle in verschiedenen realen Anwendungen. Kürzlich haben Forscher, um die Grenzen traditioneller datengetriebener Ansätze zu überwinden, untersucht, wie das Alltagswissen und die Denkfähigkeiten großer Sprachmodelle (LLMs) genutzt werden können, um die Simulation menschlicher Mobilität zu beschleunigen. Diese Methoden leiden jedoch unter mehreren kritischen Schwächen, darunter eine unzureichende Modellierung urbaner Räume und eine schlechte Integration sowohl individueller Mobilitätsmuster als auch kollektiver Mobilitätsverteilungen. Um diese Herausforderungen zu bewältigen, schlagen wir das CityGPT-Powered Agentic Framework for Mobility Simulation (CAMS) vor, ein agentenbasiertes Framework, das das sprachbasierte urbane Grundlagenmodell nutzt, um menschliche Mobilität im urbanen Raum zu simulieren. CAMS besteht aus drei Kernmodulen: MobExtractor, um Vorlagen für Mobilitätsmuster zu extrahieren und neue basierend auf Benutzerprofilen zu synthetisieren, GeoGenerator, um Ankerpunkte unter Berücksichtigung kollektiven Wissens zu generieren und Kandidaten für urbane geografische Kenntnisse mithilfe einer erweiterten Version von CityGPT zu erzeugen, sowie TrajEnhancer, um räumliches Wissen basierend auf Mobilitätsmustern abzurufen und Trajektorien mit echter Trajektorienpräferenzausrichtung über DPO zu generieren. Experimente mit realen Datensätzen zeigen, dass CAMS eine überlegene Leistung erzielt, ohne auf extern bereitgestellte geografische Informationen angewiesen zu sein. Darüber hinaus generiert CAMS durch die ganzheitliche Modellierung sowohl individueller Mobilitätsmuster als auch kollektiver Mobilitätsbeschränkungen realistischere und plausiblere Trajektorien. Im Allgemeinen etabliert CAMS ein neues Paradigma, das das agentenbasierte Framework mit urban-kundigen LLMs für die Simulation menschlicher Mobilität integriert.
Wir untersuchen Suffix-basierte Jailbreaks – eine mächtige Familie von Angriffen auf große Sprachmodelle (LLMs), die adversarische Suffixe optimieren, um Sicherheitsausrichtungen zu umgehen. Mit Fokus auf den weit verbreiteten grundlegenden GCG-Angriff (Zou et al., 2023) beobachten wir, dass Suffixe in ihrer Wirksamkeit variieren: einige sind deutlich universeller – sie generalisieren auf viele ungesehene schädliche Anweisungen – als andere. Wir zeigen zunächst, dass die Wirksamkeit von GCG durch einen oberflächlichen, kritischen Mechanismus angetrieben wird, der auf dem Informationsfluss vom adversarischen Suffix zu den finalen Chat-Template-Token vor der Generierung basiert. Durch die Quantifizierung der Dominanz dieses Mechanismus während der Generierung stellen wir fest, dass GCG den Kontextualisierungsprozess unregelmäßig und aggressiv übernimmt. Entscheidend ist, dass wir diese Übernahme mit dem Universalitätsphänomen verknüpfen, wobei universellere Suffixe stärkere Übernehmer sind. Anschließend zeigen wir, dass diese Erkenntnisse praktische Implikationen haben: Die Universalität von GCG kann effizient gesteigert werden (in einigen Fällen bis zu fünfmal) ohne zusätzlichen Rechenaufwand und kann auch gezielt gemildert werden, wodurch der Angriffserfolg mindestens halbiert wird bei minimalem Nutzenverlust. Wir veröffentlichen unseren Code und unsere Daten unter http://github.com/matanbt/interp-jailbreak.
Eine der tiefgreifendsten Herausforderungen des modernen maschinellen Lernens besteht darin, gute Leistungen im langen Schwanz seltener und unterrepräsentierter Merkmale zu erzielen. Große, allgemeine Modelle werden für viele Aufgaben trainiert, funktionieren jedoch am besten bei häufig auftretenden Anwendungsfällen. Nach dem Training ist es schwierig, ein Modell so anzupassen, dass es bei spezifischen Anwendungsfällen, die im Trainingskorpus unterrepräsentiert sind, gute Leistungen erbringt. Sich auf Prompt-Engineering oder Few-Shot-Beispiele zu verlassen, um die Ausgabequalität bei einem bestimmten Testfall zu maximieren, kann frustrierend sein, da Modelle äußerst empfindlich auf kleine Änderungen reagieren, unvorhergesehene Reaktionen zeigen oder auf einen festen System-Prompt angewiesen sein können, um die Leistung aufrechtzuerhalten. In dieser Arbeit stellen wir die Frage: „Können wir unsere Trainingsprotokolle so optimieren, dass sowohl die Steuerbarkeit als auch die Leistung bei unterrepräsentierten Anwendungsfällen zur Inferenzzeit verbessert wird?“ Wir untersuchen erneut die Kluft zwischen Trainings- und Inferenztechniken, um die Leistung im langen Schwanz zu verbessern und den Benutzern gleichzeitig eine Reihe von Steuerhebeln zur Verfügung zu stellen, auf die das Modell trainiert ist, zu reagieren. Wir erstellen eine detaillierte Taxonomie von Datenmerkmalen und Aufgabenherkunft, um Generierungsattribute explizit zu steuern und Generierungen implizit zur Inferenzzeit zu konditionieren. Wir feintunen ein Basismodell, um diese Marker automatisch zu inferieren, was sie zur Inferenzzeit optional macht. Dieser prinzipielle und flexible Ansatz führt zu deutlichen Verbesserungen der Leistung, insbesondere bei Beispielen aus dem langen Schwanz der Trainingsverteilung. Während wir eine durchschnittliche Steigerung der Gewinnraten von 5,7 % bei der Qualität der offenen Generierung mit unseren Markern beobachten, sehen wir über 9,1 % Gewinne in unterrepräsentierten Domänen. Wir beobachten auch relative Steigerungen von bis zu 14,1 % bei unterrepräsentierten Aufgaben wie CodeRepair und absolute Verbesserungen von 35,3 % bei Bewertungen zur Befolgung von Längeninstruktionen.
Alignment ist kein Luxus mehr, sondern eine Notwendigkeit. Da große Sprachmodelle (LLMs) in hochriskante Bereiche wie Bildung, Gesundheitswesen, Regierungsführung und Recht vordringen, muss ihr Verhalten zuverlässig menschlich ausgerichtete Werte und Sicherheitsanforderungen widerspiegeln. Dennoch stützen sich aktuelle Bewertungen stark auf Verhaltensindikatoren wie Ablehnungsraten, G-Eval-Scores und Toxizitätsklassifikatoren, die alle kritische Schwachstellen aufweisen. Ausgerichtete Modelle sind oft anfällig für Jailbreaking, die Stochastizität der Generierung und Alignment-Fälschungen. Um dieses Problem zu lösen, führen wir den Alignment Quality Index (AQI) ein. Diese neuartige, geometrische und prompt-invariante Metrik bewertet die Ausrichtung von LLMs empirisch, indem sie die Trennung sicherer und unsicherer Aktivierungen im latenten Raum analysiert. Durch die Kombination von Maßen wie dem Davies-Bouldin-Score (DBS), dem Dunn-Index (DI), dem Xie-Beni-Index (XBI) und dem Calinski-Harabasz-Index (CHI) in verschiedenen Formulierungen erfasst der AQI die Clusterqualität, um versteckte Fehlausrichtungen und Jailbreak-Risiken zu erkennen, selbst wenn die Ausgaben konform erscheinen. Der AQI dient auch als Frühwarnsignal für Alignment-Fälschungen und bietet ein robustes, dekodierungsinvariantes Werkzeug für verhaltensunabhängige Sicherheitsprüfungen. Zusätzlich schlagen wir den LITMUS-Datensatz vor, um eine robuste Bewertung unter diesen herausfordernden Bedingungen zu ermöglichen. Empirische Tests mit LITMUS an verschiedenen Modellen, die unter DPO-, GRPO- und RLHF-Bedingungen trainiert wurden, zeigen die Korrelation des AQI mit externen Bewertungen und seine Fähigkeit, Schwachstellen aufzudecken, die von Ablehnungsmetriken übersehen werden. Wir stellen unsere Implementierung öffentlich zur Verfügung, um zukünftige Forschung in diesem Bereich zu fördern.
In-context Reinforcement Learning (ICRL) hat sich als vielversprechendes Paradigma etabliert, um RL-Agenten durch Prompt-Konditionierung an nachgelagerte Aufgaben anzupassen. Dennoch bleiben zwei wesentliche Herausforderungen bestehen, um In-context Learning in RL-Domänen vollständig nutzbar zu machen: die inhärente Multimodalität der Zustand-Aktion-Belohnungs-Daten und die vielfältige, heterogene Natur von Entscheidungsaufgaben. Um diese Herausforderungen zu bewältigen, schlagen wir T2MIR (Token- und Task-wise MoE für In-context RL) vor, ein innovatives Framework, das architektonische Fortschritte im Bereich Mixture-of-Experts (MoE) in transformerbasierte Entscheidungsmodelle einführt. T2MIR ersetzt die Feedforward-Schicht durch zwei parallele Schichten: ein token-weises MoE, das unterschiedliche Semantiken von Eingabe-Tokens über mehrere Modalitäten hinweg erfasst, und ein task-weises MoE, das verschiedene Aufgaben an spezialisierte Experten weiterleitet, um eine breite Aufgabenverteilung mit reduzierten Gradientenkonflikten zu bewältigen. Um das task-weise Routing zu verbessern, führen wir eine kontrastive Lernmethode ein, die die gegenseitige Information zwischen der Aufgabe und ihrer Router-Repräsentation maximiert und so eine präzisere Erfassung aufgabenrelevanter Informationen ermöglicht. Die Ausgaben der beiden MoE-Komponenten werden verkettet und in die nächste Schicht eingespeist. Umfassende Experimente zeigen, dass T2MIR die In-context-Lernfähigkeit signifikant fördert und verschiedene Arten von Baselines übertrifft. Wir bringen das Potenzial und die Versprechen von MoE in die ICRL ein und bieten eine einfache und skalierbare architektonische Verbesserung, um ICRL einen Schritt näher an die Erfolge in den Bereichen Sprache und Vision zu bringen. Unser Code ist verfügbar unter https://github.com/NJU-RL/T2MIR.
Von Mücken übertragene Krankheiten stellen ein erhebliches globales Gesundheitsrisiko dar, das eine frühzeitige Erkennung und proaktive Kontrolle von Brutstätten erfordert, um Ausbrüche zu verhindern. In diesem Artikel präsentieren wir VisText-Mosquito, einen multimodalen Datensatz, der visuelle und textuelle Daten integriert, um die automatisierte Erkennung, Segmentierung und Schlussfolgerung für die Analyse von Mückenbrutstätten zu unterstützen. Der Datensatz umfasst 1.828 annotierte Bilder für die Objekterkennung, 142 Bilder für die Segmentierung von Wasseroberflächen und natürlichsprachliche Texte zur Schlussfolgerung, die mit jedem Bild verknüpft sind. Das YOLOv9s-Modell erreicht die höchste Präzision von 0,92926 und einen mAP@50 von 0,92891 für die Objekterkennung, während YOLOv11n-Seg eine Segmentierungspräzision von 0,91587 und einen mAP@50 von 0,79795 erreicht. Für die Generierung von Schlussfolgerungen erreicht unser feinabgestimmtes BLIP-Modell einen finalen Verlust von 0,0028, mit einem BLEU-Score von 54,7, einem BERTScore von 0,91 und einem ROUGE-L von 0,87. Dieser Datensatz und das Modellrahmenwerk betonen das Thema „Vorbeugen ist besser als Heilen“ und zeigen, wie KI-basierte Erkennung proaktiv die Risiken von durch Mücken übertragenen Krankheiten angehen kann. Der Datensatz und der Implementierungscode sind öffentlich auf GitHub verfügbar: https://github.com/adnanul-islam-jisun/VisText-Mosquito.
Diese Arbeit präsentiert ein generalisierbares Framework, um relative Tiefe in metrische Tiefe zu übertragen. Aktuelle Methoden zur monokularen Tiefenschätzung lassen sich hauptsächlich in metrische Tiefenschätzung (MMDE) und relative Tiefenschätzung (MRDE) unterteilen. MMDEs schätzen die Tiefe in metrischem Maßstab, sind jedoch oft auf einen spezifischen Bereich beschränkt. MRDEs generalisieren gut über verschiedene Bereiche hinweg, jedoch mit unsicheren Skalen, was nachgelagerte Anwendungen behindert. Daher zielen wir darauf ab, ein Framework zu entwickeln, das die Skalenunsicherheit löst und relative Tiefe in metrische Tiefe überträgt. Bisherige Methoden verwendeten Sprache als Eingabe und schätzten zwei Faktoren für die Neuskalierung. Unser Ansatz, TR2M, nutzt sowohl Textbeschreibungen als auch Bilder als Eingaben und schätzt zwei Neuskalierungskarten, um relative Tiefe auf Pixelebene in metrische Tiefe zu übertragen. Merkmale aus beiden Modalitäten werden mit einem Cross-Modality-Attention-Modul fusioniert, um Skaleninformationen besser zu erfassen. Eine Strategie wurde entwickelt, um vertrauenswürdige pseudo-metrische Tiefe zu konstruieren und zu filtern, um eine umfassendere Überwachung zu ermöglichen. Wir entwickeln auch skalierungsorientiertes kontrastives Lernen, um die Tiefenverteilung als Leitfaden zu nutzen und das Modell dazu zu bringen, intrinsisches Wissen zu erlernen, das mit der Skalenverteilung übereinstimmt. TR2M nutzt nur eine geringe Anzahl trainierbarer Parameter, um auf Datensätzen in verschiedenen Bereichen zu trainieren, und Experimente zeigen nicht nur die hervorragende Leistung von TR2M auf bekannten Datensätzen, sondern auch überragende Zero-Shot-Fähigkeiten auf fünf unbekannten Datensätzen. Wir zeigen das enorme Potenzial der pixelweisen Übertragung von relativer Tiefe in metrische Tiefe mit Sprachunterstützung. (Der Code ist verfügbar unter: https://github.com/BeileiCui/TR2M)
Open-Source-Foundation-Modelle haben eine rasche Verbreitung und Entwicklung erfahren und ermöglichen leistungsstarke, allgemeine Fähigkeiten in verschiedenen Domänen. Das Feinabstimmen großer Foundation-Modelle für domänenspezifische oder personalisierte Aufgaben bleibt jedoch für die meisten Nutzer aufgrund des erheblichen Speicherbedarfs, der über den für die Inferenz erforderlichen hinausgeht, unerschwinglich teuer. Wir stellen EMLoC vor, ein emulatorbasiertes, speichereffizientes Feinabstimmungsframework mit LoRA-Korrektur, das die Feinabstimmung von Modellen innerhalb des gleichen Speicherbudgets ermöglicht, das für die Inferenz benötigt wird. EMLoC konstruiert einen aufgabenbezogenen, leichtgewichtigen Emulator mithilfe einer aktivierungsbewussten Singulärwertzerlegung (SVD) auf einem kleinen Downstream-Kalibrierungssatz. Die Feinabstimmung wird dann über LoRA auf diesem leichtgewichtigen Emulator durchgeführt. Um die Fehlausrichtung zwischen dem ursprünglichen Modell und dem komprimierten Emulator zu beheben, schlagen wir einen neuartigen Kompensationsalgorithmus vor, um das feinabgestimmte LoRA-Modul zu korrigieren, das somit in das ursprüngliche Modell für die Inferenz integriert werden kann. EMLoC unterstützt flexible Kompressionsraten und standardisierte Trainingspipelines, was es für eine Vielzahl von Anwendungen anpassbar macht. Umfangreiche Experimente zeigen, dass EMLoC andere Baselines über mehrere Datensätze und Modalitäten hinweg übertrifft. Darüber hinaus ermöglicht EMLoC ohne Quantisierung die Feinabstimmung eines 38B-Modells auf einer einzelnen 24GB-Consumer-GPU – und bringt so eine effiziente und praktische Modellanpassung für einzelne Nutzer.
Graph Retrieval Augmented Generation (GraphRAG) verbessert effektiv die Fähigkeiten zur Integration externen Wissens, indem es Wissensbeziehungen explizit modelliert und dadurch die faktische Genauigkeit und Generierungsqualität von Large Language Models (LLMs) in spezialisierten Domänen steigert. Allerdings weisen bestehende Methoden zwei inhärente Einschränkungen auf: 1) Ineffiziente Informationsaggregation: Sie verlassen sich auf einen einzelnen Agenten und feste iterative Muster, was es schwierig macht, mehrstufige textuelle, strukturelle und Grad-Informationen innerhalb von Graphdaten adaptiv zu erfassen. 2) Starres Reasoning-Mechanismus: Sie verwenden vordefinierte Reasoning-Schemata, die weder die Reasoning-Tiefe dynamisch anpassen noch eine präzise semantische Korrektur erreichen können. Um diese Einschränkungen zu überwinden, schlagen wir Graph Counselor vor, eine GraphRAG-Methode, die auf Multi-Agenten-Kollaboration basiert. Diese Methode nutzt das Adaptive Graph Information Extraction Module (AGIEM), in dem Planungs-, Denk- und Ausführungsagenten zusammenarbeiten, um komplexe Graphstrukturen präzise zu modellieren und Informationsextraktionsstrategien dynamisch anzupassen, wodurch die Herausforderungen der mehrstufigen Abhängigkeitsmodellierung und der adaptiven Reasoning-Tiefe bewältigt werden. Zusätzlich verbessert das Self-Reflection with Multiple Perspectives (SR)-Modul die Genauigkeit und semantische Konsistenz der Reasoning-Ergebnisse durch Selbstreflexion und Rückwärts-Reasoning-Mechanismen. Experimente zeigen, dass Graph Counselor bestehende Methoden in mehreren Graph-Reasoning-Aufgaben übertrifft und eine höhere Reasoning-Genauigkeit und Generalisierungsfähigkeit aufweist. Unser Code ist verfügbar unter https://github.com/gjq100/Graph-Counselor.git.
Die Implementierung großer, komplexer Strategien in der realen Welt erfordert die Fähigkeit, sie so zu steuern, dass sie den Anforderungen einer Situation gerecht werden. Die gängigsten Steuerungsansätze, wie zielbedingte Steuerung, erfordern das Training der Roboterstrategie mit einer Verteilung von Testzeitzielen im Hinterkopf. Um diese Einschränkung zu überwinden, präsentieren wir DynaGuide, eine Steuerungsmethode für Diffusionsstrategien, die während des Diffusionsentrauschungsprozesses eine Anleitung durch ein externes Dynamikmodell nutzt. DynaGuide trennt das Dynamikmodell von der Basispolitik, was mehrere Vorteile bietet, darunter die Fähigkeit, auf mehrere Ziele hin zu steuern, unterrepräsentierte Verhaltensweisen der Basispolitik zu verstärken und die Robustheit bei qualitativ minderwertigen Zielen zu bewahren. Das separate Anleitungssignal ermöglicht es DynaGuide auch, mit vorgefertigten, vortrainierten Diffusionsstrategien zu arbeiten. Wir demonstrieren die Leistung und die Merkmale von DynaGuide im Vergleich zu anderen Steuerungsansätzen in einer Reihe von simulierten und realen Experimenten und zeigen eine durchschnittliche Steuerungserfolgsrate von 70 % bei einer Reihe von artikulierten CALVIN-Aufgaben sowie eine 5,4-fache Überlegenheit gegenüber der zielbedingten Steuerung bei der Verwendung qualitativ minderwertiger Ziele. Wir steuern auch erfolgreich eine vorgefertigte Roboterstrategie in der realen Welt, um eine Präferenz für bestimmte Objekte auszudrücken und sogar neues Verhalten zu erzeugen. Videos und weitere Informationen finden Sie auf der Projektwebsite: https://dynaguide.github.io.