papers.description
Entgegen dem vorherrschenden Konsens, dass kleine Modelle inhärent keine robusten Denkfähigkeiten besitzen, stellt dieser Bericht VibeThinker-1.5B vor – ein dichtes Modell mit 1,5 Milliarden Parametern, das mittels unseres Spectrum-to-Signal-Prinzips (SSP) entwickelt wurde. Dies stellt den vorherrschenden Ansatz in Frage, Modellparameter zu skalieren, um Fähigkeiten zu verbessern, wie es bei Modellen wie DeepSeek R1 (671B) und Kimi k2 (>1B) zu beobachten ist. Das SSP-Framework wendet zunächst eine Two-Stage Diversity-Exploring Distillation (SFT) an, um ein breites Spektrum an Lösungen zu generieren, gefolgt von einer MaxEnt-Guided Policy Optimization (RL), um das korrekte Signal zu verstärken. Bei Gesamttrainingskosten von nur 7.800 US-Dollar demonstriert VibeThinker-1.5B überlegene Denkfähigkeiten im Vergleich zu Closed-Source-Modellen wie Magistral Medium und Claude Opus 4 und liegt auf Augenhöhe mit Open-Source-Modellen wie GPT OSS-20B Medium. Bemerkenswerterweise übertrifft es das 400-fach größere DeepSeek R1 in drei mathematischen Benchmarks: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) und HMMT25 (50,4 vs. 41,7). Dies stellt eine erhebliche Verbesserung gegenüber seinem Basismodell dar (6,7, 4,3 bzw. 0,6). Auf LiveCodeBench V6 erzielt es eine Punktzahl von 51,1 und übertrifft damit Magistral Medium (50,3) und sein Basismodell (0,0). Diese Ergebnisse zeigen, dass kleine Modelle Denkfähigkeiten erreichen können, die mit großen Modellen vergleichbar sind, was die Trainings- und Inferenzkosten drastisch senkt und damit fortschrittliche KI-Forschung demokratisiert.
Die Entwicklung zuverlässiger Computerbedienungsagenten erfordert Grounding: die präzise Verknüpfung natürlicher Sprachbefehle mit den korrekten Bildschirmelementen. Während umfangreiche Datensätze für Web- und Mobile-Interaktionen existieren, sind hochwertige Ressourcen für Desktop-Umgebungen begrenzt. Um diese Lücke zu schließen, stellen wir GroundCUA vor, einen groß angelegten Desktop-Grounding-Datensatz, der auf Experten-Demonstrationen basiert. Er umfasst 87 Anwendungen aus 12 Kategorien und beinhaltet 56.000 Bildschirmfotos, wobei jedes Bildschirmelement sorgfältig annotiert ist – insgesamt über 3,56 Millionen menschlich geprüfte Annotationen. Aus diesen Demonstrationen generieren wir vielfältige Befehle, die ein breites Spektrum realer Aufgaben abdecken und hochwertige Daten für das Modelltraining bereitstellen. Mit GroundCUA entwickeln wir die GroundNext-Modellfamilie, die Befehle auf ihre Ziel-UI-Elemente abbildet. Sowohl in 3B- als auch 7B-Größen erzielt GroundNext mittels supervised Fine-Tuning state-of-the-art Ergebnisse über fünf Benchmarks hinweg, benötigt dabei aber weniger als ein Zehntel der Trainingsdaten früherer Arbeiten. Reinforcement Learning nach dem Training verbessert die Leistung weiter, und in einer agentenbasierten Evaluation auf dem OSWorld-Benchmark mit o3 als Planer erreicht GroundNext vergleichbare oder überlegene Ergebnisse gegenüber Modellen, die mit erheblich mehr Daten trainiert wurden. Diese Ergebnisse demonstrieren die entscheidende Rolle hochwertiger, expertenbasierter Datensätze für die Weiterentwicklung universeller Computerbedienungsagenten.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in Konversationssystemen erzielt, indem sie menschenähnliche Antworten generieren. Allerdings können sie an Grenzen stoßen, insbesondere wenn es darum geht, Personalisierung oder spezifisches Wissen zu berücksichtigen. In realen Anwendungsszenarien ist es unpraktisch, sich darauf zu verlassen, dass Nutzer diese Fehler erkennen und eine neue Antwort anfordern. Ein Ansatz, dieses Problem zu lösen, besteht darin, die Antwort zu verfeinern, bevor sie an den Nutzer zurückgegeben wird. Während bestehende Methoden die Antwortverfeinerung innerhalb eines einzelnen LLMs betrachten, stößt dieser Ansatz an Grenzen, wenn es darum geht, die für effektive Gespräche notwendigen vielfältigen Aspekte zu berücksichtigen. In dieser Arbeit schlagen wir vor, Antworten durch ein Multi-Agenten-Framework zu verfeinern, wobei jedem Agenten eine spezifische Rolle für einen bestimmten Aspekt zugewiesen wird. Wir konzentrieren uns auf drei Schlüsselaspekte, die für die Konversationsqualität entscheidend sind: Faktizität, Personalisierung und Kohärenz. Jeder Agent ist dafür verantwortlich, einen dieser Aspekte zu überprüfen und zu verbessern, und ihr Feedback wird anschließend zusammengeführt, um die Gesamtantwort zu optimieren. Um die Zusammenarbeit zwischen ihnen zu verbessern, führen wir eine dynamische Kommunikationsstrategie ein. Anstatt einer festen Abfolge von Agenten zu folgen, wählt und koordiniert unser Ansatz adaptiv die relevantesten Agenten basierend auf den spezifischen Anforderungen jeder Anfrage. Wir validieren unser Framework anspruchsvollen Konversationsdatensätzen und zeigen, dass unser Ansatz relevante Baseline-Methoden signifikant übertrifft, insbesondere bei Aufgaben, die Wissen oder die Persönlichkeit des Nutzers oder beide betreffen.
Masked Diffusion Models haben wettbewerbsfähige Ergebnisse bei verschiedenen Aufgaben, einschließlich der Sprachgenerierung, gezeigt. Allerdings wird der Inferenzprozess aufgrund des iterativen Optimierungsverfahrens oft durch eine langsame und statische Abtastgeschwindigkeit limitiert. Um dieses Problem zu überwinden, führen wir `KL-Adaptive Stability Sampling' (KLASS) ein, eine schnelle und dennoch effektive Abtastmethode, die die tokenweise KL-Divergenz nutzt, um stabile Vorhersagen mit hoher Konfidenz zu identifizieren. Indem in jeder Iteration mehrere Token entschleiert werden, ohne dass ein zusätzliches Modelltraining erforderlich ist, beschleunigt unser Ansatz die Generierung erheblich, bei gleichbleibender Probenqualität. Auf Reasoning-Benchmarks erzielt KLASS bis zu 2,78-fache Beschleunigungen in der Echtzeit und übertrifft dabei die Leistung der standardmäßigen greedy-Decodierung, was zu state-of-the-art Ergebnissen unter diffusionsbasierten Samplern führt. Wir validieren KLASS weiterhin in verschiedenen Domänen, einschließlich Text-, Bild- und Molekülgenerierung, und zeigen dessen Wirksamkeit als ein breit anwendbarer Sampler für verschiedene Modelle.
Große Sprachmodelle haben die mehrsprachige maschinelle Übersetzung (MMT) erheblich vorangetrieben, doch die breite Sprachabdeckung, konsistente Übersetzungsqualität und englisch-zentrierte Verzerrung bleiben ungelöste Herausforderungen. Um diese Probleme anzugehen, stellen wir LMT vor – eine Reihe groß angelegter mehrsprachiger Übersetzungsmodelle, die sowohl auf Chinesisch als auch auf Englisch zentriert sind und 60 Sprachen sowie 234 Übersetzungsrichtungen abdecken. Während der Entwicklung identifizieren wir ein bisher übersehenes Phänomen der direktionalen Degeneration, bei dem symmetrische Multi-Way-Fine-Tuning-Daten die Rückwärtsrichtungen (X zu En/Zh) überbetonen, was zu übermäßigen Many-to-One-Abbildungen und verschlechterter Übersetzungsqualität führt. Wir schlagen Strategic Downsampling vor, eine einfache, aber effektive Methode zur Milderung dieser Degeneration. Zusätzlich entwickeln wir Parallel Multilingual Prompting (PMP), das typologisch verwandte Hilfssprachen nutzt, um den sprachübergreifenden Transfer zu verbessern. Durch rigorose Datenkuratierung und verfeinerte Adaptionsstrategien erzielt LMT state-of-the-art Leistungen unter Modellen mit vergleichbarer Sprachabdeckung, wobei unser 4B-Modell (LMT-60-4B) die deutlich größeren Modelle Aya-101-13B und NLLB-54B mit beträchtlichem Abstand übertrifft. Wir veröffentlichen LMT in vier Größen (0.6B/1.7B/4B/8B), um zukünftige Forschung zu katalysieren und starke Baselines für inklusive, skalierbare und hochwertige MMT bereitzustellen \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
Reinforcement Learning with Verifiable Rewards (RLVR) verbessert die Reasoning-Leistung großer Sprachmodelle zuverlässig, scheint jedoch nur einen kleinen Teil der Parameter zu verändern. Wir untersuchen dieses Paradoxon erneut und zeigen, dass die Sparsity ein oberflächliches Artefakt eines modellkonditionierten Optimierungs-Bias ist: Für ein festes vortrainiertes Modell lokalisieren sich Updates konsistent in bevorzugten Parameterregionen, die hochgradig konsistent über verschiedene Durchläufe und weitgehend invariant gegenüber Datensätzen und RL-Methoden sind. Wir erklären diese Dynamik mechanistisch mit einer Drei-Tore-Theorie: Tor I (KL-Anchor) erzwingt ein KL-beschränktes Update; Tor II (Modellgeometrie) lenkt den Schritt von den Hauptrichtungen in Unterräume mit geringer Krümmung, die das Spektrum erhalten; und Tor III (Präzision) verbirgt Mikro-Updates in nicht-bevorzugten Regionen, wodurch der Bias weg von den Hauptrichtungen als Sparsity erscheint. Wir validieren diese Theorie und liefern erstmals eine characterisierung der Lern dynamik von RLVR auf Parameter ebene: RLVR lernt abseits der Hauptrichtungen im Gewichtsraum und erzielt Gewinne durch minimale Spektralverschiebung, reduzierte Rotation im Hauptunterraum und Ausrichtung der Updates außerhalb der Hauptrichtungen. Im Gegensatz dazu zielt SFT auf die Hauptgewichte ab, verzerrt das Spektrum und liegt sogar hinter RLVR zurück. Zusammen bieten diese Ergebnisse die erste Beschreibung der Trainingsdynamik von RLVR im Parameterraum und enthüllen klare Regelmäßigkeiten in der Parameterentwicklung. Entscheidend ist, dass wir zeigen, dass RL in einem distincten Optimierungsregime gegenüber SFT operiert. Daher kann die direkte Anwendung von Parameter-effizienten Feinjustierungsmethoden (PEFT) aus der SFT-Ära fehlerhaft sein, wie unsere Fallstudien zu fortschrittlicher sparser Feinjustierung und LoRA-Varianten belegen. Wir hoffen, dass diese Arbeit einen Weg zu einem White-Box-Verständnis von RLVR und zum Design geometrie bewusster, RLVR-nativer Lernalgorithmen ebnet, anstatt auf Heuristiken aus der SFT-Ära zurückzugreifen.
Die Leistung von großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) hängt maßgeblich von der Qualität und dem Umfang ihrer Vortrainingsdatensätze ab. Jüngste Forschungsergebnisse zeigen, dass große multimodale Modelle, die mit natürlichen Dokumenten trainiert wurden, in denen Bilder und Text miteinander verwoben sind, Modelle, die nur mit Bild-Text-Paaren trainiert wurden, auf einer breiten Palette von Benchmarks übertreffen. Dies gelingt durch die Nutzung fortschrittlicher vortrainierter Modelle, um semantische Ausrichtung, Bild-Sequenz-Konsistenz und textuelle Kohärenz zu gewährleisten. Für das Arabische hat jedoch der Mangel an hochwertigen multimodalen Datensätzen, die die Dokumentenstruktur erhalten, den Fortschritt begrenzt. In diesem Artikel stellen wir unsere Pipeline Wasm zur Verarbeitung des Common-Crawl-Datensatzes vor, um einen neuen arabischen multimodalen Datensatz zu erstellen, der einzigartig Markdown-Ausgabe liefert. Im Gegensatz zu bestehenden arabischen Korpora, die sich ausschließlich auf Textextraktion konzentrieren, bewahrt unser Ansatz die strukturelle Integrität von Webinhalten und behält gleichzeitig die Flexibilität für reine Text- und multimodale Vortrainingsszenarien bei. Wir liefern eine umfassende vergleichende Analyse unserer Datenverarbeitungspipeline im Vergleich zu denen, die für große bestehende Datensätze verwendet werden, heben die Übereinstimmungen in den Filterstrategien hervor und begründen unsere spezifischen Designentscheidungen. Um zukünftige Forschung zu unterstützen, veröffentlichen wir öffentlich einen repräsentativen Datensatz-Auszug zusammen mit der multimodalen Verarbeitungspipeline für Arabisch.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Videoverständnisfähigkeiten multimodaler großer Sprachmodelle (MLLMs) erheblich verbessert. Der rasante Fortschritt von MLLMs übertrifft jedoch zunehmend die Komplexität bestehender Videodatensätze, während die manuelle Annotation neuer, hochwertiger Daten nach wie vor unverhältnismäßig teuer bleibt. Diese Arbeit untersucht eine zentrale Frage: Lässt sich die intrinsisch reichhaltige Information in Videos nutzen, um selbstständig hochwertige, verifizierbare Trainingsdaten zu generieren? Um dies zu erforschen, führen wir drei selbstüberwachte Pretext-Aufgaben ein: Anomaly Grounding, Object Counting und Temporal Jigsaw. Wir konstruieren den Video Intrinsic Understanding Benchmark (VIUBench), um deren Schwierigkeitsgrad zu validieren, und zeigen, dass aktuelle state-of-the-art MLLMs bei diesen Aufgaben erheblich scheitern. Aufbauend auf diesen Pretext-Aufgaben entwickeln wir den VideoSSR-30K-Datensatz und schlagen VideoSSR vor, einen neuartigen, selbstüberwachten Reinforcement-Learning-Rahmen für RLVR in Videos vor. Umfangreiche Experimente auf 17 Benchmarks, die vier große Videodomänen abdecken (General Video QA, Long Video QA, Temporal Grounding und Complex Reasoning), demonstrieren, dass VideoSSR die Modellleistung konsistent steigert und durchschnittlich eine Verbesserung von über 5 % erzielt. Diese Ergebnisse etablieren VideoSSR als ein leistungsstarkes Grundlagenframework für die Entwicklung fortschrittlicherer Videoverständnisfähigkeiten in MLLMs. Der Code ist verfügbar unter https://github.com/lcqysl/VideoSSR.
Große Sprachmodelle (LLMs) stehen vor grundlegenden Herausforderungen beim schlussfolgernden Denken über lange Kontexte: Viele Dokumente überschreiten ihre begrenzten Kontextfenster, während die Leistung bei Texten, die hineinpassen, mit der Sequenzlänge abnimmt. Dies macht ihre Erweiterung durch externe Speicherframeworks notwendig. Aktuelle Lösungen, die sich von der Retrievalnutzung semantischer Einbettungen zu anspruchsvolleren strukturierten Wissensgraphen-Repräsentationen für verbessertes Sinnverstehen und Assoziativität entwickelt haben, sind auf faktenbasiertes Retrieval zugeschnitten und scheitern daran, zeit-räumlich verankerte narrative Repräsentationen aufzubauen, die für die Verfolgung von Entitäten über episodische Ereignisse hinweg erforderlich sind. Um diese Lücke zu schließen, schlagen wir den Generativen Semantischen Arbeitsbereich (GSW) vor, ein neuroinspiriertes generatives Speicherframework, das strukturierte, interpretierbare Repräsentationen sich entwickelnder Situationen aufbaut und es LLMs ermöglicht, über sich wandelnde Rollen, Handlungen und raumzeitliche Kontexte zu schlussfolgern. Unser Framework besteht aus einem Operator, der eingehende Beobachtungen auf intermediäre semantische Strukturen abbildet, und einem Reconciliator, der diese in einen persistenten Arbeitsbereich integriert, der zeitliche, räumliche und logische Kohärenz erzwingt. Auf dem Episodic Memory Benchmark (EpBench) huet_episodic_2025, der Korpora mit Längen von 100k bis 1M Tokens umfasst, übertrifft GSW bestehende RAG-basierte Baseline-Modelle um bis zu 20 %. Darüber hinaus ist GSW hocheffizient und reduziert die Kontext-Tokens zur Abfragezeit um 51 % im Vergleich zur nächsttoken-effizientesten Baseline, was die Inferenzzeitkosten erheblich senkt. Weiter gefasst bietet GSW einen konkreten Bauplan, um LLMs mit einer dem menschlichen episodischen Gedächtnis ähnlichen Fähigkeit auszustatten und ebnet so den Weg für leistungsfähigere Agenten, die über lange Zeithorizonte hinweg schlussfolgern können.
Abfragen für große Sprachmodelle (LLM) werden überwiegend von hochleistungsfähigen Modellen in zentralisierter Cloud-Infrastruktur verarbeitet. Die schnell wachsende Nachfrage belastet dieses Paradigma, und Cloud-Anbieter haben Schwierigkeiten, die Infrastruktur im gleichen Tempo zu skalieren. Zwei Fortschritte ermöglichen es uns, dieses Paradigma zu überdenken: Kleine Sprachmodelle (≤20B aktive Parameter) erreichen bei vielen Aufgaben inzwischen eine mit Hochleistungsmodellen vergleichbare Leistung, und lokale Beschleuniger (z.B. Apple M4 Max) führen diese Modelle mit interaktiven Latenzen aus. Dies wirft die Frage auf: Kann die lokale Inferenz die Nachfrage von zentralisierter Infrastruktur tragfähig umverteilen? Um dies zu beantworten, muss gemessen werden, ob lokale Sprachmodelle reale Abfragen korrekt beantworten können und ob sie dies effizient genug tun, um auf leistungsbeschränkten Geräten (d.h. Laptops) praktikabel zu sein. Wir schlagen "Intelligenz pro Watt" (IPW) – die Aufgabengenauigkeit geteilt durch eine Einheit Leistungsaufnahme – als Metrik zur Bewertung der Fähigkeiten und Effizienz der lokalen Inferenz über Modell-Beschleuniger-Paare hinweg vor. Wir führen eine großangelegte empirische Studie mit über 20 modernen lokalen Sprachmodellen, 8 Beschleunigern und einer repräsentativen Teilmenge des LLM-Datenverkehrs durch: 1 Million reale Single-Turn-Chat- und Reasoning-Abfragen. Für jede Abfrage messen wir Genauigkeit, Energieverbrauch, Latenz und Leistungsaufnahme. Unsere Analyse ergibt drei Erkenntnisse. Erstens: Lokale Sprachmodelle können 88,7 % der Single-Turn-Chat- und Reasoning-Abfragen korrekt beantworten, wobei die Genauigkeit je nach Domäne variiert. Zweitens: Von 2023 bis 2025 verbesserte sich die IPW um das 5,3-Fache und die lokale Abdeckung von Abfragen stieg von 23,2 % auf 71,3 %. Drittens: Lokale Beschleuniger erreichen mindestens eine 1,4-fach niedrigere IPW als Cloud-Beschleuniger, die identische Modelle ausführen, was ein erhebliches Optimierungspotenzial offenbart. Diese Ergebnisse zeigen, dass die lokale Inferenz die Nachfrage von zentralisierter Infrastruktur spürbar umverteilen kann, wobei IPW als die entscheidende Metrik zur Verfolgung dieses Übergangs dient. Wir veröffentlichen unser IPW-Profiling-Tool für systematische Benchmarks zur Intelligenz pro Watt.
In modernen sequenziellen Entscheidungssystemen ist die Konstruktion eines optimalen Kandidaten-Aktionsraums entscheidend für eine effiziente Inferenz. Bisherige Ansätze verlassen sich jedoch entweder auf manuell definierte Aktionsräume, denen es an Skalierbarkeit mangelt, oder nutzen unstrukturierte Räume, die eine erschöpfende Suche rechenpraktisch undurchführbar machen. In diesem Artikel stellen wir ein neuartiges Framework namens DynaAct vor, das automatisch einen kompakten Aktionsraum konstruiert, um das sequenzielle Schließen in komplexen Problemszenarien zu verbessern. Unsere Methode schätzt zunächst einen Stellvertreter für den vollständigen Aktionsraum, indem allgemeine Skizzen extrahiert werden, die in einem Korpus mit verschiedenen komplexen Reasoning-Problemen mittels großer Sprachmodelle beobachtet wurden. Anschließend formulieren wir eine submodulare Funktion, die Kandidatenaktionen gemeinsam basierend auf ihrem Nutzen für den aktuellen Zustand und ihrer Diversität bewertet, und setzen einen greedy-Algorithmus ein, um eine optimale Kandidatenmenge auszuwählen. Umfangreiche Experimente auf sechs verschiedenen Standard-Benchmarks zeigen, dass unser Ansatz die Gesamtleistung signifikant verbessert, während eine effiziente Inferenz ohne wesentliche Latenz erhalten bleibt. Die Implementierung ist verfügbar unter https://github.com/zhaoxlpku/DynaAct.
Hintergrund: Große Sprachmodelle sind mit dem Potenzial aufgetaucht, eine Revolution in der Softwareentwicklung auszulösen (z.B. Automatisierung von Prozessen, Transformation der Arbeitskräfte). Obwohl Studien begonnen haben, die wahrgenommene Wirkung von LLMs auf die Softwareentwicklung zu untersuchen, besteht Bedarf an empirischen Studien, um zu verstehen, wie die Vorwärts- und Rückwärtseffekte der Nutzung von LLMs ausbalanciert werden können. Zielsetzung: Wir untersuchten, wie LLMs die Softwareentwicklung beeinflussen und wie die Auswirkungen aus der Perspektive eines Softwareentwicklers gesteuert werden können. Methode: Wir führten zwischen Oktober 2024 und September 2025 in drei Runden der Datenerhebung und -analyse 22 Interviews mit Softwarepraktikern durch. Für die Datenanalyse verwendeten wir die sozio-technische Grounded Theory (STGT), um die Antworten der Interviewteilnehmer rigoros auszuwerten. Ergebnisse: Wir identifizierten die Vorteile (z.B. Aufrechterhaltung des Softwareentwicklungsflusses, Verbesserung des mentalen Modells von Entwicklern und Förderung des Unternehmergeists) und Nachteile (z.B. negative Auswirkungen auf die Persönlichkeit der Entwickler und Schädigung ihres Rufs) der Nutzung von LLMs auf individueller, Team-, Organisations- und Gesellschaftsebene sowie Best Practices für die Einführung von LLMs. Schlussfolgerung: Entscheidend ist, dass wir die Zielkonflikte darlegen, vor denen Softwarepraktiker, Teams und Organisationen beim Einsatz von LLMs stehen. Unsere Ergebnisse sind besonders nützlich für Software-Teamleiter und IT-Manager, um die Tragfähigkeit von LLMs in ihrem spezifischen Kontext zu bewerten.
Durch Alignment hat sich die Ausgabequalität großer Sprachmodelle (LLMs) erheblich verbessert, jedoch auf Kosten der Diversität, was zu sehr ähnlichen Ergebnissen über verschiedene Generierungen hinweg führt. Wir schlagen Base-Aligned Model Collaboration (BACo) vor, ein Framework zur Modellkollaboration auf Token-Ebene während der Inferenz, das ein Basis-LLM dynamisch mit seiner alignierten Version kombiniert, um Diversität und Qualität zu optimieren. Inspiriert durch frühere Arbeiten (Fei et al., 2025) setzt BACo Routing-Strategien ein, die für jedes Token entscheiden, von welchem Modell decodiert werden soll, basierend auf der Unsicherheit der nächsten Token-Vorhersage und der semantischen Rolle der vorhergesagten Inhalte. Bisherige Methoden zur Förderung der Diversität, wie Nachtraining, Prompt-Engineering und Multi-Sampling-Methoden, verbessern zwar die Diversität, führen aber oft zu Qualitätseinbußen oder erfordern aufwändiges Decoding oder Post-Training. Im Gegensatz dazu erreicht BACo sowohl hohe Diversität als auch Qualität nachträglich in einem einzigen Durchlauf und bietet dabei eine starke Steuerbarkeit. Wir untersuchen eine Familie von Routing-Strategien über drei offene Generierungsaufgaben und 13 Metriken hinweg, die Diversität und Qualität abdecken. BACo übertrifft dabei konsistent state-of-the-art Inferenzzeit-Baselines. Mit unserer besten Routing-Strategie erzielt BACo eine gemeinsame Verbesserung von 21,3 % bei Diversität und Qualität. Menschliche Evaluationen spiegeln diese Verbesserungen wider. Die Ergebnisse deuten darauf hin, dass die Kollaboration zwischen Basis- und alignierten Modellen Diversität und Qualität optimieren und steuern kann.
Temporale Suche zielt darauf ab, anhand einer gegebenen Anfrage einen minimalen Satz relevanter Frames aus Zehntausenden zu identifizieren, was als Grundlage für ein genaues Verständnis langer Videos dient. Bestehende Arbeiten versuchen, den Suchraum schrittweise einzugrenzen. Diese Ansätze stützen sich jedoch typischerweise auf einen handgefertigten Suchprozess, dem eine end-to-end-Optimierung zur Erlangung optimaler Suchstrategien fehlt. In diesem Artikel schlagen wir TimeSearch-R vor, das temporale Suche als verschachteltes Text-Video-Denken reformuliert und die Suche nach Videoclips nahtlos durch Reinforcement Learning (RL) in den Denkprozess integriert. Die Anwendung von RL-Trainingsmethoden wie Group Relative Policy Optimization (GRPO) auf die Videoargumentation kann jedoch zu unbeaufsichtigten Zwischenentscheidungen bei der Suche führen. Dies führt zu einer unzureichenden Erkundung des Videoinhalts und inkonsistenter logischer Argumentation. Um diese Probleme zu adressieren, führen wir GRPO mit Completeness Self-Verification (GRPO-CSV) ein, das gesuchte Videoframes aus dem verschachtelten Denkprozess sammelt und dasselbe Policy-Modell nutzt, um die Angemessenheit der gesuchten Frames zu verifizieren, wodurch die Vollständigkeit der Videoargumentation verbessert wird. Zusätzlich konstruieren wir speziell für den SFT-Kaltstart und das RL-Training von GRPO-CSV konzipierte Datensätze, die Stichproben mit schwachen temporalen Abhängigkeiten herausfiltern, um die Aufgabenerschwernis zu erhöhen und die Fähigkeiten zur temporalen Suche zu verbessern. Umfangreiche Experimente zeigen, dass TimeSearch-R signifikante Verbesserungen auf temporalen Such-Benchmarks wie Haystack-LVBench und Haystack-Ego4D sowie auf Benchmarks für das Verständnis langer Videos wie VideoMME und MLVU erzielt. Bemerkenswerterweise etabliert TimeSearch-R einen neuen State-of-the-Art auf LongVideoBench mit einer Steigerung von 4,1 % gegenüber dem Basismodell Qwen2.5-VL und 2,0 % gegenüber dem fortschrittlichen Videoargumentationsmodell Video-R1. Unser Code ist verfügbar unter https://github.com/Time-Search/TimeSearch-R.
Harte Negative sind entscheidend für das Training effektiver Retrieval-Modelle. Das Mining harter Negative stützt sich typischerweise auf das Ranking von Dokumenten mittels Cross-Encodern oder statischen Embedding-Modellen auf Basis von Ähnlichkeitsmetriken wie der Kosinusdistanz. Das Mining harter Negative gestaltet sich in biomedizinischen und wissenschaftlichen Domänen als herausfordernd, da es schwierig ist, zwischen Quell- und hart-negativen Dokumenten zu unterscheiden. Referenzierte Dokumente teilen jedoch natürlicherweise eine kontextuelle Relevanz mit dem Quelldokument, sind aber keine Duplikate, was sie als gut geeignete harte Negative auszeichnet. In dieser Arbeit schlagen wir BiCA vor: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, einen Ansatz für das Mining harter Negative, der Zitationslinks in 20.000 PubMed-Artikeln nutzt, um einen domänenspezifischen, kleinen Dense Retriever zu verbessern. Wir finetunen die Modelle GTE_small und GTE_Base unter Verwendung dieser zitationsbasierten Negative und beobachten konsistente Verbesserungen im Zero-Shot Dense Retrieval, gemessen mit nDCG@10, sowohl für In-Domain- als auch Out-of-Domain-Aufgaben auf BEIR. Zudem übertreffen wir die Baselines bei Long-Tail-Themen in LoTTE, gemessen mit Success@5. Unsere Ergebnisse unterstreichen das Potenzial der Nutzung von Dokumentlinkstrukturen zur Generierung hochinformativer Negative, was state-of-the-art Leistung mit minimalem Finetuning ermöglicht und einen Weg in Richtung einer sehr dateneffizienten Domänenanpassung aufzeigt.