papers.description
Diese Studie untersucht die Machbarkeit der Automatisierung der klinischen Kodierung in Russisch, einer Sprache mit begrenzten biomedizinischen Ressourcen. Wir stellen einen neuen Datensatz für die ICD-Kodierung vor, der Diagnosefelder aus elektronischen Gesundheitsakten (EHRs) enthält, die mit über 10.000 Entitäten und mehr als 1.500 eindeutigen ICD-Codes annotiert sind. Dieser Datensatz dient als Benchmark für mehrere state-of-the-art Modelle, darunter BERT, LLaMA mit LoRA und RAG, mit zusätzlichen Experimenten, die Transferlernen über Domänen (von PubMed-Abstracts zu medizinischen Diagnosen) und Terminologien (von UMLS-Konzepten zu ICD-Codes) untersuchen. Anschließend wenden wir das leistungsstärkste Modell an, um einen internen EHR-Datensatz mit Patientengeschichten von 2017 bis 2021 zu beschriften. Unsere Experimente, die auf einem sorgfältig kuratierten Testdatensatz durchgeführt wurden, zeigen, dass das Training mit den automatisch vorhergesagten Codes zu einer signifikanten Verbesserung der Genauigkeit im Vergleich zu manuell von Ärzten annotierten Daten führt. Wir glauben, dass unsere Erkenntnisse wertvolle Einblicke in das Potenzial der Automatisierung der klinischen Kodierung in ressourcenbeschränkten Sprachen wie Russisch bieten, was die klinische Effizienz und Datenqualität in diesen Kontexten verbessern könnte.
Jüngste Fortschritte in der Ausrichtung menschlicher Präferenzen haben die multimodale Generierung und das Verständnis erheblich verbessert. Ein zentraler Ansatz besteht darin, Belohnungsmodelle zu trainieren, um die Präferenzoptimierung zu steuern. Allerdings sind bestehende Modelle oft aufgaben spezifisch, was ihre Anpassungsfähigkeit über verschiedene visuelle Anwendungen hinweg einschränkt. Wir argumentieren außerdem, dass das gemeinsame Lernen zur Bewertung mehrerer Aufgaben einen synergetischen Effekt fördern könnte, bei dem ein verbessertes Bildverständnis die Bewertung der Bildgenerierung steigert und eine verfeinerte Bildbewertung die Videoanalyse durch eine bessere Rahmenanalyse begünstigt. Zu diesem Zweck schlägt dieses Papier UnifiedReward vor, das erste einheitliche Belohnungsmodell für multimodales Verständnis und die Bewertung der Generierung, das sowohl paarweises Ranking als auch punktweise Bewertung ermöglicht und für die Ausrichtung der Präferenzen von Vision-Modellen eingesetzt werden kann. Konkret (1) entwickeln wir zunächst UnifiedReward auf unserem erstellten groß angelegten Datensatz menschlicher Präferenzen, der sowohl Bild- als auch Video-Generierungs-/Verständnisaufgaben umfasst. (2) Anschließend wird es genutzt, um automatisch hochwertige Präferenzpaardaten basierend auf den Vision-Modellen zu konstruieren, indem deren Ausgaben schrittweise durch paarweises Ranking und punktweises Sieben gefiltert werden. (3) Schließlich werden diese Daten für ihre Präferenzausrichtung durch Direct Preference Optimization (DPO) verwendet. Experimentelle Ergebnisse zeigen, dass das gemeinsame Lernen zur Bewertung verschiedener visueller Aufgaben zu erheblichen gegenseitigen Vorteilen führen kann, und wir wenden unsere Pipeline sowohl auf Bild- als auch auf Video-Verständnis-/Generierungsaufgaben an, wodurch die Leistung in jedem Bereich signifikant verbessert wird.
Allgemeine mehrsprachige Vektorrepräsentationen, die in Retrieval-, Regressions- und Klassifikationsaufgaben verwendet werden, werden traditionell aus bidirektionalen Encoder-Modellen gewonnen. Trotz ihrer breiten Anwendbarkeit wurden Encoder in letzter Zeit durch Fortschritte bei generativen Decoder-only-Modellen in den Hintergrund gedrängt. Viele der Innovationen, die diesen Fortschritt vorantreiben, sind jedoch nicht inhärent an Decoder gebunden. In diesem Papier betrachten wir die Entwicklung mehrsprachiger Encoder im Lichte dieser Fortschritte neu und stellen EuroBERT vor, eine Familie mehrsprachiger Encoder, die europäische und global weit verbreitete Sprachen abdeckt. Unsere Modelle übertreffen bestehende Alternativen in einer Vielzahl von Aufgaben, die mehrsprachige Fähigkeiten, Mathematik und Programmierung umfassen, und unterstützen nativ Sequenzen von bis zu 8.192 Tokens. Wir untersuchen auch die Designentscheidungen hinter EuroBERT und geben Einblicke in unsere Datensatzzusammensetzung und Trainingspipeline. Wir veröffentlichen die EuroBERT-Modelle, einschließlich Zwischencheckpoints des Trainings, zusammen mit unserem Trainingsframework.
Kürzlich hat DeepSeek R1 gezeigt, wie Verstärkungslernen mit einfachen regelbasierten Anreizen die autonome Entwicklung komplexer Denkprozesse in großen Sprachmodellen ermöglichen kann, gekennzeichnet durch den „Aha-Moment“, in dem das Modell Selbstreflexion und eine erhöhte Antwortlänge während des Trainings zeigt. Versuche, diesen Erfolg auf multimodales Denken auszuweiten, scheiterten jedoch oft daran, diese Schlüsselmerkmale zu reproduzieren. In diesem Bericht präsentieren wir die erste erfolgreiche Replikation dieser emergenten Merkmale für multimodales Denken mit einem reinen Non-SFT-2B-Modell. Ausgehend von Qwen2-VL-2B und der direkten Anwendung von Verstärkungslernen auf den SAT-Datensatz erreicht unser Modell eine Genauigkeit von 59,47 % auf CVBench, übertrifft das Basismodell um etwa ~30 % und übersteigt beide SFT-Einstellungen um ~2 %. Zudem teilen wir unsere gescheiterten Versuche und Erkenntnisse bei dem Bemühen, R1-ähnliches Denken mit RL in Instruktionsmodellen zu erreichen, um die damit verbundenen Herausforderungen zu beleuchten. Unsere wichtigsten Beobachtungen umfassen: (1) Die Anwendung von RL auf Instruktionsmodelle führt oft zu trivialen Denkpfaden, und (2) naive Längenbelohnungen sind unwirksam, um Denkfähigkeiten zu fördern. Der Projektcode ist verfügbar unter https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat den Fokus verstärkt auf Sprachmodelle gelenkt, insbesondere auf die jüngsten Fortschritte bei Speech2Speech-Protokollen, die Spracheingabe und -ausgabe unterstützen. Die bestehenden Benchmarks verwenden jedoch automatische textbasierte Evaluatoren, um die Fähigkeit dieser Modelle, Anweisungen zu befolgen, zu bewerten, und berücksichtigen dabei keine paralinguistischen Informationen sowohl beim Sprachverständnis als auch bei der Sprachgenerierung. Um diese Probleme zu adressieren, stellen wir S2S-Arena vor, einen neuartigen Arena-Stil-S2S-Benchmark, der die Fähigkeit zur Befolgung von Anweisungen unter Berücksichtigung paralinguistischer Informationen sowohl bei der Spracheingabe als auch bei der Sprachausgabe in realen Aufgaben bewertet. Wir entwerfen 154 Proben, die TTS und Live-Aufnahmen in vier Domänen mit 21 Aufgaben kombinieren, und bewerten manuell bestehende populäre Sprachmodelle in einem Arena-Stil. Die experimentellen Ergebnisse zeigen: (1) Neben der überlegenen Leistung von GPT-4o übertrifft das Sprachmodell aus kaskadiertem ASR, LLM und TTS das gemeinsam trainierte Modell nach der Text-Sprach-Ausrichtung in Speech2Speech-Protokollen; (2) unter Berücksichtigung paralinguistischer Informationen hängt die Wissensfähigkeit des Sprachmodells hauptsächlich vom LLM-Backbone ab, und die mehrsprachige Unterstützung wird durch das Sprachmodul begrenzt; (3) exzellente Sprachmodelle können bereits die paralinguistischen Informationen in der Spracheingabe verstehen, aber die Generierung geeigneter Audiodaten mit paralinguistischen Informationen bleibt eine Herausforderung.
Jüngste Fortschritte bei großen Sprachmodellen haben bemerkenswerte Fähigkeiten im logischen Denken durch Chain-of-Thought (CoT)-Prompting demonstriert, jedoch oft auf Kosten einer übermäßigen Ausführlichkeit in ihren Zwischenergebnissen, was den Rechenaufwand erhöht. Wir stellen Sketch-of-Thought (SoT) vor, ein neuartiges Prompting-Framework, das kognitiv inspirierte Denkparadigmen mit linguistischen Einschränkungen kombiniert, um die Token-Nutzung zu minimieren und gleichzeitig die Genauigkeit des Denkprozesses zu bewahren. SoT ist als flexibles Framework konzipiert, das beliebige, auf der Kognitionswissenschaft basierende Denkparadigmen integrieren kann, und wir implementieren es mit drei solchen Paradigmen – Conceptual Chaining, Chunked Symbolism und Expert Lexicons –, die jeweils auf verschiedene Denkaufgaben zugeschnitten sind und dynamisch über ein leichtgewichtiges Routing-Modell ausgewählt werden. Durch umfassende Evaluierungen über 15 Denkdatensätze mit mehreren Sprachen und multimodalen Szenarien zeigen wir, dass SoT Token-Reduktionen von 76 % bei vernachlässigbaren Genauigkeitseinbußen erreicht. In bestimmten Bereichen wie mathematischem und Multi-Hop-Denken verbessert es sogar die Genauigkeit, während deutlich weniger Token verwendet werden. Unser Code ist öffentlich verfügbar: https://www.github.com/SimonAytes/SoT.
In dieser Arbeit präsentieren wir die erste Anwendung von Reinforcement Learning mit Verifizierbarer Belohnung (RLVR) auf ein Omni-multimodales großes Sprachmodell im Kontext der Emotionserkennung, einer Aufgabe, bei der sowohl visuelle als auch auditive Modalitäten eine entscheidende Rolle spielen. Wir nutzen RLVR, um das Omni-Modell zu optimieren und seine Leistung in drei Schlüsselbereichen signifikant zu verbessern: die Fähigkeit zum logischen Schlussfolgern, die Genauigkeit der Emotionserkennung und die Generalisierungsfähigkeit. Die Einführung von RLVR verbessert nicht nur die Gesamtleistung des Modells auf In-Distribution-Daten, sondern zeigt auch eine überlegene Robustheit bei der Auswertung auf Out-of-Distribution-Datensätzen. Noch wichtiger ist, dass die verbesserte Fähigkeit zum logischen Schlussfolgern eine klare Analyse der Beiträge verschiedener Modalitäten, insbesondere visueller und auditiver Informationen, im Prozess der Emotionserkennung ermöglicht. Dies liefert wertvolle Einblicke in die Optimierung multimodaler großer Sprachmodelle.
Ein wesentlicher Bestandteil moderner rekurrenter Sequenzmodelle ist das Vergessens-Tor. Während Transformer keine explizite rekurrente Form aufweisen, zeigen wir, dass ein Vergessens-Tor auf natürliche Weise in Transformer integriert werden kann, indem die nicht normalisierten Aufmerksamkeitswerte in einer datenabhängigen Weise heruntergewichtet werden. Wir nennen diesen Aufmerksamkeitsmechanismus „Forgetting Attention“ und das daraus resultierende Modell „Forgetting Transformer“ (FoX). Wir zeigen, dass FoX den Transformer bei der Sprachmodellierung mit langem Kontext, der Längenextrapolation und Downstream-Aufgaben mit kurzem Kontext übertrifft, während es bei Downstream-Aufgaben mit langem Kontext mit dem Transformer gleichauf liegt. Darüber hinaus ist es mit dem FlashAttention-Algorithmus kompatibel und benötigt keine Positions-Einbettungen. Mehrere Analysen, einschließlich des „Nadel-im-Heuhaufen“-Tests, zeigen, dass FoX auch die überlegenen Fähigkeiten des Transformers im Umgang mit langem Kontext im Vergleich zu rekurrenten Sequenzmodellen wie Mamba-2, HGRN2 und DeltaNet beibehält. Wir stellen außerdem ein „Pro“-Block-Design vor, das einige gängige architektonische Komponenten aus rekurrenten Sequenzmodellen integriert, und stellen fest, dass es die Leistung sowohl von FoX als auch des Transformers erheblich verbessert. Unser Code ist verfügbar unter https://github.com/zhixuan-lin/forgetting-transformer.
Bestehende Large Reasoning Models (LRMs) haben das Potenzial von Reinforcement Learning (RL) gezeigt, um die komplexen Denkfähigkeiten von Large Language Models (LLMs) zu verbessern. Obwohl sie bemerkenswerte Leistungen bei anspruchsvollen Aufgaben wie Mathematik und Programmierung erzielen, verlassen sie sich oft auf ihr internes Wissen, um Probleme zu lösen, was bei zeitkritischen oder wissensintensiven Fragen unzureichend sein kann, was zu Ungenauigkeiten und Halluzinationen führt. Um dies zu adressieren, schlagen wir R1-Searcher vor, einen neuartigen zweistufigen RL-Ansatz auf Basis von Ergebnissen, der darauf abzielt, die Suchfähigkeiten von LLMs zu verbessern. Diese Methode ermöglicht es LLMs, während des Denkprozesses eigenständig externe Suchsysteme aufzurufen, um zusätzliches Wissen zu nutzen. Unser Framework basiert ausschließlich auf RL, ohne Prozessbelohnungen oder Destillation für einen Kaltstart zu benötigen. Unsere Experimente zeigen, dass unsere Methode bisherige starke RAG-Methoden deutlich übertrifft, selbst im Vergleich zum Closed-Source-Modell GPT-4o-mini.
Video-Inpainting, das darauf abzielt, beschädigte Videoinhalte wiederherzustellen, hat erhebliche Fortschritte gemacht. Trotz dieser Fortschritte stehen bestehende Methoden, sei es die Weitergabe von Pixeln aus nicht maskierten Regionen durch optischen Fluss und rezeptive Feld-Priors oder die zeitliche Erweiterung von Bild-Inpainting-Modellen, vor Herausforderungen bei der Generierung vollständig maskierter Objekte oder der Balance zwischen den konkurrierenden Zielen der Hintergrundkontextbewahrung und der Vordergrundgenerierung in einem Modell. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Dual-Stream-Paradigma, VideoPainter, vor, das einen effizienten Kontext-Encoder (der nur 6 % der Backbone-Parameter umfasst) integriert, um maskierte Videos zu verarbeiten und backbone-bewusste Hintergrundkontextinformationen in jedes vortrainierte Video-DiT einzubringen, wodurch semantisch konsistente Inhalte auf Plug-and-Play-Weise erzeugt werden. Diese architektonische Trennung reduziert die Lernkomplexität des Modells erheblich und ermöglicht gleichzeitig die fein abgestimmte Integration von entscheidendem Hintergrundkontext. Wir führen auch eine neuartige Zielregion-ID-Resampling-Technik ein, die das Inpainting von Videos beliebiger Länge ermöglicht und damit unsere praktische Anwendbarkeit erheblich verbessert. Zusätzlich etablieren wir eine skalierbare Datensatz-Pipeline, die aktuelle Modelle zur Bildverarbeitung nutzt, und tragen mit VPData und VPBench zur segmentierungsbasierten Inpainting-Schulung und -Bewertung bei, dem größten Video-Inpainting-Datensatz und Benchmark mit über 390.000 vielfältigen Clips. Indem wir Inpainting als Grundlage der Pipeline verwenden, erkunden wir auch nachgelagerte Anwendungen, einschließlich Video-Bearbeitung und die Generierung von Video-Bearbeitungspaar-Daten, und demonstrieren dabei wettbewerbsfähige Leistung und erhebliches praktisches Potenzial. Umfangreiche Experimente zeigen die überlegene Leistung von VideoPainter sowohl beim Inpainting als auch bei der Bearbeitung von Videos beliebiger Länge über acht Schlüsselmetriken hinweg, einschließlich Videoqualität, Maskenregionbewahrung und textueller Kohärenz.
LLM-basierte Agenten werden zunehmend besser darin, webbasierte Aufgaben zu lösen. Mit dieser Fähigkeit steigt jedoch auch das Risiko des Missbrauchs für bösartige Zwecke, wie das Verbreiten von Fehlinformationen in einem Online-Forum oder den Verkauf illegaler Substanzen auf einer Website. Um diese Risiken zu bewerten, schlagen wir SafeArena vor, den ersten Benchmark, der sich auf die vorsätzliche Fehlanwendung von Web-Agenten konzentriert. SafeArena umfasst 250 sichere und 250 schädliche Aufgaben über vier Websites hinweg. Wir klassifizieren die schädlichen Aufgaben in fünf Schadenskategorien – Fehlinformationen, illegale Aktivitäten, Belästigung, Cyberkriminalität und soziale Voreingenommenheit –, die darauf abzielen, realistische Fehlanwendungen von Web-Agenten zu bewerten. Wir evaluieren führende LLM-basierte Web-Agenten, darunter GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B und Llama-3.2 90B, anhand unseres Benchmarks. Um ihre Anfälligkeit für schädliche Aufgaben systematisch zu bewerten, führen wir das Agent Risk Assessment Framework ein, das das Verhalten der Agenten in vier Risikostufen kategorisiert. Wir stellen fest, dass Agenten überraschend bereitwillig bösartige Anfragen erfüllen, wobei GPT-4o und Qwen-2 34,7 % bzw. 27,3 % der schädlichen Anfragen abschließen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit von Sicherheitsanpassungsverfahren für Web-Agenten. Unser Benchmark ist hier verfügbar: https://safearena.github.io
Wir präsentieren TrajectoryCrafter, einen neuartigen Ansatz zur Umleitung von Kameratrajektorien für monokulare Videos. Durch die Entkopplung deterministischer Sichttransformationen von stochastischer Inhaltsgenerierung ermöglicht unsere Methode eine präzise Kontrolle über benutzerdefinierte Kameratrajektorien. Wir schlagen ein neuartiges duales bedingtes Video-Diffusionsmodell vor, das gleichzeitig Punktwolken-Renderings und Quellvideos als Bedingungen integriert, wodurch genaue Sichttransformationen und kohärente 4D-Inhaltsgenerierung gewährleistet werden. Anstatt auf seltene Multi-View-Videos zurückzugreifen, erstellen wir einen hybriden Trainingsdatensatz, der web-skalierte monokulare Videos mit statischen Multi-View-Datensätzen kombiniert, durch unsere innovative Doppelreprojektionsstrategie, die eine robuste Generalisierung über verschiedene Szenen hinweg signifikant fördert. Umfangreiche Evaluierungen auf Multi-View- und großskaligen monokularen Videos demonstrieren die überlegene Leistung unserer Methode.
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) für große Sprachmodelle (LLMs), wie sie beispielsweise durch DeepSeek R1 veranschaulicht werden, haben gezeigt, dass selbst eine einfache Frage-Antwort-Aufgabe die Fähigkeiten eines LLMs zur logischen Schlussfolgerung erheblich verbessern kann. In dieser Arbeit erweitern wir diesen Ansatz, indem wir die Aufgabe in ein Mehrfachversuchs-Setting umwandeln. Anstatt eine einzige Antwort pro Frage zu generieren, erhält das Modell mehrere Versuche, wobei nach falschen Antworten Feedback gegeben wird. Die Mehrfachversuchs-Aufgabe ermutigt das Modell, seine vorherigen Versuche zu verfeinern und die Such effizienz zu verbessern. Experimentelle Ergebnisse zeigen, dass selbst ein kleines LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, bei der Auswertung mit mehr Versuchen eine signifikant höhere Genauigkeit erreicht, wobei die Genauigkeit auf dem Mathematik-Benchmark von 45,6 % bei einem Versuch auf 52,5 % bei zwei Versuchen steigt. Im Gegensatz dazu zeigt dasselbe LLM, das auf eine Standard-Einzelversuchs-Aufgabe trainiert wurde, nur eine marginale Verbesserung, die von 42,3 % auf 43,2 % steigt, wenn während der Auswertung mehr Versuche gegeben werden. Die Ergebnisse deuten darauf hin, dass ein LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, im Vergleich zur Standard-Einzelversuchs-Aufgabe eine leicht bessere Leistung auf Mathematik-Benchmarks erzielt und gleichzeitig lernt, seine Antworten effektiver auf der Grundlage von Benutzerfeedback zu verfeinern. Der vollständige Code ist verfügbar unter https://github.com/DualityRL/multi-attempt.
Die Herausforderung, die Größe von Large Language Models (LLMs) zu reduzieren, während ihre Leistung erhalten bleibt, hat erhebliche Aufmerksamkeit erregt. Bisherige Methoden wie Modell-Distillation und Transfer-Learning erreichen jedoch oft keine hohe Genauigkeit. Um diese Einschränkung zu überwinden, führen wir den Branch-Merge-Distillationsansatz ein, der die Modellkompression durch zwei Phasen verbessert: (1) die Branch-Phase, in der Wissen aus einem großen Lehrer-Modell selektiv in spezialisierte Schüler-Modelle durch domänenspezifisches Supervised Fine-Tuning (SFT) destilliert wird; und (2) die Merge-Phase, in der diese Schüler-Modelle zusammengeführt werden, um domänenübergreifenden Wissenstransfer zu ermöglichen und die Generalisierung zu verbessern. Wir validieren unseren Distillationsansatz mit DeepSeek-R1 als Lehrer und DeepSeek-R1-Distill-Qwen-32B als Schüler. Das resultierende zusammengeführte Modell, TinyR1-32B-Preview, übertrifft sein Gegenstück DeepSeek-R1-Distill-Qwen-32B in mehreren Benchmarks, darunter Mathematik (+5,5 Punkte), Programmieren (+4,4 Punkte) und Naturwissenschaften (+2,9 Punkte), während es nahezu gleichwertige Leistung zu DeepSeek-R1 auf AIME 2024 erreicht. Der Branch-Merge-Distillationsansatz bietet eine skalierbare Lösung zur Erstellung kleinerer, leistungsstarker LLMs mit reduziertem Rechenaufwand und Zeitbedarf.
Code-Embeddings sind entscheidend für die semantische Codesuche; aktuelle Ansätze haben jedoch oft Schwierigkeiten, die präzisen syntaktischen und kontextuellen Nuancen, die in Code inhärent sind, zu erfassen. Open-Source-Modelle wie CodeBERT und UniXcoder zeigen Einschränkungen in Bezug auf Skalierbarkeit und Effizienz, während leistungsstarke proprietäre Systeme erhebliche Rechenkosten verursachen. Wir stellen eine parameter-effiziente Feinabstimmungsmethode basierend auf Low-Rank Adaptation (LoRA) vor, um aufgaben-spezifische Adapter für die Code-Retrieval zu konstruieren. Unser Ansatz reduziert die Anzahl der trainierbaren Parameter auf weniger als zwei Prozent des Basismodells und ermöglicht eine schnelle Feinabstimmung auf umfangreichen Code-Korpora (2 Millionen Beispiele in 25 Minuten auf zwei H100-GPUs). Experimente zeigen eine Steigerung von bis zu 9,1 % im Mean Reciprocal Rank (MRR) für Code2Code-Suche und bis zu 86,69 % für Text2Code-Suche über mehrere Programmiersprachen hinweg. Die Unterscheidung in der aufgaben- und sprachspezifischen Anpassung hilft, die Sensitivität der Code-Retrieval für syntaktische und linguistische Variationen zu untersuchen.
Haushaltsaufgaben in der realen Welt stellen erhebliche Herausforderungen für mobile Manipulationsroboter dar. Eine Analyse bestehender Robotik-Benchmarks zeigt, dass die erfolgreiche Ausführung von Aufgaben von drei zentralen Fähigkeiten der Ganzkörpersteuerung abhängt: bimanuelle Koordination, stabile und präzise Navigation sowie umfangreiche Reichweite des Endeffektors. Die Realisierung dieser Fähigkeiten erfordert ein sorgfältiges Hardware-Design, doch die daraus resultierende Systemkomplexität erschwert das Erlernen visuomotorischer Strategien zusätzlich. Um diese Herausforderungen zu bewältigen, stellen wir die BEHAVIOR Robot Suite (BRS) vor, ein umfassendes Framework für Ganzkörpermanipulation in vielfältigen Haushaltsaufgaben. Basierend auf einem bimanuellen, radbasierten Roboter mit einem 4-DoF-Torso integriert BRS eine kostengünstige Ganzkörper-Teleoperationsschnittstelle zur Datenerfassung sowie einen neuartigen Algorithmus zum Erlernen visuomotorischer Ganzkörperstrategien. Wir evaluieren BRS anhand von fünf anspruchsvollen Haushaltsaufgaben, die nicht nur die drei Kernfähigkeiten betonen, sondern auch zusätzliche Komplexitäten wie Langstreckennavigation, Interaktion mit artikulierten und deformierbaren Objekten sowie Manipulation in beengten Räumen einführen. Wir sind überzeugt, dass die integrierte Roboterplattform, die Datenerfassungsschnittstelle und das Lernframework von BRS einen bedeutenden Schritt hin zur Ermöglichung realer Ganzkörpermanipulation für alltägliche Haushaltsaufgaben darstellen. BRS ist unter https://behavior-robot-suite.github.io/ quelloffen verfügbar.
Diffusionsmodelle haben sowohl in der Bild- als auch in der Videogenerierung bedeutende Fortschritte erzielt, leiden jedoch weiterhin unter hohen Rechenkosten. Als effektive Lösung zielt das Flow Matching darauf ab, den Diffusionsprozess von Diffusionsmodellen in eine gerade Linie umzuwandeln, um eine Generierung in wenigen Schritten oder sogar in einem einzigen Schritt zu ermöglichen. In diesem Artikel argumentieren wir jedoch, dass die ursprüngliche Trainingspipeline des Flow Matching nicht optimal ist und stellen zwei Techniken vor, um sie zu verbessern. Erstens führen wir das progressive Reflow ein, das die Diffusionsmodelle schrittweise in lokalen Zeitschritten umwandelt, bis der gesamte Diffusionsprozess abgeschlossen ist, wodurch die Schwierigkeit des Flow Matching reduziert wird. Zweitens führen wir die ausgerichtete v-Vorhersage ein, die die Bedeutung der Richtungsanpassung im Flow Matching gegenüber der Größenanpassung hervorhebt. Experimentelle Ergebnisse auf SDv1.5 und SDXL demonstrieren die Wirksamkeit unserer Methode. Beispielsweise erreicht SDv1.5 auf dem MSCOCO2014-Validierungssatz einen FID von 10,70 mit nur 4 Abtastschritten, was nahe an unserem Lehrermodell liegt (32 DDIM-Schritte, FID = 10,05).
Lineare Sequenzmodellierung (Linear Sequence Modeling, LSM) wie lineare Aufmerksamkeit, Zustandsraummodelle und lineare RNNs sowie Mixture-of-Experts (MoE) haben sich in letzter Zeit als bedeutende architektonische Verbesserungen herausgestellt. In diesem Artikel stellen wir Linear-MoE vor, ein produktionsreifes System zur Modellierung und zum Training von großskaligen Modellen, die LSM mit MoE integrieren. Linear-MoE nutzt die Vorteile sowohl der LSM-Module für die Sequenzmodellierung mit linearer Komplexität als auch der MoE-Schichten für spärliche Aktivierung, um hohe Leistung bei effizientem Training zu bieten. Das Linear-MoE-System besteht aus: 1) einem Modellierungssubsystem, das einen einheitlichen Rahmen bietet, der alle Instanzen von LSM unterstützt, und 2) einem Trainingssubsystem, das effizientes Training durch die Einbindung verschiedener fortschrittlicher Parallelitätstechnologien ermöglicht, insbesondere Sequence Parallelism, das für Linear-MoE-Modelle entwickelt wurde. Zusätzlich untersuchen wir hybride Modelle, die Linear-MoE-Schichten mit Standard-Transformer-MoE-Schichten und deren Sequence Parallelism kombinieren, um die Modellflexibilität und -leistung weiter zu steigern. Evaluierungen an zwei Modellserien, A0.3B-2B und A1B-7B, zeigen, dass Linear-MoE Effizienzgewinne erzielt, während es eine wettbewerbsfähige Leistung auf verschiedenen Benchmarks beibehält, was sein Potenzial als nächste Generation von Grundlagenmodellarchitekturen unterstreicht. Code: https://github.com/OpenSparseLLMs/Linear-MoE.
In diesem Bericht präsentieren wir den dritten technischen Bericht zur Entwicklung von Slow-Thinking-Modellen im Rahmen des STILL-Projekts. Da der technische Weg klarer wird, hat die Skalierung des RL-Trainings eine zentrale Technik zur Implementierung solcher Reasoning-Modelle dar. Wir experimentieren systematisch mit und dokumentieren die Auswirkungen verschiedener Faktoren, die das RL-Training beeinflussen, und führen Experimente sowohl an Basismodellen als auch an feinabgestimmten Modellen durch. Insbesondere zeigen wir, dass unser RL-Trainingsansatz die Qwen2.5-32B-Basismodelle konsistent verbessert, sowohl die Antwortlänge als auch die Testgenauigkeit erhöht. Darüber hinaus zeigen wir, dass selbst ein Modell wie DeepSeek-R1-Distill-Qwen-1.5B, das bereits ein hohes Leistungsniveau erreicht hat, durch RL-Training weiter verfeinert werden kann und eine Genauigkeit von 39,33 % auf AIME 2024 erreicht. Neben dem RL-Training untersuchen wir auch die Verwendung von Werkzeugmanipulation und stellen fest, dass sie die Reasoning-Leistung großer Reasoning-Modelle erheblich steigert. Dieser Ansatz erreicht eine bemerkenswerte Genauigkeit von 86,67 % mit Greedy-Search auf AIME 2024, was seine Wirksamkeit bei der Verbesserung der Modellfähigkeiten unterstreicht. Wir veröffentlichen unsere Ressourcen auf der STILL-Projektwebsite: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
Retrieval-augmented Generation (RAG) hat eine bemerkenswerte Fähigkeit bei der Durchführung von Frage-Antwort-Aufgaben (QA) innerhalb eines spezifizierten Korpus gezeigt. Dennoch gibt es weiterhin zahlreiche Fehlschläge von RAG in QA. Diese Fehler sind nicht ausschließlich auf die Einschränkungen von Large Language Models (LLMs) zurückzuführen; stattdessen entstehen sie hauptsächlich durch die Beschaffung ungenauer Informationen für LLMs aufgrund von zwei Einschränkungen: (1) Aktuelle RAG-Methoden segmentieren den Korpus ohne Berücksichtigung der Semantik, was es schwierig macht, relevante Kontexte zu finden, da die Korrelation zwischen Fragen und Segmenten beeinträchtigt ist. (2) Es gibt einen Kompromiss zwischen dem Fehlen wesentlicher Kontexte bei weniger abgerufenen Kontexten und dem Erhalten irrelevanter Kontexte bei mehr abgerufenen Kontexten. In diesem Artikel stellen wir ein RAG-Framework (SAGE) vor, um diese Einschränkungen zu überwinden. Erstens schlagen wir vor, ein Modell für semantische Segmentierung zu trainieren, um das Problem der Segmentierung ohne Berücksichtigung der Semantik zu lösen. Dieses Modell wird trainiert, um den Korpus in semantisch vollständige Abschnitte zu segmentieren. Zweitens entwerfen wir einen Algorithmus zur Auswahl von Abschnitten, um sicherzustellen, dass nur die relevantesten Abschnitte abgerufen werden, während irrelevante ignoriert werden. Dieser Algorithmus wählt Abschnitte dynamisch basierend auf der Abnahmegeschwindigkeit des Relevanzscores aus, was zu einer relevanteren Auswahl führt. Drittens schlagen wir vor, LLMs bewerten zu lassen, ob abgerufene Abschnitte übermäßig oder unzureichend sind, und dann die Menge des Kontexts entsprechend anzupassen, um die Präzision der abgerufenen Abschnitte weiter zu gewährleisten. Experimente zeigen, dass SAGE die Baselines durchschnittlich um 61,25 % in der Qualität von QA übertrifft. Darüber hinaus reduziert SAGE durch die Vermeidung von Rauschen im Kontext die Kosten der in der LLM-Inferenz verbrauchten Tokens und erreicht eine durchschnittliche Steigerung der Kosteneffizienz um 49,41 %. Zusätzlich bietet unsere Arbeit wertvolle Einblicke für die Verbesserung von RAG.
Aktuelle fortschrittliche Sprachmodelle mit langem Kontext bieten großes Potenzial für reale Softwareentwicklungsanwendungen. Dennoch wird der Fortschritt in diesem kritischen Bereich durch eine grundlegende Einschränkung behindert: das Fehlen eines rigorosen Bewertungsrahmens für das Verständnis von langem Code. Um diese Hürde zu überwinden, schlagen wir einen Benchmark für das Verständnis von langem Code, LONGCODEU, aus vier Perspektiven (8 Aufgaben) vor, um die Fähigkeit von LCLMs (Language Models with Long Context) zum Verständnis von langem Code, wie sie für praktische Anwendungen erforderlich ist, zu bewerten. Dies umfasst die Wahrnehmung von Code-Einheiten, das Verständnis innerhalb von Code-Einheiten, das Verständnis von Beziehungen zwischen Code-Einheiten und das Verständnis von langen Code-Dokumentationen. Wir bewerten 9 populäre LCLMs auf LONGCODEU (d.h., 6 allgemeine Modelle und 3 Code-Modelle). Unsere experimentellen Ergebnisse zeigen wesentliche Einschränkungen in den Fähigkeiten aktueller LCLMs zum Verständnis von langem Code auf. Insbesondere sinkt die Leistung von LCLMs dramatisch, wenn die Länge des langen Codes 32K überschreitet, und bleibt weit hinter ihren behaupteten Kontextfenstern von 128K-1M zurück. Unter den vier Perspektiven stellt das Verständnis von Beziehungen zwischen Code-Einheiten die größte Herausforderung für LCLMs dar. Unsere Studie liefert wertvolle Erkenntnisse für die Optimierung von LCLMs und treibt Fortschritte in der Softwareentwicklung voran.
Die sequenzielle Natur moderner LLMs macht sie teuer und langsam, und spekulatives Sampling hat sich als effektive Lösung für dieses Problem erwiesen. Methoden wie EAGLE führen Autoregression auf Feature-Ebene durch und nutzen Top-Layer-Features des Zielmodells wieder, um bessere Ergebnisse als beim herkömmlichen spekulativen Sampling zu erzielen. Ein wachsender Trend in der LLM-Community ist die Skalierung der Trainingsdaten, um die Modellintelligenz zu verbessern, ohne die Inferenzkosten zu erhöhen. Wir beobachten jedoch, dass die Skalierung der Daten für EAGLE nur begrenzte Verbesserungen bringt. Wir identifizieren, dass diese Einschränkung auf die Feature-Vorhersagebeschränkungen von EAGLE zurückzuführen ist. In diesem Artikel stellen wir EAGLE-3 vor, das die Feature-Vorhersage zugunsten der direkten Token-Vorhersage aufgibt und die Abhängigkeit von Top-Layer-Features durch Multi-Layer-Feature-Fusion mittels einer Technik namens Training-Time-Test ersetzt. Diese Verbesserungen steigern die Leistung erheblich und ermöglichen es dem Draft-Modell, vollständig von der Skalierung der Trainingsdaten zu profitieren. Unsere Experimente umfassen sowohl Chat-Modelle als auch Reasoning-Modelle, die in fünf Aufgaben evaluiert werden. Die Ergebnisse zeigen, dass EAGLE-3 eine Beschleunigung von bis zu 6,5x erreicht, mit einer Verbesserung von etwa 1,4x gegenüber EAGLE-2. Der Code ist verfügbar unter https://github.com/SafeAILab/EAGLE.
Die Erkennung von Videoanomalien (Video Anomaly Detection, VAD) ist entscheidend für die Videoanalyse und Überwachung in der Computer Vision. Bisherige VAD-Modelle stützen sich jedoch auf erlernte normale Muster, was ihre Anwendung in diversen Umgebungen erschwert. Folglich müssen Benutzer Modelle neu trainieren oder separate KI-Modelle für neue Umgebungen entwickeln, was Expertise im Bereich des maschinellen Lernens, leistungsstarke Hardware und umfangreiche Datensammlungen erfordert. Dies schränkt die praktische Nutzbarkeit von VAD ein. Um diese Herausforderungen zu bewältigen, schlägt diese Studie die anpassbare Videoanomalieerkennung (Customizable Video Anomaly Detection, C-VAD) und das AnyAnomaly-Modell vor. C-VAD betrachtet benutzerdefinierte Texte als anormale Ereignisse und erkennt Frames, die ein bestimmtes Ereignis in einem Video enthalten. Wir haben AnyAnomaly effektiv mithilfe eines kontextbewussten visuellen Frage-Antwort-Systems implementiert, ohne das große Vision-Language-Modell feinabzustimmen. Um die Wirksamkeit des vorgeschlagenen Modells zu validieren, haben wir C-VAD-Datensätze erstellt und die Überlegenheit von AnyAnomaly demonstriert. Darüber hinaus zeigte unser Ansatz eine wettbewerbsfähige Leistung auf VAD-Benchmark-Datensätzen, erreichte state-of-the-art Ergebnisse auf dem UBnormal-Datensatz und übertraf andere Methoden in der Generalisierung über alle Datensätze hinweg. Unser Code ist online verfügbar unter github.com/SkiddieAhn/Paper-AnyAnomaly.
Benutzersimulatoren sind entscheidend, um menschliche Interaktionen mit Dialogsystemen nachzubilden, und unterstützen sowohl das gemeinsame Training als auch die automatische Bewertung, insbesondere für große Sprachmodelle (LLMs). Bisherige Simulatoren stützen sich jedoch oft ausschließlich auf Textäußerungen und übersehen dabei implizite Benutzermerkmale wie Persönlichkeit, Sprechstil und Ziele. Im Gegensatz dazu mangelt es persona-basierten Methoden an Generalisierbarkeit, da sie auf vordefinierten Profilen berühmter Personen oder Archetypen basieren. Um diese Herausforderungen zu bewältigen, schlagen wir den User Simulator with implicit Profiles (USP) vor, ein Framework, das implizite Benutzerprofile aus Mensch-Maschine-Gesprächen ableitet und sie zur Erzeugung personalisierter und realistischerer Dialoge nutzt. Zunächst entwickeln wir einen LLM-gesteuerten Extraktor mit einem umfassenden Profilschema. Anschließend verfeinern wir die Simulation durch bedingtes überwachtes Fein-Tuning und Reinforcement Learning mit Zyklenkonsistenz, wodurch sie sowohl auf Äußerungs- als auch auf Konversationsebene optimiert wird. Schließlich verwenden wir einen diversen Profil-Sampler, um die Verteilung realer Benutzerprofile zu erfassen. Experimentelle Ergebnisse zeigen, dass USP starke Baselines in Bezug auf Authentizität und Vielfalt übertrifft, während es vergleichbare Leistungen in der Konsistenz erzielt. Darüber hinaus zeigen dynamische Mehrfachbewertungen auf Basis von USP eine starke Übereinstimmung mit gängigen Benchmarks, was seine Effektivität in realen Anwendungen unterstreicht.