Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir untersuchen selbstbelohnende Reasoning-Modelle für große Sprachmodelle (LLMs), die während der Inferenzzeit gleichzeitig schrittweise Argumentationen generieren und die Korrektheit ihrer Ausgaben bewerten können – ohne externes Feedback. Dieser integrierte Ansatz ermöglicht es einem einzelnen Modell, seinen Reasoning-Prozess eigenständig zu steuern, was rechnerische Vorteile für die Modellbereitstellung bietet. Wir konzentrieren uns insbesondere auf die repräsentative Aufgabe der Selbstkorrektur, bei der Modelle Fehler in ihren Antworten autonom erkennen, Ausgaben überarbeiten und entscheiden, wann iterative Verfeinerungsschleifen beendet werden sollen. Um dies zu ermöglichen, schlagen wir einen zweistufigen algorithmischen Rahmen vor, um selbstbelohnende Reasoning-Modelle ausschließlich mit selbstgenerierten Daten zu konstruieren. In der ersten Stufe verwenden wir sequenzielles Rejection Sampling, um lange Chain-of-Thought-Trajektorien zu synthetisieren, die sowohl Selbstbelohnungs- als auch Selbstkorrekturmechanismen integrieren. Das Feinabstimmen von Modellen anhand dieser kuratierten Daten ermöglicht es ihnen, die Muster der Selbstbelohnung und Selbstkorrektur zu erlernen. In der zweiten Stufe verbessern wir die Fähigkeit der Modelle, die Genauigkeit von Antworten zu bewerten und Ausgaben zu verfeinern, durch Reinforcement Learning mit regelbasierten Signalen. Experimente mit Llama-3 und Qwen-2.5 zeigen, dass unser Ansatz die intrinsischen Selbstkorrekturfähigkeiten übertrifft und eine Leistung erzielt, die mit Systemen vergleichbar ist, die auf externen Belohnungsmodellen basieren.
Das Schließen von Schlussfolgerungen stellt eine entscheidende Herausforderung für die Weiterentwicklung der medizinischen Bildanalyse dar, wobei Transparenz und Vertrauenswürdigkeit eine zentrale Rolle für das Vertrauen der Kliniker sowie die regulatorische Zulassung spielen. Obwohl medizinische visuelle Sprachmodelle (VLMs) vielversprechend für radiologische Aufgaben sind, liefern die meisten bestehenden VLMs lediglich endgültige Antworten, ohne die zugrunde liegende Schlussfolgerung offenzulegen. Um diese Lücke zu schließen, stellen wir MedVLM-R1 vor, ein medizinisches VLM, das explizit natürliche Sprachbegründungen erzeugt, um Transparenz und Vertrauenswürdigkeit zu erhöhen. Anstatt auf überwachtes Feinabstimmen (SFT) zurückzugreifen, das häufig zu einer Überanpassung an die Trainingsverteilungen neigt und keine echten Schlussfolgerungen fördert, nutzt MedVLM-R1 ein Reinforcement-Learning-Framework, das das Modell dazu anregt, menscheninterpretierbare Begründungspfade zu entdecken, ohne dabei auf Referenzen für die Schlussfolgerung zurückzugreifen. Trotz begrenzter Trainingsdaten (600 visuelle Frage-Antwort-Beispiele) und Modellparameter (2 Milliarden) steigert MedVLM-R1 die Genauigkeit von 55,11 % auf 78,22 % über MRI-, CT- und Röntgen-Benchmarks hinweg und übertrifft dabei größere Modelle, die mit über einer Million Beispielen trainiert wurden. Es zeigt zudem eine robuste Domänengeneralisierung bei Aufgaben außerhalb der Trainingsverteilung. Durch die Vereinigung von medizinischer Bildanalyse mit expliziten Schlussfolgerungen markiert MedVLM-R1 einen entscheidenden Schritt hin zu vertrauenswürdiger und interpretierbarer KI in der klinischen Praxis.
In großen multimodalen Modellen (LMMs) ist die Wahrnehmung nicht-sprachlicher Modalitäten (z. B. visuelle Repräsentationen) in der Regel nicht auf dem Niveau der leistungsstarken Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs), was die Leistung von LMMs bei anspruchsvollen Downstream-Aufgaben beeinträchtigt. Diese Schwäche wurde kürzlich dadurch gemildert, dass der Vision-Encoder durch ein Mixture-of-Experts (MoE) ersetzt wurde, das die für verschiedene Downstream-Aufgaben erforderlichen reichhaltigen, mehrgranularen und diversen Repräsentationen bereitstellt. Die Leistung des multimodalen MoE hängt weitgehend von seinem Router ab, der die Repräsentationen verschiedener Experten für jede Eingabe neu gewichtet und mischt. Wir stellen jedoch fest, dass der end-to-end trainierte Router nicht immer die optimalen Routing-Gewichte für jedes Testbeispiel erzeugt. Um diese Lücke zu schließen, schlagen wir eine neuartige und effiziente Methode „Re-Routing in Test-Time“ (R2-T2) vor, die den Vektor der Routing-Gewichte zur Testzeit lokal optimiert, indem er in Richtung der Vektoren korrekt vorhergesagter Beispiele in der Nachbarschaft des Testbeispiels verschoben wird. Wir schlagen drei R2-T2-Strategien mit unterschiedlichen Optimierungszielen und Nachbarschaftssuchräumen vor. R2-T2 verbessert die Leistung modernster LMMs durchgängig und erheblich auf anspruchsvollen Benchmarks für verschiedene Aufgaben, ohne dass Parameter des Basismodells trainiert werden müssen.
LongRoPE2 ist ein neuartiger Ansatz, der das effektive Kontextfenster vortrainierter großer Sprachmodelle (LLMs) auf die Zielgröße erweitert, während die Leistung auf dem ursprünglichen kürzeren Kontextfenster erhalten bleibt. Dies wird durch drei Beiträge erreicht: (1) eine Hypothese, dass unzureichendes Training in höheren RoPE-Dimensionen zu den anhaltenden Out-of-Distribution (OOD)-Problemen beiträgt, die bei bestehenden Methoden beobachtet werden; (2) ein effektiver RoPE-Reskalierungsalgorithmus, der eine evolutionäre Suche nutzt, die durch „Needle-driven“-Perplexität geleitet wird, um das Problem des unzureichenden Trainings zu adressieren; (3) ein gemischtes Kontextfenster-Trainingsansatz, der die Modellgewichte feinabstimmt, um reskalierte RoPE für lange Kontextsequenzen zu übernehmen, während die Kurzkontextleistung mit der ursprünglichen RoPE erhalten bleibt. Umfangreiche Experimente mit LLaMA3-8B und Phi3-mini-3.8B über verschiedene Benchmarks bestätigen die Hypothese und demonstrieren die Wirksamkeit von LongRoPE2. Bemerkenswerterweise erweitert LongRoPE2 LLaMA3-8B, um eine effektive Kontextlänge von 128K zu erreichen, während über 98,5 % der Kurzkontextleistung erhalten bleiben, wobei nur 10B Tokens verwendet werden – 80-mal weniger als der Ansatz von Meta, der die Zielkontextlänge nicht erreicht. Der Code wird unter https://github.com/microsoft/LongRoPE verfügbar sein.
Jüngste Innovationen in Architektur, Pre-Training und Fine-Tuning haben zu den bemerkenswerten Fähigkeiten im In-Context-Lernen und -Schlussfolgern großer autoregressiver Sprachmodelle wie LLaMA und DeepSeek geführt. Im Gegensatz dazu haben Encoder wie BERT und RoBERTa trotz ihrer grundlegenden Bedeutung für viele nachgelagerte NLP-Anwendungen nicht denselben Fortschritt erlebt. Um diese Lücke zu schließen, stellen wir NeoBERT vor, einen Encoder der nächsten Generation, der die Fähigkeiten bidirektionaler Modelle neu definiert, indem er modernste Fortschritte in Architektur, zeitgemäße Daten und optimierte Pre-Training-Methoden integriert. NeoBERT ist für eine nahtlose Übernahme konzipiert: Es dient als Plug-and-Play-Ersatz für bestehende Basismodelle, basiert auf einem optimalen Tiefen-Breiten-Verhältnis und nutzt eine erweiterte Kontextlänge von 4.096 Tokens. Trotz seines kompakten Footprints von 250M Parametern erzielt es Spitzenergebnisse auf dem umfangreichen MTEB-Benchmark und übertrifft BERT large, RoBERTa large, NomicBERT und ModernBERT unter identischen Fine-Tuning-Bedingungen. Zusätzlich bewerten wir rigoros die Auswirkungen jeder Modifikation auf GLUE und entwickeln ein einheitliches Fine-Tuning- und Evaluierungsframework für MTEB. Wir veröffentlichen den gesamten Code, Daten, Checkpoints und Trainingsskripte, um Forschung und praktische Anwendung zu beschleunigen.
Die Repräsentationsdiskrepanz zwischen visueller Generierung und Verständnis stellt eine kritische Lücke bei der Integration dieser Fähigkeiten in ein einheitliches Framework dar. Um diese Lücke zu überbrücken, führen wir UniTok ein, einen diskreten visuellen Tokenizer, der feingranulare Details für die Generierung kodiert, während er gleichzeitig hochrangige Semantik für das Verständnis erfasst. Obwohl aktuelle Studien gezeigt haben, dass diese Ziele zu Verlustkonflikten im Training führen können, zeigen wir, dass der zugrunde liegende Engpass auf der begrenzten Repräsentationskapazität diskreter Token beruht. Wir adressieren dies durch die Einführung einer Multi-Codebook-Quantisierung, die die Vektorquantisierung mit mehreren unabhängigen Sub-Codebooks aufteilt, um den latenten Merkmalsraum zu erweitern, während Instabilitäten im Training durch zu große Codebooks vermieden werden. Unsere Methode erhöht die Obergrenze einheitlicher diskreter Tokenizer signifikant, sodass sie domänenspezifische kontinuierliche Tokenizer übertreffen oder sogar übertreffen können. Beispielsweise erreicht UniTok einen bemerkenswerten rFID-Wert von 0,38 (im Vergleich zu 0,87 für SD-VAE) und eine Zero-Shot-Genauigkeit von 78,6 % (im Vergleich zu 76,2 % für CLIP) auf ImageNet. Unser Code ist verfügbar unter https://github.com/FoundationVision/UniTok.
Das Feld der fortschrittlichen Text-zu-Bild-Generierung erlebt derzeit die Entstehung einheitlicher Frameworks, die leistungsstarke Text-Encoder wie CLIP und T5 mit Diffusion Transformer-Backbones integrieren. Obwohl es Bemühungen gab, Ausgabebilder mit zusätzlichen Bedingungen wie Canny- und Tiefenkarten zu steuern, fehlt noch ein umfassendes Framework für beliebige Text-Bild-verflochtene Steuerung. Diese Lücke wird besonders deutlich, wenn versucht wird, Konzepte oder visuelle Elemente aus mehreren Bildern im Generierungsprozess zu kombinieren. Um diese Lücke zu schließen, haben wir vorläufige Experimente durchgeführt, die zeigen, dass große multimodale Modelle (LMMs) einen effektiven gemeinsamen Repräsentationsraum bieten, in dem Bild und Text gut ausgerichtet werden können, um als Bedingung für externe Diffusionsmodelle zu dienen. Basierend auf dieser Erkenntnis schlagen wir Dream Engine vor, ein effizientes und einheitliches Framework, das für beliebige Text-Bild-verflochtene Steuerung in Bildgenerierungsmodellen entwickelt wurde. Aufbauend auf leistungsstarken Text-zu-Bild-Modellen wie SD3.5 ersetzen wir die ursprünglichen reinen Text-Encoder durch die Einbindung vielseitiger multimodaler Informations-Encoder wie QwenVL. Unser Ansatz nutzt ein zweistufiges Trainingsparadigma, bestehend aus gemeinsamer Text-Bild-Ausrichtung und multimodaler verflochtener Instruktionsfeinabstimmung. Unsere Experimente zeigen, dass diese Trainingsmethode effektiv ist und eine Gesamtpunktzahl von 0,69 auf dem GenEval-Benchmark erreicht, was der Leistung von state-of-the-art Text-zu-Bild-Modellen wie SD3.5 und FLUX entspricht.
Viele anspruchsvolle Denkaufgaben erfordern nicht nur schnelle, intuitive Reaktionen, sondern einen durchdachteren, mehrstufigen Ansatz. Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) verdeutlichen einen wichtigen Wandel von der „System 1“-Methode der schnellen Reaktionen hin zum „System 2“-Stil des reflektierenden und korrigierenden Problemlösens. Allerdings stützen sich aktuelle Benchmarks stark auf die Genauigkeit der Endantworten, wodurch viele der Zwischenschritte der Modelllogik ungeprüft bleiben. Dies versäumt es, die Fähigkeit des Modells zur Reflexion und Korrektur von Fehlern im Denkprozess zu bewerten. Um diese Lücke zu schließen, stellen wir FINEREASON vor, einen Logikrätsel-Benchmark zur feingranularen Bewertung der Denkfähigkeiten von LLMs. Jedes Rätsel lässt sich in atomare Schritte zerlegen, was es ideal für eine strenge Überprüfung der Zwischenergebnisse macht. Darauf aufbauend führen wir zwei Aufgaben ein: Zustandsprüfung und Zustandsübergang, um umfassend zu bewerten, wie Modelle die aktuelle Situation einschätzen und den nächsten Schritt planen. Um die Forschung weiter zu unterstützen, stellen wir außerdem einen Rätsel-Trainingsdatensatz bereit, der darauf abzielt, die Leistung bei allgemeinen mathematischen Aufgaben zu verbessern. Wir zeigen, dass Modelle, die mit unseren Daten zur Zustandsprüfung und -übergang trainiert wurden, eine Steigerung der mathematischen Denkfähigkeit von bis zu 5,1 % auf GSM8K erreichen.
Große Sprachmodelle (LLMs) haben in der Softwareentwicklung außergewöhnliche Leistungen gezeigt, stehen jedoch vor Herausforderungen bei der Anpassung an sich kontinuierlich weiterentwickelndes Code-Wissen, insbesondere im Hinblick auf die häufigen Aktualisierungen von APIs Drittanbieter-Bibliotheken. Diese Einschränkung, die sich aus statischen Vorab-Trainingsdatensätzen ergibt, führt oft zu nicht ausführbarem Code oder Implementierungen mit suboptimaler Sicherheit und Effizienz. Zu diesem Zweck stellt dieses Papier CODESYNC vor, eine Daten-Engine zur Identifizierung veralteter Codemuster und zur Sammlung von Echtzeit-Code-Wissen-Updates aus Python-Bibliotheken Dritter. Aufbauend auf CODESYNC entwickeln wir CODESYNCBENCH, einen umfassenden Benchmark zur Bewertung der Fähigkeit von LLMs, mit der Code-Evolution Schritt zu halten, der reale Aktualisierungen für 220 APIs aus sechs Python-Bibliotheken abdeckt. Unser Benchmark bietet 3.300 Testfälle über drei Evaluierungsaufgaben hinweg sowie ein aktualisierungsbewusstes Instruktions-Tuning-Dataset, das aus 2.200 Trainingsbeispielen besteht. Umfangreiche Experimente mit 14 modernsten LLMs zeigen, dass diese mit der dynamischen Code-Evolution zu kämpfen haben, selbst mit der Unterstützung fortschrittlicher Methoden zur Wissensaktualisierung (z. B. DPO, ORPO und SimPO). Wir glauben, dass unser Benchmark eine solide Grundlage für die Entwicklung effektiverer Methoden zur Echtzeit-Aktualisierung von Code-Wissen in der Zukunft bieten kann. Der experimentelle Code und das Dataset sind öffentlich verfügbar unter: https://github.com/Lucky-voyage/Code-Sync.
Trotz ihrer bemerkenswerten Leistung werden moderne Diffusion Transformers durch erhebliche Ressourcenanforderungen während der Inferenz behindert, die sich aus dem festen und großen Rechenaufwand für jeden Denoising-Schritt ergeben. In dieser Arbeit überdenken wir das konventionelle statische Paradigma, das ein festes Rechenbudget pro Denoising-Iteration vorsieht, und schlagen stattdessen eine dynamische Strategie vor. Unser einfaches und probeneffizientes Framework ermöglicht es, vortrainierte DiT-Modelle in flexible Modelle – genannt FlexiDiT – umzuwandeln, die es ihnen erlauben, Eingaben mit variierenden Rechenbudgets zu verarbeiten. Wir zeigen, wie ein einziges flexibles Modell Bilder ohne Qualitätseinbußen erzeugen kann, während der erforderliche FLOP-Aufwand im Vergleich zu ihren statischen Gegenstücken um mehr als 40\% reduziert wird, sowohl für klassen- als auch für textkonditionierte Bildgenerierung. Unsere Methode ist allgemein und unabhängig von Eingabe- und Konditionierungsmodalitäten. Wir zeigen, wie unser Ansatz problemlos auf die Videogenerierung erweitert werden kann, wobei FlexiDiT-Modelle Proben mit bis zu 75\% weniger Rechenaufwand erzeugen, ohne die Leistung zu beeinträchtigen.
Wir stellen Mobius vor, eine neuartige Methode zur Erzeugung nahtloser Looping-Videos direkt aus Textbeschreibungen ohne jegliche Benutzerannotationen, wodurch neue visuelle Materialien für Multimedia-Präsentationen geschaffen werden. Unsere Methode nutzt das vortrainierte latente Video-Diffusionsmodell, um Looping-Videos aus Textprompts zu generieren, ohne dass ein Training erforderlich ist. Während der Inferenz konstruieren wir zunächst einen latenten Zyklus, indem wir das Anfangs- und Endrauschen der Videos verbinden. Da die zeitliche Konsistenz durch den Kontext des Video-Diffusionsmodells aufrechterhalten werden kann, führen wir eine Multi-Frame-latente Entrauschung durch, indem wir das Latent der ersten Frame schrittweise zum Ende verschieben. Dadurch variiert der Entrauschungskontext in jedem Schritt, während die Konsistenz während des gesamten Inferenzprozesses erhalten bleibt. Darüber hinaus kann der latente Zyklus in unserer Methode beliebig lang sein. Dies erweitert unseren latenten Verschiebungsansatz, um nahtlose Looping-Videos über den Kontext des Video-Diffusionsmodells hinaus zu generieren. Im Gegensatz zu früheren Cinemagraphs erfordert die vorgeschlagene Methode kein Bild als Erscheinungsbild, was die Bewegungen der generierten Ergebnisse einschränken würde. Stattdessen kann unsere Methode dynamischere Bewegungen und eine bessere visuelle Qualität erzeugen. Wir führen mehrere Experimente und Vergleiche durch, um die Wirksamkeit der vorgeschlagenen Methode zu überprüfen und ihre Effizienz in verschiedenen Szenarien zu demonstrieren. Der gesamte Code wird verfügbar gemacht.
Die autoregressive (AR) Modellierung, bekannt für ihr Paradigma der Vorhersage des nächsten Tokens, bildet die Grundlage für modernste Sprach- und visuelle generative Modelle. Traditionell wird ein "Token" als kleinste Vorhersageeinheit betrachtet, oft ein diskretes Symbol in der Sprache oder ein quantisiertes Patch in der Vision. Die optimale Token-Definition für 2D-Bildstrukturen bleibt jedoch eine offene Frage. Darüber hinaus leiden AR-Modelle unter Expositionsfehler, bei dem das Lehrer-Zwangstraining zu Fehlerakkumulation bei der Inferenz führt. In diesem Papier schlagen wir xAR vor, ein verallgemeinertes AR-Framework, das den Begriff eines Tokens auf eine Entität X erweitert, die ein einzelnes Patch-Token, eine Zelle (eine k mal k Gruppierung benachbarter Patches), eine Unterstichprobe (eine nicht-lokale Gruppierung entfernter Patches), eine Skala (grob bis feine Auflösung) oder sogar ein ganzes Bild darstellen kann. Darüber hinaus formulieren wir die diskrete Token-Klassifizierung als kontinuierliche Entitätsregression um, wobei wir Flussabgleichmethoden bei jedem AR-Schritt nutzen. Dieser Ansatz konditioniert das Training auf rauschhafte Entitäten anstelle von Ground-Truth-Tokens, was zu einem effektiven Abbau des Expositionsfehlers durch Noisy Context Learning führt. Als Ergebnis bietet xAR zwei wesentliche Vorteile: (1) Es ermöglicht flexible Vorhersageeinheiten, die unterschiedliche Kontextgranularität und räumliche Strukturen erfassen, und (2) es mildert den Expositionsfehler, indem es nicht auf das Lehrer-Zwangstraining angewiesen ist. In einem ImageNet-256-Generierungstest übertrifft unser Basismodell, xAR-B (172M), DiT-XL/SiT-XL (675M) und erreicht dabei eine 20-fach schnellere Inferenz. In der Zwischenzeit setzt xAR-H mit einem FID von 1.24 einen neuen State-of-the-Art und läuft 2,2-mal schneller als das zuvor bestperformende Modell, ohne auf Vision Foundation-Module (z. B. DINOv2) oder fortgeschrittene Anleitungsschwellenwertabtastung angewiesen zu sein.
Die Erstellung artikulierter Objekte stellt eine zentrale Herausforderung in der Computer Vision dar. Bestehende Methoden scheitern oft daran, Informationen über verschiedene Objektzustände effektiv zu integrieren, was die Genauigkeit der Teilnetz-Rekonstruktion und der Modellierung von Teilbewegungen einschränkt, insbesondere bei komplexen, mehrteiligen artikulierten Objekten. Wir stellen ArtGS vor, einen neuartigen Ansatz, der 3D-Gaußsche Verteilungen als flexible und effiziente Repräsentation nutzt, um diese Probleme zu adressieren. Unsere Methode integriert kanonische Gaußsche Verteilungen mit einer grob- bis feinabgestuften Initialisierung und Aktualisierung, um Informationen über artikulierte Teile über verschiedene Objektzustände hinweg auszurichten, und verwendet ein von Skinning inspiriertes Modul zur Modellierung von Teilbewegungen, um sowohl die Teilnetz-Rekonstruktion als auch das Erlernen von Artikulationen zu verbessern. Umfangreiche Experimente auf synthetischen und realen Datensätzen, einschließlich eines neuen Benchmarks für komplexe mehrteilige Objekte, zeigen, dass ArtGS Spitzenleistungen in der gemeinsamen Parameterabschätzung und Teilnetz-Rekonstruktion erreicht. Unser Ansatz verbessert die Rekonstruktionsqualität und Effizienz erheblich, insbesondere bei mehrteiligen artikulierten Objekten. Zusätzlich bieten wir umfassende Analysen unserer Designentscheidungen, die die Wirksamkeit jeder Komponente validieren und potenzielle Bereiche für zukünftige Verbesserungen aufzeigen.
Proximale Policy-Optimierung (PPO)-basiertes Verstärkungslernen aus menschlichem Feedback (RLHF) ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs) mit menschlichen Präferenzen. Es erfordert das gemeinsame Training eines Akteurs und eines Kritikers mit einem vorab trainierten, festen Belohnungsmodell zur Orientierung. Dieser Ansatz erhöht die Rechenkomplexität und Instabilität aufgrund der Wechselbeziehung zwischen Akteur und Kritiker. Darüber hinaus hat PPO keinen Zugriff auf echte Umgebungsbelohnungen bei LLM-Aufgaben, was seine Anpassungsfähigkeit einschränkt. Unter solchen Bedingungen wird das Vortrainieren eines Wertmodells oder eines Belohnungsmodells äquivalent, da beide feste überwachende Signale ohne neues Feedback aus der Ground-Truth liefern. Um diese Probleme zu lösen, schlagen wir Decoupled Value Policy Optimization (DVPO) vor, ein schlankes Framework, das die herkömmliche Belohnungsmodellierung durch ein vortrainiertes globales Wertmodell (GVM) ersetzt. Das GVM ist abhängig von Richtlinientrajektorien und sagt Token-Ebene Rückkehr-zum-Ziel-Schätzungen voraus. Durch die Entkopplung des Wertmodells vom Richtlinientraining (über eingefrorene GVM-gesteuerte RL-Ziele) beseitigt DVPO die Wechselbeziehung zwischen Akteur und Kritiker, wodurch der GPU-Speicherverbrauch um 40\% und die Trainingszeit um 35\% im Vergleich zu herkömmlichem RLHF reduziert wird. Experimente über Benchmarks zeigen, dass DVPO effiziente RLHF-Methoden (z. B. DPO) übertrifft und gleichzeitig die Leistung des State-of-the-Art PPO erreicht.
Die autonomen KI-Agenten, die große Sprachmodelle verwenden, können unbestreitbare Werte in allen Bereichen der Gesellschaft schaffen, stehen jedoch Sicherheitsbedrohungen von Gegnern gegenüber, die sofortige Schutzlösungen erfordern, da Vertrauens- und Sicherheitsprobleme auftreten. Die Berücksichtigung von Many-Shot-Jailbreaking und betrügerischer Ausrichtung als einige der Hauptfortgeschrittenen Angriffe, die nicht durch die statischen Leitplanken, die während des überwachten Trainings verwendet werden, gemildert werden können, weist auf eine entscheidende Forschungspriorität für die Robustheit in der realen Welt hin. Die Kombination von statischen Leitplanken in einem dynamischen Multi-Agenten-System versagt bei der Abwehr dieser Angriffe. Wir beabsichtigen, die Sicherheit für KI-Agenten auf der Grundlage großer Sprachmodelle durch die Entwicklung neuer Bewertungsrahmen zu verbessern, die Bedrohungen für einen sicheren operativen Einsatz identifizieren und bekämpfen. Unsere Arbeit verwendet drei Prüfmethoden, um Schurkenagenten durch einen Reverse-Turing-Test zu erkennen und betrügerische Ausrichtung durch Multi-Agenten-Simulationen zu analysieren und ein Anti-Jailbreaking-System zu entwickeln, indem es mit GEMINI 1.5 Pro und Llama-3.3-70B, DeepSeek R1-Modellen unter Verwendung von werkzeugvermittelten adversen Szenarien getestet wird. Die Erkennungsfähigkeiten sind stark, wie z. B. eine 94\%ige Genauigkeit für GEMINI 1.5 Pro, dennoch leidet das System unter anhaltenden Schwachstellen bei langen Angriffen, da mit zunehmender Promptlänge die Erfolgsraten von Angriffen (ASR) steigen und Diversitätsmetriken bei der Vorhersage unwirksam werden, während mehrere komplexe Systemfehler aufgedeckt werden. Die Ergebnisse zeigen die Notwendigkeit der Annahme flexibler Sicherheitssysteme auf, die auf aktiver Überwachung basieren, die von den Agenten selbst durchgeführt werden kann, zusammen mit anpassbaren Interventionen durch das System-Admin, da die aktuellen Modelle Schwachstellen schaffen können, die zu einem unzuverlässigen und anfälligen System führen können. Daher versuchen wir in unserer Arbeit, solche Situationen anzugehen und schlagen einen umfassenden Rahmen zur Bekämpfung der Sicherheitsprobleme vor.
Gängige Frameworks zur Problemlösung stützen sich überwiegend auf kommerzielle Modelle, was zu hohen Kosten und Datenschutzbedenken führt. Bestehende Trainingsansätze für die Problemlösung kämpfen mit schlechter Generalisierung und schöpfen die Ressourcen der Open-Source-Entwicklung nicht vollständig aus. Wir schlagen Subtask-oriented Reinforced Fine-Tuning (SoRFT) vor, einen neuartigen Trainingsansatz zur Verbesserung der Problemlösungsfähigkeit von LLMs. Dabei wird die Problemlösung in strukturierte Teilaufgaben zerlegt: Dateilokalisierung, Funktionslokalisierung, Zeilenlokalisierung und Code-Edit-Generierung. SoRFT besteht aus zwei Trainingsphasen: (1) abgelehntes, überwachtes Feintuning, bei dem Chain of Thought (CoT)-Daten mithilfe von Ground-Truth gefiltert werden, bevor das LLM feinabgestimmt wird, und (2) regelbasiertes Reinforcement Learning, das PPO mit Ground-Truth-basierten Belohnungen nutzt. Wir evaluieren das mit SoRFT trainierte Modell auf SWE-Bench Verified und SWE-Bench Lite und erzielen state-of-the-art (SOTA)-Leistungen unter Open-Source-Modellen (z. B. Lösung von 21,4 % der Probleme auf SWE-Bench Verified mit SoRFT-Qwen-7B). Die experimentellen Ergebnisse zeigen, dass SoRFT die Problemlösungsleistung signifikant verbessert, die Modellgeneralisierung erhöht und eine kosteneffiziente Alternative zu kommerziellen Modellen bietet.
Trotz jüngster Durchbrüche bei großen Sprachmodellen (LLMs) mit verbessertem logischen Denken wie DeepSeek-R1 ist die Integration von Inferenzzeit-Reasoning in die maschinelle Übersetzung (MT), bei der menschliche Übersetzer natürlicherweise strukturierte, mehrschichtige Gedankenketten (Chain-of-Thoughts, CoTs) verwenden, noch wenig erforscht. Bestehende Methoden entwerfen entweder eine feste CoT, die auf eine spezifische MT-Teilaufgabe zugeschnitten ist (z.B. Literaturübersetzung), oder verlassen sich auf die Synthese von CoTs, die nicht mit menschlichen Denkweisen übereinstimmen, und auf überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT), das anfällig für katastrophales Vergessen ist, was ihre Anpassungsfähigkeit an verschiedene Übersetzungsszenarien einschränkt. Dieses Papier stellt R1-Translator (R1-T1) vor, ein neuartiges Framework, das Inferenzzeit-Reasoning für allgemeine MT durch Reinforcement Learning (RL) mit menschlich ausgerichteten CoTs, die sechs gängige Muster umfassen, ermöglicht. Unser Ansatz führt drei Innovationen ein: (1) die Erweiterung des reasoning-basierten Übersetzens über MT-Teilaufgaben hinaus auf sechs Sprachen und diverse Aufgaben (z.B. rechtliche/medizinische Domänenanpassung, Idiomauflösung); (2) die Formalisierung von sechs von Experten kuratierten CoT-Vorlagen, die hybride menschliche Strategien wie kontextbewusstes Paraphrasieren und Rückübersetzung widerspiegeln; und (3) die Ermöglichung der selbstentwickelnden CoT-Entdeckung und Anti-Vergessen-Anpassung durch RL mit KL-beschränkten Belohnungen. Experimentelle Ergebnisse
In großen Sprachmodellen (LLMs) können bestimmte Neuronen unterschiedliche Wissensstücke speichern, die während des Vortrainings gelernt wurden. Während Wissen in der Regel als Kombination von Relationen und Entitäten erscheint, bleibt unklar, ob einige Neuronen sich auf eine Relation selbst konzentrieren - unabhängig von einer Entität. Wir stellen die Hypothese auf, dass solche Neuronen eine Relation im Eingabetext erkennen und die Generierung, die eine solche Relation betrifft, lenken. Um dies zu untersuchen, studieren wir die Llama-2-Familie anhand einer ausgewählten Gruppe von Relationen mit einer statistikbasierten Methode. Unsere Experimente zeigen die Existenz von relationspezifischen Neuronen auf. Wir messen die Auswirkung der selektiven Deaktivierung von Kandidaten-Neuronen, die spezifisch für die Relation r sind, auf die Fähigkeit des LLM, (1) Fakten mit der Relation r und (2) Fakten mit einer anderen Relation r' neq r zu verarbeiten. In Bezug auf ihre Fähigkeit, Relationsinformationen zu codieren, liefern wir Belege für die folgenden drei Eigenschaften von relationspezifischen Neuronen. (i) Neuronen-Kumulativität. Die Neuronen für r zeigen eine kumulative Wirkung, sodass das Deaktivieren eines größeren Teils von ihnen zu einer Verschlechterung von mehr Fakten in r führt. (ii) Neuronen-Vielseitigkeit. Neuronen können über mehrere eng verwandte sowie weniger verwandte Relationen hinweg gemeinsam genutzt werden. Einige Relationsneuronen übertragen sich zwischen Sprachen. (iii) Neuronen-Interferenz. Das Deaktivieren von Neuronen, die spezifisch für eine Relation sind, kann die Generierungsleistung des LLM für Fakten anderer Relationen verbessern. Wir werden unseren Code öffentlich zugänglich machen unter https://github.com/cisnlp/relation-specific-neurons.
Aktuelle Agenten-Frameworks und Inferenzzeit-Algorithmen haben oft Schwierigkeiten mit komplexen Planungsproblemen aufgrund von Einschränkungen bei der Überprüfung generierter Pläne oder der Bewältigung der variierenden Komplexität von Instanzen innerhalb einer einzelnen Aufgabe. Viele bestehende Methoden für diese Aufgaben führen entweder eine Überprüfung auf Aufgabenebene ohne Berücksichtigung von Einschränkungen durch oder wenden Inferenzzeit-Algorithmen an, ohne sich an die Komplexität auf Instanzebene anzupassen. Um diese Einschränkungen zu bewältigen, schlagen wir PlanGEN vor, ein modellagnostisches und leicht skalierbares Agenten-Framework mit drei Schlüsselkomponenten: Constraint-, Überprüfungs- und Auswahlagenten. Speziell schlägt unser Ansatz eine constraintsgesteuerte iterative Überprüfung vor, um die Leistung von Inferenzzeit-Algorithmen - Best of N, Tree-of-Thought und REBASE - zu verbessern. Im PlanGEN-Framework optimiert der Auswahlagent die Algorithmusauswahl basierend auf der Instanzkomplexität, um eine bessere Anpassung an komplexe Planungsprobleme zu gewährleisten. Experimentelle Ergebnisse zeigen signifikante Verbesserungen gegenüber dem stärksten Baseline-Modell über mehrere Benchmarks hinweg und erzielen Spitzenleistung bei NATURAL PLAN (ca. 8 % Anstieg), OlympiadBench (ca. 4 % Anstieg), DocFinQA (ca. 7 % Anstieg) und GPQA (ca. 1 % Anstieg). Unsere wichtigste Erkenntnis hebt hervor, dass constraintsgeführte iterative Überprüfung Inferenzzeit-Algorithmen verbessert und die adaptive Auswahl die Leistung bei komplexen Planungs- und Schlussfolgerungsproblemen weiter steigert.
Konsistenztraining (CT) hat sich kürzlich als vielversprechende Alternative zu Diffusionsmodellen etabliert, die eine wettbewerbsfähige Leistung bei der Bildgenerierung erzielen. Allerdings leidet das Konsistenztraining ohne Destillation oft unter hoher Varianz und Instabilität, und die Analyse und Verbesserung seiner Trainingsdynamik ist ein aktives Forschungsgebiet. In dieser Arbeit schlagen wir einen neuartigen CT-Trainingsansatz basierend auf dem Flow Matching-Framework vor. Unser Hauptbeitrag ist ein trainiertes Rauschkopplungsschema, das von der Architektur Variationaler Autoencoder (VAE) inspiriert ist. Durch das Training eines datenabhängigen Rauschemissionsmodells, das als Encoder-Architektur implementiert ist, kann unsere Methode indirekt die Geometrie der Rausch-zu-Daten-Abbildung erlernen, die durch die Wahl des Vorwärtsprozesses im klassischen CT festgelegt ist. Empirische Ergebnisse über verschiedene Bilddatensätze zeigen signifikante generative Verbesserungen, wobei unser Modell Baselines übertrifft und den State-of-the-Art (SoTA) im nicht-dedizierten CT FID auf CIFAR-10 erreicht und einen FID auf Augenhöhe mit SoTA auf ImageNet bei einer Auflösung von 64 mal 64 in der 2-Schritt-Generierung erzielt. Unser Code ist unter https://github.com/sony/vct verfügbar.
Die Darstellung dynamischer Szenen aus monokularen Videos ist eine entscheidende, aber anspruchsvolle Aufgabe. Die kürzlich entwickelte deformierbare Gauß-Splatting-Technik hat sich als robuste Lösung zur Darstellung realer dynamischer Szenen erwiesen. Allerdings führt sie oft zu stark redundanten Gaußschen Funktionen, die versuchen, jede Trainingsansicht zu verschiedenen Zeitpunkten anzupassen, was zu langsameren Rendergeschwindigkeiten führt. Darüber hinaus sind die Attribute der Gaußschen Funktionen in statischen Bereichen zeitinvariant, wodurch es unnötig ist, jede Gaußsche Funktion zu modellieren, was zu Flackern in statischen Regionen führen kann. In der Praxis ist der Hauptengpass bei der Rendergeschwindigkeit für dynamische Szenen die Anzahl der Gaußschen Funktionen. Als Antwort darauf führen wir Efficient Dynamic Gaussian Splatting (EDGS) ein, das dynamische Szenen über eine spärliche zeitvariante Attributmodellierung darstellt. Unser Ansatz formuliert dynamische Szenen mithilfe einer spärlichen Anker-Gitter-Repräsentation, wobei die Bewegungsfluss der dichten Gaußschen Funktionen über eine klassische Kernel-Repräsentation berechnet wird. Darüber hinaus schlagen wir eine unüberwachte Strategie vor, um Ankerpunkte, die statischen Bereichen entsprechen, effizient herauszufiltern. Nur Ankerpunkte, die mit verformbaren Objekten verbunden sind, werden in MLPs eingegeben, um zeitvariante Attribute abzufragen. Experimente mit zwei realen Datensätzen zeigen, dass unser EDGS die Rendergeschwindigkeit signifikant verbessert und im Vergleich zu früheren State-of-the-Art-Methoden eine überlegene Renderqualität bietet.