Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Studien haben gezeigt, dass große Sprachmodelle (LLMs) in gewissem Maße in der Lage sind, ihre Antworten zu verbessern, wenn sie externes Feedback erhalten. Es bleibt jedoch unklar, wie effektiv und gründlich diese Modelle extrinsisches Feedback integrieren können. Im Idealfall, wenn LLMs nahezu perfektes und vollständiges Feedback erhalten, würden wir erwarten, dass sie das Feedback vollständig übernehmen und ihre falschen Antworten in korrekte ändern. In diesem Papier untersuchen wir systematisch die Fähigkeit von LLMs, Feedback zu integrieren, indem wir eine kontrollierte experimentelle Umgebung entwerfen. Für jedes Problem versucht ein Lösungsmodell eine Antwort, dann erzeugt ein Feedback-Generator mit Zugriff auf nahezu vollständige Ground-Truth-Antworten gezieltes Feedback, woraufhin das Lösungsmodell erneut versucht. Wir bewerten diesen Prozess über eine Vielzahl von Aufgaben hinweg, darunter mathematisches Denken, Wissensdenken, wissenschaftliches Denken und allgemeine Multi-Domain-Evaluierungen mit state-of-the-art Sprachmodellen wie Claude 3.7 (mit und ohne erweitertes Denken). Überraschenderweise zeigen Lösungsmodelle selbst unter diesen nahezu idealen Bedingungen eine konsistente Resistenz gegenüber Feedback, eine Einschränkung, die wir als FEEDBACK FRICTION bezeichnen. Um diese Einschränkung zu mildern, experimentieren wir mit sampling-basierten Strategien wie progressiver Temperaturerhöhung und expliziter Ablehnung zuvor versuchter falscher Antworten, die Verbesserungen bringen, aber dennoch nicht dazu führen, dass die Modelle die Zielleistung erreichen. Wir führen auch eine rigorose Untersuchung potenzieller Ursachen für FEEDBACK FRICTION durch und schließen Faktoren wie Modellüberzeugung und Datenvertrautheit aus. Wir hoffen, dass die Hervorhebung dieses Problems in LLMs und das Ausschließen mehrerer offensichtlicher Ursachen zukünftige Forschung zur Selbstverbesserung unterstützen wird.
Aufgabenorientierte, LLM-basierte Agenten werden zunehmend in Domänen mit strengen Richtlinien eingesetzt, wie etwa bei der Rückerstattungsberechtigung oder Stornierungsregeln. Die Herausforderung besteht darin, sicherzustellen, dass der Agent diese Regeln und Richtlinien konsequent einhält, Anfragen, die gegen sie verstoßen würden, angemessen ablehnt und dabei dennoch eine hilfreiche und natürliche Interaktion aufrechterhält. Dies erfordert die Entwicklung maßgeschneiderter Design- und Evaluierungsmethoden, um die Widerstandsfähigkeit des Agenten gegen bösartiges Benutzerverhalten zu gewährleisten. Wir schlagen ein neuartiges Bedrohungsmodell vor, das sich auf adversarische Benutzer konzentriert, die darauf abzielen, richtlinientreue Agenten für persönliche Vorteile auszunutzen. Um dies zu adressieren, präsentieren wir CRAFT, ein Multi-Agenten-Red-Teaming-System, das politikbewusste Überzeugungsstrategien nutzt, um einen richtlinientreuen Agenten in einem Kundenservice-Szenario zu untergraben und dabei herkömmliche Jailbreak-Methoden wie DAN-Prompts, emotionale Manipulation und Zwang zu übertreffen. Aufbauend auf dem bestehenden tau-bench-Benchmark führen wir tau-break ein, einen komplementären Benchmark, der darauf abzielt, die Robustheit des Agenten gegen manipulative Benutzerverhalten rigoros zu bewerten. Schließlich evaluieren wir mehrere einfache, aber effektive Verteidigungsstrategien. Während diese Maßnahmen einen gewissen Schutz bieten, reichen sie nicht aus, was die Notwendigkeit stärkerer, forschungsgetriebener Sicherheitsvorkehrungen unterstreicht, um richtlinientreue Agenten vor adversarischen Angriffen zu schützen.
Uniform-State-Diskrete-Diffusionsmodelle versprechen aufgrund ihrer inhärenten Fähigkeit zur Selbstkorrektur eine schnelle Texterzeugung. Allerdings werden sie typischerweise von autoregressiven Modellen und maskierten Diffusionsmodellen übertroffen. In dieser Arbeit verringern wir diese Leistungslücke, indem wir eine zentrale Erkenntnis nutzen: Uniform-State-Diffusionsprozesse ergeben sich natürlich aus einer zugrunde liegenden Gaußschen Diffusion. Unsere Methode, Duo, überträgt leistungsstarke Techniken aus der Gaußschen Diffusion, um sowohl das Training als auch die Stichprobenentnahme zu verbessern. Zunächst führen wir eine Curriculum-Learning-Strategie ein, die durch den Gaußschen Prozess geleitet wird und die Trainingsgeschwindigkeit durch die Reduzierung der Varianz verdoppelt. Modelle, die mit Curriculum-Learning trainiert wurden, übertreffen autoregressive Modelle in der Zero-Shot-Perplexität auf 3 von 7 Benchmarks. Zweitens präsentieren wir Discrete Consistency Distillation, das Consistency Distillation vom kontinuierlichen auf den diskreten Bereich überträgt. Dieser Algorithmus ermöglicht die Erzeugung in wenigen Schritten in Diffusionssprachmodellen, indem die Stichprobenentnahme um zwei Größenordnungen beschleunigt wird. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite zur Verfügung: http://s-sahoo.github.io/duo.
Wir stellen ein diffusionsbasiertes Framework vor, das die Erzeugung von ausgerichteten neuen Ansichtsbildern und Geometrien durch eine Warping-und-Inpainting-Methodik durchführt. Im Gegensatz zu früheren Methoden, die dichte, posierte Bilder oder auf bestimmte Ansichten beschränkte pose-embedded generative Modelle erfordern, nutzt unsere Methode verfügbare Geometrievorhersagen, um partielle Geometrien aus Referenzbildern vorherzusagen, und formuliert die Synthese neuer Ansichten als Inpainting-Aufgabe für sowohl Bild als auch Geometrie. Um eine präzise Ausrichtung zwischen generierten Bildern und Geometrie zu gewährleisten, schlagen wir eine cross-modale Aufmerksamkeitsdistillation vor, bei der Aufmerksamkeitskarten aus dem Bilddiffusionszweig während des Trainings und der Inferenz in einen parallelen Geometriediffusionszweig injiziert werden. Dieser Multi-Task-Ansatz erzielt synergetische Effekte, die eine geometrisch robuste Bildsynthese sowie eine klar definierte Geometrievorhersage ermöglichen. Wir führen außerdem eine näherungsbasierte Mesh-Konditionierung ein, um Tiefen- und Normaleninformationen zu integrieren, zwischen Punktwolken zu interpolieren und falsch vorhergesagte Geometrie davon abzuhalten, den Generierungsprozess zu beeinflussen. Empirisch erreicht unsere Methode eine hochwertige extrapolative Ansichtssynthese sowohl für Bilder als auch für Geometrien über eine Reihe von ungesehenen Szenen hinweg, liefert eine wettbewerbsfähige Rekonstruktionsqualität unter Interpolationsbedingungen und erzeugt geometrisch ausgerichtete farbige Punktwolken für eine umfassende 3D-Vervollständigung. Die Projektseite ist verfügbar unter https://cvlab-kaist.github.io/MoAI.
Aktuelle Berichte behaupten, dass große Sprachmodelle (LLMs) inzwischen Elite-Menschen im Bereich des kompetitiven Programmierens übertreffen. Unter Bezugnahme auf das Wissen einer Gruppe von Medaillengewinnern internationaler Algorithmenwettbewerbe überprüfen wir diese Behauptung und untersuchen, wie sich LLMs von menschlichen Experten unterscheiden und wo weiterhin Einschränkungen bestehen. Wir stellen LiveCodeBench Pro vor, einen Benchmark, der aus Aufgaben von Codeforces, ICPC und IOI besteht und kontinuierlich aktualisiert wird, um die Wahrscheinlichkeit von Datenkontamination zu verringern. Ein Team von Olympiade-Medaillengewinnern annotiert jede Aufgabe nach algorithmischen Kategorien und führt eine zeilenweise Analyse fehlgeschlagener, von Modellen generierter Einreichungen durch. Unter Verwendung dieser neuen Daten und des Benchmarks stellen wir fest, dass Spitzenmodelle weiterhin erhebliche Einschränkungen aufweisen: Ohne externe Werkzeuge erreicht das beste Modell nur 53 % pass@1 bei mittelschweren Aufgaben und 0 % bei schwierigen Aufgaben, Bereiche, in denen menschliche Experten nach wie vor hervorragend abschneiden. Wir stellen außerdem fest, dass LLMs bei implementierungsintensiven Aufgaben erfolgreich sind, jedoch mit nuanziertem algorithmischem Denken und komplexer Fallanalyse kämpfen und oft selbstbewusst falsche Begründungen generieren. Die hohe Leistung scheint weitgehend von Implementierungspräzision und Werkzeugunterstützung getrieben zu sein, nicht von überlegenem Denken. LiveCodeBench Pro verdeutlicht somit die erhebliche Lücke zu menschlichen Großmeister-Niveaus und bietet gleichzeitig detaillierte Diagnosen, um zukünftige Verbesserungen im codezentrierten Denken von LLMs zu steuern.
Große Sprachmodelle kämpfen mit den steigenden Speicheranforderungen durch den wachsenden Key-Value (KV)-Cache, wenn die Kontextlängen zunehmen. Bestehende Kompressionsmethoden homogenisieren die Kopf-Dimensionen oder verlassen sich auf aufmerksamkeitsgesteuertes Token-Pruning, was oft zu Genauigkeitseinbußen oder zusätzlichem Rechenaufwand führt. Wir schlagen FourierAttention vor, ein trainingsfreies Framework, das die heterogenen Rollen der Transformer-Kopf-Dimensionen ausnutzt: niedrigere Dimensionen priorisieren den lokalen Kontext, während höhere Dimensionen langreichweitige Abhängigkeiten erfassen. Durch die Projektion der langkontextunempfindlichen Dimensionen auf orthogonale Fourier-Basen approximiert FourierAttention deren zeitliche Entwicklung mit festen spektralen Koeffizienten. Evaluierungen an LLaMA-Modellen zeigen, dass FourierAttention die beste Langkontext-Genauigkeit auf LongBench und Needle-In-A-Haystack (NIAH) erreicht. Zusätzlich wurde ein benutzerdefinierter Triton-Kernel, FlashFourierAttention, entwickelt, um den Speicher durch optimierte Lese-Schreib-Operationen zu optimieren, was eine effiziente Bereitstellung ohne Leistungseinbußen ermöglicht.
Reinforcement Learning (RL) hat sich als äußerst effektiv erwiesen, um große Sprachmodelle (LLMs) anhand von Aufgaben zu optimieren, die herausfordernd, aber leicht überprüfbar sind, wie beispielsweise mathematisches Denken oder Code-Generierung. Die Übertragung dieses Erfolgs auf die visuelle Wahrnehmung in Vision-Sprach-Modellen (VLMs) wurde jedoch durch den Mangel an visuell zentrierten Aufgaben behindert, die gleichzeitig anspruchsvoll und eindeutig überprüfbar sind. Zu diesem Zweck führen wir ViCrit (Visual Caption Hallucination Critic) ein, eine RL-Proxy-Aufgabe, die VLMs trainiert, eine subtile, synthetische visuelle Halluzination zu lokalisieren, die in Absätze von menschengeschriebenen Bildbeschreibungen eingefügt wird. Ausgehend von einer 200-Wörter-Beschreibung fügen wir einen einzigen, subtilen visuellen Beschreibungsfehler ein – der einige Wörter zu Objekten, Attributen, Mengen oder räumlichen Beziehungen verändert – und beauftragen das Modell, die fehlerhafte Textspanne anhand des Bildes und der modifizierten Beschreibung zu identifizieren. Diese Formulierung bewahrt die volle Wahrnehmungsschwierigkeit, bietet jedoch eine binäre, exakte Belohnung, die einfach zu berechnen und eindeutig ist. Modelle, die mit der ViCrit-Aufgabe trainiert werden, zeigen erhebliche Verbesserungen über eine Vielzahl von VL-Benchmarks hinweg. Entscheidend ist, dass die Verbesserungen über natürliche Bildtrainingsdaten hinaus auf abstrakte Bildlogik und visuelle Mathematik übertragbar sind, was das Potenzial zeigt, wahrzunehmen anstatt lediglich gesehene Objekte auswendig zu lernen. Um die Evaluierung zu erleichtern, führen wir außerdem ViCrit-Bench ein, einen kategorieausgewogenen Diagnose-Benchmark, der Wahrnehmungsfehler systematisch über verschiedene Bilddomänen und Fehlertypen hinweg untersucht. Zusammen zeigen unsere Ergebnisse, dass feinkörnige Halluzinationskritik ein effektives und verallgemeinerbares Ziel zur Verbesserung der visuellen Wahrnehmung in VLMs darstellt.
Große Sprachmodelle haben Potenzial in der klinischen Entscheidungsfindung gezeigt, doch aktuelle Ansätze haben Schwierigkeiten, Fehler in spezifischen Schritten des Denkprozesses zu lokalisieren und zu korrigieren. Diese Einschränkung ist in der Medizin kritisch, da die Identifizierung und Behebung von Denkfehlern für eine genaue Diagnose und eine effektive Patientenversorgung unerlässlich ist. Wir stellen Med-PRM vor, ein Framework für Prozess-Belohnungsmodellierung, das retrieval-augmentierte Generierung nutzt, um jeden Denkschritt anhand etablierter medizinischer Wissensdatenbanken zu überprüfen. Durch die Verifizierung von Zwischenschritten der Argumentation mit Evidenz, die aus klinischen Leitlinien und der Literatur abgerufen wird, kann unser Modell die Qualität der Argumentation auf feingranulare Weise präzise bewerten. Evaluierungen auf fünf medizinischen QA-Benchmarks und zwei offenen diagnostischen Aufgaben zeigen, dass Med-PRM state-of-the-art Leistungen erzielt und die Leistung von Basismodellen um bis zu 13,50 % verbessert. Darüber hinaus demonstrieren wir die Allgemeingültigkeit von Med-PRM, indem wir es auf Plug-and-Play-Weise mit starken Policy-Modellen wie Meerkat integrieren und erstmals eine Genauigkeit von über 80 % auf MedQA mit kleinen Modellen von 8 Milliarden Parametern erreichen. Unser Code und unsere Daten sind verfügbar unter: https://med-prm.github.io/
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als effektiv erwiesen, um große Sprachmodelle (LLMs) für komplexe Denkaufgaben, wie das Lösen mathematischer Probleme, zu trainieren. Eine Voraussetzung für die Skalierbarkeit von RLVR ist ein hochwertiger Problemsatz mit präzisen und verifizierbaren Antworten. Allerdings begrenzt die Knappheit von sorgfältig erstellten, menschlich annotierten mathematischen Problemen und die eingeschränkte Verifizierbarkeit von Antworten in bestehenden, auf Destillation ausgerichteten synthetischen Datensätzen deren Effektivität im RL. Darüber hinaus erweitern die meisten Problem-Synthese-Strategien den Problemsatz ungezielt, ohne die Fähigkeiten des Modells zu berücksichtigen, was zu einer geringen Effizienz bei der Generierung nützlicher Fragen führt. Um dieses Problem zu mildern, führen wir ein selbstbewusstes, schwächenorientiertes Problem-Synthese-Framework (SwS) ein, das systematisch Modellschwächen identifiziert und diese zur Problemverstärkung nutzt. Konkret definieren wir Schwächen als Fragen, die das Modell während des iterativen Samplings im RL-Training konsequent nicht erlernen kann. Anschließend extrahieren wir die Kernkonzepte aus diesen Fehlfällen und synthetisieren neue Probleme, um die schwachen Bereiche des Modells in nachfolgenden, erweiterten Trainingsphasen zu stärken, wodurch es in die Lage versetzt wird, sich auf seine Schwächen zu konzentrieren und diese schrittweise zu überwinden. Ohne auf externe Wissensdestillation angewiesen zu sein, ermöglicht unser Framework eine robuste Generalisierung, indem das Modell befähigt wird, seine Schwächen im RL selbst zu identifizieren und zu beheben, was durchschnittliche Leistungssteigerungen von 10,0 % und 7,7 % bei 7B- und 32B-Modellen über acht gängige Denkbenchmarks hinweg erzielt.
Foundation Vision Encoder haben sich als unverzichtbar für eine Vielzahl von dichten Vision-Aufgaben etabliert. Allerdings erfordern ihre niedrigauflösenden räumlichen Merkmalsausgaben ein Upsampling der Merkmale, um die hochauflösenden Modalitäten zu erzeugen, die für nachgelagerte Aufgaben benötigt werden. In dieser Arbeit stellen wir JAFAR vor, einen leichten und flexiblen Merkmals-Upsampler, der die räumliche Auflösung von visuellen Merkmalen aus jedem Foundation Vision Encoder auf eine beliebige Zielauflösung erhöht. JAFAR verwendet ein auf Aufmerksamkeit basierendes Modul, das darauf abzielt, die semantische Ausrichtung zwischen hochauflösenden Abfragen, die aus niedrigstufigen Bildmerkmalen abgeleitet werden, und semantisch angereicherten niedrigauflösenden Schlüsseln mithilfe von Spatial Feature Transform (SFT)-Modulation zu fördern. Bemerkenswerterweise zeigen wir, dass das Lernen bei niedrigen Upsampling-Verhältnissen und Auflösungen trotz des Fehlens von hochauflösender Überwachung bemerkenswert gut auf deutlich höhere Ausgabeskalen verallgemeinert. Umfangreiche Experimente zeigen, dass JAFAR feinkörnige räumliche Details effektiv wiederherstellt und bestehende Methoden zum Merkmals-Upsampling in einer Vielzahl von nachgelagerten Aufgaben konsequent übertrifft. Projektseite unter https://jafar-upsampler.github.io.
Aktuelle Arbeiten haben die Wirksamkeit von Reinforcement Learning (RL)-basiertem Post-Training zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens demonstriert. Insbesondere hat die Group Relative Policy Optimization (GRPO) beeindruckende Erfolge gezeigt, indem sie einen PPO-artigen Reinforcement-Algorithmus mit gruppenbasierten normalisierten Belohnungen einsetzt. Die Anwendung von GRPO auf Video Large Language Models (Video LLMs) wurde jedoch weniger untersucht. In diesem Artikel untersuchen wir GRPO für Video LLMs und identifizieren zwei Hauptprobleme, die ein effektives Lernen behindern: (1) die Abhängigkeit von Sicherheitsmechanismen und (2) das Problem des verschwindenden Vorteils. Um diese Herausforderungen zu bewältigen, schlagen wir DeepVideo-R1 vor, ein Video Large Language Model, das mit unserem vorgeschlagenen Reg-GRPO (Regressive GRPO) und einer schwierigkeitsbewussten Datenaugmentierungsstrategie trainiert wurde. Reg-GRPO formuliert das GRPO-Ziel als Regressionsaufgabe um, indem es den Vorteil in GRPO direkt vorhersagt. Dieser Entwurf eliminiert die Notwendigkeit von Sicherheitsmechanismen wie Clipping und Min-Funktionen und erleichtert so eine direktere Politikführung, indem das Modell mit den Vorteilswerten abgeglichen wird. Wir entwickeln auch eine schwierigkeitsbewusste Datenaugmentierungsstrategie, die Trainingsbeispiele dynamisch auf lösbaren Schwierigkeitsstufen erweitert und so vielfältige und informative Belohnungssignale fördert. Unsere umfassenden Experimente zeigen, dass DeepVideo-R1 die Leistung im Bereich des logischen Denkens bei Videos in mehreren Benchmarks signifikant verbessert.
Moderne rekurrente Architekturen wie xLSTM und Mamba haben kürzlich den Transformer in der Sprachmodellierung herausgefordert. Ihre Struktur beschränkt jedoch ihre Anwendbarkeit auf Sequenzen oder erfordert die Verarbeitung mehrdimensionaler Datenstrukturen, wie Bilder oder molekulare Graphen, in einer vordefinierten sequenziellen Reihenfolge. Im Gegensatz dazu sind mehrdimensionale RNNs (MDRNNs) gut geeignet für Daten mit einer höheren Struktur, wie 2D-Gitter, Bäume und gerichtete azyklische Graphen (DAGs). In dieser Arbeit erweitern wir den Begriff der Mehrdimensionalität auf lineare RNNs. Wir führen parallelisierbare Linear Source Transition Mark-Netzwerke (pLSTMs) ein, die Source-, Transition- und Mark-Gates verwenden, die auf dem Linien-Graphen eines allgemeinen DAGs wirken. Dies ermöglicht eine Parallelisierung analog zu parallelen assoziativen Scans und der chunkweise-rekurrenten Form sequenzieller linearer RNNs, jedoch für DAGs. Für regelmäßige Gitter (1D und 2D), wie Bilder, kann dieses Schema effizient mit Einsum-Operationen, Verkettungen und Padding in logarithmischer Zeit implementiert werden. pLSTMs adressieren das Problem verschwindender/explodierender Aktivierungen/Gradienten für lange Distanzen in DAGs durch zwei verschiedene Modi: einen gerichteten Propagationsmodus (P-Modus) und einen diffusiven Verteilungsmodus (D-Modus). Um die Langstreckenfähigkeiten von pLSTM zu demonstrieren, führen wir die Pfeilzeiger-Extrapolation als synthetische Computer-Vision-Aufgabe ein, die langstreckige Richtungsinformationen enthält. Wir zeigen, dass pLSTMs gut auf größere Bildgrößen verallgemeinern, während Transformer Schwierigkeiten haben, zu extrapolieren. Auf etablierten molekularen Graphen- und Computer-Vision-Benchmarks zeigen pLSTMs ebenfalls starke Leistungen. Code und Datensätze sind verfügbar unter: https://github.com/ml-jku/plstm_experiments.
Der Transformer hat sich zum De-facto-Standard für große Sprachmodelle und eine Vielzahl von nachgelagerten Aufgaben in verschiedenen Domänen entwickelt. Trotz seiner zahlreichen Vorteile, wie der inhärenten Trainingsparallelität, steht der Transformer weiterhin vor zentralen Herausforderungen, da er Sequenzen außerhalb eines festen Kontextfensters nicht effektiv verarbeiten kann und seine Aufmerksamkeitsmechanik eine quadratische Komplexität aufweist. Diese Herausforderungen haben das Interesse an RNN-ähnlichen Architekturen neu entfacht, die eine lineare Skalierung mit der Sequenzlänge und eine verbesserte Handhabung von langreichweitigen Abhängigkeiten bieten, allerdings mit begrenzter Parallelität aufgrund ihrer inhärent rekurrenten Natur. In diesem Artikel stellen wir Avey vor, eine neue neuronale Grundlagenarchitektur, die sich sowohl von der Aufmerksamkeit als auch von der Rekurrenz abwendet. Avey besteht aus einem Ranker und einem autoregressiven neuronalen Prozessor, die gemeinsam nur die relevantesten Tokens für einen gegebenen Token identifizieren und kontextualisieren, unabhängig von deren Position in der Sequenz. Insbesondere entkoppelt Avey die Sequenzlänge von der Kontextbreite und ermöglicht so die effektive Verarbeitung beliebig langer Sequenzen. Experimentelle Ergebnisse zeigen, dass Avey im Vergleich zum Transformer bei einer Vielzahl von Standard-NLP-Benchmarks für kurze Reichweiten gut abschneidet, während es insbesondere bei der Erfassung von langreichweitigen Abhängigkeiten hervorragende Leistungen erbringt.
Die Videobearbeitung mit Diffusionsmodellen hat bemerkenswerte Ergebnisse bei der Erzeugung hochwertiger Bearbeitungen für Videos erzielt. Allerdings basieren aktuelle Methoden oft auf groß angelegtem Vortraining, was die Flexibilität für spezifische Bearbeitungen einschränkt. Die Bearbeitung mit Führung durch das erste Bild ermöglicht zwar Kontrolle über das erste Bild, bietet jedoch keine Flexibilität für nachfolgende Bilder. Um dies zu beheben, schlagen wir eine maskenbasierte LoRA (Low-Rank Adaptation)-Feinabstimmungsmethode vor, die vortrainierte Bild-zu-Video (I2V)-Modelle für flexible Videobearbeitung anpasst. Unser Ansatz bewahrt Hintergrundbereiche und ermöglicht gleichzeitig kontrollierte Bearbeitungsfortpflanzung. Diese Lösung bietet effiziente und anpassungsfähige Videobearbeitung, ohne die Modellarchitektur zu verändern. Um diesen Prozess besser zu steuern, integrieren wir zusätzliche Referenzen, wie alternative Blickwinkel oder repräsentative Szenenzustände, die als visuelle Anker dienen, wie sich der Inhalt entfalten soll. Wir adressieren die Kontrollherausforderung mit einer maskengesteuerten LoRA-Feinabstimmungsstrategie, die ein vortrainiertes Bild-zu-Video-Modell an den Bearbeitungskontext anpasst. Das Modell muss aus zwei unterschiedlichen Quellen lernen: Das Eingabevideo liefert räumliche Struktur und Bewegungshinweise, während Referenzbilder Erscheinungsführungen bieten. Eine räumliche Maske ermöglicht regionsspezifisches Lernen, indem sie dynamisch moduliert, worauf das Modell achtet, und sicherstellt, dass jeder Bereich aus der entsprechenden Quelle schöpft. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu modernsten Methoden eine überlegene Videobearbeitungsleistung erzielt.
Jüngste Fortschritte bei großen multimodalen Modellen (Large Multimodal Models, LMMs) haben das multimodale Verständnis und die Generierung erheblich verbessert. Dennoch haben diese Modelle nach wie vor Schwierigkeiten, eng verzahnte Bild-Text-Ausgaben zu erzeugen, was hauptsächlich auf den begrenzten Umfang, die Qualität und die Anweisungsvielfalt der derzeitigen Trainingsdatensätze zurückzuführen ist. Um dies zu beheben, stellen wir InterSyn vor, einen groß angelegten multimodalen Datensatz, der mit unserer Methode der Selbstbewertung mit iterativer Verfeinerung (Self-Evaluation with Iterative Refinement, SEIR) erstellt wurde. InterSyn zeichnet sich durch mehrstufige, anweisungsgesteuerte Dialoge mit eng verzahnten Bild-Text-Antworten aus, bietet eine große Objektvielfalt und eine strenge automatisierte Qualitätsverfeinerung, was es besonders gut für das Training der nächsten Generation von anweisungsfolgenden LMMs geeignet macht. Darüber hinaus führen wir SynJudge ein, ein automatisches Bewertungsmodell, das entwickelt wurde, um multimodale Ausgaben entlang vier Dimensionen quantitativ zu bewerten: Textinhalt, Bildinhalt, Bildqualität und Bild-Text-Synergie. Experimentelle Studien zeigen, dass die SEIR-Methode zu einer deutlich höheren Datensatzqualität führt im Vergleich zu einem ansonsten identischen Prozess ohne Verfeinerung. Darüber hinaus erzielen LMMs, die auf InterSyn trainiert wurden, einheitliche Leistungssteigerungen in allen Bewertungsmetriken, was den Nutzen von InterSyn für die Weiterentwicklung multimodaler Systeme bestätigt.
Humanoide Roboter besitzen ein erhebliches Potenzial, tägliche Aufgaben in verschiedenen Umgebungen zu bewältigen, dank ihrer Flexibilität und menschenähnlichen Morphologie. Aktuelle Arbeiten haben bedeutende Fortschritte in der Ganzkörpersteuerung und Loko-Manipulation von humanoiden Robotern erzielt, indem sie optimale Steuerung oder Reinforcement Learning nutzen. Diese Methoden erfordern jedoch eine mühsame, aufgabenspezifische Anpassung für jede Aufgabe, um zufriedenstellende Verhaltensweisen zu erreichen, was ihre Vielseitigkeit und Skalierbarkeit für diverse Aufgaben in alltäglichen Szenarien einschränkt. Zu diesem Zweck stellen wir SkillBlender vor, ein neuartiges hierarchisches Reinforcement-Learning-Framework für vielseitige humanoide Loko-Manipulation. SkillBlender trainiert zunächst zielbedingte, aufgabenunabhängige primitive Fähigkeiten vor und kombiniert diese dann dynamisch, um komplexe Loko-Manipulationsaufgaben mit minimaler aufgabenspezifischer Belohnungsgestaltung zu bewältigen. Wir führen auch SkillBench ein, einen parallelen, körperübergreifenden und vielfältigen simulierten Benchmark, der drei Körperformen, vier primitive Fähigkeiten und acht anspruchsvolle Loko-Manipulationsaufgaben umfasst, begleitet von einer Reihe wissenschaftlicher Bewertungsmetriken, die Genauigkeit und Machbarkeit ausbalancieren. Umfangreiche Simulationsexperimente zeigen, dass unsere Methode alle Baselines deutlich übertrifft, während sie Verhaltensweisen natürlich reguliert, um Belohnungsmanipulation zu vermeiden, was zu präziseren und machbareren Bewegungen für diverse Loko-Manipulationsaufgaben in unseren alltäglichen Szenarien führt. Unser Code und Benchmark werden der Gemeinschaft zur Verfügung gestellt, um zukünftige Forschung zu fördern. Projektseite: https://usc-gvl.github.io/SkillBlender-web/.
Test-Time-Scaling hat sich als effektiver Ansatz erwiesen, um die Leistung von Sprachmodellen zu verbessern, indem zusätzliche Rechenleistung zur Inferenzzeit genutzt wird. Jüngste Studien haben gezeigt, dass das Überschreiben von End-of-Thinking-Tokens (z. B. das Ersetzen von "</think>" durch "Wait") die Denkschritte verlängern und die Genauigkeit steigern kann. In dieser Arbeit untersuchen wir, ob ein dedizierter Continue-Thinking-Token erlernt werden kann, um erweitertes Denken auszulösen. Wir erweitern eine destillierte Version von DeepSeek-R1 mit einem einzigen erlernten "<|continue-thinking|>"-Token, wobei wir nur dessen Einbettung durch Reinforcement Learning trainieren, während die Modellgewichte eingefroren bleiben. Unsere Experimente zeigen, dass dieser erlernte Token eine verbesserte Genauigkeit auf standardisierten mathematischen Benchmarks im Vergleich sowohl zum Basismodell als auch zu einem Test-Time-Scaling-Ansatz erreicht, der einen festen Token (z. B. "Wait") für Budget Forcing verwendet. Insbesondere beobachten wir, dass in Fällen, in denen der Ansatz mit festem Token die Genauigkeit des Basismodells verbessert, unsere Methode eine deutlich größere Steigerung erzielt. Zum Beispiel erzielt der Ansatz mit festem Token auf dem GSM8K-Benchmark eine absolute Verbesserung der Genauigkeit um 1,3 %, während unsere Methode mit erlerntem Token eine Verbesserung von 4,2 % gegenüber dem Basismodell ohne Budget Forcing erreicht.
Damit Large Language Models (LLMs) sowohl im Alltag als auch in hochriskanten Bereichen zuverlässig eingesetzt werden können, ist es ebenso entscheidend zu wissen, wann keine Antwort gegeben werden sollte, wie korrekt zu antworten. Reale Benutzeranfragen, die unzureichend spezifiziert, schlecht gestellt oder grundsätzlich unbeantwortbar sein können, erfordern, dass LLMs Unsicherheiten bewerten und selektiv verzichten – das heißt, sich weigern, definitiv zu antworten. Dennoch bleibt das Thema des Verzichts untererforscht, ohne ein systematisches Bewertungsrahmenwerk für moderne LLMs. In dieser Arbeit stellen wir AbstentionBench vor, einen groß angelegten Benchmark zur ganzheitlichen Bewertung des Verzichts über 20 verschiedene Datensätze hinweg, einschließlich Fragen mit unbekannten Antworten, Unzureichender Spezifikation, falschen Prämissen, subjektiven Interpretationen und veralteten Informationen. Die Bewertung von 20 führenden LLMs zeigt, dass das Problem des Verzichts ungelöst ist und dass die Skalierung von Modellen wenig Nutzen bringt. Während neuere Reasoning-LLMs beeindruckende Ergebnisse bei der Lösung komplexer Probleme gezeigt haben, stellen wir überraschenderweise fest, dass Reasoning-Fine-Tuning den Verzicht verschlechtert (im Durchschnitt um 24 %), selbst in mathematischen und naturwissenschaftlichen Bereichen, auf die Reasoning-Modelle explizit trainiert sind. Wir stellen fest, dass ein sorgfältig gestalteter System-Prompt den Verzicht in der Praxis zwar verbessern kann, aber die grundlegende Unfähigkeit der Modelle, Unsicherheiten zu bewerten, nicht behebt. Wir veröffentlichen AbstentionBench, um die Forschung zur Verbesserung der Zuverlässigkeit von LLMs zu fördern.
Wir schlagen ein selbstverfeinerndes Framework vor, das die Leistung von ASR (Automatische Spracherkennung) ausschließlich mit ungelabelten Datensätzen verbessert. Der Prozess beginnt damit, dass ein bestehendes ASR-Modell Pseudolabels auf nicht annotierter Sprache generiert, die dann verwendet werden, um ein hochpräzises Text-to-Speech (TTS)-System zu trainieren. Anschließend werden synthetisierte Sprach-Text-Paare in das ursprüngliche ASR-System integriert, wodurch der geschlossene Selbstverbesserungszyklus abgeschlossen wird. Wir haben die Wirksamkeit des Frameworks anhand von taiwanesischem Mandarin demonstriert. Durch die Nutzung von 6.000 Stunden ungelabelter Sprache, einer moderaten Menge an Textdaten und synthetischen Inhalten aus den KI-Modellen haben wir Whisper-large-v2 in ein spezialisiertes Modell namens Twister adaptiert. Twister reduziert die Fehlerraten im Vergleich zu Whisper um bis zu 20 % bei Mandarin und 50 % bei Mandarin-Englisch Code-Switching-Benchmarks. Die Ergebnisse unterstreichen, dass das Framework eine überzeugende Alternative zu Pseudolabeling-Selbstdistillationsansätzen darstellt und einen praktischen Weg zur Verbesserung der ASR-Leistung in ressourcenarmen oder domänenspezifischen Umgebungen bietet.
Diese Arbeit konzentriert sich auf eine beobachtete Einschränkung von Textkodierern: Embeddings sind möglicherweise nicht in der Lage, fein granulierte Entitäten oder Ereignisse innerhalb der Semantik zu erkennen, was zu fehlgeschlagenem dichtem Retrieval selbst in einfachen Fällen führt. Um solche Verhaltensweisen zu untersuchen, führen wir zunächst einen neuen Evaluationsdatensatz in Chinesisch ein, genannt CapRetrieval, dessen Passagen Bildbeschreibungen sind und deren Abfragen Phrasen sind, die Entitäten oder Ereignisse in verschiedenen Formen abfragen. Die Zero-Shot-Evaluierung legt nahe, dass Kodierer bei diesen fein granulierte Übereinstimmungen scheitern können, unabhängig von den Trainingsquellen oder Modellgrößen. Mit dem Ziel der Verbesserung gehen wir dazu über, Kodierer mit unseren vorgeschlagenen Datengenerierungsstrategien zu feintunen, was die beste Leistung auf CapRetrieval erzielt. Innerhalb dieses Prozesses identifizieren wir weiterhin ein Problem des Granularitätsdilemmas, eine Herausforderung für Embeddings, fein granulierte Salienz auszudrücken und gleichzeitig mit der Gesamtsemantik übereinzustimmen. Unser Datensatz, Code und Modelle in dieser Arbeit sind öffentlich unter https://github.com/lxucs/CapRetrieval verfügbar.
Jüngste Bemühungen, das Multi-modale Large Language Model (MLLM) als GUI-Agenten zu nutzen, haben vielversprechende Ergebnisse erzielt. Dennoch kämpfen diese Agenten weiterhin mit langfristigen Aufgaben in Online-Umgebungen, hauptsächlich aufgrund unzureichenden Wissens und der inhärenten Lücke zwischen Offline- und Online-Domänen. In diesem Artikel schlagen wir, inspiriert davon, wie Menschen Wissen in offenen Umgebungen verallgemeinern, ein Hierarchical Multimodal Skills (HMS)-Modul vor, um das Problem des unzureichenden Wissens zu bewältigen. Es abstrahiert schrittweise Trajektorien in Ausführungsfähigkeiten, Kernfähigkeiten und schließlich Meta-Fähigkeiten, wodurch eine hierarchische Wissensstruktur für die Planung langfristiger Aufgaben bereitgestellt wird. Um die Domänenlücke zu überbrücken, schlagen wir den Skill-Augmented Monte Carlo Tree Search (SA-MCTS)-Algorithmus vor, der effizient in Offline-Umgebungen erworbene Fähigkeiten nutzt, um den Aktionssuchraum während der Online-Baumerkundung zu reduzieren. Aufbauend auf HMS präsentieren wir Mirage-1, einen multimodalen, plattformübergreifenden, Plug-and-Play-GUI-Agenten. Um die Leistung von Mirage-1 in realen langfristigen Szenarien zu validieren, haben wir einen neuen Benchmark, AndroidLH, erstellt. Die experimentellen Ergebnisse zeigen, dass Mirage-1 frühere Agenten auf AndroidWorld, MobileMiniWob++, Mind2Web-Live und AndroidLH um 32 %, 19 %, 15 % bzw. 79 % übertrifft. Projektseite: https://cybertronagent.github.io/Mirage-1.github.io/
Große Sprachmodelle (LLMs) zeigen eine starke Leistung in realen Anwendungen, doch bestehende Open-Source-Instruktionsdatensätze konzentrieren sich oft auf enge Domänen, wie Mathematik oder Programmierung, was die Generalisierung einschränkt und die Lücke zu proprietären Modellen vergrößert. Um diese Lücke zu schließen, stellen wir Infinity-Instruct vor, einen hochwertigen Instruktionsdatensatz, der darauf abzielt, sowohl die grundlegenden als auch die Chat-Fähigkeiten von LLMs durch eine zweiphasige Pipeline zu verbessern. In Phase 1 kuratieren wir 7,4 Millionen hochwertige grundlegende Instruktionen (InfInstruct-F-7.4M) aus über 100 Millionen Proben unter Verwendung hybrider Datenauswahltechniken. In Phase 2 synthetisieren wir 1,5 Millionen hochwertige Chat-Instruktionen (InfInstruct-G-1.5M) durch einen zweistufigen Prozess, der Instruktionsauswahl, -evolution und diagnostische Filterung umfasst. Wir evaluieren Infinity-Instruct empirisch, indem wir mehrere Open-Source-Modelle, darunter Mistral, LLaMA, Qwen und Yi, feinabstimmen, und beobachten erhebliche Leistungssteigerungen sowohl bei grundlegenden als auch bei Instruktionsfolge-Benchmarks, wobei die offiziell instruktionsoptimierten Gegenstücke konsequent übertroffen werden. Insbesondere übertrifft InfInstruct-LLaMA3.1-70B GPT-4-0314 bei Instruktionsfolgeaufgaben um 8,6 %, während es eine vergleichbare grundlegende Leistung erzielt. Diese Ergebnisse unterstreichen die Synergie zwischen grundlegender und Chat-Schulung und bieten neue Einblicke in die ganzheitliche Entwicklung von LLMs. Unser Datensatz https://huggingface.co/datasets/BAAI/Infinity-Instruct und unsere Codes https://gitee.com/li-touch/infinity-instruct wurden öffentlich freigegeben.
Die Erkennung schädlicher Memes ist entscheidend für die Wahrung der Integrität von Online-Umgebungen. Allerdings kämpfen aktuelle Ansätze oft mit Ressourceneffizienz, Flexibilität oder Erklärbarkeit, was ihre praktische Anwendung in Inhaltsmoderationssystemen einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir U-CoT+ vor, ein neuartiges Framework zur Erkennung schädlicher Memes. Anstatt sich ausschließlich auf das Prompting oder das Feinabstimmen multimodaler Modelle zu verlassen, entwickeln wir zunächst eine hochpräzise Meme-zu-Text-Pipeline, die visuelle Memes in detailgetreue textuelle Beschreibungen umwandelt. Dieser Entwurf entkoppelt die Meme-Interpretation von der Meme-Klassifikation und vermeidet somit unmittelbares Schlussfolgern über komplexe rohe visuelle Inhalte, wodurch eine ressourceneffiziente Erkennung schädlicher Memes mit allgemeinen großen Sprachmodellen (LLMs) ermöglicht wird. Aufbauend auf diesen textuellen Beschreibungen integrieren wir gezielte, interpretierbare, von Menschen erstellte Richtlinien, um das Schlussfolgern der Modelle unter Zero-Shot CoT-Prompting zu steuern. Dadurch ermöglicht dieses Framework eine einfache Anpassung an verschiedene Schädlichkeitserkennungskriterien über Plattformen, Regionen und im Zeitverlauf hinweg und bietet hohe Flexibilität und Erklärbarkeit. Umfangreiche Experimente auf sieben Benchmark-Datensätzen validieren die Effektivität unseres Frameworks und unterstreichen sein Potenzial für erklärbare und ressourcenschonende Erkennung schädlicher Memes unter Verwendung kleinerer LLMs. Codes und Daten sind verfügbar unter: https://anonymous.4open.science/r/HMC-AF2B/README.md.
Das Standardparadigma zur Lösung von Programmieraufgaben mithilfe großer Sprachmodelle (LLMs) besteht darin, Programme zu generieren und anschließend zu bewerten, wobei der letzte Schritt einen Verifizierer im Bewertungsprozess verwendet. Die zunehmende Übereinstimmung ist, dass ein umfassender Verifizierer (z. B. ein vollständiger Testsuite) gegenüber einem Ergebnis-Belohnungsmodell (Outcome Reward Model, ORM) priorisiert werden sollte, wobei die damit verbundenen Kompromisse kaum berücksichtigt werden. Wir zielen darauf ab, diese Annahme zu hinterfragen, indem wir den Kompromiss zwischen Geschwindigkeit und Genauigkeit systematisch untersuchen. Wir stellen fest, dass ORMs eine entscheidende Rolle bei der Skalierung der Verifizierung spielen, indem sie Genauigkeit gegen Geschwindigkeit eintauschen, selbst wenn ein umfassender Verifizierer verfügbar ist. Ihr Wert wird besonders deutlich, wenn sie in einem Generieren-Beschneiden-Bewerten-Ansatz verwendet werden, bei dem ein schnellerer, aber weniger genauer Verifizierer falsche Lösungen vor der Bewertung aussortiert – was zu einem System führt, das 11,65-mal schneller ist, während es nur 8,33 % weniger genau ist als die vollständige Testsuite. Wir analysieren den Generieren-Beschneiden-Bewerten-Ansatz und zeigen, dass er funktioniert, indem er falsche, aber hoch bewertete Lösungen herausfiltert. Diese Erkenntnisse ermöglichen die Gestaltung skalierbarer und präziser Systeme zur Programmrangfolge.
Wir stellen eine auf Aufmerksamkeit basierende Methode vor, die gelernte binäre Aufmerksamkeitsmasken verwendet, um sicherzustellen, dass nur die beachteten Bildregionen die Vorhersage beeinflussen. Kontext kann die Objektwahrnehmung stark beeinflussen, was manchmal zu verzerrten Darstellungen führt, insbesondere wenn Objekte in Hintergründen außerhalb der Verteilung erscheinen. Gleichzeitig erfordern viele bildbezogene, objektzentrierte Aufgaben die Identifizierung relevanter Regionen, was oft Kontext benötigt. Um dieses Dilemma zu lösen, schlagen wir ein zweistufiges Framework vor: Stufe 1 verarbeitet das gesamte Bild, um Objektteile zu entdecken und aufgabenrelevante Regionen zu identifizieren, während Stufe 2 Eingabe-Aufmerksamkeitsmaskierung nutzt, um ihr rezeptives Feld auf diese Regionen zu beschränken. Dies ermöglicht eine fokussierte Analyse, während potenziell irreführende Informationen herausgefiltert werden. Beide Stufen werden gemeinsam trainiert, sodass Stufe 2 Stufe 1 verfeinern kann. Umfangreiche Experimente über diverse Benchmarks zeigen, dass unser Ansatz die Robustheit gegen irreführende Korrelationen und Hintergründe außerhalb der Verteilung signifikant verbessert.
Kürzlich haben Large Language Models (LLMs) ein erhebliches Potenzial für die Datenannotation gezeigt, wodurch die Arbeitskosten für nachgelagerte Anwendungen deutlich reduziert werden konnten. Bisherige Methoden verfolgen jedoch meist eine aggressive Strategie, bei der der LLM aufgefordert wird, für jede unmarkierte Probe eine einzige Gold-Label zu bestimmen. Aufgrund der inhärenten Unsicherheit in LLMs produzieren diese oft falsche Labels für schwierige Proben, was die Datenqualität für nachgelagerte Anwendungen erheblich beeinträchtigt. Inspiriert von der Ambivalenzaversion im menschlichen Verhalten schlagen wir ein neuartiges Kandidaten-Annotation-Paradigma vor, bei dem Large Language Models dazu ermutigt werden, bei Unsicherheit alle möglichen Labels auszugeben. Um sicherzustellen, dass eindeutige Labels für nachgelagerte Aufgaben bereitgestellt werden, entwickeln wir ein Lehrer-Schüler-Framework namens CanDist, das Kandidaten-Annotationen mit einem Small Language Model (SLM) destilliert. Wir liefern zudem eine rigorose Begründung, die zeigt, dass die Destillation von Kandidaten-Annotationen vom Lehrer-LLM bessere theoretische Garantien bietet als die direkte Verwendung einzelner Annotationen. Umfangreiche Experimente über sechs Textklassifizierungsaufgaben bestätigen die Wirksamkeit unserer vorgeschlagenen Methode. Der Quellcode ist unter https://github.com/MingxuanXia/CanDist verfügbar.
Modelle für menschliches Feedback zur KI-Ausrichtung, wie sie der Direct Preference Optimization (DPO) zugrunde liegen, basieren oft auf einem einzigen, statischen Satz von Präferenzen, was die Anpassungsfähigkeit einschränkt. Diese Arbeit stellt die Annahme monolithischer Präferenzen in Frage, indem sie Configurable Preference Tuning (CPT) einführt, ein neuartiges Framework, das Sprachmodelle mit der Fähigkeit ausstattet, ihr Verhalten dynamisch anhand expliziter, menschlich interpretierbarer Anweisungen anzupassen. CPT nutzt synthetisch generierte Präferenzdaten, die auf Systemprompts basieren, die aus strukturierten, feingranularen Bewertungskriterien abgeleitet werden, die gewünschte Attribute wie Schreibstil definieren. Durch das Feinabstimmen mit diesen rubrikgeleiteten Präferenzen lernt das LLM, seine Ausgaben zur Inferenzzeit in Reaktion auf den Systemprompt zu modulieren, ohne erneut trainiert zu werden. Dieser Ansatz bietet nicht nur eine feingranulare Kontrolle, sondern stellt auch einen Mechanismus zur Modellierung nuancenreicheren und kontextabhängigen menschlichen Feedbacks bereit. Verschiedene experimentelle Artefakte, wie Trainingscode, generierte Datensätze und feinabgestimmte Modelle, werden unter https://github.com/vicgalle/configurable-preference-tuning veröffentlicht.