Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir zeigen, dass Reinforcement Learning mit verifizierbarer Belohnung anhand eines einzigen Trainingsbeispiels (1-Shot RLVR) effektiv ist, um die mathematischen Denkfähigkeiten großer Sprachmodelle (LLMs) zu fördern. Durch die Anwendung von RLVR auf das Basismodell Qwen2.5-Math-1.5B identifizieren wir ein einzelnes Beispiel, das die Modellleistung auf MATH500 von 36,0 % auf 73,6 % steigert und die durchschnittliche Leistung über sechs gängige mathematische Denkbenchmarks von 17,6 % auf 35,7 % verbessert. Dieses Ergebnis entspricht der Leistung, die mit der 1,2k DeepScaleR-Teilmenge (MATH500: 73,6 %, Durchschnitt: 35,9 %) erzielt wird, die das genannte Beispiel enthält. Ähnlich deutliche Verbesserungen werden über verschiedene Modelle (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-Algorithmen (GRPO und PPO) und unterschiedliche mathematische Beispiele hinweg beobachtet (von denen viele eine Verbesserung von etwa 30 % oder mehr auf MATH500 bewirken, wenn sie als einzelnes Trainingsbeispiel verwendet werden). Darüber hinaus identifizieren wir einige interessante Phänomene während des 1-Shot RLVR, darunter domänenübergreifende Generalisierung, eine erhöhte Häufigkeit von Selbstreflexion und eine anhaltende Verbesserung der Testleistung, selbst nachdem die Trainingsgenauigkeit gesättigt ist – ein Phänomen, das wir als Post-Sättigungs-Generalisierung bezeichnen. Zudem bestätigen wir, dass die Wirksamkeit von 1-Shot RLVR hauptsächlich auf den Policy-Gradient-Verlust zurückzuführen ist, was es vom „Grokking“-Phänomen unterscheidet. Wir zeigen auch die entscheidende Rolle der Förderung von Exploration (z. B. durch Hinzufügen eines Entropieverlusts mit einem geeigneten Koeffizienten) beim 1-Shot RLVR-Training. Als Bonus beobachten wir, dass die alleinige Anwendung des Entropieverlusts ohne jegliche Ergebnisbelohnung die Leistung von Qwen2.5-Math-1.5B auf MATH500 um 27,4 % deutlich verbessert. Diese Erkenntnisse können zukünftige Arbeiten zur Dateneffizienz von RLVR inspirieren und eine Neubewertung sowohl der jüngsten Fortschritte als auch der zugrunde liegenden Mechanismen in RLVR anregen. Unser Code, Modell und Daten sind Open Source unter https://github.com/ypwang61/One-Shot-RLVR verfügbar.
Die Messung von Fortschritten ist grundlegend für den Fortschritt in jedem wissenschaftlichen Bereich. Da Benchmarks eine zunehmend zentrale Rolle spielen, werden sie auch anfälliger für Verzerrungen. Die Chatbot Arena hat sich als führende Rangliste für die Bewertung der leistungsfähigsten KI-Systeme etabliert. In dieser Arbeit identifizieren wir jedoch systematische Probleme, die zu einem verzerrten Wettbewerbsfeld geführt haben. Wir stellen fest, dass nicht offengelegte private Testpraktiken einer Handvoll von Anbietern zugutekommen, die mehrere Varianten vor der öffentlichen Veröffentlichung testen und bei Bedarf Bewertungen zurückziehen können. Wir zeigen, dass die Fähigkeit dieser Anbieter, die besten Ergebnisse auszuwählen, zu verzerrten Arena-Bewertungen führt, da Leistungsergebnisse selektiv offengelegt werden. Im Extremfall identifizieren wir 27 private LLM-Varianten, die von Meta im Vorfeld der Llama-4-Veröffentlichung getestet wurden. Wir stellen außerdem fest, dass proprietäre geschlossene Modelle mit höheren Raten (Anzahl der Vergleiche) getestet werden und weniger Modelle aus der Arena entfernt werden als Open-Weight- und Open-Source-Alternativen. Beide Praktiken führen im Laufe der Zeit zu erheblichen Datenzugriffsasymmetrien. Anbieter wie Google und OpenAI haben schätzungsweise 19,2 % bzw. 20,4 % aller Daten in der Arena erhalten. Im Gegensatz dazu haben 83 Open-Weight-Modelle zusammen nur schätzungsweise 29,7 % der Gesamtdaten erhalten. Wir zeigen, dass der Zugriff auf Chatbot-Arena-Daten erhebliche Vorteile bietet; selbst begrenzte zusätzliche Daten können zu relativen Leistungssteigerungen von bis zu 112 % auf der Arena-Verteilung führen, basierend auf unseren konservativen Schätzungen. Zusammengenommen führen diese Dynamiken zu einer Überanpassung an Arena-spezifische Dynamiken anstatt an die allgemeine Modellqualität. Die Arena basiert auf den erheblichen Bemühungen sowohl der Organisatoren als auch einer offenen Community, die diese wertvolle Evaluierungsplattform aufrechterhält. Wir bieten umsetzbare Empfehlungen, um das Bewertungsframework der Chatbot Arena zu reformieren und ein faireres, transparenteres Benchmarking für das Feld zu fördern.
Retrieval-Augmented Generation (RAG) hat erhebliches Potenzial gezeigt, um die faktische Genauigkeit zu verbessern, indem Modellantworten mit externem, für die Anfragen relevantem Wissen untermauert werden. Die meisten bestehenden RAG-Ansätze sind jedoch auf ein rein textbasiertes Korpus beschränkt, und obwohl jüngste Bemühungen RAG auf andere Modalitäten wie Bilder und Videos ausgeweitet haben, operieren diese typischerweise über ein einzelnes modalitätsspezifisches Korpus. Im Gegensatz dazu variieren reale Anfragen stark in der Art des benötigten Wissens, das eine einzelne Wissensquelle nicht abdecken kann. Um dies zu adressieren, führen wir UniversalRAG ein, ein neuartiges RAG-Framework, das darauf ausgelegt ist, Wissen aus heterogenen Quellen mit unterschiedlichen Modalitäten und Granularitäten abzurufen und zu integrieren. Konkret schlagen wir, motiviert durch die Beobachtung, dass das Erzwingen aller Modalitäten in einen einheitlichen Repräsentationsraum, der aus einem einzigen kombinierten Korpus abgeleitet wird, eine Modalitätslücke verursacht, bei der der Abruf tendenziell Elemente aus derselben Modalität wie die Anfrage bevorzugt, einen modalitätsbewussten Routing-Mechanismus vor, der dynamisch das am besten geeignete modalitätsspezifische Korpus identifiziert und gezielte Abfragen darin durchführt. Darüber hinaus organisieren wir jede Modalität in mehrere Granularitätsebenen, was eine fein abgestimmte Abfrage ermöglicht, die auf die Komplexität und den Umfang der Anfrage zugeschnitten ist. Wir validieren UniversalRAG anhand von 8 Benchmarks, die mehrere Modalitäten umfassen, und zeigen seine Überlegenheit gegenüber modalitätsspezifischen und einheitlichen Baselines.
Wir präsentieren ReasonIR-8B, den ersten Retrieval-Modell, das speziell für allgemeine Denkaufgaben trainiert wurde. Bisherige Retrieval-Modelle haben nur begrenzte Fortschritte bei Denkaufgaben gezeigt, teilweise weil bestehende Trainingsdatensätze sich auf kurze, faktenbasierte Anfragen konzentrieren, die direkt durch Dokumente beantwortet werden. Wir entwickeln eine Pipeline zur synthetischen Datengenerierung, die für jedes Dokument eine herausfordernde und relevante Anfrage erstellt, zusammen mit einem plausibel verwandten, aber letztlich unbrauchbaren Hard Negative. Durch das Training auf einer Mischung aus unseren synthetischen Daten und bestehenden öffentlichen Daten erreicht ReasonIR-8B einen neuen State-of-the-Art von 29,9 nDCG@10 ohne Reranker und 36,9 nDCG@10 mit Reranker auf BRIGHT, einem weit verbreiteten Benchmark für informationsintensives Retrieval (IR). Bei der Anwendung auf RAG-Aufgaben verbessert ReasonIR-8B die Leistung bei MMLU und GPQA um 6,4 % bzw. 22,6 % im Vergleich zur Closed-Book-Baseline und übertrifft dabei andere Retrieval-Modelle und Suchmaschinen. Darüber hinaus nutzt ReasonIR-8B die Rechenleistung zur Testzeit effektiver: Bei BRIGHT steigt seine Leistung kontinuierlich mit längeren und informationsreicheren umformulierten Anfragen; es übertrifft weiterhin andere Retrieval-Modelle, wenn es mit einem LLM-Reranker kombiniert wird. Unser Trainingsrezept ist allgemein und kann leicht auf zukünftige LLMs erweitert werden; zu diesem Zweck stellen wir unseren Code, unsere Daten und unser Modell als Open Source zur Verfügung.
Belohnungsbasierte Alignment-Methoden für große Sprachmodelle (LLMs) stehen vor zwei zentralen Herausforderungen: Anfälligkeit für Reward Hacking, bei dem Modelle Schwächen im Belohnungssignal ausnutzen; und die Abhängigkeit von fragiler, arbeitsintensiver Prompt-Engineering, wenn LLMs als Belohnungsmodelle eingesetzt werden. Wir stellen Meta Policy Optimization (MPO) vor, ein Framework, das diese Probleme durch die Integration eines Meta-Belohnungsmodells adressiert, das den Prompt des Belohnungsmodells während des Trainings dynamisch verfeinert. In MPO überwacht das Meta-Belohnungsmodell den sich entwickelnden Trainingskontext und passt kontinuierlich den Prompt des Belohnungsmodells an, um eine hohe Alignment-Qualität aufrechtzuerhalten. Dies liefert ein adaptives Belohnungssignal, das einer Ausnutzung durch die Policy widersteht. Dieser Meta-Learning-Ansatz fördert eine stabilere Policy-Optimierung und reduziert den Bedarf an manuellem Design von Belohnungs-Prompts erheblich. Es erzielt eine Leistung, die mit oder besser ist als Modelle, die durch aufwendig handgefertigte Belohnungs-Prompts gesteuert werden. Darüber hinaus zeigen wir, dass MPO seine Wirksamkeit über verschiedene Aufgaben hinweg beibehält, wie z. B. Fragebeantwortung und mathematisches Denken, ohne spezialisierte Belohnungsdesigns zu benötigen. Über den Standard-RLAIF hinaus ist die Meta-Learning-Formulierung von MPO leicht auf höhere Alignment-Frameworks erweiterbar. Insgesamt adressiert diese Methode theoretische und praktische Herausforderungen im belohnungsbasierten RL-Alignment für LLMs und ebnet den Weg für robustere und anpassungsfähigere Alignment-Strategien. Der Code und die Modelle werden öffentlich zugänglich gemacht.
Dieses Papier stellt einen effektiven Ansatz zum Lernen neuartiger 4D-verkörperter Weltmodelle vor, die die dynamische Entwicklung von 3D-Szenen über die Zeit als Reaktion auf die Aktionen eines verkörperten Agenten vorhersagen und dabei sowohl räumliche als auch zeitliche Konsistenz gewährleisten. Wir schlagen vor, ein 4D-Weltmodell durch das Training auf RGB-DN (RGB, Tiefe und Normalen) Videos zu erlernen. Dies übertrifft nicht nur traditionelle 2D-Modelle, indem detaillierte Form, Konfiguration und zeitliche Veränderungen in die Vorhersagen einbezogen werden, sondern ermöglicht es uns auch, präzise inverse dynamische Modelle für einen verkörperten Agenten effektiv zu erlernen. Konkret erweitern wir zunächst bestehende Datensätze für Roboter-Manipulationsvideos mit Tiefen- und Normaleninformationen unter Nutzung von Standardmodellen. Anschließend feintunen wir ein Video-Generierungsmodell auf diesem annotierten Datensatz, das gemeinsam RGB-DN (RGB, Tiefe und Normalen) für jedes Frame vorhersagt. Danach präsentieren wir einen Algorithmus, der generierte RGB-, Tiefen- und Normalenvideos direkt in eine hochwertige 4D-Szene der Welt umwandelt. Unsere Methode gewährleistet zeitliche und räumliche Kohärenz in 4D-Szenenvorhersagen aus verkörperten Szenarien, ermöglicht die Synthese neuer Ansichten für verkörperte Umgebungen und erleichtert das Erlernen von Strategien, die diejenigen aus früheren videobasierten Weltmodellen deutlich übertreffen.
Befehlsbasierte Bildbearbeitung ermöglicht eine robuste Bildmodifikation durch natürliche Sprachbefehle, doch aktuelle Methoden stehen vor einem Präzision-Effizienz-Kompromiss. Feinabstimmungsmethoden erfordern erhebliche Rechenressourcen und große Datensätze, während trainingsfreie Techniken mit der Befehlsverständlichkeit und Bearbeitungsqualität kämpfen. Wir lösen dieses Dilemma, indem wir die verbesserte Generierungskapazität und das native kontextuelle Bewusstsein von großskaligen Diffusion Transformers (DiT) nutzen. Unsere Lösung führt drei Beiträge ein: (1) ein In-Context-Bearbeitungsframework für Zero-Shot-Befehlsbefolgung durch In-Context-Prompting, das strukturelle Änderungen vermeidet; (2) eine LoRA-MoE-Hybridabstimmungsstrategie, die die Flexibilität durch effiziente Anpassung und dynamisches Experten-Routing erhöht, ohne umfangreiche Nachschulungen zu erfordern; und (3) eine frühe Filter-Inferenzzeit-Skalierungsmethode unter Verwendung von Vision-Language-Modellen (VLMs), um bessere Anfangsrauschen frühzeitig auszuwählen und so die Bearbeitungsqualität zu verbessern. Umfangreiche Auswertungen demonstrieren die Überlegenheit unserer Methode: Sie übertrifft state-of-the-art Ansätze, während sie nur 0,5 % der Trainingsdaten und 1 % der trainierbaren Parameter im Vergleich zu konventionellen Baselines benötigt. Diese Arbeit etabliert ein neues Paradigma, das eine hochpräzise und dennoch effiziente befehlsgesteuerte Bearbeitung ermöglicht. Codes und Demos finden Sie unter https://river-zhang.github.io/ICEdit-gh-pages/.
Die Exposition großer Sprachmodelle (LLMs) gegenüber urheberrechtlich geschütztem Material während des Vortrainings wirft Bedenken hinsichtlich unbeabsichtigter Urheberrechtsverletzungen nach der Bereitstellung auf. Dies hat die Entwicklung von „Copyright Takedown“-Methoden vorangetrieben, post-trainingsbasierte Ansätze, die verhindern sollen, dass Modelle Inhalte erzeugen, die urheberrechtlich geschützten Werken stark ähneln. Während aktuelle Minderungsansätze für durchschnittliche Risiken einigermaßen effektiv sind, zeigen wir, dass sie die Worst-Case-Urheberrechtsrisiken übersehen, die durch das Vorhandensein langer, wortgetreuer Zitate aus geschützten Quellen offenbart werden. Wir schlagen BloomScrub vor, einen bemerkenswert einfachen, aber äußerst effektiven Inferenzzeit-Ansatz, der zertifizierte Copyright-Takedowns ermöglicht. Unsere Methode verknüpft wiederholt Zitatdetektion mit Umformulierungstechniken, um potenziell rechtsverletzende Segmente zu transformieren. Durch die Nutzung effizienter Daten-Skizzen (Bloom-Filter) ermöglicht unser Ansatz eine skalierbare Urheberrechtsprüfung selbst für groß angelegte, reale Korpora. Wenn Zitate, die eine bestimmte Längenschwelle überschreiten, nicht entfernt werden können, kann das System davon absehen, zu antworten, und bietet so eine zertifizierte Risikoreduzierung. Experimentelle Ergebnisse zeigen, dass BloomScrub das Verletzungsrisiko verringert, die Nützlichkeit bewahrt und unterschiedliche Durchsetzungsstrenge durch adaptive Enthaltung berücksichtigt. Unsere Ergebnisse deuten darauf hin, dass leichte, Inferenzzeit-Methoden überraschend effektiv für die Urheberrechtsprävention sein können.
Wir präsentieren X-Fusion, ein Framework, das vortrainierte Large Language Models (LLMs) für multimodale Aufgaben erweitert, während deren Sprachfähigkeiten erhalten bleiben. X-Fusion verwendet ein Dual-Tower-Design mit modalitätsspezifischen Gewichten, wobei die Parameter des LLMs eingefroren bleiben, während visuell-spezifische Informationen sowohl für das Verständnis als auch für die Generierung integriert werden. Unsere Experimente zeigen, dass X-Fusion alternative Architekturen sowohl bei Bild-zu-Text- als auch bei Text-zu-Bild-Aufgaben durchgehend übertrifft. Wir stellen fest, dass die Einbindung von verständnisorientierten Daten die Generierungsqualität verbessert, die Reduzierung von Bilddatenrauschen die Gesamtleistung steigert und die Feature-Ausrichtung die Konvergenz bei kleineren Modellen beschleunigt, jedoch nur minimalen Einfluss auf größere Modelle hat. Unsere Erkenntnisse bieten wertvolle Einblicke in den Aufbau effizienter, einheitlicher multimodaler Modelle.
Große multimodale Modelle (z. B. GPT-4, Gemini, Chameleon) haben sich zu leistungsstarken Werkzeugen mit Millionen von Nutzern entwickelt. Sie bleiben jedoch generische Modelle und verfügen nicht über personalisiertes Wissen zu spezifischen Benutzerkonzepten. Frühere Arbeiten haben Personalisierung für die Textgenerierung untersucht, doch es bleibt unklar, wie diese Methoden auf neue Modalitäten, wie die Bildgenerierung, angepasst werden können. In diesem Artikel stellen wir Yo'Chameleon vor, den ersten Versuch, Personalisierung für große multimodale Modelle zu untersuchen. Mit 3-5 Bildern eines bestimmten Konzepts nutzt Yo'Chameleon Soft-Prompt-Tuning, um subjektspezifische Informationen einzubetten, um (i) Fragen zum Subjekt zu beantworten und (ii) Pixel-genaue Details nachzubilden, um Bilder des Subjekts in neuen Kontexten zu erzeugen. Yo'Chameleon wird trainiert mit (i) einem Selbst-Prompting-Optimierungsmechanismus, um die Leistung über mehrere Modalitäten hinweg auszugleichen, und (ii) einem „Soft-Positive“-Ansatz zur Bildgenerierung, um die Bildqualität in einem Few-Shot-Setting zu verbessern.
Das Training großer Sprachmodelle (LLMs) als interaktive Agenten stellt einzigartige Herausforderungen dar, darunter langfristige Entscheidungsfindung und die Interaktion mit stochastischem Umweltfeedback. Während Reinforcement Learning (RL) Fortschritte bei statischen Aufgaben ermöglicht hat, bleibt das Training von Agenten für Mehrfachinteraktionen mit RL weitgehend unerforscht. Wir schlagen StarPO (State-Thinking-Actions-Reward Policy Optimization) vor, einen allgemeinen Rahmen für trajektorienbasiertes Agenten-RL, und führen RAGEN ein, ein modulares System für das Training und die Bewertung von LLM-Agenten. Unsere Studie in drei stilisierten Umgebungen offenbart drei zentrale Erkenntnisse. Erstens zeigt unser Agenten-RL-Training ein wiederkehrendes Muster des Echo Traps, bei dem es zu Varianzsprüngen bei den Belohnungen und Gradientenspitzen kommt; wir adressieren dies mit StarPO-S, einer stabilisierten Variante mit Trajektorienfilterung, Einbindung eines Kritikers und entkoppeltem Clipping. Zweitens stellen wir fest, dass die Gestaltung von RL-Rollouts von diversen Ausgangszuständen, mittlerer Interaktionsgranularität und häufigerer Probennahme profitieren würde. Drittens zeigen wir, dass ohne fein abgestimmte, auf das Denken abgestimmte Belohnungssignale das Denken der Agenten kaum durch Mehrfachinteraktionen mit RL entsteht und sie oberflächliche Strategien oder halluzinierte Gedanken zeigen können. Code und Umgebungen sind verfügbar unter https://github.com/RAGEN-AI/RAGEN.
Die Erzeugung von multimodalem immersivem Raumdrama konzentriert sich auf die Erstellung von kontinuierlicher binauraler Mehrsprecher-Sprache mit dramatischer Prosodie basierend auf multimodalen Eingaben, mit potenziellen Anwendungen in AR, VR und anderen Bereichen. Diese Aufgabe erfordert die gleichzeitige Modellierung von räumlichen Informationen und dramatischer Prosodie basierend auf multimodalen Eingaben, was mit hohen Datenerfassungskosten verbunden ist. Nach unserem besten Wissen ist unsere Arbeit der erste Versuch, diese Herausforderungen zu bewältigen. Wir erstellen MRSDrama, den ersten multimodalen aufgezeichneten Raumdrama-Datensatz, der binaurale Drama-Audios, Skripte, Videos, geometrische Posen und textuelle Eingaben enthält. Anschließend schlagen wir ISDrama vor, das erste Modell zur Erzeugung von immersivem Raumdrama durch multimodale Eingaben. ISDrama besteht aus diesen Hauptkomponenten: 1) Multimodaler Pose-Encoder, basierend auf kontrastivem Lernen, der den Doppler-Effekt durch bewegte Sprecher berücksichtigt, um einheitliche Pose-Informationen aus multimodalen Eingaben zu extrahieren. 2) Immersiver Drama-Transformer, ein flow-basiertes Mamba-Transformer-Modell, das hochwertiges Drama erzeugt und Drama-MOE integriert, um geeignete Experten für verbesserte Prosodie und Posesteuerung auszuwählen. Wir entwerfen auch eine kontextkonsistente, klassifikatorfreie Leitstrategie, um kohärent vollständiges Drama zu erzeugen. Experimentelle Ergebnisse zeigen, dass ISDrama Baseline-Modelle in objektiven und subjektiven Metriken übertrifft. Die Demos und der Datensatz sind unter https://aaronz345.github.io/ISDramaDemo verfügbar.
Retrieval-augmented Generation (RAG)-Systeme stehen bei Multi-Hop-Fragebeantwortung (MHQA) vor erheblichen Herausforderungen, da komplexe Anfragen die Synthese von Informationen über mehrere Dokumentenabschnitte hinweg erfordern. Bisherige Ansätze basieren typischerweise auf iterativem LLM-gestütztem Query-Rewriting und Routing, was aufgrund wiederholter LLM-Aufrufe und mehrstufiger Prozesse zu hohen Rechenkosten führt. Um diese Einschränkungen zu überwinden, schlagen wir TreeHop vor, ein Embedding-basiertes Framework, das auf LLMs für die Anfrageverfeinerung verzichtet. TreeHop aktualisiert dynamisch Query-Embeddings, indem es semantische Informationen aus vorherigen Anfragen und abgerufenen Dokumenten fusioniert und so iterative Retrieval-Prozesse allein durch Operationen im Embedding-Raum ermöglicht. Diese Methode ersetzt den traditionellen "Retrieve-Rewrite-Vectorize-Retrieve"-Zyklus durch einen effizienten "Retrieve-Embed-Retrieve"-Loop, wodurch der Rechenaufwand erheblich reduziert wird. Zusätzlich wird ein regelbasiertes Stoppkriterium eingeführt, um redundante Retrievals weiter zu minimieren und so Effizienz und Recall-Rate auszugleichen. Experimentelle Ergebnisse zeigen, dass TreeHop mit fortgeschrittenen RAG-Methoden auf drei Open-Domain-MHQA-Datensätzen konkurrieren kann und dabei vergleichbare Leistung bei nur 5\%–0,4\% der Modellparametergröße erzielt. Gleichzeitig reduziert sich die Anfragelatenz um etwa 99\% im Vergleich zu aktuellen Ansätzen. Dies macht TreeHop zu einer schnelleren und kosteneffizienteren Lösung für den Einsatz in einer Vielzahl von wissensintensiven Anwendungen. Zur Reproduzierbarkeit sind Codes und Daten hier verfügbar: https://github.com/allen-li1231/TreeHop.
Aktuelle Pipelines für Reinforcement Learning aus menschlichem Feedback (RLHF) zur Ausrichtung großer Sprachmodelle (LLM) weisen in der Regel skalare Belohnungen Sequenzen zu, wobei das letzte Token als Ersatzindikator für die Qualität der gesamten Sequenz verwendet wird. Dies führt jedoch zu spärlichem Feedback und suboptimaler Token-spezifischer Belohnungszuweisung. In dieser Arbeit formulieren wir die Belohnungsgestaltung als ein Optimierungsproblem, das sich auf die Token-spezifische Belohnungszuweisung konzentriert. Wir schlagen eine Belohnungsgestaltungsfunktion vor, die Erklärbarkeitsmethoden wie SHAP und LIME nutzt, um Token-spezifische Belohnungen aus dem Belohnungsmodell abzuschätzen. Um die Parameter dieser Gestaltungsfunktion zu lernen, verwenden wir ein bi-level-Optimierungsframework, das Bayesian Optimization und Policy-Training integriert, um das Rauschen in den Token-Belohnungsschätzungen zu handhaben. Unsere Experimente zeigen, dass eine bessere Balance bei der Token-spezifischen Belohnungszuweisung zu Leistungsverbesserungen gegenüber den Baselines bei nachgelagerten Aufgaben führt und während des Trainings eine optimale Policy schneller findet. Darüber hinaus zeigen wir theoretisch, dass Erklärbarkeitsmethoden, die als feature-additive Attributionsfunktionen fungieren, die optimale Policy der ursprünglichen Belohnung beibehalten.
Rechtsanwender, insbesondere diejenigen am Anfang ihrer Karriere, stehen vor komplexen, hochriskanten Aufgaben, die adaptives, kontextsensitives Denken erfordern. Während KI Potenzial bietet, um juristische Arbeit zu unterstützen, sind aktuelle Datensätze und Modelle eng auf isolierte Teilaufgaben fokussiert und erfassen nicht die end-to-end Entscheidungsfindung, die in der Praxis erforderlich ist. Um diese Lücke zu schließen, stellen wir LawFlow vor, einen Datensatz vollständiger end-to-end juristischer Arbeitsabläufe, der von ausgebildeten Jurastudenten in realen Szenarien der Unternehmensgründung erstellt wurde. Im Gegensatz zu früheren Datensätzen, die sich auf Eingabe-Ausgabe-Paare oder lineare Gedankenketten konzentrierten, erfasst LawFlow dynamische, modulare und iterative Denkprozesse, die die Mehrdeutigkeit, Überarbeitung und kundenadaptive Strategien der juristischen Praxis widerspiegeln. Mit LawFlow vergleichen wir menschliche und KI-generierte Arbeitsabläufe und zeigen systematische Unterschiede in Struktur, Denkflexibilität und Planausführung auf. Menschliche Arbeitsabläufe sind tendenziell modular und adaptiv, während KI-Arbeitsabläufe sequenzieller, erschöpfender und weniger sensibel für nachgelagerte Auswirkungen sind. Unsere Ergebnisse deuten auch darauf hin, dass juristische Fachkräfte es bevorzugen, wenn KI unterstützende Rollen übernimmt, wie z.B. Brainstorming, das Aufdecken von blinden Flecken und das Aufzeigen von Alternativen, anstatt komplexe Arbeitsabläufe end-to-end auszuführen. Basierend auf diesen Erkenntnissen schlagen wir eine Reihe von Designvorschlägen vor, die auf empirischen Beobachtungen beruhen und KI-Unterstützung mit menschlichen Zielen wie Klarheit, Vollständigkeit, Kreativität und Effizienz durch hybride Planung, adaptive Ausführung und Entscheidungspunktunterstützung in Einklang bringen. Unsere Ergebnisse verdeutlichen sowohl die aktuellen Grenzen von KI-Modellen bei der Unterstützung komplexer juristischer Arbeitsabläufe als auch die Möglichkeiten zur Entwicklung kollaborativerer, denkbewusster juristischer KI-Systeme. Alle Daten und Codes sind auf unserer Projektseite verfügbar (https://minnesotanlp.github.io/LawFlow-website/).
Jüngste Fortschritte in der Talking Head Generation (THG) haben durch Diffusionsmodelle beeindruckende Lippensynchronisation und visuelle Qualität erreicht; dennoch kämpfen bestehende Methoden damit, emotional ausdrucksstarke Porträts zu generieren, während die Sprecheridentität erhalten bleibt. Wir identifizieren drei kritische Einschränkungen in der aktuellen emotionalen Talking Head Generation: unzureichende Nutzung der inhärenten emotionalen Hinweise in der Audioaufnahme, Identitätsverlust in den Emotionsdarstellungen und isoliertes Lernen von Emotionskorrelationen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Framework namens DICE-Talk vor, das auf der Idee basiert, Identität von Emotionen zu entkoppeln und dann Emotionen mit ähnlichen Eigenschaften zu kombinieren. Zunächst entwickeln wir einen entkoppelten Emotionsembedder, der audiovisuelle emotionale Hinweise durch cross-modale Aufmerksamkeit gemeinsam modelliert und Emotionen als identitätsunabhängige Gaußsche Verteilungen darstellt. Zweitens führen wir ein korrelationsverstärktes Emotionskonditionierungsmodul mit lernbaren Emotionsbanken ein, die inter-emotionale Beziehungen explizit durch Vektorquantisierung und aufmerksamkeitsbasierte Merkmalsaggregation erfassen. Drittens entwerfen wir ein Emotionsdiskriminierungsziel, das affektive Konsistenz während des Diffusionsprozesses durch latente Raumklassifikation erzwingt. Umfangreiche Experimente auf den MEAD- und HDTF-Datensätzen demonstrieren die Überlegenheit unserer Methode, die state-of-the-art Ansätze in der Emotionsgenauigkeit übertrifft, während sie eine wettbewerbsfähige Lippen-sync-Leistung beibehält. Qualitative Ergebnisse und Benutzerstudien bestätigen weiterhin die Fähigkeit unserer Methode, identitätsbewahrende Porträts mit reichen, korrelierten emotionalen Ausdrücken zu generieren, die sich natürlich an unbekannte Identitäten anpassen.
Chain-of-Thought-Prompting hat großen Erfolg bei der Förderung der Argumentationsfähigkeiten großer Sprachmodelle gezeigt. In dieser Arbeit untersuchen wir, wie diese verbesserten Argumentationsfähigkeiten genutzt werden können, um die Robustheit großer Sprachmodelle bei Aufgaben zu verbessern, die nicht unbedingt auf Argumentation ausgerichtet sind. Insbesondere zeigen wir, wie eine Vielzahl großer Sprachmodelle deutlich verbesserte Robustheit gegen Referenzkorruption aufweisen, wenn eine einfache Methode namens Chain-of-Defensive-Thought verwendet wird, bei der nur wenige Beispiele mit strukturierter und defensiver Argumentation als Demonstrationen bereitgestellt werden. Empirisch können die Verbesserungen erstaunlich sein, insbesondere angesichts der Einfachheit und Anwendbarkeit der Methode. Zum Beispiel sinkt die Genauigkeit von GPT-4o bei der Aufgabe Natural Questions von 60 % auf bis zu 3 % bei Standard-Prompting, wenn 1 von 10 bereitgestellten Referenzen durch Prompt-Injection-Angriffe korrumpiert wird. Im Gegensatz dazu behält GPT-4o bei Verwendung von Chain-of-Defensive-Thought-Prompting eine Genauigkeit von 50 %.
Wir untersuchen Reinforcement Learning (RL) für privilegierte Planung im autonomen Fahren. State-of-the-Art-Ansätze für diese Aufgabe sind regelbasiert, aber diese Methoden skalieren nicht für den langen Schwanz. RL hingegen ist skalierbar und leidet nicht unter sich verstärkenden Fehlern wie Imitationslernen. Zeitgenössische RL-Ansätze für das Fahren verwenden komplex geformte Belohnungen, die mehrere individuelle Belohnungen summieren, z.B. Fortschritts-, Positions- oder Orientierungsbelohnungen. Wir zeigen, dass PPO eine beliebte Version dieser Belohnungen nicht optimiert, wenn die Mini-Batch-Größe erhöht wird, was die Skalierbarkeit dieser Ansätze einschränkt. Stattdessen schlagen wir ein neues Belohnungsdesign vor, das hauptsächlich auf der Optimierung eines einzigen intuitiven Belohnungsterms basiert: Routenabschluss. Verstöße werden durch das Beenden der Episode oder durch eine multiplikative Reduzierung des Routenabschlusses bestraft. Wir stellen fest, dass PPO mit höheren Mini-Batch-Größen gut skaliert, wenn es mit unserer einfachen Belohnung trainiert wird, und sogar die Leistung verbessert. Das Training mit großen Mini-Batch-Größen ermöglicht eine effiziente Skalierung durch verteilte Datenparallelität. Wir skalieren PPO auf 300M Samples in CARLA und 500M Samples in nuPlan mit einem einzigen 8-GPU-Knoten. Das resultierende Modell erreicht 64 DS im CARLA longest6 v2 Benchmark und übertrifft andere RL-Methoden mit komplexeren Belohnungen deutlich. Mit nur minimalen Anpassungen gegenüber seiner Verwendung in CARLA ist dieselbe Methode der beste lernbasierte Ansatz auf nuPlan. Sie erzielt 91,3 im nicht-reaktiven und 90,6 im reaktiven Verkehr im Val14-Benchmark und ist dabei eine Größenordnung schneller als frühere Arbeiten.
Diese Übersicht bietet eine systematische Analyse umfassender Untersuchungen zur 3D-Objekterkennung mit Vision-Sprache-Modellen (VLMs), einem sich schnell entwickelnden Bereich an der Schnittstelle von 3D-Vision und multimodaler KI. Durch die Untersuchung von über 100 Forschungsarbeiten liefern wir die erste systematische Analyse, die sich speziell der 3D-Objekterkennung mit Vision-Sprache-Modellen widmet. Wir beginnen mit der Darstellung der einzigartigen Herausforderungen der 3D-Objekterkennung mit Vision-Sprache-Modellen und betonen die Unterschiede zur 2D-Erkennung in Bezug auf räumliches Denken und Datenkomplexität. Traditionelle Ansätze, die Punktwolken und Voxelgitter verwenden, werden mit modernen Vision-Sprache-Frameworks wie CLIP und 3D-LLMs verglichen, die offene Vokabularerkennung und Zero-Shot-Generalisierung ermöglichen. Wir untersuchen Schlüsselarchitekturen, Pre-Training-Strategien und Prompt-Engineering-Methoden, die textuelle und 3D-Features für eine effektive 3D-Objekterkennung mit Vision-Sprache-Modellen ausrichten. Visualisierungsbeispiele und Evaluierungsbenchmarks werden diskutiert, um die Leistung und das Verhalten zu veranschaulichen. Schließlich beleuchten wir aktuelle Herausforderungen wie begrenzte 3D-Sprache-Datensätze und rechenintensive Anforderungen und schlagen zukünftige Forschungsrichtungen vor, um die 3D-Objekterkennung mit Vision-Sprache-Modellen voranzutreiben. >Objekterkennung, Vision-Sprache-Modelle, Agenten, VLMs, LLMs, KI