papers.description
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und Multi-Agenten-Systemen haben bemerkenswerte Fähigkeiten bei komplexen Problemlösungsaufgaben wie tiefgehender Forschung, Vibe-Coding und mathematischem Denken gezeigt. Die meisten bestehenden Multi-Agenten-Systeme basieren jedoch auf manueller Prompt-/Workflow-Entwicklung mit ausgeklügelten Agenten-Frameworks, was sie rechenineffizient, weniger leistungsfähig und unfähig macht, von datenzentriertem Lernen zu profitieren. In dieser Arbeit stellen wir Chain-of-Agents (CoA) vor, ein neuartiges Paradigma des LLM-Reasonings, das native End-to-End-Komplexproblemlösungen auf dieselbe Weise wie ein Multi-Agenten-System (d.h. mehrstufige Problemlösung mit mehreren Tools und mehreren Agenten) innerhalb eines Modells ermöglicht. Bei der Chain-of-Agents-Problemlösung aktiviert das Modell dynamisch verschiedene Tool-Agenten und Rollenspiel-Agenten, um die Zusammenarbeit mehrerer Agenten in einer End-to-End-Weise zu simulieren. Um End-to-End-Chain-of-Agents-Problemlösungsfähigkeiten in LLMs zu fördern, führen wir ein Multi-Agenten-Distillationsframework ein, um state-of-the-art Multi-Agenten-Systeme in Chain-of-Agents-Trajektorien für agentisches supervidiertes Fine-Tuning zu destillieren. Anschließend verwenden wir agentisches Reinforcement Learning bei überprüfbaren agentischen Aufgaben, um die Fähigkeiten der Modelle bei der Chain-of-Agents-Problemlösung weiter zu verbessern. Wir nennen die resultierenden Modelle Agent Foundation Models (AFMs). Unsere empirischen Studien zeigen, dass AFM neue state-of-the-art-Leistungen in verschiedenen Benchmarks sowohl im Web-Agenten- als auch im Code-Agenten-Setting erzielt. Wir stellen die gesamte Forschung, einschließlich der Modellgewichte, des Codes für Training und Evaluation sowie der Trainingsdaten, vollständig als Open Source zur Verfügung, was einen soliden Ausgangspunkt für zukünftige Forschungen zu Agentenmodellen und agentischem RL bietet.
LongSplat adressiert kritische Herausforderungen bei der Synthese neuer Ansichten (Novel View Synthesis, NVS) aus beiläufig aufgenommenen langen Videos, die durch unregelmäßige Kamerabewegungen, unbekannte Kameraposen und weitläufige Szenen gekennzeichnet sind. Aktuelle Methoden leiden häufig unter Posen-Drift, ungenauer Geometrieinitialisierung und schwerwiegenden Speicherbeschränkungen. Um diese Probleme zu lösen, führen wir LongSplat ein, ein robustes Framework für unposierte 3D-Gaußsche Splatting, das folgende Merkmale aufweist: (1) Inkrementelle gemeinsame Optimierung, die gleichzeitig Kameraposen und 3D-Gaußsche optimiert, um lokale Minima zu vermeiden und globale Konsistenz sicherzustellen; (2) ein robustes Pose-Schätzungsmodul, das gelernte 3D-Prioritäten nutzt; und (3) einen effizienten Octree-Anker-Bildungsmechanismus, der dichte Punktwolken basierend auf der räumlichen Dichte in Anker umwandelt. Umfangreiche Experimente auf anspruchsvollen Benchmarks zeigen, dass LongSplat state-of-the-art Ergebnisse erzielt und die Renderqualität, die Genauigkeit der Posen und die Recheneffizienz im Vergleich zu früheren Ansätzen erheblich verbessert. Projektseite: https://linjohnss.github.io/longsplat/
Große Sprachmodelle (LLMs) erfordern anspruchsvolles Prompting, doch die derzeitigen Praktiken stehen vor Herausforderungen in Bezug auf Struktur, Datenintegration, Formatempfindlichkeit und Werkzeuge. Bestehende Methoden bieten keine umfassenden Lösungen für die Organisation komplexer Prompts, die verschiedene Datentypen (Dokumente, Tabellen, Bilder) umfassen, oder für die systematische Verwaltung von Präsentationsvarianten. Um diese Lücken zu schließen, führen wir POML (Prompt Orchestration Markup Language) ein. POML verwendet komponentenbasierte Markup-Sprache für logische Strukturen (Rollen, Aufgaben, Beispiele), spezialisierte Tags für nahtlose Datenintegration und ein CSS-ähnliches Stilsystem, um Inhalt von der Präsentation zu entkoppeln und die Formatempfindlichkeit zu reduzieren. Es beinhaltet Templating für dynamische Prompts und ein umfassendes Entwickler-Toolkit (IDE-Unterstützung, SDKs), um die Versionskontrolle und Zusammenarbeit zu verbessern. Wir validieren POML durch zwei Fallstudien, die seine Auswirkungen auf die Integration komplexer Anwendungen (PomLink) und die Genauigkeitsleistung (TableQA) demonstrieren, sowie durch eine Nutzerstudie, die seine Effektivität in realen Entwicklungsszenarien bewertet.
Visuelle Designer ziehen natürlicherweise Inspiration aus mehreren visuellen Referenzen und kombinieren verschiedene Elemente und ästhetische Prinzipien, um Kunstwerke zu schaffen. Aktuelle Bildgenerierungsframeworks stützen sich jedoch überwiegend auf Einzelquellen – entweder Textprompts oder einzelne Referenzbilder. In diesem Artikel konzentrieren wir uns auf die Aufgabe der kontrollierbaren Bildgenerierung unter Verwendung mehrerer visueller Referenzen. Wir stellen MultiRef-bench vor, ein rigoroses Evaluationsframework, das 990 synthetische und 1.000 reale Beispiele umfasst, die die Integration visueller Inhalte aus mehreren Referenzbildern erfordern. Die synthetischen Beispiele werden durch unsere Datenengine RefBlend generiert, mit 10 Referenztypen und 33 Referenzkombinationen. Basierend auf RefBlend erstellen wir weiterhin einen Datensatz MultiRef, der 38k hochwertige Bilder enthält, um weitere Forschungen zu erleichtern. Unsere Experimente mit drei interleaved Bild-Text-Modellen (d.h. OmniGen, ACE und Show-o) und sechs agentenbasierten Frameworks (z.B. ChatDiT und LLM + SD) zeigen, dass selbst state-of-the-art Systeme mit der Multi-Referenz-Konditionierung zu kämpfen haben, wobei das beste Modell OmniGen im Durchschnitt nur 66,6 % bei synthetischen Beispielen und 79,0 % bei realen Fällen im Vergleich zur goldenen Antwort erreicht. Diese Erkenntnisse bieten wertvolle Richtlinien für die Entwicklung flexiblerer und menschenähnlicherer kreativer Tools, die effektiv mehrere Quellen visueller Inspiration integrieren können. Der Datensatz ist öffentlich verfügbar unter: https://multiref.github.io/.
Die Bewertung personalisierter Empfehlungen bleibt eine zentrale Herausforderung, insbesondere in langen Audioformaten wie Podcasts, bei denen traditionelle Offline-Metriken unter Verzerrungen durch die Exposition leiden und Online-Methoden wie A/B-Tests kostspielig und operativ eingeschränkt sind. In diesem Artikel schlagen wir ein neuartiges Framework vor, das Large Language Models (LLMs) als Offline-Bewerter nutzt, um die Qualität von Podcast-Empfehlungen skalierbar und interpretierbar zu bewerten. Unser zweistufiger, profilbasierter Ansatz erstellt zunächst natürlichsprachliche Benutzerprofile, die aus 90 Tagen Hörverlauf destilliert werden. Diese Profile fassen sowohl thematische Interessen als auch Verhaltensmuster zusammen und dienen als kompakte, interpretierbare Darstellungen der Benutzerpräferenzen. Anstatt den LLM mit Rohdaten zu versorgen, verwenden wir diese Profile, um hochwertigen, semantisch reichen Kontext bereitzustellen, der es dem LLM ermöglicht, effektiver über die Übereinstimmung zwischen den Interessen eines Benutzers und den empfohlenen Episoden zu urteilen. Dies reduziert die Eingabekomplexität und verbessert die Interpretierbarkeit. Der LLM wird dann aufgefordert, feinkörnige punktuelle und paarweise Bewertungen basierend auf der Profil-Episode-Übereinstimmung abzugeben. In einer kontrollierten Studie mit 47 Teilnehmern stimmte unser profilbasierter Bewerter mit hoher Genauigkeit mit menschlichen Bewertungen überein und übertraf oder erreichte eine Variante, die Rohhörverläufe verwendete. Das Framework ermöglicht eine effiziente, profilbasierte Bewertung für iteratives Testen und Modellauswahl in Empfehlungssystemen.
Während große Sprachmodelle (LLMs) bemerkenswerte Leistungen bei vielfältigen Aufgaben gezeigt haben, fehlt ihnen grundlegend Selbstbewusstsein, und sie zeigen häufig Überzuversicht, indem sie hohe Konfidenzscores für falsche Vorhersagen vergeben. Eine genaue Konfidenzschätzung ist daher entscheidend, um die Vertrauenswürdigkeit und Zuverlässigkeit von LLM-generierten Ausgaben zu verbessern. Allerdings leiden bestehende Ansätze unter grobkörnigen Bewertungsmechanismen, die keine feinkörnigen, kontinuierlichen Konfidenzschätzungen während des Generierungsprozesses liefern können. Um diese Einschränkungen zu überwinden, stellen wir FineCE vor, eine neuartige Methode zur Konfidenzschätzung, die präzise, feinkörnige Konfidenzscores während der Textgenerierung liefert. Konkret entwickeln wir zunächst eine umfassende Pipeline zur Erstellung von Trainingsdaten, die die zugrunde liegende probabilistische Verteilung von LLM-Antworten effektiv erfasst, und trainieren dann ein Modell, um Konfidenzscores für beliebige Textsequenzen in einem überwachten Verfahren vorherzusagen. Darüber hinaus schlagen wir eine Strategie zur Rückwärts-Konfidenzintegration (BCI) vor, die Informationen aus dem nachfolgenden Text nutzt, um die Konfidenzschätzung für die aktuelle Sequenz während der Inferenz zu verbessern. Wir führen auch drei Strategien ein, um optimale Positionen für die Konfidenzschätzung innerhalb des Generierungsprozesses zu identifizieren. Umfangreiche Experimente auf mehreren Benchmark-Datensätzen zeigen, dass FineCE bestehende klassische Methoden zur Konfidenzschätzung durchweg übertrifft. Unser Code und alle in der Arbeit verwendeten Baselines sind auf GitHub verfügbar.
Textgesteuerte Farbbearbeitung in Bildern und Videos ist ein grundlegendes, aber noch ungelöstes Problem, das eine fein abgestimmte Manipulation von Farbattributen wie Albedo, Lichtquellenfarbe und Umgebungsbeleuchtung erfordert, während die physikalische Konsistenz in Bezug auf Geometrie, Materialeigenschaften und Licht-Materie-Interaktionen erhalten bleibt. Bestehende trainingsfreie Methoden bieten zwar breite Anwendbarkeit für verschiedene Bearbeitungsaufgaben, haben jedoch Schwierigkeiten bei der präzisen Farbkontrolle und führen oft zu visuellen Inkonsistenzen in bearbeiteten sowie nicht bearbeiteten Bereichen. In dieser Arbeit präsentieren wir ColorCtrl, eine trainingsfreie Farbbearbeitungsmethode, die die Aufmerksamkeitsmechanismen moderner Multi-Modaler Diffusionstransformatoren (MM-DiT) nutzt. Durch die Entflechtung von Struktur und Farbe mittels gezielter Manipulation von Aufmerksamkeitskarten und Wert-Tokens ermöglicht unsere Methode eine präzise und konsistente Farbbearbeitung sowie eine wortgenaue Kontrolle der Attributintensität. Unsere Methode modifiziert ausschließlich die durch den Prompt spezifizierten Bereiche und lässt unverwandte Regionen unberührt. Umfangreiche Experimente mit SD3 und FLUX.1-dev zeigen, dass ColorCtrl bestehende trainingsfreie Ansätze übertrifft und Spitzenleistungen in Bezug auf Bearbeitungsqualität und Konsistenz erreicht. Darüber hinaus übertrifft unsere Methode starke kommerzielle Modelle wie FLUX.1 Kontext Max und GPT-4o Image Generation in puncto Konsistenz. Bei der Anwendung auf Videomodelle wie CogVideoX zeigt unser Ansatz größere Vorteile, insbesondere bei der Wahrung der zeitlichen Kohärenz und Bearbeitungsstabilität. Schließlich verallgemeinert sich unsere Methode auch auf instruktionsbasierte Bearbeitungsdiffusionsmodelle wie Step1X-Edit und FLUX.1 Kontext dev, was ihre Vielseitigkeit weiter unterstreicht.
Die Generalisierung in der verkörperten KI wird durch die „Sehen-Handeln-Lücke“ behindert, die auf Datenknappheit und Heterogenität der Verkörperung zurückzuführen ist. Um dies zu adressieren, führen wir „Zeigen“ als eine einheitliche, verkörperungsunabhängige Zwischendarstellung ein und definieren vier zentrale Fähigkeiten des verkörperten Zeigens, die das Verständnis von hochrangiger Bild-Sprache mit niedrigrangigen Handlungsprimitiven verbinden. Wir stellen Embodied-R1 vor, ein 3B Vision-Language-Modell (VLM), das speziell für verkörpertes Denken und Zeigen entwickelt wurde. Wir nutzen eine Vielzahl von verkörperten und allgemeinen visuellen Denkdatensätzen als Quellen, um einen groß angelegten Datensatz, Embodied-Points-200K, zu erstellen, der wichtige Fähigkeiten des verkörperten Zeigens unterstützt. Anschließend trainieren wir Embodied-R1 mit einem zweistufigen Reinforced Fine-Tuning (RFT)-Curriculum und einem spezialisierten Multi-Task-Belohnungsdesign. Embodied-R1 erreicht Spitzenleistungen in 11 verkörperten räumlichen und Zeigen-Benchmarks. Entscheidend ist, dass es eine robuste Zero-Shot-Generalisierung demonstriert, indem es eine Erfolgsrate von 56,2 % in SIMPLEREnv und 87,5 % über 8 reale XArm-Aufgaben ohne aufgabenspezifisches Fine-Tuning erreicht, was eine Verbesserung von 62 % gegenüber starken Baselines darstellt. Darüber hinaus zeigt das Modell eine hohe Robustheit gegenüber verschiedenen visuellen Störungen. Unsere Arbeit zeigt, dass eine zeigenzentrierte Darstellung, kombiniert mit einem RFT-Trainingsparadigma, einen effektiven und generalisierbaren Weg bietet, um die Wahrnehmungs-Handlungs-Lücke in der Robotik zu schließen.
Virtual Try-ON (VTON) ist eine praktische und weit verbreitete Aufgabe, bei der sich die meisten bestehenden Arbeiten auf Kleidung konzentrieren. Dieses Papier stellt OmniTry vor, ein einheitliches Framework, das VTON über Kleidung hinaus erweitert, um beliebige tragbare Objekte wie Schmuck und Accessoires in einer maskenfreien Einstellung für eine praktischere Anwendung zu umfassen. Bei der Erweiterung auf verschiedene Objekttypen ist die Datenkuratierung eine Herausforderung, um gepaarte Bilder, d.h. das Objektbild und das entsprechende Try-On-Ergebnis, zu erhalten. Um dieses Problem zu lösen, schlagen wir eine zweistufige Pipeline vor: In der ersten Stufe nutzen wir groß angelegte ungepaarte Bilder, d.h. Porträts mit beliebigen tragbaren Gegenständen, um das Modell für die maskenfreie Lokalisierung zu trainieren. Insbesondere verwenden wir das Inpainting-Modell neu, um Objekte automatisch an geeigneten Positionen zu zeichnen, wenn eine leere Maske gegeben ist. In der zweiten Stufe wird das Modell weiter mit gepaarten Bildern feinabgestimmt, um die Konsistenz des Objektaussehens zu übertragen. Wir beobachteten, dass das Modell nach der ersten Stufe selbst bei wenigen gepaarten Beispielen eine schnelle Konvergenz zeigt. OmniTry wird auf einem umfassenden Benchmark bewertet, der aus 12 gängigen Klassen tragbarer Objekte besteht, sowohl mit In-Shop- als auch mit In-the-Wild-Bildern. Die experimentellen Ergebnisse deuten darauf hin, dass OmniTry sowohl bei der Objektlokalisierung als auch bei der ID-Erhaltung eine bessere Leistung im Vergleich zu bestehenden Methoden zeigt. Der Code, die Modellgewichte und der Evaluierungsbenchmark von OmniTry werden unter https://omnitry.github.io/ öffentlich zugänglich gemacht.
Jüngste Fortschritte im Bereich der Selbstverfeinerung haben ein erhebliches Potenzial gezeigt, um die Ausgaben großer Sprachmodelle (LLMs) durch iterative Verfeinerung zu verbessern. Die meisten bestehenden Methoden zur Selbstverfeinerung basieren jedoch auf einem reaktiven Prozess mit einer festen Anzahl von Iterationen, was es schwierig macht, den optimalen Zeitpunkt und Inhalt der Verfeinerung basierend auf dem sich entwickelnden Generierungskontext zu bestimmen. Inspiriert von der Art und Weise, wie Menschen ihre Gedanken während der Ausführung dynamisch verfeinern, schlagen wir ProActive Self-Refinement (PASR) vor, eine neuartige Methode, die es LLMs ermöglicht, ihre Ausgaben während des Generierungsprozesses zu verfeinern. Im Gegensatz zu Methoden, die gesamte Antworten neu generieren, entscheidet PASR proaktiv, ob, wann und wie verfeinert werden soll, basierend auf dem internen Zustand des Modells und dem sich entwickelnden Kontext. Wir führen umfangreiche Experimente mit einer vielfältigen Auswahl von 10 Aufgaben durch, um die Wirksamkeit von PASR zu bewerten. Die experimentellen Ergebnisse zeigen, dass PASR die Problemlösungsleistung erheblich verbessert. Insbesondere bei Qwen3-8B reduziert PASR den durchschnittlichen Token-Verbrauch um 41,6 Prozent im Vergleich zur Standardgenerierung, während gleichzeitig eine Verbesserung der Genauigkeit um 8,2 Prozent erreicht wird. Unser Code und alle in der Arbeit verwendeten Baselines sind auf GitHub verfügbar.
Das Feld der Sprachseparation, das sich mit dem „Cocktail-Party-Problem“ befasst, hat durch den Einsatz von Deep Neural Networks (DNNs) revolutionäre Fortschritte erlebt. Die Sprachseparation verbessert die Klarheit in komplexen akustischen Umgebungen und dient als entscheidende Vorverarbeitung für die Spracherkennung und Sprechererkennung. Die aktuelle Literatur konzentriert sich jedoch eng auf spezifische Architekturen oder isolierte Ansätze, was zu einem fragmentierten Verständnis führt. Diese Übersichtsarbeit schließt diese Lücke, indem sie eine systematische Untersuchung von DNN-basierten Sprachseparationsverfahren bietet. Unsere Arbeit unterscheidet sich durch: (I) Umfassende Perspektive: Wir untersuchen systematisch Lernparadigmen, Separationsszenarien mit bekannten/unbekannten Sprechern, vergleichende Analysen von überwachten/selbstüberwachten/unüberwachten Frameworks sowie architektonische Komponenten von Encodern bis hin zu Schätzstrategien. (II) Aktualität: Die Abdeckung neuester Entwicklungen gewährleistet den Zugang zu aktuellen Innovationen und Benchmarks. (III) Einzigartige Einblicke: Über eine Zusammenfassung hinaus bewerten wir technologische Entwicklungslinien, identifizieren aufkommende Muster und heben vielversprechende Richtungen hervor, darunter domain-robuste Frameworks, effiziente Architekturen, multimodale Integration und neuartige selbstüberwachte Paradigmen. (IV) Faire Bewertung: Wir bieten quantitative Auswertungen auf Standarddatensätzen, die die tatsächlichen Fähigkeiten und Grenzen verschiedener Methoden aufzeigen. Diese umfassende Übersichtsarbeit dient als zugängliche Referenz für erfahrene Forscher und Neueinsteiger, die sich in der komplexen Landschaft der Sprachseparation zurechtfinden möchten.
Der Urheberrechtsschutz für große Sprachmodelle ist von entscheidender Bedeutung, angesichts ihrer erheblichen Entwicklungskosten, ihres proprietären Wertes und ihres Missbrauchspotenzials. Bisherige Übersichtsarbeiten haben sich vorwiegend auf Techniken zur Rückverfolgung von LLM-generierten Inhalten – insbesondere Textwasserzeichen – konzentriert, während eine systematische Untersuchung von Methoden zum Schutz der Modelle selbst (d.h. Modellwasserzeichen und Modellfingerabdrücke) noch aussteht. Darüber hinaus wurden die Zusammenhänge und Unterschiede zwischen Textwasserzeichen, Modellwasserzeichen und Modellfingerabdrücken bisher nicht umfassend geklärt. Diese Arbeit präsentiert eine umfassende Übersicht über den aktuellen Stand der Technologien zum Urheberrechtsschutz von LLMs, mit einem Schwerpunkt auf Modellfingerabdrücken, und behandelt folgende Aspekte: (1) Klärung der konzeptionellen Verbindung von Textwasserzeichen zu Modellwasserzeichen und Fingerabdrücken sowie die Einführung einer einheitlichen Terminologie, die Modellwasserzeichen in den breiteren Rahmen der Fingerabdrucktechniken integriert; (2) Überblick und Vergleich verschiedener Textwasserzeichen-Techniken, wobei Fälle hervorgehoben werden, in denen solche Methoden als Modellfingerabdrücke fungieren können; (3) systematische Kategorisierung und Vergleich bestehender Modellfingerabdruck-Ansätze zum Schutz von LLMs; (4) erstmalige Vorstellung von Techniken zur Fingerabdruckübertragung und Fingerabdruckentfernung; (5) Zusammenfassung von Bewertungsmetriken für Modellfingerabdrücke, einschließlich Wirksamkeit, Schadlosigkeit, Robustheit, Unauffälligkeit und Zuverlässigkeit; und (6) Diskussion offener Herausforderungen und zukünftiger Forschungsrichtungen. Diese Übersichtsarbeit zielt darauf ab, Forschern ein tiefgreifendes Verständnis sowohl von Textwasserzeichen als auch von Modellfingerabdruck-Technologien im Zeitalter der LLMs zu vermitteln und dadurch weitere Fortschritte beim Schutz ihres geistigen Eigentums zu fördern.
Aktuelle Flow-Matching-Modelle für die Text-zu-Bild-Generierung haben bemerkenswerte Qualität erreicht, doch ihre Integration mit Reinforcement Learning zur Ausrichtung an menschlichen Präferenzen bleibt suboptimal, was eine fein abgestimmte belohnungsbasierte Optimierung behindert. Wir beobachten, dass das Haupthindernis für ein effektives GRPO-Training von Flow-Modellen die Annahme der zeitlichen Gleichförmigkeit in bestehenden Ansätzen ist: spärliche Endbelohnungen mit gleichmäßiger Gutschriftzuweisung erfassen nicht die unterschiedliche Bedeutung von Entscheidungen über die Generierungszeitpunkte hinweg, was zu ineffizienter Exploration und suboptimaler Konvergenz führt. Um diesen Mangel zu beheben, führen wir TempFlow-GRPO (Temporal Flow GRPO) ein, ein prinzipielles GRPO-Framework, das die zeitliche Struktur in der Flow-basierten Generierung erfasst und nutzt. TempFlow-GRPO bringt zwei wesentliche Innovationen mit sich: (i) einen Trajektorienverzweigungsmechanismus, der Prozessbelohnungen bereitstellt, indem er die Stochastik an festgelegten Verzweigungspunkten konzentriert und so eine präzise Gutschriftzuweisung ohne spezialisierte Zwischenbelohnungsmodelle ermöglicht; und (ii) ein rauschbewusstes Gewichtungsschema, das die Politikoptimierung entsprechend des intrinsischen Explorationspotenzials jedes Zeitpunkts moduliert, wobei das Lernen in den einflussreichen frühen Phasen priorisiert wird, während eine stabile Verfeinerung in späteren Phasen sichergestellt wird. Diese Innovationen verleihen dem Modell eine zeitlich bewusste Optimierung, die den zugrunde liegenden generativen Dynamiken Rechnung trägt, was zu Spitzenleistungen in der Ausrichtung an menschlichen Präferenzen und in Standard-Text-zu-Bild-Benchmarks führt.
Diese Studie untersucht die Verwendung von Large Language Models (LLMs) zur Vorhersage von menschlich wahrgenommenen Misery-Scores aus natürlichen Sprachbeschreibungen realer Szenarien. Die Aufgabe wird als Regressionsproblem formuliert, bei dem das Modell jedem Eingabestatement einen Skalarwert von 0 bis 100 zuweist. Wir evaluieren mehrere Prompting-Strategien, darunter Zero-Shot, Fixed-Context Few-Shot und Retrieval-basiertes Prompting unter Verwendung von BERT-Satz-Embeddings. Few-Shot-Ansätze übertreffen durchweg Zero-Shot-Baselines, was den Wert kontextueller Beispiele für die affektive Vorhersage unterstreicht. Um über die statische Evaluation hinauszugehen, führen wir die „Misery Game Show“ ein, einen neuartigen, gamifizierten Rahmen, der von einem Fernsehformat inspiriert ist. Sie testet LLMs durch strukturierte Runden, die ordinale Vergleiche, binäre Klassifikation, skalare Schätzung und feedbackgesteuertes Reasoning umfassen. Dieser Aufbau ermöglicht es uns, nicht nur die Vorhersagegenauigkeit, sondern auch die Fähigkeit des Modells zur Anpassung basierend auf korrigierendem Feedback zu bewerten. Die gamifizierte Evaluation verdeutlicht das breitere Potenzial von LLMs in dynamischen emotionalen Reasoning-Aufgaben jenseits der Standardregression. Code und Datenlink: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Diese Arbeit untersucht die Herausforderung der Übertragung von Animationen zwischen Charakteren, deren Skeletttopologien erheblich voneinander abweichen. Während viele Techniken in den letzten Jahrzehnten Fortschritte bei Retargeting-Verfahren gemacht haben, bleibt die Übertragung von Bewegungen über verschiedene Topologien hinweg weniger erforscht. Das Hauptproblem liegt in der inhärenten topologischen Inkonsistenz zwischen Quell- und Ziel-Skeletten, die die Etablierung einfacher Eins-zu-eins-Korrespondenzen zwischen Knochen erschwert. Darüber hinaus behindert der derzeitige Mangel an groß angelegten, gepaarten Bewegungsdatensätzen, die verschiedene topologische Strukturen abdecken, die Entwicklung datengetriebener Ansätze erheblich. Um diese Einschränkungen zu überwinden, stellen wir Motion2Motion vor, ein neuartiges, trainingsfreies Framework. Einfach und doch effektiv arbeitet Motion2Motion mit nur einer oder wenigen Beispielbewegungen auf dem Ziel-Skelett, indem es auf eine spärliche Menge von Knochenkorrespondenzen zwischen den Quell- und Ziel-Skeletten zugreift. Durch umfassende qualitative und quantitative Bewertungen zeigen wir, dass Motion2Motion sowohl in Szenarien mit ähnlichen Skeletten als auch in Szenarien mit artübergreifenden Skeletten eine effiziente und zuverlässige Leistung erzielt. Der praktische Nutzen unseres Ansatzes wird weiter durch seine erfolgreiche Integration in nachgelagerte Anwendungen und Benutzeroberflächen belegt, was sein Potenzial für industrielle Anwendungen unterstreicht. Code und Daten sind verfügbar unter https://lhchen.top/Motion2Motion.
Sparse Autoencoders (SAEs) können interpretierbare Merkmale aus großen Sprachmodellen (LLMs) ohne Überwachung extrahieren. Ihre Effektivität bei nachgelagerten Steuerungsaufgaben ist jedoch durch die Anforderung an kontrastive Datensätze oder große Aktivierungsspeicher begrenzt. Um diese Einschränkungen zu überwinden, schlagen wir CorrSteer vor, das Merkmale auswählt, indem es die Korrektheit von Beispielen mit SAE-Aktivierungen aus generierten Tokens zur Inferenzzeit korreliert. Dieser Ansatz verwendet ausschließlich Inferenzzeit-Aktivierungen, um relevantere Merkmale zu extrahieren und dadurch fehlerhafte Korrelationen zu vermeiden. Zudem werden Steuerungskoeffizienten aus durchschnittlichen Aktivierungen abgeleitet, wodurch die gesamte Pipeline automatisiert wird. Unsere Methode zeigt verbesserte Aufgabenleistung bei QA, Bias-Minderung, Jailbreaking-Prävention und Reasoning-Benchmarks auf Gemma 2 2B und LLaMA 3.1 8B, wobei insbesondere eine Verbesserung von +4,1 % in der MMLU-Leistung und eine Steigerung von +22,9 % in HarmBench mit nur 4000 Beispielen erzielt wird. Die ausgewählten Merkmale zeigen semantisch sinnvolle Muster, die den Anforderungen jeder Aufgabe entsprechen, und offenbaren die zugrunde liegenden Fähigkeiten, die die Leistung antreiben. Unsere Arbeit etabliert korrelationsbasierte Auswahl als einen effektiven und skalierbaren Ansatz für die automatisierte SAE-Steuerung in Sprachmodellanwendungen.
Universelle Modelle für die medizinische Bildsegmentierung haben sich als vielversprechendes Paradigma etabliert, da sie eine starke Generalisierbarkeit über verschiedene Aufgaben hinweg aufweisen und großes Potenzial für ein breites Spektrum klinischer Anwendungen bieten. Dieses Potenzial wurde teilweise durch den Erfolg von universellen Bildverarbeitungsmodellen wie dem Segment Anything Model (SAM) vorangetrieben, das die Entwicklung verschiedener feinabgestimmter Varianten für medizinische Segmentierungsaufgaben inspiriert hat. Allerdings werden feinabgestimmte Varianten wie MedSAM auf vergleichsweise begrenzten medizinischen Bilddaten trainiert, die oft unter Heterogenität, knappen Annotationen und Verteilungsverschiebungen leiden. Diese Herausforderungen schränken ihre Fähigkeit ein, über ein breites Spektrum medizinischer Segmentierungsaufgaben hinweg zu generalisieren. In diesem Zusammenhang schlagen wir MedSAMix vor, eine trainingsfreie Methode zur Modellfusion, die die Stärken sowohl von Generalistenmodellen (z.B. SAM) als auch von Spezialistenmodellen (z.B. MedSAM) für die medizinische Bildsegmentierung integriert. Im Gegensatz zu traditionellen Modellfusionsansätzen, die auf manuelle Konfiguration angewiesen sind und oft suboptimale Ergebnisse liefern, schlagen wir eine Optimierungsmethode nullter Ordnung vor, um automatisch optimale schichtweise Fusionslösungen zu ermitteln. Darüber hinaus entwickeln wir für klinische Anwendungen zwei Regime, um den Anforderungen an Domänenspezifität und Generalisierbarkeit in verschiedenen Szenarien gerecht zu werden, und zwar durch Einzelaufgabenoptimierung und Multi-Objective-Optimierung. Umfangreiche Bewertungen an 25 medizinischen Segmentierungsaufgaben zeigen, dass MedSAMix Modellverzerrungen effektiv reduziert und die Leistung sowohl in Bezug auf domänenspezifische Genauigkeit als auch auf Generalisierung konsequent verbessert, mit Steigerungen von 6,67 % bei spezialisierten Aufgaben und 4,37 % bei Multi-Task-Bewertungen.
Generative Modelle, die von Large Language Models (LLMs) angetrieben werden, entwickeln sich zu einer einheitlichen Lösung für die Unterstützung sowohl von Empfehlungs- als auch Suchaufgaben. Eine zentrale Designentscheidung bei diesen Modellen ist die Art der Darstellung von Elementen, traditionell durch eindeutige Identifikatoren (IDs) und in jüngerer Zeit durch Semantic IDs, die aus diskreten Codes bestehen, die aus Embeddings gewonnen werden. Während aufgaben-spezifische Embedding-Modelle die Leistung für einzelne Aufgaben verbessern können, generalisieren sie möglicherweise nicht gut in einem gemeinsamen Kontext. In diesem Artikel untersuchen wir, wie Semantic IDs konstruiert werden können, die sowohl bei der Suche als auch bei Empfehlungen gut abschneiden, wenn ein einheitliches Modell verwendet wird. Wir vergleichen eine Reihe von Strategien zur Konstruktion von Semantic IDs, betrachten dabei aufgaben-spezifische und übergreifende Ansätze und untersuchen auch, ob jede Aufgabe ihre eigenen semantischen ID-Tokens in einem gemeinsamen generativen Modell für Suche und Empfehlung haben sollte. Unsere Ergebnisse zeigen, dass die Verwendung eines Bi-Encoder-Modells, das sowohl auf Such- als auch auf Empfehlungsaufgaben feinabgestimmt ist, um Element-Embeddings zu erhalten, gefolgt von der Konstruktion eines einheitlichen Semantic ID-Raums, einen effektiven Kompromiss bietet, der eine starke Leistung in beiden Aufgaben ermöglicht. Wir hoffen, dass diese Erkenntnisse Folgearbeiten zu generalisierbaren, semantisch fundierten ID-Schemata anregen und die nächste Welle einheitlicher generativer Empfehlungsarchitekturen informieren.
Bestehende Videoempfehlungssysteme stützen sich hauptsächlich auf benutzerdefinierte Metadaten oder auf niedrigstufige visuelle und akustische Signale, die von spezialisierten Encodern extrahiert werden. Diese niedrigstufigen Merkmale beschreiben, was auf dem Bildschirm zu sehen ist, erfassen jedoch tiefere Semantik wie Absicht, Humor und Weltwissen, die Clips für Zuschauer ansprechend machen. Zum Beispiel: Ist ein 30-Sekunden-Clip einfach nur ein Sänger auf einem Dach, oder eine ironische Parodie, die zwischen den Feenkaminen von Kappadokien in der Türkei gedreht wurde? Solche Unterscheidungen sind entscheidend für personalisierte Empfehlungen, bleiben jedoch für traditionelle Encoding-Pipelines unsichtbar. In diesem Artikel stellen wir ein einfaches, empfehlungssystem-agnostisches Zero-Finetuning-Framework vor, das hochstufige Semantik in die Empfehlungspipeline einfügt, indem ein gebrauchsfertiges Multimodales Großes Sprachmodell (MLLM) dazu aufgefordert wird, jeden Clip in eine umfangreiche natürliche Sprachbeschreibung zusammenzufassen (z. B. „eine Superhelden-Parodie mit Slapstick-Kämpfen und orchestralen Einwürfen“), wodurch die Lücke zwischen Rohinhalt und Benutzerabsicht überbrückt wird. Wir verwenden die MLLM-Ausgabe mit einem modernen Text-Encoder und speisen sie in standardmäßige kollaborative, inhaltsbasierte und generative Empfehlungssysteme ein. Auf dem MicroLens-100K-Datensatz, der Benutzerinteraktionen mit TikTok-ähnlichen Videos nachahmt, übertrifft unser Framework durchweg konventionelle Video-, Audio- und Metadaten-Merkmale in fünf repräsentativen Modellen. Unsere Ergebnisse unterstreichen das Potenzial, MLLMs als spontane Wissensextraktoren zu nutzen, um absichtsbewusstere Videoempfehlungssysteme zu entwickeln.
Die Entwicklung von Radiance Fields (RF), wie 3D Gaussian Splatting (3DGS) und Neural Radiance Fields (NeRF), hat die interaktive, fotorealistische Ansichtssynthese revolutioniert und bietet enorme Möglichkeiten für die XR-Forschung und -Anwendungen. Trotz des exponentiellen Wachstums der RF-Forschung sind die Beiträge der RF-Gemeinschaft zur XR-Gemeinschaft jedoch nach wie vor spärlich. Um diese Forschungslücke besser zu verstehen, haben wir eine systematische Untersuchung der aktuellen RF-Literatur durchgeführt, um zu analysieren (i) wie RF für XR-Anwendungen konzipiert wird, (ii) wie sie bereits implementiert wurden und (iii) die verbleibenden Forschungslücken. Wir haben 365 RF-Beiträge im Zusammenhang mit XR aus den Bereichen Computer Vision, Computergrafik, Robotik, Multimedia, Mensch-Computer-Interaktion und XR-Gemeinschaften gesammelt, um die oben genannten Forschungsfragen zu beantworten. Unter den 365 Arbeiten haben wir eine Analyse von 66 Arbeiten durchgeführt, die bereits einen detaillierten Aspekt der RF-Forschung für XR behandelt haben. Mit dieser Untersuchung haben wir XR-spezifische RF-Forschungsthemen im breiteren RF-Forschungsfeld erweitert und positioniert und bieten der XR-Gemeinschaft eine hilfreiche Ressource, um sich im rasanten Fortschritt der RF-Forschung zurechtzufinden.
Auditives Verständnis – einschließlich Sprache, nicht-sprachlicher Geräusche und Musik – ist entscheidend für die Erreichung menschlicher Intelligenz. Folglich müssen KI-Agenten ein ganzheitliches auditives Verständnis demonstrieren, um als allgemein intelligent zu gelten. Die umfassende Bewertung auditiver Intelligenz bleibt jedoch eine Herausforderung. Um diese Lücke zu schließen, stellen wir MMAU-Pro vor, den umfassendsten und strengstens kuratierten Benchmark zur Bewertung auditiver Intelligenz in KI-Systemen. MMAU-Pro enthält 5.305 Instanzen, wobei jede Instanz ein oder mehrere Audiodateien mit von menschlichen Experten generierten Frage-Antwort-Paaren kombiniert, die Sprache, Geräusche, Musik und deren Kombinationen abdecken. Im Gegensatz zu bestehenden Benchmarks bewertet MMAU-Pro auditive Intelligenz über 49 einzigartige Fähigkeiten und mehrere komplexe Dimensionen hinweg, darunter das Verständnis langer Audioformate, räumliches Audioverständnis und das Verständnis mehrerer Audiodateien. Alle Fragen sind sorgfältig gestaltet, um gezieltes Multi-Hop-Denken zu erfordern, einschließlich sowohl Multiple-Choice- als auch offener Antwortformate. Wichtig ist, dass die Audiodaten direkt „aus der Wildnis“ stammen und nicht aus bestehenden Datensätzen mit bekannten Verteilungen. Wir evaluieren 22 führende Open-Source- und proprietäre multimodale KI-Modelle und decken erhebliche Einschränkungen auf: Selbst state-of-the-art Modelle wie Gemini 2.5 Flash und Audio Flamingo 3 erreichen nur 59,2 % bzw. 51,7 % Genauigkeit und nähern sich in mehreren Kategorien der Zufallsleistung. Unsere umfangreiche Analyse hebt spezifische Schwächen hervor und bietet neue Erkenntnisse, die der Gemeinschaft handlungsorientierte Perspektiven bieten, um die zukünftige Entwicklung von KI-Systemen hin zu allgemeiner auditiver Intelligenz zu verbessern. Der Benchmark und der Code sind unter https://sonalkum.github.io/mmau-pro verfügbar.
KI-Agenten mit fortgeschrittenen Fähigkeiten im Bereich des logischen Denkens und der Werkzeugnutzung haben beeindruckende Leistungen beim tiefgehenden Websuchen gezeigt. Während bestehende Benchmarks wie BrowseComp diese Fähigkeiten bewerten, konzentrieren sie sich hauptsächlich auf textuelle Informationen und übersehen dabei die Verbreitung multimodaler Inhalte. Um diese Lücke zu schließen, führen wir MM-BrowseComp ein, einen neuartigen Benchmark, der aus 224 anspruchsvollen, handgefertigten Fragen besteht, die speziell entwickelt wurden, um die multimodalen Retrieval- und Denkfähigkeiten von Agenten zu bewerten. Diese Fragen beinhalten oft Bilder in den Eingabeaufforderungen, und entscheidende Informationen, die während des Such- und Denkprozesses auftreten, können auch in Bildern oder Videos auf Webseiten eingebettet sein. Folglich erweisen sich Methoden, die sich ausschließlich auf Text stützen, für unseren Benchmark als unzureichend. Zusätzlich stellen wir für jede Frage eine verifizierte Checkliste bereit, die eine detaillierte Analyse multimodaler Abhängigkeiten und Denkpfade ermöglicht. Unsere umfassende Bewertung von State-of-the-Art-Modellen auf MM-BrowseComp zeigt, dass selbst Spitzenmodelle wie OpenAI o3 mit Werkzeugen nur eine Genauigkeit von 29,02 % erreichen, was die suboptimalen multimodalen Fähigkeiten und das Fehlen von nativem multimodalen Denken in aktuellen Modellen unterstreicht.
Zeitreihen von Bewegungssensoren sind zentral für die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) und finden Anwendungen in den Bereichen Gesundheit, Sport und intelligente Geräte. Bisherige Methoden werden jedoch für feste Aktivitätensätze trainiert und erfordern kostspieliges Nachtraining, wenn neue Verhaltensweisen oder Sensoranordnungen auftreten. Jüngste Versuche, große Sprachmodelle (Large Language Models, LLMs) für HAR zu nutzen, typischerweise durch die Umwandlung von Signalen in Text oder Bilder, leiden unter begrenzter Genauigkeit und fehlender überprüfbarer Interpretierbarkeit. Wir stellen ZARA vor, das erste agentenbasierte Framework für Zero-Shot, erklärbare HAR direkt aus Rohdaten von Bewegungszeitreihen. ZARA integriert eine automatisch abgeleitete paarweise Merkmalswissensbasis, die diskriminative Statistiken für jedes Aktivitätenpaar erfasst, ein Multi-Sensor-Retrieval-Modul, das relevante Beweise hervorhebt, und eine hierarchische Agentenpipeline, die das LLM anleitet, iterativ Merkmale auszuwählen, auf diese Beweise zurückzugreifen und sowohl Aktivitätsvorhersagen als auch natürliche Sprachbeschreibungen zu erstellen. ZARA ermöglicht flexible und interpretierbare HAR ohne jegliches Feinabstimmen oder aufgaben spezifische Klassifikatoren. Umfangreiche Experimente auf 8 HAR-Benchmarks zeigen, dass ZARA Zero-Shot-Leistungen auf dem neuesten Stand der Technik erreicht, klare Begründungen liefert und die stärksten Baselines um das 2,53-fache im Makro-F1-Wert übertrifft. Ablationsstudien bestätigen weiterhin die Notwendigkeit jedes Moduls und markieren ZARA als einen vielversprechenden Schritt hin zu vertrauenswürdiger, Plug-and-Play-Analyse von Bewegungszeitreihen. Unsere Codes sind verfügbar unter https://github.com/zechenli03/ZARA.
Wie verstehen große Sprachmodelle moralische Dimensionen im Vergleich zu Menschen? Diese erste groß angelegte Bayes'sche Bewertung von marktführenden Sprachmodellen liefert die Antwort. Im Gegensatz zu früheren Arbeiten, die deterministische Grundwahrheiten (Mehrheits- oder Inklusionsregeln) verwenden, modellieren wir die Uneinigkeit von Annotatoren, um sowohl aleatorische Unsicherheit (inhärente menschliche Uneinigkeit) als auch epistemische Unsicherheit (Modell-Domänensensitivität) zu erfassen. Wir bewerten führende Sprachmodelle (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) anhand von über 250.000 Annotationen von etwa 700 Annotatoren zu mehr als 100.000 Texten aus sozialen Medien, Nachrichten und Foren. Unser GPU-optimiertes Bayes'sches Framework verarbeitete über 1 Million Modellanfragen und zeigte, dass KI-Modelle typischerweise zu den besten 25 % der menschlichen Annotatoren gehören und eine deutlich überdurchschnittliche ausgewogene Genauigkeit erreichen. Wichtig ist, dass wir feststellen, dass KI weit weniger falsch negative Ergebnisse produziert als Menschen, was ihre sensibleren moralischen Erkennungsfähigkeiten unterstreicht.
Multi-Agent Reinforcement Learning (MARL) ist ein leistungsstarkes Paradigma zur Lösung kooperativer und kompetitiver Entscheidungsprobleme. Obwohl viele MARL-Benchmarks vorgeschlagen wurden, kombinieren nur wenige kontinuierliche Zustands- und Aktionsräume mit anspruchsvollen Koordinations- und Planungsaufgaben. Wir stellen CAMAR vor, einen neuen MARL-Benchmark, der explizit für Multi-Agent-Pathfinding in Umgebungen mit kontinuierlichen Aktionen entwickelt wurde. CAMAR unterstützt sowohl kooperative als auch kompetitive Interaktionen zwischen Agenten und läuft effizient mit bis zu 100.000 Umgebungsschritten pro Sekunde. Zudem schlagen wir ein dreistufiges Evaluationsprotokoll vor, um den algorithmischen Fortschritt besser nachzuverfolgen und eine tiefergehende Leistungsanalyse zu ermöglichen. Darüber hinaus erlaubt CAMAR die Integration klassischer Planungsmethoden wie RRT und RRT* in MARL-Pipelines. Wir verwenden sie als eigenständige Baselines und kombinieren RRT* mit populären MARL-Algorithmen, um hybride Ansätze zu schaffen. Wir stellen eine Suite von Testszenarien und Benchmarking-Tools bereit, um Reproduzierbarkeit und faire Vergleiche zu gewährleisten. Experimente zeigen, dass CAMAR eine herausfordernde und realistische Testumgebung für die MARL-Community darstellt.