papers.description
Aktuelle State-of-the-Art-Videogenerierungsmodelle lernen typischerweise die Verteilung von Video-Latents im VAE-Raum und bilden diese mittels eines VAE-Decoders auf Pixel ab. Obwohl dieser Ansatz hochwertige Videos erzeugen kann, leidet er unter langsamer Konvergenz und ist rechenintensiv bei der Generierung langer Videos. In diesem Beitrag stellen wir SemanticGen vor, eine neuartige Lösung zur Bewältigung dieser Einschränkungen durch Generierung von Videos im semantischen Raum. Unsere zentrale Erkenntnis ist, dass aufgrund der inhärenten Redundanz in Videos der Generierungsprozess in einem kompakten, hochleveligen semantischen Raum zur globalen Planung beginnen sollte, gefolgt von der Hinzufügung hochfrequenter Details, anstatt direkt eine große Menge niederleveliger Video-Tokens mit bidirektionaler Aufmerksamkeit zu modellieren. SemanticGen verwendet einen zweistufigen Generierungsprozess. In der ersten Stufe erzeugt ein Diffusionsmodell kompakte semantische Videomerkmale, die das globale Layout des Videos definieren. In der zweiten Stufe generiert ein weiteres Diffusionsmodell VAE-Latents, die auf diesen semantischen Merkmalen konditioniert sind, um die endgültige Ausgabe zu erzeugen. Wir beobachten, dass die Generierung im semantischen Raum im Vergleich zum VAE-Latentraum zu schnellerer Konvergenz führt. Unsere Methode ist auch effektiv und recheneffizient bei der Erweiterung auf die Langvideogenerierung. Umfangreiche Experimente belegen, dass SemanticGen hochwertige Videos erzeugt und State-of-the-Art-Ansätze sowie starke Baselines übertrifft.
Bestehende Reinforcement-Learning(RL)-Ansätze behandeln große Sprachmodelle (LLMs) als eine einzige vereinheitlichte Policy und übersehen dabei ihre internen Mechanismen. Das Verständnis dafür, wie sich die Policy über Schichten und Module hinweg entwickelt, ist daher entscheidend, um eine zielgerichtetere Optimierung zu ermöglichen und komplexe Reasoning-Mechanismen zu entschlüsseln. In diesem Artikel zerlegen wir die Sprachmodell-Policy, indem wir die intrinsische Aufteilung des Transformer-Residual-Streams sowie die Äquivalenz zwischen der Komposition versteckter Zustände mit der Unembedding-Matrix und der daraus resultierenden abtastbaren Policy nutzen. Diese Zerlegung offenbart interne Schicht-Policies, die den Beiträgen einzelner Schichten entsprechen, sowie interne modulare Policies, die mit den Self-Attention- und Feed-Forward-Network(FFN)-Komponenten innerhalb jeder Schicht übereinstimmen. Durch die Analyse der Entropie der internen Policy stellen wir fest: (a) Frühe Schichten halten eine hohe Entropie für Exploration aufrecht, während obere Schichten zu einer nahezu null Entropie für die Verfeinerung konvergieren, wobei die Konvergenzmuster je nach Modellreihe variieren. (b) Der Prädiktionsraum von LLama konvergiert rapide in der letzten Schicht, während Qwen-Modelle, insbesondere Qwen3, ein menschenähnlicheres, progressiv strukturiertes Reasoning-Muster aufweisen. Angeregt durch diese Erkenntnisse schlagen wir Bottom-up Policy Optimization (BuPO) vor, ein neuartiges RL-Paradigma, das direkt die interne Schicht-Policy während des frühen Trainings optimiert. Durch die Ausrichtung des Trainingsziels auf untere Schichten rekonstruiert BuPO grundlegende Reasoning-Fähigkeiten und erzielt eine überlegene Leistung. Umfangreiche Experimente auf komplexen Reasoning-Benchmarks demonstrieren die Wirksamkeit unserer Methode. Unser Code ist verfügbar unter https://github.com/Trae1ounG/BuPO.
Jüngste Fortschritte bei multimodalen LLMs und Systemen, die Werkzeuge für die Beantwortung von Fragen zu langen Videos nutzen, deuten auf das Potenzial des Schlussfolgerns über stundenlange Episoden hin. Viele Methoden komprimieren Inhalte jedoch nach wie vor zu verlustbehafteten Zusammenfassungen oder stützen sich auf begrenzte Werkzeugsätze, was die zeitliche Verankerung schwächt und fein granulare Hinweise übersieht. Wir schlagen ein Multi-Agenten-Framework vor, in dem ein Master-LLM einen Verankerungsagenten zur Lokalisierung von fragerelevanten Segmenten und einen Visonsagenten zur Extraktion gezielter textueller Beobachtungen koordiniert. Der Master-Agent plant mit einem Schritthimit und wird mit bestärkendem Lernen trainiert, um präzise, korrekte und effiziente Multi-Agenten-Kooperation zu fördern. Dieses Design hilft dem Master-Agenten, sich über die Verankerung auf relevante Clips zu konzentrieren, ergänzt Untertitel durch visuelle Details und liefert interpretierbare Trajektorien. Auf unseren vorgeschlagenen LongTVQA- und LongTVQA+-Datensätzen, die auf Episodenebene aus TVQA/TVQA+ aggregiert wurden, übertrifft unser Multi-Agenten-System starke Nicht-Agenten-Baselines deutlich. Experimente zeigen zudem, dass bestärkendes Lernen das Schlussfolgern und die Planung des trainierten Agenten weiter stärkt. Code und Daten werden unter https://longvideoagent.github.io/ bereitgestellt.
Die Kognitionswissenschaft deutet darauf hin, dass sich räumliche Fähigkeiten progressiv entwickeln – von der Wahrnehmung über das Schlussfolgern bis hin zur Interaktion. In multimodalen LLMs (MLLMs) ist diese Hierarchie jedoch noch kaum verstanden, da sich die meisten Studien auf einen eng begrenzten Satz von Aufgaben konzentrieren. Wir stellen SpatialTree vor, eine kognitionswissenschaftlich inspirierte Hierarchie, die räumliche Fähigkeiten in vier Ebenen gliedert: Low-Level-Wahrnehmung (L1), mentale Abbildung (L2), Simulation (L3) und agentische Kompetenz (L4). Auf Grundlage dieser Taxonomie konstruieren wir den ersten fähigkeitszentrierten, hierarchischen Benchmark, der主流-MLLMs gründlich über 27 Teilfähigkeiten hinweg evaluiert. Die Evaluierungsergebnisse offenbaren eine klare Struktur: L1-Fähigkeiten sind weitgehend orthogonal, während Fähigkeiten höherer Ebenen stark korrelieren, was auf zunehmende Interdependenz hindeutet. Durch gezieltes supervised Fine-Tuning decken wir eine überraschende Transferdynamik auf: negativer Transfer innerhalb von L1, aber starker transferübergreifender Transfer von niedrig- zu höherebenen Fähigkeiten mit bemerkenswerter Synergie. Abschließend untersuchen wir, wie die gesamte Hierarchie verbessert werden kann. Wir stellen fest, dass naives Reinforcement Learning (RL), das extensives "Denken" fördert, unzuverlässig ist: Es hilft beim komplexen Schlussfolgern, schadet aber der intuitiven Wahrnehmung. Wir schlagen eine einfache Auto-Think-Strategie vor, die unnötige Abwägungen unterdrückt und es RL ermöglicht, die Leistung über alle Ebenen hinweg konsistent zu verbessern. Mit der Entwicklung von SpatialTree liefern wir einen Proof-of-Concept-Rahmen zum Verständnis und zur systematischen Skalierung räumlicher Fähigkeiten in MLLMs.
Selbst-evolvierende Gedächtnissysteme verändern den evolutionären Paradigmenwechsel von Agenten auf Basis großer Sprachmodelle (LLM) in bisher ungekannter Weise. Bisherige Arbeiten stützten sich überwiegend auf manuell konstruierte Gedächtnisarchitekturen, um Trajektorien zu speichern, Erfahrungen zu destillieren und wiederverwendbare Werkzeuge zu synthetisieren, was es Agenten ermöglicht, sich während der Interaktion mit ihrer Umgebung dynamisch weiterzuentwickeln. Dieses Paradigma ist jedoch grundlegend durch die Statik des Gedächtnissystems selbst begrenzt: Während das Gedächtnis die Evolution auf Agentenebene ermöglicht, kann die zugrundeliegende Gedächtnisarchitektur nicht meta-adaptiv an verschiedene Aufgabenkontexte angepasst werden. Um diese Lücke zu schließen, schlagen wir MemEvolve vor, einen meta-evolutionären Rahmen, der sowohl das Erfahrungswissen der Agenten als auch ihre Gedächtnisarchitektur gemeinsam weiterentwickelt. Dies ermöglicht es Agentsystemen, nicht nur Erfahrungen anzusammeln, sondern auch schrittweise zu verfeinern, wie sie aus diesen Erfahrungen lernen. Um MemEvolve in vorheriger Forschung zu verankern und Offenheit in zukünftigen selbst-evolvierenden Systemen zu fördern, führen wir EvolveLab ein, eine vereinheitlichte Codebasis für selbst-evolvierendes Gedächtnis. Sie destilliert zwölf repräsentative Gedächtnissysteme in einen modularen Designraum (Enkodieren, Speichern, Abrufen, Verwalten) und bietet sowohl eine standardisierte Implementierungsgrundlage als auch eine faire experimentelle Arena. Umfangreiche Evaluierungen auf vier anspruchsvollen Agenten-Benchmarks zeigen, dass MemEvolve (I) erhebliche Leistungssteigerungen erzielt und Frameworks wie SmolAgent und Flash-Searcher um bis zu 17,06% verbessert; und (II) eine starke Generalisierung über Aufgaben und LLMs hinweg aufweist, indem es Gedächtnisarchitekturen entwirft, die effektiv über verschiedene Benchmarks und Basismodelle übertragbar sind.
Auf Large Language Models (LLMs) basierende Agenten haben bemerkenswerte Fähigkeiten im komplexen logischen Denken und in mehrstufigen Interaktionen gezeigt, haben jedoch Schwierigkeiten, sich kontinuierlich zu verbessern und anzupassen, wenn sie in neuen Umgebungen eingesetzt werden. Ein vielversprechender Ansatz ist die Implementierung von Skill-Bibliotheken, die es Agenten ermöglichen, neue Fähigkeiten zu erlernen, zu validieren und anzuwenden. Allerdings stützen sich aktuelle Skill-Bibliotheks-Ansätze hauptsächlich auf LLM-Prompting, was eine konsistente Implementierung der Skill-Bibliothek erschwert. Um diese Herausforderungen zu überwinden, schlagen wir einen Reinforcement Learning (RL)-basierten Ansatz vor, um die Selbstverbesserungsfähigkeiten von Agenten mit einer Skill-Bibliothek zu erweitern. Konkret führen wir Skill Augmented GRPO for self-Evolution (SAGE) ein, ein neuartiges RL-Framework, das Fähigkeiten systematisch in das Lernen integriert. Die Schlüsselkomponente des Frameworks, Sequential Rollout, setzt Agenten iterativ über eine Kette ähnlicher Aufgaben für jeden Rollout ein. Während sich die Agenten durch die Aufgabenkette bewegen, sammeln sich in vorherigen Aufgaben generierte Fähigkeiten in der Bibliothek an und stehen für nachfolgende Aufgaben zur Verfügung. Zusätzlich verbessert das Framework die Skill-Generierung und -Nutzung durch eine Skill-integrierte Belohnung, die die ursprünglichen ergebnisbasierten Belohnungen ergänzt. Experimentelle Ergebnisse auf AppWorld zeigen, dass SAGE, angewendet auf ein supervidiert feingetuntes Modell mit Expertenwissen, eine um 8,9 % höhere Szenario-Zielerreichung erreicht, dabei aber 26 % weniger Interaktionsschritte benötigt und 59 % weniger Tokens erzeugt. Dies übertrifft bestehende Ansätze sowohl in der Genauigkeit als auch in der Effizienz erheblich.
Mit der Entwicklung von LLMs hin zu autonomen Agenten hat sich Deep Research als zentraler Bewertungsmaßstab etabliert. Allerdings erfüllen bestehende akademische Benchmarks wie BrowseComp häufig nicht die praktischen Anforderungen an offene Rechercheaufgaben, die robuste Fähigkeiten in der Intentionserkennung, langfristigen Entscheidungsfindung und quellenübergreifenden Verifikation erfordern. Um diese Lücke zu schließen, stellen wir Step-DeepResearch vor, einen kosteneffizienten End-to-End-Agenten. Wir entwickeln eine Datensynthese-Strategie basierend auf atomaren Fähigkeiten, um die Planung und Erstellung von Berichten zu stärken, kombiniert mit einem progressiven Trainingspfad von agentenbasiertem Mid-Training über SFT bis hin zu RL. Durch einen Checklisten-basierten Judger wird die Robustheit signifikant verbessert. Zudem etablieren wir ADR-Bench für realistische Deep-Research-Szenarien, um die Evaluationslücke im chinesischen Sprachraum zu schließen. Experimentelle Ergebnisse zeigen, dass Step-DeepResearch (32B) auf den Scale AI Research Rubrics 61,4 % erreicht. Auf ADR-Bench übertrifft es vergleichbare Modelle deutlich und kann sich mit geschlossenen SOTA-Modellen wie OpenAI und Gemini DeepResearch messen. Diese Ergebnisse belegen, dass verfeinertes Training mittelgroßen Modellen ermöglicht, Expertenfähigkeiten bei branchenführender Kosteneffizienz zu erreichen.
Die allgemeine Trennung von Audioquellen ist eine Schlüsselfähigkeit für multimodale KI-Systeme, die Geräusche wahrnehmen und interpretieren können. Trotz erheblicher Fortschritte in den letzten Jahren sind bestehende Trennmodelle entweder domänenspezifisch – für feste Kategorien wie Sprache oder Musik konzipiert – oder in ihrer Steuerbarkeit eingeschränkt, da sie nur eine einzige Prompt-Modalität wie Text unterstützen. In dieser Arbeit stellen wir SAM Audio vor, ein Foundation-Modell zur allgemeinen Audiotrennung, das Text-, Bild- und Zeitbereichs-Prompting innerhalb eines einzigen Frameworks vereint. Basierend auf einer Diffusion-Transformer-Architektur wird SAM Audio mit Flow Matching auf umfangreichen Audiodaten trainiert, die Sprache, Musik und allgemeine Geräusche abdecken, und kann Zielquellen flexibel trennen, die durch Sprache, visuelle Masken oder Zeitbereiche beschrieben werden. Das Modell erzielt state-of-the-art Leistungen in einer Vielzahl von Benchmarks, einschließlich der Trennung von allgemeinen Geräuschen, Sprache, Musik und Musikinstrumenten in sowohl Alltags- als auch professionell produzierten Audiodateien, und übertrifft bisherige allgemeine und spezialisierte Systeme erheblich. Darüber hinaus führen wir einen neuen Benchmark für die Trennung von Audiodaten aus der Praxis mit menschlich annotierten multimodalen Prompts sowie ein referenzfreies Evaluierungsmodell ein, das stark mit menschlichen Bewertungen korreliert.
Wir stellen INTELLECT-3 vor, ein Mixture-of-Experts-Modell mit 106B Parametern (12B aktiv), das mit groß angelegtem Reinforcement Learning auf unserem End-to-End-RL-Infrastruktur-Stack trainiert wurde. INTELLECT-3 erzielt für seine Größe state-of-the-art Leistungen in Benchmarks für Mathematik, Code, Naturwissenschaften und logisches Denken und übertrifft dabei viele größere Frontier-Modelle. Wir veröffentlichen das Modell zusammen mit dem vollständigen, zu seiner Erstellung verwendeten Infrastruktur-Stack als Open Source, einschließlich RL-Frameworks, vollständigem Trainingsrezept und einer umfangreichen Sammlung von Umgebungen aus unserer Community-Plattform Environments Hub, die mit der verifiers-Bibliothek für Training und Evaluation erstellt wurden. Im Zuge dieser Entwicklung führen wir prime-rl ein, ein offenes Framework für groß angelegtes asynchrones Reinforcement Learning, das nahtlos von einem einzelnen Knoten auf Tausende von GPUs skaliert und für agentenbasiertes RL mit First-Class-Unterstützung für mehrstufige Interaktionen und Werkzeugnutzung konzipiert ist. Mit diesem Stack führen wir sowohl SFT- als auch RL-Training auf Basis des GLM-4.5-Air-Base-Modells durch und skalieren das RL-Training auf bis zu 512 H200-GPUs bei hoher Trainingseffizienz.
Code Large Language Models (Code LLMs) sind leistungsstark, aber mit hohen Trainingskosten verbunden, wobei Skalierungsgesetze die Leistung anhand von Modellgröße, Datenmenge und Rechenaufwand vorhersagen. Allerdings haben verschiedene Programmiersprachen (PLs) unterschiedlich starke Auswirkungen während des Pre-Trainings, die die Basismodellleistung erheblich beeinflussen und zu ungenauen Leistungsvorhersagen führen. Zudem konzentrieren sich bestehende Arbeiten auf sprachunabhängige Settings und vernachlässigen die inhärent mehrsprachige Natur moderner Softwareentwicklung. Daher ist es zunächst notwendig, die Skalierungsgesetze der verschiedenen PLs zu untersuchen und anschließend ihre gegenseitigen Beeinflussungen zu berücksichtigen, um zum endgültigen multilingualen Skalierungsgesetz zu gelangen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung von Skalierungsgesetzen für multilinguales Code-Pre-Training, indem wir über 1000 Experimente (entsprechend mehr als 336.000 H800-Stunden) über mehrere PLs, Modellgrößen (0,2B bis 14B Parameter) und Datensatzgrößen (1T Tokens) hinweg durchführen. Wir etablieren umfassende Skalierungsgesetze für Code-LLMs über mehrere PLs hinweg und zeigen, dass interpretierte Sprachen (z.B. Python) mehr von erhöhter Modellgröße und Datenmenge profitieren als kompilierte Sprachen (z.B. Rust). Die Studie belegt, dass multilinguales Pre-Training synergetische Vorteile bietet, insbesondere zwischen syntaktisch ähnlichen PLs. Darüber hinaus verbessert die Pre-Training-Strategie des parallelen Pairings (Zusammenfügen von Code-Snippets mit ihren Übersetzungen) die cross-lingualen Fähigkeiten signifikant und weist günstige Skalierungseigenschaften auf. Schließlich wird ein proportionalitätsabhängiges multilinguales Skalierungsgesetz vorgeschlagen, um Trainings-Tokens optimal zuzuteilen, indem hochwertige PLs (z.B. Python) priorisiert, hochsynergetische Paare (z.B. JavaScript-TypeScript) ausbalanciert und die Zuteilung für schnell sättigende Sprachen (Rust) reduziert wird. Dies erzielt eine überlegene durchschnittliche Leistung über alle PLs hinweg im Vergleich zur Gleichverteilung unter demselben Rechenbudget.
Die Erkennung von Treue-Halluzinationen in den Ausgaben großer Sprachmodelle (LLMs) ist für praktische Anwendungen wie retrieval-augmentierte Generierung und Textzusammenfassung von entscheidender Bedeutung. In diesem Artikel stellen wir FaithLens vor, ein kosteneffizientes und effektives Modell zur Erkennung von Treue-Halluzinationen, das gleichzeitig binäre Vorhersagen und entsprechende Erklärungen liefern kann, um die Vertrauenswürdigkeit zu verbessern. Um dies zu erreichen, synthetisieren wir zunächst Trainingsdaten mit Erklärungen mithilfe fortschrittlicher LLMs und wenden eine wohl definierte Datenfilterstrategie an, um die Korrektheit der Labels, die Qualität der Erklärungen und die Datenvielfalt sicherzustellen. Anschließend feintunen wir das Modell auf diesen sorgfältig kuratierten Trainingsdaten als Kaltstart und optimieren es weiter mit regelbasiertem bestärkendem Lernen, wobei Belohnungen sowohl für die Korrektheit der Vorhersage als auch für die Erklärungsqualität vergeben werden. Ergebnisse aus 12 verschiedenen Aufgaben zeigen, dass das 8-Milliarden-Parameter-Modell FaithLens fortschrittliche Modelle wie GPT-4.1 und o3 übertrifft. Zudem kann FaithLens hochwertige Erklärungen produzieren und bietet damit eine einzigartige Balance aus Vertrauenswürdigkeit, Effizienz und Effektivität.
Streaming-Sprache-zu-Text-Übersetzung (StreamST) erfordert die gleichzeitige Erzeugung von Übersetzungen mit eingehender Sprache, was strenge Latenzanforderungen stellt und Modelle erfordert, die Entscheidungsfindung mit unvollständigen Informationen mit hoher Übersetzungsqualität in Einklang bringen müssen. Bisherige Forschungsarbeiten zu diesem Thema stützten sich auf das SimulEval-Repository, das nicht mehr gewartet wird und Systeme, die ihre Ausgaben überarbeiten, nicht unterstützt. Darüber hinaus wurde es für die Simulation der Verarbeitung kurzer Segmente und nicht für lange Audio-Streams konzipiert und bietet keine einfache Methode, um Systeme in einer Demo zu präsentieren. Als Lösung führen wir simulstream ein, das erste Open-Source-Framework, das sich der einheitlichen Evaluierung und Demonstration von StreamST-Systemen widmet. Es wurde für die Verarbeitung langer Sprachaufnahmen entwickelt und unterstützt nicht nur inkrementelle Dekodierungsansätze, sondern auch Re-Übersetzungsmethoden, wodurch deren Vergleich innerhalb desselben Frameworks sowohl in Bezug auf Qualität als auch Latenz ermöglicht wird. Zusätzlich bietet es eine interaktive Weboberfläche, um jedes innerhalb des Tools erstellte System zu demonstrieren.
Temporales Schließen über lange, mehrteilige Dialoge hinweg ist eine entscheidende Fähigkeit für Konversationsagenten. Bestehende Arbeiten und unsere Vorstudie zeigen jedoch, dass aktuelle Modelle für lange Kontexte Schwierigkeiten haben, zeitlich relevante Informationen genau zu identifizieren, wenn Dialogverläufe länger werden und Rauschen akkumulieren, was die Reasoning-Leistung erheblich beeinträchtigt. Um dies zu adressieren, stellen wir Memory-T1 vor, ein Framework, das eine zeit-sensitive Speicher-Auswahlpolitik mittels Reinforcement Learning (RL) erlernt. Es verwendet eine Grob-zu-Fein-Strategie, die zunächst den Dialogverlauf durch temporale und Relevanzfilter auf einen Kandidatensatz reduziert, gefolgt von einem RL-Agenten, der die präzisen Evidenz-Sitzungen auswählt. Das RL-Training wird durch eine mehrstufige Belohnungsfunktion gesteuert, die (i) die Antwortgenauigkeit, (ii) die Evidenzverankerung und (iii) die temporale Konsistenz optimiert. Insbesondere liefert die Belohnung für temporale Konsistenz ein dichtes Signal, indem sie die Übereinstimmung mit dem zeitlichen Abfragebereich sowohl auf Sitzungsebene (chronologische Nähe) als auch auf Äußerungsebene (chronologische Treue) bewertet, was dem Agenten ermöglicht, subtile chronologische Unklarheiten aufzulösen. Auf dem Time-Dialog-Benchmark steigert Memory-T1 ein 7B-Modell auf eine Gesamtpunktzahl von 67,0 %, was einen neuen State-of-the-Art für Open-Source-Modelle darstellt und ein 14B-Basismodell um 10,2 % übertrifft. Ablationsstudien zeigen, dass die Belohnungen für temporale Konsistenz und Evidenzverankerung gemeinsam zu einem Leistungsgewinn von 15,0 % beitragen. Darüber hinaus bleibt Memory-T1 bis zu 128k Tokens robust, bei denen Basismodelle versagen, und beweist so seine Wirksamkeit gegen Rauschen in umfangreichen Dialogverläufen. Der Code und die Datensätze sind öffentlich verfügbar unter https://github.com/Elvin-Yiming-Du/Memory-T1/.
Das Verständnis der physischen Welt ist entscheidend für allgemeine KI-Agenten. Es bleibt jedoch unklar, ob moderne Bildverarbeitungsmodelle (z.B. große VLMs) physikalische Eigenschaften quantitativ erfassen können. Bisherige Bewertungen basieren überwiegend auf VQA und sind qualitativ, sodass sie nur begrenzt Aufschluss darüber geben, ob diese Modelle kinematische Größen bewegter Objekte aus Videoaufnahmen ableiten können. Um dies zu adressieren, stellen wir QuantiPhy vor, den ersten Benchmark, der entwickelt wurde, um das physikalische Reasoning-Vermögen von VLMs quantitativ zu messen. QuantiPhy umfasst mehr als 3.300 Video-Text-Instanzen mit numerischen Ground-Truth-Daten und bewertet die Leistung eines VLMs bei der Schätzung von Größe, Geschwindigkeit und Beschleunigung eines Objekts zu einem bestimmten Zeitpunkt, wobei eine dieser Eigenschaften als Eingabe-Prior verwendet wird. Der Benchmark standardisiert Prompts und Bewertungskriterien, um die numerische Genauigkeit zu beurteilen und faire Vergleiche zwischen Modellen zu ermöglichen. Unsere Experimente mit modernsten VLMs zeigen eine konsistente Diskrepanz zwischen ihrer qualitativen Plausibilität und der tatsächlichen numerischen Korrektheit. Wir liefern ferner eine detaillierte Analyse von Schlüsselfaktoren wie Hintergrundrauschen, kontrafaktischen Priors und strategischem Prompting und stellen fest, dass state-of-the-art VLMs stark auf vortrainiertes Weltwissen zurückgreifen, anstatt die bereitgestellten visuellen und textuellen Eingaben als Referenz für die quantitative Ableitung kinematischer Eigenschaften zu nutzen. QuantiPhy bietet die erste rigorose, skalierbare Testumgebung, um VLMs über bloße verbale Plausibilität hinaus hin zu einem numerisch fundierten physikalischen Verständnis zu führen.
Aktuelle Methoden zur Videoavatargenerierung zeichnen sich zwar durch hohe Identitätserhaltung und Bewegungsabstimmung aus, mangelt es ihnen jedoch an echter Handlungsfähigkeit; sie können langfristige Ziele nicht autonom durch adaptive Umweltinteraktion verfolgen. Wir adressieren dies durch die Einführung von L-IVA (Long-horizon Interactive Visual Avatar), einer Aufgabe und Benchmark zur Bewertung zielgerichteter Planung in stochastischen generativen Umgebungen, und ORCA (Online Reasoning and Cognitive Architecture), dem ersten Framework, das aktive Intelligenz in Videoavataren ermöglicht. ORCA verkörpert Fähigkeiten eines Internen Weltmodells (IWM) durch zwei zentrale Innovationen: (1) einen geschlossenen OTAR-Zyklus (Observe-Think-Act-Reflect), der unter generativer Unsicherheit einen robusten Zustandstracking durch kontinuierliche Verifikation vorhergesagter Ergebnisse mit tatsächlichen Generierungen aufrechterhält, und (2) eine hierarchische Dual-System-Architektur, bei der System 2 strategische Schlussfolgerungen mit Zustandsprädiktion durchführt, während System 1 abstrakte Pläne in präzise, modellspezifische Aktionsbeschriftungen übersetzt. Indem die Avatarsteuerung als POMDP formuliert und kontinuierliche Belief-Aktualisierung mit Ergebniskontrolle implementiert wird, ermöglicht ORCA autonome Mehrschritt-Aufgabenerfüllung in offenen Domänen. Umfangreiche Experimente zeigen, dass ORCA Open-Loop- und nicht-reflektierende Baseline-Methoden deutlich in Aufgaben-Erfolgsrate und Verhaltenskohärenz übertrifft, was unseren IWM-inspirierten Entwurf zur Weiterentwicklung von Videoavatar-Intelligenz von passiver Animation hin zu aktivem, zielorientiertem Verhalten validiert.
Die qualitative Forschung steht vor einer zentralen Herausforderung in Bezug auf die Reliabilität: traditionelle Methoden zur Übereinstimmung zwischen Beurteilern erfordern mehrere menschliche Kodierer, sind zeitaufwändig und erzielen oft nur mäßige Konsistenz. Wir stellen einen multiperspektivischen Validierungsrahmen für die LLM-gestützte Themenanalyse vor, der Ensemble-Validierung mit zwei Reliabilitätsmetriken kombiniert: Cohens Kappa (κ) für die Übereinstimmung zwischen Beurteilern und Kosinus-Ähnlichkeit für semantische Konsistenz. Unser Rahmenwerk ermöglicht konfigurierbare Analyseparameter (1-6 Seeds, Temperature 0,0-2,0), unterstützt benutzerdefinierte Prompt-Strukturen mit Variablenersetzung und bietet Konsens-Themenextraktion über beliebige JSON-Formate hinweg. Als Proof-of-Concept evaluieren wir drei führende LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) anhand eines Interviewtranskripts zur psychedelischen Kunsttherapie, wobei pro Modell sechs unabhängige Durchläufe durchgeführt werden. Die Ergebnisse zeigen, dass Gemini die höchste Reliabilität erreicht (κ=0,907, Kosinus=95,3 %), gefolgt von GPT-4o (κ=0,853, Kosinus=92,6 %) und Claude (κ=0,842, Kosinus=92,1 %). Alle drei Modelle erzielen eine hohe Übereinstimmung (κ>0,80), was den Mehrfachdurchlauf-Ensemble-Ansatz validiert. Das Framework extrahiert erfolgreich Konsensthemen über die Durchläufe hinweg, wobei Gemini 6 Konsensthemen (50-83 % Konsistenz), GPT-4o 5 Themen und Claude 4 Themen identifiziert. Unsere Open-Source-Implementierung bietet Forschenden transparente Reliabilitätsmetriken, flexible Konfiguration und strukturunabhängige Konsensextraktion und schafft damit methodische Grundlagen für zuverlässige KI-gestützte qualitative Forschung.
Toxische Interaktionen in Open-Source-Software (OSS)-Communities verringern das Engagement der Mitwirkenden und gefährden die Nachhaltigkeit von Projekten. Um solche Toxizität zu verhindern, bevor sie entsteht, ist ein klares Verständnis dafür erforderlich, wie sich schädliche Gespräche entwickeln. Die meisten proaktiven Moderationsstrategien sind jedoch manuell und erfordern erheblichen Zeit- und Arbeitsaufwand von den Maintainern der Community. Um skalierbarere Ansätze zu unterstützen, haben wir einen Datensatz mit 159 entgleisten toxischen Threads und 207 nicht-toxischen Threads aus GitHub-Diskussionen zusammengestellt. Unsere Analyse zeigt, dass sich Toxizität anhand von Spannungsauslösern, Stimmungswechseln und spezifischen Konversationsmustern vorhersagen lässt. Wir stellen einen neuartigen, auf Large Language Models (LLM) basierenden Rahmen zur Vorhersage von Konversationsentgleisungen auf GitHub vor, der eine zweistufige Prompting-Pipeline verwendet. Zuerst generieren wir Zusammenfassungen der Konversationsdynamik (Summaries of Conversation Dynamics, SCDs) mittels Least-to-Most (LtM)-Prompting; anschließend nutzen wir diese Zusammenfassungen, um die Wahrscheinlichkeit einer Entgleisung abzuschätzen. Bewertet an Qwen- und Llama-Modellen erreicht unsere LtM-Strategie bei einem Entscheidungsschwellenwert von 0,3 F1-Scores von 0,901 bzw. 0,852 und übertrifft damit etablierte NLP-Baseline-Modelle für Konversationsentgleisung. Eine externe Validierung an einem Datensatz von 308 GitHub-Issue-Threads (65 toxisch, 243 nicht-toxisch) ergibt einen F1-Score von bis zu 0,797. Unsere Ergebnisse demonstrieren die Wirksamkeit von strukturiertem LLM-Prompting für die frühzeitige Erkennung von Konversationsentgleisungen in OSS, was eine proaktive und erklärbare Moderation ermöglicht.
Fokus ist ein Grundpfeiler der Fotografie, doch Autofokus-Systeme erfassen oft nicht das beabsichtigte Motiv, und Nutzer wünschen sich häufig, den Fokus nach der Aufnahme anzupassen. Wir stellen eine neuartige Methode für realistisches Nachschärfen mittels Video-Diffusionsmodellen vor. Aus einem einzigen unscharfen Bild erzeugt unser Ansatz einen wahrnehmungsgetreu akkuraten Fokus-Stapel, der als Videosequenz dargestellt wird. Dies ermöglicht interaktives Nachschärfen und eröffnet eine Reihe nachgelagerter Anwendungen. Zur Unterstützung dieser Arbeit und zukünftiger Forschung veröffentlichen wir einen umfangreichen Fokus-Stapel-Datensatz, der unter verschiedenen realen Smartphone-Bedingungen aufgenommen wurde. Unsere Methode übertrifft bestehende Ansätze durchweg sowohl in der wahrgenommenen Qualität als auch in der Robustheit in anspruchsvollen Szenarien und ebnet so den Weg für erweiterte Fokus-Bearbeitungsmöglichkeiten in der Alltagsfotografie. Code und Daten sind verfügbar unter www.learn2refocus.github.io.