papers.description
Rotary Position Embedding (RoPE) in Transformer-Modellen weist inhärente Grenzen auf, die die Längenextrapolation schwächen. Wir interpretieren die Aufmerksamkeitskarte mit Positionskodierung als eine verrauschte Merkmalskarte und schlagen Denoising Positional Encoding (DoPE) vor, eine trainingsfreie Methode basierend auf der Entropie einer abgeschnittenen Matrix, um Ausreißer-Frequenzbänder in der Merkmalskarte zu erkennen. Indem wir die Rauscheigenschaften der Merkmalskarte nutzen, parametrisieren wir sie weiter mit einer parameterfreien Gaußschen Verteilung um robuste Extrapolation zu erreichen. Unsere Methode deckt theoretisch die zugrunde liegende Ursache des Attention-Sink-Phänomens und dessen Zusammenhang mit der Entropie einer abgeschnittenen Matrix auf. Experimente zu „Needle-in-a-Haystack“- und Many-Shot-In-Context-Learning-Aufgaben zeigen, dass DoPE die Retrieval-Genauigkeit und die Stabilität des Schlussfolgerns über erweiterte Kontexte (bis zu 64K Tokens) signifikant verbessert. Die Ergebnisse zeigen, dass die Denoising-Strategie für Positions-Einbettungen Attention Sinks effektiv mildert und ausgewogene Aufmerksamkeitsmuster wiederherstellt, wodurch eine einfache, aber leistungsstarke Lösung zur Verbesserung der Längengeneralisierung bereitgestellt wird. Unsere Projektseite ist Project: https://The-physical-picture-of-LLMs.github.io.
Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMMs) haben beeindruckende Entwicklungen im Bereich des visuellen Verständnisses und der Generierung ermöglicht. Bestehende Datensätze und Benchmarks konzentrieren sich jedoch primär auf Einzelinteraktionen und erfassen nicht die mehrschrittige, kontextabhängige Natur realer Bildererstellung und -bearbeitung. Um diese Lücke zu schließen, stellen wir WEAVE vor, die erste Testsuite für kontextuelle, verzahnte kreuzmodale Verständnis- und Generierungsaufgaben. Unsure Suite besteht aus zwei komplementären Teilen. WEAVE-100k ist ein großangelegter Datensatz mit 100.000 verzahnten Stichproben, die über 370.000 Dialogwechsel und 500.000 Bilder umfassen und Verständnis-, Bearbeitungs- und Generierungsaufgaben abdecken, die Schlussfolgerungen aus dem historischen Kontext erfordern. WEAVEBench ist ein menschlich annotierter Benchmark mit 100 Aufgaben basierend auf 480 Bildern, der einen hybriden VLM-Bewertungsrahmen auf Grundlage sowohl des Referenzbildes als auch der Kombination aus Originalbild mit Bearbeitungsanweisungen nutzt. Dieser bewertet die Fähigkeiten der Modelle in den Bereichen Mehrschritt-Generierung, visuelles Gedächtnis und Weltwissen-Schlussfolgerung über diverse Domänen hinweg. Experimente zeigen, dass das Training auf WEAVE-100k Fähigkeiten im visuellen Verständnis, der Bildbearbeitung sowie der Zusammenarbeit zwischen Verständnis und Generierung ermöglicht. Darüber hinaus befähigt es UMMs zur Entwicklung emergenter visueller Gedächtnisfähigkeiten, während umfangreiche Auswertungen auf WEAVEBench die anhaltenden Limitierungen und Herausforderungen aktueller Ansätze bei der mehrschrittigen, kontextbewussten Bildgenerierung und -bearbeitung aufdecken. Wir sind überzeugt, dass WEAVE eine Perspektive und Grundlage für die Erforschung kontextueller verzahnter Verständnis- und Generierungsprozesse für die multimodale Gemeinschaft bietet.
Wir stellen Virtual Width Networks (VWN) vor, ein Framework, das die Vorteile breiterer Repräsentationen bietet, ohne die quadratischen Kosten einer Vergrößerung der Hidden Size zu verursachen. VWN entkoppelt die Repräsentationsbreite von der Backbone-Breite und erweitert den Einbettungsraum, während die Backbone-Berechnung nahezu konstant bleibt. In unserem Großexperiment beschleunigt eine 8-fache Erweiterung die Optimierung um über das 2-fache für die Next-Token- und um das 3-fache für die Next-2-Token-Prädiktion. Der Vorteil verstärkt sich während des Trainings, da sowohl die Loss-Lücke wächst als auch das Konvergenzbeschleunigungsverhältnis zunimmt, was zeigt, dass VWN nicht nur token-effizient ist, sondern mit zunehmender Skala auch immer wirksamer wird. Darüber hinaus identifizieren wir eine annähernd log-lineare Skalierungsbeziehung zwischen der virtuellen Breite und der Loss-Reduktion, was eine erste empirische Grundlage und Motivation für die Erforschung der Virtual-Width-Skalierung als eine neue Dimension der Effizienz großer Modelle bietet.
Das Aufkommen einheitlicher multimodaler Modelle (UMMs) markiert einen Paradigmenwechsel in der künstlichen Intelligenz, der von passiver Wahrnehmung zu aktiver, kreuzmodaler Generierung übergeht. Trotz ihrer beispiellosen Fähigkeit, Informationen zu synthetisieren, besteht eine kritische Lücke in der Evaluation: Bestehende Benchmarks bewerten primär diskriminatives Verständnis oder unbegrenzte Bildgenerierung separat und erfassen nicht den integrierten kognitiven Prozess des generativen Schlussfolgerns. Um diese Lücke zu schließen, schlagen wir vor, dass geometrische Konstruktion ein ideales Testfeld bietet, da sie inhärent eine Fusion von Sprachverständnis und präziser visueller Generierung erfordert. Wir stellen GGBench vor, einen Benchmark, der speziell zur Bewertung geometrischen generativen Schlussfolgerns entwickelt wurde. Er bietet einen umfassenden Rahmen zur systematischen Diagnose der Fähigkeit eines Modells, nicht nur zu verstehen und zu schlussfolgern, sondern aktiv eine Lösung zu konstruieren, und setzt damit einen rigoroseren Standard für die nächste Generation intelligenter Systeme. Projektwebsite: https://opendatalab-raiser.github.io/GGBench/.
Die Programmierung von Benutzeroberflächen (UI) ist ein zentraler, aber hochkomplexer Bereich der modernen Softwareentwicklung. Jüngste Fortschritte bei visuellen Sprachmodellen (VLMs) unterstreichen das Potenzial des automatischen UI-Codings, doch aktuelle Ansätze stoßen auf zwei Hauptprobleme: Multimodale Codierfähigkeiten sind noch unzureichend entwickelt, und Single-Turn-Paradigmen nutzen iteratives visuelles Feedback kaum. Wir begegnen diesen Herausforderungen mit einem interaktiven UI-zu-Code-Paradigma, das reale Arbeitsabläufe besser abbildet und die Obergrenze der erreichbaren Leistung anhebt. Innerhalb dieses Paradigmas präsentieren wir UI2Code^N, ein visuelles Sprachmodell, das durch gestuftes Pre-Training, Fine-Tuning und bestärkendes Lernen trainiert wurde, um grundlegende Verbesserungen im multimodalen Coding zu erzielen. Das Modell vereint drei Schlüsselfähigkeiten: UI-zu-Code-Generierung, UI-Bearbeitung und UI-Optimierung. Wir erforschen zudem Test-Time-Scaling für die interaktive Generierung, was die systematische Nutzung von Multi-Turn-Feedback ermöglicht. Experimente auf UI-zu-Code- und UI-Optimierungs-Benchmarks zeigen, dass UI2Code^N einen neuen State-of-the-Art unter Open-Source-Modellen etabliert und eine mit führenden Closed-Source-Modellen wie Claude-4-Sonnet und GPT-5 vergleichbare Leistung erzielt. Unser Code und unsere Modelle sind unter https://github.com/zai-org/UI2Code_N verfügbar.
Die Landschaft der Videogenerierung befindet sich im Wandel: weg von der Erstellung visuell ansprechender Clips hin zum Aufbau virtueller Umgebungen, die Interaktion unterstützen und physikalische Plausibilität wahren. Diese Entwicklungen deuten auf das Entstehen von Video-Foundation-Modellen hin, die nicht nur als visuelle Generatoren fungieren, sondern auch als implizite Weltmodelle – Modelle, die die physikalische Dynamik, Agenten-Umgebungs-Interaktionen und Aufgabenplanung simulieren, die reale oder imaginierte Welten bestimmen. Dieser Übersichtsartikel bietet einen systematischen Überblick über diese Entwicklung und konzeptualisiert moderne Video-Foundation-Modelle als Kombination zweier Kernkomponenten: eines impliziten Weltmodells und eines Video-Renderers. Das Weltmodell kodiert strukturiertes Wissen über die Welt, einschließlich physikalischer Gesetze, Interaktionsdynamiken und Agentenverhalten. Es dient als latente Simulationsengine, die kohärentes visuelles Reasoning, langfristige zeitliche Konsistenz und zielgerichtete Planung ermöglicht. Der Video-Renderer transformiert diese latente Simulation in realistische visuelle Beobachtungen und erzeugt effektiv Videos als "Fenster" in die simulierte Welt. Wir verfolgen den Fortschritt der Videogenerierung durch vier Generationen, in denen die Kernfähigkeiten schrittweise voranschreiten und letztlich in einem Weltmodell gipfeln, das auf einem Videogenerierungsmodell aufbaut und intrinsische physikalische Plausibilität, Echtzeit-Multimodal-Interaktion sowie Planungsfähigkeiten über mehrere raumzeitliche Skalen hinweg verkörpert. Für jede Generation definieren wir ihre Kernmerkmale, heben repräsentative Arbeiten hervor und untersuchen ihre Anwendungsbereiche wie Robotik, autonomes Fahren und interaktives Gaming. Abschließend diskutieren wir offene Herausforderungen und Designprinzipien für Weltmodelle der nächsten Generation, einschließlich der Rolle von Agentenintelligenz bei der Gestaltung und Evaluierung dieser Systeme. Eine aktuelle Liste verwandter Arbeiten wird unter diesem Link gepflegt.
Diffusion Transformer, insbesondere für die Videogenerierung, erreichen eine bemerkenswerte Qualität, leiden jedoch unter einer quadratischen Aufmerksamkeitskomplexität, was zu prohibitiv hohen Latenzzeiten führt. Bestehende Beschleunigungsmethoden sehen sich einem grundlegenden Zielkonflikt gegenüber: Die dynamische Schätzung sparser Aufmerksamkeitsmuster in jedem Denoising-Schritt verursacht hohen Rechenaufwand und Schätzfehler, während statische Sparsity-Muster festgelegt und während des gesamten Denoising-Prozesses oft suboptimal bleiben. Wir identifizieren eine zentrale Struktureigenschaft der Diffusion-Aufmerksamkeit: Ihre Sparsity-Muster weisen eine starke zeitliche Kohärenz über die Denoising-Schritte hinweg auf. Kacheln, die in Schritt t als nicht wesentlich eingestuft werden, bleiben dies typischerweise auch in Schritt t+δ. Gestützt auf diese Beobachtung führen wir LiteAttention ein, eine Methode, die zeitliche Kohärenz nutzt, um evolutionäre Berechnungssprünge über die Denoising-Sequenz zu ermöglichen. Indem nicht-essentielle Kacheln früh markiert und Überspring-Entscheidungen vorwärts propagiert werden, eliminiert LiteAttention redundante Aufmerksamkeitsberechnungen ohne den Overhead wiederholter Profilerstellungen. Dies vereint die Anpassungsfähigkeit dynamischer Methoden mit der Effizienz statischer Ansätze. Wir implementieren einen hochoptimierten LiteAttention-Kernel auf Basis von FlashAttention und demonstrieren erhebliche Beschleunigungen bei produktiven Video-Diffusionsmodellen ohne Qualitätseinbußen. Der Code und Implementierungsdetails werden öffentlich zugänglich gemacht.
Die Entdeckung neuartiger Ionischer Flüssigkeiten (ILs) wird durch kritische Herausforderungen bei der Eigenschaftsvorhersage behindert, darunter begrenzte Daten, unzureichende Modellgenauigkeit und fragmentierte Arbeitsabläufe. Unter Nutzung der Leistungsfähigkeit von Large Language Models (LLMs) führen wir AIonopedia ein, unseres Wissens nach den ersten LLM-Agenten für die IL-Entdeckung. Angetrieben durch ein LLM-erweitertes multimodales Domänen-Foundation-Modell für ILs, ermöglicht AIonopedia präzise Eigenschaftsvorhersagen und integriert eine hierarchische Sucharchitektur für molekulares Screening und Design. Unser Modell, trainiert und evaluiert auf einem neu kuratierten, umfassenden IL-Datensatz, erzielt eine überlegene Leistung. Ergänzend zu diesen Ergebnissen zeigen Auswertungen an literaturbeschriebenen Systemen, dass der Agent effektive IL-Modifikationen durchführen kann. Über Offline-Tests hinaus wurde die praktische Wirksamkeit durch reale Laborvalidierungen bestätigt, bei denen der Agent außergewöhnliche Generalisierungsfähigkeiten bei anspruchsvollen Out-of-Distribution-Aufgaben demonstrierte – was seine Fähigkeit unterstreicht, die reale IL-Entdeckung zu beschleunigen.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte bei Vision-Sprache-Aufgaben erzielt, tun sich aber nach wie vor schwer mit räumlichem Verständnis. Bestehende räumliche MLLMs greifen oft auf explizite 3D-Eingaben oder architekturspezifische Modifikationen zurück und bleiben durch umfangreiche Datensätze oder spärliche Supervision eingeschränkt. Um diese Einschränkungen zu adressieren, stellen wir SpatialThinker vor, ein 3D-bewusstes MLLM, das mit Reinforcement Learning (RL) trainiert wurde, um strukturierte räumliche Verankerung mit mehrstufigem Reasoning zu integrieren. Das Modell simuliert eine menschenähnliche Raumwahrnehmung, indem es einen Szenengraphen aufbaut, der aufgabenrelevante Objekte und räumliche Beziehungen enthält, und über dichte räumliche Belohnungen schrittweise zu einer Antwort gelangt. SpatialThinker besteht aus zwei zentralen Beiträgen: (1) einer Datensynthese-Pipeline, die STVQA-7K generiert, einen hochwertigen räumlichen VQA-Datensatz, und (2) Online-RL mit einem multiobjektiven, dichten räumlichen Belohnungssignal, das die räumliche Verankerung erzwingt. SpatialThinker-7B übertrifft überwachtes Fine-Tuning und die sparse RL-Baseline bei räumlichem Verständnis und realen VQA-Benchmarks, verdoppelt nahezu den Leistungszuwachs des Basismodells im Vergleich zu sparse RL und übertrifft GPT-4o. Diese Ergebnisse demonstrieren die Wirksamkeit der Kombination von räumlicher Supervision und belohnungsorientiertem Reasoning, um robustes 3D-Raumverständnis mit begrenzten Daten zu ermöglichen und MLLMs in Richtung menschenähnlichen visuellen Denkens voranzubringen.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wurden durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und Skalierung zur Testzeit vorangetrieben. Die begrenzte Ausgabelänge von LLMs schränkt jedoch die Tiefe der Argumentation ein, die in einem einzelnen Inferenzprozess erreichbar ist. Multi-Agenten-Systeme für das logische Schließen bieten eine vielversprechende Alternative, indem sie mehrere Agenten – darunter Solver, Verifier und Corrector – einsetzen, um Lösungen iterativ zu verbessern. Obwohl sie in Closed-Source-Modellen wie Gemini 2.5 Pro effektiv sind, lassen sie sich aufgrund unzureichender Kritik- und Korrekturfähigkeiten nur schwer auf Open-Source-Modelle verallgemeinern. Um dieses Problem zu lösen, schlagen wir MarsRL vor, ein neuartiges Reinforcement-Learning-Framework mit agentenbasierter Pipeline-Parallelität, das darauf ausgelegt ist, alle Agenten im System gemeinsam zu optimieren. MarsRL führt agentspezifische Belohnungsmechanismen ein, um Belohnungsrauschen zu reduzieren, und setzt pipeline-inspiriertes Training ein, um die Effizienz bei der Verarbeitung langer Trajektorien zu steigern. Angewendet auf Qwen3-30B-A3B-Thinking-2507 verbessert MarsRL die AIME2025-Genauigkeit von 86,5 % auf 93,3 % und BeyondAIME von 64,9 % auf 73,8 % und übertrifft sogar Qwen3-235B-A22B-Thinking-2507. Diese Ergebnisse unterstreichen das Potenzial von MarsRL, Multi-Agenten-Systeme für das logische Schließen weiterzuentwickeln und ihre Anwendbarkeit auf verschiedene Reasoning-Aufgaben auszuweiten.
Open-vocabulary-Detektoren erzielen beeindruckende Leistungen auf COCO, scheitern jedoch oft an der Generalisierung auf reale Datensätze mit Out-of-Distribution-Klassen, die typischerweise nicht in ihrem Pre-Training enthalten sind. Anstatt einfach ein schwergewichtiges Vision-Language-Modell (VLM) für neue Domänen zu fine-tunen, führen wir RF-DETR ein, einen leichtgewichtigen spezialisierten Detektions-Transformer, der mittels gewichteteilender neuronaler Architektursuche (NAS) Pareto-Kurven für Genauigkeit und Latenz für beliebige Zieldatensätze ermittelt. Unser Ansatz fine-tuned ein vortrainiertes Basisnetzwerk auf einem Zieldatensatz und evaluiert tausende Netzwerkkonfigurationen mit verschiedenen Genauigkeits-Latenz-Kompromissen ohne erneutes Training. Darüber hinaus untersuchen wir die "einstellbaren Stellschrauben" für NAS neu, um die Übertragbarkeit von DETRs auf verschiedene Zieldomänen zu verbessern. Bemerkenswerterweise verbessert RF-DETR frühere state-of-the-art Echtzeitverfahren auf COCO und Roboflow100-VL erheblich. RF-DETR (nano) erreicht 48,0 AP auf COCO und übertrifft D-FINE (nano) um 5,3 AP bei ähnlicher Latenz, während RF-DETR (2x-large) GroundingDINO (tiny) auf Roboflow100-VL um 1,2 AP übertrifft und dabei 20-mal schneller läuft. Nach unserem Wissen ist RF-DETR (2x-large) der erste Echtzeit-Detektor, der 60 AP auf COCO überschreitet. Unser Code ist unter https://github.com/roboflow/rf-detr verfügbar.
Um eine einheitliche und flexible Lösung für die tägliche Kommunikation hörgeschädigter Menschen zu bieten, führen wir das Omni-Modell-Paradigma in die assistive Technologie ein und präsentieren HI-TransPA, einen befehlsgesteuerten audiovisuellen persönlichen Assistenten. Das Modell fusioniert undeutliche Sprache mit hochfrequenten Lippenbewegungen und ermöglicht sowohl Übersetzung als auch Dialog innerhalb eines einzigen multimodalen Rahmens. Um die Herausforderungen von verrauschten und heterogenen Rohdaten sowie der begrenzten Anpassungsfähigkeit bestehender Omni-Modelle an hörgeschädigte Sprache zu bewältigen, entwickeln wir eine umfassende Vorverarbeitungs- und Kuratierungspipeline, die Gesichtsmerkmale erkennt, den Lippenbereich isoliert und stabilisiert sowie die multimodale Probenqualität quantitativ bewertet. Diese Qualitätsbewertungen leiten eine Curriculum-Learning-Strategie an, die zunächst mit sauberen, hochvertrauenswürdigen Proben trainiert und schrittweise schwierigere Fälle einbezieht, um die Robustheit des Modells zu stärken. Wir setzen weiterhin einen SigLIP-Encoder in Kombination mit einem Unified 3D-Resampler ein, um hochfrequente Lippenbewegungen effizient zu kodieren. Experimente auf unserem speziell entwickelten HI-Dialogue-Datensatz zeigen, dass HI-TransPA state-of-the-art Leistung sowohl in wörtlicher Genauigkeit als auch semantischer Treue erreicht. Diese Arbeit legt eine Grundlage für die Anwendung von Omni-Modellen in assistiver Kommunikationstechnologie, indem sie einen end-to-end Modellierungsrahmen und essentielle Verarbeitungswerkzeuge für zukünftige Forschung bereitstellt.
Die Optimierung von Empfehlungssystemen für Ziele jenseits der Genauigkeit, wie Vielfalt, Neuartigkeit und Personalisierung, ist entscheidend für langfristige Nutzerzufriedenheit. Zu diesem Zweck haben Praktiker in der Industrie umfangreiche strukturierte Domänenkenntnisse angesammelt, die wir als menschliche A-priori-Informationen bezeichnen (z.B. Artikel-Taxonomien, zeitliche Muster). Dieses Wissen wird typischerweise durch nachträgliche Anpassungen während des Rankings oder Post-Rankings angewendet. Dieser Ansatz bleibt jedoch vom Kernmodelllernen entkoppelt, was besonders unerwünscht ist, da die Industrie zu end-to-end generativen Empfehlungs-Foundation-Modellen übergeht. Andererseits erfordern viele Methoden, die auf diese Ziele jenseits der Genauigkeit abzielen, oft architekturspezifische Modifikationen und verwerfen diese wertvollen menschlichen A-priori-Informationen, indem sie Nutzerabsichten auf vollständig unüberwachte Weise lernen. Anstatt die über Jahre gesammelten menschlichen A-priori-Informationen zu verwerfen, führen wir ein backbone-unabhängiges Framework ein, das diese A-priori-Informationen nahtlos direkt in das End-to-End-Training generativer Empfehlungssysteme integriert. Mit leichten, prioritätskonditionierten Adapter-Head-Architekturen, die von effizienten LLM-Decoding-Strategien inspiriert sind, lenkt unser Ansatz das Modell dazu, Nutzerabsichten entlang menschlich nachvollziehbarer Achsen zu entflechten (z.B. Interaktionstypen, langfristige vs. kurzfristige Interessen). Wir führen außerdem eine hierarchische Kompositionsstrategie zur Modellierung komplexer Interaktionen zwischen verschiedenen Prioritätstypen ein. Umfangreiche Experimente mit drei großskaligen Datensätzen zeigen, dass unsere Methode sowohl die Genauigkeit als auch die Ziele jenseits der Genauigkeit signifikant verbessert. Wir zeigen auch, dass menschliche A-priori-Informationen es dem Backbone-Modell ermöglichen, längere Kontextlängen und größere Modellgrößen effektiver zu nutzen.
Die Bewertung von Übersetzungen auf Diskursebene in Expertenbereichen bleibt unzureichend, obwohl sie für die Wissensverbreitung und die mehrsprachige wissenschaftliche Kommunikation von zentraler Bedeutung ist. Während diese Übersetzungen diskursive Kohärenz und strikte terminologische Präzision erfordern, konzentrieren sich aktuelle Bewertungsmethoden überwiegend auf die Genauigkeit und Flüssigkeit auf Segmentebene. Um diese Einschränkung zu adressieren, stellen wir DiscoX vor, einen neuen Benchmark für chinesisch-englische Übersetzungen auf Diskurs- und Expertenniveau. Er umfasst 200 professionell kuratierte Texte aus sieben Domänen mit einer durchschnittlichen Länge von über 1700 Tokens. Zur Leistungsbewertung auf DiscoX entwickeln wir zudem Metric-S, ein referenzfreies System, das feingranulare automatische Bewertungen in den Kategorien Genauigkeit, Flüssigkeit und Angemessenheit liefert. Metric-S zeigt eine starke Übereinstimmung mit menschlichen Beurteilungen und übertrifft bestehende Metriken signifikant. Unsere Experimente offenbaren eine bemerkenswerte Leistungslücke: Selbst die fortschrittlichsten LLMs liegen bei diesen Aufgaben deutlich hinter menschlichen Experten zurück. Dieser Befund validiert die Schwierigkeit von DiscoX und unterstreicht die verbleibenden Herausforderungen bei der Realisierung professioneller maschineller Übersetzungen. Der vorgeschlagene Benchmark und das Bewertungssystem bieten einen robusten Rahmen für rigorosere Evaluationen und erleichtern zukünftige Fortschritte in der LLM-basierten Übersetzung.
Die Fähigkeit agentenbasierter KI-Systeme, ihre Problemlösungsansätze auf der Grundlage von Interaktionen nach dem Training anzupassen, bleibt eine grundlegende Herausforderung. Zwar wurden Systeme vorgeschlagen, die während der Inferenzphase einen Speicher aktualisieren und pflegen, doch bestehende Entwürfe steuern das System lediglich durch Modifikation der textuellen Eingabe für ein Sprachmodell oder einen Agenten. Dies bedeutet, dass sie keine Sampling-Parameter ändern, Werkzeuge entfernen, System-Prompts anpassen oder zwischen agentenbasierten und Workflow-Paradigmen wechseln können. Systeme, die flexibler adaptieren, erfordern hingegen eine Offline-Optimierung und bleiben nach dem Deployment statisch. Wir präsentieren den Experience-Guided Reasoner (EGuR), der maßgeschneiderte Strategien – vollständige Berechnungsprozeduren, die LLM-Aufrufe, Werkzeuge, Sampling-Parameter und Kontrolllogik umfassen – dynamisch zur Inferenzzeit auf Basis gesammelter Erfahrungen generiert. Dies erreichen wir durch eine LLM-basierte Meta-Strategie – eine Strategie, die Strategien ausgibt – und ermöglichen so die Anpassung aller Strategiekomponenten (Prompts, Sampling-Parameter, Werkzeugkonfigurationen und Kontrolllogik). EGuR operiert mittels zwei Komponenten: Ein Guide generiert mehrere Kandidatenstrategien, bedingt durch das aktuelle Problem und den strukturierten Speicher vergangener Erfahrungen, während ein Consolidator Ausführungsfeedback integriert, um zukünftige Strategiegenerierung zu verbessern. Dies produziert vollständige, sofort ausführbare Strategien, die für jedes Problem optimiert sind, zwischengespeichert, abgerufen und bei Bedarf ausgeführt werden können, ohne Ressourcen zu verschwenden. In fünf anspruchsvollen Benchmarks (AIME 2025, 3-SAT und drei Big Bench Extra Hard-Aufgaben) erzielt EGuR bis zu 14 % höhere Genauigkeit als die stärksten Baseline-Methoden bei gleichzeitiger Reduktion der Rechenkosten um bis zum 111-Fachen, wobei beide Metriken mit zunehmender Erfahrung des Systems weiter steigen.
Emotionen spielen eine entscheidende Rolle bei der videobasierten Ausdrucksvermittlung, doch bestehende Videogenerierungssysteme konzentrieren sich überwiegend auf niedrigschwellige visuelle Metriken und vernachlässigen affektive Dimensionen. Obwohl die Emotionsanalyse im visuellen Bereich Fortschritte erzielt hat, fehlen der Videogemeinschaft dedizierte Ressourcen, um Emotionsverständnis mit generativen Aufgaben zu verbinden, insbesondere für stilisierte und nicht-realistische Kontexte. Um diese Lücke zu schließen, stellen wir EmoVid vor, den ersten multimodalen, emotionsannotierten Videodatensatz, der speziell für kreative Medien entwickelt wurde und Cartoon-Animationen, Filmclips und animierte Sticker umfasst. Jedes Video ist mit Emotionslabels, visuellen Attributen (Helligkeit, Farbintensität, Farbton) und Textbeschreibungen annotiert. Durch systematische Analysen decken wir räumliche und zeitliche Muster auf, die visuelle Merkmale mit emotionalen Wahrnehmungen über verschiedene Videoformen hinweg verknüpfen. Aufbauend auf diesen Erkenntnissen entwickeln wir eine emotionskonditionierte Videogenerierungstechnik durch Fine-Tuning des WAN2.1-Modells. Die Ergebnisse zeigen eine signifikante Verbesserung sowohl quantitativer Metriken als auch der visuellen Qualität generierter Videos bei Text-zu-Video- und Bild-zu-Video-Aufgaben. EmoVid setzt einen neuen Maßstab für die affektive Videoverarbeitung. Unsere Arbeit bietet nicht nur wertvolle Einblicke in die visuelle Emotionsanalyse bei künstlerisch gestalteten Videos, sondern liefert auch praktische Methoden zur Verbesserung des emotionalen Ausdrucks in der Videogenerierung.
Tool-augmented Language Models (TaLMs) können externe Werkzeuge aufrufen, um Probleme zu lösen, die über ihre parametrische Kapazität hinausgehen. Es ist jedoch unklar, ob diese durch Werkzeuge erzielten Verbesserungen vertrauenswürdige Schlussfolgerungen widerspiegeln. Mit Fokus auf das Code Interpreter-Werkzeug zeigen wir, dass TaLMs Werkzeugausgaben selbst bei korrekter Auswahl und Ausführung als Ersatz für die Argumentation behandeln und Lösungen produzieren, die korrekt erscheinen, aber keine schlüssige Begründung aufweisen. Wir bezeichnen diesen Fehlermodus als Tool-Induced Myopia (TIM) und untersuchen ihn mit PYMATH, einem Benchmark von 1.679 mathematischen Wettbewerbsproblemen, für die Python-Code hilfreich, aber nicht ausreichend ist. Wir entwickeln weiterhin eine mehrdimensionale Evaluierungssuite, um die Verschlechterung der Argumentation in TaLMs im Vergleich zu ihren nicht-werkzeugbasierten Gegenstücken zu quantifizieren. Unsere Ergebnisse zeigen, dass TaLMs zwar eine Steigerung der Endantwortgenauigkeit von bis zu 19,3 Prozentpunkten erzielen, ihr Argumentationsverhalten jedoch konsequent abnimmt (z.B. schneiden nicht-werkzeugbasierte LLMs in paarweisen Vergleichen des Argumentationsprozesses bis zu 41,5 % häufiger besser ab). Diese Verschlechterung verstärkt sich mit der Werkzeugnutzung; je häufiger ein Modell Werkzeuge aufruft, desto weniger kohärent wird seine Argumentation. Darüber hinaus verlagert die Werkzeugnutzung Fehler von arithmetischen Fehlern hin zu globalen Argumentationsfehlern (Logik, Annahmen, Kreativität); TIM ist in ~55 % der Hochrisikofälle vorhanden. Schließlich schlagen wir ein auf Präferenzoptimierung basierendes Framework vor, das TaLMs neu ausrichtet, um Werkzeuge als unterstützende Evidenz zu nutzen, was sowohl die Endantwortgenauigkeit als auch die Argumentationstiefe bei Werkzeugnutzung verbessert. Codes und Daten sind verfügbar unter: https://github.com/megagonlabs/TIM.
Die Generierung wissenschaftlicher Ideen steht im Zentrum wissenschaftlicher Entdeckungen und hat den menschlichen Fortschritt vorangetrieben – sei es durch die Lösung ungelöster Probleme oder durch die Formulierung neuartiger Hypothesen zur Erklärung unbekannter Phänomene. Im Gegensatz zu standardmäßigem wissenschaftlichem Schließen oder allgemeiner kreativer Generierung ist die Ideengenerierung in der Wissenschaft eine multikriterielle und offene Aufgabe, bei der die Neuartigkeit eines Beitrags ebenso entscheidend ist wie seine empirische Fundierung. Große Sprachmodelle (LLMs) haben sich kürzlich als vielversprechende Generatoren wissenschaftlicher Ideen erwiesen, die in der Lage sind, kohärente und faktenbasierte Ergebnisse mit überraschender Intuition und akzeptabler Schlussfolgerung zu produzieren. Dennoch bleibt ihre kreative Fähigkeit inkonsistent und wenig verstanden. Dieser Übersichtsartikel bietet eine strukturierte Synthese von Methoden für die LLM-gesteuerte wissenschaftliche Ideenfindung und untersucht, wie verschiedene Ansätze Kreativität mit wissenschaftlicher Solidität in Einklang bringen. Wir kategorisieren bestehende Methoden in fünf komplementäre Familien: Externe Wissensanreicherung, Prompt-basiertes distributionelles Steuern, Skalierung zur Inferenzzeit, Multi-Agenten-Kollaboration und Parameter-Ebene-Anpassung. Um ihre Beiträge zu interpretieren, verwenden wir zwei komplementäre Rahmenwerke: Bodens Taxonomie der kombinatorischen, explorativen und transformativen Kreativität, um das Niveau der Ideen zu charakterisieren, die jede Familie voraussichtlich generiert, und Rhodes 4P-Rahmenwerk – Person, Prozess, Druck und Produkt – um den Aspekt oder die Quelle der Kreativität zu lokalisieren, den jede Methode betont. Durch die Abstimmung methodischer Fortschritte mit Kreativitätsrahmenwerken klärt dieser Überblick den Stand des Feldes und skizziert zentrale Richtungen für zuverlässige, systematische und transformative Anwendungen von LLMs in der wissenschaftlichen Entdeckung.
Wir führen eine gründliche Analyse der formalen und informellen Aussagen im miniF2F-Benchmark aus der Perspektive eines KI-Systems durch, das an einer Mathematik-Olympiade teilnehmen soll, die aus den Problemen in miniF2F besteht. In einem solchen Szenario muss das Modell die Probleme in natürlicher Sprache lesen und verstehen, sie in die Lean-Sprache formalisieren und anschließend mit dem Beweis der Probleme fortfahren. Es erhält für jedes Problem Anerkennung, wenn der formale Beweis der ursprünglichen, dem Modell präsentierten informellen Aussage entspricht. Unsere Evaluierungsergebnisse zeigen, dass die beste Genauigkeit einer solchen Pipeline unter Verwendung der State-of-the-Art-Modelle (SoTA) aus der Literatur bei etwa 36 % liegen kann, was deutlich niedriger ist als die einzelnen in der Autoformalisierungs- und Theorembeweis-Literatur berichteten SoTA-Genauigkeiten von 97 % bzw. 69 %. Durch die Analyse der Fehlermodi führen wir einen beträchtlichen Teil dieses Rückgangs auf Diskrepanzen zwischen den formalen und informellen Aussagen für mehr als die Hälfte der Probleme in miniF2F zurück. Wir korrigieren daraufhin alle Fehler, Diskrepanzen und Vereinfachungen in den formalen und informellen Aussagen und präsentieren miniF2F-v2 mit vollständig verifizierten formalen und informellen Aussagen sowie Beweisen. Die Evaluierung der vollständigen Theorembeweis-Pipeline auf miniF2F-v2 führt zu einer besten Genauigkeit von 70 %, einer signifikanten Verbesserung gegenüber 40 % auf dem ursprünglichen miniF2F, was jedoch auf eine erhebliche Fehlausrichtung zwischen Autoformalisierungsmodellen und Theorembeweisern hindeutet. Unsere tiefgehende Analyse legt nahe, dass ein Benchmark von höherer Qualität der Gemeinschaft helfen kann, Fortschritte auf dem Gebiet des formalen Schließens besser zu bewerten und gleichzeitig die Fehler- und Erfolgsmodi von Autoformalisierungs- und Theorembeweisermodellen besser zu diagnostizieren. Unser Datensatz ist verfügbar unter https://github.com/roozbeh-yz/miniF2F_v2.
Dieses Papier stellt einen neuartigen Ansatz zur Kategorisierung moderner Workload-Scheduler vor. Wir liefern Beschreibungen von drei Klassen von Schedulern: Prozess-Scheduler von Betriebssystemen, Job-Scheduler für Cluster-Systeme und Big-Data-Scheduler. Wir beschreiben ihre Entwicklung von frühen Ansätzen bis hin zu modernen Implementierungen unter Berücksichtigung sowohl der Verwendung als auch der Eigenschaften der Algorithmen. Zusammenfassend erörtern wir die Unterschiede zwischen allen vorgestellten Scheduler-Klassen und diskutieren ihre chronologische Entwicklung. Abschließend heben wir Gemeinsamkeiten im Fokus des Entwurfs von Scheduling-Strategien hervor, die sowohl auf lokale als auch auf verteilte Systeme anwendbar sind.
Die zunehmende Verbreitung autonomer KI-Agenten im Internet wird durch ein grundlegendes Fehlverhältnis behindert: Agenten müssen Affordanzen aus menschenorientierten Benutzeroberflächen ableiten, was zu brüchigen, ineffizienten und unsicheren Interaktionen führt. Um dies zu lösen, stellen wir VOIX vor, ein web-natives Framework, das Websites durch einfache, deklarative HTML-Elemente in die Lage versetzt, zuverlässige, überprüfbare und datenschutzfreundliche Funktionen für KI-Agenten bereitzustellen. VOIX führt die Tags `<tool>` und `<context>` ein, mit denen Entwickler explizit verfügbare Aktionen und relevante Zustände definieren können, um so einen klaren, maschinenlesbaren Vertrag für das Agentenverhalten zu schaffen. Dieser Ansatz verlagert die Kontrolle auf den Website-Entwickler und wahrt gleichzeitig die Privatsphäre der Nutzer, indem die konversationellen Interaktionen von der Website entkoppelt werden. Wir haben die Praxistauglichkeit, Erlernbarkeit und Ausdrucksstärke des Frameworks in einer dreitägigen Hackathon-Studie mit 16 Entwicklern evaluiert. Die Ergebnisse zeigen, dass die Teilnehmer unabhängig von ihrer Vorerfahrung in der Lage waren, schnell verschiedene funktionale Webanwendungen mit Agentenunterstützung zu erstellen. Letztendlich bietet diese Arbeit einen grundlegenden Mechanismus zur Verwirklichung des "Agentic Web" und ermöglicht so eine Zukunft nahtloser und sicherer Mensch-KI-Kollaboration im Internet.
Dieses Papier stellt eine Strategie zur Allokation von Diensten in einem Cloud-System vor, die eine Überlastung der Knoten vermeidet und die Systemstabilität mit minimalen Kosten gewährleistet. Wir spezifizieren ein abstraktes Modell der Cloud-Ressourcennutzung, das mehrere Ressourcentypen sowie Überlegungen zu den Kosten der Dienstmigration umfasst. Ein prototypischer Meta-Heuristik-Load-Balancer wird demonstriert, und experimentelle Ergebnisse werden vorgestellt und diskutiert. Zudem schlagen wir einen neuartigen genetischen Algorithmus vor, bei dem die Population mit den Ergebnissen anderer meta-heuristischer Algorithmen initialisiert wird.
Die Fahrzeug-zu-Fahrzeug (V2V)-Kooperationswahrnehmung hat großes Potenzial, die Leistung des autonomen Fahrens zu verbessern, indem sie Wahrnehmungsbeschränkungen in komplexen ungünstigen Verkehrsszenarien (CATS) überwindet. Gleichzeitig bilden Daten die grundlegende Infrastruktur für moderne KI des autonomen Fahrens. Aufgrund strenger Datenerfassungsanforderungen konzentrieren sich bestehende Datensätze jedoch hauptsächlich auf gewöhnliche Verkehrsszenarien, was den Nutzen der Kooperationswahrnehmung einschränkt. Um diese Herausforderung zu bewältigen, stellen wir CATS-V2V vor, den ersten realen Datensatz seiner Art für die V2V-Kooperationswahrnehmung unter komplexen ungünstigen Verkehrsszenarien. Der Datensatz wurde von zwei hardwarezeit-synchronisierten Fahrzeugen erfasst und umfasst 10 Wetter- und Lichtverhältnisse an 10 verschiedenen Standorten. Der 100-Clip-Datensatz enthält 60.000 Frames von 10 Hz LiDAR-Punktwolken und 1,26 Millionen multi-perspektivische 30 Hz Kamerabilder sowie 750.000 anonymisierte, aber hochpräzise RTK-fixierte GNSS- und IMU-Aufzeichnungen. Dementsprechend stellen wir zeitkonsistente 3D-Bounding-Box-Annotationen für Objekte sowie statische Szenen bereit, um eine 4D-BEV-Darstellung zu konstruieren. Auf dieser Grundlage schlagen wir eine zielbasierte temporale Ausrichtungsmethode vor, die sicherstellt, dass alle Objekte über alle Sensormodalitäten hinweg präzise ausgerichtet sind. Wir hoffen, dass CATS-V2V, der bisher größte, unterstützendste und qualitativ hochwertigste Datensatz seiner Art, der Community des autonomen Fahrens bei verwandten Aufgaben zugutekommt.