papers.description
Jüngste Fortschritte bei der diffusionsbasierten Videogenerierung haben neue Möglichkeiten für steuerbare Videobearbeitung eröffnet, doch realistische Videoobjekteinfügung (VOI) bleibt aufgrund des begrenzten 4D-Szenenverständnisses und der unzureichenden Handhabung von Okklusionen und Beleuchtungseffekten eine Herausforderung. Wir stellen InsertAnywhere vor, ein neues VOI-Framework, das geometrisch konsistente Objektplatzierung und erscheinungstreue Videosynthese erreicht. Unsere Methode beginnt mit einem 4D-bewussten Maskengenerierungsmodul, das die Szenengeometrie rekonstruiert und die benutzerspezifische Objektplatzierung über Frames hinweg unter Wahrung der zeitlichen Kohärenz und Okklusionskonsistenz propagiert. Auf dieser räumlichen Grundlage aufbauend, erweitern wir ein diffusionsbasiertes Videogenerierungsmodell, um gemeinsam das eingefügte Objekt und seine lokalen Umgebungsvariationen wie Beleuchtung und Schattierung zu synthetisieren. Um supervidiertes Training zu ermöglichen, führen wir ROSE++ ein, einen beleuchtungsbewussten synthetischen Datensatz, der durch die Transformation des ROSE-Objektentfernungsdatensatzes in Tripel aus objektfreiem Video, objektenthaltendem Video und einem VLM-generierten Referenzbild erstellt wird. Durch umfangreiche Experimente zeigen wir, dass unser Framework geometrisch plausible und visuell kohärente Objekteinfügungen in verschiedenen realen Szenarien erzeugt und dabei bestehende Forschungs- und kommerzielle Modelle signifikant übertrifft.
Menschen verstehen lange und komplexe Texte, indem sie sich auf eine ganzheitliche semantische Repräsentation des Inhalts stützen. Diese globale Sichtweise hilft dabei, Vorwissen zu organisieren, neue Informationen zu interpretieren und über ein Dokument verstreute Beweise zu integrieren, wie durch die mindscape-bewusste Fähigkeit des Menschen in der Psychologie aufgezeigt wird. Aktuelle Retrieval-Augmented Generation (RAG)-Systeme entbehren einer solchen Führung und haben daher Schwierigkeiten mit Aufgaben, die langen Kontext erfordern. In diesem Artikel schlagen wir Mindscape-Aware RAG (MiA-RAG) vor, den ersten Ansatz, der LLM-basierten RAG-Systemen explizites globales Kontextbewusstsein verleiht. MiA-RAG erstellt ein Mindscape durch hierarchische Zusammenfassung und konditioniert sowohl Retrieval als auch Generierung auf diese globale semantische Repräsentation. Dies ermöglicht es dem Retriever, angereicherte Query-Embeddings zu bilden, und dem Generator, über abgerufene Evidenzen innerhalb eines kohärenten globalen Kontexts zu schlussfolgern. Wir evaluieren MiA-RAG auf verschiedenen Benchmarks für langen Kontext und bilinguale Szenarien für evidenzbasiertes Verständnis und globales Sinnverstehen. Es übertrifft durchgängig die Baseline-Systeme, und weitere Analysen zeigen, dass es lokale Details mit einer kohärenten globalen Repräsentation in Einklang bringt und damit eine menschenähnlichere Retrieval- und Reasoning-Leistung bei langem Kontext ermöglicht.
Die Entwicklung von GUI-Agenten könnte die nächste Generation der Mensch-Computer-Interaktion revolutionieren. Angetrieben von dieser Vision präsentieren wir MAI-UI, eine Familie von Foundation-GUI-Agenten, die das gesamte Größenspektrum abdeckt, einschließlich der Varianten mit 2B, 8B, 32B und 235B-A22B Parametern. Wir identifizieren vier zentrale Herausforderungen für den praktischen Einsatz: das Fehlen einer nativen Agent-Nutzer-Interaktion, die Grenzen eines reinen UI-Betriebs, das Fehlen einer praktischen Einsatzarchitektur und die Anfälligkeit in dynamischen Umgebungen. MAI-UI adressiert diese Probleme mit einer einheitlichen Methodik: einer sich selbst entwickelnden Datenpipeline, die die Navigationsdaten um Nutzerinteraktionen und MCP-Tool-Aufrufe erweitert; einem nativen Geräte-Cloud-Kollaborationssystem, das die Ausführung anhand des Aufgabenstatus steuert; und einem Online-Reinforcement-Learning-Framework mit fortschrittlichen Optimierungen zur Skalierung paralleler Umgebungen und Kontextlängen. MAI-UI setzt neue Maßstäbe in den Bereichen GUI-Grounding und mobile Navigation. In Grounding-Benchmarks erreicht es 73,5 % auf ScreenSpot-Pro, 91,3 % auf MMBench GUI L2, 70,9 % auf OSWorld-G und 49,2 % auf UI-Vision und übertrifft dabei Gemini-3-Pro und Seed1.8 auf ScreenSpot-Pro. Bei der mobilen GUI-Navigation erzielt es mit 76,7 % auf AndroidWorld einen neuen State-of-the-Art-Wert und übertrifft UI-Tars-2, Gemini-2.5-Pro und Seed1.8. Auf MobileWorld erzielt MAI-UI eine Erfolgsquote von 41,7 % und übertrifft damit end-to-end-GUI-Modelle signifikant, während es mit agentenbasierten Frameworks auf Gemini-3-Pro-Basis konkurrieren kann. Unsere Online-Reinforcement-Learning-Experimente zeigen signifikante Verbesserungen durch die Skalierung paralleler Umgebungen von 32 auf 512 (+5,2 Punkte) und die Erhöhung des Umwelt-Schritt-Budgets von 15 auf 50 (+4,3 Punkte). Schließlich verbessert das native Geräte-Cloud-Kollaborationssystem die On-Device-Leistung um 33 %, reduziert Cloud-Modellaufrufe um über 40 % und wahrt die Privatsphäre der Nutzer.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte bei visuellen Verständnisaufgaben wie visueller Lokalisierung, Segmentierung und Bildbeschreibung erzielt. Ihre Fähigkeit, wahrnehmungsbezogene Bildmerkmale zu erfassen, bleibt jedoch begrenzt. In dieser Arbeit stellen wir UniPercept-Bench vor, einen einheitlichen Rahmen für das wahrnehmungsbezogene Bildverständnis in drei Schlüsseldomänen: Ästhetik, Qualität, Struktur und Textur. Wir etablieren ein hierarchisches Definitionssystem und konstruieren umfangreiche Datensätze, um das wahrnehmungsbezogene Bildverständnis zu evaluieren. Auf dieser Grundlage entwickeln wir einen starken Baseline-Ansatz, UniPercept, der durch domainspezifisches Vorab-Training und aufgabenorientiertes Reinforcement Learning trainiert wird und eine robuste Generalisierung sowohl für Visuelle Bewertung (VR) als auch für Visuelle Frage-Antwort-Aufgaben (VQA) ermöglicht. UniPercept übertrifft bestehende MLLMs beim wahrnehmungsbezogenen Bildverständnis und kann als Plug-and-Play-Belohnungsmodell für die Text-zu-Bild-Generierung dienen. Diese Arbeit definiert wahrnehmungsbezogenes Bildverständnis im Zeitalter der MLLMs und legt durch die Einführung eines umfassenden Benchmarks zusammen mit einer starken Baseline eine solide Grundlage für die Weiterentwicklung des wahrnehmungsbezogenen multimodalen Bildverständnisses.
Inversionsbasierte visuelle Bearbeitung bietet eine effektive und trainingsfreie Möglichkeit, ein Bild oder Video basierend auf Benutzeranweisungen zu bearbeiten. Bestehende Methoden injizieren typischerweise Quellbildinformationen während des Sampling-Prozesses, um die Bearbeitungskonsistenz zu gewährleisten. Diese Sampling-Strategie verlässt sich jedoch zu stark auf die Quellinformationen, was sich negativ auf die Bearbeitungen im Zielbild auswirkt (z.B. Versagen bei der Änderung von Subjektattributen wie Pose, Anzahl oder Farbe gemäß Anweisung). In dieser Arbeit schlagen wir ProEdit vor, um dieses Problem sowohl in der Aufmerksamkeits- als auch in der Latent-Aspekten zu adressieren. Im Aufmerksamkeitsaspekt führen wir KV-Mix ein, das KV-Features der Quelle und des Ziels im bearbeiteten Bereich mischt und so den Einfluss des Quellbilds auf den Bearbeitungsbereich mildert, während die Hintergrundkonsistenz erhalten bleibt. Im Latent-Aspekt schlagen wir Latents-Shift vor, das den bearbeiteten Bereich des Quell-Latents stört und den Einfluss des invertierten Latents auf das Sampling eliminiert. Umfangreiche Experimente mit mehreren Bild- und Video-Bearbeitungsbenchmarks zeigen, dass unsere Methode state-of-the-art Leistung erreicht. Zudem ist unser Design plug-and-play und kann nahtlos in bestehende Inversions- und Bearbeitungsmethoden wie RF-Solver, FireFlow und UniEdit integriert werden.
Große Sprachmodelle (LLMs) kommen zunehmend in zeitkritischen Systemen wie Robotik, autonomes Fahren, verkörperte Intelligenz und industrielle Automatisierung zum Einsatz, wo die Erzeugung genauer Antworten innerhalb eines vorgegebenen Zeitbudgets für entscheidungs-, steuerungs- oder sicherheitskritische Aufgaben von entscheidender Bedeutung ist. Der autoregressive Generierungsprozess von LLMs erschwert jedoch die Modellierung und Schätzung der End-to-End-Ausführungszeit. Darüber hinaus haben bestehende effiziente Inferenzmethoden, die auf einem festen Verhältnis zur Auslagerung des Key-Value (KV)-Caches basieren, Schwierigkeiten, sich an variierende Aufgaben mit unterschiedlichen Zeitbudgets anzupassen, da ein ungeeignetes Auslagerungsverhältnis zu unvollständiger Inferenz oder einem Leistungsabfall der Antwort führen kann. In diesem Artikel schlagen wir TimeBill vor, ein neuartiges Inferenzframework für LLMs mit Zeitbudget, das Inferenzeffizienz und Antwortleistung in Einklang bringt. Konkret schlagen wir einen feinkörnigen Antwortlängenprädiktor (RLP) und einen Ausführungszeitschätzer (ETE) vor, um die End-to-End-Ausführungszeit von LLMs genau vorherzusagen. Darauf aufbauend entwickeln wir einen zeitorientierten effizienten Inferenzansatz, der das KV-Cache-Auslagerungsverhältnis basierend auf der Ausführungszeitschätzung und dem gegebenen Zeitbudget adaptiv anpasst. Abschließend demonstrieren wir durch umfangreiche Experimente die Vorteile von TimeBill bei der Verbesserung der Aufgabenabschlussrate und der Aufrechterhaltung der Antwortleistung unter verschiedenen Überschreitungsstrategien.
Große visuell-sprachliche Modelle (VLMs) profitieren oft von Zwischenstufen visueller Hinweise, die entweder über externe Werkzeuge eingebracht oder als latente visuelle Token während des Schlussfolgerns generiert werden. Diese Mechanismen übersehen jedoch nach wie vor feinkörnige visuelle Evidenz (z.B. Polylinien in Diagrammen), generalisieren schlecht über Domänen hinweg und verursachen hohe Inferenzkosten. In diesem Artikel schlagen wir die bidirektionale perzeptive Formung (BiPS) vor, die fragengesteuerte maskierte Ansichten in bidirektionale Signale umwandelt, die anzeigen, wohin zu blicken ist, und so die Wahrnehmung während des Trainings formen. BiPS wendet zunächst eine KL-Konsistenzbedingung zwischen dem Originalbild und einer evidenzerhaltenden Ansicht an, die nur fragerelevante Regionen beibehält, um eine grobe aber vollständige Abdeckung der unterstützenden Pixel zu fördern. Anschließend wird eine KL-Separationsbedingung zwischen dem Original und einer evidenzentfernenden Ansicht angewendet, bei der kritische Pixel maskiert werden, sodass das Bild die ursprüngliche Antwort nicht mehr stützt. Dies unterbindet textbasierte Abkürzungen (d.h. das Beantworten ausschließlich aus Text) und erzwingt feinkörnige visuelle Abhängigkeit. Über acht Benchmarks hinweg steigert BiPS Qwen2.5-VL-7B im Durchschnitt um 8,2 % und zeigt eine starke domänenübergreifende Generalisierung auf ungesehene Datensätze und Bildtypen.
Wettermodellierung erfordert sowohl präzise Vorhersagen als auch mechanistische Interpretation, doch bestehende Methoden behandeln diese Ziele isoliert und trennen Generierung von Verständnis. Um diese Lücke zu schließen, präsentieren wir Omni-Weather, das erste multimodale Foundation-Modell, das Wettergenerierung und -verständnis in einer einzigen Architektur vereint. Omni-Weather integriert einen Radar-Encoder für Wettergenerierungsaufgaben, gefolgt von einer vereinheitlichten Verarbeitung durch einen gemeinsamen Self-Attention-Mechanismus. Zudem erstellen wir einen Chain-of-Thought-Datensatz für kausales Reasoning in der Wettergenerierung, der interpretierbare Ergebnisse und verbesserte Wahrnehmungsqualität ermöglicht. Umfangreiche Experimente zeigen, dass Omni-Weather state-of-the-art Leistung in beiden Bereichen erzielt. Unsere Ergebnisse deuten weiterhin darauf hin, dass generative und verstehende Aufgaben im Wetterbereich sich gegenseitig verstärken können. Omni-Weather demonstriert zudem die Machbarkeit und den Wert der Vereinheitlichung von Wettergenerierung und -verständnis.
Die Fähigkeit von KI-Agenten, "mit Bildern zu denken", erfordert eine anspruchsvolle Verbindung von logischem Schlussfolgern und Wahrnehmung. Allerdings bleiben aktuelle offene multimodale Agenten im Hinblick auf den für reale Aufgaben entscheidenden Aspekt des logischen Schlussfolgerns – wie etwa die Analyse von Dokumenten mit komplexen Diagrammen oder die Navigation mit Karten – weitgehend hinter den Erwartungen zurück. Um diese Lücke zu schließen, stellen wir O3-Bench vor, einen neuen Benchmark zur Bewertung multimodalen logischen Schlussfolgerns mit verschachtelter Aufmerksamkeit für visuelle Details. O3-Bench umfasst anspruchsvolle Probleme, die von Agenten verlangen, subtile visuelle Informationen aus verschiedenen Bildbereichen durch mehrstufiges logisches Schlussfolgern zusammenzufügen. Diese Probleme stellen selbst für führende Systeme wie OpenAI o3 eine große Herausforderung dar, das auf O3-Bench nur eine Genauigkeit von 40,8 % erreicht. Um Fortschritte zu erzielen, schlagen wir InSight-o3 vor, ein Multi-Agenten-Framework bestehend aus einem Agenten für visuelles logisches Schlussfolgern (vReasoner) und einem Agenten für visuelle Suche (vSearcher), für den wir die Aufgabe der generalisierten visuellen Suche einführen – das Auffinden von relationalen, unscharfen oder konzeptuellen Bereichen, die in Freitextsprache beschrieben werden, über einfache Objekte oder Figuren in natürlichen Bildern hinaus. Anschließend präsentieren wir ein multimodales Großsprachmodell, das speziell für diese Aufgabe mittels Reinforcement Learning trainiert wurde. Als Plug-and-Play-Agent erweitert unser vSearcher führende multimodale Modelle (als vReasoner) und verbessert deren Leistung in einer Vielzahl von Benchmarks erheblich. Dies stellt einen konkreten Schritt hinzu leistungsstarken, o3-ähnlichen Open-Source-Systemen dar. Unser Code und Datensatz sind unter https://github.com/m-Just/InSight-o3 verfügbar.
Aktuelle Text-zu-Video-Generierungsmodelle zeigen bemerkenswerte Fortschritte in Bezug auf visuelle Realitätssnähe, Bewegungsqualität und Text-Video-Übereinstimmung, sind jedoch grundsätzlich in ihrer Fähigkeit eingeschränkt, sozial kohärentes Verhalten zu generieren. Im Gegensatz zu Menschen, die mühelos Absichten, Überzeugungen, Emotionen und soziale Normen aus kurzen visuellen Hinweisen ableiten, neigen aktuelle Modelle dazu, Szenen wortwörtlich darzustellen, ohne die zugrunde liegende kausale oder psychologische Logik zu erfassen. Um diese Lücke systematisch zu bewerten, führen wir den ersten Benchmark für soziales Reasoning in der Videogenerierung ein. Aufbauend auf Erkenntnissen aus der Entwicklungs- und Sozialpsychologie organisiert unser Benchmark dreißig klassische Paradigmen der sozialen Kognition in sieben Kernbereiche: Inferenz von mentalen Zuständen, zielgerichtetes Handeln, gemeinsame Aufmerksamkeit, soziale Koordination, prosoziales Verhalten, soziale Normen und Multi-Agenten-Strategien. Um diese Paradigmen operationalisierbar zu machen, entwickeln wir eine vollständig trainingsfreie, agentenbasierte Pipeline, die (i) den Reasoning-Mechanismus jedes Experiments destilliert, (ii) diverse videotaugliche Szenarien synthetisiert, (iii) konzeptionelle Neutralität und Schwierigkeitskontrolle durch cue-basierte Kritik durchsetzt und (iv) generierte Videos mithilfe eines hochkapazitiven VLM-Judges über fünf interpretierbare Dimensionen des sozialen Reasonings hinweg bewertet. Mit diesem Framework führen wir die erste groß angelegte Studie mit sieben modernsten Videogenerierungssystemen durch. Unsere Ergebnisse zeigen erhebliche Leistungslücken: Während moderne Modelle auf oberflächlicher Plausibilitätsebene hervorragend abschneiden, scheitern sie systematisch bei der Absichtserkennung, der Überzeugungsverarbeitung (Belief Reasoning), der gemeinsamen Aufmerksamkeit und der prosozialen Inferenz.
Ausführungsbasierte Rückmeldungen wie Unit-Tests werden häufig bei der Entwicklung von Code-Agenten durch Test-Time-Scaling (TTS) und Reinforcement Learning (RL) eingesetzt. Dieses Paradigma erfordert eine skalierbare und zuverlässige Sammlung von Unit-Testfällen, um genaue Rückmeldungen zu liefern, und die resultierenden Rückmeldungen sind oft spärlich und können nicht effektiv zwischen Trajektorien unterscheiden, die beide erfolgreich oder beide erfolglos sind. Im Gegensatz dazu können ausführungsfreie Rückmeldungen von Belohnungsmodellen feinere Signale liefern, ohne von Unit-Testfällen abzuhängen. Trotz dieses Potenzials bleiben ausführungsfreie Rückmeldungen für realistische Softwareentwicklungs-(SWE)-Agenten weitgehend unerforscht. Mit dem Ziel, vielseitige Belohnungsmodelle zu entwickeln, die sowohl für TTS als auch für RL effektiv sind, stellen wir jedoch fest, dass zwei Verifizierer mit nahezu identischer TTS-Leistung dennoch sehr unterschiedliche Ergebnisse in RL liefern können. Intuitiv spiegelt TTS primär die Fähigkeit des Modells wider, die beste Trajektorie auszuwählen, aber diese Fähigkeit generalisiert nicht notwendigerweise auf RL. Um diese Einschränkung zu adressieren, identifizieren wir zwei zusätzliche Aspekte, die für das RL-Training entscheidend sind: Klassifikationsgenauigkeit und Kalibrierung. Anschließend führen wir umfassende kontrollierte Experimente durch, um zu untersuchen, wie ein robustes Belohnungsmodell trainiert werden kann, das bei diesen Metriken gute Leistungen erbringt. Insbesondere analysieren wir die Auswirkungen verschiedener Faktoren wie Trainingsdatenumfang, Policy-Mischungen und Datenquellenzusammensetzung. Auf Basis dieser Untersuchungen führen wir SWE-RM ein, ein präzises und robustes Belohnungsmodell, das eine Mixture-of-Experts-Architektur mit insgesamt 30B Parametern und 3B aktivierten Parametern während der Inferenz verwendet. SWE-RM verbessert SWE-Agenten erheblich sowohl in der TTS- als auch in der RL-Leistung. Beispielsweise steigert es die Genauigkeit von Qwen3-Coder-Flash von 51,6 % auf 62,0 % und von Qwen3-Coder-Max von 67,0 % auf 74,6 % auf SWE-Bench Verified unter Verwendung von TTS und erreicht damit neue state-of-the-art Leistungen unter Open-Source-Modellen.
Die automatische Generierung von Präsentationsfolien kann die Erstellung von Inhalten erheblich vereinfachen. Da jedoch die Präferenzen jedes Nutzers variieren können, führen bestehende unzureichend spezifizierte Formulierungen oft zu suboptimalen Ergebnissen, die nicht mit den individuellen Nutzerbedürfnissen übereinstimmen. Wir stellen eine neuartige Aufgabe vor, die die Generierung von Folien aus wissenschaftlichen Artikeln an benutzerdefinierte Präferenzen anpasst. Wir schlagen ein von menschlichem Verhalten inspiriertes agentenbasiertes Framework namens SlideTailor vor, das schrittweise bearbeitbare Folien auf eine nutzerorientierte Weise generiert. Anstatt von Nutzern zu verlangen, ihre Präferenzen in detaillierter Textform anzugeben, fordert unser System lediglich ein Beispielpaar aus Artikel und Folien sowie eine visuelle Vorlage – natürliche und einfach bereitzustellende Artefakte, die implizit umfangreiche Nutzerpräferenzen bezüglich Inhalt und visuellem Stil kodieren. Trotz der impliziten und unmarkierten Natur dieser Eingaben destilliert und verallgemeinert unser Framework die Präferenzen effektiv, um eine angepasste Foliengenerierung zu steuern. Wir führen außerdem einen neuartigen Chain-of-Speech-Mechanismus ein, um Folieninhalte mit geplanter mündlicher Darstellung abzustimmen. Ein solches Design verbessert die Qualität der generierten Folien erheblich und ermöglicht nachgelagerte Anwendungen wie Videopräsentationen. Um diese neue Aufgabe zu unterstützen, erstellen wir einen Benchmark-Datensatz, der verschiedene Nutzerpräferenzen erfasst, mit sorgfältig entworfenen interpretierbaren Metriken für eine robuste Evaluation. Umfangreiche Experimente demonstrieren die Wirksamkeit unseres Frameworks.
Dieses Papier stellt einen neuen state-of-the-art Algorithmus zur exakten 3x3-Matrixmultiplikation über allgemeinen nicht-kommutativen Ringen vor, der ein Rang-23-Schema mit nur 58 skalaren Additionen erreicht. Dies verbessert die bisher beste additive Komplexität von 60 Additionen ohne Basiswechsel. Das Ergebnis wurde durch eine automatisierte Suche entdeckt, die eine ternär-beschränkte Flip-Graphen-Exploration mit einer gierigen Schnittmengenreduktion zur Eliminierung gemeinsamer Teilausdrücke kombiniert. Das resultierende Schema verwendet ausschließlich Koeffizienten aus {-1, 0, 1}, was sowohl Effizienz als auch Portabilität über beliebige Körper hinweg gewährleistet. Die Gesamtzahl der skalaren Operationen wird von 83 auf 81 reduziert.
Große Reasoning-Modelle (LRMs) werden typischerweise mit Reinforcement Learning mit verifizierbarer Belohnung (RLVR) trainiert, um ihre Reasoning-Fähigkeiten zu verbessern. In diesem Paradigma werden Policy-Änderungen sowohl durch positive als auch negative selbstgenerierte Rollouts vorgenommen, die unterschiedlichen Stichprobenpolaritäten entsprechen. In diesem Papier liefern wir eine systematische Untersuchung darüber, wie diese Stichprobenpolaritäten die RLVR-Trainingsdynamik und -Verhalten beeinflussen. Wir stellen fest, dass positive Stichproben bestehende korrekte Reasoning-Muster schärfen, während negative Stichproben die Exploration neuer Reasoning-Pfade fördern. Wir untersuchen weiterhin, wie die Anpassung der Advantage-Werte positiver und negativer Stichproben sowohl auf Stichproben- als auch auf Token-Ebene das RLVR-Training beeinflusst. Aufbauend auf diesen Erkenntnissen schlagen wir eine adaptive und asymmetrische Advantage-Formung auf Token-Ebene für die Policy-Optimierung vor, genannt A3PO, die Advantage-Signale präziser Schlüsseltokens unterschiedlicher Polaritäten zuordnet. Experimente über fünf Reasoning-Benchmarks demonstrieren die Wirksamkeit unseres Ansatzes.