papers.description
Große Sprachmodelle nutzen internetgroße Textdaten, während verkörperte KI weiterhin durch die prohibitiv hohen Kosten der physischen Trajektoriensammlung eingeschränkt bleibt. Desktop-Umgebungen – insbesondere im Bereich der Spiele – bieten eine überzeugende Alternative: Sie ermöglichen umfangreiche sensomotorische Interaktionen und bewahren dabei die strukturierte Beobachtungs-Handlungs-Kopplung, die für verkörpertes Lernen essenziell ist. Wir präsentieren D2E (Desktop to Embodied AI), ein Framework, das zeigt, dass Desktop-Interaktionen als effektives Vorabtrainingssubstrat für verkörperte KI-Aufgaben in der Robotik dienen können. Im Gegensatz zu früheren Arbeiten, die domänenspezifisch blieben (z.B. VPT für Minecraft) oder Daten proprietär hielten (z.B. SIMA), etabliert D2E eine vollständige Pipeline von der skalierbaren Desktop-Datensammlung bis zum verifizierten Transfer in verkörperte Domänen. Unser Framework besteht aus drei Komponenten: (1) dem OWA-Toolkit, das diverse Desktop-Interaktionen in ein standardisiertes Format mit 152-facher Kompression vereinheitlicht, (2) dem Generalist-IDM, das durch zeitstempelbasierte Ereignisvorhersage eine starke Null-Shot-Generalisierung über unbekannte Spiele hinweg erreicht und damit internetgroße Pseudolabelung ermöglicht, und (3) VAPT, das Desktop-vorabtrainierte Repräsentationen auf physische Manipulation und Navigation überträgt. Mit über 1.300 Stunden an Daten (259 Stunden menschlicher Demonstrationen und über 1.000 Stunden pseudolabelter Spielzeit) erreichen wir eine Gesamterfolgsrate von 96,6 % bei LIBERO-Manipulation und 83,3 % bei CANVAS-Navigation. Dies bestätigt, dass sensomotorische Grundlagen in digitalen Interaktionen ausreichende Invarianz aufweisen, um sinnvoll auf physische verkörperte Aufgaben übertragen zu werden, und etabliert Desktop-Vorabtraining als praktisches Paradigma für die Robotik. Wir werden unsere gesamte Arbeit öffentlich zugänglich machen, einschließlich des OWA-Toolkits, der Datensätze mit menschlich gesammelten und pseudolabelten Daten sowie der VAPT-trainierten Modelle unter https://worv-ai.github.io/d2e/.
Kamera-zentriertes Verständnis und Generierung sind zwei Eckpfeiler der räumlichen Intelligenz, werden jedoch typischerweise isoliert voneinander untersucht. Wir präsentieren Puffin, ein einheitliches kamera-zentriertes multimodales Modell, das das räumliche Bewusstsein entlang der Kameradimension erweitert. Puffin integriert Sprachregression und diffusionsbasierte Generierung, um Szenen aus beliebigen Blickwinkeln zu interpretieren und zu erstellen. Um die Modallitätslücke zwischen Kameras und Bild-Sprache zu überbrücken, führen wir ein neuartiges Paradigma ein, das die Kamera als Sprache behandelt und damit das Denken mit der Kamera ermöglicht. Dies leitet das Modell an, räumlich verankerte visuelle Hinweise mit fotografischer Terminologie in Einklang zu bringen, während es über geometrische Kontexte hinweg schlussfolgert. Puffin wird auf Puffin-4M trainiert, einem groß angelegten Datensatz mit 4 Millionen Vision-Sprache-Kamera-Tripeln. Wir integrieren sowohl globale Kameraparameter als auch pixelgenaue Kamerakarten, was eine flexible und zuverlässige räumliche Generierung ermöglicht. Experimente zeigen die überlegene Leistung von Puffin gegenüber spezialisierten Modellen für kamera-zentrierte Generierung und Verständnis. Durch Instruktionsfeinjustierung generalisiert Puffin auf diverse Aufgaben über verschiedene Blickwinkel hinweg, wie räumliche Imagination, Welterkundung und Fotografieanleitung. Wir werden den Code, die Modelle, den Datensatz-Pipeline und den Benchmark veröffentlichen, um die Forschung zur multimodalen räumlichen Intelligenz voranzutreiben.
Diese Arbeit präsentiert die erste groß angelegte Untersuchung zur Konstruktion eines vollständig offenen bilingualen Large Language Models (LLM) für eine nicht-englische Sprache, speziell Koreanisch, das überwiegend auf synthetischen Daten trainiert wurde. Wir stellen KORMo-10B vor, ein Modell mit 10,8 Milliarden Parametern, das von Grund auf einem koreanisch-englischen Korpus trainiert wurde, wobei 68,74 % des koreanischen Anteils synthetisch sind. Durch systematische Experimente zeigen wir, dass synthetische Daten, wenn sie sorgfältig mit ausgewogener linguistischer Abdeckung und diversen Instruktionsstilen kuratiert werden, keine Instabilität oder Verschlechterung während des groß angelegten Pretrainings verursachen. Darüber hinaus erreicht das Modell eine Leistung, die mit der zeitgenössischer Open-Weight-Multilingual-Baselines über eine breite Palette von Reasoning-, Wissens- und Instruktionsfolge-Benchmarks vergleichbar ist. Unsere Experimente offenbaren zwei zentrale Erkenntnisse: (1) synthetische Daten können zuverlässig langfristiges Pretraining ohne Modellkollaps unterstützen, und (2) bilinguales Instruction-Tuning ermöglicht nahezu muttersprachliches Reasoning und Diskurskohärenz in Koreanisch. Durch die vollständige Veröffentlichung aller Komponenten, einschließlich Daten, Code, Trainingsrezepten und Protokollen, etabliert diese Arbeit einen transparenten Rahmen für die Entwicklung synthetischer datengetriebener vollständig offener Modelle (FOMs) in ressourcenarmen Umgebungen und setzt einen reproduzierbaren Präzedenzfall für zukünftige multilinguale LLM-Forschung.
Da das Volumen der begutachteten Forschung sprunghaft ansteigt, verlassen sich Wissenschaftler zunehmend auf soziale Plattformen für die Entdeckung neuer Arbeiten, während Autoren erhebliche Anstrengungen in die Bewerbung ihrer Forschung investieren, um Sichtbarkeit und Zitationen zu gewährleisten. Um diesen Prozess zu optimieren und den menschlichen Aufwand zu reduzieren, führen wir die Automatische Bewerbung (AutoPR) ein, eine neuartige Aufgabe, die Forschungsarbeiten in präzise, ansprechende und zeitnahe öffentliche Inhalte transformiert. Um eine rigorose Bewertung zu ermöglichen, veröffentlichen wir PRBench, einen multimodalen Benchmark, der 512 begutachtete Artikel mit hochwertigen Werbeposts verknüpft und Systeme entlang dreier Achsen bewertet: Treue (Genauigkeit und Ton), Engagement (Zielgruppenorientierung und Anziehungskraft) und Ausrichtung (Zeitpunkt und Kanaloptimierung). Zudem stellen wir PRAgent vor, ein Multi-Agenten-Framework, das AutoPR in drei Phasen automatisiert: Inhaltsgewinnung mit multimodaler Vorbereitung, kollaborative Synthese für polierte Ergebnisse und plattformspezifische Anpassung, um Normen, Ton und Tagging für maximale Reichweite zu optimieren. Im Vergleich zu direkten LLM-Pipelines auf PRBench zeigt PRAgent erhebliche Verbesserungen, darunter eine Steigerung der Gesamtansichtszeit um 604 %, einen Anstieg der Likes um 438 % und mindestens eine 2,9-fache Steigerung des Gesamtengagements. Ablationsstudien zeigen, dass die Modellierung von Plattformen und zielgerichtete Bewerbung den größten Beitrag zu diesen Gewinnen leisten. Unsere Ergebnisse positionieren AutoPR als ein lösbares, messbares Forschungsproblem und bieten einen Fahrplan für skalierbare, wirkungsvolle automatisierte wissenschaftliche Kommunikation.
Vision-Language-Modelle (VLMs) könnten Echtzeit-Assistenten und autonome Agenten antreiben, stehen jedoch vor einer kritischen Herausforderung: das Verständnis nahezu unendlicher Videoströme ohne steigende Latenz und Speichernutzung. Die Verarbeitung gesamter Videos mit voller Aufmerksamkeit führt zu quadratischen Rechenkosten und schlechter Leistung bei langen Videos. Gleichzeitig sind einfache Sliding-Window-Methoden ebenfalls fehlerhaft, da sie entweder die Kohärenz brechen oder unter hoher Latenz aufgrund redundanter Neuberechnungen leiden. In diesem Artikel stellen wir StreamingVLM vor, ein Modell, das für das Echtzeit- und stabile Verständnis unendlicher visueller Eingaben entwickelt wurde. Unser Ansatz ist ein einheitliches Framework, das das Training mit dem Streaming-Inference abstimmt. Während der Inferenz halten wir einen kompakten KV-Cache aufrecht, indem wir Zustände von Attention Sinks, ein kurzes Fenster aktueller Vision-Tokens und ein langes Fenster aktueller Text-Tokens wiederverwenden. Diese Streaming-Fähigkeit wird durch eine einfache überwachte Feinabstimmung (SFT) vermittelt, die volle Aufmerksamkeit auf kurze, überlappende Videosegmente anwendet, wodurch effektiv das Aufmerksamkeitsmuster zur Inferenzzeit nachgeahmt wird, ohne auf unverhältnismäßig lange Kontexte zu trainieren. Zur Bewertung haben wir Inf-Streams-Eval entwickelt, einen neuen Benchmark mit Videos von durchschnittlich über zwei Stunden, der eine dichte, sekundengenaue Ausrichtung zwischen Bildern und Text erfordert. Auf Inf-Streams-Eval erreicht StreamingVLM eine Gewinnrate von 66,18 % gegenüber GPT-4O mini und hält eine stabile Echtzeitleistung von bis zu 8 FPS auf einer einzelnen NVIDIA H100 aufrecht. Bemerkenswerterweise verbessert unsere SFT-Strategie auch allgemeine VQA-Fähigkeiten ohne spezifische Feinabstimmung für VQA, was die Leistung auf LongVideoBench um +4,30 und auf OVOBench Realtime um +5,96 steigert. Der Code ist verfügbar unter https://github.com/mit-han-lab/streaming-vlm.
Aktuelle Diffusionsmodelle erreichen Spitzenleistungen in der Bildgenerierung, leiden jedoch häufig unter semantischen Inkonsistenzen oder Halluzinationen. Während verschiedene Inferenzzeit-Leitmethoden die Generierung verbessern können, arbeiten sie oft indirekt, indem sie sich auf externe Signale oder architektonische Modifikationen stützen, was zusätzlichen Rechenaufwand mit sich bringt. In diesem Artikel schlagen wir die Tangential Amplifying Guidance (TAG) vor, eine effizientere und direktere Leitmethode, die ausschließlich auf Trajektoriensignalen basiert, ohne das zugrunde liegende Diffusionsmodell zu verändern. TAG nutzt eine Zwischenprobe als Projektionsbasis und verstärkt die tangentialen Komponenten der geschätzten Scores in Bezug auf diese Basis, um die Abtasttrajektorie zu korrigieren. Wir formalisieren diesen Leitprozess durch eine Taylor-Entwicklung erster Ordnung, die zeigt, dass die Verstärkung der tangentialen Komponente den Zustand in Richtung höherer Wahrscheinlichkeitsregionen lenkt, wodurch Inkonsistenzen reduziert und die Probenqualität verbessert wird. TAG ist ein Plug-and-Play-Modul, das architekturunabhängig ist und die Abtasttreue von Diffusionsmodellen mit minimalem zusätzlichem Rechenaufwand verbessert, was eine neue Perspektive auf die Diffusion Guidance bietet.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge gezeigt, und ihre multimodalen Erweiterungen (MLLMs) erschließen zusätzliche Fähigkeiten, die über Text hinaus Bilder, Videos und andere Modalitäten umfassen. Trotz dieses Fortschritts bleiben Ansätze zur Prompt-Optimierung, die darauf abzielen, den Aufwand für die manuelle Erstellung von Prompts zu verringern und gleichzeitig die Leistung zu maximieren, auf Text beschränkt, was letztlich das volle Potenzial von MLLMs einschränkt. Angesichts dieser Lücke führen wir das neue Problem der multimodalen Prompt-Optimierung ein, das die bisherige Definition der Prompt-Optimierung auf den multimodalen Raum erweitert, der durch Paare von textuellen und nicht-textuellen Prompts definiert ist. Um dieses Problem zu lösen, schlagen wir den Multimodal Prompt Optimizer (MPO) vor, einen einheitlichen Rahmen, der nicht nur die gemeinsame Optimierung multimodaler Prompts durch alignment-erhaltende Aktualisierungen durchführt, sondern auch den Auswahlprozess von Kandidaten-Prompts durch die Nutzung früherer Bewertungen als Prioritäten in einer bayesschen Auswahlstrategie leitet. Durch umfangreiche Experimente über verschiedene Modalitäten hinweg, die über Text hinausgehen, wie Bilder, Videos und sogar Moleküle, zeigen wir, dass MPO führende textbasierte Optimierungsmethoden übertrifft und damit die multimodale Prompt-Optimierung als einen entscheidenden Schritt zur Realisierung des Potenzials von MLLMs etabliert.
Verankerte Fähigkeiten beziehen sich auf eine Reihe grundlegender Fertigkeiten, die es einem Agenten ermöglichen, die physische Welt wahrzunehmen, zu verstehen und mit ihr zu interagieren. Während multimodale große Sprachmodelle (MLLMs) vielversprechende Ansätze als verankerte Agenten zeigen, bleibt eine umfassende und systematische Bewertung ihrer verankerten Fähigkeiten weitgehend unerforscht, da bestehende Benchmarks sich hauptsächlich auf spezifische Domänen wie Planung oder räumliches Verständnis konzentrieren. Um diese Lücke zu schließen, führen wir BEAR ein, einen umfassenden und feingranularen Benchmark, der MLLMs auf atomare verankerte Fähigkeiten evaluiert. BEAR umfasst 4.469 verschränkte Bild-Video-Text-Einträge über 14 Domänen in 6 Kategorien, darunter Aufgaben von grundlegenden Zeigeaktionen, Trajektorienverständnis, räumlichem Denken bis hin zu hochgradiger Planung. Umfangreiche Evaluationsergebnisse von 20 repräsentativen MLLMs offenbaren deren anhaltende Einschränkungen in allen Bereichen der verankerten Fähigkeiten. Um diese Defizite zu adressieren, schlagen wir BEAR-Agent vor, einen multimodalen konversationsfähigen Agenten, der vortrainierte Vision-Modelle integriert, um die Wahrnehmung, das 3D-Verständnis und die Planungsfähigkeiten von MLLMs zu stärken. Dies verbessert die Leistung von MLLMs erheblich über diverse verankerte Fähigkeiten auf BEAR hinweg, was einen absoluten Gewinn von 9,12 % und eine relative Verbesserung von 17,5 % bei GPT-5 ergibt. Darüber hinaus zeigen unsere Experimente, dass die Verbesserung der verankerten Fähigkeiten von MLLMs auch verankerte Aufgaben in simulierten Umgebungen begünstigen kann. Projektwebsite: https://bear-official66.github.io/
Große Sprachmodelle (LLMs) haben durch Imitationslernen auf umfangreichen Textkorpora bemerkenswerte Erfolge erzielt, doch dieses Paradigma schafft eine Kluft zwischen Training und Generierung und begrenzt robustes logisches Denken. Reinforcement Learning (RL) bietet eine dateneffizientere Lösung, die diese Lücke schließen kann, doch seine Anwendung wurde durch einen kritischen Datenengpass eingeschränkt: bestehende RL-Datensätze sind um Größenordnungen kleiner und weniger vielfältig als webweite Vorab-Trainingskorpora. Um dies zu beheben, führen wir die Webscale-RL-Pipeline ein, eine skalierbare Datenengine, die systematisch groß angelegte Vorab-Trainingsdokumente in Millionen von diversen, verifizierbaren Frage-Antwort-Paaren für RL umwandelt. Mit dieser Pipeline erstellen wir den Webscale-RL-Datensatz, der 1,2 Millionen Beispiele aus mehr als 9 Domänen enthält. Unsere Experimente zeigen, dass das auf diesem Datensatz trainierte Modell kontinuierliches Vortraining und starke Datenverfeinerungs-Baselines über eine Reihe von Benchmarks hinweg deutlich übertrifft. Insbesondere erweist sich das RL-Training mit unserem Datensatz als wesentlich effizienter und erreicht die Leistung von kontinuierlichem Vortraining mit bis zu 100-mal weniger Tokens. Unsere Arbeit präsentiert einen gangbaren Weg, RL auf das Niveau von Vortraining zu skalieren und damit leistungsfähigere und effizientere Sprachmodelle zu ermöglichen.
Crowdsourcing-Plattformen zur Modellbewertung, wie beispielsweise Chatbot Arena, ermöglichen die Echtzeitbewertung aus menschlicher Perspektive, um die Qualität von Modellantworten zu beurteilen. Im Bereich der Programmierung ist die manuelle Überprüfung der Qualität von LLM-generierten Inhalten äußerst anspruchsvoll, da sie das Verständnis langer Rohcode-Abschnitte und die gezielte Simulation der Codeausführung erfordert. Vor diesem Hintergrund stellen wir BigCodeArena vor, eine offene Plattform zur menschlichen Bewertung von Codegenerierung, die von einer umfassenden und sofort verfügbaren Ausführungsumgebung unterstützt wird. Basierend auf Chatbot Arena ermöglicht BigCodeArena die Ausführung von LLM-generiertem Code und erlaubt es Nutzern, mit dem Ausführungsprozess und dessen Ergebnissen zu interagieren. Wir haben über 14.000 rohe, codezentrierte Konversationssitzungen über 10 weit verbreitete LLMs hinweg gesammelt, die 10 Programmiersprachen und 8 Arten von Ausführungsumgebungen abdecken. Unter diesen Konversationen identifizierten wir mehr als 4.700 Mehrfachturn-Beispiele mit paarweisen menschlichen Präferenzen. Eine weiterführende Analyse deckt bisher wenig erforschte Präferenzen von LLMs in feingranularen Domänen auf, die durch Aufgaben, Sprachen und Frameworks charakterisiert sind. Um die Codeverständnis- und Generierungsfähigkeiten führender LLMs systematisch zu untersuchen, haben wir zwei Benchmarks auf Basis der gesammelten Daten kuratiert, nämlich BigCodeReward und AutoCodeArena. Für BigCodeReward haben wir die 4.700 Konversationen nachbearbeitet und die Übereinstimmung zwischen Belohnungsmodellen und menschlichen Präferenzen bewertet. Die Auswertung zeigt, dass die meisten LLMs bei der Beurteilung von Codierungspräferenzen überlegene Leistungen erbringen, wenn die Ausführungsergebnisse verfügbar sind. Inspiriert durch diese Erkenntnisse schlagen wir AutoCodeArena vor, einen automatischen Elo-Rating-Benchmark, der darauf abzielt, die Codequalität von LLMs ohne menschliches Zutun zu bewerten. Wir stellen fest, dass proprietäre LLMs wie GPT-5, Claude-Sonnet-4 und Claude-Opus-4 in der Codegenerierungsleistung unter den kürzlich aufkommenden Modellen weiterhin führend sind.
Aktuelle Trends in der Testzeit-Skalierung für Reasoning-Modelle (z. B. OpenAI o1, DeepSeek-R1) haben durch lange Chain-of-Thought (CoT) bemerkenswerte Verbesserungen erzielt. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf unmittelbare, einstufige Aufgaben und bewerten nicht ausreichend die Fähigkeit von Modellen, komplexe, langfristige Szenarien zu verstehen und darauf zu reagieren. Um diese unvollständige Bewertung von Large Reasoning Models (LRMs) zu adressieren, schlagen wir R-HORIZON vor, eine Methode, die darauf abzielt, langfristige Reasoning-Verhalten in LRMs durch Abfragekomposition zu stimulieren. Basierend auf R-HORIZON konstruieren wir einen Benchmark für langfristiges Reasoning, der komplexe, mehrstufige Reasoning-Aufgaben mit interdependenten Problemen umfasst, die lange Reasoning-Horizonte abdecken. Durch eine umfassende Bewertung von LRMs mit dem R-HORIZON-Benchmark stellen wir fest, dass selbst die fortschrittlichsten LRMs erhebliche Leistungseinbußen aufweisen. Unsere Analyse zeigt, dass LRMs eine begrenzte effektive Reasoning-Länge aufweisen und Schwierigkeiten haben, das Denkbudget angemessen über mehrere Probleme zu verteilen. In Anerkennung dieser Einschränkungen nutzen wir R-HORIZON, um langfristige Reasoning-Daten für Reinforcement Learning mit verifizierten Belohnungen (RLVR) zu konstruieren. Im Vergleich zum Training mit einstufigen Daten verbessert RLVR mit R-HORIZON nicht nur die Leistung bei mehrstufigen Reasoning-Aufgaben erheblich, sondern fördert auch die Genauigkeit bei standardmäßigen Reasoning-Aufgaben, mit einer Steigerung von 7,5 auf AIME2024. Diese Ergebnisse positionieren R-HORIZON als ein skalierbares, kontrollierbares und kostengünstiges Paradigma zur Verbesserung und Bewertung der langfristigen Reasoning-Fähigkeiten von LRMs.
Große Sprachmodelle, die für logisches Denken ausgelegt sind, zeigen komplexe Denkprozesse durch die erweiterte Generierung von Gedankenketten (Chain-of-Thought), was während der Dekodierungsphase einen beispiellosen Overhead im Key-Value (KV)-Cache verursacht. Bestehende Methoden zur KV-Cache-Kompression schneiden bei solchen Denkmodellen schlecht ab: Token-Verwerfungsmethoden beeinträchtigen die Integrität des Denkprozesses, indem sie kritische Informationen entfernen, während Methoden zur Neuverteilung von Attention-Heads versehentlich für das Denken entscheidende Heads komprimieren, da sie für Abfrageaufgaben konzipiert sind. Dies führt zu einer erheblichen Leistungsverschlechterung bei steigenden Kompressionsraten. Wir stellen die Hypothese auf, dass KV-Heads in Denkmodellen eine funktionale Heterogenität aufweisen – einige Heads sind für die Konsistenz der Gedankenkette entscheidend, während andere komprimierbar sind. Um diese Erkenntnis zu validieren und zu nutzen, schlagen wir RLKV vor, ein neuartiges Framework zur Identifizierung von für das Denken kritischen Heads, das Reinforcement Learning einsetzt, um den Zusammenhang zwischen der Cache-Nutzung jedes Heads und der Denkqualität direkt zu optimieren. Da RLKV während des Trainings Belohnungen aus tatsächlich generierten Beispielen ableitet, identifiziert es auf natürliche Weise Heads, die für Denkprozesse relevant sind. Wir weisen diesen Heads dann einen vollständigen KV-Cache zu, während wir für andere Heads einen komprimierten, konstanten KV-Cache verwenden, um eine effiziente Inferenz zu ermöglichen. Unsere Experimente zeigen, dass nur ein kleiner Bruchteil der Attention-Heads für das Denken essenziell ist, wodurch unser KV-Kompressionsansatz Baseline-Methoden übertrifft und eine Reduzierung des Caches um 20–50 % bei nahezu verlustfreier Leistung im Vergleich zu unkomprimierten Ergebnissen erreicht.
Mit dem aktuellen Aufschwung in der Erforschung der räumlichen Wahrnehmung haben Forscher bedeutende Fortschritte beim Verständnis von Innenraumszenen erzielt, kämpfen jedoch weiterhin mit vielfältigen Anwendungen wie Robotik und autonomem Fahren. Diese Arbeit zielt darauf ab, die räumliche Wahrnehmung in allen Maßstäben und über verschiedene Szenarien hinweg voranzutreiben, indem zwei zentrale Herausforderungen angegangen werden: 1) die starke Abhängigkeit von 3D-Scans von Innenräumen und arbeitsintensiven manuellen Annotationen für die Erstellung von Datensätzen; 2) das Fehlen einer effektiven Modellierung von Szenen in allen Maßstäben, was oft zu einer Überanpassung an einzelne Szenen führt. In dieser Arbeit führen wir eine ganzheitliche Lösung ein, die ein strukturiertes Wissenssystem für räumliche Wahrnehmung, maßstabsbewusste Modellierung und ein progressives Trainingsparadigma integriert, als ersten Versuch, die räumliche Intelligenz von MLLMs in allen Maßstäben zu erweitern, soweit uns bekannt ist. Mit einer aufgaben-spezifischen, spezialisten-gesteuerten automatisierten Pipeline kuratieren wir über 38.000 Videoszenen über 5 räumliche Maßstäbe hinweg, um SpaceVista-1M zu erstellen, einen Datensatz, der etwa 1 Million räumliche Frage-Antwort-Paare umfasst, die 19 verschiedene Aufgabentypen abdecken. Während spezialisierte Modelle nützliches Domänenwissen einbringen können, sind sie für die Bewertung nicht zuverlässig. Wir erstellen dann einen Benchmark für alle Maßstäbe mit präzisen Annotationen, indem wir videobasierte Daten manuell aufzeichnen, abrufen und zusammenstellen. Allerdings führt ein naives Training mit SpaceVista-1M oft zu suboptimalen Ergebnissen aufgrund potenzieller Wissenskonflikte. Dementsprechend führen wir SpaceVista-7B ein, ein Modell für räumliche Wahrnehmung, das dichte Eingaben über Semantik hinaus akzeptiert und den Maßstab als Anker für maßstabsbewusste Experten und progressive Belohnungen verwendet. Schließlich zeigen umfangreiche Bewertungen über 5 Benchmarks, einschließlich unseres SpaceVista-Bench, eine wettbewerbsfähige Leistung, die eine starke Generalisierung über alle Maßstäbe und Szenarien hinweg demonstriert. Unser Datensatz, Modell und Benchmark werden unter https://peiwensun2000.github.io/mm2km veröffentlicht.
Die Bewertung moderner Machine-Learning-Modelle ist inzwischen unverhältnismäßig teuer geworden. Benchmarks wie LMMs-Eval und HELM erfordern Tausende von GPU-Stunden pro Modell. Diese kostspielige Bewertung verringert die Inklusivität, verlangsamt den Innovationszyklus und verschärft die Umweltauswirkungen. Der typische Ansatz folgt zwei Schritten. Zuerst wird eine Anker-Teilmenge von Daten ausgewählt. Danach wird eine Abbildung von der Genauigkeit auf dieser Teilmenge zum endgültigen Testergebnis trainiert. Der Nachteil dabei ist, dass die Ankerauswahl auf Clustering basiert, was komplex und empfindlich gegenüber Designentscheidungen sein kann. Wir argumentieren, dass die Förderung von Vielfalt unter den Stichproben nicht entscheidend ist; was zählt, ist die Auswahl von Stichproben, die die Vielfalt in den Modellantworten maximieren. Unsere Methode, Diversifying Sample Condensation (DISCO), wählt die Top-k-Stichproben mit den größten Modellunterschieden aus. Dabei werden gierige, stichprobenweise Statistiken verwendet, anstatt globales Clustering. Der Ansatz ist konzeptionell einfacher. Aus theoretischer Sicht bietet die Unstimmigkeit zwischen Modellen eine informationstheoretisch optimale Regel für eine solche gierige Auswahl. DISCO zeigt empirische Verbesserungen gegenüber früheren Methoden und erzielt state-of-the-art Ergebnisse in der Leistungsvorhersage über MMLU, Hellaswag, Winogrande und ARC. Der Code ist hier verfügbar: https://github.com/arubique/disco-public.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einer Standardmethode entwickelt, um große Sprachmodelle (LLMs) bei Aufgaben des logischen Denkens zu verbessern, wobei die Group Relative Policy Optimization (GRPO) in der Praxis weit verbreitet ist. Dennoch verschwendet GRPO erhebliche Rechenressourcen auf negative Gruppen: Gruppen, in denen keine der gesampelten Antworten korrekt ist, liefern keinen Vorteil und somit auch keinen Gradienten. Wir fragen, ob negative Gruppen ohne zusätzliche Überwachung genutzt werden können. Ausgehend von einem Maximum-Likelihood (MLE)-Ziel in der Belohnungsmodellierung zeigen wir, dass der MLE-Gradient einem Policy-Gradienten für eine modifizierte Wertfunktion entspricht. Diese Wertfunktion fügt eine konfidenzgewichtete Strafe für falsche Antworten hinzu, wobei sicherere Fehler stärker bestraft werden. Wir bezeichnen dies als Likelihood Estimation with Negative Samples (LENS). LENS modifiziert GRPO, um falschen Generierungen nicht-null, konfidenzabhängige Belohnungen zuzuweisen, wodurch negative Gruppen informativ werden und zuvor verschwendete Samples in nützliche Gradientenupdates umgewandelt werden. Auf dem MATH-Benchmark mit Llama-3.1-8B und Qwen-2.5-3B übertrifft die vorgeschlagene Variante durchgehend die GRPO-Baseline, mit signifikanten Verbesserungen bei schwierigeren Aufgaben. Diese Ergebnisse demonstrieren einen prinzipiellen und praktischen Weg, um negative Gruppen zu „retten“, wodurch Effizienz und Leistung in RLVR verbessert werden.
Jüngste Fortschritte bei multimodalen großen Denkmodellen (MLRMs) haben deren Fähigkeit zur Lösung komplexer textueller und visueller Aufgaben erheblich verbessert. Diese Modelle neigen jedoch dazu, bei einfachen Problemen übermäßig zu analysieren, was unnötig lange Denkspuren erzeugt, während sie bei schwierigen Problemen zu wenig explorieren, was zu verpassten Lösungen führt. Um dieses Ungleichgewicht zu beheben, schlagen wir ARES vor, ein einheitliches Open-Source-Framework für adaptives Denken, das den Explorationsaufwand dynamisch basierend auf der Aufgabenkomplexität verteilt. Unser Ansatz wird durch zwei zentrale empirische Erkenntnisse motiviert: (i) Während die Entropie einzelner Tokens verrauscht ist, können Tokens mit hoher Fenster-Entropie (HWE) (Token-Entropien, die unter einem gleitenden Fenster gemittelt werden) zuverlässig kritische Momente im Denkprozess erfassen; und (ii) die Reduzierung der HWE-Nutzung ist vorteilhaft für einfache Probleme, während ihre Erhöhung entscheidend für die Lösung schwieriger Probleme ist. Aufbauend auf diesen Erkenntnissen führt ARES eine zweistufige Trainingspipeline ein. In der adaptiven Kaltstartphase kuratieren wir multimodale und textuelle Daten, die mit Denkspuren gepaart sind, deren Länge proportional zur Problemkomplexität ist, wodurch das Modell ein initiales Bewusstsein für die Schwierigkeit erhält. In der zweiten Phase entwickeln wir die Adaptive Entropie-Politikoptimierung (AEPO), die HWE-Tokens als Explorationsauslöser verwendet, um zu entscheiden, wann exploriert werden soll, und eine hierarchische Entropiebelohnung mit dynamischer KL-Steuerung, um festzulegen, wie viel exploriert werden soll. Umfangreiche Experimente zeigen, dass ARES eine überlegene Leistung und Denkeffizienz über diverse mathematische, logische und multimodale Benchmarks hinweg erreicht und dabei die Lücke zu führenden kommerziellen Systemen bei deutlich geringeren Inferenzkosten schließt.
Die Fähigkeit, Werkzeuge zu verwenden, zu verstehen und zu erschaffen, ist ein Kennzeichen menschlicher Intelligenz und ermöglicht eine anspruchsvolle Interaktion mit der physischen Welt. Damit ein allgemeiner intelligenter Agent wahre Vielseitigkeit erreichen kann, muss er diese grundlegenden Fähigkeiten ebenfalls beherrschen. Während moderne Multimodale Large Language Models (MLLMs) ihr umfangreiches Allgemeinwissen für die hochrangige Planung in embodied AI und in nachgelagerten Vision-Language-Action (VLA)-Modellen nutzen, bleibt das Ausmaß ihres wahren Verständnisses physischer Werkzeuge unquantifiziert. Um diese Lücke zu schließen, präsentieren wir PhysToolBench, den ersten Benchmark, der der Bewertung des Verständnisses physischer Werkzeuge durch MLLMs gewidmet ist. Unser Benchmark ist als Visual Question Answering (VQA)-Datensatz strukturiert, der über 1.000 Bild-Text-Paare umfasst. Er bewertet Fähigkeiten auf drei unterschiedlichen Schwierigkeitsstufen: (1) Werkzeugerkennung: Erfordert die Erkennung der primären Funktion eines Werkzeugs. (2) Werkzeugverständnis: Testet die Fähigkeit, die zugrunde liegenden Prinzipien der Funktionsweise eines Werkzeugs zu erfassen. (3) Werkzeugkreation: Fordert das Modell heraus, ein neues Werkzeug aus umgebenden Objekten zu gestalten, wenn konventionelle Optionen nicht verfügbar sind. Unsere umfassende Bewertung von 32 MLLMs – einschließlich proprietärer, Open-Source-, spezialisierter embodied und Backbones in VLAs – offenbart ein erhebliches Defizit im Werkzeugverständnis. Darüber hinaus bieten wir eine detaillierte Analyse und schlagen vorläufige Lösungen vor. Code und Datensatz sind öffentlich verfügbar.
Jüngste Fortschritte haben die Grenzen der KI von Aufgaben der Mustererkennung hin zu Problemen verschoben, die eine schrittweise, System2-artige Argumentation erfordern, insbesondere bei großen Sprachmodellen. Im Gegensatz zum Lernen, bei dem Konzepte wie Generalisierung und Out-of-Distribution (OoD)-Evaluation gut formalisiert sind, gibt es jedoch keine klare, konsistente Definition oder Metrik für die Fähigkeit zur Argumentation. Wir schlagen Generalisierung über Komplexität Out of Distribution (Complexity OoD) als Rahmen und Problemstellung vor, um Argumentation zu definieren und zu messen. Ein Modell zeigt Complexity OoD-Generalisierung, wenn es seine Leistung bei Testinstanzen beibehält, deren minimal erforderliche Lösungskomplexität – sei es repräsentational (reichhaltigere Lösungsstruktur) oder rechnerisch (mehr Argumentationsschritte/Programmlänge) – die aller Trainingsbeispiele übersteigt. Wir formalisieren Komplexität über die Kolmogorov-Komplexität der Lösungsbeschreibung und operationale Proxys (z. B. Objekt-/Relationszählungen; Zählungen von Argumentationsschritten), um zu verdeutlichen, wie sich Complexity OoD von Längen- und kompositioneller OoD unterscheidet. Diese Perspektive vereint Lernen und Argumentation: Viele Fälle, die mit System1-artiger Verarbeitung bei niedriger Komplexität lösbar sind, werden unter Komplexitätsdruck System2-artig, während System2 als Generalisierung über Lösungsstrukturen betrachtet werden kann. Wir übersetzen diese Sichtweise in die Praxis mit Empfehlungen zur Operationalisierung von Complexity OoD über den gesamten Stack: Einbeziehung von Komplexität in das Design von Benchmarks und Evaluationsmetriken, Überdenken der Supervision zur Zielsetzung von Lösungsspuren, Suche und Gestaltung von induktiven Verzerrungen für Complexity OoD-Generalisierung, Behandlung von Spillover-Effekten beim Lernen zur Argumentation wie trügerische Abkürzungen, semantische Robustheit, katastrophales Vergessen und schrittweise Kalibrierung. Da Complexity OoD nicht allein durch Skalierung von Daten gelöst werden kann, wird der Fortschritt hin zu robuster Argumentation Architekturen und Trainingsregime erfordern, die Komplexität explizit modellieren und Rechenressourcen entsprechend zuweisen.
Die Aufgabe der 3D-Okkupationsvorhersage hat in den letzten Jahren bemerkenswerte Fortschritte erzielt und spielt eine entscheidende Rolle in visionbasierten autonomen Fahrzeugsystemen. Während traditionelle Methoden auf feste semantische Kategorien beschränkt sind, haben neuere Ansätze sich darauf verlagert, textausgerichtete Merkmale vorherzusagen, um offene Vokabular-Textabfragen in realen Szenen zu ermöglichen. Es besteht jedoch ein Kompromiss bei der textausgerichteten Szenenmodellierung: Eine spärliche Gaußsche Darstellung hat Schwierigkeiten, kleine Objekte in der Szene zu erfassen, während eine dichte Darstellung erheblichen Rechenaufwand verursacht. Um diese Einschränkungen zu überwinden, präsentieren wir PG-Occ, ein innovatives Progressives Gaußsches Transformer-Framework, das eine offene Vokabular-3D-Okkupationsvorhersage ermöglicht. Unser Framework verwendet eine progressive Online-Verdichtung, eine Feedforward-Strategie, die die 3D-Gaußsche Darstellung schrittweise verbessert, um feinkörnige Szenendetails zu erfassen. Durch die iterative Verbesserung der Darstellung erreicht das Framework ein zunehmend präzises und detailliertes Szenenverständnis. Ein weiterer wesentlicher Beitrag ist die Einführung einer anisotropiebewussten Sampling-Strategie mit raumzeitlicher Fusion, die adaptiv rezeptive Felder für Gaußsche auf verschiedenen Skalen und Stufen zuweist, wodurch eine effektivere Merkmalsaggregation und die Erfassung reichhaltigerer Szeneninformationen ermöglicht wird. Durch umfangreiche Evaluierungen zeigen wir, dass PG-Occ eine state-of-the-art Leistung erzielt und eine relative Verbesserung des mIoU von 14,3 % gegenüber der bisher besten Methode erreicht. Code und vortrainierte Modelle werden nach der Veröffentlichung auf unserer Projektseite verfügbar sein: https://yanchi-3dv.github.io/PG-Occ.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens gezeigt, oft durch überwachtes Feinabstimmen (SFT). Allerdings ist SFT ressourcenintensiv, da es auf großen, kuratierten Datensätzen, abgelehnten Demonstrationen und einer einheitlichen Optimierung über alle Tokens hinweg basiert, obwohl nur ein Bruchteil davon einen bedeutenden Lernwert trägt. In dieser Arbeit untersuchen wir eine kontraintuitive Idee: Können kleinere Sprachmodelle (SLMs) größere Sprachmodelle (LLMs) lehren, indem sie wertvolle Momente des logischen Denkens aufdecken, die die einzigartige Stärke der letzteren widerspiegeln? Wir stellen LightReasoner vor, ein neuartiges Framework, das die Verhaltensdivergenz zwischen einem stärkeren Expertenmodell (LLM) und einem schwächeren Amateurmodell (SLM) nutzt. LightReasoner arbeitet in zwei Phasen: (1) einer Sampling-Phase, die kritische Momente des logischen Denkens identifiziert und Überwachungsbeispiele konstruiert, die den Vorteil des Experten durch den Kontrast zwischen Experte und Amateur erfassen, und (2) einer Feinabstimmungsphase, die das Expertenmodell mit diesen destillierten Beispielen abstimmt und seine Stärken im logischen Denken verstärkt. Über sieben mathematische Benchmarks hinweg verbessert LightReasoner die Genauigkeit um bis zu 28,1 %, während es den Zeitaufwand um 90 %, die Anzahl der gesampelten Probleme um 80 % und die Verwendung abgestimmter Tokens um 99 % reduziert, alles ohne auf Ground-Truth-Labels angewiesen zu sein. Indem schwächere SLMs in effektive Lehrsignale verwandelt werden, bietet LightReasoner einen skalierbaren und ressourceneffizienten Ansatz zur Weiterentwicklung des logischen Denkens von LLMs. Der Code ist verfügbar unter: https://github.com/HKUDS/LightReasoner
Aktuelle steuerbare Diffusionsmodelle basieren typischerweise auf festen Architekturen, die Zwischenaktivierungen modifizieren, um eine auf eine neue Modalität bedingte Steuerung einzufügen. Dieser Ansatz verwendet eine statische Konditionierungsstrategie für einen dynamischen, mehrstufigen Denoising-Prozess, was die Fähigkeit des Modells einschränkt, seine Reaktion anzupassen, während die Generierung von grober Struktur zu feinen Details fortschreitet. Wir stellen TC-LoRA (Temporally Modulated Conditional LoRA) vor, ein neues Paradigma, das eine dynamische, kontextbewusste Steuerung ermöglicht, indem die Gewichte des Modells direkt konditioniert werden. Unser Framework verwendet ein Hypernetzwerk, um LoRA-Adapter in Echtzeit zu generieren, die Gewichtsmodifikationen für das eingefrorene Backbone an jedem Diffusionsschritt basierend auf der Zeit und der Benutzerbedingung anpassen. Dieser Mechanismus ermöglicht es dem Modell, eine explizite, adaptive Strategie für die Anwendung bedingter Steuerung während des gesamten Generierungsprozesses zu erlernen und auszuführen. Durch Experimente in verschiedenen Datenbereichen zeigen wir, dass diese dynamische, parametrische Steuerung die generative Treue und die Einhaltung räumlicher Bedingungen im Vergleich zu statischen, aktivierungsbasierten Methoden signifikant verbessert. TC-LoRA etabliert einen alternativen Ansatz, bei dem die Konditionierungsstrategie des Modells durch eine tiefgreifende funktionale Anpassung seiner Gewichte modifiziert wird, wodurch die Steuerung an die dynamischen Anforderungen der Aufgabe und des Generierungsstadiums angepasst werden kann.
Wir stellen MRMR vor, den ersten multidisziplinären multimodalen Retrieval-Benchmark auf Expertenniveau, der intensives Denken erfordert. MRMR enthält 1.502 Abfragen, die 23 Domänen umfassen, wobei die positiven Dokumente sorgfältig von menschlichen Experten verifiziert wurden. Im Vergleich zu früheren Benchmarks führt MRMR drei wesentliche Fortschritte ein. Erstens fordert es Retrieval-Systeme in verschiedenen Fachgebieten heraus und ermöglicht so einen detaillierten Modellvergleich über Domänen hinweg. Zweitens sind die Abfragen denkintensiv, wobei Bilder eine tiefere Interpretation erfordern, wie z. B. die Diagnose mikroskopischer Präparate. Wir führen zudem Contradiction Retrieval ein, eine neuartige Aufgabe, bei der Modelle widersprüchliche Konzepte identifizieren müssen. Schließlich werden Abfragen und Dokumente als Bild-Text-sequenzierte Sequenzen konstruiert. Im Gegensatz zu früheren Benchmarks, die auf einzelne Bilder oder unimodale Dokumente beschränkt waren, bietet MRMR eine realistische Umgebung mit Multi-Bild-Abfragen und gemischt-modalen Korpusdokumenten. Wir führen eine umfangreiche Evaluierung von 4 Kategorien multimodaler Retrieval-Systeme und 14 führenden Modellen auf MRMR durch. Das Text-Embedding-Modell Qwen3-Embedding mit LLM-generierten Bildbeschreibungen erzielt die höchste Leistung, was auf erheblichen Verbesserungsbedarf bei multimodalen Retrieval-Modellen hinweist. Obwohl neueste multimodale Modelle wie Ops-MM-Embedding bei Experten-domänenspezifischen Abfragen wettbewerbsfähig abschneiden, bleiben sie bei denkintensiven Aufgaben zurück. Wir glauben, dass MRMR den Weg für die Weiterentwicklung des multimodalen Retrievals in realistischeren und anspruchsvolleren Szenarien ebnet.
Reasoning-Modelle haben in letzter Zeit bemerkenswerte Fortschritte in Bereichen wie Mathematik und Programmierung gezeigt. Ihre Expertenfähigkeiten in Mathematik und Programmierung stehen jedoch in starkem Kontrast zu ihrer Leistung bei langfristigen, interaktiven Aufgaben wie Webnavigation und der Nutzung von Computern/Telefonen. Inspiriert durch die Literatur zur menschlichen Kognition argumentieren wir, dass aktuelle KI-Agenten „vicarious trial and error“ – die Fähigkeit, alternative Zukünfte mental zu simulieren, bevor sie handeln – benötigen, um ihr Verständnis und ihre Leistung in komplexen interaktiven Umgebungen zu verbessern. Wir stellen Dyna-Mind vor, ein zweistufiges Trainingsframework, das (V)LM-Agenten explizit beibringt, solche Simulationen in ihr Denken zu integrieren. In Stufe 1 führen wir Reasoning with Simulations (ReSim) ein, das den Agenten trainiert, strukturierte Denkpfade aus erweiterten Suchbäumen zu generieren, die auf realen Erfahrungen basieren, die durch Interaktionen mit der Umgebung gesammelt wurden. ReSim verankert somit das Denken des Agenten in treuen Weltdynamiken und stattet ihn mit der Fähigkeit aus, zukünftige Zustände in seinem Denken vorherzusehen. In Stufe 2 schlagen wir Dyna-GRPO vor, eine Online-Reinforcement-Learning-Methode, die die Simulations- und Entscheidungsfähigkeit des Agenten weiter stärkt, indem sowohl Ergebnisbelohnungen als auch Zwischenzustände als Feedback aus realen Rollouts verwendet werden. Experimente an zwei synthetischen Benchmarks (Sokoban und ALFWorld) und einem realistischen Benchmark (AndroidWorld) zeigen, dass (1) ReSim die Simulationsfähigkeit effektiv in KI-Agenten einflößt und (2) Dyna-GRPO Ergebnis- und Interaktionssignale nutzt, um bessere Strategien für langfristige, planungsintensive Aufgaben zu erlernen. Zusammen unterstreichen diese Ergebnisse die zentrale Rolle der Simulation, um KI-Agenten zu befähigen, in zunehmend herausfordernden Umgebungen effektiver zu denken, zu planen und zu handeln.
Die dynamische Ansichtsynthese hat bedeutende Fortschritte erzielt, doch die Rekonstruktion von Szenen aus unkalibrierten, beiläufigen Videos bleibt aufgrund langsamer Optimierung und komplexer Parameterschätzung eine Herausforderung. In dieser Arbeit präsentieren wir Instant4D, ein monokulares Rekonstruktionssystem, das eine native 4D-Darstellung nutzt, um beiläufige Videosequenzen innerhalb von Minuten effizient zu verarbeiten, ohne kalibrierte Kameras oder Tiefensensoren. Unser Verfahren beginnt mit der geometrischen Wiederherstellung durch Deep Visual SLAM, gefolgt von einem Grid-Pruning, um die Szenendarstellung zu optimieren. Unser Design reduziert die Redundanz erheblich, während die geometrische Integrität erhalten bleibt, und verringert die Modellgröße auf weniger als 10 % des ursprünglichen Umfangs. Um zeitliche Dynamiken effizient zu handhaben, führen wir eine optimierte 4D-Gauß-Darstellung ein, die eine 30-fache Beschleunigung erreicht und die Trainingszeit auf unter zwei Minuten reduziert, während gleichzeitig eine wettbewerbsfähige Leistung über mehrere Benchmarks hinweg erhalten bleibt. Unser Verfahren rekonstruiert ein einzelnes Video innerhalb von 10 Minuten auf dem Dycheck-Datensatz oder für ein typisches 200-Bild-Video. Wir wenden unser Modell weiterhin auf Videos in natürlicher Umgebung an und demonstrieren dessen Generalisierbarkeit. Unsere Projektwebsite ist unter https://instant4d.github.io/ veröffentlicht.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in mathematischem und logischem Denken gezeigt, doch die Statistik als eigenständige und integrative Disziplin bleibt in Benchmarking-Bemühungen untererforscht. Um diese Lücke zu schließen, stellen wir StatEval vor, den ersten umfassenden Benchmark, der sich der Statistik widmet und sowohl Breite als auch Tiefe über verschiedene Schwierigkeitsgrade hinweg abdeckt. StatEval besteht aus 13.817 grundlegenden Problemen, die den Lehrplan für Bachelor- und Masterstudiengänge abdecken, sowie 2374 forschungsorientierten Beweisaufgaben, die aus führenden Fachzeitschriften extrahiert wurden. Um den Benchmark zu erstellen, entwickeln wir eine skalierbare Multi-Agenten-Pipeline mit menschlicher Validierung, die die groß angelegte Extraktion, Umformulierung und Qualitätskontrolle von Problemen automatisiert und dabei akademische Strenge gewährleistet. Darüber hinaus schlagen wir ein robustes Bewertungsframework vor, das sowohl auf rechnerische als auch auf beweisbasierte Aufgaben zugeschnitten ist und eine detaillierte Bewertung der Denkfähigkeit ermöglicht. Experimentelle Ergebnisse zeigen, dass geschlossene Modelle wie GPT5-mini bei forschungsorientierten Problemen unter 57 % liegen, während Open-Source-Modelle deutlich schlechter abschneiden. Diese Erkenntnisse unterstreichen die besonderen Herausforderungen des statistischen Denkens und die Grenzen aktueller LLMs. Wir erwarten, dass StatEval als rigoroser Benchmark dienen wird, um die statistische Intelligenz in großen Sprachmodellen voranzutreiben. Alle Daten und Codes sind auf unserer Webplattform verfügbar: https://stateval.github.io/.
Robuste automatische Spracherkennung (ASR) bei Domänenverschiebung ist entscheidend, da reale Systeme auf unbekannte Akzente und Domänen mit begrenzten annotierten Daten stoßen. Obwohl Pseudo-Labeling eine praktische Lösung bietet, führt es oft zu systematischen, akzentspezifischen Fehlern, die durch Filterung nicht behoben werden können. Wir stellen die Frage: Wie können wir diese wiederkehrenden Verzerrungen ohne Ziel-Ground-Truth korrigieren? Wir schlagen eine einfache Korrektur im Parameterraum vor: In einer Quellendomäne, die sowohl echte als auch pseudo-labelierte Daten enthält, werden zwei ASR-Modelle von derselben Initialisierung aus feinabgestimmt, eines auf Ground-Truth-Labels und das andere auf Pseudo-Labels, und ihre Gewichtsdifferenz bildet einen Korrekturvektor, der die Verzerrungen der Pseudo-Labels erfasst. Wenn dieser Vektor auf ein pseudo-labeliertes Zielmodell angewendet wird, verbessert er die Erkennung und erreicht eine relative Reduktion der Wortfehlerrate (WER) von bis zu 35 % bei AfriSpeech-200 über zehn afrikanische Akzente mit dem Whisper-Tiny-Modell.
Traditionelle multimodale Lernmodelle finden einheitliche Repräsentationen für Aufgaben wie visuelle Fragebeantwortung, sind jedoch stark auf gepaarte Datensätze angewiesen. Eine jedoch übersehene, aber potenziell mächtige Frage ist: Kann man zusätzliche ungepaarte multimodale Daten nutzen, um die Repräsentationslernprozesse in einer Zielmodalität direkt zu verbessern? Wir stellen UML vor: Unpaired Multimodal Learner, ein modalitätsagnostisches Trainingsparadigma, bei dem ein einzelnes Modell abwechselnd Eingaben aus verschiedenen Modalitäten verarbeitet, während Parameter zwischen ihnen geteilt werden. Dieser Ansatz nutzt die Annahme, dass verschiedene Modalitäten Projektionen einer gemeinsamen zugrunde liegenden Realität sind, wodurch das Modell von der cross-modalen Struktur profitieren kann, ohne explizite Paare zu benötigen. Theoretisch zeigen wir unter linearen Daten-generierenden Annahmen, dass ungepaarte zusätzliche Daten Repräsentationen liefern können, die strikt informativer über den Daten-generierenden Prozess sind als unimodales Training. Empirisch zeigen wir, dass die Verwendung ungepaarter Daten aus zusätzlichen Modalitäten – wie Text, Audio oder Bildern – die nachgelagerte Leistung über diverse unimodale Ziele wie Bild und Audio konsequent verbessert. Unsere Projektseite: https://unpaired-multimodal.github.io/
DeepResearch-Agenten verkörpern ein transformatives KI-Paradigma, das Expertenforschung durch ausgeklügeltes Denken und Multi-Tool-Integration durchführt. Die Bewertung dieser Systeme bleibt jedoch äußerst herausfordernd, da offene Forschungsszenarien und bestehende Benchmarks sich auf isolierte Fähigkeiten anstatt auf ganzheitliche Leistung konzentrieren. Im Gegensatz zu traditionellen LLM-Aufgaben müssen DeepResearch-Systeme diverse Quellen synthetisieren, Erkenntnisse generieren und kohärente Ergebnisse präsentieren – Fähigkeiten, die sich einer einfachen Überprüfung entziehen. Um diese Lücke zu schließen, führen wir DeepResearch-ReportEval ein, ein umfassendes Framework, das DeepResearch-Systeme anhand ihrer repräsentativsten Outputs bewertet: Forschungsberichte. Unser Ansatz misst systematisch drei Dimensionen: Qualität, Redundanz und Faktizität, wobei eine innovative LLM-as-a-Judge-Methodik eine starke Übereinstimmung mit Expertenurteilen erreicht. Wir stellen einen standardisierten Benchmark mit 100 kuratierten Anfragen aus 12 realen Kategorien bereit, der einen systematischen Fähigkeitsvergleich ermöglicht. Unsere Bewertung von vier führenden kommerziellen Systemen zeigt unterschiedliche Designphilosophien und Leistungskompromisse auf und liefert grundlegende Erkenntnisse, während sich DeepResearch von Informationsassistenten hin zu intelligenten Forschungspartnern entwickelt. Quellcode und Daten sind verfügbar unter: https://github.com/HKUDS/DeepResearch-Eval.
KI-Kontrollprotokolle dienen als Verteidigungsmechanismus, um nicht vertrauenswürdige LLM-Agenten daran zu hindern, in autonomen Umgebungen Schaden anzurichten. Bisherige Arbeiten behandeln dies als ein Sicherheitsproblem, indem sie mit Exploits Stresstests durchführen, die den Einsatzkontext nutzen, um subtil schädliche Nebentätigkeiten wie das Einschleusen von Hintertüren zu vollenden. In der Praxis basieren die meisten KI-Kontrollprotokolle grundlegend auf LLM-Monitoren, die zu einem zentralen Fehlerpunkt werden können. Wir untersuchen adaptive Angriffe durch ein nicht vertrauenswürdiges Modell, das das Protokoll und das Monitor-Modell kennt, was plausibel ist, wenn das nicht vertrauenswürdige Modell mit einem späteren Wissensstand trainiert wurde oder diese Informationen autonom suchen kann. Wir konkretisieren einen einfachen adaptiven Angriffsvektor, bei dem der Angreifer öffentlich bekannte oder Zero-Shot-Prompt-Injektionen in die Modellausgaben einbettet. Mit dieser Taktik umgehen Frontier-Modelle konsequent diverse Monitore und vollenden bösartige Aufgaben in zwei wichtigen KI-Kontroll-Benchmarks. Der Angriff funktioniert universell gegen aktuelle Protokolle, die auf einen Monitor angewiesen sind. Darüber hinaus schlägt das kürzlich entwickelte Defer-to-Resample-Protokoll sogar fehl, da dessen Resampling die Prompt-Injektion verstärkt und sie effektiv als einen Best-of-n-Angriff umrahmt. Im Allgemeinen stellen adaptive Angriffe auf Monitor-Modelle eine große Schwachstelle in aktuellen Kontrollprotokollen dar und sollten zu einem Standardbestandteil von Bewertungen für zukünftige KI-Kontrollmechanismen werden.
Parallelle Testzeit-Skalierung (TTS) ist ein entscheidender Ansatz zur Verbesserung großer Sprachmodelle (LLMs), typischerweise durch das parallele Sampling mehrerer tokenbasierter Gedankenketten (Chain-of-Thought) und die Aggregation der Ergebnisse durch Abstimmung oder Suche. Jüngste Fortschritte im Bereich des latenten Denkens, bei dem Zwischenüberlegungen in kontinuierlichen Vektorräumen ablaufen, bieten eine effizientere Alternative zum expliziten Chain-of-Thought. Ob jedoch solche latenten Modelle ähnlich von paralleler TTS profitieren können, bleibt offen, hauptsächlich aufgrund des Fehlens von Sampling-Mechanismen im kontinuierlichen Raum und des Mangels an probabilistischen Signalen für die fortgeschrittene Aggregation von Trajektorien. \ Diese Arbeit ermöglicht parallele TTS für latente Denkmodelle, indem sie die oben genannten Probleme angeht. Für das Sampling führen wir zwei unsicherheitsinspirierte stochastische Strategien ein: Monte-Carlo-Dropout und additives Gaußsches Rauschen. Für die Aggregation entwerfen wir ein Latent Reward Model (LatentRM), das mit einem schrittweisen kontrastiven Ziel trainiert wird, um latentes Denken zu bewerten und zu steuern. Umfangreiche Experimente und Visualisierungsanalysen zeigen, dass beide Sampling-Strategien effektiv mit der Rechenleistung skalieren und unterschiedliche Explorationsdynamiken aufweisen, während LatentRM eine effektive Trajektorienauswahl ermöglicht. Zusammen eröffnen unsere Untersuchungen eine neue Richtung für skalierbare Inferenz in kontinuierlichen Räumen. Der Code wurde unter https://github.com/YRYangang/LatentTTS veröffentlicht.
Zero-Shot-Captioner sind kürzlich vorgeschlagene Modelle, die gemeinsame Vision-Sprache-Repräsentationen nutzen, um Bilder zu beschriften, ohne auf gepaarte Bild-Text-Daten angewiesen zu sein. Um ein Bild zu beschriften, dekodieren sie textuell ein textausgerichtetes Bildmerkmal, beschränken sich jedoch auf globale Repräsentationen und Ganzbild-Beschreibungen. Wir stellen ein einheitliches Framework für Zero-Shot-Captioning vor, das von einem bildzentrierten zu einem patchzentrierten Paradigma wechselt und die Beschreibung beliebiger Regionen ohne regionale Überwachung ermöglicht. Anstatt auf globale Bildrepräsentationen zu setzen, behandeln wir einzelne Patches als atomare Beschreibungseinheiten und aggregieren sie, um beliebige Regionen zu beschreiben – von einzelnen Patches über nicht zusammenhängende Bereiche bis hin zu ganzen Bildern. Wir analysieren die Schlüsselkomponenten, die es aktuellen latenten Captionern ermöglichen, in unserem neu vorgeschlagenen Framework zu funktionieren. Experimente zeigen, dass Backbones, die aussagekräftige, dichte visuelle Merkmale erzeugen, wie DINO, entscheidend für die Erreichung von Spitzenleistungen in mehreren regionsbasierten Beschreibungsaufgaben sind. Im Vergleich zu anderen Baselines und state-of-the-art Konkurrenten erzielen unsere Modelle eine bessere Leistung bei Zero-Shot-Dense-, Region-Set- und einer neu eingeführten Trace-Captioning-Aufgabe, was die Effektivität patchweiser semantischer Repräsentationen für skalierbare Beschreibungserzeugung unterstreicht. Projektseite unter https://paciosoft.com/Patch-ioner/.
Peer Review ist der Eckpfeiler der wissenschaftlichen Veröffentlichung, leidet jedoch unter Inkonsistenzen, subjektiven Bewertungen der Gutachter und Skalierbarkeitsproblemen. Wir stellen ReviewerToo vor, ein modulares Framework zur Erforschung und Implementierung von KI-unterstütztem Peer Review, um menschliche Urteile durch systematische und konsistente Bewertungen zu ergänzen. ReviewerToo ermöglicht systematische Experimente mit spezialisierten Gutachter-Personas und strukturierten Bewertungskriterien und kann teilweise oder vollständig in reale Konferenz-Workflows integriert werden. Wir validieren ReviewerToo anhand eines sorgfältig kuratierten Datensatzes von 1.963 eingereichten Artikeln der ICLR 2025, bei dem unsere Experimente mit dem gpt-oss-120b-Modell eine Genauigkeit von 81,8 % bei der Aufgabe, einen Artikel als „annehmen“ oder „ablehnen“ zu kategorisieren, erreichen, verglichen mit 83,9 % für den durchschnittlichen menschlichen Gutachter. Zudem werden von ReviewerToo generierte Gutachten von einem LLM-Bewerter als qualitativ höherwertig eingestuft als der menschliche Durchschnitt, auch wenn sie die stärksten Expertenbeiträge noch nicht übertreffen. Unsere Analyse hebt Bereiche hervor, in denen KI-Gutachter hervorragende Leistungen erbringen (z. B. Faktenprüfung, Literaturrecherche), und solche, in denen sie Schwierigkeiten haben (z. B. Bewertung methodischer Neuheit und theoretischer Beiträge), was den anhaltenden Bedarf an menschlicher Expertise unterstreicht. Basierend auf diesen Ergebnissen schlagen wir Richtlinien für die Integration von KI in Peer-Review-Prozesse vor und zeigen, wie KI Konsistenz, Abdeckung und Fairness verbessern kann, während komplexe Bewertungsentscheidungen den Fachexperten überlassen bleiben. Unsere Arbeit legt den Grundstein für systematische, hybride Peer-Review-Systeme, die mit dem Wachstum der wissenschaftlichen Veröffentlichungen skalieren können.
Große Reasoning-Modelle (LRMs), die durch Reinforcement Learning from Verifier Reward (RLVR) verstärkt werden, haben große Fähigkeiten bei der Problemlösung gezeigt, führen jedoch oft zu Überdenken: übermäßiges, abschweifendes Reasoning, das die Rechenkosten in die Höhe treibt. Bisherige Ansätze zur Bestrafung in RLVR schaffen es zwar, den Token-Verbrauch zu reduzieren, beeinträchtigen jedoch häufig die Modellleistung, was auf die zu einfache Token-weise Überwachung zurückzuführen ist. In diesem Artikel argumentieren wir, dass die Granularität der Überwachung eine entscheidende Rolle bei der Balance zwischen Effizienz und Genauigkeit spielt, und schlagen Group Relative Segment Penalization (GRSP) vor, eine schrittweise Methode zur Regularisierung des Reasonings. Da vorläufige Analysen zeigen, dass Reasoning-Segmente stark mit dem Token-Verbrauch und der Modellleistung korrelieren, entwickeln wir einen längenbewussten Gewichtungsmechanismus über Segment-Cluster hinweg. Umfangreiche Experimente belegen, dass GRSP eine überlegene Token-Effizienz erreicht, ohne die Genauigkeit stark zu beeinträchtigen, insbesondere bei schwierigeren Problemen. Darüber hinaus stabilisiert GRSP das RL-Training und skaliert effektiv über verschiedene Modellgrößen hinweg.
Echtzeit-Sprachmodelle (SLMs) haben Schwierigkeiten, Chain-of-Thought (CoT)-Argumentation zu nutzen, da die Latenzzeit für die sequenzielle Generierung des gesamten Denkprozesses prohibitiv hoch ist. Die Fähigkeit von SLMs, ähnlich wie Menschen während des Sprechens zu denken, gewinnt zunehmend an Aufmerksamkeit. Wir präsentieren erstmals Mind-Paced Speaking (MPS), ein hirninspiriertes Framework, das hochwertige, echtzeitfähige Argumentation ermöglicht. Ähnlich wie Menschen unterschiedliche Hirnregionen für das Denken und Reagieren nutzen, schlagen wir einen neuartigen Dual-Brain-Ansatz vor, der ein „Formulierungsgehirn“ für hochrangige Argumentation einsetzt, um ein separates „Artikulationsgehirn“ für flüssige Sprachgenerierung zu steuern und zu takten. Diese Arbeitsteilung eliminiert Moduswechsel und bewahrt die Integrität des Denkprozesses. Experimente zeigen, dass MPS bestehende Methoden des Denkens während des Sprechens deutlich übertrifft und eine Argumentationsleistung erreicht, die mit Modellen vergleichbar ist, die den vollständigen CoT vor dem Sprechen vorberechnen, bei gleichzeitiger drastischer Reduzierung der Latenz. Unter einer Null-Latenz-Konfiguration erreicht die vorgeschlagene Methode eine Genauigkeit von 92,8 % bei der mathematischen Argumentationsaufgabe Spoken-MQA und eine Punktzahl von 82,5 bei der Sprachkonversationsaufgabe URO-Bench. Unsere Arbeit schließt effektiv die Lücke zwischen hochwertiger Argumentation und Echtzeitinteraktion.
Agenten, die auf großen Sprachmodellen (LLMs) basieren, haben Schwierigkeiten mit gedankenlosem Trial-and-Error und der Erzeugung halluzinatorischer Aktionen aufgrund mangelnder globaler Planung bei langfristigen Aufgaben. In diesem Artikel stellen wir ein Planungs- und Ausführungs-Framework vor und schlagen EAGLET vor, eine effiziente und effektive Methode zur Schulung von Planern, um die Planungsfähigkeiten des ausführenden Agenten ohne menschlichen Aufwand zu verbessern. Konkret trainieren wir einen Plug-and-Play-Globalplaner in einem zweistufigen Prozess: Zuerst synthetisieren wir hochwertige Pläne aus einem fortschrittlichen LLM unter Verwendung unserer vorgeschlagenen homologen Konsensfilterungsstrategie und wenden Feinabstimmung als Kaltstart an. Darüber hinaus verbessern wir den Planer weiter mit einer regelbasierten Verstärkungslernphase unter Verwendung einer neuartigen Belohnung für die Fähigkeitssteigerung des Ausführers, um sicherzustellen, dass er Aufgabenanweisungen unterschiedlicher Schwierigkeit bewältigen kann. Experimente zu drei langfristigen Agentenaufgaben zeigen, dass ausführende Agenten, die mit unserem Planer ausgestattet sind, bestehende Methoden übertreffen und neue Spitzenleistungen erzielen. Gleichzeitig reduziert EAGLET die Trainingskosten um das 8-fache im Vergleich zu RL-basierten Baselines und erfordert weder manuellen Aufwand noch zusätzliche Trainingsdaten, was eine effiziente und effektive Lösung bietet.
Als neues Paradigma der visuellen Inhaltsgenerierung leiden autoregressive Text-zu-Bild-Modelle unter langsamer Inferenz aufgrund ihres sequenziellen Token-für-Token-Decodierungsprozesses, der oft Tausende von Modellvorwärtspässen erfordert, um ein einzelnes Bild zu erzeugen. Um diese Ineffizienz zu beheben, schlagen wir Speculative Jacobi-Denoising Decoding (SJD2) vor, ein Framework, das den Denoising-Prozess in Jacobi-Iterationen integriert, um eine parallele Token-Generierung in autoregressiven Modellen zu ermöglichen. Unsere Methode führt ein Next-Clean-Token-Prediction-Paradigma ein, das es vortrainierten autoregressiven Modellen ermöglicht, rauschgestörte Token-Embeddings zu akzeptieren und die nächsten sauberen Token durch kostengünstiges Fine-Tuning vorherzusagen. Dieses Denoising-Paradigma führt das Modell zu stabileren Jacobi-Trajektorien. Während der Inferenz initialisiert unsere Methode Token-Sequenzen mit Gaußschem Rauschen und führt iterative Next-Clean-Token-Prediction im Embedding-Raum durch. Wir verwenden ein probabilistisches Kriterium, um mehrere Token parallel zu verifizieren und zu akzeptieren, und verfeinern die nicht akzeptierten Token für die nächste Iteration entlang der Denoising-Trajektorie. Experimente zeigen, dass unsere Methode die Generierung beschleunigen kann, indem sie die Anzahl der Modellvorwärtspässe reduziert, während die visuelle Qualität der generierten Bilder erhalten bleibt.
Die Segmentierung von Videoobjekten durch Referenzierung (Referring Video Object Segmentation, RVOS) zielt darauf ab, das Objekt zu segmentieren, das durch den Abfragesatz im Video bezeichnet wird. Die meisten bestehenden Methoden erfordern ein End-to-End-Training mit dichten Maskenanmerkungen, was rechenintensiv und weniger skalierbar sein kann. In dieser Arbeit überdenken wir das RVOS-Problem und untersuchen den Schlüssel zu dieser Aufgabe. Basierend auf bestehenden Grundlagen-Segmentierungsmodellen zerlegen wir die RVOS-Aufgabe in Referenzierungs-, Video- und Segmentierungsfaktoren und schlagen ein Temporal Prompt Generation and Selection (Tenet)-Framework vor, um die Referenzierungs- und Videofaktoren zu adressieren, während das Segmentierungsproblem den Grundlagenmodellen überlassen wird. Um bildbasierte Grundlagen-Segmentierungsmodelle effizient an die Segmentierung von Videoobjekten durch Referenzierung anzupassen, nutzen wir verfügbare Objekterkennungs- und Tracking-Systeme, um zeitliche Prompts zu erzeugen, die mit dem Referenzsatz verknüpft sind. Obwohl hochwertige zeitliche Prompts erzeugt werden können, lassen sie sich nicht einfach anhand von Konfidenzwerten identifizieren. Um dieses Problem zu lösen, schlagen wir Prompt Preference Learning vor, um die Qualität der erzeugten zeitlichen Prompts zu bewerten. Durch die Verwendung solcher Prompts zur Anleitung bildbasierter Grundlagen-Segmentierungsmodelle können wir hochwertige Masken für das bezeichnete Objekt erzeugen, was eine effiziente Modellanpassung an die Segmentierung von Videoobjekten durch Referenzierung ermöglicht. Experimente auf RVOS-Benchmarks demonstrieren die Wirksamkeit des Tenet-Frameworks.
Große Sprachmodelle (LLMs) und aufkommende agentenbasierte Frameworks beginnen, die Einzelzellbiologie zu transformieren, indem sie natürliche Sprachverarbeitung, generative Annotation und multimodale Datenintegration ermöglichen. Dennoch bleibt der Fortschritt über Datenmodalitäten, Architekturen und Bewertungsstandards hinweg fragmentiert. LLM4Cell präsentiert die erste einheitliche Übersicht über 58 Grundlagen- und agentenbasierte Modelle, die für die Einzelzellforschung entwickelt wurden und RNA, ATAC, Multi-Omics und räumliche Modalitäten abdecken. Wir kategorisieren diese Methoden in fünf Familien – Grundlagen, Textbrücke, räumlich, multimodal, epigenomisch und agentenbasiert – und ordnen sie acht zentralen analytischen Aufgaben zu, darunter Annotation, Trajektorien- und Perturbationsmodellierung sowie Arzneimittelreaktionsvorhersage. Basierend auf über 40 öffentlichen Datensätzen analysieren wir die Eignung von Benchmarks, Datenvielfalt sowie ethische oder Skalierbarkeitsbeschränkungen und bewerten Modelle in 10 Fachdimensionen, die biologische Fundierung, Multi-Omics-Ausrichtung, Fairness, Privatsphäre und Erklärbarkeit abdecken. Durch die Verknüpfung von Datensätzen, Modellen und Bewertungsdomänen bietet LLM4Cell die erste integrierte Sicht auf sprachgesteuerte Einzelzellintelligenz und skizziert offene Herausforderungen in Bezug auf Interpretierbarkeit, Standardisierung und vertrauenswürdige Modellentwicklung.
Große Sprachmodelle (LLMs) stellen aufgrund ihrer immensen Rechen- und Speicheranforderungen erhebliche Herausforderungen bei der Bereitstellung dar. Während halbstrukturiertes Pruning, insbesondere 2:4-Sparsity, einen Weg zur praktischen Hardwarebeschleunigung bietet, führen bestehende Methoden oft zu erheblichen Leistungseinbußen. Um diese Lücke zu schließen, führen wir ARMOR ein: (Adaptive Representation with Matrix-factORization), einen neuartigen One-Shot-Post-Training-Pruning-Algorithmus. Anstatt Gewichte direkt zu beschneiden, faktorisiert ARMOR jede Gewichtsmatrix in einen 2:4-sparsamen Kern, der von zwei blockdiagonalen Matrizen mit geringem Overhead umhüllt wird. Diese Umhüllungen fungieren als effiziente Vor- und Nachtransformation-Fehlerkorrektoren und bieten im Vergleich zu konventionellen 2:4-Pruning-Techniken eine größere Flexibilität, um die Modellqualität zu erhalten. Der sparsame Kern und die blockdiagonalen Umhüllungen werden durch einen Block-Koordinatenabstiegsalgorithmus ausgewählt, der einen schichtweisen Proxy-Verlust minimiert. Wir beweisen theoretisch, dass diese Optimierung garantiert zu einer Lösung mit einem Proxy-Verlust konvergiert, der kleiner oder gleich dem von state-of-the-art Pruning-Algorithmen ist. Experimente mit den Modellfamilien Llama (Touvron et al., 2023; Dubey et al., 2024) und Qwen (Yang et al., 2025) zeigen, dass ARMOR durchweg und signifikant die state-of-the-art 2:4-Pruning-Methoden bei einer Vielzahl von Downstream-Aufgaben und Perplexitätsbewertungen übertrifft. ARMOR erreicht diese überlegene Leistung, während es die Beschleunigung der Inferenz und die erhebliche Reduzierung des Speicherverbrauchs von 2:4-Pruning beibehält, wodurch ein effektiverer Kompromiss zwischen Modellkompression und Aufgabenpräzision erreicht wird.
Echte Roboteragenten müssen unter teilweiser Beobachtbarkeit und langen Zeithorizonten agieren, wobei entscheidende Hinweise lange vor ihrer Auswirkung auf die Entscheidungsfindung auftreten können. Die meisten modernen Ansätze verlassen sich jedoch ausschließlich auf momentane Informationen, ohne Erkenntnisse aus der Vergangenheit einzubeziehen. Standardmäßige rekurrente oder Transformer-Modelle haben Schwierigkeiten, langfristige Abhängigkeiten zu bewahren und zu nutzen: Kontextfenster kürzen die Historie, während naive Speichererweiterungen unter Skalierung und Sparsität versagen. Wir schlagen ELMUR (External Layer Memory with Update/Rewrite) vor, eine Transformer-Architektur mit strukturiertem externen Speicher. Jede Schicht verwaltet Speichereinbettungen, interagiert mit ihnen über bidirektionale Kreuzaufmerksamkeit und aktualisiert sie durch ein Least Recently Used (LRU)-Speichermodul mittels Ersetzung oder konvexer Mischung. ELMUR erweitert die effektiven Zeithorizonte um bis zu 100.000 Mal über das Aufmerksamkeitsfenster hinaus und erreicht eine 100%ige Erfolgsrate bei einer synthetischen T-Maze-Aufgabe mit Korridoren von bis zu einer Million Schritten. In POPGym übertrifft es die Baselines bei mehr als der Hälfte der Aufgaben. Bei MIKASA-Robo-Manipulationsaufgaben mit spärlicher Belohnung und visuellen Beobachtungen verdoppelt es nahezu die Leistung starker Baselines. Diese Ergebnisse zeigen, dass strukturierter, schichtlokaler externer Speicher einen einfachen und skalierbaren Ansatz für die Entscheidungsfindung unter teilweiser Beobachtbarkeit bietet.
Wie können wir großen multimodalen Modellen (LMMs) neue Fähigkeiten beibringen, ohne ihre bisherigen Kompetenzen zu verlieren? Wir untersuchen sequenzielles Feinabstimmen auf fünf Zielfertigkeiten, während wir die allgemeine Leistungsfähigkeit anhand von acht zurückgehaltenen Benchmarks über drei Modellfamilien hinweg überwachen. Wir beobachten, dass scheinbares „Vergessen“ bei zurückgehaltenen Aufgaben nach engem Feinabstimmen sich in späteren Phasen teilweise wieder erholen kann. Dieses Verhalten führen wir auf eine messbare Verschiebung in der Ausgabe-Token-Verteilung zurück, die sich durch eine einfache Zählungsbias-Sonde zeigt, die mit dem Vergessen korreliert. Angeleitet durch diese Erkenntnis identifizieren wir zwei einfache, robuste Feinabstimmungsmethoden, die starkes Lernen ermöglichen, während sie die Abweichung begrenzen: (i) Aktualisieren nur der Self-Attention-Projektionsschichten und (ii) Aktualisieren nur der MLP-Gate&Up-Schichten bei gleichzeitigem Einfrieren der Down-Projektion. Über Modelle und Aufgaben hinweg liefern diese Ansätze starke Zielverbesserungen, während die Leistung bei zurückgehaltenen Aufgaben weitgehend erhalten bleibt. Der Code ist verfügbar unter https://github.com/jessemelpolio/LMM_CL.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens erzielt, erzeugen jedoch manchmal Antworten, die für Benutzer in Aufgaben wie dem Verfassen von Texten, der Informationssuche oder der Bereitstellung praktischer Anleitungen suboptimal sind. Herkömmliche Alignment-Praktiken gehen typischerweise davon aus, dass die Maximierung der Modellbelohnung auch das Wohl der Benutzer maximiert, doch diese Annahme scheitert in der Praxis häufig: Modelle können übermäßig erklären oder übermäßig ausführliche Begründungen liefern, wenn Benutzer prägnante Antworten bevorzugen. Solche Verhaltensweisen ähneln dem Gefangenendilemma, bei dem individuell rationale Entscheidungen zu gesellschaftlich suboptimalen Ergebnissen führen. Die grundlegende Herausforderung besteht in dem Fehlen eines prinzipiellen Entscheidungsmechanismus, der sowohl dem LLM als auch dem Benutzer gegenseitigen Nutzen bringt. Wir schlagen Game-Theoretic Alignment (GTAlign) vor, ein Alignment-Framework, das spieltheoretische Entscheidungsfindung sowohl in das logische Denken als auch in das Training integriert. Während des logischen Denkens behandelt das Modell die Interaktion zwischen Benutzer und LLM explizit als strategisches Spiel: Es konstruiert Auszahlungsmatrizen innerhalb seiner Denkkette, um den Nutzen sowohl für sich selbst als auch für den Benutzer abzuschätzen, und wählt dann Handlungen aus, die gegenseitig vorteilhaft sind. Während des Trainings führen wir eine gegenseitige Wohlfahrtsbelohnung ein, die kooperative Antworten verstärkt und das Modellverhalten mit gesellschaftlich effizienten Ergebnissen in Einklang bringt. Darüber hinaus führen wir eine Inferenztechnik ein, die spieltheoretisches Denken nutzt, um die Antwort des LLMs dynamisch anzupassen, wenn sich die Preispolitiken des LLM-Dienstes ändern. Umfangreiche Experimente zeigen, dass GTAlign die Effizienz des logischen Denkens, die Qualität der Antworten und den gegenseitigen Nutzen im Vergleich zu Baseline-Modellen bei verschiedenen Aufgaben erheblich verbessert. Der Code ist verfügbar unter https://github.com/ulab-uiuc/GTAlign.
Persönliche Erzählungen sind Geschichten, die Autoren konstruieren, um ihren Erfahrungen Bedeutung zu verleihen. Der Stil, die charakteristische Art und Weise, wie Autoren Sprache verwenden, um sich auszudrücken, ist grundlegend dafür, wie diese Erzählungen subjektive Erfahrungen vermitteln. Dennoch fehlt es an einem formalen Rahmen, um diese stilistischen Entscheidungen systematisch zu analysieren. Wir präsentieren einen neuartigen Ansatz, der den Stil in persönlichen Erzählungen als Muster in den sprachlichen Entscheidungen formalisiert, die Autoren treffen, wenn sie subjektive Erfahrungen kommunizieren. Unser Rahmen integriert drei Bereiche: Die funktionale Linguistik etabliert Sprache als ein System bedeutungsvoller Entscheidungen, die Informatik liefert Methoden zur automatischen Extraktion und Analyse sequenzieller Muster, und diese Muster werden mit psychologischen Beobachtungen verknüpft. Mithilfe von Sprachmodellen extrahieren wir automatisch linguistische Merkmale wie Prozesse, Teilnehmer und Umstände. Wir wenden unseren Rahmen auf Hunderte von Traumerzählungen an, einschließlich einer Fallstudie über einen Kriegsveteranen mit posttraumatischer Belastungsstörung. Die Analyse seiner Erzählungen deckt charakteristische Muster auf, insbesondere wie verbale Prozesse gegenüber mentalen dominieren, und illustriert die Beziehung zwischen sprachlichen Entscheidungen und psychologischen Zuständen.
Aktuelle selbstüberwachte Ansätze zur monokularen Tiefenschätzung (MDE) stoßen auf Leistungsbeschränkungen aufgrund unzureichender Extraktion von semantisch-räumlichem Wissen. Um diese Herausforderung zu bewältigen, schlagen wir Hybrid-depth vor, ein neuartiges Framework, das systematisch Foundation-Modelle (z. B. CLIP und DINO) integriert, um visuelle Prioritäten zu extrahieren und ausreichende kontextuelle Informationen für MDE zu erlangen. Unser Ansatz führt ein grob-zu-fein progressives Lernframework ein: 1) Zunächst aggregieren wir mehrstufige Merkmale aus CLIP (globale Semantik) und DINO (lokale räumliche Details) unter kontrastiver Sprachführung. Eine Proxy-Aufgabe, die nahe und entfernte Bildausschnitte vergleicht, wird entworfen, um tiefenbewusste Merkmalsausrichtung mithilfe von Textprompts zu erzwingen; 2) Anschließend integrieren wir, basierend auf den groben Merkmalen, Kameraposeninformationen und pixelweise Sprachausrichtung, um die Tiefenvorhersagen zu verfeinern. Dieses Modul lässt sich nahtlos in bestehende selbstüberwachte MDE-Pipelines (z. B. Monodepth2, ManyDepth) als Plug-and-Play-Tiefenencoder integrieren und verbessert die kontinuierliche Tiefenschätzung. Durch die Aggregation von CLIPs semantischem Kontext und DINOs räumlichen Details mittels Sprachführung adressiert unsere Methode effektiv Fehlanpassungen der Merkmalsgranularität. Umfangreiche Experimente auf dem KITTI-Benchmark zeigen, dass unsere Methode die SOTA-Methoden in allen Metriken deutlich übertrifft, was auch tatsächlich nachgelagerte Aufgaben wie BEV-Wahrnehmung begünstigt. Der Code ist verfügbar unter https://github.com/Zhangwenyao1/Hybrid-depth.
Große Sprachmodelle (LLMs) benötigen effiziente Wissensaktualisierung (Knowledge Editing, KE), um faktische Informationen zu aktualisieren. Bisherige Methoden zeigen jedoch einen erheblichen Leistungsabfall bei der mehrstufigen Faktenabfrage (Multi-hop Factual Recall). Dieses Versagen ist besonders ausgeprägt, wenn Aktualisierungen Zwischenobjekte in Schlussfolgerungsketten betreffen. Durch kausale Analysen zeigen wir, dass diese Einschränkung auf eine Vernachlässigung der dynamischen Repräsentation und Nutzung verketteten Wissens auf Neuronenebene zurückzuführen ist. Wir entdecken, dass während mehrstufiger Schlussfolgerungen implizite Objekte als Abfrage-Neuronen (Query Neurons) fungieren, die sequenziell entsprechende Wert-Neuronen (Value Neurons) über Transformer-Schichten aktivieren, um Informationen für die endgültige Antwort zu akkumulieren – ein dynamischer Prozess, der in früheren KE-Arbeiten übersehen wurde. Basierend auf dieser Erkenntnis schlagen wir ACE vor: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, ein Framework, das neuronale Attributionsmethoden nutzt, um diese kritischen Abfrage-Wert-Pfade (Query-Value Pathways) zu identifizieren und zu aktualisieren. ACE bietet eine mechanistisch fundierte Lösung für mehrstufige KE und übertrifft experimentell die besten verfügbaren Methoden um 9,44 % bei GPT-J und 37,46 % bei Qwen3-8B. Unsere Analyse zeigt zudem feinere Aktivierungsmuster in Qwen3 und demonstriert, dass die semantische Interpretierbarkeit von Wert-Neuronen durch abfragegesteuerte Akkumulation orchestriert wird. Diese Erkenntnisse eröffnen einen neuen Weg zur Weiterentwicklung von KE-Fähigkeiten, basierend auf einem prinzipienbasierten Verständnis interner Schlussfolgerungsmechanismen.
Die Personalisierung von Diffusionsmodellen ermöglicht es Benutzern, neue Bilder zu generieren, die ein bestimmtes Subjekt einbeziehen, wodurch eine größere Kontrolle als durch einen Textprompt erreicht wird. Diese Modelle leiden jedoch oft darunter, dass sie lediglich das Subjektbild neu erstellen und den Textprompt ignorieren. Wir beobachten, dass eine beliebte Methode zur Personalisierung, der IP-Adapter, automatisch Masken generiert, die das Subjekt während der Inferenz eindeutig vom Hintergrund segmentieren. Wir schlagen vor, diese automatisch generierte Maske in einem zweiten Durchlauf zu verwenden, um die Bild-Token zu maskieren und sie somit auf das Subjekt zu beschränken, nicht auf den Hintergrund, wodurch der Textprompt den Rest des Bildes berücksichtigen kann. Bei Textprompts, die Orte und Plätze beschreiben, erzeugt dies Bilder, die das Subjekt präzise darstellen und gleichzeitig eindeutig dem Prompt entsprechen. Wir vergleichen unsere Methode mit einigen anderen Personalisierungsmethoden zur Laufzeit und stellen fest, dass unsere Methode eine hohe Übereinstimmung mit dem Prompt und dem Quellbild aufweist.