Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) zeigen, dass anspruchsvolle Verhaltensweisen wie mehrstufiges Reasoning und Selbstreflexion durch Reinforcement Learning (RL) mit einfachen regelbasierten Belohnungen entstehen können. Allerdings sind bestehende Zero-RL-Ansätze inhärent „on-policy“, was das Lernen auf die eigenen Ausgaben eines Modells beschränkt und den Erwerb von Reasoning-Fähigkeiten über die anfänglichen Fähigkeiten hinaus verhindert. Wir stellen LUFFY (Learning to Reason Under oFF-policY Guidance) vor, ein Framework, das Zero-RL mit off-policy Reasoning-Spuren erweitert. LUFFY balanciert dynamisch Imitation und Exploration, indem es off-policy Demonstrationen mit on-policy Rollouts während des Trainings kombiniert. Besonders hervorzuheben ist unser Vorschlag des Policy Shaping durch regularisiertes Importance Sampling, um oberflächliche und starre Imitation während des gemischten Policy-Trainings zu vermeiden. Bemerkenswerterweise erzielt LUFFY einen durchschnittlichen Gewinn von über +7,0 Punkten über sechs mathematische Benchmarks hinweg und einen Vorteil von über +6,2 Punkten bei Out-of-Distribution-Aufgaben. Es übertrifft auch die auf Imitation basierende überwachte Feinabstimmung (SFT) deutlich, insbesondere in der Generalisierung. Analysen zeigen, dass LUFFY nicht nur effektiv imitiert, sondern auch über die Demonstrationen hinaus explorativ agiert, und bietet damit einen skalierbaren Weg, um generalisierbare Reasoning-Modelle mit off-policy Anleitung zu trainieren.
Wir stellen Eagle 2.5 vor, eine Familie von fortschrittlichen Vision-Sprach-Modellen (VLMs) für das langkontextuelle multimodale Lernen. Unsere Arbeit adressiert die Herausforderungen im Verständnis langer Videos und der Interpretation hochauflösender Bilder und führt ein allgemeingültiges Framework für beide Aufgaben ein. Das vorgeschlagene Trainingsframework integriert Automatic Degrade Sampling und Image Area Preservation, zwei Techniken, die die kontextuelle Integrität und visuelle Details bewahren. Das Framework umfasst zudem zahlreiche Effizienzoptimierungen in der Pipeline für das Training mit langkontextuellen Daten. Schließlich präsentieren wir Eagle-Video-110K, einen neuartigen Datensatz, der sowohl story-level als auch clip-level Annotationen integriert und das Verständnis langer Videos erleichtert. Eagle 2.5 zeigt erhebliche Verbesserungen bei langkontextuellen multimodalen Benchmarks und bietet eine robuste Lösung für die Grenzen bestehender VLMs. Insbesondere erreicht unser bestes Modell Eagle 2.5-8B 72,4 % auf Video-MME mit 512 Eingabeframes und entspricht damit den Ergebnissen von Top-Modellen wie GPT-4o sowie groß angelegten Open-Source-Modellen wie Qwen2.5-VL-72B und InternVL2.5-78B.
Dieses Papier stellt einen Meta-Agenten auf Abfrageebene namens FlowReasoner vor, der die Gestaltung von Multi-Agenten-Systemen auf Abfrageebene automatisiert, d.h. ein System pro Benutzeranfrage. Unser Kernkonzept besteht darin, einen auf logischem Denken basierenden Meta-Agenten durch externes Ausführungsfeedback zu motivieren. Konkret statten wir FlowReasoner zunächst durch die Destillation von DeepSeek R1 mit der grundlegenden Fähigkeit aus, Multi-Agenten-Systeme zu generieren. Anschließend verbessern wir ihn weiter durch Reinforcement Learning (RL) mit externem Ausführungsfeedback. Ein vielseitiger Belohnungsmechanismus wurde entwickelt, um das RL-Training in Bezug auf Leistung, Komplexität und Effizienz zu steuern. Auf diese Weise ist FlowReasoner in der Lage, ein personalisiertes Multi-Agenten-System für jede Benutzeranfrage durch gezieltes logisches Denken zu generieren. Experimente sowohl auf technischen als auch auf Wettbewerbs-Code-Benchmarks demonstrieren die Überlegenheit von FlowReasoner. Bemerkenswerterweise übertrifft es o1-mini um 10,52 % Genauigkeit über drei Benchmarks hinweg. Der Code ist verfügbar unter https://github.com/sail-sg/FlowReasoner.
Aktuelle Large Language Models (LLMs) werden häufig durch überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) trainiert, um Fähigkeiten zur Werkzeugnutzung zu erlangen. Allerdings hat SFT Schwierigkeiten, sich auf unbekannte oder komplexe Szenarien der Werkzeugnutzung zu verallgemeinern. Jüngste Fortschritte im Bereich des Reinforcement Learning (RL), insbesondere mit R1-ähnlichen Modellen, haben vielversprechende Fähigkeiten in Bezug auf logisches Denken und Generalisierung gezeigt. Dennoch stellt die Belohnungsgestaltung (Reward Design) für die Werkzeugnutzung besondere Herausforderungen dar: Es können mehrere Werkzeuge mit unterschiedlichen Parametern aufgerufen werden, und grobkörnige Belohnungssignale, wie die Übereinstimmung von Antworten, bieten nicht das feinkörnige Feedback, das für effektives Lernen erforderlich ist. In dieser Arbeit präsentieren wir die erste umfassende Studie zur Belohnungsgestaltung für Aufgaben der Werkzeugauswahl und -anwendung innerhalb des RL-Paradigmas. Wir untersuchen systematisch eine breite Palette von Belohnungsstrategien und analysieren deren Typen, Skalen, Granularität und zeitliche Dynamik. Aufbauend auf diesen Erkenntnissen schlagen wir ein prinzipielles Belohnungsdesign vor, das speziell für Aufgaben der Werkzeugnutzung entwickelt wurde, und wenden es an, um LLMs mit Group Relative Policy Optimization (GRPO) zu trainieren. Empirische Auswertungen über diverse Benchmarks zeigen, dass unser Ansatz robustes, skalierbares und stabiles Training ermöglicht und eine Verbesserung von 17 % gegenüber Basismodellen sowie einen Zuwachs von 15 % gegenüber SFT-Modellen erzielt. Diese Ergebnisse unterstreichen die entscheidende Rolle einer durchdachten Belohnungsgestaltung bei der Verbesserung der Werkzeugnutzungsfähigkeiten und der Generalisierungsleistung von LLMs. Alle Codes werden veröffentlicht, um zukünftige Forschung zu erleichtern.
Tool-integrated reasoning (TIR) erweitert große Sprachmodelle (LLMs) um die Fähigkeit, externe Werkzeuge wie Suchmaschinen und Code-Interpreter aufzurufen, um Aufgaben zu lösen, die über die Möglichkeiten rein sprachbasierter Schlussfolgerungen hinausgehen. Während Reinforcement Learning (RL) vielversprechende Ansätze zur Verbesserung von TIR durch die Optimierung der Korrektheit der endgültigen Antworten gezeigt hat, übersehen bestehende Methoden oft die Effizienz und die Kosten im Zusammenhang mit der Werkzeugnutzung. Dies kann zu suboptimalem Verhalten führen, einschließlich übermäßiger Werkzeugaufrufe, die den Rechen- und finanziellen Aufwand erhöhen, oder unzureichender Werkzeugnutzung, die die Antwortqualität beeinträchtigt. In dieser Arbeit schlagen wir Optimal Tool Call-controlled Policy Optimization (OTC-PO) vor, ein einfaches, aber effektives RL-basiertes Framework, das Modelle dazu anregt, präzise Antworten mit minimalen Werkzeugaufrufen zu erzeugen. Unsere Methode führt eine werkzeugintegrierte Belohnung ein, die sowohl die Korrektheit als auch die Werkzeugeffizienz berücksichtigt und somit eine hohe Werkzeugproduktivität fördert. Wir implementieren dieses Framework sowohl in Proximal Policy Optimization (PPO) als auch in Group Relative Preference Optimization (GRPO), was zu OTC-PPO und OTC-GRPO führt. Experimente mit Qwen-2.5 und Qwen-Math über mehrere QA-Benchmarks zeigen, dass unser Ansatz die Werkzeugaufrufe um bis zu 73,1 % reduziert und die Werkzeugproduktivität um bis zu 229,4 % steigert, während die Antwortgenauigkeit vergleichbar bleibt. Nach unserem Wissen ist dies das erste RL-basierte Framework, das explizit die Effizienz der Werkzeugnutzung in TIR optimiert.
Mehrfachinteraktionen mit Sprachmodellen (LMs) bergen kritische Sicherheitsrisiken, da schädliche Absichten strategisch über mehrere Austausche verteilt werden können. Dennoch hat sich der Großteil der bisherigen Arbeiten auf die Sicherheit in Einzelinteraktionen konzentriert, während Anpassungsfähigkeit und Vielfalt weiterhin zu den zentralen Herausforderungen des Multi-Turn-Red-Teamings gehören. Um diese Herausforderungen zu bewältigen, stellen wir X-Teaming vor, ein skalierbares Framework, das systematisch untersucht, wie scheinbar harmlose Interaktionen in schädliche Ergebnisse eskalieren, und entsprechende Angriffsszenarien generiert. X-Teaming setzt kollaborative Agenten für die Planung, Angriffsoptimierung und Verifizierung ein und erreicht dabei state-of-the-art Effektivität und Vielfalt bei Multi-Turn-Jailbreaks mit Erfolgsquoten von bis zu 98,1 % über repräsentative führende Open-Weight- und Closed-Source-Modelle. Insbesondere erzielt X-Teaming eine Angriffserfolgsrate von 96,2 % gegen das neueste Claude 3.7 Sonnet-Modell, das bisher als nahezu immun gegen Einzelangriffe galt. Aufbauend auf X-Teaming führen wir XGuard-Train ein, einen Open-Source-Datensatz für Multi-Turn-Sicherheitstraining, der 20-mal größer ist als die bisher beste Ressource und 30.000 interaktive Jailbreaks umfasst, um eine robuste Multi-Turn-Sicherheitsausrichtung für LMs zu ermöglichen. Unsere Arbeit bietet wesentliche Werkzeuge und Erkenntnisse zur Abwehr ausgeklügelter konversationeller Angriffe und fördert die Multi-Turn-Sicherheit von LMs.
Aktuelle Computer-Using Agents (CUAs), die durch multimodale Large Language Models (LLMs) angetrieben werden, bieten eine vielversprechende Richtung für die Automatisierung komplexer Desktop-Workflows durch natürliche Sprache. Die meisten bestehenden CUAs bleiben jedoch konzeptionelle Prototypen, die durch eine oberflächliche Betriebssystemintegration, fragile, auf Screenshots basierende Interaktion und disruptive Ausführung behindert werden. Wir präsentieren UFO2, ein Multiagenten-AgentOS für Windows-Desktops, das CUAs in praktische, systemweite Automatisierung überführt. UFO2 verfügt über einen zentralisierten HostAgent für Aufgabenzerlegung und -koordination sowie eine Sammlung von anwendungsspezialisierten AppAgents, die mit nativen APIs, domänenspezifischem Wissen und einer einheitlichen GUI--API-Aktionsschicht ausgestattet sind. Diese Architektur ermöglicht eine robuste Aufgabenausführung bei gleichzeitiger Wahrung von Modularität und Erweiterbarkeit. Eine hybride Kontrollerkennungspipeline kombiniert Windows UI Automation (UIA) mit visueller Analyse, um diverse Interface-Stile zu unterstützen. Die Laufzeiteffizienz wird weiter durch spekulative Multi-Aktionsplanung verbessert, wodurch der LLM-Overhead pro Schritt reduziert wird. Schließlich ermöglicht eine Picture-in-Picture (PiP)-Schnittstelle die Automatisierung innerhalb eines isolierten virtuellen Desktops, sodass Agenten und Benutzer gleichzeitig ohne Störungen arbeiten können. Wir evaluieren UFO2 über mehr als 20 reale Windows-Anwendungen hinweg und zeigen erhebliche Verbesserungen in Bezug auf Robustheit und Ausführungsgenauigkeit im Vergleich zu früheren CUAs. Unsere Ergebnisse zeigen, dass eine tiefe Betriebssystemintegration einen skalierbaren Weg zu zuverlässiger, benutzerorientierter Desktop-Automatisierung eröffnet.
Die zunehmende Nachfrage nach AR/VR-Anwendungen hat den Bedarf an hochwertigen 360-Grad-Panoramainhalten deutlich gemacht. Die Erzeugung hochwertiger 360-Grad-Panoramabilder und -videos bleibt jedoch aufgrund der starken Verzerrungen, die durch die äquidistante Projektion (ERP) verursacht werden, eine herausfordernde Aufgabe. Bestehende Ansätze verfeinern entweder vortrainierte Diffusionsmodelle auf begrenzten ERP-Datensätzen oder versuchen tuningfreie Methoden, die dennoch auf ERP-Latentdarstellungen angewiesen sind, was zu Diskontinuitäten in der Nähe der Pole führt. In diesem Artikel stellen wir SphereDiff vor, einen neuartigen Ansatz zur nahtlosen Erzeugung von 360-Grad-Panoramabildern und -videos mithilfe modernster Diffusionsmodelle ohne zusätzliche Anpassung. Wir definieren eine sphärische Latentdarstellung, die eine gleichmäßige Verteilung über alle Perspektiven gewährleistet und so die inhärenten Verzerrungen der ERP mildert. Wir erweitern MultiDiffusion auf den sphärischen Latentraum und schlagen eine sphärische Latentabtastmethode vor, um den direkten Einsatz vortrainierter Diffusionsmodelle zu ermöglichen. Darüber hinaus führen wir eine verzerrungsbewusste gewichtete Mittelung ein, um die Generierungsqualität im Projektionsprozess weiter zu verbessern. Unser Ansatz übertrifft bestehende Methoden bei der Erzeugung von 360-Grad-Panoramainhalten bei gleichzeitiger Beibehaltung hoher Detailtreue, was ihn zu einer robusten Lösung für immersive AR/VR-Anwendungen macht. Der Code ist hier verfügbar: https://github.com/pmh9960/SphereDiff.
Vernunftmodelle haben beeindruckende Leistungen bei schwierigen Aufgaben gezeigt, bei denen traditionelle Sprachmodelle Schwierigkeiten haben. Viele leiden jedoch unter dem Problem des Überdenkens – sie erzeugen große Mengen unnötiger Tokens, die die Genauigkeit bei einer Frage nicht verbessern. Wir führen ungefähre Maße für die Schwierigkeit auf Problemebene ein und zeigen, dass eine klare Beziehung zwischen der Schwierigkeit eines Problems und dem optimalen Token-Verbrauch besteht. Außerdem bewerten wir, wie gut verschiedene Vernunftmodelle darin sind, die optimale Token-Anzahl effizient zuzuweisen. Wir stellen fest, dass Vernunftmodelle im Allgemeinen schlecht kalibriert sind, insbesondere bei einfachen Problemen. Um die Kalibrierung bei einfachen Fragen zu bewerten, führen wir DUMB500 ein, einen Datensatz mit extrem einfachen mathematischen, logischen, Code- und Aufgabenproblemen, und bewerten Vernunftmodelle sowohl anhand dieser einfachen Beispiele als auch anhand extrem schwieriger Beispiele aus bestehenden Benchmark-Tests im gleichen Aufgabenbereich. Schließlich stellen wir THOUGHTTERMINATOR vor, eine trainingsfreie Black-Box-Decodierungstechnik, die die Kalibrierung von Vernunftmodellen erheblich verbessert.
3D Gaussian Splatting (3DGS) zeichnet sich durch fotorealistische Szenenrekonstruktion aus, hat jedoch Schwierigkeiten mit stilisierten Szenarien (z. B. Cartoons, Spiele) aufgrund von fragmentierten Texturen, semantischer Fehlausrichtung und begrenzter Anpassungsfähigkeit an abstrakte Ästhetik. Wir stellen StyleMe3D vor, ein ganzheitliches Framework für den 3D-GS-Stiltransfer, das multimodale Stilkonditionierung, mehrstufige semantische Ausrichtung und wahrnehmungsbasierte Qualitätsverbesserung integriert. Unsere zentralen Erkenntnisse umfassen: (1) Die Optimierung nur der RGB-Attribute bewahrt die geometrische Integrität während der Stilisierung; (2) Die Entflechtung von niedrig-, mittel- und hochrangiger Semantik ist entscheidend für einen kohärenten Stiltransfer; (3) Skalierbarkeit über isolierte Objekte und komplexe Szenen hinweg ist essentiell für den praktischen Einsatz. StyleMe3D führt vier neuartige Komponenten ein: Dynamic Style Score Distillation (DSSD), das den latenten Raum von Stable Diffusion für die semantische Ausrichtung nutzt; Contrastive Style Descriptor (CSD) für lokalisierte, inhaltsbewusste Texturübertragung; Simultaneously Optimized Scale (SOS) zur Entkopplung von Stildetails und struktureller Kohärenz; sowie 3D Gaussian Quality Assessment (3DG-QA), ein differenzierbares ästhetisches Prior, das auf von Menschen bewerteten Daten trainiert wurde, um Artefakte zu unterdrücken und visuelle Harmonie zu verbessern. Bewertet auf dem NeRF- Synthetic-Dataset (Objekte) und dem tandt db (Szenen) Datensatz, übertrifft StyleMe3D state-of-the-art Methoden in der Bewahrung geometrischer Details (z. B. Gravuren auf Skulpturen) und der Sicherstellung stilistischer Konsistenz über Szenen hinweg (z. B. kohärente Beleuchtung in Landschaften), während Echtzeit-Rendering beibehalten wird. Diese Arbeit verbindet fotorealistisches 3D-GS mit künstlerischer Stilisierung und erschließt Anwendungen in Gaming, virtuellen Welten und digitaler Kunst.
Multi-View-Verständnis, die Fähigkeit, visuelle Informationen über verschiedene Blickwinkel hinweg für effektive Navigation, Manipulation und 3D-Szenenverständnis zu vereinen, stellt eine grundlegende Herausforderung für Multi-Modale Große Sprachmodelle (MLLMs) dar, die als verkörperte Agenten eingesetzt werden sollen. Obwohl aktuelle MLLMs beeindruckende Fortschritte in hochrangigem Denken und Planung gezeigt haben, scheitern sie häufig, wenn es um multi-view geometrische Konsistenz und übergreifende Blickwinkelkorrespondenz geht. Um die Herausforderungen von MLLMs im Multi-View-Szenenverständnis umfassend zu bewerten, schlagen wir All-Angles Bench vor, einen Benchmark mit über 2.100 sorgfältig von Menschen annotierten Multi-View-Frage-Antwort-Paaren aus 90 verschiedenen realen Szenen. Unsere sechs Aufgaben (Zählen, Attributidentifikation, relative Distanz, relative Richtung, Objektmanipulation und Kameraposenschätzung) testen speziell die geometrische Korrespondenz des Modells und die Fähigkeit, Informationen konsistent über verschiedene Blickwinkel hinweg auszurichten. Unsere umfangreichen Experimente, die 27 repräsentative MLLMs, darunter Gemini-2.0-Flash, Claude-3.7-Sonnet und GPT-4o, gegen menschliche Bewerter benchmarken, zeigen eine erhebliche Leistungslücke, was darauf hindeutet, dass aktuelle MLLMs weit von menschlicher Kompetenz entfernt sind. Durch eine detaillierte Analyse zeigen wir, dass MLLMs insbesondere in zwei Aspekten unterdurchschnittlich abschneiden: (1) übergreifende Blickwinkelkorrespondenz bei teilweise verdeckten Ansichten und (2) die Bestimmung grober Kameraposen. Diese Erkenntnisse unterstreichen die Notwendigkeit von domänenspezifischen Verfeinerungen oder Modulen, die ein stärkeres Multi-View-Bewusstsein einbetten. Wir glauben, dass unser All-Angles Bench wertvolle Einblicke bietet und dazu beiträgt, die Lücke zwischen MLLMs und menschlichem Multi-View-Verständnis zu schließen. Das Projekt und der Benchmark sind öffentlich verfügbar unter https://danielchyeh.github.io/All-Angles-Bench/.
In diesem Artikel stellen wir EasyEdit2 vor, ein Framework, das entwickelt wurde, um eine Plug-and-Play-Anpassbarkeit zur Steuerung des Verhaltens von Large Language Models (LLMs) zu ermöglichen. EasyEdit2 unterstützt eine Vielzahl von Interventionen zur Laufzeit, darunter Sicherheit, Stimmung, Persönlichkeit, Denkmuster, Faktizität und Sprachmerkmale. Im Gegensatz zu seinem Vorgänger verfügt EasyEdit2 über eine neue Architektur, die speziell für die nahtlose Steuerung von Modellen entwickelt wurde. Es umfasst Schlüsselmodule wie den Steuerungsvektorgenerator und den Steuerungsvektoranwender, die die automatische Generierung und Anwendung von Steuerungsvektoren ermöglichen, um das Verhalten des Modells zu beeinflussen, ohne dessen Parameter zu verändern. Einer der Hauptvorteile von EasyEdit2 ist seine Benutzerfreundlichkeit – Benutzer benötigen kein umfangreiches technisches Wissen. Mit nur einem einzigen Beispiel können sie die Antworten des Modells effektiv lenken und anpassen, was eine präzise Steuerung sowohl zugänglich als auch effizient macht. Empirisch berichten wir über die Leistung der Modellsteuerung bei verschiedenen LLMs und demonstrieren die Wirksamkeit dieser Techniken. Wir haben den Quellcode auf GitHub unter https://github.com/zjunlp/EasyEdit zusammen mit einem Demonstrations-Notebook veröffentlicht. Zusätzlich bieten wir ein Demo-Video unter https://zjunlp.github.io/project/EasyEdit2/video für eine schnelle Einführung an.
Kamera- und menschliche Bewegungssteuerungen wurden umfassend für die Videogenerierung untersucht, doch bestehende Ansätze behandeln sie typischerweise separat und leiden unter begrenzten Daten mit hochwertigen Annotationen für beide Aspekte. Um dies zu überwinden, präsentieren wir Uni3C, ein einheitliches 3D-erweitertes Framework für die präzise Steuerung sowohl der Kamera- als auch der menschlichen Bewegung in der Videogenerierung. Uni3C umfasst zwei wesentliche Beiträge. Erstens schlagen wir ein Plug-and-Play-Steuerungsmodul vor, das mit einem eingefrorenen generativen Video-Backbone trainiert wird, den PCDController, der unprojizierte Punktwolken aus monokularer Tiefe nutzt, um eine präzise Kamerasteuerung zu erreichen. Durch die Nutzung der starken 3D-Prioritäten von Punktwolken und der leistungsstarken Fähigkeiten von Video-Grundlagenmodellen zeigt der PCDController eine beeindruckende Generalisierung und funktioniert unabhängig davon, ob der Inferenz-Backbone eingefroren oder feinabgestimmt ist. Diese Flexibilität ermöglicht es, verschiedene Module von Uni3C in spezifischen Domänen zu trainieren, d.h. entweder Kamerasteuerung oder menschliche Bewegungssteuerung, wodurch die Abhängigkeit von gemeinsam annotierten Daten verringert wird. Zweitens schlagen wir eine gemeinsam ausgerichtete 3D-Weltführung für die Inferenzphase vor, die nahtlos sowohl szenische Punktwolken als auch SMPL-X-Charaktere integriert, um die Steuersignale für Kamera- und menschliche Bewegung zu vereinheitlichen. Umfangreiche Experimente bestätigen, dass der PCDController eine starke Robustheit bei der Steuerung der Kamerabewegung für feinabgestimmte Backbones der Videogenerierung aufweist. Uni3C übertrifft die Konkurrenz sowohl in der Kamerasteuerbarkeit als auch in der Qualität der menschlichen Bewegung deutlich. Zusätzlich haben wir maßgeschneiderte Validierungssätze mit herausfordernden Kamerabewegungen und menschlichen Aktionen gesammelt, um die Effektivität unserer Methode zu validieren.
Wir stellen LeetCodeDataset vor, einen hochwertigen Benchmark zur Bewertung und Schulung von Code-Generierungsmodellen, der zwei zentrale Herausforderungen in der LLM-Forschung adressiert: den Mangel an reasoning-fokussierten Coding-Benchmarks und eigenständigen Trainingsumgebungen. Durch die Kuratierung von LeetCode-Python-Problemen mit umfangreichen Metadaten, breiter Abdeckung, über 100 Testfällen pro Problem und zeitlichen Aufteilungen (vor/nach Juli 2024) ermöglicht unser Dataset eine kontaminationsfreie Bewertung und effizientes Supervised Fine-Tuning (SFT). Experimente zeigen, dass Reasoning-Modelle ihre nicht-reasoning-basierten Gegenstücke deutlich übertreffen, während SFT mit nur 2,6K modellgenerierten Lösungen eine Leistung erreicht, die mit 110K-Beispiel-Datensätzen vergleichbar ist. Das Dataset und das Bewertungsframework sind auf Hugging Face und Github verfügbar.
Multimodale Large Language Models (MLLMs) haben grafische Benutzeroberflächen-Agenten (GUI-Agenten) ermöglicht und zeigen Potenzial bei der Automatisierung von Aufgaben auf Computergeräten. Aktuelle Arbeiten haben begonnen, das logische Denken in GUI-Aufgaben zu erforschen, mit vielversprechenden Ergebnissen. Viele derzeitige Ansätze verlassen sich jedoch auf manuell entworfene Denkmuster, was zu einem nicht ausreichend robusten und anpassungsfähigen Denken in komplexen GUI-Umgebungen führen kann. Gleichzeitig agieren einige bestehende Agenten weiterhin als reaktive Akteure, die sich hauptsächlich auf implizites Denken stützen, das für GUI-Aufgaben, die Planung und Fehlerbehebung erfordern, möglicherweise nicht ausreichend tiefgreifend ist. Wir argumentieren, dass die Weiterentwicklung dieser Agenten einen Wechsel vom reaktiven Handeln hin zu einem Handeln basierend auf bewusstem Denken erfordert. Um diesen Wandel zu ermöglichen, stellen wir InfiGUI-R1 vor, einen MLLM-basierten GUI-Agenten, der durch unser Actor2Reasoner-Framework entwickelt wurde, einen denkzentrierten, zweistufigen Trainingsansatz, der darauf abzielt, Agenten schrittweise von reaktiven Akteuren zu deliberativen Denkern zu entwickeln. Die erste Stufe, Reasoning Injection, konzentriert sich auf die Etablierung eines grundlegenden Denkers. Wir verwenden Spatial Reasoning Distillation, um cross-modale räumliche Denkfähigkeiten von Lehrermodellen auf MLLMs durch Trajektorien mit expliziten Denkschritten zu übertragen, wodurch Modelle in der Lage sind, GUI-visuell-räumliche Informationen mit logischem Denken vor der Aktionsgenerierung zu integrieren. Die zweite Stufe, Deliberation Enhancement, verfeinert den grundlegenden Denker zu einem deliberativen Denker mithilfe von Reinforcement Learning. Diese Stufe führt zwei Ansätze ein: Sub-goal Guidance, das Modelle für die Generierung genauer Zwischenziele belohnt, und Error Recovery Scenario Construction, das Trainingsszenarien für Fehler und deren Behebung aus identifizierten fehleranfälligen Schritten erstellt. Experimentelle Ergebnisse zeigen, dass InfiGUI-R1 eine starke Leistung in GUI-Grounding- und Trajektorienaufgaben erzielt. Ressourcen unter https://github.com/Reallm-Labs/InfiGUI-R1.
Mobile-GUI-Agenten zeigen vielversprechende Ansätze zur Automatisierung von Aufgaben, stehen jedoch vor Herausforderungen bei der Generalisierung in diversen realen Szenarien. Traditionelle Ansätze, die auf Vorabtraining oder Feinabstimmung mit umfangreichen Datensätzen basieren, kämpfen mit der Vielfalt mobiler Anwendungen und benutzerspezifischer Aufgaben. Wir schlagen vor, die Fähigkeiten von Mobile-GUI-Agenten durch menschliche Demonstrationen zu verbessern, wobei der Fokus auf der Leistungssteigerung in unbekannten Szenarien liegt, anstatt eine universelle Generalisierung durch größere Datensätze anzustreben. Um dieses Paradigma zu realisieren, führen wir LearnGUI ein, den ersten umfassenden Datensatz, der speziell für das Studium des demonstrationsbasierten Lernens in Mobile-GUI-Agenten entwickelt wurde. Dieser umfasst 2.252 Offline-Aufgaben und 101 Online-Aufgaben mit hochwertigen menschlichen Demonstrationen. Weiterhin entwickeln wir LearnAct, ein ausgeklügeltes Multi-Agenten-Framework, das automatisch Wissen aus Demonstrationen extrahiert, um die Aufgabenbewältigung zu verbessern. Dieses Framework integriert drei spezialisierte Agenten: DemoParser zur Wissensextraktion, KnowSeeker zur relevanten Wissensabfrage und ActExecutor zur demonstrationsgestützten Aufgabenausführung. Unsere experimentellen Ergebnisse zeigen signifikante Leistungssteigerungen sowohl in Offline- als auch in Online-Bewertungen. In Offline-Bewertungen verbessert eine einzige Demonstration die Modellleistung und erhöht die Genauigkeit von Gemini-1.5-Pro von 19,3 % auf 51,7 %. In Online-Bewertungen steigert unser Framework die Aufgaben-Erfolgsrate von UI-TARS-7B-SFT von 18,1 % auf 32,8 %. Das LearnAct-Framework und der LearnGUI-Benchmark etablieren demonstrationsbasiertes Lernen als vielversprechende Richtung für anpassungsfähigere, personalisiertere und einsatzbereite Mobile-GUI-Agenten.
Wir präsentieren Distributional RewArds for Generative OptimizatioN (DRAGON), ein vielseitiges Framework zur Feinabstimmung von Medien-Generierungsmodellen hin zu einem gewünschten Ergebnis. Im Vergleich zu traditionellem Reinforcement Learning mit menschlichem Feedback (RLHF) oder paarweisen Präferenzansätzen wie Direct Preference Optimization (DPO) ist DRAGON flexibler. Es kann Belohnungsfunktionen optimieren, die entweder einzelne Beispiele oder deren Verteilungen bewerten, wodurch es mit einer breiten Palette von instanzbasierten, instanz-zu-verteilungsbasierten und verteilungs-zu-verteilungsbasierten Belohnungen kompatibel ist. Durch die Nutzung dieser Vielseitigkeit konstruieren wir neuartige Belohnungsfunktionen, indem wir einen Encoder und eine Reihe von Referenzbeispielen auswählen, um eine Beispielverteilung zu erstellen. Wenn Cross-Modality-Encoder wie CLAP verwendet werden, können die Referenzbeispiele einer anderen Modalität angehören (z.B. Text versus Audio). Anschließend sammelt DRAGON Online- und On-Policy-Generierungen, bewertet sie, um einen positiven Demonstrationssatz und einen negativen Satz zu erstellen, und nutzt den Kontrast zwischen den beiden Sätzen, um die Belohnung zu maximieren. Zur Evaluierung feinabstimmen wir ein Audio-Domain-Text-zu-Musik-Diffusionsmodell mit 20 verschiedenen Belohnungsfunktionen, darunter ein benutzerdefiniertes Musikästhetikmodell, CLAP-Score, Vendi-Diversität und Frechet-Audio-Distanz (FAD). Wir vergleichen weiterhin instanzbasierte (pro Song) und vollständige Datensatz-FAD-Einstellungen, während wir mehrere FAD-Encoder und Referenzsätze ablieren. Über alle 20 Zielbelohnungen hinweg erreicht DRAGON eine durchschnittliche Gewinnrate von 81,45%. Darüber hinaus verbessern Belohnungsfunktionen, die auf Beispielsätzen basieren, tatsächlich die Generierungen und sind mit modellbasierten Belohnungen vergleichbar. Mit einem geeigneten Beispielsatz erreicht DRAGON eine 60,95%ige menschlich bewertete Musikqualitäts-Gewinnrate, ohne auf menschliche Präferenzannotationen trainiert zu werden. Somit zeigt DRAGON einen neuen Ansatz zur Gestaltung und Optimierung von Belohnungsfunktionen zur Verbesserung der menschlich wahrgenommenen Qualität. Klangbeispiele finden Sie unter https://ml-dragon.github.io/web.
Große Sprachmodelle (LLMs) haben starke Fähigkeiten im Bereich des logischen Denkens gezeigt, insbesondere wenn sie durch Reinforcement Learning (RL) verbessert werden. Während frühere Arbeiten RL erfolgreich auf mathematisches Denken angewendet haben – wo Regeln und Korrektheit klar definiert sind – bleibt die Verallgemeinerung dieser Methoden auf breitere Denkdomänen aufgrund begrenzter Daten, fehlender überprüfbarer Belohnungsstrukturen und vielfältiger Aufgabenanforderungen eine Herausforderung. In dieser Arbeit schlagen wir NEMOTRON-CROSSTHINK vor, ein Framework, das systematisch Multi-Domain-Korpora, einschließlich synthetischer und realer Frage-Antwort-Paare, in das RL-Training integriert, um die Generalisierung über verschiedene Denkaufgaben hinweg zu verbessern. NEMOTRON-CROSSTHINK adressiert zentrale Herausforderungen durch (1) die Einbindung von Daten aus verschiedenen Quellen, die STEM, Geisteswissenschaften, Sozialwissenschaften usw. abdecken; (2) die Anwendung strukturierter Vorlagen (z. B. Multiple-Choice und Freitext), um die Komplexität des Antwortraums zu kontrollieren; (3) die Filterung nach überprüfbaren Antworten; und (4) die Optimierung von Datenmischungsstrategien, die Daten aus mehreren Quellen effektiv nutzen. Unser Ansatz ermöglicht skalierbare und überprüfbare Belohnungsmodellierung über Mathematik hinaus und zeigt verbesserte Genauigkeiten sowohl bei mathematischen (MATH-500: +30,1 %, AMC23: +27,5 %) als auch bei nicht-mathematischen Denkbenchmarks (MMLU-PRO: +12,8 %, GPQA-DIAMOND: +11,3 %, AGIEVAL: +15,1 %, SUPERGPQA: +3,8 %). Darüber hinaus zeigt NEMOTRON-CROSSTHINK eine deutlich verbesserte Antworteffizienz – es werden 28 % weniger Tokens für korrekte Antworten verwendet – was auf fokussierteres und effektiveres Denken hinweist. Durch NEMOTRON-CROSSTHINK demonstrieren wir, dass die Integration von Multi-Domain-, Multi-Format-Daten in RL zu genaueren, effizienteren und besser generalisierbaren LLMs führt.
Große Multimodale Modelle (LMMs) nehmen Videobilder einheitlich wahr, was zu computationaler Ineffizienz bei Videos mit inhärent variierender zeitlicher Informationsdichte führt. Dieses Artikel stellt Quicksviewer vor, ein LMM mit einem neuen Wahrnehmungsparadigma, das ein Video ungleichmäßiger Dichte mithilfe von Gumbel Softmax in variierende Würfel unterteilt, gefolgt von einer einheitlichen Neuabtastung für jeden Würfel, um effizientes Videoverständnis zu erreichen. Dieser einfache und intuitive Ansatz komprimiert Videos online dynamisch basierend auf ihrer zeitlichen Dichte, wodurch die raumzeitliche Redundanz erheblich reduziert wird (insgesamt 45-fache Kompressionsrate), während gleichzeitig ein effizientes Training mit großem rezeptivem Feld ermöglicht wird. Wir trainieren das Modell von einem Sprach-Backbone aus in drei progressiven Stufen, von denen jede dank der Wahrnehmungseffizienz durchschnittlich lange Videos von 420s/1fps einbezieht. Mit nur 0,8M Video-Text-Proben für das Training übertrifft unser Modell den direkten Baseline-Ansatz mit einer festen Partitionierungsstrategie um maximal 8,72 in der Genauigkeit, was die Effektivität in der Leistung demonstriert. Auf Video-MME erreicht Quicksviewer den State-of-the-Art (SOTA) bei bescheidenen Sequenzlängen mit nur bis zu 5\% der pro Bild benötigten Tokens der Baselines. Mit diesem Paradigma zeigt die Skalierung der Anzahl der Eingabebilder ein klares Potenzgesetz der Modellfähigkeiten. Es wird auch empirisch bestätigt, dass die vom Würfelnetzwerk generierten Segmente zur Analyse kontinuierlicher Ereignisse in Videos beitragen können.
Wir stellen TAPIP3D vor, einen neuartigen Ansatz zur langfristigen 3D-Punktverfolgung in monokularen RGB- und RGB-D-Videos. TAPIP3D repräsentiert Videos als kamerastabilisierte räumlich-zeitliche Merkmalswolken und nutzt Tiefen- und Kamerabewegungsinformationen, um 2D-Videomerkmale in einen 3D-Weltraum zu heben, in dem die Kamerabewegung effektiv aufgehoben wird. TAPIP3D verfeinert iterativ die Schätzung der 3D-Bewegung über mehrere Frames innerhalb dieser stabilisierten Darstellung, was eine robuste Verfolgung über längere Zeiträume ermöglicht. Um die inhärenten Unregelmäßigkeiten der 3D-Punktverteilungen zu bewältigen, schlagen wir einen Local Pair Attention-Mechanismus vor. Diese 3D-Kontextualisierungsstrategie nutzt räumliche Beziehungen in 3D effektiv aus und bildet informative Merkmalsnachbarschaften für eine präzise 3D-Trajektorienschätzung. Unser 3D-zentrierter Ansatz übertrifft bestehende Methoden zur 3D-Punktverfolgung deutlich und verbessert sogar die 2D-Verfolgungsgenauigkeit im Vergleich zu herkömmlichen 2D-Pixel-Trackern, wenn genaue Tiefeninformationen verfügbar sind. Er unterstützt die Inferenz sowohl in Kamerakoordinaten (d.h. nicht stabilisiert) als auch in Weltkoordinaten, und unsere Ergebnisse zeigen, dass die Kompensation der Kamerabewegung die Verfolgungsleistung verbessert. Unser Ansatz ersetzt die konventionellen 2D-quadratischen Korrelationsnachbarschaften, die in früheren 2D- und 3D-Trackern verwendet wurden, und führt zu robusteren und genaueren Ergebnissen in verschiedenen 3D-Punktverfolgungs-Benchmarks. Projektseite: https://tapip3d.github.io
Anamorphose bezeichnet eine Kategorie von Bildern, die absichtlich verzerrt sind, sodass sie bei direkter Betrachtung unerkennbar erscheinen. Ihre wahre Form offenbart sich erst, wenn sie aus einem spezifischen Blickwinkel betrachtet werden, was beispielsweise durch ein katadioptrisches Gerät wie einen Spiegel oder eine Linse erfolgen kann. Obwohl die Konstruktion dieser mathematischen Geräte bis ins 17. Jahrhundert zurückverfolgt werden kann, sind sie nur aus einem bestimmten Blickwinkel interpretierbar und verlieren ihre Bedeutung bei normaler Betrachtung. In diesem Artikel beleuchten wir diese berühmten optischen Täuschungen mit einem generativen Ansatz neu. Mithilfe von latenten rectified flow-Modellen schlagen wir eine Methode vor, um anamorphe Bilder zu erzeugen, die auch bei direkter Betrachtung eine gültige Interpretation behalten. Zu diesem Zweck führen wir Laplacian Pyramid Warping ein, eine frequenzbewusste Bildverzerrungstechnik, die für die Erzeugung hochwertiger visueller Darstellungen entscheidend ist. Unsere Arbeit erweitert Visual Anagrams (arXiv:2311.17919) auf latente Raummodelle und ein breiteres Spektrum räumlicher Transformationen, wodurch die Schaffung neuartiger generativer Wahrnehmungsillusionen ermöglicht wird.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten, sind jedoch anfällig für adversariale Prompts, die Schwachstellen ausnutzen, um unsichere oder voreingenommene Ausgaben zu erzeugen. Bestehende Red-Teaming-Methoden stehen oft vor Herausforderungen in Bezug auf Skalierbarkeit, ressourcenintensive Anforderungen oder begrenzte Vielfalt in den Angriffsstrategien. Wir schlagen RainbowPlus vor, ein neuartiges Red-Teaming-Framework, das in der evolutionären Berechnung verwurzelt ist und die Erzeugung adversarieller Prompts durch eine adaptive Quality-Diversity (QD)-Suche verbessert, die klassische evolutionäre Algorithmen wie MAP-Elites mit Innovationen speziell für Sprachmodelle erweitert. Durch den Einsatz eines Multi-Element-Archivs zur Speicherung vielfältiger hochwertiger Prompts und einer umfassenden Fitnessfunktion zur gleichzeitigen Bewertung mehrerer Prompts überwindet RainbowPlus die Einschränkungen von Einzel-Prompt-Archiven und paarweisen Vergleichen in früheren QD-Methoden wie Rainbow Teaming. Experimente, die RainbowPlus mit QD-Methoden über sechs Benchmark-Datensätze und vier Open-Source-LLMs vergleichen, zeigen eine überlegene Angriffserfolgsrate (ASR) und Vielfalt (Diverse-Score ca. 0,84), wobei bis zu 100-mal mehr einzigartige Prompts erzeugt werden (z.B. 10.418 vs. 100 für Ministral-8B-Instruct-2410). Gegenüber neun state-of-the-art-Methoden auf dem HarmBench-Datensatz mit zwölf LLMs (zehn Open-Source, zwei Closed-Source) erreicht RainbowPlus eine durchschnittliche ASR von 81,1%, übertrifft AutoDAN-Turbo um 3,9% und ist 9-mal schneller (1,45 vs. 13,50 Stunden). Unsere Open-Source-Implementierung fördert weitere Fortschritte in der Sicherheit von LLMs und bietet ein skalierbares Werkzeug zur Schwachstellenbewertung. Code und Ressourcen sind öffentlich unter https://github.com/knoveleng/rainbowplus verfügbar und unterstützen Reproduzierbarkeit und zukünftige Forschung im Bereich LLM Red-Teaming.
Große Sprachmodelle (LLMs) werden zunehmend in spezialisierten Produktionsdatenverarbeitungspipelines in verschiedenen Bereichen wie Finanzen, Marketing und E-Commerce eingesetzt. Wenn sie jedoch in der Produktion über viele Eingaben hinweg ausgeführt werden, scheitern sie oft daran, Anweisungen zu befolgen oder die Erwartungen der Entwickler zu erfüllen. Um die Zuverlässigkeit in diesen Anwendungen zu verbessern, ist es entscheidend, Assertions oder Sicherheitsvorkehrungen für die Ausgaben der LLMs zu erstellen, die parallel zu den Pipelines laufen. Dennoch ist es eine Herausforderung, die richtige Menge an Assertions zu bestimmen, die die Anforderungen der Entwickler für eine Aufgabe erfassen. In diesem Artikel stellen wir PROMPTEVALS vor, einen Datensatz von 2087 LLM-Pipeline-Prompts mit 12623 entsprechenden Assertion-Kriterien, die von Entwicklern stammen, die unsere Open-Source-LLM-Pipeline-Tools verwenden. Dieser Datensatz ist 5x größer als bisherige Sammlungen. Mit einem Hold-Out-Test-Split von PROMPTEVALS als Benchmark haben wir geschlossene und Open-Source-Modelle bei der Generierung relevanter Assertions bewertet. Bemerkenswerterweise übertreffen unsere feinabgestimmten Mistral- und Llama-3-Modelle GPT-4o im Durchschnitt um 20,93 % und bieten sowohl reduzierte Latenz als auch verbesserte Leistung. Wir glauben, dass unser Datensatz weitere Forschungen in den Bereichen LLM-Zuverlässigkeit, Ausrichtung und Prompt-Engineering anregen kann.
Diese Studie führt einen detaillierten Vergleich zwischen dem RF-DETR-Basismodell für Objekterkennung und den Konfigurationen des YOLOv12-Objekterkennungsmodells durch, um grüne Früchte in einer komplexen Umgebung von Obstplantagen zu erkennen, die durch Label-Unschärfe, Verdeckungen und Hintergrundverschmelzung gekennzeichnet ist. Ein benutzerdefiniertes Datenset wurde entwickelt, das sowohl Einzelklassen- (grüne Früchte) als auch Mehrklassen-Annotationen (verdeckte und nicht verdeckte grüne Früchte) umfasst, um die Modellleistung unter dynamischen realen Bedingungen zu bewerten. Das RF-DETR-Objekterkennungsmodell, das einen DINOv2-Backbone und deformierbare Aufmerksamkeit nutzt, zeichnete sich durch die Modellierung des globalen Kontexts aus und identifizierte effektiv teilweise verdeckte oder mehrdeutige grüne Früchte. Im Gegensatz dazu nutzte YOLOv12 CNN-basierte Aufmerksamkeit für eine verbesserte lokale Merkmalsextraktion, was es für Recheneffizienz und Edge-Bereitstellung optimierte. RF-DETR erreichte den höchsten mittleren Durchschnittspräzisionswert (mAP50) von 0,9464 bei der Einzelklassenerkennung und bewies damit seine überlegene Fähigkeit, grüne Früchte in unübersichtlichen Szenen zu lokalisieren. Obwohl YOLOv12N den höchsten mAP@50:95-Wert von 0,7620 erzielte, übertraf RF-DETR in komplexen räumlichen Szenarien durchweg. Bei der Mehrklassenerkennung führte RF-DETR mit einem mAP@50 von 0,8298 und zeigte seine Fähigkeit, zwischen verdeckten und nicht verdeckten Früchten zu unterscheiden, während YOLOv12L mit 0,6622 den höchsten mAP@50:95-Wert erreichte, was auf eine bessere Klassifizierung in detaillierten Verdeckungskontexten hinweist. Die Analyse der Trainingsdynamik hob die schnelle Konvergenz von RF-DETR hervor, insbesondere in Einzelklassenszenarien, wo es innerhalb von 10 Epochen ein Plateau erreichte, was die Effizienz von Transformer-basierten Architekturen bei der Anpassung an dynamische visuelle Daten demonstriert. Diese Ergebnisse bestätigen die Effektivität von RF-DETR für Präzisionslandwirtschaftsanwendungen, während YOLOv12 für Szenarien mit schneller Reaktion geeignet ist. >Indexbegriffe: RF-DETR-Objekterkennung, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs
Vision Foundation Models (VFMs) wie DINOv2 und CLIP haben beeindruckende Ergebnisse bei verschiedenen Downstream-Aufgaben erzielt, doch ihre begrenzte Feature-Auflösung beeinträchtigt die Leistung in Anwendungen, die ein pixelgenaues Verständnis erfordern. Feature-Upsampling bietet eine vielversprechende Richtung, um diese Herausforderung zu bewältigen. In dieser Arbeit identifizieren wir zwei kritische Faktoren zur Verbesserung des Feature-Upsamplings: die Architektur des Upsamplers und das Trainingsziel. Für die Architektur des Upsamplers führen wir einen koordinatenbasierten Cross-Attention-Transformer ein, der hochauflösende Bilder mit Koordinaten und niedrigauflösenden VFM-Features integriert, um scharfe, hochwertige Features zu erzeugen. Für das Trainingsziel schlagen wir vor, hochauflösende Pseudo-Groundtruth-Features durch die Nutzung von klassenagnostischen Masken und Selbst-Distillation zu konstruieren. Unser Ansatz erfasst effektiv feinste Details und passt sich flexibel an verschiedene Eingabe- und Feature-Auflösungen an. Durch Experimente zeigen wir, dass unser Ansatz bestehende Feature-Upsampling-Techniken bei verschiedenen Downstream-Aufgaben deutlich übertrifft. Unser Code ist unter https://github.com/andrehuang/loftup veröffentlicht.
Wir stellen einen Ansatz zur Erkennung und Verfolgung detaillierter 3D-Posen mehrerer Personen aus einem einzelnen monokularen Kamerastrom vor. Unser System gewährleistet zeitlich kohärente Vorhersagen in überfüllten Szenen mit schwierigen Posen und Verdeckungen. Unser Modell führt sowohl eine robuste Einzelbilderkennung als auch eine gelernte Pose-Aktualisierung durch, um Personen von Bild zu Bild zu verfolgen. Anstatt Erkennungen über die Zeit hinweg abzugleichen, werden die Posen direkt aus einem neuen Eingabebild aktualisiert, was eine Online-Verfolgung durch Verdeckungen ermöglicht. Wir trainieren auf zahlreichen Bild- und Videodatensätzen unter Nutzung pseudo-beschrifteter Annotationen, um ein Modell zu erstellen, das in der Genauigkeit der 3D-Posenschätzung mit state-of-the-art Systemen mithält, während es schneller und präziser in der Verfolgung mehrerer Personen über die Zeit ist. Code und Gewichte sind unter https://github.com/apple/ml-comotion verfügbar.
Wir entwerfen eine Reihe minimaler algorithmischer Aufgaben, die eine lose Abstraktion offener, realer Aufgaben darstellen. Dies ermöglicht es uns, die kreativen Grenzen heutiger Sprachmodelle sauber und kontrolliert zu quantifizieren. Ähnlich wie reale Aufgaben, die einen kreativen, weitblickenden Gedankensprung erfordern, benötigen unsere Aufgaben einen impliziten, offenen stochastischen Planungsschritt, der entweder (a) neue Verbindungen in einem abstrakten Wissensgraphen entdeckt (wie bei Wortspielen, Analogien oder Forschung) oder (b) neue Muster konstruiert (wie beim Entwerfen mathematischer Probleme oder neuer Proteine). In diesen Aufgaben argumentieren wir empirisch und konzeptionell, dass Next-Token-Lernen kurzsichtig ist und übermäßig memorisiert; im Vergleich dazu übertreffen Multi-Token-Ansätze, insbesondere lehrerloses Training und Diffusionsmodelle, in der Erzeugung vielfältiger und origineller Ergebnisse. Zweitens stellen wir in unseren Aufgaben fest, dass es besser ist, Rauschen direkt in der Eingabeschicht einzuführen (über eine Methode, die wir als Hash-Conditioning bezeichnen), um Zufälligkeit aus dem Transformer zu erzeugen, ohne die Kohärenz zu beeinträchtigen, anstatt sich auf die Temperatur-Sampling-Methode aus der Ausgabeschicht zu verlassen. Somit bietet unsere Arbeit ein prinzipielles, minimales Testumfeld zur Analyse offener kreativer Fähigkeiten und liefert neue Argumente für das Überwinden von Next-Token-Lernen und Softmax-basiertem Sampling. Einen Teil des Codes stellen wir unter https://github.com/chenwu98/algorithmic-creativity zur Verfügung.
Medizinische Visuelle Sprachmodelle haben großes Potenzial in verschiedenen Gesundheitsanwendungen gezeigt, einschließlich der Beschreibung medizinischer Bilder und der Unterstützung bei der Diagnose. Die meisten bestehenden Modelle stützen sich jedoch auf textbasierte Anweisungen, was ihre Nutzbarkeit in realen klinischen Umgebungen einschränkt, insbesondere in Szenarien wie Operationen, in denen textbasierte Interaktion für Ärzte oft unpraktisch ist. Darüber hinaus fehlt es aktuellen Modellen zur medizinischen Bildanalyse in der Regel an umfassender Begründung für ihre Vorhersagen, was ihre Zuverlässigkeit für klinische Entscheidungen verringert. Da Diagnosefehler im medizinischen Bereich lebensverändernde Folgen haben können, besteht ein dringender Bedarf an interpretierbarer und rationaler medizinischer Unterstützung. Um diese Herausforderungen zu bewältigen, stellen wir ein end-to-end sprachgesteuertes medizinisches VLM vor, SilVar-Med, einen multimodalen medizinischen Bildassistenten, der Sprachinteraktion mit VLMs integriert und die Aufgabe der sprachbasierten Kommunikation für die medizinische Bildanalyse vorantreibt. Zudem konzentrieren wir uns auf die Interpretation der Begründung hinter jeder Vorhersage medizinischer Anomalien mit einem vorgeschlagenen Begründungsdatensatz. Durch umfangreiche Experimente demonstrieren wir eine Machbarkeitsstudie für begründungsgestützte medizinische Bildinterpretation mit end-to-end Sprachinteraktion. Wir glauben, dass diese Arbeit das Feld der medizinischen KI voranbringen wird, indem sie transparentere, interaktivere und klinisch praktikablere Diagnoseunterstützungssysteme fördert. Unser Code und Datensatz sind öffentlich unter SiVar-Med verfügbar.