HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

28 papers found

Lernen zu schlussfolgern unter Off-Policy-Anleitung
Learning to Reason under Off-Policy Guidance

Apr 21

ByJianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) zeigen, dass anspruchsvolle Verhaltensweisen wie mehrstufiges Reasoning und Selbstreflexion durch Reinforcement Learning (RL) mit einfachen regelbasierten Belohnungen entstehen können. Allerdings sind bestehende Zero-RL-Ansätze inhärent „on-policy“, was das Lernen auf die eigenen Ausgaben eines Modells beschränkt und den Erwerb von Reasoning-Fähigkeiten über die anfänglichen Fähigkeiten hinaus verhindert. Wir stellen LUFFY (Learning to Reason Under oFF-policY Guidance) vor, ein Framework, das Zero-RL mit off-policy Reasoning-Spuren erweitert. LUFFY balanciert dynamisch Imitation und Exploration, indem es off-policy Demonstrationen mit on-policy Rollouts während des Trainings kombiniert. Besonders hervorzuheben ist unser Vorschlag des Policy Shaping durch regularisiertes Importance Sampling, um oberflächliche und starre Imitation während des gemischten Policy-Trainings zu vermeiden. Bemerkenswerterweise erzielt LUFFY einen durchschnittlichen Gewinn von über +7,0 Punkten über sechs mathematische Benchmarks hinweg und einen Vorteil von über +6,2 Punkten bei Out-of-Distribution-Aufgaben. Es übertrifft auch die auf Imitation basierende überwachte Feinabstimmung (SFT) deutlich, insbesondere in der Generalisierung. Analysen zeigen, dass LUFFY nicht nur effektiv imitiert, sondern auch über die Demonstrationen hinaus explorativ agiert, und bietet damit einen skalierbaren Weg, um generalisierbare Reasoning-Modelle mit off-policy Anleitung zu trainieren.

Eagle 2.5: Verbesserung des Post-Trainings für langen Kontext bei fortschrittlichen Vision-Sprache-Modellen
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Apr 21

ByGuo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu

Wir stellen Eagle 2.5 vor, eine Familie von fortschrittlichen Vision-Sprach-Modellen (VLMs) für das langkontextuelle multimodale Lernen. Unsere Arbeit adressiert die Herausforderungen im Verständnis langer Videos und der Interpretation hochauflösender Bilder und führt ein allgemeingültiges Framework für beide Aufgaben ein. Das vorgeschlagene Trainingsframework integriert Automatic Degrade Sampling und Image Area Preservation, zwei Techniken, die die kontextuelle Integrität und visuelle Details bewahren. Das Framework umfasst zudem zahlreiche Effizienzoptimierungen in der Pipeline für das Training mit langkontextuellen Daten. Schließlich präsentieren wir Eagle-Video-110K, einen neuartigen Datensatz, der sowohl story-level als auch clip-level Annotationen integriert und das Verständnis langer Videos erleichtert. Eagle 2.5 zeigt erhebliche Verbesserungen bei langkontextuellen multimodalen Benchmarks und bietet eine robuste Lösung für die Grenzen bestehender VLMs. Insbesondere erreicht unser bestes Modell Eagle 2.5-8B 72,4 % auf Video-MME mit 512 Eingabeframes und entspricht damit den Ergebnissen von Top-Modellen wie GPT-4o sowie groß angelegten Open-Source-Modellen wie Qwen2.5-VL-72B und InternVL2.5-78B.

ToolRL: Belohnung ist alles, was Werkzeuglernen braucht
ToolRL: Reward is All Tool Learning Needs

Apr 16

ByCheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

Aktuelle Large Language Models (LLMs) werden häufig durch überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) trainiert, um Fähigkeiten zur Werkzeugnutzung zu erlangen. Allerdings hat SFT Schwierigkeiten, sich auf unbekannte oder komplexe Szenarien der Werkzeugnutzung zu verallgemeinern. Jüngste Fortschritte im Bereich des Reinforcement Learning (RL), insbesondere mit R1-ähnlichen Modellen, haben vielversprechende Fähigkeiten in Bezug auf logisches Denken und Generalisierung gezeigt. Dennoch stellt die Belohnungsgestaltung (Reward Design) für die Werkzeugnutzung besondere Herausforderungen dar: Es können mehrere Werkzeuge mit unterschiedlichen Parametern aufgerufen werden, und grobkörnige Belohnungssignale, wie die Übereinstimmung von Antworten, bieten nicht das feinkörnige Feedback, das für effektives Lernen erforderlich ist. In dieser Arbeit präsentieren wir die erste umfassende Studie zur Belohnungsgestaltung für Aufgaben der Werkzeugauswahl und -anwendung innerhalb des RL-Paradigmas. Wir untersuchen systematisch eine breite Palette von Belohnungsstrategien und analysieren deren Typen, Skalen, Granularität und zeitliche Dynamik. Aufbauend auf diesen Erkenntnissen schlagen wir ein prinzipielles Belohnungsdesign vor, das speziell für Aufgaben der Werkzeugnutzung entwickelt wurde, und wenden es an, um LLMs mit Group Relative Policy Optimization (GRPO) zu trainieren. Empirische Auswertungen über diverse Benchmarks zeigen, dass unser Ansatz robustes, skalierbares und stabiles Training ermöglicht und eine Verbesserung von 17 % gegenüber Basismodellen sowie einen Zuwachs von 15 % gegenüber SFT-Modellen erzielt. Diese Ergebnisse unterstreichen die entscheidende Rolle einer durchdachten Belohnungsgestaltung bei der Verbesserung der Werkzeugnutzungsfähigkeiten und der Generalisierungsleistung von LLMs. Alle Codes werden veröffentlicht, um zukünftige Forschung zu erleichtern.

FlowReasoner: Verstärkung von Meta-Agenten auf Abfrageebene
FlowReasoner: Reinforcing Query-Level Meta-Agents

Apr 21

ByHongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

Dieses Papier stellt einen Meta-Agenten auf Abfrageebene namens FlowReasoner vor, der die Gestaltung von Multi-Agenten-Systemen auf Abfrageebene automatisiert, d.h. ein System pro Benutzeranfrage. Unser Kernkonzept besteht darin, einen auf logischem Denken basierenden Meta-Agenten durch externes Ausführungsfeedback zu motivieren. Konkret statten wir FlowReasoner zunächst durch die Destillation von DeepSeek R1 mit der grundlegenden Fähigkeit aus, Multi-Agenten-Systeme zu generieren. Anschließend verbessern wir ihn weiter durch Reinforcement Learning (RL) mit externem Ausführungsfeedback. Ein vielseitiger Belohnungsmechanismus wurde entwickelt, um das RL-Training in Bezug auf Leistung, Komplexität und Effizienz zu steuern. Auf diese Weise ist FlowReasoner in der Lage, ein personalisiertes Multi-Agenten-System für jede Benutzeranfrage durch gezieltes logisches Denken zu generieren. Experimente sowohl auf technischen als auch auf Wettbewerbs-Code-Benchmarks demonstrieren die Überlegenheit von FlowReasoner. Bemerkenswerterweise übertrifft es o1-mini um 10,52 % Genauigkeit über drei Benchmarks hinweg. Der Code ist verfügbar unter https://github.com/sail-sg/FlowReasoner.

OTC: Optimale Werkzeugaufrufe durch Reinforcement Learning
OTC: Optimal Tool Calls via Reinforcement Learning

Apr 21

ByHongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

Tool-integrated reasoning (TIR) erweitert große Sprachmodelle (LLMs) um die Fähigkeit, externe Werkzeuge wie Suchmaschinen und Code-Interpreter aufzurufen, um Aufgaben zu lösen, die über die Möglichkeiten rein sprachbasierter Schlussfolgerungen hinausgehen. Während Reinforcement Learning (RL) vielversprechende Ansätze zur Verbesserung von TIR durch die Optimierung der Korrektheit der endgültigen Antworten gezeigt hat, übersehen bestehende Methoden oft die Effizienz und die Kosten im Zusammenhang mit der Werkzeugnutzung. Dies kann zu suboptimalem Verhalten führen, einschließlich übermäßiger Werkzeugaufrufe, die den Rechen- und finanziellen Aufwand erhöhen, oder unzureichender Werkzeugnutzung, die die Antwortqualität beeinträchtigt. In dieser Arbeit schlagen wir Optimal Tool Call-controlled Policy Optimization (OTC-PO) vor, ein einfaches, aber effektives RL-basiertes Framework, das Modelle dazu anregt, präzise Antworten mit minimalen Werkzeugaufrufen zu erzeugen. Unsere Methode führt eine werkzeugintegrierte Belohnung ein, die sowohl die Korrektheit als auch die Werkzeugeffizienz berücksichtigt und somit eine hohe Werkzeugproduktivität fördert. Wir implementieren dieses Framework sowohl in Proximal Policy Optimization (PPO) als auch in Group Relative Preference Optimization (GRPO), was zu OTC-PPO und OTC-GRPO führt. Experimente mit Qwen-2.5 und Qwen-Math über mehrere QA-Benchmarks zeigen, dass unser Ansatz die Werkzeugaufrufe um bis zu 73,1 % reduziert und die Werkzeugproduktivität um bis zu 229,4 % steigert, während die Antwortgenauigkeit vergleichbar bleibt. Nach unserem Wissen ist dies das erste RL-basierte Framework, das explizit die Effizienz der Werkzeugnutzung in TIR optimiert.

X-Teaming: Mehrfach-Jailbreaks und Abwehrmaßnahmen mit adaptiven Multi-Agenten-Systemen
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Apr 15

BySalman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

Mehrfachinteraktionen mit Sprachmodellen (LMs) bergen kritische Sicherheitsrisiken, da schädliche Absichten strategisch über mehrere Austausche verteilt werden können. Dennoch hat sich der Großteil der bisherigen Arbeiten auf die Sicherheit in Einzelinteraktionen konzentriert, während Anpassungsfähigkeit und Vielfalt weiterhin zu den zentralen Herausforderungen des Multi-Turn-Red-Teamings gehören. Um diese Herausforderungen zu bewältigen, stellen wir X-Teaming vor, ein skalierbares Framework, das systematisch untersucht, wie scheinbar harmlose Interaktionen in schädliche Ergebnisse eskalieren, und entsprechende Angriffsszenarien generiert. X-Teaming setzt kollaborative Agenten für die Planung, Angriffsoptimierung und Verifizierung ein und erreicht dabei state-of-the-art Effektivität und Vielfalt bei Multi-Turn-Jailbreaks mit Erfolgsquoten von bis zu 98,1 % über repräsentative führende Open-Weight- und Closed-Source-Modelle. Insbesondere erzielt X-Teaming eine Angriffserfolgsrate von 96,2 % gegen das neueste Claude 3.7 Sonnet-Modell, das bisher als nahezu immun gegen Einzelangriffe galt. Aufbauend auf X-Teaming führen wir XGuard-Train ein, einen Open-Source-Datensatz für Multi-Turn-Sicherheitstraining, der 20-mal größer ist als die bisher beste Ressource und 30.000 interaktive Jailbreaks umfasst, um eine robuste Multi-Turn-Sicherheitsausrichtung für LMs zu ermöglichen. Unsere Arbeit bietet wesentliche Werkzeuge und Erkenntnisse zur Abwehr ausgeklügelter konversationeller Angriffe und fördert die Multi-Turn-Sicherheit von LMs.

UFO2: Das Desktop-Agenten-Betriebssystem
UFO2: The Desktop AgentOS

Apr 20

ByChaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

Aktuelle Computer-Using Agents (CUAs), die durch multimodale Large Language Models (LLMs) angetrieben werden, bieten eine vielversprechende Richtung für die Automatisierung komplexer Desktop-Workflows durch natürliche Sprache. Die meisten bestehenden CUAs bleiben jedoch konzeptionelle Prototypen, die durch eine oberflächliche Betriebssystemintegration, fragile, auf Screenshots basierende Interaktion und disruptive Ausführung behindert werden. Wir präsentieren UFO2, ein Multiagenten-AgentOS für Windows-Desktops, das CUAs in praktische, systemweite Automatisierung überführt. UFO2 verfügt über einen zentralisierten HostAgent für Aufgabenzerlegung und -koordination sowie eine Sammlung von anwendungsspezialisierten AppAgents, die mit nativen APIs, domänenspezifischem Wissen und einer einheitlichen GUI--API-Aktionsschicht ausgestattet sind. Diese Architektur ermöglicht eine robuste Aufgabenausführung bei gleichzeitiger Wahrung von Modularität und Erweiterbarkeit. Eine hybride Kontrollerkennungspipeline kombiniert Windows UI Automation (UIA) mit visueller Analyse, um diverse Interface-Stile zu unterstützen. Die Laufzeiteffizienz wird weiter durch spekulative Multi-Aktionsplanung verbessert, wodurch der LLM-Overhead pro Schritt reduziert wird. Schließlich ermöglicht eine Picture-in-Picture (PiP)-Schnittstelle die Automatisierung innerhalb eines isolierten virtuellen Desktops, sodass Agenten und Benutzer gleichzeitig ohne Störungen arbeiten können. Wir evaluieren UFO2 über mehr als 20 reale Windows-Anwendungen hinweg und zeigen erhebliche Verbesserungen in Bezug auf Robustheit und Ausführungsgenauigkeit im Vergleich zu früheren CUAs. Unsere Ergebnisse zeigen, dass eine tiefe Betriebssystemintegration einen skalierbaren Weg zu zuverlässiger, benutzerorientierter Desktop-Automatisierung eröffnet.

SphereDiff: Einstellungsfreie omnidirektionale Panoramabild- und Videoerzeugung durch sphärische latente Darstellung
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Apr 19

ByMinho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

Die zunehmende Nachfrage nach AR/VR-Anwendungen hat den Bedarf an hochwertigen 360-Grad-Panoramainhalten deutlich gemacht. Die Erzeugung hochwertiger 360-Grad-Panoramabilder und -videos bleibt jedoch aufgrund der starken Verzerrungen, die durch die äquidistante Projektion (ERP) verursacht werden, eine herausfordernde Aufgabe. Bestehende Ansätze verfeinern entweder vortrainierte Diffusionsmodelle auf begrenzten ERP-Datensätzen oder versuchen tuningfreie Methoden, die dennoch auf ERP-Latentdarstellungen angewiesen sind, was zu Diskontinuitäten in der Nähe der Pole führt. In diesem Artikel stellen wir SphereDiff vor, einen neuartigen Ansatz zur nahtlosen Erzeugung von 360-Grad-Panoramabildern und -videos mithilfe modernster Diffusionsmodelle ohne zusätzliche Anpassung. Wir definieren eine sphärische Latentdarstellung, die eine gleichmäßige Verteilung über alle Perspektiven gewährleistet und so die inhärenten Verzerrungen der ERP mildert. Wir erweitern MultiDiffusion auf den sphärischen Latentraum und schlagen eine sphärische Latentabtastmethode vor, um den direkten Einsatz vortrainierter Diffusionsmodelle zu ermöglichen. Darüber hinaus führen wir eine verzerrungsbewusste gewichtete Mittelung ein, um die Generierungsqualität im Projektionsprozess weiter zu verbessern. Unser Ansatz übertrifft bestehende Methoden bei der Erzeugung von 360-Grad-Panoramainhalten bei gleichzeitiger Beibehaltung hoher Detailtreue, was ihn zu einer robusten Lösung für immersive AR/VR-Anwendungen macht. Der Code ist hier verfügbar: https://github.com/pmh9960/SphereDiff.

THOUGHTTERMINATOR: Benchmarking, Kalibrierung und Minderung von Überdenken in Reasoning-Modellen
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Apr 17

ByXiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang

Vernunftmodelle haben beeindruckende Leistungen bei schwierigen Aufgaben gezeigt, bei denen traditionelle Sprachmodelle Schwierigkeiten haben. Viele leiden jedoch unter dem Problem des Überdenkens – sie erzeugen große Mengen unnötiger Tokens, die die Genauigkeit bei einer Frage nicht verbessern. Wir führen ungefähre Maße für die Schwierigkeit auf Problemebene ein und zeigen, dass eine klare Beziehung zwischen der Schwierigkeit eines Problems und dem optimalen Token-Verbrauch besteht. Außerdem bewerten wir, wie gut verschiedene Vernunftmodelle darin sind, die optimale Token-Anzahl effizient zuzuweisen. Wir stellen fest, dass Vernunftmodelle im Allgemeinen schlecht kalibriert sind, insbesondere bei einfachen Problemen. Um die Kalibrierung bei einfachen Fragen zu bewerten, führen wir DUMB500 ein, einen Datensatz mit extrem einfachen mathematischen, logischen, Code- und Aufgabenproblemen, und bewerten Vernunftmodelle sowohl anhand dieser einfachen Beispiele als auch anhand extrem schwieriger Beispiele aus bestehenden Benchmark-Tests im gleichen Aufgabenbereich. Schließlich stellen wir THOUGHTTERMINATOR vor, eine trainingsfreie Black-Box-Decodierungstechnik, die die Kalibrierung von Vernunftmodellen erheblich verbessert.

EasyEdit2: Ein benutzerfreundliches Steuerungsframework zur Bearbeitung großer Sprachmodelle
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Apr 21

ByZiwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

In diesem Artikel stellen wir EasyEdit2 vor, ein Framework, das entwickelt wurde, um eine Plug-and-Play-Anpassbarkeit zur Steuerung des Verhaltens von Large Language Models (LLMs) zu ermöglichen. EasyEdit2 unterstützt eine Vielzahl von Interventionen zur Laufzeit, darunter Sicherheit, Stimmung, Persönlichkeit, Denkmuster, Faktizität und Sprachmerkmale. Im Gegensatz zu seinem Vorgänger verfügt EasyEdit2 über eine neue Architektur, die speziell für die nahtlose Steuerung von Modellen entwickelt wurde. Es umfasst Schlüsselmodule wie den Steuerungsvektorgenerator und den Steuerungsvektoranwender, die die automatische Generierung und Anwendung von Steuerungsvektoren ermöglichen, um das Verhalten des Modells zu beeinflussen, ohne dessen Parameter zu verändern. Einer der Hauptvorteile von EasyEdit2 ist seine Benutzerfreundlichkeit – Benutzer benötigen kein umfangreiches technisches Wissen. Mit nur einem einzigen Beispiel können sie die Antworten des Modells effektiv lenken und anpassen, was eine präzise Steuerung sowohl zugänglich als auch effizient macht. Empirisch berichten wir über die Leistung der Modellsteuerung bei verschiedenen LLMs und demonstrieren die Wirksamkeit dieser Techniken. Wir haben den Quellcode auf GitHub unter https://github.com/zjunlp/EasyEdit zusammen mit einem Demonstrations-Notebook veröffentlicht. Zusätzlich bieten wir ein Demo-Video unter https://zjunlp.github.io/project/EasyEdit2/video für eine schnelle Einführung an.

Aus einer anderen Perspektive betrachten: Bewertung des Multi-View-Verständnisses in MLLMs
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Apr 21

ByChun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

Multi-View-Verständnis, die Fähigkeit, visuelle Informationen über verschiedene Blickwinkel hinweg für effektive Navigation, Manipulation und 3D-Szenenverständnis zu vereinen, stellt eine grundlegende Herausforderung für Multi-Modale Große Sprachmodelle (MLLMs) dar, die als verkörperte Agenten eingesetzt werden sollen. Obwohl aktuelle MLLMs beeindruckende Fortschritte in hochrangigem Denken und Planung gezeigt haben, scheitern sie häufig, wenn es um multi-view geometrische Konsistenz und übergreifende Blickwinkelkorrespondenz geht. Um die Herausforderungen von MLLMs im Multi-View-Szenenverständnis umfassend zu bewerten, schlagen wir All-Angles Bench vor, einen Benchmark mit über 2.100 sorgfältig von Menschen annotierten Multi-View-Frage-Antwort-Paaren aus 90 verschiedenen realen Szenen. Unsere sechs Aufgaben (Zählen, Attributidentifikation, relative Distanz, relative Richtung, Objektmanipulation und Kameraposenschätzung) testen speziell die geometrische Korrespondenz des Modells und die Fähigkeit, Informationen konsistent über verschiedene Blickwinkel hinweg auszurichten. Unsere umfangreichen Experimente, die 27 repräsentative MLLMs, darunter Gemini-2.0-Flash, Claude-3.7-Sonnet und GPT-4o, gegen menschliche Bewerter benchmarken, zeigen eine erhebliche Leistungslücke, was darauf hindeutet, dass aktuelle MLLMs weit von menschlicher Kompetenz entfernt sind. Durch eine detaillierte Analyse zeigen wir, dass MLLMs insbesondere in zwei Aspekten unterdurchschnittlich abschneiden: (1) übergreifende Blickwinkelkorrespondenz bei teilweise verdeckten Ansichten und (2) die Bestimmung grober Kameraposen. Diese Erkenntnisse unterstreichen die Notwendigkeit von domänenspezifischen Verfeinerungen oder Modulen, die ein stärkeres Multi-View-Bewusstsein einbetten. Wir glauben, dass unser All-Angles Bench wertvolle Einblicke bietet und dazu beiträgt, die Lücke zwischen MLLMs und menschlichem Multi-View-Verständnis zu schließen. Das Projekt und der Benchmark sind öffentlich verfügbar unter https://danielchyeh.github.io/All-Angles-Bench/.

StyleMe3D: Stilisierung mit entflochtenen Prioren durch multiple Encoder auf 3D-Gaußschen
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Apr 21

ByCailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li

3D Gaussian Splatting (3DGS) zeichnet sich durch fotorealistische Szenenrekonstruktion aus, hat jedoch Schwierigkeiten mit stilisierten Szenarien (z. B. Cartoons, Spiele) aufgrund von fragmentierten Texturen, semantischer Fehlausrichtung und begrenzter Anpassungsfähigkeit an abstrakte Ästhetik. Wir stellen StyleMe3D vor, ein ganzheitliches Framework für den 3D-GS-Stiltransfer, das multimodale Stilkonditionierung, mehrstufige semantische Ausrichtung und wahrnehmungsbasierte Qualitätsverbesserung integriert. Unsere zentralen Erkenntnisse umfassen: (1) Die Optimierung nur der RGB-Attribute bewahrt die geometrische Integrität während der Stilisierung; (2) Die Entflechtung von niedrig-, mittel- und hochrangiger Semantik ist entscheidend für einen kohärenten Stiltransfer; (3) Skalierbarkeit über isolierte Objekte und komplexe Szenen hinweg ist essentiell für den praktischen Einsatz. StyleMe3D führt vier neuartige Komponenten ein: Dynamic Style Score Distillation (DSSD), das den latenten Raum von Stable Diffusion für die semantische Ausrichtung nutzt; Contrastive Style Descriptor (CSD) für lokalisierte, inhaltsbewusste Texturübertragung; Simultaneously Optimized Scale (SOS) zur Entkopplung von Stildetails und struktureller Kohärenz; sowie 3D Gaussian Quality Assessment (3DG-QA), ein differenzierbares ästhetisches Prior, das auf von Menschen bewerteten Daten trainiert wurde, um Artefakte zu unterdrücken und visuelle Harmonie zu verbessern. Bewertet auf dem NeRF- Synthetic-Dataset (Objekte) und dem tandt db (Szenen) Datensatz, übertrifft StyleMe3D state-of-the-art Methoden in der Bewahrung geometrischer Details (z. B. Gravuren auf Skulpturen) und der Sicherstellung stilistischer Konsistenz über Szenen hinweg (z. B. kohärente Beleuchtung in Landschaften), während Echtzeit-Rendering beibehalten wird. Diese Arbeit verbindet fotorealistisches 3D-GS mit künstlerischer Stilisierung und erschließt Anwendungen in Gaming, virtuellen Welten und digitaler Kunst.

LeetCodeDataset: Ein temporaler Datensatz zur robusten Bewertung und effizienten Schulung von Code-LLMs
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Apr 20

ByYunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu

Wir stellen LeetCodeDataset vor, einen hochwertigen Benchmark zur Bewertung und Schulung von Code-Generierungsmodellen, der zwei zentrale Herausforderungen in der LLM-Forschung adressiert: den Mangel an reasoning-fokussierten Coding-Benchmarks und eigenständigen Trainingsumgebungen. Durch die Kuratierung von LeetCode-Python-Problemen mit umfangreichen Metadaten, breiter Abdeckung, über 100 Testfällen pro Problem und zeitlichen Aufteilungen (vor/nach Juli 2024) ermöglicht unser Dataset eine kontaminationsfreie Bewertung und effizientes Supervised Fine-Tuning (SFT). Experimente zeigen, dass Reasoning-Modelle ihre nicht-reasoning-basierten Gegenstücke deutlich übertreffen, während SFT mit nur 2,6K modellgenerierten Lösungen eine Leistung erreicht, die mit 110K-Beispiel-Datensätzen vergleichbar ist. Das Dataset und das Bewertungsframework sind auf Hugging Face und Github verfügbar.

Uni3C: Vereinheitlichung präziser 3D-optimierter Kamera- und menschlicher Bewegungssteuerungen für die Videogenerierung
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Apr 21

ByChenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu

Kamera- und menschliche Bewegungssteuerungen wurden umfassend für die Videogenerierung untersucht, doch bestehende Ansätze behandeln sie typischerweise separat und leiden unter begrenzten Daten mit hochwertigen Annotationen für beide Aspekte. Um dies zu überwinden, präsentieren wir Uni3C, ein einheitliches 3D-erweitertes Framework für die präzise Steuerung sowohl der Kamera- als auch der menschlichen Bewegung in der Videogenerierung. Uni3C umfasst zwei wesentliche Beiträge. Erstens schlagen wir ein Plug-and-Play-Steuerungsmodul vor, das mit einem eingefrorenen generativen Video-Backbone trainiert wird, den PCDController, der unprojizierte Punktwolken aus monokularer Tiefe nutzt, um eine präzise Kamerasteuerung zu erreichen. Durch die Nutzung der starken 3D-Prioritäten von Punktwolken und der leistungsstarken Fähigkeiten von Video-Grundlagenmodellen zeigt der PCDController eine beeindruckende Generalisierung und funktioniert unabhängig davon, ob der Inferenz-Backbone eingefroren oder feinabgestimmt ist. Diese Flexibilität ermöglicht es, verschiedene Module von Uni3C in spezifischen Domänen zu trainieren, d.h. entweder Kamerasteuerung oder menschliche Bewegungssteuerung, wodurch die Abhängigkeit von gemeinsam annotierten Daten verringert wird. Zweitens schlagen wir eine gemeinsam ausgerichtete 3D-Weltführung für die Inferenzphase vor, die nahtlos sowohl szenische Punktwolken als auch SMPL-X-Charaktere integriert, um die Steuersignale für Kamera- und menschliche Bewegung zu vereinheitlichen. Umfangreiche Experimente bestätigen, dass der PCDController eine starke Robustheit bei der Steuerung der Kamerabewegung für feinabgestimmte Backbones der Videogenerierung aufweist. Uni3C übertrifft die Konkurrenz sowohl in der Kamerasteuerbarkeit als auch in der Qualität der menschlichen Bewegung deutlich. Zusätzlich haben wir maßgeschneiderte Validierungssätze mit herausfordernden Kamerabewegungen und menschlichen Aktionen gesammelt, um die Effektivität unserer Methode zu validieren.

InfiGUI-R1: Fortschritt multimodaler GUI-Agenten von reaktiven Akteuren zu deliberativen Denkern
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Apr 19

ByYuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

Multimodale Large Language Models (MLLMs) haben grafische Benutzeroberflächen-Agenten (GUI-Agenten) ermöglicht und zeigen Potenzial bei der Automatisierung von Aufgaben auf Computergeräten. Aktuelle Arbeiten haben begonnen, das logische Denken in GUI-Aufgaben zu erforschen, mit vielversprechenden Ergebnissen. Viele derzeitige Ansätze verlassen sich jedoch auf manuell entworfene Denkmuster, was zu einem nicht ausreichend robusten und anpassungsfähigen Denken in komplexen GUI-Umgebungen führen kann. Gleichzeitig agieren einige bestehende Agenten weiterhin als reaktive Akteure, die sich hauptsächlich auf implizites Denken stützen, das für GUI-Aufgaben, die Planung und Fehlerbehebung erfordern, möglicherweise nicht ausreichend tiefgreifend ist. Wir argumentieren, dass die Weiterentwicklung dieser Agenten einen Wechsel vom reaktiven Handeln hin zu einem Handeln basierend auf bewusstem Denken erfordert. Um diesen Wandel zu ermöglichen, stellen wir InfiGUI-R1 vor, einen MLLM-basierten GUI-Agenten, der durch unser Actor2Reasoner-Framework entwickelt wurde, einen denkzentrierten, zweistufigen Trainingsansatz, der darauf abzielt, Agenten schrittweise von reaktiven Akteuren zu deliberativen Denkern zu entwickeln. Die erste Stufe, Reasoning Injection, konzentriert sich auf die Etablierung eines grundlegenden Denkers. Wir verwenden Spatial Reasoning Distillation, um cross-modale räumliche Denkfähigkeiten von Lehrermodellen auf MLLMs durch Trajektorien mit expliziten Denkschritten zu übertragen, wodurch Modelle in der Lage sind, GUI-visuell-räumliche Informationen mit logischem Denken vor der Aktionsgenerierung zu integrieren. Die zweite Stufe, Deliberation Enhancement, verfeinert den grundlegenden Denker zu einem deliberativen Denker mithilfe von Reinforcement Learning. Diese Stufe führt zwei Ansätze ein: Sub-goal Guidance, das Modelle für die Generierung genauer Zwischenziele belohnt, und Error Recovery Scenario Construction, das Trainingsszenarien für Fehler und deren Behebung aus identifizierten fehleranfälligen Schritten erstellt. Experimentelle Ergebnisse zeigen, dass InfiGUI-R1 eine starke Leistung in GUI-Grounding- und Trajektorienaufgaben erzielt. Ressourcen unter https://github.com/Reallm-Labs/InfiGUI-R1.

DRAGON: Verteilungsbasierte Belohnungen optimieren generative Diffusionsmodelle
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Apr 21

ByYatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan

Wir präsentieren Distributional RewArds for Generative OptimizatioN (DRAGON), ein vielseitiges Framework zur Feinabstimmung von Medien-Generierungsmodellen hin zu einem gewünschten Ergebnis. Im Vergleich zu traditionellem Reinforcement Learning mit menschlichem Feedback (RLHF) oder paarweisen Präferenzansätzen wie Direct Preference Optimization (DPO) ist DRAGON flexibler. Es kann Belohnungsfunktionen optimieren, die entweder einzelne Beispiele oder deren Verteilungen bewerten, wodurch es mit einer breiten Palette von instanzbasierten, instanz-zu-verteilungsbasierten und verteilungs-zu-verteilungsbasierten Belohnungen kompatibel ist. Durch die Nutzung dieser Vielseitigkeit konstruieren wir neuartige Belohnungsfunktionen, indem wir einen Encoder und eine Reihe von Referenzbeispielen auswählen, um eine Beispielverteilung zu erstellen. Wenn Cross-Modality-Encoder wie CLAP verwendet werden, können die Referenzbeispiele einer anderen Modalität angehören (z.B. Text versus Audio). Anschließend sammelt DRAGON Online- und On-Policy-Generierungen, bewertet sie, um einen positiven Demonstrationssatz und einen negativen Satz zu erstellen, und nutzt den Kontrast zwischen den beiden Sätzen, um die Belohnung zu maximieren. Zur Evaluierung feinabstimmen wir ein Audio-Domain-Text-zu-Musik-Diffusionsmodell mit 20 verschiedenen Belohnungsfunktionen, darunter ein benutzerdefiniertes Musikästhetikmodell, CLAP-Score, Vendi-Diversität und Frechet-Audio-Distanz (FAD). Wir vergleichen weiterhin instanzbasierte (pro Song) und vollständige Datensatz-FAD-Einstellungen, während wir mehrere FAD-Encoder und Referenzsätze ablieren. Über alle 20 Zielbelohnungen hinweg erreicht DRAGON eine durchschnittliche Gewinnrate von 81,45%. Darüber hinaus verbessern Belohnungsfunktionen, die auf Beispielsätzen basieren, tatsächlich die Generierungen und sind mit modellbasierten Belohnungen vergleichbar. Mit einem geeigneten Beispielsatz erreicht DRAGON eine 60,95%ige menschlich bewertete Musikqualitäts-Gewinnrate, ohne auf menschliche Präferenzannotationen trainiert zu werden. Somit zeigt DRAGON einen neuen Ansatz zur Gestaltung und Optimierung von Belohnungsfunktionen zur Verbesserung der menschlich wahrgenommenen Qualität. Klangbeispiele finden Sie unter https://ml-dragon.github.io/web.

NEMOTRON-CROSSTHINK: Skalierung des Selbstlernens über mathematisches Denken hinaus
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Apr 15

BySyeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

Große Sprachmodelle (LLMs) haben starke Fähigkeiten im Bereich des logischen Denkens gezeigt, insbesondere wenn sie durch Reinforcement Learning (RL) verbessert werden. Während frühere Arbeiten RL erfolgreich auf mathematisches Denken angewendet haben – wo Regeln und Korrektheit klar definiert sind – bleibt die Verallgemeinerung dieser Methoden auf breitere Denkdomänen aufgrund begrenzter Daten, fehlender überprüfbarer Belohnungsstrukturen und vielfältiger Aufgabenanforderungen eine Herausforderung. In dieser Arbeit schlagen wir NEMOTRON-CROSSTHINK vor, ein Framework, das systematisch Multi-Domain-Korpora, einschließlich synthetischer und realer Frage-Antwort-Paare, in das RL-Training integriert, um die Generalisierung über verschiedene Denkaufgaben hinweg zu verbessern. NEMOTRON-CROSSTHINK adressiert zentrale Herausforderungen durch (1) die Einbindung von Daten aus verschiedenen Quellen, die STEM, Geisteswissenschaften, Sozialwissenschaften usw. abdecken; (2) die Anwendung strukturierter Vorlagen (z. B. Multiple-Choice und Freitext), um die Komplexität des Antwortraums zu kontrollieren; (3) die Filterung nach überprüfbaren Antworten; und (4) die Optimierung von Datenmischungsstrategien, die Daten aus mehreren Quellen effektiv nutzen. Unser Ansatz ermöglicht skalierbare und überprüfbare Belohnungsmodellierung über Mathematik hinaus und zeigt verbesserte Genauigkeiten sowohl bei mathematischen (MATH-500: +30,1 %, AMC23: +27,5 %) als auch bei nicht-mathematischen Denkbenchmarks (MMLU-PRO: +12,8 %, GPQA-DIAMOND: +11,3 %, AGIEVAL: +15,1 %, SUPERGPQA: +3,8 %). Darüber hinaus zeigt NEMOTRON-CROSSTHINK eine deutlich verbesserte Antworteffizienz – es werden 28 % weniger Tokens für korrekte Antworten verwendet – was auf fokussierteres und effektiveres Denken hinweist. Durch NEMOTRON-CROSSTHINK demonstrieren wir, dass die Integration von Multi-Domain-, Multi-Format-Daten in RL zu genaueren, effizienteren und besser generalisierbaren LLMs führt.

LearnAct: Wenig-Beispiel-Mobil-GUI-Agent mit einem einheitlichen Demonstrations-Benchmark
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Apr 18

ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng

Mobile-GUI-Agenten zeigen vielversprechende Ansätze zur Automatisierung von Aufgaben, stehen jedoch vor Herausforderungen bei der Generalisierung in diversen realen Szenarien. Traditionelle Ansätze, die auf Vorabtraining oder Feinabstimmung mit umfangreichen Datensätzen basieren, kämpfen mit der Vielfalt mobiler Anwendungen und benutzerspezifischer Aufgaben. Wir schlagen vor, die Fähigkeiten von Mobile-GUI-Agenten durch menschliche Demonstrationen zu verbessern, wobei der Fokus auf der Leistungssteigerung in unbekannten Szenarien liegt, anstatt eine universelle Generalisierung durch größere Datensätze anzustreben. Um dieses Paradigma zu realisieren, führen wir LearnGUI ein, den ersten umfassenden Datensatz, der speziell für das Studium des demonstrationsbasierten Lernens in Mobile-GUI-Agenten entwickelt wurde. Dieser umfasst 2.252 Offline-Aufgaben und 101 Online-Aufgaben mit hochwertigen menschlichen Demonstrationen. Weiterhin entwickeln wir LearnAct, ein ausgeklügeltes Multi-Agenten-Framework, das automatisch Wissen aus Demonstrationen extrahiert, um die Aufgabenbewältigung zu verbessern. Dieses Framework integriert drei spezialisierte Agenten: DemoParser zur Wissensextraktion, KnowSeeker zur relevanten Wissensabfrage und ActExecutor zur demonstrationsgestützten Aufgabenausführung. Unsere experimentellen Ergebnisse zeigen signifikante Leistungssteigerungen sowohl in Offline- als auch in Online-Bewertungen. In Offline-Bewertungen verbessert eine einzige Demonstration die Modellleistung und erhöht die Genauigkeit von Gemini-1.5-Pro von 19,3 % auf 51,7 %. In Online-Bewertungen steigert unser Framework die Aufgaben-Erfolgsrate von UI-TARS-7B-SFT von 18,1 % auf 32,8 %. Das LearnAct-Framework und der LearnGUI-Benchmark etablieren demonstrationsbasiertes Lernen als vielversprechende Richtung für anpassungsfähigere, personalisiertere und einsatzbereite Mobile-GUI-Agenten.

Ein LMM für effizientes Videoverständnis durch verstärkte Kompression von Videowürfeln
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Apr 21

ByJi Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua

Große Multimodale Modelle (LMMs) nehmen Videobilder einheitlich wahr, was zu computationaler Ineffizienz bei Videos mit inhärent variierender zeitlicher Informationsdichte führt. Dieses Artikel stellt Quicksviewer vor, ein LMM mit einem neuen Wahrnehmungsparadigma, das ein Video ungleichmäßiger Dichte mithilfe von Gumbel Softmax in variierende Würfel unterteilt, gefolgt von einer einheitlichen Neuabtastung für jeden Würfel, um effizientes Videoverständnis zu erreichen. Dieser einfache und intuitive Ansatz komprimiert Videos online dynamisch basierend auf ihrer zeitlichen Dichte, wodurch die raumzeitliche Redundanz erheblich reduziert wird (insgesamt 45-fache Kompressionsrate), während gleichzeitig ein effizientes Training mit großem rezeptivem Feld ermöglicht wird. Wir trainieren das Modell von einem Sprach-Backbone aus in drei progressiven Stufen, von denen jede dank der Wahrnehmungseffizienz durchschnittlich lange Videos von 420s/1fps einbezieht. Mit nur 0,8M Video-Text-Proben für das Training übertrifft unser Modell den direkten Baseline-Ansatz mit einer festen Partitionierungsstrategie um maximal 8,72 in der Genauigkeit, was die Effektivität in der Leistung demonstriert. Auf Video-MME erreicht Quicksviewer den State-of-the-Art (SOTA) bei bescheidenen Sequenzlängen mit nur bis zu 5\% der pro Bild benötigten Tokens der Baselines. Mit diesem Paradigma zeigt die Skalierung der Anzahl der Eingabebilder ein klares Potenzgesetz der Modellfähigkeiten. Es wird auch empirisch bestätigt, dass die vom Würfelnetzwerk generierten Segmente zur Analyse kontinuierlicher Ereignisse in Videos beitragen können.

TAPIP3D: Verfolgung beliebiger Punkte in persistenter 3D-Geometrie
TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Apr 20

ByBowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki

Wir stellen TAPIP3D vor, einen neuartigen Ansatz zur langfristigen 3D-Punktverfolgung in monokularen RGB- und RGB-D-Videos. TAPIP3D repräsentiert Videos als kamerastabilisierte räumlich-zeitliche Merkmalswolken und nutzt Tiefen- und Kamerabewegungsinformationen, um 2D-Videomerkmale in einen 3D-Weltraum zu heben, in dem die Kamerabewegung effektiv aufgehoben wird. TAPIP3D verfeinert iterativ die Schätzung der 3D-Bewegung über mehrere Frames innerhalb dieser stabilisierten Darstellung, was eine robuste Verfolgung über längere Zeiträume ermöglicht. Um die inhärenten Unregelmäßigkeiten der 3D-Punktverteilungen zu bewältigen, schlagen wir einen Local Pair Attention-Mechanismus vor. Diese 3D-Kontextualisierungsstrategie nutzt räumliche Beziehungen in 3D effektiv aus und bildet informative Merkmalsnachbarschaften für eine präzise 3D-Trajektorienschätzung. Unser 3D-zentrierter Ansatz übertrifft bestehende Methoden zur 3D-Punktverfolgung deutlich und verbessert sogar die 2D-Verfolgungsgenauigkeit im Vergleich zu herkömmlichen 2D-Pixel-Trackern, wenn genaue Tiefeninformationen verfügbar sind. Er unterstützt die Inferenz sowohl in Kamerakoordinaten (d.h. nicht stabilisiert) als auch in Weltkoordinaten, und unsere Ergebnisse zeigen, dass die Kompensation der Kamerabewegung die Verfolgungsleistung verbessert. Unser Ansatz ersetzt die konventionellen 2D-quadratischen Korrelationsnachbarschaften, die in früheren 2D- und 3D-Trackern verwendet wurden, und führt zu robusteren und genaueren Ergebnissen in verschiedenen 3D-Punktverfolgungs-Benchmarks. Projektseite: https://tapip3d.github.io

RF-DETR Objekterkennung vs. YOLOv12: Eine Studie zu Transformer-basierten und CNN-basierten Architekturen für die Einzelklassen- und Mehrklassen-Erkennung von Grünfrüchten in komplexen Obstgartenumgebungen unter Bedingungen von Label-Unschärfe
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Apr 17

ByRanjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

Diese Studie führt einen detaillierten Vergleich zwischen dem RF-DETR-Basismodell für Objekterkennung und den Konfigurationen des YOLOv12-Objekterkennungsmodells durch, um grüne Früchte in einer komplexen Umgebung von Obstplantagen zu erkennen, die durch Label-Unschärfe, Verdeckungen und Hintergrundverschmelzung gekennzeichnet ist. Ein benutzerdefiniertes Datenset wurde entwickelt, das sowohl Einzelklassen- (grüne Früchte) als auch Mehrklassen-Annotationen (verdeckte und nicht verdeckte grüne Früchte) umfasst, um die Modellleistung unter dynamischen realen Bedingungen zu bewerten. Das RF-DETR-Objekterkennungsmodell, das einen DINOv2-Backbone und deformierbare Aufmerksamkeit nutzt, zeichnete sich durch die Modellierung des globalen Kontexts aus und identifizierte effektiv teilweise verdeckte oder mehrdeutige grüne Früchte. Im Gegensatz dazu nutzte YOLOv12 CNN-basierte Aufmerksamkeit für eine verbesserte lokale Merkmalsextraktion, was es für Recheneffizienz und Edge-Bereitstellung optimierte. RF-DETR erreichte den höchsten mittleren Durchschnittspräzisionswert (mAP50) von 0,9464 bei der Einzelklassenerkennung und bewies damit seine überlegene Fähigkeit, grüne Früchte in unübersichtlichen Szenen zu lokalisieren. Obwohl YOLOv12N den höchsten mAP@50:95-Wert von 0,7620 erzielte, übertraf RF-DETR in komplexen räumlichen Szenarien durchweg. Bei der Mehrklassenerkennung führte RF-DETR mit einem mAP@50 von 0,8298 und zeigte seine Fähigkeit, zwischen verdeckten und nicht verdeckten Früchten zu unterscheiden, während YOLOv12L mit 0,6622 den höchsten mAP@50:95-Wert erreichte, was auf eine bessere Klassifizierung in detaillierten Verdeckungskontexten hinweist. Die Analyse der Trainingsdynamik hob die schnelle Konvergenz von RF-DETR hervor, insbesondere in Einzelklassenszenarien, wo es innerhalb von 10 Epochen ein Plateau erreichte, was die Effizienz von Transformer-basierten Architekturen bei der Anpassung an dynamische visuelle Daten demonstriert. Diese Ergebnisse bestätigen die Effektivität von RF-DETR für Präzisionslandwirtschaftsanwendungen, während YOLOv12 für Szenarien mit schneller Reaktion geeignet ist. >Indexbegriffe: RF-DETR-Objekterkennung, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

LookingGlass: Generative Anamorphosen durch Laplacian-Pyramiden-Verzerrung
LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping

Apr 11

ByPascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross, Vinicius C. Azevedo

Anamorphose bezeichnet eine Kategorie von Bildern, die absichtlich verzerrt sind, sodass sie bei direkter Betrachtung unerkennbar erscheinen. Ihre wahre Form offenbart sich erst, wenn sie aus einem spezifischen Blickwinkel betrachtet werden, was beispielsweise durch ein katadioptrisches Gerät wie einen Spiegel oder eine Linse erfolgen kann. Obwohl die Konstruktion dieser mathematischen Geräte bis ins 17. Jahrhundert zurückverfolgt werden kann, sind sie nur aus einem bestimmten Blickwinkel interpretierbar und verlieren ihre Bedeutung bei normaler Betrachtung. In diesem Artikel beleuchten wir diese berühmten optischen Täuschungen mit einem generativen Ansatz neu. Mithilfe von latenten rectified flow-Modellen schlagen wir eine Methode vor, um anamorphe Bilder zu erzeugen, die auch bei direkter Betrachtung eine gültige Interpretation behalten. Zu diesem Zweck führen wir Laplacian Pyramid Warping ein, eine frequenzbewusste Bildverzerrungstechnik, die für die Erzeugung hochwertiger visueller Darstellungen entscheidend ist. Unsere Arbeit erweitert Visual Anagrams (arXiv:2311.17919) auf latente Raummodelle und ein breiteres Spektrum räumlicher Transformationen, wodurch die Schaffung neuartiger generativer Wahrnehmungsillusionen ermöglicht wird.

RainbowPlus: Verbesserung der Generierung von adversarischen Prompts durch evolutionäre Quality-Diversity-Suche
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Apr 21

ByQuy-Anh Dang, Chris Ngo, Truong-Son Hy

Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten, sind jedoch anfällig für adversariale Prompts, die Schwachstellen ausnutzen, um unsichere oder voreingenommene Ausgaben zu erzeugen. Bestehende Red-Teaming-Methoden stehen oft vor Herausforderungen in Bezug auf Skalierbarkeit, ressourcenintensive Anforderungen oder begrenzte Vielfalt in den Angriffsstrategien. Wir schlagen RainbowPlus vor, ein neuartiges Red-Teaming-Framework, das in der evolutionären Berechnung verwurzelt ist und die Erzeugung adversarieller Prompts durch eine adaptive Quality-Diversity (QD)-Suche verbessert, die klassische evolutionäre Algorithmen wie MAP-Elites mit Innovationen speziell für Sprachmodelle erweitert. Durch den Einsatz eines Multi-Element-Archivs zur Speicherung vielfältiger hochwertiger Prompts und einer umfassenden Fitnessfunktion zur gleichzeitigen Bewertung mehrerer Prompts überwindet RainbowPlus die Einschränkungen von Einzel-Prompt-Archiven und paarweisen Vergleichen in früheren QD-Methoden wie Rainbow Teaming. Experimente, die RainbowPlus mit QD-Methoden über sechs Benchmark-Datensätze und vier Open-Source-LLMs vergleichen, zeigen eine überlegene Angriffserfolgsrate (ASR) und Vielfalt (Diverse-Score ca. 0,84), wobei bis zu 100-mal mehr einzigartige Prompts erzeugt werden (z.B. 10.418 vs. 100 für Ministral-8B-Instruct-2410). Gegenüber neun state-of-the-art-Methoden auf dem HarmBench-Datensatz mit zwölf LLMs (zehn Open-Source, zwei Closed-Source) erreicht RainbowPlus eine durchschnittliche ASR von 81,1%, übertrifft AutoDAN-Turbo um 3,9% und ist 9-mal schneller (1,45 vs. 13,50 Stunden). Unsere Open-Source-Implementierung fördert weitere Fortschritte in der Sicherheit von LLMs und bietet ein skalierbares Werkzeug zur Schwachstellenbewertung. Code und Ressourcen sind öffentlich unter https://github.com/knoveleng/rainbowplus verfügbar und unterstützen Reproduzierbarkeit und zukünftige Forschung im Bereich LLM Red-Teaming.

PROMPTEVALS: Ein Datensatz von Assertions und Guardrails für maßgeschneiderte Produktionspipelines großer Sprachmodelle
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Apr 20

ByReya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran

Große Sprachmodelle (LLMs) werden zunehmend in spezialisierten Produktionsdatenverarbeitungspipelines in verschiedenen Bereichen wie Finanzen, Marketing und E-Commerce eingesetzt. Wenn sie jedoch in der Produktion über viele Eingaben hinweg ausgeführt werden, scheitern sie oft daran, Anweisungen zu befolgen oder die Erwartungen der Entwickler zu erfüllen. Um die Zuverlässigkeit in diesen Anwendungen zu verbessern, ist es entscheidend, Assertions oder Sicherheitsvorkehrungen für die Ausgaben der LLMs zu erstellen, die parallel zu den Pipelines laufen. Dennoch ist es eine Herausforderung, die richtige Menge an Assertions zu bestimmen, die die Anforderungen der Entwickler für eine Aufgabe erfassen. In diesem Artikel stellen wir PROMPTEVALS vor, einen Datensatz von 2087 LLM-Pipeline-Prompts mit 12623 entsprechenden Assertion-Kriterien, die von Entwicklern stammen, die unsere Open-Source-LLM-Pipeline-Tools verwenden. Dieser Datensatz ist 5x größer als bisherige Sammlungen. Mit einem Hold-Out-Test-Split von PROMPTEVALS als Benchmark haben wir geschlossene und Open-Source-Modelle bei der Generierung relevanter Assertions bewertet. Bemerkenswerterweise übertreffen unsere feinabgestimmten Mistral- und Llama-3-Modelle GPT-4o im Durchschnitt um 20,93 % und bieten sowohl reduzierte Latenz als auch verbesserte Leistung. Wir glauben, dass unser Datensatz weitere Forschungen in den Bereichen LLM-Zuverlässigkeit, Ausrichtung und Prompt-Engineering anregen kann.

CoMotion: Gleichzeitige 3D-Bewegung mehrerer Personen
CoMotion: Concurrent Multi-person 3D Motion

Apr 16

ByAlejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun

Wir stellen einen Ansatz zur Erkennung und Verfolgung detaillierter 3D-Posen mehrerer Personen aus einem einzelnen monokularen Kamerastrom vor. Unser System gewährleistet zeitlich kohärente Vorhersagen in überfüllten Szenen mit schwierigen Posen und Verdeckungen. Unser Modell führt sowohl eine robuste Einzelbilderkennung als auch eine gelernte Pose-Aktualisierung durch, um Personen von Bild zu Bild zu verfolgen. Anstatt Erkennungen über die Zeit hinweg abzugleichen, werden die Posen direkt aus einem neuen Eingabebild aktualisiert, was eine Online-Verfolgung durch Verdeckungen ermöglicht. Wir trainieren auf zahlreichen Bild- und Videodatensätzen unter Nutzung pseudo-beschrifteter Annotationen, um ein Modell zu erstellen, das in der Genauigkeit der 3D-Posenschätzung mit state-of-the-art Systemen mithält, während es schneller und präziser in der Verfolgung mehrerer Personen über die Zeit ist. Code und Gewichte sind unter https://github.com/apple/ml-comotion verfügbar.

Würfle und schau, bevor du springst: Über die kreativen Grenzen der Next-Token-Vorhersage hinausgehen
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Apr 21

ByVaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

Wir entwerfen eine Reihe minimaler algorithmischer Aufgaben, die eine lose Abstraktion offener, realer Aufgaben darstellen. Dies ermöglicht es uns, die kreativen Grenzen heutiger Sprachmodelle sauber und kontrolliert zu quantifizieren. Ähnlich wie reale Aufgaben, die einen kreativen, weitblickenden Gedankensprung erfordern, benötigen unsere Aufgaben einen impliziten, offenen stochastischen Planungsschritt, der entweder (a) neue Verbindungen in einem abstrakten Wissensgraphen entdeckt (wie bei Wortspielen, Analogien oder Forschung) oder (b) neue Muster konstruiert (wie beim Entwerfen mathematischer Probleme oder neuer Proteine). In diesen Aufgaben argumentieren wir empirisch und konzeptionell, dass Next-Token-Lernen kurzsichtig ist und übermäßig memorisiert; im Vergleich dazu übertreffen Multi-Token-Ansätze, insbesondere lehrerloses Training und Diffusionsmodelle, in der Erzeugung vielfältiger und origineller Ergebnisse. Zweitens stellen wir in unseren Aufgaben fest, dass es besser ist, Rauschen direkt in der Eingabeschicht einzuführen (über eine Methode, die wir als Hash-Conditioning bezeichnen), um Zufälligkeit aus dem Transformer zu erzeugen, ohne die Kohärenz zu beeinträchtigen, anstatt sich auf die Temperatur-Sampling-Methode aus der Ausgabeschicht zu verlassen. Somit bietet unsere Arbeit ein prinzipielles, minimales Testumfeld zur Analyse offener kreativer Fähigkeiten und liefert neue Argumente für das Überwinden von Next-Token-Lernen und Softmax-basiertem Sampling. Einen Teil des Codes stellen wir unter https://github.com/chenwu98/algorithmic-creativity zur Verfügung.

LoftUp: Lernen eines koordinatenbasierten Feature-Upsamplers für Vision-Foundation-Modelle
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

Apr 18

ByHaiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang

Vision Foundation Models (VFMs) wie DINOv2 und CLIP haben beeindruckende Ergebnisse bei verschiedenen Downstream-Aufgaben erzielt, doch ihre begrenzte Feature-Auflösung beeinträchtigt die Leistung in Anwendungen, die ein pixelgenaues Verständnis erfordern. Feature-Upsampling bietet eine vielversprechende Richtung, um diese Herausforderung zu bewältigen. In dieser Arbeit identifizieren wir zwei kritische Faktoren zur Verbesserung des Feature-Upsamplings: die Architektur des Upsamplers und das Trainingsziel. Für die Architektur des Upsamplers führen wir einen koordinatenbasierten Cross-Attention-Transformer ein, der hochauflösende Bilder mit Koordinaten und niedrigauflösenden VFM-Features integriert, um scharfe, hochwertige Features zu erzeugen. Für das Trainingsziel schlagen wir vor, hochauflösende Pseudo-Groundtruth-Features durch die Nutzung von klassenagnostischen Masken und Selbst-Distillation zu konstruieren. Unser Ansatz erfasst effektiv feinste Details und passt sich flexibel an verschiedene Eingabe- und Feature-Auflösungen an. Durch Experimente zeigen wir, dass unser Ansatz bestehende Feature-Upsampling-Techniken bei verschiedenen Downstream-Aufgaben deutlich übertrifft. Unser Code ist unter https://github.com/andrehuang/loftup veröffentlicht.

SilVar-Med: Ein sprachgesteuertes visuelles Sprachmodell zur erklärbaren Erkennung von Anomalien in der medizinischen Bildgebung
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Apr 14

ByTan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy

Medizinische Visuelle Sprachmodelle haben großes Potenzial in verschiedenen Gesundheitsanwendungen gezeigt, einschließlich der Beschreibung medizinischer Bilder und der Unterstützung bei der Diagnose. Die meisten bestehenden Modelle stützen sich jedoch auf textbasierte Anweisungen, was ihre Nutzbarkeit in realen klinischen Umgebungen einschränkt, insbesondere in Szenarien wie Operationen, in denen textbasierte Interaktion für Ärzte oft unpraktisch ist. Darüber hinaus fehlt es aktuellen Modellen zur medizinischen Bildanalyse in der Regel an umfassender Begründung für ihre Vorhersagen, was ihre Zuverlässigkeit für klinische Entscheidungen verringert. Da Diagnosefehler im medizinischen Bereich lebensverändernde Folgen haben können, besteht ein dringender Bedarf an interpretierbarer und rationaler medizinischer Unterstützung. Um diese Herausforderungen zu bewältigen, stellen wir ein end-to-end sprachgesteuertes medizinisches VLM vor, SilVar-Med, einen multimodalen medizinischen Bildassistenten, der Sprachinteraktion mit VLMs integriert und die Aufgabe der sprachbasierten Kommunikation für die medizinische Bildanalyse vorantreibt. Zudem konzentrieren wir uns auf die Interpretation der Begründung hinter jeder Vorhersage medizinischer Anomalien mit einem vorgeschlagenen Begründungsdatensatz. Durch umfangreiche Experimente demonstrieren wir eine Machbarkeitsstudie für begründungsgestützte medizinische Bildinterpretation mit end-to-end Sprachinteraktion. Wir glauben, dass diese Arbeit das Feld der medizinischen KI voranbringen wird, indem sie transparentere, interaktivere und klinisch praktikablere Diagnoseunterstützungssysteme fördert. Unser Code und Datensatz sind öffentlich unter SiVar-Med verfügbar.