papers.description
Große Sprachmodelle (LLMs) haben eine beeindruckende Vielseitigkeit als allgemeine Modelle gezeigt. Ihre breite Anwendbarkeit geht jedoch mit einem hohen Rechenaufwand einher, insbesondere beim autoregressiven Decodieren, bei dem jeder Schritt einen Vorwärtsdurchlauf erfordert. In domänenspezifischen Anwendungen sind allgemeine Fähigkeiten unnötig und können gegen Effizienz eingetauscht werden. In dieser Arbeit nehmen wir eine neuartige Perspektive auf die Domänenanpassung ein, indem wir die Latenz und die Rechenkosten reduzieren, indem wir das Vokabular auf spezifische Interessensgebiete anpassen. Wir stellen AdaptiVocab vor, einen End-to-End-Ansatz zur Vokabularanpassung, der darauf abzielt, die Effizienz von LLMs in ressourcenarmen Domänen zu verbessern. AdaptiVocab kann auf jeden Tokenizer und jede Architektur angewendet werden, indem das Vokabular durch domänenspezifische, auf N-Grammen basierende Tokens modifiziert wird, wodurch die Anzahl der für die Eingabeverarbeitung und Ausgabegenerierung benötigten Tokens reduziert wird. AdaptiVocab initialisiert neue N-Token-Einbettungen durch eine exponentiell gewichtete Kombination bestehender Einbettungen und verwendet eine leichtgewichtige Feinabstimmungsphase, die effizient auf einer einzelnen GPU durchgeführt werden kann. Wir evaluieren zwei 7B-LLMs in drei Nischenbereichen und bewerten Effizienz, Generierungsqualität und Leistung bei Endaufgaben. Unsere Ergebnisse zeigen, dass AdaptiVocab die Token-Nutzung um über 25 % reduziert, ohne die Leistung zu beeinträchtigen.
Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Während sich aktuelle Forschung auf algorithmische Verbesserungen konzentriert, wurde die Bedeutung der Konstruktion von Prompt-Daten vernachlässigt. Diese Arbeit schließt diese Lücke, indem sie datengetriebene Engpässe bei der Skalierung der RLHF-Leistung untersucht, insbesondere Reward Hacking und abnehmende Antwortvielfalt. Wir führen ein hybrides Belohnungssystem ein, das Reasoning-Task-Verifizierer (RTV) und ein generatives Belohnungsmodell (GenRM) kombiniert, um Reward Hacking zu mindern. Zudem schlagen wir eine neuartige Prompt-Auswahlmethode, Pre-PPO, vor, um die Antwortvielfalt zu erhalten und die Lerneffektivität zu steigern. Darüber hinaus zeigen wir, dass die Priorisierung mathematischer und Programmieraufgaben zu Beginn des RLHF-Trainings die Leistung erheblich verbessert. Experimente mit zwei Modellgrößen bestätigen die Wirksamkeit und Skalierbarkeit unserer Methoden. Die Ergebnisse zeigen, dass RTV am widerstandsfähigsten gegen Reward Hacking ist, gefolgt von GenRM mit Ground Truth und dann GenRM mit SFT Best-of-N-Antworten. Unsere Strategien ermöglichen die schnelle Erfassung subtiler, aufgabenbezogener Unterschiede, was zu erheblichen Verbesserungen der gesamten RLHF-Leistung führt. Diese Arbeit unterstreicht die Bedeutung sorgfältiger Datenkonstruktion und bietet praktische Methoden, um Leistungsbarrieren in RLHF zu überwinden.
Kürzlich entwickelte Large Reasoning Models (LRMs) wie DeepSeek-R1 und OpenAI o1 haben durch die Skalierung der Länge von Chain-of-Thought (CoT)-Schlussfolgerungen während der Inferenz deutliche Leistungssteigerungen gezeigt. Es besteht jedoch zunehmend die Sorge, dass sie übermäßig lange Begründungsspuren erzeugen, die oft mit redundanten Inhalten (z. B. wiederholten Definitionen), übermäßiger Analyse einfacher Probleme und oberflächlicher Exploration mehrerer Begründungspfade für komplexere Aufgaben gefüllt sind. Diese Ineffizienz stellt erhebliche Herausforderungen für das Training, die Inferenz und den realen Einsatz (z. B. in agentenbasierten Systemen) dar, wo die Token-Ökonomie von entscheidender Bedeutung ist. In dieser Übersichtsarbeit bieten wir einen umfassenden Überblick über aktuelle Bemühungen zur Verbesserung der Effizienz von Schlussfolgerungen in LRMs, mit einem besonderen Fokus auf die einzigartigen Herausforderungen, die in diesem neuen Paradigma auftreten. Wir identifizieren gängige Muster der Ineffizienz, untersuchen Methoden, die über den gesamten LRM-Lebenszyklus hinweg vorgeschlagen wurden, d. h. vom Pretraining bis zur Inferenz, und diskutieren vielversprechende zukünftige Forschungsrichtungen. Um die laufende Entwicklung zu unterstützen, pflegen wir auch ein Echtzeit-GitHub-Repository, das den aktuellen Fortschritt auf diesem Gebiet verfolgt. Wir hoffen, dass diese Übersichtsarbeit als Grundlage für weitere Erkundungen dient und Innovationen in diesem sich schnell entwickelnden Bereich inspiriert.
Sequential Recommendation (SeqRec) zielt darauf ab, das nächste Element vorherzusagen, indem sequenzielle Muster aus den historischen Interaktionen der Nutzer erfasst werden, und spielt eine entscheidende Rolle in vielen realen Empfehlungssystemen. Allerdings verwenden bestehende Ansätze überwiegend ein direktes Vorwärtsberechnungsparadigma, bei dem der letzte versteckte Zustand des Sequenzencoders als Nutzerrepräsentation dient. Wir argumentieren, dass dieses Inferenzparadigma aufgrund seiner begrenzten Berechnungstiefe Schwierigkeiten hat, die komplexe Entwicklung von Nutzerpräferenzen zu modellieren, und ein differenziertes Verständnis von Long-Tail-Artikeln fehlt, was zu suboptimaler Leistung führt. Um dieses Problem zu lösen, schlagen wir ReaRec vor, das erste Inferenzzeit-Berechnungsframework für Empfehlungssysteme, das Nutzerrepräsentationen durch implizite Mehrschritt-Argumentation verbessert. Insbesondere füttert ReaRec den letzten versteckten Zustand der Sequenz autoregressiv in den sequenziellen Empfehlungsalgorithmus ein, während spezielle Argumentationspositions-Einbettungen verwendet werden, um den ursprünglichen Artikelkodierungsraum vom Mehrschritt-Argumentationsraum zu entkoppeln. Darüber hinaus führen wir zwei leichte, argumentationsbasierte Lernmethoden ein, Ensemble Reasoning Learning (ERL) und Progressive Reasoning Learning (PRL), um das Argumentationspotenzial von ReaRec weiter effektiv auszuschöpfen. Umfangreiche Experimente auf fünf öffentlichen realen Datensätzen und verschiedenen SeqRec-Architekturen demonstrieren die Allgemeingültigkeit und Effektivität unseres vorgeschlagenen ReaRec. Bemerkenswerterweise zeigen post-hoc-Analysen, dass ReaRec die Leistungsgrenze mehrerer sequenzieller Empfehlungs-Backbones signifikant um etwa 30\%-50\% erhöht. Daher glauben wir, dass diese Arbeit einen neuen und vielversprechenden Weg für zukünftige Forschung in der Inferenzzeit-Berechnung für sequenzielle Empfehlungen eröffnen kann.
Multimodale Large Language Models (MLLMs) haben aufgrund ihrer Fähigkeit, verschiedene Arten von Eingabedaten zu verarbeiten und kohärente, kontextuell relevante Ausgaben in verschiedenen Anwendungen zu generieren, erheblich an Bedeutung gewonnen. Während das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) der vorherrschende Ansatz zur Verbesserung der Fähigkeiten von MLLMs in der aufgabenspezifischen Optimierung war, zeigt es oft Schwächen bei der Förderung entscheidender generalisierter Denkfähigkeiten. Obwohl Reinforcement Learning (RL) großes Potenzial besitzt, diese Einschränkungen zu überwinden, stößt es auf zwei wesentliche Herausforderungen: (1) seine generalisierten Fähigkeiten in multimodalen Aufgaben sind weitgehend unerforscht, und (2) seine Trainingsbeschränkungen, einschließlich der konstanten Kullback-Leibler-Divergenz oder der Clamp-Strategie, führen oft zu suboptimalen Engpässen. Um diese Herausforderungen zu bewältigen, schlagen wir OThink-MR1 vor, ein fortschrittliches MLLM, das mit tiefgreifendem Verständnis und Denkfähigkeiten in multimodalen Aufgaben ausgestattet ist. Insbesondere führen wir die Group Relative Policy Optimization mit einer dynamischen Kullback-Leibler-Strategie (GRPO-D) ein, die die Leistung von Reinforcement Learning (RL) deutlich verbessert. Für Qwen2-VL-2B-Instruct erzielt GRPO-D eine relative Verbesserung von mehr als 5,72 % gegenüber SFT und mehr als 13,59 % gegenüber GRPO in der Bewertung derselben Aufgabe auf zwei angepassten Datensätzen. Darüber hinaus zeigt GRPO-D bemerkenswerte Fähigkeiten zur aufgabenübergreifenden Generalisierung, mit einer durchschnittlichen relativen Verbesserung von mehr als 61,63 % gegenüber SFT in der aufgabenübergreifenden Bewertung. Diese Ergebnisse verdeutlichen, dass das mit GRPO-D trainierte MLLM für eine multimodale Aufgabe effektiv auf eine andere Aufgabe übertragen werden kann, was die überlegenen generalisierten Denkfähigkeiten unseres vorgeschlagenen OThink-MR1-Modells unterstreicht.
Wir stellen ORIGEN vor, die erste Zero-Shot-Methode zur 3D-Orientierungsverankerung in der Text-zu-Bild-Generierung über mehrere Objekte und diverse Kategorien hinweg. Während sich frühere Arbeiten zur räumlichen Verankerung in der Bildgenerierung hauptsächlich auf 2D-Positionierung konzentrierten, fehlt es ihnen an Kontrolle über die 3D-Orientierung. Um dies zu adressieren, schlagen wir einen belohnungsgesteuerten Sampling-Ansatz vor, der ein vortrainiertes diskriminatives Modell zur 3D-Orientierungsschätzung und ein Ein-Schritt-Text-zu-Bild-Generierungsflussmodell verwendet. Obwohl gradientenbasiertes Optimieren eine naheliegende Wahl für belohnungsbasierte Steuerung ist, kämpft es damit, die Bildrealität zu bewahren. Stattdessen verwenden wir einen samplingbasierten Ansatz mit Langevin-Dynamik, der den Gradientenanstieg durch einfaches Injizieren von zufälligem Rauschen erweitert – was nur eine einzige zusätzliche Codezeile erfordert. Zusätzlich führen wir eine adaptive Zeitskalierung basierend auf der Belohnungsfunktion ein, um die Konvergenz zu beschleunigen. Unsere Experimente zeigen, dass ORIGEN sowohl trainierungsbasierte als auch testzeitgesteuerte Methoden in quantitativen Metriken und Benutzerstudien übertrifft.
Die Verfeinerung von Zusammenfassungen steht vor Herausforderungen, wenn sie auf mehrere Dimensionen ausgeweitet wird. In diesem Artikel stellen wir ReFeed vor, eine leistungsstarke Pipeline zur Verfeinerung von Zusammenfassungen, die mehrere Dimensionen durch reflektierendes Denken auf Basis von Feedback verbessert. Um dies zu erreichen, veröffentlichen wir SumFeed-CoT, einen groß angelegten, auf Long-CoT basierenden Datensatz, der für das Training eines leichtgewichtigen Modells mit reflektierendem Denken optimiert ist. Unsere Experimente zeigen, wie die Anzahl der Dimensionen, die Feedback-Exposition und die Denkstrategie die Verfeinerungsleistung beeinflussen, wobei reflektierendes Denken und die gleichzeitige Berücksichtigung mehrerer Feedback-Aspekte entscheidend sind, um den Kompromiss zwischen den Dimensionen zu mildern. Darüber hinaus ist ReFeed robust gegenüber verrauschtem Feedback und der Reihenfolge des Feedbacks. Schließlich unterstreicht unsere Erkenntnis, dass die Erstellung von Daten mit einem angemessenen Ziel und Leitfaden eine grundlegende Säule für effektives Denken darstellt. Der Datensatz und das Modell werden veröffentlicht.
Jüngste Fortschritte in der sprachgesteuerten Erzeugung von 3D-Sprechköpfen haben bedeutende Fortschritte bei der Lippensynchronisation erzielt. Dennoch haben bestehende Modelle weiterhin Schwierigkeiten, die wahrnehmungsbezogene Übereinstimmung zwischen variierenden Sprachmerkmalen und den entsprechenden Lippenbewegungen zu erfassen. In dieser Arbeit behaupten wir, dass drei Kriterien – zeitliche Synchronisation, Lippenerkennbarkeit und Ausdrucksstärke – entscheidend für die Erzielung wahrnehmungsgenauer Lippenbewegungen sind. Motiviert durch unsere Hypothese, dass ein wünschenswerter Repräsentationsraum existiert, der diese drei Kriterien erfüllt, führen wir eine sprach-mesh-synchronisierte Repräsentation ein, die komplexe Korrespondenzen zwischen Sprachsignalen und 3D-Gesichtsnetzen erfasst. Wir fanden heraus, dass unsere gelernte Repräsentation wünschenswerte Eigenschaften aufweist, und integrieren sie als wahrnehmungsbezogenen Verlust in bestehende Modelle, um Lippenbewegungen besser an die gegebene Sprache anzupassen. Darüber hinaus nutzen wir diese Repräsentation als wahrnehmungsbezogene Metrik und führen zwei weitere physikalisch fundierte Metriken zur Lippensynchronisation ein, um zu bewerten, wie gut die erzeugten 3D-Sprechköpfe mit diesen drei Kriterien übereinstimmen. Experimente zeigen, dass das Training von Modellen zur Erzeugung von 3D-Sprechköpfen mit unserem wahrnehmungsbezogenen Verlust alle drei Aspekte der wahrnehmungsgenauen Lippensynchronisation signifikant verbessert. Codes und Datensätze sind verfügbar unter https://perceptual-3d-talking-head.github.io/.
Wir präsentieren Free4D, ein neuartiges, abstimmungsfreies Framework für die 4D-Szenengenerierung aus einem einzelnen Bild. Bestehende Methoden konzentrieren sich entweder auf die Objektebene, was die Szenengenerierung unmöglich macht, oder sie verlassen sich auf groß angelegte Multi-View-Videodatensätze für aufwändiges Training, wobei die Generalisierungsfähigkeit aufgrund der Knappheit von 4D-Szenendaten begrenzt ist. Im Gegensatz dazu besteht unser zentraler Ansatz darin, vortrainierte Foundation-Modelle für eine konsistente 4D-Szenendarstellung zu destillieren, was vielversprechende Vorteile wie Effizienz und Generalisierbarkeit bietet. 1) Um dies zu erreichen, animieren wir zunächst das Eingabebild mithilfe von Bild-zu-Video-Diffusionsmodellen, gefolgt von einer 4D-geometrischen Strukturinitialisierung. 2) Um diese grobe Struktur in räumlich-zeitlich konsistente Multiview-Videos umzuwandeln, entwickeln wir einen adaptiven Leitmechanismus mit einer punktgesteuerten Denoising-Strategie für räumliche Konsistenz und eine neuartige latente Ersetzungsstrategie für zeitliche Kohärenz. 3) Um diese generierten Beobachtungen in eine konsistente 4D-Darstellung zu überführen, schlagen wir eine modulationsbasierte Verfeinerung vor, um Inkonsistenzen zu mildern und gleichzeitig die generierten Informationen vollständig zu nutzen. Die resultierende 4D-Darstellung ermöglicht eine echtzeitfähige, steuerbare Darstellung und markiert einen bedeutenden Fortschritt in der 4D-Szenengenerierung basierend auf einem einzelnen Bild.
Vision Transformers (ViTs) haben bemerkenswerte Leistung und Skalierbarkeit bei verschiedenen Computer-Vision-Aufgaben gezeigt. Um einstufige ViTs für die Bildsegmentierung anzuwenden, nutzen bestehende Methoden einen konvolutionalen Adapter, um mehrstufige Merkmale zu erzeugen, einen Pixel-Decoder, um diese Merkmale zu fusionieren, und einen Transformer-Decoder, der die fusionierten Merkmale für Vorhersagen verwendet. In diesem Artikel zeigen wir, dass die induktiven Verzerrungen, die durch diese aufgaben spezifischen Komponenten eingeführt werden, stattdessen vom ViT selbst gelernt werden können, vorausgesetzt, es werden ausreichend große Modelle und umfangreiches Pre-Training verwendet. Basierend auf diesen Erkenntnissen stellen wir den Encoder-only Mask Transformer (EoMT) vor, der die einfache ViT-Architektur für die Bildsegmentierung nutzt. Mit großskaligen Modellen und Pre-Training erreicht EoMT eine Segmentierungsgenauigkeit, die vergleichbar ist mit state-of-the-art Modellen, die aufgaben spezifische Komponenten verwenden. Gleichzeitig ist EoMT aufgrund seiner architektonischen Einfachheit deutlich schneller als diese Methoden, z.B. bis zu 4x schneller mit ViT-L. Über eine Reihe von Modellgrößen hinweg zeigt EoMT ein optimales Gleichgewicht zwischen Segmentierungsgenauigkeit und Vorhersagegeschwindigkeit, was darauf hindeutet, dass Rechenressourcen besser für die Skalierung des ViT selbst verwendet werden sollten, anstatt architektonische Komplexität hinzuzufügen. Code: https://www.tue-mps.org/eomt/.
Wir stellen PHYSICS vor, einen umfassenden Benchmark für die Lösung von Physikproblemen auf Universitätsniveau. Er umfasst 1297 von Experten annotierte Probleme aus sechs Kernbereichen: klassische Mechanik, Quantenmechanik, Thermodynamik und statistische Mechanik, Elektromagnetismus, Atomphysik und Optik. Jedes Problem erfordert fortgeschrittenes physikalisches Wissen und mathematisches Denken. Wir entwickeln ein robustes automatisiertes Bewertungssystem für eine präzise und zuverlässige Validierung. Unsere Bewertung führender Basismodelle zeigt erhebliche Einschränkungen auf. Selbst das fortschrittlichste Modell, o3-mini, erreicht nur eine Genauigkeit von 59,9 %, was die erheblichen Herausforderungen bei der Lösung hochwissenschaftlicher Probleme verdeutlicht. Durch eine umfassende Fehleranalyse, die Erforschung verschiedener Prompting-Strategien und die wissensbasierte Erweiterung mittels Retrieval-Augmented Generation (RAG) identifizieren wir Schlüsselbereiche für Verbesserungen und legen die Grundlage für zukünftige Fortschritte.
Die Segmentierung bewegter Objekte ist eine entscheidende Aufgabe, um ein tiefgreifendes Verständnis visueller Szenen zu erreichen, und hat zahlreiche nachgelagerte Anwendungen. Menschen können bewegte Objekte in Videos mühelos segmentieren. Bisherige Arbeiten haben sich weitgehend auf optischen Fluss verlassen, um Bewegungshinweise zu liefern; dieser Ansatz führt jedoch oft zu unvollkommenen Vorhersagen aufgrund von Herausforderungen wie Teilbewegungen, komplexen Verformungen, Bewegungsunschärfe und Hintergrundablenkungen. Wir schlagen einen neuartigen Ansatz für die Segmentierung bewegter Objekte vor, der langreichweitige Trajektorien-Bewegungshinweise mit DINO-basierten semantischen Merkmalen kombiniert und SAM2 für die pixelgenaue Maskenverdichtung durch eine iterative Prompting-Strategie nutzt. Unser Modell verwendet räumlich-zeitliche Trajektorien-Aufmerksamkeit und eine entkoppelte Einbettung von Bewegung und Semantik, um Bewegung zu priorisieren und gleichzeitig semantische Unterstützung zu integrieren. Umfangreiche Tests auf verschiedenen Datensätzen demonstrieren state-of-the-art Leistung, insbesondere in anspruchsvollen Szenarien und bei der feinkörnigen Segmentierung mehrerer Objekte. Unser Code ist verfügbar unter https://motion-seg.github.io/.
Kürzlich hat die Multi-View- oder 4D-Videogenerierung als bedeutendes Forschungsthema an Bedeutung gewonnen. Dennoch kämpfen aktuelle Ansätze zur 4D-Generierung weiterhin mit grundlegenden Einschränkungen, da sie hauptsächlich auf die Nutzung mehrerer Video-Diffusionsmodelle mit zusätzlichem Training oder auf rechenintensives Training eines vollständigen 4D-Diffusionsmodells mit begrenzten realen 4D-Daten und hohen Rechenkosten angewiesen sind. Um diese Herausforderungen zu bewältigen, schlagen wir hier die erste trainingsfreie Methode zur 4D-Videogenerierung vor, die auf verfügbare Video-Diffusionsmodelle zurückgreift, um Multi-View-Videos aus einem einzelnen Eingabevideo zu generieren. Unser Ansatz besteht aus zwei zentralen Schritten: (1) Indem wir die Randbilder im raum-zeitlichen Abtastgitter als Schlüsselbilder festlegen, synthetisieren wir diese zunächst mithilfe eines Video-Diffusionsmodells unter Verwendung einer tiefenbasierten Warping-Technik zur Führung. Dieser Ansatz gewährleistet strukturelle Konsistenz über die generierten Bilder hinweg und bewahrt räumliche und zeitliche Kohärenz. (2) Anschließend interpolieren wir die verbleibenden Bilder mithilfe eines Video-Diffusionsmodells, wodurch ein vollständig gefülltes und zeitlich kohärentes Abtastgitter konstruiert wird, während räumliche und zeitliche Konsistenz erhalten bleibt. Durch diesen Ansatz erweitern wir ein einzelnes Video entlang neuartiger Kameratrajektorien zu einem Multi-View-Video, wobei die raum-zeitliche Konsistenz gewahrt bleibt. Unsere Methode ist trainingsfrei und nutzt ein verfügbares Video-Diffusionsmodell vollständig aus, wodurch sie eine praktische und effektive Lösung für die Multi-View-Videogenerierung bietet.
Motiviert durch ihre Relevanz für das Training mit niedriger Präzision und Quantisierung, sind massive Aktivierungen in großen Sprachmodellen (LLMs) kürzlich zu einem Thema von Interesse geworden. Bestehende Analysen sind jedoch in ihrem Umfang begrenzt, und die Verallgemeinerbarkeit über verschiedene Architekturen hinweg ist unklar. Diese Arbeit trägt dazu bei, einige dieser Lücken zu schließen, indem sie eine Analyse von massiven Aktivierungen über eine breite Palette von LLMs durchführt, einschließlich sowohl GLU-basierter als auch nicht-GLU-basierter Architekturen. Unsere Ergebnisse stellen mehrere bisherige Annahmen in Frage, insbesondere: (1) Nicht alle massiven Aktivierungen sind schädlich, d.h. ihre Unterdrückung führt nicht zu einem Anstieg der Perplexität oder einem Einbruch der Leistung bei nachgelagerten Aufgaben; (2) Vorgeschlagene Minderungsstrategien wie Attention-KV-Bias sind modellspezifisch und in bestimmten Fällen unwirksam. Folglich untersuchen wir neuartige hybride Minderungsstrategien; insbesondere das Kombinieren von Target Variance Rescaling (TVR) mit Attention-KV-Bias oder Dynamic Tanh (DyT) gelingt es, die Minderung von massiven Aktivierungen mit der Beibehaltung der Modellleistung bei nachgelagerten Aufgaben in den von uns untersuchten Szenarien erfolgreich auszubalancieren. Unser Code ist verfügbar unter: https://github.com/bluorion-com/refine_massive_activations.
Mit der zunehmenden Nachfrage nach hochauflösenden 3D-Modellen aus 2D-Bildern stehen bestehende Methoden weiterhin vor erheblichen Herausforderungen bei der präzisen Reproduktion feingliedriger geometrischer Details, bedingt durch Domänenlücken und inhärente Mehrdeutigkeiten in RGB-Bildern. Um diese Probleme zu lösen, schlagen wir Hi3DGen vor, ein neuartiges Framework zur Erzeugung hochauflösender 3D-Geometrie aus Bildern über Normalenbrücken. Hi3DGen besteht aus drei Schlüsselkomponenten: (1) einem Bild-zu-Normalen-Schätzer, der nieder- und hochfrequente Bildmuster durch Rauschinjektion und Dual-Stream-Training entkoppelt, um generalisierbare, stabile und scharfe Schätzungen zu erreichen; (2) einem Normalen-zu-Geometrie-Lernansatz, der normalenreguliertes latentes Diffusionslernen verwendet, um die Fidelität der 3D-Geometrieerzeugung zu verbessern; und (3) einer 3D-Datensynthese-Pipeline, die einen hochwertigen Datensatz zur Unterstützung des Trainings erstellt. Umfangreiche Experimente demonstrieren die Effektivität und Überlegenheit unseres Frameworks bei der Erzeugung reichhaltiger geometrischer Details, wobei es state-of-the-art-Methoden in Bezug auf die Fidelität übertrifft. Unsere Arbeit bietet eine neue Richtung für die hochauflösende 3D-Geometrieerzeugung aus Bildern, indem Normalenmaps als Zwischenrepräsentation genutzt werden.
In diesem Artikel stellen wir eine Methode zur Rekonstruktion von 3D-Menschen aus einem einzelnen Bild unter Verwendung eines biomechanisch präzisen Skelettmodells vor. Um dies zu erreichen, trainieren wir einen Transformer, der ein Bild als Eingabe verwendet und die Parameter des Modells schätzt. Aufgrund des Mangels an Trainingsdaten für diese Aufgabe entwickeln wir eine Pipeline, um pseudo-Ground-Truth-Modellparameter für einzelne Bilder zu erzeugen, und implementieren ein Trainingsverfahren, das diese Pseudo-Labels iterativ verfeinert. Im Vergleich zu state-of-the-art Methoden zur Wiederherstellung von 3D-Menschmodellen erzielt unser Modell eine wettbewerbsfähige Leistung auf Standard-Benchmarks, während es in Szenarien mit extremen 3D-Posen und Blickwinkeln deutlich besser abschneidet. Zusätzlich zeigen wir, dass frühere Rekonstruktionsmethoden häufig Gelenkwinkelgrenzen verletzen, was zu unnatürlichen Rotationen führt. Im Gegensatz dazu nutzt unser Ansatz die biomechanisch plausiblen Freiheitsgrade, um realistischere Gelenkrotationsschätzungen zu ermöglichen. Wir validieren unseren Ansatz über mehrere Benchmarks zur menschlichen Pose-Schätzung. Den Code, die Modelle und die Daten stellen wir unter https://isshikihugh.github.io/HSMR/ zur Verfügung.
Die Erstellung hochauflösender 3D-Meshes mit beliebiger Topologie, einschließlich offener Oberflächen und komplexer Innenräume, bleibt eine große Herausforderung. Bestehende Methoden, die auf impliziten Feldern basieren, erfordern oft kostspielige und detailmindernde wasserdichte Konvertierungen, während andere Ansätze mit hohen Auflösungen zu kämpfen haben. Dieses Papier stellt SparseFlex vor, eine neuartige, spärlich strukturierte Isoflächen-Darstellung, die eine differenzierbare Mesh-Rekonstruktion mit Auflösungen von bis zu 1024^3 direkt aus Rendering-Verlusten ermöglicht. SparseFlex kombiniert die Genauigkeit von Flexicubes mit einer spärlichen Voxel-Struktur, konzentriert die Berechnung auf oberflächennahe Regionen und behandelt offene Oberflächen effizient. Entscheidend ist, dass wir eine frustum-bewusste, sektionale Voxel-Trainingsstrategie einführen, die nur relevante Voxel während des Renderings aktiviert, was den Speicherverbrauch drastisch reduziert und ein Training mit hoher Auflösung ermöglicht. Dies erlaubt erstmals die Rekonstruktion von Mesh-Innenräumen allein durch Rendering-Aufsicht. Darauf aufbauend demonstrieren wir einen vollständigen Shape-Modellierungspipeline, indem wir ein Variational Autoencoder (VAE) und einen Rectified Flow Transformer für die Erzeugung hochwertiger 3D-Formen trainieren. Unsere Experimente zeigen eine state-of-the-art Rekonstruktionsgenauigkeit, mit einer ~82%igen Reduktion der Chamfer-Distanz und einer ~88%igen Steigerung des F-Scores im Vergleich zu früheren Methoden, und demonstrieren die Erzeugung hochauflösender, detaillierter 3D-Formen mit beliebiger Topologie. Durch die Ermöglichung einer hochauflösenden, differenzierbaren Mesh-Rekonstruktion und -Erzeugung mit Rendering-Verlusten setzt SparseFlex einen bedeutenden Fortschritt im State-of-the-Art der 3D-Formdarstellung und -modellierung.
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten im Verständnis von 2D-Bildern und -Videos gezeigt. Es gibt jedoch keine öffentlich standardisierten Benchmarks, um die Fähigkeiten von MLLMs im Verständnis von 4D-Objekten (3D-Objekte mit zeitlicher Entwicklung) zu bewerten. In diesem Artikel stellen wir 4D-Bench vor, den ersten Benchmark zur Bewertung der Fähigkeiten von MLLMs im 4D-Objektverständnis, der Aufgaben in 4D-Objekt-Fragebeantwortung (4D-Objekt-QA) und 4D-Objekt-Beschreibung umfasst. 4D-Bench bietet 4D-Objekte mit diversen Kategorien, hochwertigen Annotationen und Aufgaben, die ein multi-view räumlich-zeitliches Verständnis erfordern, was sich von bestehenden 2D-Bild-/Video-basierten Benchmarks unterscheidet. Mit 4D-Bench evaluieren wir eine breite Palette von Open-Source- und Closed-Source-MLLMs. Die Ergebnisse des 4D-Objekt-Beschreibungsexperiments zeigen, dass MLLMs im Allgemeinen ein schwächeres zeitliches Verständnis im Vergleich zu ihrem Erscheinungsverständnis aufweisen. Bemerkenswerterweise nähern sich Open-Source-Modelle der Leistung von Closed-Source-Modellen im Erscheinungsverständnis, zeigen jedoch größere Leistungslücken im zeitlichen Verständnis. Die 4D-Objekt-QA liefert überraschende Erkenntnisse: Selbst mit einfachen Einzelobjekt-Videos schneiden MLLMs schlecht ab, wobei das state-of-the-art-Modell GPT-4o nur eine Genauigkeit von 63\% im Vergleich zur menschlichen Baseline von 91\% erreicht. Diese Ergebnisse verdeutlichen eine erhebliche Lücke im 4D-Objektverständnis und den Bedarf für weitere Fortschritte bei MLLMs.
Die Entwicklung zuverlässiger KI-Systeme zur Unterstützung von Humanmedizinern bei der multimodalen medizinischen Diagnose ist seit langem ein zentrales Ziel für Forscher. In jüngster Zeit haben Multimodale Large Language Models (MLLMs) erhebliche Aufmerksamkeit erregt und Erfolge in verschiedenen Domänen erzielt. Mit ihren starken Fähigkeiten zur logischen Schlussfolgerung und der Möglichkeit, diverse Aufgaben basierend auf Benutzeranweisungen auszuführen, bergen sie großes Potenzial zur Verbesserung der medizinischen Diagnostik. Die direkte Anwendung von MLLMs im medizinischen Bereich stellt jedoch nach wie vor Herausforderungen dar. Ihnen fehlt eine detaillierte Wahrnehmung visueller Eingaben, was ihre Fähigkeit zur quantitativen Bildanalyse einschränkt, die für medizinische Diagnosen entscheidend ist. Darüber hinaus zeigen MLLMs häufig Halluzinationen und Inkonsistenzen in der Argumentation, während klinische Diagnosen strikt an etablierte Kriterien gebunden sein müssen. Um diese Herausforderungen zu bewältigen, schlagen wir MedAgent-Pro vor, ein evidenzbasiertes, agentenbasiertes System, das darauf abzielt, zuverlässige, erklärbare und präzise medizinische Diagnosen zu erzielen. Dies wird durch einen hierarchischen Workflow erreicht: Auf der Aufgabenebene generiert wissensbasierte Argumentation zuverlässige Diagnosepläne für spezifische Krankheiten gemäß abgerufener klinischer Kriterien. Auf der Fallverarbeitungsebene verarbeiten mehrere Tool-Agenten multimodale Eingaben, analysieren verschiedene Indikatoren gemäß dem Plan und liefern eine endgültige Diagnose basierend auf quantitativen und qualitativen Beweisen. Umfassende Experimente sowohl zu 2D- als auch zu 3D-Diagnoseaufgaben demonstrieren die Überlegenheit und Effektivität von MedAgent-Pro, während Fallstudien zusätzlich seine Zuverlässigkeit und Interpretierbarkeit hervorheben. Der Code ist verfügbar unter https://github.com/jinlab-imvr/MedAgent-Pro.
Die traditionelle Bildklassifizierung erfordert eine vordefinierte Liste semantischer Kategorien. Im Gegensatz dazu können Large Multimodal Models (LMMs) diese Anforderung umgehen, indem sie Bilder direkt mithilfe natürlicher Sprache klassifizieren (z. B. durch die Beantwortung der Aufforderung „Was ist das Hauptobjekt im Bild?“). Trotz dieser bemerkenswerten Fähigkeit sind die meisten bestehenden Studien zur Klassifizierungsleistung von LMMs überraschend begrenzt in ihrem Umfang und gehen oft von einer geschlossenen Welt mit einem vordefinierten Satz von Kategorien aus. In dieser Arbeit schließen wir diese Lücke, indem wir die Klassifizierungsleistung von LMMs in einer wirklich offenen Welt gründlich evaluieren. Wir formalisieren zunächst die Aufgabe und führen ein Evaluationsprotokoll ein, das verschiedene Metriken definiert, um die Übereinstimmung zwischen vorhergesagten und tatsächlichen Klassen zu bewerten. Anschließend evaluieren wir 13 Modelle über 10 Benchmarks hinweg, die prototypische, nicht-prototypische, fein abgestufte und sehr fein abgestufte Klassen umfassen, und demonstrieren die Herausforderungen, denen LMMs bei dieser Aufgabe gegenüberstehen. Weitere Analysen auf Basis der vorgeschlagenen Metriken zeigen die Arten von Fehlern, die LMMs machen, und heben Herausforderungen in Bezug auf Granularität und fein abgestufte Fähigkeiten hervor, wobei sie zeigen, wie maßgeschneiderte Aufforderungen und logisches Denken diese lindern können.
KI für Softwareentwicklung hat in letzter Zeit bemerkenswerte Fortschritte gemacht und sich zu einem beachtlichen Erfolg innerhalb der generativen KI entwickelt. Dennoch gibt es noch viele Herausforderungen, die bewältigt werden müssen, bevor die automatisierte Softwareentwicklung ihr volles Potenzial erreicht. Es sollte möglich sein, ein hohes Maß an Automatisierung zu erreichen, bei dem sich Menschen auf die kritischen Entscheidungen darüber konzentrieren können, was gebaut werden soll und wie schwierige Abwägungen ausbalanciert werden können, während der größte Teil der routinemäßigen Entwicklungsarbeit automatisiert wird. Das Erreichen dieses Automatisierungsniveaus wird erhebliche Forschungs- und Entwicklungsanstrengungen sowohl in der Wissenschaft als auch in der Industrie erfordern. In diesem Artikel streben wir an, den Fortschritt in dieser Hinsicht dreifach zu diskutieren. Zunächst bieten wir eine strukturierte Taxonomie konkreter Aufgaben in der KI für Softwareentwicklung, wobei wir die vielen anderen Aufgaben in der Softwareentwicklung jenseits der Codegenerierung und -vervollständigung betonen. Zweitens skizzieren wir mehrere Schlüsselengpässe, die aktuelle Ansätze begrenzen. Schließlich stellen wir eine subjektive Liste vielversprechender Forschungsrichtungen vor, um Fortschritte bei diesen Engpässen zu erzielen, in der Hoffnung, zukünftige Forschungen in diesem sich schnell entwickelnden Bereich zu inspirieren.
Die vierdimensionale Computertomographie-Rekonstruktion (4D-CT) ist entscheidend für die Erfassung dynamischer anatomischer Veränderungen, stößt jedoch aufgrund konventioneller Phasen-Binning-Workflows auf inhärente Grenzen. Aktuelle Methoden diskretisieren die zeitliche Auflösung in feste Phasen mit Atemgating-Geräten, was zu Bewegungsfehlausrichtungen führt und die klinische Praktikabilität einschränkt. In diesem Artikel stellen wir X^2-Gaussian vor, ein neuartiges Framework, das die kontinuierliche 4D-CT-Rekonstruktion ermöglicht, indem es dynamisches radiatives Gaussian Splatting mit selbstüberwachtem Atembewegungslernen integriert. Unser Ansatz modelliert anatomische Dynamiken durch eine raumzeitliche Encoder-Decoder-Architektur, die zeitlich variierende Gaußsche Verformungen vorhersagt und damit die Phasendiskretisierung eliminiert. Um die Abhängigkeit von externen Gating-Geräten zu beseitigen, führen wir einen physiologiegesteuerten periodischen Konsistenzverlust ein, der patientenspezifische Atemzyklen direkt aus Projektionen über differenzierbare Optimierung lernt. Umfangreiche Experimente demonstrieren state-of-the-art Leistung, mit einem PSNR-Gewinn von 9,93 dB gegenüber traditionellen Methoden und einer Verbesserung von 2,25 dB im Vergleich zu früheren Gaussian-Splatting-Techniken. Durch die Vereinigung kontinuierlicher Bewegungsmodellierung mit hardwarefreiem Periodenlernen erweitert X^2-Gaussian die hochauflösende 4D-CT-Rekonstruktion für die dynamische klinische Bildgebung. Projektwebsite unter: https://x2-gaussian.github.io/.
Absicht, in der Regel klar formuliert und geplant, fungiert als kognitiver Rahmen für das Denken und Problemlösen. Diese Arbeit führt das Konzept des „Sprechens mit Absicht“ (Speaking with Intent, SWI) in großen Sprachmodellen (Large Language Models, LLMs) ein, wobei die explizit generierte Absicht die zugrunde liegende Intention des Modells verkörpert und eine übergeordnete Planung bietet, um nachfolgende Analysen und Kommunikation zu steuern. Durch die Nachahmung bewusster und zielgerichteter Gedanken im menschlichen Geist wird vermutet, dass SWI die Denkfähigkeiten und die Generierungsqualität von LLMs verbessert. Umfangreiche Experimente auf mathematischen Denkbenchmarks zeigen durchgängig die Überlegenheit von „Sprechen mit Absicht“ gegenüber der Baseline (d. h. Generierung ohne explizite Absicht). Darüber hinaus übertrifft SWI die Antwort-Trigger-Prompting-Methoden Chain-of-Thought und Plan-and-Solve und hält mit der starken Methode ARR (Analyzing, Retrieving, and Reasoning) Schritt. Zusätzlich wird die Wirksamkeit und Generalisierbarkeit von SWI auf reasoning-intensiven Frage-Antwort-(QA)- und Textzusammenfassungs-Benchmarks bestätigt, wo SWI eine konsistente Verbesserung gegenüber der Baseline-Generierung bringt. Bei der Textzusammenfassung weisen SWI-generierte Zusammenfassungen eine höhere Genauigkeit, Prägnanz und faktische Korrektheit auf, mit weniger Halluzinationen. Darüber hinaus bestätigen menschliche Bewertungen die Kohärenz, Wirksamkeit und Interpretierbarkeit der von SWI erzeugten Absicht. Diese Machbarkeitsstudie eröffnet einen neuen Weg zur Verbesserung der Denkfähigkeiten von LLMs durch kognitive Konzepte.