Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In großen Vision-Language-Modellen (LVLMs) dienen Bilder als Eingaben, die eine Fülle von Informationen enthalten. Wie das Sprichwort "Ein Bild sagt mehr als tausend Worte" andeutet, kann die Darstellung eines einzelnen Bildes in aktuellen LVLMs Hunderte oder sogar Tausende von Tokens erfordern. Dies führt zu erheblichen Rechenkosten, die sich quadratisch erhöhen, wenn die Eingangsauflösung des Bildes zunimmt, was die Effizienz sowohl des Trainings als auch der Inferenz erheblich beeinträchtigt. Frühere Ansätze haben versucht, die Anzahl der Bildtokens entweder vor oder innerhalb der frühen Schichten von LVLMs zu reduzieren. Diese Strategien führen jedoch zwangsläufig zum Verlust wichtiger Bildinformationen, was letztendlich die Modellleistung beeinträchtigt. Um diese Herausforderung anzugehen, führen wir eine empirische Studie durch, die zeigt, dass alle visuellen Tokens für LVLMs in den oberflächlichen Schichten notwendig sind und die Token-Redundanz in den tieferen Schichten des Modells zunehmend ansteigt. Zu diesem Zweck schlagen wir PyramidDrop vor, eine Strategie zur Reduzierung visueller Redundanz für LVLMs, um ihre Effizienz sowohl beim Training als auch bei der Inferenz mit vernachlässigbarem Leistungsverlust zu steigern. Konkret unterteilen wir das LVLM in mehrere Stufen und lassen am Ende jeder Stufe einen Teil der Bildtokens mit einem vordefinierten Verhältnis fallen, wodurch pyramidenartige visuelle Tokens über Modellschichten hinweg entstehen. Das Fallenlassen basiert auf einer leichten Ähnlichkeitsberechnung mit einem vernachlässigbaren zeitlichen Overhead. Umfangreiche Experimente zeigen, dass PyramidDrop eine Beschleunigung der Trainingszeit um 40 % und der Inferenz-FLOPs um 55 % von LLaVA-NeXT mit vergleichbarer Leistung erreichen kann. Darüber hinaus könnte PyramidDrop auch als Plug-and-Play-Strategie für die Beschleunigung der Inferenz ohne Training dienen, mit besserer Leistung und geringeren Inferenzkosten als vergleichbare Ansätze. Wir hoffen, dass die Erkenntnisse und der Ansatz, die durch PyramidDrop eingeführt wurden, zukünftige Forschungen dazu inspirieren werden, die Rolle von Bildtokens in LVLMs weiter zu untersuchen.
Wir präsentieren SpectroMotion, einen neuartigen Ansatz, der 3D-Gauß-Splatting (3DGS) mit physikalisch basierter Rendering (PBR) und Deformationsfeldern kombiniert, um dynamische spektrale Szenen zu rekonstruieren. Frühere Methoden, die 3DGS erweiterten, um dynamische Szenen zu modellieren, hatten Schwierigkeiten, spektrale Oberflächen genau darzustellen. Unser Ansatz behebt diese Einschränkung, indem er eine Restkorrektur-Technik zur genauen Berechnung der Oberflächennormalen während der Deformation einführt, ergänzt durch eine verformbare Umgebungskarte, die sich an zeitlich variierende Beleuchtungsbedingungen anpasst. Wir implementieren eine Grob-zu-Fein-Trainingsstrategie, die sowohl die Szenengeometrie als auch die Vorhersage der spekularen Farbe signifikant verbessert. Wir zeigen, dass unser Modell frühere Methoden bei der Ansichtssynthese von Szenen mit dynamischen spekularen Objekten übertrifft und dass es die einzige bestehende 3DGS-Methode ist, die in der Lage ist, fotorealistische dynamische spektrale Szenen aus der realen Welt zu synthetisieren und dabei modernste Methoden bei der Darstellung komplexer, dynamischer und spektraler Szenen übertrifft.
Ketten-Denken (CoT) in Sprachmodellen für die Bildverarbeitung (VLMs) ist entscheidend für die Verbesserung der Interpretierbarkeit und Vertrauenswürdigkeit. Allerdings fehlt es den aktuellen Trainingsansätzen an robusten CoT-Daten, da sie auf Datensätzen beruhen, die von kurzen Anmerkungen mit minimalen Begründungen dominiert werden. In dieser Arbeit zeigen wir, dass das Training von VLMs mit kurzen Antworten sich nicht gut auf Aufgaben des Denkens auswirkt, die detailliertere Antworten erfordern. Um dies zu lösen, schlagen wir einen zweigleisigen Ansatz vor. Zunächst extrahieren wir Begründungen aus dem GPT-4o-Modell, um die Trainingsdaten zu bereichern und die VLMs zu feinabstimmen, um ihre CoT-Leistung zu steigern. Zweitens wenden wir Verstärkendes Lernen an, um die Qualität des Denkens weiter zu kalibrieren. Konkret konstruieren wir positive (korrekte) und negative (inkorrekte) Paare von modellgenerierten Denk-Ketten, indem wir ihre Vorhersagen mit annotierten kurzen Antworten vergleichen. Unter Verwendung dieser paarweisen Daten wenden wir den Algorithmus der Direkten Präferenzoptimierung an, um die Denkfähigkeiten des Modells zu verfeinern. Unsere Experimente zeigen signifikante Verbesserungen im CoT-Denken auf Benchmark-Datensätzen und eine bessere Verallgemeinerung auch für die direkte Antwortvorhersage. Diese Arbeit betont die Bedeutung der Einbeziehung detaillierter Begründungen in das Training und die Nutzung von Verstärkendem Lernen, um die Denkfähigkeiten von VLMs zu stärken.
Die automatische Ausrichtung entwickelt Ausrichtungssysteme mit minimalem menschlichem Eingriff. Der Schlüssel zur automatischen Ausrichtung liegt darin, erlernbare und genaue Präferenzsignale für das Präferenzlernen ohne menschliche Annotation bereitzustellen. In diesem Papier stellen wir Self-Steering Optimization (SSO) vor, einen Algorithmus, der autonom hochwertige Präferenzsignale basierend auf vordefinierten Prinzipien während des iterativen Trainings generiert und somit auf manuelle Annotation verzichtet. SSO gewährleistet die Genauigkeit der Signale, indem ein konsistenter Unterschied zwischen ausgewählten und abgelehnten Antworten sichergestellt wird, während beide im Einklang mit dem aktuellen Richtlinienmodell bleiben, um dessen Lernkapazität zu unterstützen. SSO kann das Online- und Offline-Training des Richtlinienmodells sowie das Training von Belohnungsmodellen verbessern. Wir validieren die Wirksamkeit von SSO anhand von zwei Grundlagenmodellen, Qwen2 und Llama3.1, was darauf hindeutet, dass es genaue, im Einklang mit der Richtlinie stehende Präferenzsignale während des iterativen Trainings liefert. Ohne manuelle Annotation oder externe Modelle führt SSO zu signifikanten Leistungsverbesserungen über sechs subjektive oder objektive Benchmarks hinweg. Darüber hinaus verbesserten die von SSO generierten Präferenzdaten signifikant die Leistung des Belohnungsmodells auf Rewardbench. Unsere Arbeit präsentiert einen skalierbaren Ansatz zur Präferenzoptimierung und ebnet den Weg für eine effizientere und effektivere automatische Ausrichtung.
Wir präsentieren xGen-MM-Vid (BLIP-3-Video): ein multimodales Sprachmodell für Videos, das speziell darauf ausgelegt ist, zeitliche Informationen über mehrere Frames effizient zu erfassen. BLIP-3-Video nutzt den 'zeitlichen Encoder' zusätzlich zum herkömmlichen visuellen Tokenizer, der eine Sequenz von Tokens über mehrere Frames in eine kompakte Menge von visuellen Tokens abbildet. Dadurch kann BLIP3-Video wesentlich weniger visuelle Tokens verwenden als konkurrierende Modelle (z. B. 32 gegenüber 4608 Tokens). Wir untersuchen verschiedene Arten von zeitlichen Encodern, einschließlich erlernbarer spatio-temporaler Pooling-Methoden sowie sequenzieller Modelle wie Token Turing Machines. Experimentell bestätigen wir, dass BLIP-3-Video Frage-Antwort-Genauigkeiten bei Videos erreicht, die mit wesentlich größeren state-of-the-art-Modellen vergleichbar sind (z. B. 34B), während es kleiner (d. h. 4B) und effizienter ist, indem es weniger visuelle Tokens verwendet. Die Projektwebsite befindet sich unter https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html.
Aktuelle große Vision-Sprachmodelle (LVLMs) zeigen bemerkenswerte Fähigkeiten in Null-Shot-Konversation und Schlussfolgerung bei multimodalen Anfragen. Dennoch leiden sie unter Objekthalluzination, einem Phänomen, bei dem LVLMs dazu neigen, textuelle Antworten zu generieren, die nicht faktisch mit Bildinputs übereinstimmen. Unsere Pilotstudie zeigt, dass die Objekthalluzination eng mit Rotierender Positionsencoding (RoPE) verbunden ist, einem weit verbreiteten Modellierungsdesign für positionale Abhängigkeiten in bestehenden LVLMs. Aufgrund des langfristigen Verfalls in RoPE neigen LVLMs dazu, mehr zu halluzinieren, wenn relevante visuelle Hinweise von Anweisungstoken in der multimodalen Eingabesequenz entfernt sind. Darüber hinaus beobachten wir einen ähnlichen Effekt, wenn die sequenzielle Reihenfolge der visuellen Token während der multimodalen Ausrichtung umgekehrt wird. Unsere Tests deuten darauf hin, dass der langfristige Verfall in RoPE Herausforderungen für LVLMs darstellt, wenn es darum geht, visuell-anleitende Interaktionen über große Entfernungen zu erfassen. Wir schlagen Konzentrische Kausale Aufmerksamkeit (CCA) vor, eine einfache, aber effektive positionale Ausrichtungsstrategie, die die Auswirkungen des langfristigen Verfalls von RoPE in LVLMs durch eine natürliche Reduzierung des relativen Abstands zwischen visuellen und Anweisungstoken mildert. Mit CCA können visuelle Token besser mit Anweisungstoken interagieren, wodurch die Wahrnehmungsfähigkeit des Modells verbessert und die Objekthalluzination gelindert wird. Ohne Schnickschnack übertrifft unsere positionale Ausrichtungsmethode bestehende Halluzinationsminderungsstrategien bei mehreren Objekthalluzinations-Benchmarks deutlich.
Wissensvermittlung (KD) wird weit verbreitet eingesetzt, um kleine, leistungsstarke Sprachmodelle (LMs) zu trainieren, indem große Lehrer-LMs verwendet werden. Während KD beim Feintuning effektiv ist, sieht es sich während des Pre-Trainings mit Herausforderungen in Effizienz, Flexibilität und Effektivität konfrontiert. Bestehende Methoden verursachen entweder hohe Rechenkosten aufgrund von Online-Lehrer-Inferenz, erfordern Tokenisierungsübereinstimmung zwischen Lehrer- und Schüler-LMs oder riskieren den Verlust der Schwierigkeit und Vielfalt der vom Lehrer generierten Trainingsdaten. Um diese Probleme anzugehen, schlagen wir MiniPLM vor, ein KD-Framework für das Pre-Training von LMs, das die Verteilung der Trainingsdaten durch das Wissen des Lehrers verfeinert. Für Effizienz führt MiniPLM Offline-Lehrer-LM-Inferenz durch, was KD für mehrere Schüler-LMs ohne zusätzliche Trainingszeitkosten ermöglicht. Für Flexibilität arbeitet MiniPLM ausschließlich auf dem Trainingskorpus und ermöglicht KD über Modellfamilien hinweg. Für Effektivität nutzt MiniPLM die Unterschiede zwischen großen und kleinen LMs, um die Schwierigkeit und Vielfalt der Trainingsdaten zu erhöhen, was den Schüler-LMs hilft, vielseitiges und anspruchsvolles Wissen zu erlangen. Umfangreiche Experimente zeigen, dass MiniPLM die Leistung der Schüler-LMs in 9 weit verbreiteten nachgelagerten Aufgaben steigert, die Fähigkeiten des Sprachmodellierens verbessert und die Rechenleistung beim Pre-Training reduziert. Der Nutzen von MiniPLM erstreckt sich auf große Pre-Training-Skalen, wie durch die Extrapolation der Skalierungskurven belegt wird. Weitere Analysen zeigen, dass MiniPLM KD über Modellfamilien hinweg unterstützt und die Nutzung von Pre-Training-Daten verbessert. Unser Modell, Code und Daten sind unter https://github.com/thu-coai/MiniPLM verfügbar.
In einem komplexen KI-System sind Komponenten wie ein LLM-Aufruf, ein Retriever, ein Code-Interpreter oder Tools miteinander verbunden. Das Verhalten des Systems wird hauptsächlich durch Parameter wie Anweisungen oder Tool-Definitionen gesteuert. Durch jüngste Fortschritte ist eine End-to-End-Optimierung dieser Parameter mithilfe eines LLMs möglich. Insbesondere ist die Nutzung eines LLM als Optimierer besonders effizient, da sie die Berechnung des Gradienten vermeidet und komplexe Codes und Anweisungen generieren kann. Dieser Artikel präsentiert eine Übersicht über die Prinzipien und aufkommenden Trends in der LLM-basierten Optimierung von komplexen KI-Systemen. Er behandelt Archetypen von komplexen KI-Systemen, Ansätze zur end-to-end-Optimierung auf Basis von LLM und Einblicke in zukünftige Richtungen und breitere Auswirkungen. Diese Übersicht verwendet Konzepte aus der Programm-Analyse, um einen einheitlichen Blick darauf zu bieten, wie ein LLM-Optimierer dazu angeregt wird, ein komplexes KI-System zu optimieren. Die umfassende Liste des Artikels ist verfügbar unter https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
Die Beschleunigung der Forschung zu Large Multimodal Models (LMMs) in nicht-englischen Sprachen ist entscheidend, um die Benutzererfahrungen in breiteren Bevölkerungsgruppen zu verbessern. In diesem Artikel stellen wir JMMMU (Japanese MMMU) vor, den ersten groß angelegten japanischen Benchmark, der entwickelt wurde, um LMMs anhand von Expertenaufgaben im japanischen kulturellen Kontext zu bewerten. Zur Erleichterung einer umfassenden kulturbezogenen Bewertung umfasst JMMMU zwei ergänzende Teilmengen: (i) die kulturunabhängige (CA) Teilmengen, in der kulturunabhängige Themen (z. B. Mathematik) ausgewählt und ins Japanische übersetzt werden, um einen direkten Vergleich mit dem englischen Pendant MMMU zu ermöglichen; und (ii) die kulturspezifische (CS) Teilmengen, die neu erstellte Themen umfassen, die den japanischen kulturellen Kontext widerspiegeln. Unter Verwendung der CA-Teilmengen beobachten wir einen Leistungsabfall bei vielen LMMs, wenn sie auf Japanisch bewertet werden, der ausschließlich auf sprachliche Variation zurückzuführen ist. Unter Verwendung der CS-Teilmengen zeigen wir ihre unzureichende Kenntnis des japanischen kulturellen Kontexts auf. Darüber hinaus identifizieren wir durch die Kombination beider Teilmengen, dass einige LMMs in der CA-Teilmengen gut abschneiden, aber nicht in der CS-Teilmengen, was auf ein oberflächliches Verständnis der japanischen Sprache hinweist, das an kulturellem Verständnis fehlt. Wir hoffen, dass diese Arbeit nicht nur dazu beiträgt, die Leistung von LMMs auf Japanisch zu verbessern, sondern auch als Leitfaden für die Erstellung hochwertiger, kulturell vielfältiger Benchmarks für die Entwicklung mehrsprachiger LMMs dient. Die Projektseite ist https://mmmu-japanese-benchmark.github.io/JMMMU/.
Die hohen Rechenkosten großer Sprachmodelle (LLMs) haben zu einer Vielzahl von Forschungsarbeiten zur LLM-Kompression geführt, mittels Methoden wie Quantisierung, Sparsifikation oder strukturiertem Pruning. Eine neue Front in diesem Bereich wird durch dynamische, nicht-uniforme Kompressionsmethoden gebildet, die die Kompressionsniveaus (z.B. Sparsität) pro Block oder sogar pro Schicht anpassen, um den Genauigkeitsverlust zu minimieren, während ein globaler Kompressionsgrenzwert garantiert wird. Dennoch stützen sich aktuelle Methoden auf Heuristiken zur Identifizierung der "Bedeutsamkeit" einer bestimmten Schicht für den Verlust, basierend auf Annahmen wie der Fehlermonotonie, d.h. dass der End-to-End-Modellkompressionsfehler proportional zur Summe der schichtweisen Fehler ist. In diesem Paper überdenken wir diesen Bereich und schlagen einen neuen und allgemeinen Ansatz für dynamische Kompression vor, der in einem gegebenen Eingangsbereich nachweislich optimal ist. Wir beginnen mit der beobachteten Feststellung, dass die Fehlermonotonie im Allgemeinen nicht für LLMs gilt: Komprimierte Modelle mit einer geringeren Summe von schichtweisen Fehlern können schlechter abschneiden als Modelle mit höheren Fehler-Summen. Um dies zu lösen, schlagen wir einen neuen allgemeinen evolutionären Rahmen für die dynamische LLM-Kompression namens EvoPress vor, der nachweislich konvergiert und eine geringe Stichproben- und Evaluierungskomplexität aufweist. Wir zeigen, dass diese theoretischen Garantien zu einer hoch konkurrenzfähigen praktischen Leistung für die dynamische Kompression von Llama, Mistral und Phi-Modellen führen. Über EvoPress setzen wir neue Spitzenwerte für alle Kompressionsansätze: strukturelles Pruning (Block/Schicht-Entfernung), unstrukturierte Sparsität sowie Quantisierung mit dynamischen Bitbreiten. Unser Code ist verfügbar unter https://github.com/IST-DASLab/EvoPress.
Mathematisches Denken ist ein äußerst aktiver Bereich der Forschung zu Large Language Models (LLMs), da es ein Kennzeichen der künstlichen Intelligenz ist. Allerdings haben nur wenige Arbeiten untersucht, wie mathematisches Denken innerhalb der LLM-Parameter codiert ist und ob es sich um eine isolierbare Fähigkeit innerhalb eines Modells handelt. Dies zu tun könnte gezielte Interventionen ermöglichen, um die mathematische Leistung zu verbessern, ohne das nicht-mathematische Verhalten zu verändern, und das Verständnis dafür fördern, wie Modelle mathematisches Denken codieren. Wir stellen Mathematische Neurochirurgie (MathNeuro) vor, eine Methode zur Isolierung mathematischer Parameter in LLMs, die nur Vorwärtsdurchläufe verwendet. MathNeuro baut auf bestehenden Arbeiten auf, indem es Gewichte und Aktivierungen verwendet, um die Bedeutung der Parameter zu berechnen, isoliert jedoch mathematische Parameter, indem es jene entfernt, die wichtig für allgemeine Sprachaufgaben sind. Das Beschneiden der Parameter, das MathNeuro identifiziert, löscht die mathematische Denkfähigkeit eines LLMs, ohne seine allgemeine Sprachfähigkeit zu zerstören. Das Skalieren dieser Parameter um eine kleine Konstante verbessert die Leistung eines vortrainierten oder instruktionsangepassten LLMs um 4-17% auf GSM8K, während das nicht-mathematische Verhalten unverändert bleibt. MathNeuro ist auch dateneffizient: Der Großteil seiner Wirksamkeit bleibt bestehen, wenn mathematische spezifische Parameter anhand einer einzigen Probe identifiziert werden. MathNeuro verdeutlicht das Potenzial für zukünftige Arbeiten, auf mathematische spezifische Parameter einzuwirken.
Die Neuansichtssynthese zielt darauf ab, neue Ansichten einer Szene aus mehreren Eingabebildern oder -videos zu generieren, und jüngste Fortschritte wie das 3D-Gaußsche Splatting (3DGS) haben beachtlichen Erfolg bei der Erzeugung fotorealistischer Renderings mit effizienten Pipelines erzielt. Die Generierung hochwertiger neuer Ansichten unter anspruchsvollen Bedingungen, wie z.B. spärlichen Eingangsansichten, bleibt jedoch aufgrund unzureichender Informationen in unterabgetasteten Bereichen schwierig, was häufig zu sichtbaren Artefakten führt. Dieses Paper stellt 3DGS-Enhancer vor, eine neue Pipeline zur Verbesserung der Repräsentationsqualität von 3DGS-Darstellungen. Wir nutzen 2D-Video-Diffusionsprioritäten, um das herausfordernde Problem der 3D-Ansichtskonsistenz anzugehen, indem wir es als Erreichen einer zeitlichen Konsistenz innerhalb eines Videoerstellungsprozesses umformulieren. 3DGS-Enhancer stellt ansichtskonsistente latente Merkmale gerenderter neuer Ansichten wieder her und integriert sie mit den Eingangsansichten durch einen räumlich-zeitlichen Decoder. Die verbesserten Ansichten werden dann verwendet, um das anfängliche 3DGS-Modell feinabzustimmen und seine Rendering-Leistung signifikant zu verbessern. Umfangreiche Experimente an groß angelegten Datensätzen unbeschränkter Szenen zeigen, dass 3DGS-Enhancer im Vergleich zu State-of-the-Art-Methoden eine überlegene Rekonstruktionsleistung und hochwertige Rendering-Ergebnisse liefert. Die Projektwebseite ist https://xiliu8006.github.io/3DGS-Enhancer-project.
Die Koloskopie ist derzeit eine der sensibelsten Screening-Methoden für Darmkrebs. Diese Studie untersucht die Grenzen intelligenter Koloskopietechniken und deren potenzielle Auswirkungen auf multimodale medizinische Anwendungen. Zu diesem Zweck beginnen wir mit der Bewertung der aktuellen datenzentrierten und modellzentrierten Landschaften durch vier Aufgaben für die koloskopische Szenenwahrnehmung, einschließlich Klassifizierung, Detektion, Segmentierung und Vision-Sprachverständnis. Diese Bewertung ermöglicht es uns, domänenspezifische Herausforderungen zu identifizieren und zeigt auf, dass die multimodale Forschung in der Koloskopie weiterhin für weitere Explorationen offen ist. Um das kommende multimodale Zeitalter zu begrüßen, etablieren wir drei grundlegende Initiativen: einen groß angelegten multimodalen Instruktionsabstimmungsdatensatz ColonINST, ein koloskopie-entworfenes multimodales Sprachmodell ColonGPT und einen multimodalen Benchmark. Um die laufende Überwachung dieses sich schnell entwickelnden Feldes zu erleichtern, stellen wir eine öffentliche Website für die neuesten Updates zur Verfügung: https://github.com/ai4colonoscopy/IntelliScope.