ShutterMuse: Real-time fotografiebegeleiding met MLLM's

Samenvatting

Realistische fotografie vereist begeleiding tijdens het vastleggen voor zowel de camerakadrering als de houding van het onderwerp. Toch evalueren bestaande esthetische bijsnijdbenchmarks voornamelijk post-hoc bijsnijdvoorspellingen en zien ze aanbevelingen voor de onderwerpkant over het hoofd, waardoor de mogelijkheden van multimodale grote taalmodellen (MLLM's) voor begeleiding tijdens het vastleggen onderbelicht blijven. Om deze leemte aan te pakken introduceren we CaptureGuide-Bench, een benchmark met twee complementaire taken: compositiebeslissing en -verfijning aan de fotograafkant, en scène-afhankelijke pose-aanbeveling aan de onderwerpkant. Onze evaluatie toont beperkingen aan: algemeen bruikbare MLLM's kunnen compositiebeslissingen nemen, maar missen precieze verfijningslocalisatie, terwijl gespecialiseerde esthetische bijsnijdmodellen effectief bijsnijden lokaliseren, maar beperkt zijn tot verfijning; geen van beide biedt bruikbare pose-begeleiding. Ter ondersteuning van modelontwikkeling hebben we verder CaptureGuide-Dataset geconstrueerd, bestaande uit 130K monsters met tekstuele onderbouwing en gestructureerde visuele annotaties, en hebben we ShutterMuse ontwikkeld, een uniform MLLM getraind met begeleide en versterkingsverfijning. Experimenten op CaptureGuide-Bench tonen aan dat ShutterMuse de beste algehele prestatie aan de fotograafkant behaalt onder de geëvalueerde baselines en concurrerende pose-aanbeveling aan de onderwerpkant levert met aanzienlijk lagere inferentiekosten, wat het potentieel van MLLM's als interactieve assistenten voor fotografie tijdens het vastleggen aantoont.

English

Real-world photography requires capture-time guidance for both camera framing and subject pose. Yet existing aesthetic cropping benchmarks mainly evaluate post-hoc crop prediction and overlook subject-side recommendations, leaving the capture-time guidance capabilities of multimodal large language models (MLLMs) underexplored. To address this gap, we introduce CaptureGuide-Bench, a benchmark with two complementary tasks: photographer-side composition decision and refinement, and subject-side scene-conditioned pose recommendation. Our evaluation reveals limitations: general-purpose MLLMs can make composition decisions but lack precise refinement localization, while specialized aesthetic cropping models localize crops effectively but are limited to refinement; neither provides actionable pose guidance. To support model development, we further construct CaptureGuide-Dataset, comprising 130K samples with textual rationales and structured visual annotations, and develop ShutterMuse, a unified MLLM trained with supervised and reinforcement fine-tuning. Experiments on CaptureGuide-Bench show that ShutterMuse achieves the best overall photographer-side performance among evaluated baselines and competitive subject-side pose recommendation with substantially lower inference cost, demonstrating the potential of MLLMs as interactive assistants for photography during image capture.