번역이 포함된 일일 선별된 AI 연구 논문
보상 피드백 학습(ReFL)은 이미지 생성 모델을 인간의 선호도에 맞추는 데 효과적인 것으로 입증되었습니다. 그러나 이를 비디오 생성으로 확장하는 데는 상당한 어려움이 따릅니다. 기존의 비디오 보상 모델은 픽셀 공간 입력을 위해 설계된 시각-언어 모델에 의존하며, 이로 인해 ReFL 최적화는 계산 비용이 많이 드는 VAE 디코딩 이후인 디노이징(denoising) 과정의 후반부에만 국한됩니다. 이와 같은 픽셀 공간 접근법은 상당한 메모리 오버헤드와 더 긴 학습 시간을 초래하며, 후반부 최적화는 초기 단계의 supervision이 부족하여 근본적인 운동 역학이나 구조적 일관성보다는 시각적 품질만을 개선하게 됩니다. 본 연구에서는 사전 학습된 비디오 생성 모델이 임의의 타임스텝에서 노이즈가 포함된 잠재 표현을 처리하도록 명시적으로 설계되고 순차적 모델링 능력을 통해 시간적 정보를 내재적으로 보존하므로, 노이즈가 있는 잠재 공간에서 보상 모델링에 자연스럽게 적합함을 보여줍니다. 이에 따라 우리는 잠재 공간 전체에서 선호도 최적화를 수행하며 VAE 디코딩 없이 전체 디노이징 체인을 통해 효율적인 경사 역전파를 가능하게 하는 Process Reward Feedback Learning(PRFL) 프레임워크를 제안합니다. 광범위한 실험을 통해 PRFL이 인간의 선호도와의 일치성을 크게 향상시키면서도 RGB ReFL 대비 메모리 사용량과 학습 시간을 상당히 절감할 수 있음을 입증합니다.
현대 확산 모델은 고품질이고 다양한 이미지를 생성하는 데 뛰어나지만, 특히 사용자가 텍스트 프롬프트, 대상 참조, 공간 배치, 포즈 제약 조건, 레이아웃 주석 등을 동시에 지정하는 경우, 높은 정밀도의 구성적 및 다중 모드 제어에는 여전히 어려움을 겪습니다. 본 논문에서는 이러한 이질적인 제어 요소들을 단일 캔버스 인터페이스로 통합하여 사용자의 의도를 충실히 반영하는 이미지를 생성할 수 있도록 하는 통합 프레임워크인 Canvas-to-Image를 소개합니다. 우리의 핵심 아이디어는 다양한 제어 신호들을 모델이 통합된 시각-공간 추론을 위해 직접 해석할 수 있는 단일 복합 캔버스 이미지로 인코딩하는 것입니다. 또한 다중 작업 데이터 세트를 구축하고, 통합 학습 패러다임 내에서 확산 모델이 이질적인 제어 요소들을 이해하고 텍스트-이미지 생성에 통합하도록 최적화하는 Multi-Task Canvas Training 전략을 제안합니다. 이러한 공동 학습을 통해 Canvas-to-Image는 작업별 휴리스틱에 의존하기보다는 여러 제어 양식을 가로지르는 추론이 가능하며, 추론 과정에서 다중 제어 시나리오에 대해 우수한 일반화 성능을 보입니다. 광범위한 실험을 통해 Canvas-to-Image가 다중 인물 구성, 포즈 제어 구성, 레이아웃 제약 생성, 다중 제어 생성을 포함한 까다로운 벤치마크에서 정체성 보존과 제어 준수 측면에서 최첨단 방법들을 크게 능가함을 입증했습니다.
구체화된 인지 이론은 지능이 수동적 관찰이 아닌 감각-운동 상호작용에서 비롯된다고 주장합니다. 이는 주로 비구체화된 방식으로 훈련된 현대의 시각-언어 모델(VLM)이 구체화된 인지의 징후를 보이는지라는 흥미로운 질문을 제기합니다. 우리는 구체화된 인지 평가를 자기 중심적 상호작용에서의 세계 모델링으로 설정한 벤치마크인 ENACT를 소개합니다. 이는 시각 질의응답(VQA) 형식으로 구성됩니다. 행동이 장면 그래프 변화인 부분 관측 가능 마르코프 결정 과정(POMDP)으로 구성된 ENACT는 두 가지 상호 보완적인 순서 재배열 과제를 포함합니다: 순방향 세계 모델링(행동이 주어졌을 때 뒤섞인 관찰 순서 재배열)과 역방향 세계 모델링(관찰이 주어졌을 때 뒤섞인 행동 순서 재배열). 개념적으로 간단하지만, 이러한 과제를 해결하려면 구체화된 인지의 핵심 능력인 어포던스 인식, 행동-결과 추론, 구체화된 인식, 부분적으로 관측 가능한 자기 중심적 입력으로부터의 상호작용적 장기 기억이 암묵적으로 요구되며, 평가를 혼란시킬 수 있는 저수준 이미지 합성을 회피합니다. 우리는 로봇공학 시뮬레이션(BEHAVIOR)에서 QA 쌍을 합성하고 장기간에 걸친 가정 규모 활동을 아우르는 8,972개의 QA 쌍에 대해 모델을 평가하는 확장 가능한 파이프라인을 제공합니다. 실험 결과, 최첨단 VLM과 인간 간의 성능 차이가 상호작용 기간이 길어질수록 벌어지는 것으로 나타났습니다. 모델은 순방향 과제보다 역방향 과제에서 consistently 더 나은 성능을 보였으며, 오른손 선호 행동 및 카메라 내부 매개변수나 시점이 인간의 시각에서 벗어날 경우 성능 저하와 같은 인간 중심적 편향을 나타냈습니다. 웹사이트: https://enact-embodied-cognition.github.io/.
언어 이해는 언어적 입력의 표면적 의미를 추출하는 데 그치지 않고, 그것이 묘사하는 상황에 대한 풍부한 정신 모형을 구축하는 것을 포함합니다. 본고에서는 뇌의 핵심 언어 체계 내 처리 과정이 근본적으로 제한적이기 때문에, 언어를 깊이 있게 이해하려면 언어 체계에서 정보를 추출하여 지각 및 운동 표현을 계산하고, 정신 모형을 구축하며, 우리의 세계 지식과 자서전적 기억을 저장하는 뇌의 다른 영역으로 전송해야 한다고 제안합니다. 우리는 이 가설을 뒷받침하는 기존 증거들을 검토하고, 인지 신경과학의 최근 발전이 이를 직접 검증할 개념적 토대와 방법론을 제공함으로써 언어를 이해한다는 것이 인지적 및 신경적으로 무엇을 의미하는지를 밝혀내는 새로운 전략을 열어주었다고 주장합니다.
지시어 기반 이미지 편집은 사용자가 자연어를 통해 이미지를 직관적으로 편집할 수 있는 방법을 제공합니다. 그러나 확산 모델 기반 편집 모델들은 복잡한 사용자 지시어, 특히 구성적 관계, 맥락적 단서 또는 지시 표현을 포함하는 지시어를 정확히 해석하는 데 어려움을 겪어, 의미론적으로 이탈되거나 의도된 변경 사항을 제대로 반영하지 못하는 편집 결과가 발생합니다. 본 연구에서는 이러한 문제를 해결하기 위해 MIRA(Multimodal Iterative Reasoning Agent)를 제안합니다. MIRA는 경량화된 플러그 앤 플레이 방식의 다중모달 추론 에이전트로, 반복적인 인지-추론-실행 루프를 통해 편집을 수행하며 다중 턴 인간-모델 상호작용 과정을 효과적으로 모방합니다. MIRA는 단일 프롬프트나 정적 계획을 제공하는 대신, 시각적 피드백을 활용하여 단계별로 원자적 편집 지시어를 예측하는 방식으로 결정을 내립니다. 150K 규모의 다중모달 도구 사용 데이터셋인 MIRA-Editing과 2단계 SFT + GRPO 학습 파이프라인을 결합함으로써 MIRA는 복잡한 편집 지시어에 대한 추론 및 편집을 수행할 수 있습니다. Flux.1-Kontext, Step1X-Edit, Qwen-Image-Edit과 같은 오픈소스 이미지 편집 모델과 연동 시, MIRA는 의미적 일관성과 지각적 품질을 모두 크게 향상시켜 GPT-Image나 Nano-Banana와 같은 독점 시스템에 버금가거나 이를 넘어서는 성능을 달성합니다.
대규모 멀티모달 모델(LMM)은 강력한 지시 추종 능력과 인간 선호도와의 일치성으로 인해 멀티모달 평가 시스템에서 평가자 역할로 점차 채택되고 있습니다. 그러나 다양한 세분화된 평가 기준을 따르는 능력에 대해서는 아직 연구가 부족한 실정입니다. 본 연구에서는 멀티모달 평가자가 다원적 기준을 준수하고 신뢰할 수 있는 기준 수준 판단을 생성하는 능력을 평가하기 위한 벤치마크인 Multi-Crit를 개발했습니다. 자유 형성 생성 작업과 검증 가능한 추론 작업을 모두 아우르는 Multi-Crit는 다중 기준 인간 주해가 달린 어려운 응답 쌍을 수집하는 엄격한 데이터 큐레이션 파이프라인을 통해 구축되었습니다. 또한 다원적 준수도, 기준 전환 유연성, 그리고 기준 수준 선호도 충돌 인식 능력을 체계적으로 평가하기 위한 세 가지 새로운 지표를 도입했습니다. 25개 LMM에 대한 포괄적 분석 결과, 1) 독점 모델들은 특히 자유 형성 평가에서 다원적 기준을 일관되게 준수하는 데 여전히 어려움을 겪고 있으며, 2) 오픈소스 모델들은 다양한 기준을 유연하게 따르는 데 더 뒤처져 있으며, 3) 전체론적 판단 신호를 이용한 비판 미세 조정은 시각적 근거 강화에는 도움이 되지만 다원적 기준 수준 판단으로는 일반화되지 못하는 것으로 나타났습니다. 추론 미세 조정, 테스트 시 스케일링, 그리고 오픈소스와 독점 모델 간 경계 일관성에 대한 추가 분석을 통해 현재 멀티모달 평가자들의 한계를 더욱 심층적으로 탐구했습니다. 선도적 연구로서 Multi-Crit는 신뢰할 수 있고 조정 가능한 멀티모달 AI 평가의 기반을 마련합니다.
MLLM은 개별 질의에 대해 강력한 추론 능력을 보이지만, 이들은 데 노보(de novo) 방식으로 작동합니다. 즉, 각 문제를 독립적으로 해결하며 동일한 실수를 반복합니다. 기존의 메모리 증강 에이전트는 주로 과거 궤적을 재사용하기 위해 저장해 왔습니다. 그러나 궤적 기반 메모리는 간략성 편향으로 인해 필수적인 도메인 지식을 점차 상실합니다. 더 중요한 점은, 진정한 다중 모달 문제 해결 환경에서도 과거 행동의 단일 모달 흔적만 기록하여 시각적 주의와 논리적 추론이 어떻게 함께 해결책에 기여했는지 보존하지 못한다는 것입니다. 이는 인간 인지와 근본적으로 차이가 있습니다: 의미 기억은 다중 모달이면서 통합적이며, 조정되지만 구별되는 표현 스트림을 통해 시각적 및 추상적 지식을 보존합니다. 따라서 우리는 ViLoMem이라는 이중 스트림 메모리 프레임워크를 소개합니다. 이는 컴팩트하고 스키마 기반의 메모리를 구축하며, 시각적 주의 분산 패턴과 논리적 추론 오류를 별도로 인코딩하여 MLLM이 성공적 및 실패한 경험으로부터 학습할 수 있게 합니다. 성장 및 정제 원칙에 따라, 이 시스템은 다중 모달 의미 지식을 점진적으로 축적하고 업데이트하며—안정적이고 일반화 가능한 전략을 보존하는 동시에 파국적 망각을 방지합니다. 6개의 다중 모달 벤치마크에서 ViLoMem은 pass@1 정확도를 지속적으로 향상시키고 반복되는 시각적 및 논리적 오류를 상당히 줄였습니다. ablation 연구는 명시적인 주의 분산-환각 분리를 갖춘 이중 스트림 메모리의 필요성을 확인하며, 평생 및 교차 도메인 에이전트 학습을 위한 오류 인식 다중 모달 메모리의 가치를 입증합니다. 우리의 프로젝트 페이지는 https://weihao-bo.github.io/ViLoMeo-page에서 공개될 예정입니다.