번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 추론 모델(LRMs)의 발전은 다단계 추론 및 자기 반성과 같은 정교한 행동이 단순한 규칙 기반 보상과 강화 학습(RL)을 통해 나타날 수 있음을 보여줍니다. 그러나 기존의 제로-RL 접근법은 본질적으로 "온-폴리시" 방식으로 제한되어, 모델의 자체 출력에만 학습이 국한되고 초기 능력을 넘어서는 추론 능력을 획득하지 못합니다. 우리는 LUFFY(Learning to reason Under oFF-policY guidance)를 소개합니다. 이 프레임워크는 제로-RL에 오프-폴리시 추론 흔적을 추가합니다. LUFFY는 훈련 중 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색을 동적으로 균형 잡습니다. 특히, 혼합 정책 훈련 중 피상적이고 경직된 모방을 피하기 위해 정규화된 중요도 샘플링을 통한 정책 형성을 제안합니다. 주목할 만하게, LUFFY는 6개의 수학 벤치마크에서 평균 +7.0 이상의 이득을 달성하고, 분포 외 작업에서 +6.2점 이상의 우위를 보입니다. 또한, 특히 일반화에서 모방 기반 지도 미세 조정(SFT)을 크게 능가합니다. 분석 결과, LUFFY는 효과적으로 모방할 뿐만 아니라 데모를 넘어 탐색하며, 오프-폴리시 지도를 통해 일반화 가능한 추론 모델을 훈련하는 확장 가능한 경로를 제공합니다.
우리는 장문의 멀티모달 학습을 위한 최첨단 비전-언어 모델(VLM) 패밀리인 Eagle 2.5를 소개합니다. 본 연구는 긴 동영상 이해와 고해상도 이미지 이해의 과제를 해결하며, 두 작업 모두를 위한 일반적인 프레임워크를 제안합니다. 제안된 학습 프레임워크는 문맥적 무결성과 시각적 세부 사항을 보존하는 두 가지 기술인 자동 저하 샘플링(Automatic Degrade Sampling)과 이미지 영역 보존(Image Area Preservation)을 통합합니다. 또한 이 프레임워크는 장문 데이터 학습을 위한 파이프라인에서 다양한 효율성 최적화를 포함합니다. 마지막으로, 우리는 스토리 수준과 클립 수준의 주석을 통합하여 긴 동영상 이해를 용이하게 하는 새로운 데이터셋인 Eagle-Video-110K를 제안합니다. Eagle 2.5는 장문 멀티모달 벤치마크에서 상당한 개선을 보여주며, 기존 VLM의 한계를 극복하는 강력한 솔루션을 제공합니다. 특히, 우리의 최고 성능 모델인 Eagle 2.5-8B는 512개의 입력 프레임으로 Video-MME에서 72.4%를 달성하며, GPT-4o와 같은 최상위 상용 모델 및 Qwen2.5-VL-72B, InternVL2.5-78B와 같은 대규모 오픈소스 모델의 결과와 맞먹는 성능을 보여줍니다.
본 논문은 사용자 쿼리별로 하나의 시스템을 설계하는 쿼리 수준 다중 에이전트 시스템의 자동화를 위해 FlowReasoner라는 쿼리 수준 메타 에이전트를 제안합니다. 핵심 아이디어는 외부 실행 피드백을 통해 추론 기반 메타 에이전트를 유도하는 것입니다. 구체적으로, DeepSeek R1을 정제하여 FlowReasoner에 다중 에이전트 시스템 생성과 관련된 기본 추론 능력을 부여한 후, 외부 실행 피드백을 활용한 강화 학습(RL)을 통해 이를 더욱 향상시킵니다. 성능, 복잡성, 효율성 측면에서 RL 훈련을 안내하기 위해 다목적 보상이 설계되었습니다. 이를 통해 FlowReasoner는 숙고적 추론을 통해 각 사용자 쿼리에 맞춤화된 다중 에이전트 시스템을 생성할 수 있게 됩니다. 엔지니어링 및 경쟁 코드 벤치마크에서의 실험은 FlowReasoner의 우수성을 입증합니다. 특히, 세 가지 벤치마크에서 o1-mini를 10.52% 정확도로 능가하는 성과를 보였습니다. 코드는 https://github.com/sail-sg/FlowReasoner에서 확인할 수 있습니다.
현재의 대규모 언어 모델(LLMs)은 도구 사용 능력을 습득하기 위해 지도 미세 조정(SFT)을 거치는 경우가 많습니다. 그러나 SFT는 익숙하지 않거나 복잡한 도구 사용 시나리오로의 일반화에 어려움을 겪습니다. 최근 강화 학습(RL), 특히 R1과 유사한 모델의 발전은 유망한 추론 및 일반화 능력을 보여주었습니다. 그러나 도구 사용을 위한 보상 설계는 독특한 도전 과제를 제시합니다: 다양한 매개변수로 여러 도구가 호출될 수 있으며, 정답 매칭과 같은 거친 보상 신호는 효과적인 학습에 필요한 세밀한 피드백을 제공하지 못합니다. 본 연구에서는 RL 패러다임 내에서 도구 선택 및 적용 작업을 위한 보상 설계에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 다양한 보상 전략을 체계적으로 탐구하며, 그 유형, 규모, 세분성 및 시간적 동역학을 분석합니다. 이러한 통찰을 바탕으로, 도구 사용 작업에 맞춤화된 원칙적인 보상 설계를 제안하고 이를 그룹 상대 정책 최적화(GRPO)를 사용하여 LLMs를 훈련하는 데 적용합니다. 다양한 벤치마크에서의 실험적 평가는 우리의 접근 방식이 견고하고 확장 가능하며 안정적인 훈련을 이끌어내며, 기본 모델 대비 17%, SFT 모델 대비 15%의 성능 향상을 달성함을 보여줍니다. 이러한 결과는 LLMs의 도구 사용 능력과 일반화 성능을 향상시키는 데 있어 신중한 보상 설계의 중요성을 강조합니다. 향후 연구를 촉진하기 위해 모든 코드가 공개되었습니다.
도구 통합 추론(Tool-integrated Reasoning, TIR)은 대규모 언어 모델(LLMs)에 검색 엔진이나 코드 인터프리터와 같은 외부 도구를 호출할 수 있는 능력을 부여하여, 언어만으로는 해결할 수 없는 과제를 수행할 수 있게 확장합니다. 강화 학습(Reinforcement Learning, RL)은 최종 답변의 정확성을 최적화함으로써 TIR을 개선하는 데 유망한 결과를 보여주었지만, 기존 접근 방식들은 도구 사용과 관련된 효율성과 비용을 종종 간과합니다. 이는 계산 및 재정적 부담을 증가시키는 과도한 도구 호출이나 답변 품질을 저해하는 불충분한 도구 사용과 같은 최적이 아닌 행동으로 이어질 수 있습니다. 본 연구에서는 정확한 답변을 최소한의 도구 호출로 생성하도록 모델을 유도하는 간단하면서도 효과적인 RL 기반 프레임워크인 최적 도구 호출 제어 정책 최적화(Optimal Tool Call-controlled Policy Optimization, OTC-PO)를 제안합니다. 우리의 방법은 정확성과 도구 효율성을 동시에 고려하는 도구 통합 보상을 도입하여 높은 도구 생산성을 촉진합니다. 이 프레임워크를 Proximal Policy Optimization(PPO)과 Group Relative Preference Optimization(GRPO) 내에서 구현하여 OTC-PPO와 OTC-GRPO를 개발했습니다. Qwen-2.5과 Qwen-Math를 사용한 여러 QA 벤치마크 실험 결과, 우리의 접근 방식은 도구 호출을 최대 73.1%까지 줄이고 도구 생산성을 최대 229.4%까지 향상시키면서도 비슷한 수준의 답변 정확도를 유지하는 것으로 나타났습니다. 우리가 아는 한, 이는 TIR에서 도구 사용 효율성을 명시적으로 최적화하는 첫 번째 RL 기반 프레임워크입니다.
언어 모델(LM)과의 다중 턴 상호작용은 유해한 의도가 전략적으로 여러 교환에 걸쳐 분산될 수 있어 중요한 안전 위험을 초래합니다. 그러나 기존 연구의 대부분은 단일 턴 안전성에 초점을 맞추었으며, 다중 턴 레드 팀링의 주요 과제로 적응성과 다양성이 여전히 남아 있습니다. 이러한 과제를 해결하기 위해, 우리는 X-Teaming을 제안합니다. X-Teaming은 겉보기에는 무해한 상호작용이 어떻게 유해한 결과로 이어지는지를 체계적으로 탐구하고 해당 공격 시나리오를 생성하는 확장 가능한 프레임워크입니다. X-Teaming은 계획, 공격 최적화, 검증을 위해 협업 에이전트를 활용하여 최신 다중 턴 탈옥 효과성과 다양성을 달성하며, 대표적인 오픈 웨이트 및 클로즈드 소스 모델에서 최대 98.1%의 성공률을 보입니다. 특히, X-Teaming은 단일 턴 공격에 거의 면역으로 여겨졌던 최신 Claude 3.7 Sonnet 모델에 대해 96.2%의 공격 성공률을 달성했습니다. X-Teaming을 기반으로, 우리는 XGuard-Train을 소개합니다. 이는 이전 최고 자원보다 20배 큰 오픈소스 다중 턴 안전 훈련 데이터셋으로, 30K의 상호적 탈옥 사례를 포함하며, LM의 견고한 다중 턴 안전 정렬을 가능하게 하도록 설계되었습니다. 우리의 작업은 정교한 대화형 공격을 완화하기 위한 필수 도구와 통찰을 제공함으로써 LM의 다중 턴 안전성을 발전시킵니다.
최근 멀티모달 대형 언어 모델(LLM)을 기반으로 한 컴퓨터 사용 에이전트(CUAs)는 자연어를 통해 복잡한 데스크톱 워크플로우를 자동화하는 유망한 방향을 제시하고 있습니다. 그러나 대부분의 기존 CUAs는 얕은 운영체제 통합, 취약한 스크린샷 기반 상호작용, 그리고 방해가 되는 실행 방식으로 인해 개념적 프로토타입 단계에 머물러 있습니다. 우리는 Windows 데스크톱을 위한 다중 에이전트 AgentOS인 UFO2를 소개합니다. UFO2는 CUAs를 실용적이고 시스템 수준의 자동화로 발전시킵니다. UFO2는 중앙 집중식 HostAgent를 통해 작업 분해와 조정을 수행하며, 네이티브 API, 도메인 특화 지식, 그리고 통합 GUI-API 액션 레이어를 갖춘 애플리케이션 전용 AppAgent 컬렉션을 특징으로 합니다. 이 아키텍처는 견고한 작업 실행을 가능하게 하면서도 모듈성과 확장성을 유지합니다. 하이브리드 제어 감지 파이프라인은 Windows UI Automation(UIA)과 비전 기반 파싱을 융합하여 다양한 인터페이스 스타일을 지원합니다. 실행 시간 효율성은 추론적 다중 액션 계획을 통해 더욱 향상되어 단계별 LLM 오버헤드를 줄입니다. 마지막으로, Picture-in-Picture(PiP) 인터페이스는 격리된 가상 데스크톱 내에서 자동화를 가능하게 하여 에이전트와 사용자가 간섭 없이 동시에 작업할 수 있도록 합니다. 우리는 UFO2를 20개 이상의 실제 Windows 애플리케이션에서 평가하여 기존 CUAs 대비 견고성과 실행 정확도에서 상당한 개선을 입증했습니다. 우리의 결과는 깊은 운영체제 통합이 신뢰할 수 있고 사용자와 조율된 데스크톱 자동화를 위한 확장 가능한 경로를 열어준다는 것을 보여줍니다.
AR/VR 애플리케이션에 대한 수요가 증가함에 따라 고품질의 360도 파노라마 콘텐츠의 필요성이 부각되고 있습니다. 그러나 등장방형 투영(ERP)으로 인해 발생하는 심각한 왜곡으로 인해 고품질의 360도 파노라마 이미지와 비디오를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식은 제한된 ERP 데이터셋에 대해 사전 학습된 확산 모델을 미세 조정하거나, 여전히 ERP 잠재 표현에 의존하는 튜닝 없는 방법을 시도함으로써 극지 근처에서의 불연속성을 초래합니다. 본 논문에서는 추가적인 튜닝 없이 최신 확산 모델을 사용하여 원활한 360도 파노라마 이미지 및 비디오 생성을 위한 새로운 접근 방식인 SphereDiff를 소개합니다. 우리는 모든 관점에서 균일한 분포를 보장하는 구형 잠재 표현을 정의함으로써 ERP에 내재된 왜곡을 완화합니다. 또한, MultiDiffusion을 구형 잠재 공간으로 확장하고, 사전 학습된 확산 모델을 직접 사용할 수 있도록 구형 잠재 샘플링 방법을 제안합니다. 더 나아가, 투영 과정에서 생성 품질을 더욱 향상시키기 위해 왜곡 인식 가중 평균 기법을 도입합니다. 우리의 방법은 고품질의 360도 파노라마 콘텐츠를 생성하는 데 있어 기존 접근 방식을 능가하며, 높은 충실도를 유지함으로써 몰입형 AR/VR 애플리케이션을 위한 견고한 솔루션을 제공합니다. 코드는 https://github.com/pmh9960/SphereDiff에서 확인할 수 있습니다.
추론 모델은 전통적인 언어 모델이 어려워하는 복잡한 과제에서 인상적인 성능을 보여주고 있습니다. 그러나 많은 모델이 과도한 사고(overthinking) 문제에 시달리고 있는데, 이는 질문의 정확도를 높이지 못하는 불필요한 토큰을 대량으로 생성하는 현상을 말합니다. 우리는 문제 난이도의 근사적 측정 방법을 소개하고, 문제 난이도와 최적 토큰 사용량 사이에 명확한 관계가 존재함을 입증합니다. 또한 다양한 추론 모델이 최적 토큰 수를 효율적으로 할당하는 측면에서 얼마나 잘 보정(calibrated)되어 있는지 평가합니다. 연구 결과, 일반적으로 추론 모델은 특히 쉬운 문제에서 보정이 잘 되어 있지 않음을 발견했습니다. 쉬운 질문에 대한 보정을 평가하기 위해, 우리는 매우 간단한 수학, 추론, 코드 및 작업 문제로 구성된 DUMB500 데이터셋을 도입하고, 추론 모델을 이 간단한 예제와 기존 최첨단 벤치마크의 극도로 어려운 예제에 대해 동일한 작업 영역에서 공동으로 평가합니다. 마지막으로, 우리는 학습이 필요 없는 블랙박스 디코딩 기법인 THOUGHTTERMINATOR를 소개하며, 이는 추론 모델의 보정을 크게 개선합니다.
3D 가우시안 스플래팅(3DGS)은 사실적인 장면 재구성에서 뛰어난 성능을 보이지만, 만화나 게임과 같은 스타일화된 시나리오에서는 조각난 텍스처, 의미론적 불일치, 그리고 추상적인 미학에 대한 제한된 적응력으로 인해 어려움을 겪습니다. 우리는 이러한 문제를 해결하기 위해 다중 모달 스타일 조건화, 다중 수준 의미론적 정렬, 그리고 지각적 품질 향상을 통합한 StyleMe3D라는 3D GS 스타일 전이를 위한 종합적인 프레임워크를 제안합니다. 우리의 주요 통찰은 다음과 같습니다: (1) RGB 속성만 최적화하면 스타일화 과정에서 기하학적 무결성이 보존된다; (2) 저수준, 중수준, 고수준 의미론을 분리하는 것이 일관된 스타일 전이에 중요하다; (3) 고립된 객체와 복잡한 장면에 걸친 확장성이 실용적인 배포에 필수적이다. StyleMe3D는 네 가지 새로운 구성 요소를 도입합니다: Stable Diffusion의 잠재 공간을 활용한 의미론적 정렬을 위한 동적 스타일 점수 증류(DSSD); 지역화된, 콘텐츠 인식 텍스처 전이를 위한 대조적 스타일 디스크립터(CSD); 스타일 세부 사항과 구조적 일관성을 분리하기 위한 동시 최적화 스케일(SOS); 그리고 인간 평가 데이터로 훈련된 미분 가능한 미학적 사전인 3D 가우시안 품질 평가(3DG-QA)를 통해 아티팩트를 억제하고 시각적 조화를 강화합니다. NeRF 합성 데이터셋(객체)과 tandt db(장면) 데이터셋에서 평가한 결과, StyleMe3D는 기하학적 세부 사항(예: 조각상의 조각)을 보존하고 장면 전반에 걸친 스타일 일관성(예: 풍경에서의 일관된 조명)을 보장하면서 실시간 렌더링을 유지하는 데 있어 최신 방법들을 능가했습니다. 이 작업은 사실적인 3D GS와 예술적 스타일화를 연결하여 게임, 가상 세계, 디지털 아트 분야에서의 응용 가능성을 열어줍니다.
다중 시점 이해, 즉 다양한 시점에서의 시각 정보를 조화롭게 통합하여 효과적인 탐색, 조작 및 3D 장면 이해를 가능하게 하는 능력은, 구현체 에이전트로 사용될 다중 모달 대형 언어 모델(MLLMs)의 근본적인 과제입니다. 최근 MLLMs는 고차원적 추론과 계획에서 인상적인 발전을 보여주었지만, 다중 시점 기하학적 일관성과 시점 간 대응에 직면할 때는 종종 부족함을 드러냅니다. MLLMs의 다중 시점 장면 추론 능력을 종합적으로 평가하기 위해, 우리는 90개의 다양한 실제 장면에서 인간이 주의 깊게 주석을 단 2,100개 이상의 다중 시점 질문-답변 쌍으로 구성된 All-Angles Bench 벤치마크를 제안합니다. 우리의 여섯 가지 과제(계수, 속성 식별, 상대적 거리, 상대적 방향, 객체 조작, 카메라 포즈 추정)는 모델의 기하학적 대응 능력과 시점 간 정보를 일관되게 정렬하는 능력을 특별히 테스트합니다. Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o를 포함한 27개의 대표적인 MLLMs를 인간 평가자와 비교한 광범위한 실험은 상당한 성능 격차를 보여주며, 현재의 MLLMs가 인간 수준의 숙련도에 이르기에는 아직 멀었음을 나타냅니다. 심층 분석을 통해, 우리는 MLLMs가 특히 두 가지 측면에서 부진한 성능을 보임을 확인했습니다: (1) 부분적으로 가려진 시점에 대한 시점 간 대응, (2) 대략적인 카메라 포즈 설정. 이러한 발견은 더 강력한 다중 시점 인식을 내장한 도메인 특화적 개선 또는 모듈의 필요성을 강조합니다. 우리는 All-Angles Bench가 MLLMs와 인간 수준의 다중 시점 이해 사이의 격차를 줄이는 데 유용한 통찰을 제공하고 기여할 것이라 믿습니다. 프로젝트와 벤치마크는 https://danielchyeh.github.io/All-Angles-Bench/에서 공개적으로 이용 가능합니다.
본 논문에서는 대규모 언어 모델(LLM)의 행동을 제어하기 위한 플러그 앤 플레이 방식의 조정 가능성을 제공하는 프레임워크인 EasyEdit2를 소개합니다. EasyEdit2는 안전성, 감정, 성격, 추론 패턴, 사실성, 언어 특징 등 다양한 테스트 시점 개입을 지원합니다. 이전 버전과 달리, EasyEdit2는 원활한 모델 조종을 위해 특별히 설계된 새로운 아키텍처를 특징으로 합니다. 이 아키텍처는 조종 벡터 생성기와 조종 벡터 적용기와 같은 핵심 모듈로 구성되어 있으며, 이를 통해 모델의 매개변수를 수정하지 않고도 모델의 행동에 영향을 미치는 조종 벡터를 자동으로 생성하고 적용할 수 있습니다. EasyEdit2의 주요 장점 중 하나는 사용의 용이성입니다. 사용자는 광범위한 기술적 지식 없이도 단일 예제만으로 모델의 응답을 효과적으로 안내하고 조정할 수 있어 정밀한 제어가 접근 가능하고 효율적으로 이루어집니다. 실험적으로, 우리는 다양한 LLM에 걸친 모델 조종 성능을 보고하며 이러한 기술의 효과를 입증합니다. 소스 코드는 https://github.com/zjunlp/EasyEdit에서 GitHub에 공개되었으며, 데모 노트북도 함께 제공됩니다. 또한, 빠른 소개를 위한 데모 비디오는 https://zjunlp.github.io/project/EasyEdit2/video에서 확인할 수 있습니다.
카메라와 인간 동작 제어는 비디오 생성 분야에서 광범위하게 연구되어 왔지만, 기존 접근 방식들은 일반적으로 이를 별도로 다루며 양 측면 모두에 대한 고품질 주석이 포함된 데이터의 한계를 겪어왔습니다. 이를 극복하기 위해, 우리는 비디오 생성에서 카메라와 인간 동작 모두를 정밀하게 제어할 수 있는 통합된 3D 강화 프레임워크인 Uni3C를 제안합니다. Uni3C는 두 가지 주요 기여를 포함합니다. 첫째, 고정된 비디오 생성 백본과 함께 훈련된 플러그 앤 플레이 제어 모듈인 PCDController를 제안합니다. 이 모듈은 단안 깊이에서 얻은 비투영 포인트 클라우드를 활용하여 정확한 카메라 제어를 달성합니다. 포인트 클라우드의 강력한 3D 사전 지식과 비디오 기반 모델의 강력한 능력을 활용함으로써, PCDController는 추론 백본이 고정되었는지 아니면 미세 조정되었는지에 관계없이 탁월한 일반화 성능을 보여줍니다. 이러한 유연성은 Uni3C의 다양한 모듈이 특정 도메인(즉, 카메라 제어 또는 인간 동작 제어)에서 훈련될 수 있게 하여, 공동 주석 데이터에 대한 의존성을 줄입니다. 둘째, 추론 단계에서 장면 포인트 클라우드와 SMPL-X 캐릭터를 원활하게 통합하여 카메라와 인간 동작에 대한 제어 신호를 통일하는 공동 정렬 3D 세계 가이던스를 제안합니다. 광범위한 실험을 통해 PCDController가 비디오 생성의 미세 조정된 백본에서 카메라 동작을 구동하는 데 강력한 견고성을 가지고 있음이 확인되었습니다. Uni3C는 카메라 제어 가능성과 인간 동작 품질 모두에서 경쟁사들을 크게 능가합니다. 또한, 우리는 도전적인 카메라 움직임과 인간 동작을 특징으로 하는 맞춤형 검증 세트를 수집하여 우리 방법의 효과를 검증했습니다.
우리는 LeetCodeDataset을 소개하며, 이는 코드 생성 모델의 평가와 학습을 위한 고품질 벤치마크로, LLM 연구에서의 두 가지 주요 과제인 추론 중심 코딩 벤치마크의 부족과 자체 포함형 학습 테스트베드의 필요성을 해결합니다. LeetCode Python 문제를 풍부한 메타데이터, 광범위한 커버리지, 문제당 100개 이상의 테스트 케이스, 그리고 시간적 분할(2024년 7월 이전/이후)로 정제함으로써, 우리의 데이터셋은 오염 없는 평가와 효율적인 지도 미세 조정(SFT)을 가능하게 합니다. 실험 결과, 추론 모델이 비추론 모델을 크게 능가하는 것으로 나타났으며, 단 2.6K개의 모델 생성 솔루션으로 SFT를 수행했을 때 110K 샘플을 사용한 경우와 비슷한 성능을 달성했습니다. 이 데이터셋과 평가 프레임워크는 Hugging Face와 Github에서 이용 가능합니다.
멀티모달 대형 언어 모델(MLLMs)은 그래픽 사용자 인터페이스(GUI) 에이전트를 강화하여 컴퓨팅 장치에서의 작업 자동화에 유망한 가능성을 보여주고 있습니다. 최근 연구들은 GUI 작업에서의 추론을 탐구하며 고무적인 결과를 보여주고 있습니다. 그러나 현재의 많은 접근 방식들은 수동으로 설계된 추론 템플릿에 의존하고 있어, 복잡한 GUI 환경에서 충분히 강력하고 적응적인 추론을 제공하지 못할 수 있습니다. 한편, 일부 기존 에이전트들은 여전히 반응형 행위자(Reactive Actors)로 작동하며, 주로 암묵적 추론에 의존함으로써 계획과 오류 복구가 필요한 GUI 작업에 충분한 깊이를 제공하지 못할 수 있습니다. 우리는 이러한 에이전트의 발전을 위해서는 반응적 행위에서 신중한 추론에 기반한 행위로의 전환이 필요하다고 주장합니다. 이러한 변화를 촉진하기 위해, 우리는 Actor2Reasoner 프레임워크를 통해 개발된 MLLM 기반 GUI 에이전트인 InfiGUI-R1을 소개합니다. 이 프레임워크는 추론 중심의 두 단계 훈련 접근법으로, 에이전트를 반응형 행위자에서 신중한 추론자(Deliberative Reasoners)로 점진적으로 발전시키도록 설계되었습니다. 첫 번째 단계인 '추론 주입(Reasoning Injection)'은 기본 추론자를 구축하는 데 초점을 맞춥니다. 우리는 공간 추론 증류(Spatial Reasoning Distillation)를 사용하여 교사 모델로부터 MLLM으로 교차 모달 공간 추론 능력을 전달하며, 명시적 추론 단계가 포함된 궤적을 통해 모델이 행동 생성 전에 GUI 시각-공간 정보와 논리적 추론을 통합할 수 있도록 합니다. 두 번째 단계인 '신중성 강화(Deliberation Enhancement)'는 강화 학습을 사용하여 기본 추론자를 신중한 추론자로 정제합니다. 이 단계에서는 두 가지 접근법을 도입합니다: '하위 목표 안내(Sub-goal Guidance)'는 모델이 정확한 중간 하위 목표를 생성할 때 보상을 제공하며, '오류 복구 시나리오 구성(Error Recovery Scenario Construction)'은 오류가 발생하기 쉬운 단계에서 실패 및 복구 훈련 시나리오를 생성합니다. 실험 결과는 InfiGUI-R1이 GUI 기반 및 궤적 작업에서 강력한 성능을 달성함을 보여줍니다. 자원은 https://github.com/Reallm-Labs/InfiGUI-R1에서 확인할 수 있습니다.
모바일 GUI 에이전트는 작업 자동화에 유망한 가능성을 보여주지만, 다양한 실제 시나리오에서 일반화 문제에 직면하고 있습니다. 대규모 데이터셋을 활용한 사전 학습 또는 미세 조정과 같은 전통적인 접근 방식은 모바일 애플리케이션의 다양성과 사용자별 작업에 대응하기 어려운 한계가 있습니다. 본 연구에서는 더 큰 데이터셋을 통해 보편적인 일반화를 추구하기보다는 인간의 시연을 통해 모바일 GUI 에이전트의 성능을 향상시키는 데 초점을 맞추어, 새로운 시나리오에서의 성능 개선을 목표로 합니다. 이를 실현하기 위해, 우리는 모바일 GUI 에이전트의 시연 기반 학습 연구를 위해 특별히 설계된 첫 번째 포괄적인 데이터셋인 LearnGUI를 소개합니다. 이 데이터셋은 2,252개의 오프라인 작업과 101개의 온라인 작업으로 구성되어 있으며, 고품질의 인간 시연 데이터를 포함하고 있습니다. 또한, 우리는 시연 데이터로부터 지식을 자동으로 추출하여 작업 완료를 강화하는 정교한 다중 에이전트 프레임워크인 LearnAct를 개발했습니다. 이 프레임워크는 지식 추출을 담당하는 DemoParser, 관련 지식 검색을 수행하는 KnowSeeker, 그리고 시연 기반 작업 실행을 담당하는 ActExecutor라는 세 가지 전문화된 에이전트를 통합합니다. 실험 결과, 오프라인 및 온라인 평가 모두에서 상당한 성능 향상을 확인했습니다. 오프라인 평가에서는 단일 시연만으로도 모델 성능이 향상되어 Gemini-1.5-Pro의 정확도가 19.3%에서 51.7%로 증가했습니다. 온라인 평가에서는 우리의 프레임워크가 UI-TARS-7B-SFT의 작업 성공률을 18.1%에서 32.8%로 향상시켰습니다. LearnAct 프레임워크와 LearnGUI 벤치마크는 시연 기반 학습이 더 적응적이고 개인화되며 배포 가능한 모바일 GUI 에이전트를 위한 유망한 방향임을 입증합니다.
우리는 원하는 결과를 향해 미디어 생성 모델을 미세 조정하기 위한 다목적 프레임워크인 DRAGON(Distributional RewArds for Generative OptimizatioN)을 소개합니다. 기존의 인간 피드백을 활용한 강화 학습(RLHF)이나 직접 선호도 최적화(DPO)와 같은 쌍별 선호도 접근 방식과 비교할 때, DRAGON은 더욱 유연합니다. 이는 개별 예제 또는 그 분포를 평가하는 보상 함수를 최적화할 수 있어, 인스턴스 단위, 인스턴스-대-분포, 그리고 분포-대-분포 보상 함수와 호환됩니다. 이러한 다용도성을 활용하여, 우리는 인코더와 참조 예제 집합을 선택하여 모범 분포를 생성하는 새로운 보상 함수를 구성합니다. CLAP과 같은 교차 모달리티 인코더를 사용할 경우, 참조 예제는 다른 모달리티(예: 텍스트 대 오디오)일 수 있습니다. 그런 다음, DRAGON은 온라인 및 온-정책 생성물을 수집하고, 이를 점수화하여 긍정적 데모 세트와 부정적 세트를 구성하며, 두 세트 간의 대비를 활용하여 보상을 극대화합니다. 평가를 위해, 우리는 사용자 정의 음악 미학 모델, CLAP 점수, Vendi 다양성, 그리고 Frechet 오디오 거리(FAD)를 포함한 20가지 다양한 보상 함수로 오디오 도메인의 텍스트-대-음악 확산 모델을 미세 조정했습니다. 또한, 인스턴스 단위(곡별)와 전체 데이터셋 FAD 설정을 비교하면서 여러 FAD 인코더와 참조 세트를 제거 실험했습니다. 모든 20가지 목표 보상에 대해, DRAGON은 평균 81.45%의 승률을 달성했습니다. 더욱이, 모범 세트 기반의 보상 함수는 실제로 생성물을 개선하며, 모델 기반 보상과 비교할 만합니다. 적절한 모범 세트를 사용하면, DRAGON은 인간 선호도 주석을 학습하지 않고도 60.95%의 인간 투표 음악 품질 승률을 달성합니다. 이처럼, DRAGON은 인간이 인지하는 품질을 개선하기 위한 보상 함수 설계 및 최적화의 새로운 접근 방식을 보여줍니다. 사운드 예제는 https://ml-dragon.github.io/web에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 특히 강화 학습(RL)을 통해 강화될 때 강력한 추론 능력을 보여주고 있습니다. 기존 연구에서는 규칙과 정확성이 명확하게 정의된 수학적 추론에 RL을 성공적으로 적용했지만, 제한된 데이터, 검증 가능한 보상 구조의 부재, 다양한 작업 요구사항으로 인해 이러한 방법을 더 넓은 추론 영역으로 일반화하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 다양한 추론 작업에 걸쳐 일반화를 개선하기 위해 합성 및 실제 질문-답변 쌍을 포함한 다중 도메인 코퍼스를 RL 훈련에 체계적으로 통합하는 NEMOTRON-CROSSTHINK 프레임워크를 제안합니다. NEMOTRON-CROSSTHINK는 (1) STEM, 인문학, 사회과학 등 다양한 출처의 데이터를 통합하고, (2) 다중 선택형 및 자유 응답형과 같은 구조화된 템플릿을 적용하여 답변 공간의 복잡성을 제어하며, (3) 검증 가능한 답변을 필터링하고, (4) 여러 출처의 데이터를 효과적으로 활용하는 데이터 혼합 전략을 최적화함으로써 주요 과제를 해결합니다. 우리의 접근 방식은 수학을 넘어 확장 가능하고 검증 가능한 보상 모델링을 가능하게 하며, 수학(MATH-500: +30.1%, AMC23: +27.5%) 및 비수학 추론 벤치마크(MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%) 모두에서 정확도가 향상되었음을 보여줍니다. 또한, NEMOTRON-CROSSTHINK는 정답에 대해 28% 더 적은 토큰을 사용함으로써 상당히 향상된 응답 효율성을 보여주며, 더 집중적이고 효과적인 추론을 강조합니다. NEMOTRON-CROSSTHINK를 통해 우리는 RL에서 다중 도메인, 다중 형식의 데이터를 통합함으로써 더 정확하고 효율적이며 일반화 가능한 LLMs를 달성할 수 있음을 입증합니다.
대형 멀티모달 모델(LMMs)은 비디오 프레임을 균일하게 인식하므로, 시간적 정보 밀도가 본질적으로 다양한 비디오에 대해 계산 비효율성을 초래합니다. 본 논문은 Gumbel Softmax를 사용하여 비균일 밀도의 비디오를 다양한 큐브로 분할한 후, 각 큐브에 대해 통합 리샘플링을 수행하여 효율적인 비디오 이해를 달성하는 새로운 인식 패러다임을 가진 LMM인 Quicksviewer를 제시합니다. 이 간단하고 직관적인 접근 방식은 시간적 밀도에 따라 비디오를 동적으로 온라인으로 압축하여 시공간적 중복성을 크게 줄이고(전체 45배 압축률), 큰 수용 필드를 통해 효율적인 학습을 가능하게 합니다. 우리는 언어 백본을 통해 모델을 세 단계의 점진적 단계로 학습시키며, 각 단계에서는 인식 효율성 덕분에 평균 420초/1fps의 긴 비디오를 통합합니다. 총 0.8M의 비디오-텍스트 샘플만으로 학습한 우리의 모델은 고정된 분할 전략을 사용하는 직접적인 베이스라인보다 최대 8.72의 정확도 차이로 우수한 성능을 보여, 성능의 효과성을 입증합니다. Video-MME에서 Quicksviewer는 베이스라인이 필요로 하는 프레임당 토큰의 최대 5%만 사용하여 적당한 시퀀스 길이에서 SOTA를 달성합니다. 이 패러다임을 통해 입력 프레임 수를 확장하면 모델 능력의 명확한 멱법칙이 나타납니다. 또한, 큐빙 네트워크에 의해 생성된 세그먼트가 비디오의 연속적인 이벤트를 분석하는 데 도움이 될 수 있음이 실증적으로 검증되었습니다.
우리는 단안 RGB 및 RGB-D 비디오에서 장기간 3D 포인트 트래킹을 위한 새로운 접근법인 TAPIP3D를 소개한다. TAPIP3D는 비디오를 카메라 안정화된 시공간적 특징 구름으로 표현하며, 깊이와 카메라 움직임 정보를 활용하여 2D 비디오 특징을 카메라 움직임이 효과적으로 제거된 3D 세계 공간으로 변환한다. TAPIP3D는 이 안정화된 표현 내에서 다중 프레임 3D 움직임 추정치를 반복적으로 개선함으로써 장기간에 걸친 견고한 트래킹을 가능하게 한다. 3D 포인트 분포의 고유한 불규칙성을 관리하기 위해, 우리는 Local Pair Attention 메커니즘을 제안한다. 이 3D 맥락화 전략은 3D 공간 관계를 효과적으로 활용하여 정밀한 3D 궤적 추정을 위한 정보성 있는 특징 이웃을 형성한다. 우리의 3D 중심 접근법은 기존의 3D 포인트 트래킹 방법들을 크게 능가하며, 정확한 깊이 정보가 있을 때 기존의 2D 픽셀 트래커와 비교하여 2D 트래킹 정확도도 향상시킨다. 이 접근법은 카메라 좌표계(즉, 안정화되지 않은 상태)와 세계 좌표계 모두에서 추론을 지원하며, 우리의 결과는 카메라 움직임을 보상하는 것이 트래킹 성능을 개선함을 보여준다. 우리의 접근법은 기존의 2D 및 3D 트래커에서 사용되던 전통적인 2D 정사각형 상관관계 이웃을 대체함으로써, 다양한 3D 포인트 트래킹 벤치마크에서 더 견고하고 정확한 결과를 이끌어낸다. 프로젝트 페이지: https://tapip3d.github.io
아나모포시스(Anamorphosis)는 의도적으로 왜곡되어 정면에서 볼 때는 알아볼 수 없는 이미지의 한 범주를 가리킵니다. 이러한 이미지의 진정한 형태는 거울이나 렌즈와 같은 카타디옵트릭(catadioptric) 장치를 통해 특정 시점에서만 드러납니다. 이러한 수학적 장치의 구성은 17세기까지 거슬러 올라갈 수 있지만, 특정 관점에서만 해석 가능하며 일반적으로 볼 때는 그 의미를 잃는 경향이 있습니다. 본 논문에서는 이러한 유명한 광학적 착시 현상을 생성적 관점에서 재조명합니다. 잠재 정류 흐름(latent rectified flow) 모델의 도움을 받아, 정면에서 볼 때도 유효한 해석을 유지하는 아나모포시스 이미지를 생성하는 방법을 제안합니다. 이를 위해 고품질 시각적 결과물을 생성하는 데 핵심이 되는 주파수 인식 이미지 왜곡 기법인 라플라시안 피라미드 워핑(Laplacian Pyramid Warping)을 소개합니다. 우리의 연구는 Visual Anagrams(arXiv:2311.17919)를 잠재 공간 모델과 더 넓은 범위의 공간 변환으로 확장하여, 새로운 생성적 지각 착시를 창출할 수 있도록 합니다.
대규모 언어 모델(LLMs)은 놀라운 능력을 보여주지만, 취약점을 악용하여 안전하지 않거나 편향된 출력을 생성할 수 있는 적대적 프롬프트에 취약합니다. 기존의 레드팀링 방법은 확장성 문제, 자원 집약적 요구 사항, 또는 공격 전략의 다양성 부족과 같은 한계를 겪고 있습니다. 우리는 진화적 계산에 기반한 새로운 레드팀링 프레임워크인 RainbowPlus를 제안합니다. 이 프레임워크는 MAP-Elites와 같은 고전적인 진화 알고리즘을 언어 모델에 맞게 개선한 적응형 품질-다양성(QD) 탐색을 통해 적대적 프롬프트 생성을 강화합니다. RainbowPlus는 다양한 고품질 프롬프트를 저장하기 위한 다중 요소 아카이브와 여러 프롬프트를 동시에 평가하기 위한 포괄적인 적합도 함수를 사용함으로써, 기존 QD 방법인 Rainbow Teaming에서의 단일 프롬프트 아카이브와 쌍별 비교의 한계를 극복합니다. 6개의 벤치마크 데이터셋과 4개의 오픈소스 LLM에 대해 RainbowPlus와 QD 방법을 비교한 실험 결과, RainbowPlus는 우수한 공격 성공률(ASR)과 다양성(Diverse-Score 약 0.84)을 보여주며, 최대 100배 더 많은 고유 프롬프트를 생성했습니다(예: Ministral-8B-Instruct-2410에서 10,418개 대 100개). HarmBench 데이터셋에서 12개의 LLM(10개 오픈소스, 2개 클로즈드소스)에 대해 9개의 최신 방법과 비교했을 때, RainbowPlus는 평균 ASR 81.1%를 달성하여 AutoDAN-Turbo를 3.9% 앞섰으며, 9배 더 빠른 속도를 보였습니다(1.45시간 대 13.50시간). 우리의 오픈소스 구현은 LLM 안전성 향상을 촉진하며, 취약성 평가를 위한 확장 가능한 도구를 제공합니다. 코드와 리소스는 https://github.com/knoveleng/rainbowplus에서 공개되어 있어 재현성과 향후 LLM 레드팀링 연구를 지원합니다.
대규모 언어 모델(LLM)은 금융, 마케팅, 전자상거래 등 다양한 분야의 전문적인 생산 데이터 처리 파이프라인에 점점 더 많이 배포되고 있습니다. 그러나 이러한 모델을 다수의 입력에 대해 생산 환경에서 실행할 때, 종종 지시를 따르지 못하거나 개발자의 기대를 충족시키지 못하는 경우가 발생합니다. 이러한 애플리케이션에서 신뢰성을 높이기 위해, LLM 출력에 대한 검증 조건(assertion)이나 가드레일(guardrail)을 파이프라인과 함께 실행하는 것이 필수적입니다. 그러나 특정 작업에 대한 개발자의 요구사항을 포착하는 적절한 검증 조건 집합을 결정하는 것은 어려운 과제입니다. 본 논문에서는 PROMPTEVALS라는 데이터셋을 소개합니다. 이 데이터셋은 오픈소스 LLM 파이프라인 도구를 사용하는 개발자들로부터 수집된 2087개의 LLM 파이프라인 프롬프트와 12623개의 해당 검증 조건으로 구성되어 있으며, 이전 데이터셋보다 5배 더 큽니다. PROMPTEVALS의 홀드아웃 테스트 분할을 벤치마크로 사용하여, 폐쇄형 및 오픈소스 모델들이 관련 검증 조건을 생성하는 성능을 평가했습니다. 특히, 미세 조정된 Mistral과 Llama 3 모델은 GPT-4o보다 평균 20.93% 더 우수한 성능을 보였으며, 지연 시간 감소와 성능 향상을 모두 제공했습니다. 우리는 이 데이터셋이 LLM의 신뢰성, 정렬, 프롬프트 엔지니어링 분야의 추가 연구를 촉진할 수 있을 것으로 기대합니다.
본 연구는 라벨 모호성, 가림 현상, 배경 혼합 등이 특징인 복잡한 과수원 환경에서 녹색 과일을 탐지하기 위해 RF-DETR 객체 탐지 기본 모델과 YOLOv12 객체 탐지 모델 구성을 상세히 비교하였다. 단일 클래스(녹색 과일) 및 다중 클래스(가려진 및 가려지지 않은 녹색 과일) 주석을 포함한 맞춤형 데이터셋을 개발하여 동적 실세계 조건에서의 모델 성능을 평가하였다. DINOv2 백본과 변형 가능한 어텐션을 활용한 RF-DETR 객체 탐지 모델은 전역 컨텍스트 모델링에서 우수한 성능을 보이며, 부분적으로 가려지거나 모호한 녹색 과일을 효과적으로 식별했다. 반면, YOLOv12는 CNN 기반 어텐션을 활용하여 향상된 지역 특징 추출을 통해 계산 효율성과 엣지 배포에 최적화되었다. RF-DETR은 단일 클래스 탐지에서 0.9464의 최고 평균 정밀도(mAP50)를 달성하여 복잡한 장면에서 녹색 과일을 정확히 위치 지정하는 우수한 능력을 입증했다. YOLOv12N은 mAP@50:95에서 0.7620의 최고 점수를 기록했지만, RF-DETR은 복잡한 공간 시나리오에서 꾸준히 더 나은 성능을 보였다. 다중 클래스 탐지에서 RF-DETR은 mAP@50에서 0.8298로 선두를 달리며 가려진 과일과 가려지지 않은 과일을 구분하는 능력을 보였고, YOLOv12L은 mAP@50:95에서 0.6622로 최고 점수를 기록하여 세부적인 가림 상황에서 더 나은 분류 능력을 나타냈다. 학습 동역학 분석은 RF-DETR의 빠른 수렴 속도를 강조했는데, 특히 단일 클래스 설정에서 10 에포크 내에 안정화되며, 동적 시각 데이터에 적응하는 트랜스포머 기반 아키텍처의 효율성을 입증했다. 이러한 결과는 정밀 농업 응용에 RF-DETR의 효과성을 검증하며, YOLOv12는 빠른 응답 시나리오에 적합함을 보여준다. >색인어: RF-DETR 객체 탐지, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, 탐지 트랜스포머, CNN
DINOv2와 CLIP과 같은 비전 기반 모델(VFMs)은 다양한 다운스트림 작업에서 인상적인 성과를 거두었지만, 제한된 특징 해상도로 인해 픽셀 수준의 이해가 필요한 애플리케이션에서의 성능이 저하됩니다. 특징 업샘플링은 이러한 문제를 해결하기 위한 유망한 방향을 제시합니다. 본 연구에서는 특징 업샘플링을 향상시키기 위한 두 가지 중요한 요소를 식별했습니다: 업샘플러 아키텍처와 훈련 목표입니다. 업샘플러 아키텍처의 경우, 우리는 고해상도 이미지와 좌표, 저해상도 VFM 특징을 통합하여 선명하고 고품질의 특징을 생성하는 좌표 기반 교차 주의 트랜스포머를 도입했습니다. 훈련 목표의 경우, 클래스 불가지론적 마스크와 자기 증류를 활용하여 고해상도 의사 실측 특징을 구성하는 방법을 제안합니다. 우리의 접근 방식은 미세한 세부 사항을 효과적으로 포착하고 다양한 입력 및 특징 해상도에 유연하게 적응합니다. 실험을 통해 우리의 접근 방식이 다양한 다운스트림 작업에서 기존의 특징 업샘플링 기술을 크게 능가함을 입증했습니다. 우리의 코드는 https://github.com/andrehuang/loftup에서 공개되었습니다.
단일 모노큘러 카메라 스트림에서 여러 사람의 세부적인 3D 자세를 감지하고 추적하는 접근 방식을 소개합니다. 우리의 시스템은 어려운 자세와 가려짐이 빈번한 혼잡한 장면에서도 시간적으로 일관된 예측을 유지합니다. 우리의 모델은 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적합니다. 시간에 걸쳐 감지 결과를 매칭하는 대신, 새로운 입력 이미지에서 직접 자세를 업데이트함으로써 가려짐 상황에서도 온라인 추적이 가능합니다. 우리는 수많은 이미지 및 비디오 데이터셋에 대해 의사 레이블(pseudo-labeled) 주석을 활용하여 모델을 학습시켰으며, 이를 통해 3D 자세 추정 정확도에서 최첨단 시스템과 대등한 성능을 보이면서도 시간에 걸쳐 여러 사람을 더 빠르고 정확하게 추적할 수 있는 모델을 구현했습니다. 코드와 가중치는 https://github.com/apple/ml-comotion에서 제공됩니다.
우리는 현실 세계의 개방형 과제를 대략적으로 추상화한 최소한의 알고리즘 과제 세트를 설계했습니다. 이를 통해 현대 언어 모델의 창의적 한계를 깔끔하고 통제 가능한 방식으로 정량화할 수 있습니다. 창의적이고 장기적인 사고 도약을 요구하는 현실 세계의 과제와 마찬가지로, 우리의 과제는 암묵적이고 개방형인 확률적 계획 단계를 필요로 합니다. 이 단계는 (a) 추상적인 지식 그래프에서 새로운 연결을 발견하거나(말장난, 유추, 연구 등에서와 같이) (b) 새로운 패턴을 구성하는(수학 문제 설계나 새로운 단백질 설계 등에서와 같이) 것을 포함합니다. 이러한 과제에서 우리는 다음 토큰 학습이 근시안적이며 과도하게 기억에 의존한다는 점을 경험적 및 개념적으로 논증합니다. 이에 비해 다중 토큰 접근법, 즉 교사 없는 학습과 확산 모델은 다양하고 독창적인 출력을 생성하는 데 뛰어납니다. 둘째, 우리의 과제에서 Transformer로부터 일관성을 해치지 않으면서 무작위성을 이끌어내기 위해서는 출력층에서의 온도 샘플링에 의존하기보다는 입력층에서 직접 노이즈를 주입하는(우리가 '해시 조건화'라고 명명한 방법) 것이 더 효과적임을 발견했습니다. 따라서 우리의 연구는 개방형 창의적 능력을 분석하기 위한 원칙적이고 최소한의 테스트베드를 제공하며, 다음 토큰 학습과 소프트맥스 기반 샘플링을 넘어서는 새로운 논거를 제시합니다. 우리는 코드 일부를 https://github.com/chenwu98/algorithmic-creativity에서 공개합니다.
의료 시각 언어 모델(Medical Visual Language Models)은 의료 이미지 캡셔닝 및 진단 보조 등 다양한 헬스케어 애플리케이션에서 큰 잠재력을 보여주고 있습니다. 그러나 대부분의 기존 모델은 텍스트 기반 명령에 의존하고 있어, 특히 수술과 같은 실제 임상 환경에서의 사용성이 제한적입니다. 이러한 상황에서 의사들에게 텍스트 기반 상호작용은 종종 비현실적입니다. 또한, 현재의 의료 이미지 분석 모델은 일반적으로 예측에 대한 포괄적인 추론이 부족하여 임상 의사결정에 대한 신뢰도를 떨어뜨립니다. 의료 진단 오류는 생명을 바꿀 수 있는 중대한 결과를 초래할 수 있기 때문에, 해석 가능하고 합리적인 의료 보조 시스템의 필요성이 절실합니다. 이러한 문제를 해결하기 위해, 우리는 음성 상호작용을 시각 언어 모델(VLMs)과 통합한 다중모달 의료 이미지 보조 시스템인 SilVar-Med를 소개합니다. 이는 의료 이미지 분석을 위한 음성 기반 커뮤니케이션 작업을 선구적으로 수행합니다. 또한, 우리는 제안된 추론 데이터셋을 통해 각 의료 이상 예측에 대한 추론의 해석에 초점을 맞춥니다. 광범위한 실험을 통해, 우리는 음성 상호작용을 포함한 추론 기반 의료 이미지 해석에 대한 개념 증명 연구를 보여줍니다. 우리는 이 작업이 더 투명하고 상호작용적이며 임상적으로 실현 가능한 진단 지원 시스템을 촉진함으로써 의료 AI 분야를 발전시킬 것이라고 믿습니다. 우리의 코드와 데이터셋은 SiVar-Med에서 공개적으로 이용 가능합니다.