번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 자연어 처리의 범위를 넘어 다양한 학제 간 연구의 발전을 크게 촉진하고 있습니다. 최근에는 과학적 발견 과정을 여러 측면과 영역에서 지원하기 위해 다양한 LLM 기반 에이전트가 개발되었습니다. 이 중에서도 인간과 마찬가지로 운영 체제와 상호작용할 수 있는 컴퓨터 사용 에이전트는 연구자들의 업무 흐름에서 자동화된 과학적 문제 해결과 일상적인 업무 처리를 위한 길을 열고 있습니다. 이러한 에이전트의 변혁적 잠재력을 인식하여, 우리는 ScienceBoard를 소개합니다. ScienceBoard는 두 가지 상호 보완적인 기여를 포함합니다: (i) 다양한 인터페이스를 통해 자율적으로 상호작용할 수 있는 통합 전문 소프트웨어와 함께 동적이고 시각적으로 풍부한 과학적 워크플로우를 특징으로 하는 현실적이고 다중 도메인 환경으로, 복잡한 연구 작업과 실험을 가속화할 수 있습니다; (ii) 생화학, 천문학, 지리정보학과 같은 도메인에서 과학적 발견 워크플로우를 아우르는 169개의 고품질이고 엄격하게 검증된 실제 작업으로 구성된 도전적인 벤치마크입니다. 최첨단 백본(예: GPT-4o, Claude 3.7, UI-TARS)을 가진 에이전트에 대한 광범위한 평가는, 일부 유망한 결과에도 불구하고, 복잡한 워크플로우에서 과학자들을 안정적으로 지원하기에는 아직 부족하며, 전체 성공률이 15%에 불과함을 보여줍니다. 심층 분석은 현재 에이전트의 한계를 해결하고 더 효과적인 설계 원칙을 제공하는 데 유용한 통찰을 제공하며, 과학적 발견을 위한 더 능력 있는 에이전트를 구축하는 길을 열어줍니다. 우리의 코드, 환경, 벤치마크는 https://qiushisun.github.io/ScienceBoard-Home/에서 확인할 수 있습니다.
학술 포스터 생성은 과학 커뮤니케이션에서 중요하면서도 도전적인 과제로, 장문의 복잡한 문서를 단일 페이지로 압축하면서도 시각적으로 일관된 결과물을 만들어내야 합니다. 이 문제를 해결하기 위해, 우리는 포스터 생성을 위한 첫 번째 벤치마크와 메트릭 제품군을 소개합니다. 이는 최근 컨퍼런스 논문과 저자가 직접 디자인한 포스터를 짝지어, (i) 시각적 품질(인간이 만든 포스터와의 의미론적 일치), (ii) 텍스트 일관성(언어 유창성), (iii) 종합 평가(VLM-as-judge를 통해 점수화된 여섯 가지 세부 미적 및 정보적 기준), 그리고 특히 (iv) PaperQuiz(생성된 퀴즈에 대한 VLM의 답변을 통해 포스터가 논문의 핵심 내용을 전달하는 능력)를 평가합니다. 이 벤치마크를 기반으로, 우리는 PosterAgent를 제안합니다. 이는 상향식, 시각적 피드백이 포함된 다중 에이전트 파이프라인으로, (a) Parser가 논문을 구조화된 자원 라이브러리로 정제하고, (b) Planner가 텍스트-시각적 쌍을 읽기 순서와 공간적 균형을 유지하는 이진 트리 레이아웃으로 정렬하며, (c) Painter-Commenter 루프가 각 패널을 렌더링 코드를 실행하고 VLM 피드백을 사용하여 오버플로를 제거하고 정렬을 보장합니다. 종합 평가에서, GPT-4o 출력물은 첫눈에 시각적으로 매력적이지만 종종 텍스트가 지저분하고 PaperQuiz 점수가 낮으며, 독자 참여가 주요 미적 병목 현상임을 발견했습니다. 인간이 디자인한 포스터는 주로 시각적 의미론을 통해 의미를 전달하기 때문입니다. 우리의 완전 오픈소스 변형(예: Qwen-2.5 시리즈 기반)은 기존 4o 기반 다중 에이전트 시스템을 거의 모든 메트릭에서 능가하면서도 토큰 사용량을 87% 절감합니다. 이는 22페이지 논문을 완성된 편집 가능한 .pptx 포스터로 변환하며, 비용은 단 $0.005입니다. 이러한 발견은 완전 자동화된 포스터 생성 모델의 다음 세대를 위한 명확한 방향을 제시합니다. 코드와 데이터셋은 https://github.com/Paper2Poster/Paper2Poster에서 확인할 수 있습니다.
논리적 추론은 인간 지능의 근본적인 측면이자 멀티모달 대형 언어 모델(MLLM)의 필수적인 능력입니다. 멀티모달 추론의 상당한 발전에도 불구하고, 기존 벤치마크는 논리적 추론 유형에 대한 명시적 분류의 부재와 추론에 대한 불명확한 이해로 인해 그들의 추론 능력을 포괄적으로 평가하지 못하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 MLLM의 추론 능력을 평가하기 위한 포괄적인 벤치마크인 MME-Reasoning을 소개합니다. 이 벤치마크는 질문에서 귀납적, 연역적, 그리고 귀추적 추론이라는 세 가지 유형의 추론을 모두 다룹니다. 우리는 각 질문이 지각 능력이나 지식의 폭이 아닌 추론 능력을 효과적으로 평가할 수 있도록 데이터를 신중하게 선별하고, 다양한 질문의 평가를 포함하도록 평가 프로토콜을 확장했습니다. 우리의 평가는 논리적 추론 능력에 대한 전체적 평가에서 최첨단 MLLM의 상당한 한계를 드러냈습니다. 가장 발전된 MLLM조차도 포괄적인 논리적 추론에서 제한된 성능을 보였으며, 추론 유형 간에 현저한 성능 불균형이 나타났습니다. 또한, 우리는 추론 능력을 향상시킬 것으로 일반적으로 여겨지는 "사고 모드" 및 규칙 기반 RL과 같은 접근 방식에 대한 심층 분석을 수행했습니다. 이러한 발견들은 다양한 논리적 추론 시나리오에서 현재 MLLM의 중요한 한계와 성능 불균형을 강조하며, 추론 능력의 이해와 평가에 대한 포괄적이고 체계적인 통찰을 제공합니다.
최근 OpenAI-o1과 DeepSeek R1과 같은 발전은 강화 학습(Reinforcement Learning, RL)이 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시킬 수 있는 잠재력을 보여주었습니다. 오픈소스 복제 노력은 주로 수학 및 코딩 영역에 초점을 맞추고 있지만, 일반적인 추론 능력을 개발하기 위한 방법과 자원은 여전히 충분히 탐구되지 않고 있습니다. 이러한 격차는 부분적으로 RL에 적합한 다양하고 검증 가능한 추론 데이터를 수집하는 데 어려움이 있기 때문입니다. 우리는 논리적 추론이 일반적인 추론 능력을 개발하는 데 있어 핵심적이라고 가정합니다. 왜냐하면 논리는 추론의 기본 구성 요소이기 때문입니다. 이 연구에서 우리는 35가지 다양한 논리적 추론 작업을 포함하는 대규모 논리적 추론 데이터를 생성하는 데이터 합성 프레임워크 및 데이터셋인 SynLogic를 제시합니다. SynLogic 접근법은 조절 가능한 난이도와 양으로 데이터를 통제적으로 합성할 수 있게 합니다. 특히, 모든 예제는 간단한 규칙으로 검증할 수 있어 검증 가능한 보상을 통한 RL에 이상적으로 적합합니다. 우리의 실험에서, 우리는 7B 및 32B 모델을 기반으로 SynLogic 데이터셋에서의 RL 훈련의 효과를 검증합니다. SynLogic는 오픈소스 데이터셋 중에서 최고 수준의 논리적 추론 성능을 달성하며, BBEH에서 DeepSeek-R1-Distill-Qwen-32B를 6점 앞섭니다. 또한, SynLogic 데이터를 수학 및 코딩 작업과 혼합하면 이러한 영역의 훈련 효율성을 향상시키고 추론 일반화를 크게 개선합니다. 특히, 우리의 혼합 훈련 모델은 여러 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B를 능가합니다. 이러한 결과는 SynLogic가 LLMs의 더 넓은 추론 능력을 발전시키는 데 있어 가치 있는 자원임을 입증합니다. 우리는 데이터 합성 파이프라인과 SynLogic 데이터셋을 https://github.com/MiniMax-AI/SynLogic에서 오픈소스로 공개합니다.
디퓨전 모델은 이미지 스타일화를 크게 발전시켰지만, 여전히 두 가지 핵심 과제가 남아 있습니다: (1) 복잡한 장면에서, 특히 정체성, 구성 및 세부 사항에서 일관된 스타일화를 유지하는 것, 그리고 (2) 스타일 LoRA를 사용한 이미지-이미지 파이프라인에서 스타일 저하를 방지하는 것. GPT-4o의 탁월한 스타일화 일관성은 오픈소스 방법과 독점 모델 간의 성능 격차를 잘 보여줍니다. 이 격차를 해소하기 위해, 우리는 대규모 디퓨전 트랜스포머(DiT)를 활용한 범용 일관성 플러그인인 OmniConsistency를 제안합니다. OmniConsistency는 다음과 같은 기여를 합니다: (1) 정렬된 이미지 쌍에 대해 훈련된 컨텍스트 내 일관성 학습 프레임워크를 통해 강력한 일반화를 달성하고, (2) 스타일 학습과 일관성 보존을 분리하는 두 단계의 점진적 학습 전략을 통해 스타일 저하를 완화하며, (3) Flux 프레임워크 하에서 임의의 스타일 LoRA와 호환되는 완전한 플러그앤플레이 설계를 제공합니다. 광범위한 실험을 통해 OmniConsistency가 시각적 일관성과 미적 품질을 크게 향상시키며, 상용 최첨단 모델인 GPT-4o에 필적하는 성능을 달성함을 보여줍니다.
최근 연구에 따르면, 대규모 언어 모델(LLM)은 특별히 훈련된 단일 입력 임베딩으로부터 자기회귀적 생성(auto-regressive generation)을 통해 놀랍도록 긴 텍스트(수천 개의 토큰에 달하는)를 재구성할 수 있는 것으로 나타났습니다. 본 연구에서는 이러한 재구성이 자기회귀 없이도 가능한지 탐구합니다. 우리는 고정된(frozen) LLM이 단 두 개의 학습된 임베딩만 제공받는 경우, 단일 순방향 전달(forward pass)로 수백 개의 정확한 토큰을 생성할 수 있음을 보여줍니다. 이는 LLM의 놀랍고도 미처 탐구되지 않은 능력, 즉 반복적 디코딩 없이 다중 토큰을 생성하는 능력을 드러냅니다. 우리는 이러한 임베딩의 동작을 조사하고, 이들이 인코딩하는 정보의 유형에 대한 통찰을 제공합니다. 또한, 이러한 표현이 주어진 텍스트에 대해 유일하지는 않지만, 임베딩 공간 내에서 연결되고 지역적인 영역을 형성한다는 점을 실증적으로 보여줍니다. 이는 해당 공간으로의 전용 인코더(encoder)를 학습시킬 가능성을 시사하는 속성입니다.
추론을 수행하는 대규모 언어 모델(LLMs)은 복잡한 추론 작업을 수행하기 위해 광범위한 "사고" 체인을 생성함으로써 테스트 시간 계산을 확장하는 데 크게 의존합니다. 이 접근 방식은 인상적인 결과를 보여주지만, 상당한 계산 비용과 추론 시간을 초래합니다. 본 연구에서는 긴 사고 체인이 더 나은 추론 능력을 보장한다는 가정에 도전합니다. 먼저, 개별 질문 내에서 더 짧은 추론 체인이 정답을 도출할 가능성이 훨씬 더 높다는 것을 입증합니다. 동일한 질문에 대해 샘플링된 가장 긴 체인보다 최대 34.5% 더 정확한 결과를 보여줍니다. 이러한 결과를 바탕으로, 새로운 추론 LLM 추론 방법인 short-m@k를 제안합니다. 이 방법은 k개의 독립적인 생성을 병렬로 실행하고, 첫 번째 m개의 사고 과정이 완료되면 계산을 중단합니다. 최종 답은 이 m개의 체인 간 다수결 투표를 통해 선택됩니다. 기본적인 short-1@k는 저비용 설정에서 표준 다수결 투표와 유사하거나 더 나은 성능을 보이며, 최대 40% 더 적은 사고 토큰을 사용합니다. short-3@k는 short-1@k보다 약간 덜 효율적이지만, 모든 계산 예산에서 다수결 투표를 일관되게 능가하며, 여전히 상당히 빠른 속도(최대 33%의 벽 시간 감소)를 유지합니다. 이러한 결과에 영감을 받아, 짧은, 긴, 그리고 무작위로 선택된 추론 체인을 사용하여 LLM을 미세 조정합니다. 그 결과, 더 짧은 체인으로 학습할 때 더 나은 성능을 보이는 것을 관찰합니다. 본 연구의 결과는 추론 LLM에서 테스트 시간 계산의 현재 방법을 재고할 필요가 있음을 시사하며, 더 긴 "사고"가 반드시 성능 향상으로 이어지지 않으며, 직관과 달리 오히려 성능 저하를 초래할 수 있다는 점을 강조합니다.
Subject-to-Video(S2V) 생성은 참조 콘텐츠를 충실히 반영한 동영상을 제작함으로써 동영상 제작의 유연성을 높이는 것을 목표로 합니다. S2V 생성을 위한 인프라를 구축하기 위해, 우리는 (i) 세분화된 벤치마크인 OpenS2V-Eval과 (ii) 대규모 데이터셋인 OpenS2V-5M으로 구성된 OpenS2V-Nexus를 제안합니다. 기존의 VBench에서 상속된 S2V 벤치마크가 생성된 동영상의 전반적이고 거시적인 평가에 초점을 맞춘 반면, OpenS2V-Eval은 모델이 주체 일관성을 유지하며 자연스러운 주체 외관과 정체성 충실도를 갖춘 동영상을 생성하는 능력에 중점을 둡니다. 이를 위해 OpenS2V-Eval은 실제와 합성 테스트 데이터를 모두 포함한 7개 주요 S2V 카테고리에서 180개의 프롬프트를 도입했습니다. 또한, 인간의 선호도를 S2V 벤치마크와 정확히 일치시키기 위해, 우리는 생성된 동영상의 주체 일관성, 자연스러움, 텍스트 관련성을 각각 정량화하는 세 가지 자동 메트릭인 NexusScore, NaturalScore, GmeScore를 제안합니다. 이를 바탕으로, 우리는 16개의 대표적인 S2V 모델을 종합적으로 평가하여 다양한 콘텐츠에서의 강점과 약점을 밝혔습니다. 더 나아가, 우리는 500만 개의 고품질 720P 주체-텍스트-동영상 삼중항으로 구성된 최초의 오픈소스 대규모 S2V 생성 데이터셋인 OpenS2V-5M을 구축했습니다. 구체적으로, 우리는 (1) 주체를 분할하고 크로스-비디오 연관성을 통해 페어링 정보를 구축하고, (2) 원본 프레임에 GPT-Image-1을 프롬프트하여 다중 뷰 표현을 합성함으로써 데이터셋 내 주체 정보의 다양성을 보장했습니다. OpenS2V-Nexus를 통해, 우리는 향후 S2V 생성 연구를 가속화할 수 있는 견고한 인프라를 제공합니다.
대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 테스트 타임 스케일링(TTS) 방법은 외부 프로세스 보상 모델(PRM)이나 Best-of-N(BoN)과 같은 샘플링 방법에 대한 광범위한 의존으로 인해 상당한 계산 비용을 초래하는 경우가 많다. 본 논문에서는 비용이 많이 드는 외부 검증 모델 없이도 PRM 수준의 성능을 달성하는 효율적인 자기 주도형 TTS 프레임워크인 Guided by Gut(GG)를 소개한다. 우리의 방법은 내재적 LLM 신호, 토큰 수준의 신뢰도 및 단계별 독창성만으로 유도되는 경량 트리 탐색을 사용한다. 한 가지 중요한 혁신은 표적 강화 학습 미세 조정 단계를 통해 내부 신뢰도 추정의 신뢰성을 개선한 것이다. 도전적인 수학적 추론 벤치마크에 대한 실험적 평가 결과, GG는 더 작은 모델(예: 1.5B 매개변수)이 훨씬 더 큰 모델(예: 32B-70B 매개변수)과 동등하거나 더 높은 정확도를 달성하면서 GPU 메모리 사용량을 최대 10배까지 줄일 수 있음을 보여준다. PRM 기반 방법과 비교했을 때, GG는 유사한 정확도를 달성하면서 추론 속도는 8배 더 빠르고 메모리 사용량은 4-5배 더 낮다. 또한, GG는 BoN 전략에 비해 KV 캐시 메모리 사용량을 약 50% 줄여 TTS 기술의 더 효율적이고 실용적인 배포를 가능하게 한다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전으로 언어, 시각, 구조화된 입력의 통합 처리가 가능해지면서 논리적 추론, 공간적 사고, 과학적 분석과 같은 복잡한 과제에 대한 가능성이 열렸다. 그러나 이러한 잠재력에도 불구하고, 특히 중간 사고 흔적이 추가된 MLLMs-T의 추론 능력은 여전히 잘 이해되지 않고 있으며, 표준화된 평가 벤치마크가 부족한 실정이다. 기존 연구는 주로 지각 또는 최종 답변의 정확성에 초점을 맞추고 있어, 모델이 다양한 모달리티에서 어떻게 추론하거나 실패하는지에 대한 통찰력이 제한적이다. 이러한 격차를 해결하기 위해, 우리는 명시적 사고를 통한 멀티모달 추론을 엄격하게 평가하기 위한 새로운 벤치마크인 MMMR을 소개한다. MMMR은 1) 상징적 깊이와 다중 홉 요구 사항을 가진 여섯 가지 다양한 추론 유형을 아우르는 1,083개의 고난이도 질문 데이터셋과 2) 정확성 이상의 추론 품질을 관련성, 일관성, 구조화된 오류 주석과 같은 메트릭을 통해 평가하기 위한 모듈식 추론 흔적 평가 파이프라인(RTEP)으로 구성된다. 실험 결과, MLLMs-T는 전반적으로 사고 흔적이 없는 모델보다 우수한 성능을 보였지만, Claude-3.7-Sonnet 및 Gemini-2.5 Pro와 같은 최상위 모델조차도 불일치 및 과도한 사고와 같은 추론 병리 현상을 겪는 것으로 나타났다. 이 벤치마크는 정확성과 추론 품질 사이의 지속적인 격차를 드러내며, 향후 모델 개발을 위한 실행 가능한 평가 파이프라인을 제공한다. 전반적으로, MMMR은 차세대 멀티모달 추론 시스템을 평가, 비교 및 개선하기 위한 확장 가능한 기반을 제공한다.
대규모 언어 모델(LLM)의 최근 발전은 함수 수준의 코드 생성에서 유망한 결과를 보여주었지만, 리포지토리 수준의 소프트웨어 엔지니어링 작업은 여전히 도전적인 과제로 남아 있습니다. 현재의 솔루션은 주로 독점적인 LLM 에이전트에 의존하고 있어 예측 불가능성을 초래하고 접근성을 제한하며, 데이터 프라이버시와 모델 커스터마이제이션에 대한 우려를 불러일으키고 있습니다. 본 논문은 오픈소스 LLM이 에이전트 기반 접근법 없이도 리포지토리 수준의 작업을 효과적으로 해결할 수 있는지 조사합니다. 우리는 LLM이 코드베이스 내의 함수와 파일을 의미 정보와 구조적 의존성을 통해 이해할 수 있도록 함으로써 이것이 가능함을 입증합니다. 이를 위해, 우리는 리포지토리 코드 그래프 구조를 LLM의 어텐션 메커니즘에 통합하고, 노드 속성을 LLM의 입력 공간에 매핑하기 위한 특수 어댑터를 사용하는 코드 그래프 모델(CGM)을 소개합니다. 에이전트 없는 그래프 RAG 프레임워크와 결합했을 때, 우리의 접근 방식은 오픈소스 Qwen2.5-72B 모델을 사용하여 SWE-bench Lite 벤치마크에서 43.00%의 해결률을 달성했습니다. 이 성능은 오픈 가중치 모델 중 1위, 오픈소스 시스템을 사용한 방법 중 2위, 전체적으로 8위를 기록하며, 이전의 최고 오픈소스 모델 기반 방법을 12.33% 앞질렀습니다.
비디오 대형 언어 모델(Video-LLMs)에 강화 학습(Reinforcement Learning, RL)을 적용하는 것은 복잡한 비디오 추론에 있어 상당한 가능성을 보여줍니다. 그러나 결과 기반 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 같은 인기 있는 강화 미세 조정(Reinforcement Fine-Tuning, RFT) 방법은 데이터 준비 병목 현상(예: 노이즈 또는 높은 비용)으로 인해 제한되며, 긴 사고의 연쇄(Chain-of-Thoughts, CoTs)와 하위 작업 성능의 불안정한 개선을 보입니다. 이러한 한계를 해결하기 위해, 우리는 VerIPO(Verifier-guided Iterative Policy Optimization)를 제안합니다. 이 방법은 비디오 LLMs의 깊고 장기적인 추론 체인 생성 능력을 점진적으로 향상시키기 위해 설계되었습니다. 핵심 구성 요소는 롤아웃 인식 검증기(Rollout-Aware Verifier)로, GRPO와 직접 선호 최적화(Direct Preference Optimization, DPO) 훈련 단계 사이에 위치하여 GRPO-Verifier-DPO 훈련 루프를 형성합니다. 이 검증기는 소형 LLMs를 판단자로 활용하여 롤아웃의 추론 논리를 평가함으로써, 반영적이고 문맥적으로 일관된 CoTs를 포함한 고품질 대조 데이터를 구축할 수 있게 합니다. 이러한 선별된 선호 샘플은 DPO 단계를 효율적으로 진행하게 하여(GRPO보다 7배 빠름), 특히 길이와 문맥적 일관성 측면에서 추론 체인의 질을 크게 개선합니다. 이 훈련 루프는 GRPO의 광범위한 탐색과 DPO의 목표 지향적 최적화의 이점을 누립니다. 실험 결과는 다음과 같습니다: 1) 표준 GRPO 변종보다 훨씬 빠르고 효과적인 최적화로 우수한 성능을 달성; 2) 우리가 훈련한 모델은 대규모 지시 튜닝된 Video-LLMs의 직접 추론을 능가하며, 다양한 비디오 추론 작업에서 길고 문맥적으로 일관된 CoTs를 생성; 3) 한 번의 반복으로도 강력한 LMMs(예: Kimi-VL) 및 장기 추론 모델(예: Video-R1)을 능가하여 그 효과성과 안정성을 입증.
디퓨전 트랜스포머(DiTs)는 비디오 생성에 필수적이지만, 어텐션의 이차 복잡성으로 인해 상당한 지연 시간이 발생합니다. 중요한 토큰만 계산하는 희소 어텐션은 계산 비용을 줄이고 유망한 가속 접근 방식을 제공합니다. 그러나 기존 방법들은 동일한 계산 예산 내에서 최적의 생성 품질에 도달하지 못하는 두 가지 이유가 있습니다: (1) 부정확한 중요 토큰 식별: 현재 방법들은 위치가 아닌 의미를 기반으로 토큰을 클러스터링하여 부정확한 집계 표현을 초래합니다. (2) 과도한 계산 낭비: 중요 토큰이 비중요 토큰 사이에 흩어져 있어, 연속적인 토큰 처리에 최적화된 GPU에서 계산이 낭비됩니다. 본 논문에서는 생성 품질과 효율성 간의 파레토 최적화를 달성하기 위해 식별 정확도를 극대화하고 계산 낭비를 최소화하는 학습이 필요 없는 프레임워크인 SVG2를 제안합니다. SVG2의 핵심은 k-means를 사용하여 의미적 유사성을 기반으로 토큰을 클러스터링하고 재정렬하는 의미 인식 순열(semantic-aware permutation)입니다. 이 접근 방식은 정확한 클러스터 표현을 보장하여 식별 정확도를 향상시키고, 중요 토큰의 밀집된 레이아웃을 통해 패딩 없이 효율적인 계산을 가능하게 합니다. 또한, SVG2는 top-p 동적 예산 제어와 맞춤형 커널 구현을 통합하여 HunyuanVideo와 Wan 2.1에서 각각 최대 30과 26의 PSNR을 유지하면서 최대 2.30배 및 1.89배의 속도 향상을 달성합니다.
멀티모달 대형 언어 모델(MLLMs)은 정적 이미지에서의 광학 문자 인식(OCR)에서 상당한 정확도를 달성했습니다. 그러나 동영상 OCR에서의 효율성은 모션 블러, 시간적 변화, 동영상 콘텐츠에 내재된 시각적 효과와 같은 요인들로 인해 크게 저하됩니다. 실용적인 MLLMs 훈련을 위한 더 명확한 지침을 제공하기 위해, 우리는 다양한 동영상 OCR 응용 시나리오를 포괄하는 MME-VideoOCR 벤치마크를 소개합니다. MME-VideoOCR은 10개의 작업 카테고리로 구성된 25개의 개별 작업과 44개의 다양한 시나리오를 포함합니다. 이러한 작업들은 텍스트 인식을 넘어 동영상 내 텍스트 콘텐츠의 깊은 이해와 추론을 통합합니다. 이 벤치마크는 다양한 해상도, 화면 비율, 지속 시간을 가진 1,464개의 동영상과 2,000개의 정밀하게 선별된 수동 주석 질문-답변 쌍으로 구성됩니다. 우리는 MME-VideoOCR에서 18개의 최신 MLLMs를 평가했으며, 가장 성능이 좋은 모델(Gemini-2.5 Pro)조차도 73.7%의 정확도만 달성하는 것을 확인했습니다. 세부 분석 결과, 기존 MLLMs는 관련 텍스트가 단일 또는 소수의 프레임 내에 포함된 작업에서는 강력한 성능을 보이지만, 전체 동영상 이해를 요구하는 작업을 효과적으로 처리하는 데는 제한된 능력을 보입니다. 이러한 한계는 특히 시공간적 추론, 프레임 간 정보 통합, 언어 사전 편향에 대한 저항이 필요한 시나리오에서 두드러집니다. 우리의 연구 결과는 동적 동영상 시나리오에서 신뢰할 수 있는 OCR을 위해 고해상도 시각적 입력과 충분한 시간적 커버리지의 중요성을 강조합니다.
본 논문에서는 GUI 에이전트의 두 가지 주요 과제, 즉 궤적 결과 검증의 어려움과 고품질 학습 데이터의 확장성 부족을 해결하기 위한 자가 개선 프레임워크인 UI-Genie를 소개한다. 이러한 과제는 각각 보상 모델과 자가 개선 파이프라인을 통해 해결된다. 보상 모델인 UI-Genie-RM은 이미지-텍스트 인터리브 구조를 특징으로 하며, 역사적 컨텍스트를 효율적으로 처리하고 행동 수준과 작업 수준의 보상을 통합한다. UI-Genie-RM의 학습을 지원하기 위해, 규칙 기반 검증, 제어된 궤적 손상, 그리고 하드 네거티브 마이닝과 같은 의도적으로 설계된 데이터 생성 전략을 개발하였다. 두 번째 과제를 해결하기 위해, 자가 개선 파이프라인은 보안 탐색과 동적 환경에서의 결과 검증을 통해 에이전트와 보상 모델을 점진적으로 향상시켜 해결 가능한 복잡한 GUI 작업을 확장한다. 모델 학습을 위해 UI-Genie-RM-517k와 UI-Genie-Agent-16k 데이터셋을 생성하였으며, 이는 GUI 에이전트를 위한 최초의 보상 특화 데이터셋을 구축하면서 수동 주석 없이도 고품질의 합성 궤적 생성을 입증한다. 실험 결과, UI-Genie는 세 세대의 데이터-모델 자가 개선을 통해 여러 GUI 에이전트 벤치마크에서 최첨단 성능을 달성함을 보여준다. 본 연구는 추가 연구를 촉진하기 위해 전체 프레임워크 구현과 생성된 데이터셋을 https://github.com/Euphoria16/UI-Genie에서 공개한다.
Low-Rank Adaptation (LoRA)은 생성 모델의 매개변수 효율적 미세 조정(PEFT)을 위한 인기 있는 방법으로, 그 간결함과 효과성으로 높이 평가받고 있습니다. 최근의 개선에도 불구하고, LoRA는 여전히 근본적인 한계를 가지고 있습니다: 병목 현상이 확장될 때 과적합이 발생한다는 점입니다. LoRA는 랭크 32-64에서 최고의 성능을 발휘하지만, 더 높은 랭크에서는 정확도가 정체되거나 감소하며, 여전히 완전 미세 조정(FFT)의 성능에 미치지 못합니다. 우리는 이 문제의 근본 원인을 LoRA의 구조적 병목 현상으로 파악했는데, 이는 관련 없는 입력 채널에 기울기 얽힘을 도입하고 기울기 전파를 왜곡시킵니다. 이를 해결하기 위해, 우리는 새로운 구조인 Granular Low-Rank Adaptation (GraLoRA)를 소개합니다. GraLoRA는 가중치 행렬을 하위 블록으로 분할하고, 각 블록에 자체적인 저랭크 어댑터를 부여합니다. GraLoRA는 계산 또는 저장 비용을 거의 들이지 않고 LoRA의 한계를 극복하며, 표현 능력을 효과적으로 증가시키고 FFT 동작에 더 가깝게 근사합니다. 코드 생성 및 상식 추론 벤치마크에서의 실험은 GraLoRA가 LoRA 및 다른 기준선을 일관되게 능가하며, HumanEval+에서 Pass@1 기준 최대 +8.5%의 절대적 성능 향상을 달성함을 보여줍니다. 이러한 개선은 모델 크기와 랭크 설정에 걸쳐 유지되며, GraLoRA를 PEFT를 위한 확장 가능하고 강력한 솔루션으로 만듭니다. 코드, 데이터 및 스크립트는 https://github.com/SqueezeBits/GraLoRA.git에서 확인할 수 있습니다.
기업 고객들은 이메일 초안 작성, 영업 프레젠테이션 구성, 캐주얼 메시지 작성과 같은 중요한 커뮤니케이션 작업에 대형 언어 모델(Large Language Models, LLMs)을 점점 더 많이 도입하고 있습니다. 이러한 모델을 다양한 지역에 배포하기 위해서는 다양한 문화적 및 언어적 맥락을 이해하고 안전하며 존중하는 응답을 생성할 수 있어야 합니다. 기업 애플리케이션의 경우, 명성을 보호하고 신뢰를 유지하며, 안전하지 않거나 공격적인 언어를 효과적으로 식별하고 처리함으로써 규정 준수를 보장하는 것이 중요합니다. 이를 해결하기 위해, 우리는 긍정적 또는 부정적인 어조와 공식적 또는 비공식적인 맥락의 변화를 포함한 실제 시나리오를 시뮬레이션하는 벤치마크인 SweEval을 소개합니다. 이 벤치마크는 작업을 완료하는 동안 특정 욕설을 포함하도록 모델에 명시적으로 지시합니다. 이 벤치마크는 LLMs가 이러한 부적절한 지시를 준수하는지 아니면 거부하는지를 평가하고, 윤리적 프레임워크, 문화적 뉘앙스, 언어 이해 능력과의 일치도를 평가합니다. 기업용 및 그 이상의 윤리적으로 정렬된 AI 시스템 구축 연구를 발전시키기 위해, 우리는 데이터셋과 코드를 공개합니다: https://github.com/amitbcp/multilingual_profanity.
최근 CoT(Chain-of-Thought) 추론과 RL(Reinforcement Learning) 사후 훈련의 발전이 MLLM(Multimodal Large Language Models)의 비디오 추론 능력을 향상시켰다는 보고가 있습니다. 이러한 진전은 자연스럽게 다음과 같은 질문을 제기합니다: 이러한 모델이 인간 전문가와 비슷한 수준으로 복잡한 비디오 추론을 수행할 수 있을까요? 그러나 기존의 비디오 벤치마크는 주로 시각적 인식과 기반 능력을 평가하며, 명시적인 프롬프트나 고립된 시각적 단서에 기반하여 답변할 수 있는 질문들로 구성되어 있습니다. 이러한 벤치마크는 인간이 결론에 도달하기 전에 적극적으로 탐색하고, 통합하며, 여러 단서를 분석해야 하는 현실 세계의 복잡한 추론을 완전히 포착하지 못합니다. 이 문제를 해결하기 위해, 우리는 셜록 홈즈의 추론 과정에서 영감을 받은 Video-Holmes 벤치마크를 제안합니다. 이 벤치마크는 MLLM의 복잡한 비디오 추론 능력을 평가하기 위해 설계되었습니다. Video-Holmes는 270편의 수동으로 주석이 달린 서스펜스 단편 영화에서 도출된 1,837개의 질문으로 구성되며, 신중하게 설계된 7가지 작업을 포함합니다. 각 작업은 영화 내의 주요 사건과 인과 관계를 먼저 식별한 후, 모델이 서로 다른 비디오 세그먼트에 흩어져 있는 여러 관련 시각적 단서를 적극적으로 찾아 연결해야 하는 질문을 설계하여 구성됩니다. 최첨단 MLLM에 대한 우리의 포괄적인 평가는, 이러한 모델들이 일반적으로 시각적 인식에서는 뛰어난 성능을 보이지만 정보 통합에는 상당한 어려움을 겪으며 종종 중요한 단서를 놓친다는 것을 보여줍니다. 예를 들어, 가장 성능이 좋은 모델인 Gemini-2.5-Pro는 정확도가 45%에 불과하며, 대부분의 모델은 40% 미만의 점수를 기록했습니다. 우리는 Video-Holmes가 다중모드 추론을 위한 "홈즈 테스트"로 기능하여, 모델이 더 인간처럼 추론하도록 동기를 부여하고 이 분야의 지속적인 과제를 강조할 수 있기를 바랍니다. 이 벤치마크는 https://github.com/TencentARC/Video-Holmes에서 공개되었습니다.
대규모 언어 모델(LLM)의 코드 추론 능력을 발전시키는 데 있어 근본적인 한계는 고난이도 데이터셋, 특히 대규모로 엄격한 솔루션 검증을 위해 검증 가능한 입력-출력 테스트 케이스가 포함된 데이터셋의 부족입니다. 우리는 rStar-Coder를 소개하며, 이는 418K의 경쟁 수준 코드 문제, 580K의 장기 추론 솔루션, 그리고 다양한 난이도의 풍부한 테스트 케이스로 구성된 대규모 검증 데이터셋을 구축함으로써 LLM의 코드 추론 능력을 크게 향상시킵니다. 이는 세 가지 핵심 기여를 통해 달성되었습니다: (1) 경쟁 프로그래밍 코드 문제와 오라클 솔루션을 선별하여 새로운 해결 가능한 문제를 합성합니다; (2) 입력-출력 테스트 케이스 합성을 위한 신뢰할 수 있는 파이프라인을 도입하여 생성 과정을 세 단계 입력 생성 방법과 효과적인 출력 라벨링을 위한 상호 검증 메커니즘으로 분리합니다; (3) 테스트 케이스 검증된 고품질의 장기 추론 솔루션으로 문제를 보강합니다. Qwen 모델(1.5B-14B)을 다양한 코드 추론 벤치마크에서 광범위하게 실험한 결과, rStar-Coder 데이터셋의 우수성이 입증되었으며, 훨씬 작은 모델 크기로도 최첨단 추론 LLM에 필적하는 성능을 달성했습니다. LiveCodeBench에서 rStar-Coder는 Qwen2.5-7B를 17.4%에서 인상적인 57.3%로, Qwen2.5-14B를 23.3%에서 62.5%로 향상시켜 o3-mini (low)를 3.1% 앞섰습니다. 더 도전적인 USA Computing Olympiad에서 우리의 7B 모델은 평균 pass@1 정확도 16.15%를 달성하며, 최첨단 QWQ-32B를 능가했습니다. 코드와 데이터셋은 https://github.com/microsoft/rStar에서 공개될 예정입니다.
검증 가능한 보상에 대한 DeepSeek-R1-Zero 스타일 강화 학습(RL)을 사용하여 대규모 언어 모델(LLM)을 훈련하는 최근의 패러다임 전환은 코드 및 수학적 추론 분야에서 인상적인 발전을 이끌어냈습니다. 그러나 이 방법론은 규칙 기반 답변 검증이 가능한 작업에만 국한되며, 화학, 의료, 공학, 법률, 생물학, 비즈니스, 경제학과 같은 실생활 도메인으로 자연스럽게 확장되지 않습니다. 현재의 실용적인 해결책은 추가적인 LLM을 모델 기반 검증기로 사용하지만, 이는 강력한 검증기 LLM에 대한 의존성, 보상 해킹에 대한 취약성, 그리고 훈련 중 검증기 모델을 메모리에 유지해야 하는 실질적인 부담과 같은 문제를 야기합니다. 이를 해결하고 DeepSeek-R1-Zero 스타일 훈련을 일반 추론 도메인으로 확장하기 위해, 우리는 답변 검증을 우회하고 대신 RL을 사용하여 참조 답변을 생성할 확률을 직접 최대화하는 검증기 없는 방법(VeriFree)을 제안합니다. 우리는 VeriFree를 검증기 기반 방법과 비교하고, MMLU-Pro, GPQA, SuperGPQA 및 수학 관련 벤치마크에 걸친 광범위한 평가에서 VeriFree가 실질적인 이점과 감소된 계산 요구 사항 외에도 검증기 기반 방법을 능가하거나 동등한 성능을 보임을 입증합니다. 더 나아가, 우리는 이 방법을 정책과 암묵적 검증기를 통합 모델에서 훈련하는 우아한 통합으로서, 그리고 변분 최적화 접근법으로서의 다중 관점에서 통찰을 제공합니다. 코드는 https://github.com/sail-sg/VeriFree에서 확인할 수 있습니다.
인간의 사회적 상호작용은 타인의 말로 표현되지 않은 의도, 감정, 믿음을 추론하는 능력에 의존하며, 이는 심리학적 개념인 마음이론(Theory of Mind, ToM)에 기반한 인지적 기술입니다. 대규모 언어 모델(LLMs)은 의미 이해 작업에서 뛰어난 성능을 보이지만, 인간 커뮤니케이션에 내재된 모호성과 맥락적 뉘앙스를 다루는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 메타인지(metacognition) 심리학 이론에서 영감을 받아 인간과 유사한 사회적 추론을 모방하도록 설계된 다중 에이전트 프레임워크인 MetaMind를 소개합니다. MetaMind는 사회적 이해를 세 가지 협력적 단계로 분해합니다: (1) 마음이론 에이전트(Theory-of-Mind Agent)가 사용자의 정신 상태(예: 의도, 감정)에 대한 가설을 생성하고, (2) 도메인 에이전트(Domain Agent)가 문화적 규범과 윤리적 제약을 사용하여 이러한 가설을 정제하며, (3) 응답 에이전트(Response Agent)가 맥락에 적합한 응답을 생성하면서 추론된 의도와의 일치성을 검증합니다. 우리의 프레임워크는 세 가지 도전적인 벤치마크에서 최첨단 성능을 달성하며, 실제 사회적 시나리오에서 35.7%의 개선과 ToM 추론에서 6.2%의 향상을 보였습니다. 특히, 이 프레임워크는 LLMs가 주요 ToM 작업에서 인간 수준의 성능을 처음으로 달성할 수 있게 합니다. 제거 연구(ablation studies)는 모든 구성 요소의 필요성을 확인하며, 이 프레임워크가 맥락적 타당성, 사회적 적절성, 사용자 적응을 균형 있게 조절할 수 있는 능력을 보여줍니다. 이 연구는 공감적 대화 및 문화적으로 민감한 상호작용을 포함한 인간과 유사한 사회적 지능을 향한 AI 시스템의 발전을 이끌어냅니다. 코드는 https://github.com/XMZhangAI/MetaMind에서 확인할 수 있습니다.
복잡한 작업에서의 성능 향상과 대규모 언어 모델(LLMs)의 해석 가능한 의사결정, 특히 임상 응용 분야를 위해서는 효과적인 추론이 필요합니다. 그러나 비용이 많이 드는 연쇄적 사고(CoT) 데이터에 대한 지도 미세 조정(SFT) 없이는 이를 달성하기 어렵습니다. 이 연구에서는 AlphaMed을 소개합니다. AlphaMed은 공개된 객관식 질의응답(QA) 데이터셋에 대해 최소한의 규칙 기반 보상을 사용하여 강화 학습(RL)만으로 추론 능력이 나타날 수 있음을 보여주는 최초의 의료 LLM입니다. AlphaMed은 기존의 SFT+RL 파이프라인으로 훈련된 모델을 능가하며, 여섯 가지 의료 QA 벤치마크에서 최첨단 성적을 달성했습니다. 특히 도전적인 벤치마크(예: MedXpert)에서는 DeepSeek-V3-671B 및 Claude-3.5-Sonnet과 같은 더 크거나 폐쇄형 모델을 능가하기도 했습니다. 이러한 성공 요인을 이해하기 위해 세 가지 질문을 중심으로 포괄적인 데이터 중심 분석을 수행했습니다: (i) 최소한의 규칙 기반 RL이 CoT 지도 없이 추론을 유도할 수 있는가? (ii) 데이터셋의 양과 다양성이 추론에 어떤 영향을 미치는가? (iii) 질문의 난이도가 추론의 발생과 일반화에 어떻게 영향을 미치는가? 연구 결과, 데이터셋의 정보성은 추론 성능의 주요 동인이며, 정보가 풍부한 객관식 QA 데이터에 대한 최소한의 RL이 CoT 지도 없이도 추론을 유도하는 데 효과적임을 확인했습니다. 또한 벤치마크 간의 상이한 경향을 관찰함으로써 현재 평가의 한계와 더 도전적이고 추론 중심의 의료 QA 벤치마크의 필요성을 강조했습니다.
비디오 대형 언어 모델(Video LLMs)은 비디오 이해에 뛰어나지만, 중복된 비디오 토큰으로 인해 상당한 계산 비효율성을 겪습니다. 기존의 토큰 프루닝(pruning) 방법들이 해결책을 제시하고 있지만, FastV와 같은 LLM 내부에서 작동하는 방식(내부-LLM 프루닝)은 얕은 층에서 본질적인 계산 오버헤드를 발생시킵니다. 반면, LLM 이전에 토큰 프루닝을 수행하는 방식(외부-LLM 프루닝)은 주로 개별 프레임 내의 공간적 중복성이나 제한된 시간 창을 다루며, 더 긴 비디오 시퀀스에 걸친 중요한 전역적 시간적 동역학과 상관관계를 간과합니다. 이로 인해 최적이 아닌 시공간적 축소가 이루어지고 비디오 압축 가능성을 완전히 활용하지 못합니다. 특히, 이러한 전략들을 결합했을 때의 시너지 효과와 상호 영향은 아직 탐구되지 않았습니다. 중복성을 더욱 줄이기 위해, 우리는 훈련이 필요 없는 새로운 통합적 토큰 병합 프레임워크인 HoliTom을 소개합니다. HoliTom은 전역적 중복성 인식 시간 분할을 통해 외부-LLM 프루닝을 수행한 후, 시공간적 병합을 통해 시각적 토큰을 90% 이상 줄여 LLM의 계산 부담을 크게 완화합니다. 이를 보완하기 위해, 우리는 외부-LLM 프루닝과의 우수한 성능 및 호환성을 위해 설계된 강력한 내부-LLM 토큰 유사성 기반 병합 접근법을 도입했습니다. 평가 결과, 우리의 방법은 LLaVA-OneVision-7B에서 FLOPs의 6.9%로 계산 비용을 줄이면서도 원래 성능의 99.1%를 유지하는 유망한 효율성-성능 트레이드오프를 보여줍니다. 또한, Time-To-First-Token(TTFT)을 2.28배 줄이고 디코딩 처리량을 1.32배 가속화하여, 효율적인 비디오 LLM 추론을 위한 통합 프루닝 접근법의 실질적인 이점을 입증했습니다.
이미지-투-비디오(I2V) 생성에서 인터랙티브 모션 제어를 통해 이미지를 애니메이션화하는 기술이 인기를 끌고 있다. 최근의 접근법들은 일반적으로 큰 가우시안 커널을 사용하여 모션 궤적을 조건으로 확장하지만, 이동 영역을 명시적으로 정의하지 않아 거친 모션 제어를 초래하며 객체와 카메라의 움직임을 분리하지 못한다. 이를 해결하기 위해, 우리는 정밀한 모션 제어기인 MotionPro를 제안한다. MotionPro는 지역별 궤적과 모션 마스크를 활용하여 세밀한 모션 합성을 조절하고, 대상 모션 카테고리(즉, 객체 또는 카메라 이동)를 각각 식별한다. 기술적으로, MotionPro는 먼저 추적 모델을 통해 각 학습 비디오의 플로우 맵을 추정한 후, 지역별 궤적을 샘플링하여 추론 시나리오를 시뮬레이션한다. 큰 가우시안 커널을 통해 플로우를 확장하는 대신, 우리의 지역별 궤적 접근법은 지역 내 궤적을 직접 활용하여 더 정밀한 제어를 가능하게 하여 세밀한 움직임을 효과적으로 특성화한다. 동시에, 예측된 플로우 맵에서 모션 마스크를 도출하여 이동 영역의 전체적인 모션 역학을 포착한다. 자연스러운 모션 제어를 위해, MotionPro는 지역별 궤적과 모션 마스크를 특징 변조를 통해 통합하여 비디오 노이즈 제거를 더욱 강화한다. 더욱 주목할 만한 점은, 우리는 세밀한 및 객체 수준의 I2V 모션 제어 평가를 위해 1.1K개의 사용자 주석이 달린 이미지-궤적 쌍으로 구성된 벤치마크인 MC-Bench를 세심하게 구축했다. WebVid-10M과 MC-Bench에서 수행된 광범위한 실험은 MotionPro의 효과를 입증한다. 더 많은 결과는 프로젝트 페이지를 참조하라: https://zhw-zhang.github.io/MotionPro-page/.
다국어 정렬(Multilingual Alignment)은 대형 언어 모델(LLM)의 다국어 능력을 강화하는 효과적이고 대표적인 패러다임으로, 고자원 언어에서 저자원 언어로의 능력 전이를 가능하게 합니다. 한편, 언어 특정 뉴런에 대한 일부 연구는 LLM이 서로 다른 언어를 처리할 때 선택적으로 활성화되는 언어 특정 뉴런이 존재함을 밝혀냈습니다. 이는 다국어 시나리오에서 LLM의 메커니즘을 보다 구체적으로 분석하고 이해할 수 있는 새로운 관점을 제공합니다. 본 연구에서는 더 세분화된 뉴런 식별 알고리즘을 제안하며, 이는 언어 뉴런(언어 특정 뉴런 및 언어 관련 뉴런 포함)과 언어 무관 뉴런을 탐지합니다. 또한, 다양한 유형의 뉴런 분포 특성을 기반으로 LLM의 다국어 추론 내부 프로세스를 네 가지 부분으로 나눕니다: (1) 다국어 이해, (2) 공유 의미 공간 추론, (3) 다국어 출력 공간 변환, (4) 어휘 공간 출력. 추가적으로, 우리는 정렬 전후의 모델을 다양한 유형의 뉴런에 초점을 맞춰 체계적으로 분석합니다. 또한 '자발적 다국어 정렬(Spontaneous Multilingual Alignment)' 현상도 분석합니다. 전반적으로, 본 연구는 다양한 유형의 뉴런을 기반으로 포괄적인 조사를 수행함으로써, 다국어 정렬과 LLM의 다국어 능력을 더 잘 이해하기 위한 실증적 결과와 유용한 통찰을 제공합니다.
제어 가능성, 시간적 일관성, 세부 합성은 여전히 비디오 생성에서 가장 중요한 과제로 남아 있습니다. 본 논문에서는 널리 사용되지만 충분히 탐구되지 않은 시네마틱 기법인 '프레임 인 및 프레임 아웃'에 초점을 맞춥니다. 구체적으로, 이미지-투-비디오 생성에서 출발하여 사용자는 사용자 지정 모션 궤적을 기반으로 이미지 내 객체가 자연스럽게 장면을 떠나거나 새로운 정체성 참조를 제공하여 장면에 들어가도록 제어할 수 있습니다. 이 작업을 지원하기 위해, 우리는 반자동으로 큐레이팅된 새로운 데이터셋, 이 설정을 대상으로 한 포괄적인 평가 프로토콜, 그리고 효율적인 정체성 보존 모션 제어 가능 비디오 Diffusion Transformer 아키텍처를 소개합니다. 평가 결과, 우리가 제안한 접근 방식이 기존 베이스라인을 크게 능가하는 것으로 나타났습니다.
최근 생성 모델의 발전으로 고품질의 텍스트-이미지 생성이 가능해졌습니다. 그러나 오픈소스 이미지 편집 모델은 여전히 상용 모델에 비해 뒤처져 있는데, 이는 주로 고품질 데이터의 부족과 불충분한 벤치마크 때문입니다. 이러한 한계를 극복하기 위해, 우리는 120만 개의 신중하게 선별된 편집 쌍으로 구성된 대규모 고품질 이미지 편집 데이터셋인 ImgEdit을 소개합니다. 이 데이터셋은 새롭고 복잡한 단일 단계 편집뿐만 아니라 도전적인 다단계 작업도 포함하고 있습니다. 데이터 품질을 보장하기 위해, 우리는 최첨단 시각-언어 모델, 탐지 모델, 분할 모델을 통합한 다단계 파이프라인을 사용하며, 작업별 인페인팅 절차와 엄격한 후처리 과정을 거칩니다. ImgEdit은 기존 데이터셋을 작업의 참신성과 데이터 품질 모두에서 능가합니다. ImgEdit을 사용하여, 우리는 참조 이미지와 편집 프롬프트를 처리하기 위해 시각 언어 모델을 사용하는 편집 모델인 ImgEdit-E1을 학습시켰으며, 이는 여러 작업에서 기존 오픈소스 모델을 능가하여 ImgEdit과 모델 설계의 가치를 입증했습니다. 포괄적인 평가를 위해, 우리는 지시 사항 준수, 편집 품질, 세부 사항 보존 측면에서 이미지 편집 성능을 평가하기 위해 설계된 벤치마크인 ImgEdit-Bench를 소개합니다. 이 벤치마크는 기본 테스트 스위트, 도전적인 단일 단계 스위트, 전용 다단계 스위트를 포함합니다. 우리는 오픈소스 및 상용 모델뿐만 아니라 ImgEdit-E1도 평가하여, 현재 이미지 편집 모델의 동작에 대한 심층 분석과 실행 가능한 통찰을 제공합니다. 소스 데이터는 https://github.com/PKU-YuanGroup/ImgEdit에서 공개적으로 이용 가능합니다.
실제 세계의 많은 응용 분야에서, 배포된 모델들은 훈련 중에 본 데이터와 다른 입력값을 마주하게 됩니다. 분포 외 탐지는 입력값이 이전에 보지 못한 분포에서 비롯되었는지를 식별하는 반면, 개방형 세계 인식은 이러한 입력값을 표시하여 시스템이 지속적으로 등장하는 이전에 알려지지 않은 범주를 처리할 수 있도록 견고하게 유지합니다. 파운데이션 및 비전-언어 모델은 의료 영상을 포함한 다양한 도메인에 걸쳐 광범위한 일반화를 기대하며 대규모의 다양한 데이터셋에 대해 사전 훈련됩니다. 그러나 몇 가지 일반적인 이상 유형만 포함된 테스트 세트에서 이러한 모델을 벤치마킹하는 것은 평가를 암묵적으로 폐쇄형 문제로 축소시켜, 임상 사용 중에 마주치는 희귀하거나 진정으로 새로운 조건에서의 실패를 가리게 됩니다. 이에 따라 우리는 281개의 희귀 병리와 다양한 획득 프로토콜을 아우르는 sim900 뇌 MRI 스캔으로 구성된 도전적이고 현실적인 평가 전용 벤치마크인 NOVA를 제시합니다. 각 사례는 풍부한 임상 서술과 이중 맹검 전문가 바운딩 박스 주석을 포함합니다. 이를 통해 이상 현상의 위치 파악, 시각적 캡션 생성, 그리고 진단적 추론에 대한 통합 평가가 가능합니다. NOVA는 훈련에 사용되지 않기 때문에, 분포 외 일반화의 극한 스트레스 테스트 역할을 합니다: 모델은 샘플 외관과 의미 공간 모두에서 분포 격차를 극복해야 합니다. 주요 비전-언어 모델(GPT-4o, Gemini 2.0 Flash, Qwen2.5-VL-72B)의 베이스라인 결과는 모든 작업에서 상당한 성능 하락을 보여주며, NOVA가 진정으로 알려지지 않은 이상 현상을 탐지, 위치 파악, 그리고 추론할 수 있는 모델을 발전시키기 위한 엄격한 테스트베드임을 입증합니다.
본 논문은 새로운 다음 디테일 예측 전략을 통해 이미지를 모델링하는 coarse-to-fine 1D 자기회귀(AR) 이미지 생성 방법인 DetailFlow를 제안합니다. 점진적으로 저하된 이미지로 감독된 해상도 인식 토큰 시퀀스를 학습함으로써, DetailFlow는 전역 구조에서 시작하여 점진적으로 디테일을 정제하는 생성 과정을 가능하게 합니다. 이 coarse-to-fine 1D 토큰 시퀀스는 자기회귀 추론 메커니즘과 잘 부합하여, AR 모델이 복잡한 시각적 콘텐츠를 생성하는 데 더 자연스럽고 효율적인 방식을 제공합니다. 우리의 간결한 1D AR 모델은 이전 접근 방식(VAR/VQGAN)보다 훨씬 적은 토큰 수로도 고품질의 이미지 합성을 달성합니다. 또한, 우리는 자기 수정 기능을 갖춘 병렬 추론 메커니즘을 제안하여, 생성 속도를 약 8배 가속화하면서도 교사 강제 감독에서 발생하는 누적 샘플링 오류를 줄입니다. ImageNet 256x256 벤치마크에서, 우리의 방법은 128개의 토큰으로 2.96 gFID를 달성하여, 각각 680개의 토큰을 필요로 하는 VAR(3.3 FID)과 FlexVAR(3.05 FID)을 능가합니다. 또한, 크게 줄어든 토큰 수와 병렬 추론 메커니즘 덕분에, 우리의 방법은 VAR과 FlexVAR에 비해 거의 2배 빠른 추론 속도를 보입니다. 광범위한 실험 결과는 DetailFlow가 기존의 최신 방법들에 비해 뛰어난 생성 품질과 효율성을 보여줍니다.
능동 시각(Active vision), 또는 능동 지각(Active perception)은 작업과 관련된 정보를 수집하기 위해 어디를 어떻게 볼지 능동적으로 선택하는 과정을 의미합니다. 이는 인간과 고급 구현 에이전트(embodied agents)에서 효율적인 지각과 의사결정의 중요한 구성 요소입니다. 최근, 로봇 시스템에서 중앙 계획 및 의사결정 모듈로 다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 사용하는 것이 광범위한 관심을 받고 있습니다. 그러나 구현된 지능에서 능동 지각의 중요성에도 불구하고, MLLMs가 능동 지각 능력을 갖추거나 학습할 수 있는 방법에 대한 탐구는 거의 이루어지지 않았습니다. 본 논문에서는 먼저 MLLM 기반 능동 지각 작업에 대한 체계적인 정의를 제공합니다. 최근 제안된 GPT-o3 모델의 확대 검색 전략이 능동 지각의 특수한 경우로 간주될 수 있음을 지적하지만, 여전히 검색 효율성이 낮고 영역 선택이 부정확한 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 GRPO를 기반으로 한 순수 강화 학습 기반 훈련 프레임워크인 ACTIVE-O3를 제안합니다. 이 프레임워크는 MLLMs에 능동 지각 능력을 부여하도록 설계되었습니다. 또한, 우리는 ACTIVE-O3를 일반적인 오픈 월드 작업(예: 소형 객체 및 밀집 객체 그라운딩)과 도메인 특화 시나리오(예: 원격 감지 및 자율 주행에서의 소형 객체 탐지, 세분화된 상호작용 세분화)를 아우르는 포괄적인 벤치마크 제품군을 구축했습니다. 더 나아가, ACTIVE-O3는 V* 벤치마크에서 명시적인 추론 데이터에 의존하지 않고도 강력한 제로샷 추론 능력을 보여줍니다. 우리의 작업이 MLLMs에서의 능동 지각 연구를 촉진하기 위한 간단한 코드베이스와 평가 프로토콜을 제공할 수 있기를 바랍니다.
언어 모델 생성에 대한 정밀한 제어는 안전성과 신뢰성을 보장하는 데 필수적입니다. 프롬프트 엔지니어링과 스티어링(steering)이 모델 행동에 개입하는 데 흔히 사용되지만, 모델 내부의 방대한 파라미터 수는 종종 매우 복잡하게 얽힌 내부 표현을 초래합니다. 이러한 상호의존성은 제어 정밀도를 제한하고 때로는 의도치 않은 부작용을 일으킬 수 있습니다. 최근 연구에서는 고차원 공간에서 지식을 분리하여 스티어링을 수행하기 위해 희소 오토인코더(SAE)를 활용하는 방법을 탐구해 왔습니다. 그러나 이러한 적용은 원자적 지식 구성요소를 찾는 데 있어 비사소한 문제로 인해 단순한 작업에만 제한되어 왔습니다. 본 논문에서는 분리된 지식 구성요소를 격리하고 조작하여 안전성을 강화하는 새로운 방법인 Steering Target Atoms(STA)를 제안합니다. 포괄적인 실험을 통해 우리의 접근법이 효과적임을 입증하였습니다. 추가 분석 결과, 특히 적대적 시나리오에서 스티어링이 우수한 견고성과 유연성을 보이는 것으로 나타났습니다. 또한, 스티어링 전략을 대규모 추론 모델에 적용하여 정밀한 추론 제어에서의 효과를 확인하였습니다.
우리는 XBRL 기반 재무 보고 컨텍스트에서 대규모 언어 모델(LLMs)의 구조화된 정보 추출 및 의미론적 정렬 능력을 평가하기 위해 설계된 최초의 전범위, 테이블 인식 XBRL 벤치마크인 FinTagging을 소개합니다. XBRL 태깅을 단순한 다중 클래스 분류로 과소평가하고 서술적 텍스트에만 초점을 맞춘 기존 벤치마크와 달리, FinTagging은 XBRL 태깅 문제를 두 가지 하위 작업으로 분해합니다: FinNI는 재무 개체 추출을, FinCL은 분류 체계 기반 개념 정렬을 담당합니다. 이는 모델이 비정형 텍스트와 구조화된 테이블 모두에서 사실을 추출하고 10,000개 이상의 US-GAAP 분류 체계와 정렬하도록 요구함으로써 현실적이고 세밀한 평가를 가능하게 합니다. 우리는 제로샷 설정에서 다양한 LLMs를 평가하며, 두 하위 작업과 전체 태깅 정확도에 대한 성능을 체계적으로 분석합니다. 우리의 결과는 LLMs가 정보 추출에서 강력한 일반화 능력을 보이지만, 특히 밀접하게 관련된 분류 체계 항목을 구별하는 데 있어 세밀한 개념 정렬에 어려움을 겪는다는 것을 보여줍니다. 이러한 발견은 정확한 재무 공시 요구를 충족시키기 위해 개선된 의미론적 추론과 스키마 인식 모델링의 필요성을 강조하며, 기존 LLMs의 XBRL 태깅 완전 자동화의 한계를 드러냅니다. 코드는 GitHub 저장소에서, 데이터는 Hugging Face 저장소에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 시각적 콘텐츠를 이해하고 추론하는 데 있어 뛰어난 능력을 보여주었지만, 시점 간 이해와 공간 추론이 필요한 작업에서는 여전히 상당한 과제가 남아 있습니다. 우리는 중요한 한계를 발견했습니다: 현재의 VLMs는 주로 카메라의 관점에서의 자기 중심적 공간 추론에 뛰어나지만, 다른 개체의 공간적 참조 프레임을 채택해야 할 때 타자 중심적 시점으로 일반화하는 데 실패합니다. 우리는 ViewSpatial-Bench를 소개합니다. 이는 다중 시점 공간 위치 인식 평가를 위해 특별히 설계된 첫 번째 포괄적인 벤치마크로, 정확한 방향 레이블을 생성하는 자동화된 3D 주석 파이프라인을 통해 다섯 가지 독특한 작업 유형을 지원합니다. ViewSpatial-Bench에서 다양한 VLMs를 종합적으로 평가한 결과, 모델들이 카메라 관점 작업에서는 합리적인 성능을 보이지만 인간의 관점에서 추론할 때는 정확도가 감소하는 상당한 성능 격차가 나타났습니다. 우리의 다중 관점 공간 데이터셋을 통해 VLMs를 미세 조정함으로써, 작업 전반에 걸쳐 46.24%의 성능 향상을 달성했으며, 이는 우리의 접근 방식의 효율성을 강조합니다. 우리의 연구는 구현된 AI 시스템에서의 공간 지능을 위한 중요한 벤치마크를 확립하고, 3D 공간 관계를 모델링함으로써 VLMs의 해당 공간 이해 능력이 향상된다는 경험적 증거를 제공합니다.
확장 가능한 벡터 그래픽스(SVG)는 시각적 디자인을 해석 가능한 코드로 표현하기 위한 강력한 형식을 제공한다. 최근 비전-언어 모델(VLM)의 발전은 이 문제를 코드 생성 작업으로 프레이밍하고 대규모 사전 학습을 활용함으로써 고품질 SVG 생성을 가능하게 했다. VLM은 전역적 의미론과 세밀한 시각적 패턴을 모두 포착하면서 비전, 자연어, 코드 도메인 간의 지식을 전이할 수 있기 때문에 이 작업에 특히 적합하다. 그러나 기존의 VLM 접근법은 학습 중에 렌더링된 이미지를 관찰하지 않기 때문에 충실하고 효율적인 SVG를 생성하는 데 어려움을 겪는 경우가 많다. 자동회귀적 SVG 코드 생성을 위한 미분 가능한 렌더링은 아직 사용할 수 없지만, 렌더링된 출력물을 원본 입력과 비교하여 강화 학습(RL)에 적합한 평가적 피드백을 제공할 수 있다. 우리는 렌더링 피드백을 활용하여 자동회귀적 VLM에서 SVG 생성을 향상시키는 RL 방법인 RLRF(Reinforcement Learning from Rendering Feedback)를 소개한다. 입력 이미지가 주어지면 모델은 SVG 롤아웃을 생성하고 이를 렌더링하여 원본 이미지와 비교하여 보상을 계산한다. 이 시각적 충실도 피드백은 모델이 더 정확하고 효율적이며 의미론적으로 일관된 SVG를 생성하도록 유도한다. RLRF는 지도 미세 조정을 크게 능가하며, 일반적인 실패 모드를 해결하고 강력한 구조적 이해와 일반화를 통해 정밀하고 고품질의 SVG 생성을 가능하게 한다.
최근 연구에 따르면, 대형 언어 모델(LLM)의 추론 능력은 수학 및 코딩과 같은 분야의 질의응답(QA) 작업에 강화 학습(RL)을 적용함으로써 향상될 수 있음이 밝혀졌습니다. 긴 문맥 길이를 가진 LLM은 DeepSeek R1에서 관찰된 자기 수정 행동에서 알 수 있듯이, 검색을 수행하는 방법을 학습할 수 있습니다. 그러나 이러한 검색 행동은 종종 부정확하고 신뢰도가 낮아, 길고 불필요한 응답을 생성하며 직관과 검증의 결함을 드러냅니다. 심리학의 이중 과정 이론(Dual Process Theory)에서 영감을 받아, 우리는 QA 작업에 네 단계를 포함하는 간단한 수정을 제안합니다: 빠른 사고(Fast Thinking) 단계에서는 LLM이 엄격한 토큰 예산 내에서 답변해야 하며, 검증(Verification) 단계에서는 모델이 초기 응답을 평가합니다. 느린 사고(Slow Thinking) 단계에서는 초기 응답을 더 깊이 고민하여 개선하며, 요약(Summarization) 단계에서는 이전 단계의 개선 사항을 정확한 단계로 정제합니다. 우리가 제안한 작업은 Qwen2.5-1.5B의 평균 정확도를 24.9%에서 27.9%로, DeepSeek-R1-Qwen-1.5B의 평균 정확도를 45.9%에서 49.8%로 향상시켰습니다. 특히, Qwen2.5-1.5B의 경우 빠른 사고 모드만으로도 1000개 미만의 토큰을 사용하여 26.8%의 정확도를 달성하며, 상당한 추론 효율성 향상을 보여줍니다. 이러한 결과는 직관과 숙고적 추론이 별개이며 상호 보완적인 시스템으로, 목표 지향적 훈련을 통해 이점을 얻을 수 있음을 시사합니다.
우리는 시각적 에이전트가 경험적 성능을 기반으로 다양한 도구 라이브러리에서 동적으로 탐색, 선택, 결합할 수 있도록 하는 새로운 강화 학습 프레임워크인 VisTA를 소개한다. 기존의 도구 강화 추론 방법은 훈련 없이 프롬프트를 사용하거나 대규모 미세 조정에 의존하며, 둘 다 능동적인 도구 탐색이 부족하고 일반적으로 제한된 도구 다양성을 가정한다. 또한 미세 조정 방법은 광범위한 인간의 감독을 요구한다. 반면, VisTA는 종단 간 강화 학습을 활용하여 작업 결과를 피드백 신호로 사용하여 정교하고 쿼리 특화된 도구 선택 전략을 반복적으로 개선한다. 그룹 상대 정책 최적화(GRPO)를 통해 우리의 프레임워크는 명시적인 추론 감독 없이도 에이전트가 효과적인 도구 선택 경로를 자율적으로 발견할 수 있도록 한다. ChartQA, Geometry3K, BlindTest 벤치마크에서의 실험은 VisTA가 훈련 없이 사용하는 베이스라인 대비 특히 분포 외 예제에서 상당한 성능 향상을 달성함을 보여준다. 이러한 결과는 VisTA가 일반화를 강화하고 다양한 도구를 적응적으로 활용하며, 유연하고 경험 기반의 시각적 추론 시스템을 위한 길을 열어줄 수 있는 능력을 강조한다.
멀티모달 대형 언어 모델(MLLMs)은 전이 가능한 적대적 예제에 취약한 상태로 남아 있습니다. 기존 방법들은 일반적으로 CLIP의 [CLS] 토큰과 같은 전역 특징을 적대적 샘플과 타겟 샘플 간에 정렬함으로써 표적 공격을 달성하지만, 패치 토큰에 인코딩된 풍부한 지역 정보를 간과하는 경우가 많습니다. 이는 특히 폐쇄형 모델에서 최적의 정렬과 전이성을 제한하는 결과를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 특징 최적 정렬 기반의 표적 전이 가능 적대적 공격 방법인 FOA-Attack을 제안하여 적대적 전이 능력을 향상시킵니다. 구체적으로, 전역 수준에서는 코사인 유사도 기반의 전역 특징 손실을 도입하여 적대적 샘플과 타겟 샘플의 거시적 특징을 정렬합니다. 지역 수준에서는 트랜스포머 내부의 풍부한 지역 표현을 고려하여 클러스터링 기법을 활용하여 중복된 지역 특징을 완화하고, 적대적 샘플과 타겟 샘플 간의 지역 특징 정렬을 최적 수송(OT) 문제로 공식화하여 지역 클러스터링 최적 수송 손실을 제안하여 미시적 특징 정렬을 개선합니다. 또한, 적대적 예제 생성 과정에서 여러 모델의 영향을 적응적으로 균형 잡기 위한 동적 앙상블 모델 가중치 전략을 제안하여 전이성을 더욱 향상시킵니다. 다양한 모델에 걸친 광범위한 실험을 통해 제안된 방법의 우수성을 입증하였으며, 특히 폐쇄형 MLLMs로의 전이에서 최신 방법들을 능가하는 성능을 보였습니다. 코드는 https://github.com/jiaxiaojunQAQ/FOA-Attack에서 공개되었습니다.
우리는 중학교 수준부터 박사 자격시험까지의 물리학 문제에 기반한 대규모 멀티모달 LLM 추론 벤치마크인 SeePhys를 소개한다. 이 벤치마크는 물리학 분야를 아우르는 7개의 기본 도메인을 포함하며, 21개 범주의 매우 이질적인 다이어그램을 통합한다. 기존 연구에서 시각적 요소가 주로 보조적인 역할을 했던 것과 달리, 우리의 벤치마크는 시각 정보 추출이 필수적인 문제(75%)를 상당 비중으로 특징으로 한다. 광범위한 평가를 통해, 가장 진보된 시각 추론 모델들(예: Gemini-2.5-pro 및 o4-mini)조차도 우리 벤치마크에서 60% 미만의 정확도를 달성하는 것을 관찰했다. 이러한 결과는 현재의 대형 언어 모델들이 직면한 근본적인 도전을 드러내는데, 특히 (i) 다이어그램 해석과 물리학 추론 간의 엄격한 연계를 확립하는 것, 그리고 (ii) 텍스트 단서에 대한 지속적인 의존성을 인지적 단축키로 삼는 것을 극복하는 데 있어서 그러하다.
다중모달 생성의 자동 평가는 자동화된 지표가 인간 평가와 신뢰성 있게 일치하기 어려운, 특히 여러 모달리티를 포함하는 복잡한 작업에서 상당한 도전 과제를 제시한다. 이를 해결하기 위해, 우리는 4가지 모달리티 조합(이미지, 오디오, 텍스트와 이미지의 인터리브, 텍스트와 오디오의 인터리브)에 걸친 다중모달 생성을 위한 포괄적이고 인간 평가와 일치하는 벤치마크인 MMMG를 제안한다. 이 벤치마크는 생성 모델에게 상당한 도전을 제시하면서도 모델과 프로그램의 조합을 통해 신뢰할 수 있는 자동 평가를 가능하게 하는 데 초점을 맞추고 있다. MMMG는 49개의 작업(그중 29개가 새로 개발됨)을 포함하며, 각 작업은 신중하게 설계된 평가 파이프라인과 937개의 지시문을 통해 다중모달 생성 모델의 추론, 제어 가능성 및 기타 주요 능력을 체계적으로 평가한다. 광범위한 검증 결과, MMMG는 인간 평가와 높은 일치도를 보이며 평균 94.3%의 일치율을 달성했다. 24개의 다중모달 생성 모델에 대한 벤치마킹 결과는 최신 모델인 GPT Image가 이미지 생성에서 78.3%의 정확도를 달성했음에도 불구하고, 다중모달 추론 및 인터리브 생성에서는 부족함을 보여준다. 또한, 결과는 오디오 생성에서 상당한 개선 여지가 있음을 시사하며, 이는 향후 연구를 위한 중요한 방향을 강조한다.
강화 학습(Reinforcement Learning, RL)을 통해 훈련된 대형 언어 모델(Large Language Models, LLMs)은 강력한 추론 능력과 역추적 및 오류 수정과 같은 반성적 행동을 보여왔습니다. 그러나 기존의 마르코비안 RL은 최적의 결정론적 정책을 학습하기 위해 탐색을 훈련 단계로 제한하며, 현재 상태를 통해서만 이력 컨텍스트에 의존합니다. 따라서 마르코비안 RL 훈련 중에 반성적 추론이 발생할지, 또는 테스트 시점에 왜 유용한지 여부는 여전히 불분명합니다. 이를 해결하기 위해, 우리는 반성적 탐색을 베이즈 적응형 RL(Bayes-Adaptive RL) 프레임워크 내에서 재구성합니다. 이 프레임워크는 마르코비안 결정 과정에 대한 사후 분포 하에서 기대 수익을 명시적으로 최적화합니다. 이 베이지안 공식은 보상 극대화를 위한 활용과 정보 수집을 위한 탐색을 믿음 업데이트를 통해 내재적으로 장려합니다. 우리의 결과 알고리즘인 BARL은 관찰된 결과를 기반으로 LLM이 전략을 조합하고 전환하도록 지시하며, 모델이 반성적으로 탐색해야 할 시점과 방법에 대한 원칙적인 지침을 제공합니다. 합성 및 수학적 추론 작업에 대한 실험 결과는 BARL이 테스트 시점에서 표준 마르코비안 RL 접근법을 능가하며, 개선된 탐색 효과와 함께 우수한 토큰 효율성을 달성함을 보여줍니다. 우리의 코드는 https://github.com/shenao-zhang/BARL에서 확인할 수 있습니다.
테스트 타임 스케일링이 대규모 언어 모델(LLM) 개발의 핵심 연구 분야로 부상함에 따라, 최신 및 고급 사후 훈련 방법론들은 점점 더 긴 사고의 연쇄(Chain-of-Thought, CoT) 응답의 생성 길이를 확장하여 DeepSeek R1과 유사한 성능으로의 추론 능력을 향상시키는 데 초점을 맞추고 있습니다. 그러나 최근 연구들은 최첨단 추론 모델에서 지속적으로 나타나는 과도한 사고 현상을 밝혀냈는데, 이는 긴 CoT 응답에서 과도한 중복성이나 반복적인 사고 패턴으로 나타납니다. 이 문제를 해결하기 위해, 본 논문에서는 간결한 추론을 달성하기 위한 간단하지만 효과적인 2단계 강화 학습 프레임워크인 ConciseR을 제안합니다. 구체적으로, 첫 번째 단계는 더 많은 훈련 단계를 사용하여 클립-하이어 및 동적 샘플링 구성 요소가 포함된 그룹 상대 정책 최적화(GRPO++)를 통해 모델의 추론 능력을 강화하는 것을 목표로 하고, 두 번째 단계는 더 적은 훈련 단계를 사용하여 길이 인식 그룹 상대 정책 최적화(L-GRPO)를 통해 명시적으로 간결성을 강제하고 효율성을 개선합니다. 특히, ConciseR은 "걷기 전에 뛰지 않는다"는 원칙에 따라 샘플의 모든 롤아웃이 정확할 때만 응답 길이를 최적화합니다. 광범위한 실험 결과는 더 간결한 CoT 추론 응답을 생성하는 ConciseR 모델이 AIME 2024, MATH-500, AMC 2023, Minerva, Olympiad 벤치마크에서 최신 최첨단 추론 모델들을 제로 RL 패러다임으로 능가함을 보여줍니다.
원근법 이해는 인간 시각 인지의 기본이지만, 다중 모드 대형 언어 모델(MLLMs)이 원근법 기하학을 내재화한 정도는 여전히 불분명합니다. 우리는 MMPerspective를 소개합니다. 이는 원근법 이해를 체계적으로 평가하기 위해 특별히 설계된 첫 번째 벤치마크로, 세 가지 상호 보완적인 차원(원근법 인지, 추론, 강건성)에 걸쳐 10개의 신중하게 설계된 과제를 포함합니다. 우리의 벤치마크는 소실점 인지 및 카운팅, 원근법 유형 추론, 3D 공간에서의 선 관계 이해, 원근법 보존 변환에 대한 불변성 등 핵심 능력을 탐구하는 2,711개의 실제 및 합성 이미지 인스턴스와 5,083개의 질문-답변 쌍으로 구성됩니다. 43개의 최신 MLLMs에 대한 포괄적인 평가를 통해 우리는 중요한 한계를 발견했습니다: 모델들은 표면적 인지 과제에서는 능력을 보이지만, 구성적 추론과 변형 하에서의 공간적 일관성 유지에는 어려움을 겪습니다. 우리의 분석은 모델 아키텍처, 규모, 원근법 능력 간의 흥미로운 패턴을 추가로 밝혀내며, 강건성 병목 현상과 사고 연쇄 프롬프트의 이점을 강조합니다. MMPerspective는 시각-언어 시스템에서 공간 이해를 진단하고 발전시키기 위한 가치 있는 테스트베드를 마련합니다. 자원은 다음에서 확인할 수 있습니다: https://yunlong10.github.io/MMPerspective/
대규모 언어 모델(LLM)의 최근 발전으로 인해 에이전트가 복잡하고 개방형 작업을 자율적으로 수행할 수 있게 되었습니다. 그러나 기존의 많은 프레임워크는 수동으로 미리 정의된 도구와 워크플로에 크게 의존하여, 도메인 간 적응성, 확장성 및 일반화 능력을 저해하고 있습니다. 본 연구에서는 "단순함이 궁극의 정교함"이라는 원칙에 따라 설계된 일반 목적 에이전트인 Alita를 소개합니다. Alita는 최소한의 사전 정의와 최대의 자기 진화를 통해 확장 가능한 에이전트 추론을 가능하게 합니다. 최소한의 사전 정의를 위해 Alita는 문제 해결을 위한 단 하나의 구성 요소만을 갖추고 있어, 이전의 수작업으로 정교하게 만든 도구와 워크플로에 크게 의존하던 접근 방식보다 훨씬 간단하고 깔끔합니다. 이 깔끔한 설계는 도구에 의해 제한되지 않고도 어려운 질문에 일반화할 수 있는 잠재력을 높입니다. 최대의 자기 진화를 위해, Alita의 창의성을 발휘할 수 있도록 일반 목적의 구성 요소 세트를 제공하여, 오픈 소스에서 작업 관련 모델 컨텍스트 프로토콜(MCP)을 생성함으로써 외부 기능을 자율적으로 구축, 개선 및 재사용할 수 있게 합니다. 이는 확장 가능한 에이전트 추론에 기여합니다. 특히, Alita는 GAIA 벤치마크 검증 데이터셋에서 75.15%의 pass@1 및 87.27%의 pass@3 정확도를 달성하여 일반 목적 에이전트 중 최상위에 랭크되었으며, Mathvista와 PathVQA에서 각각 74.00%와 52.00%의 pass@1 정확도를 기록하여 훨씬 더 복잡한 많은 에이전트 시스템을 능가했습니다. 더 자세한 내용은 https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}에서 업데이트될 예정입니다.
비전-언어 모델(VLMs)은 인간에게 도전적인 코딩 및 수학 벤치마크에서 강력한 성과를 거두었지만, 인간에게는 자연스러운 인지, 공간 탐색, 메모리 관리와 같은 작업을 수행하는 능력은 아직 충분히 연구되지 않았습니다. 실제 비디오 게임은 인간의 내재적 귀납적 편향을 활용하여 직관적으로 배우고 숙달할 수 있도록 설계되어, 이러한 능력을 VLMs에서 평가하기 위한 이상적인 테스트베드 역할을 합니다. 이를 위해 우리는 1990년대의 인기 비디오 게임 10개로 구성된 VideoGameBench를 소개합니다. 이 벤치마크에서 VLMs은 실시간으로 게임과 직접 상호작용합니다. VideoGameBench는 모델이 게임별 스캐폴딩과 보조 정보에 의존하는 기존 설정과는 크게 달리, 원시 시각 입력과 목표 및 조작에 대한 상위 수준 설명만을 제공받은 상태에서 전체 게임을 완수하도록 요구합니다. 우리는 세 가지 게임을 비공개로 유지하여 보이지 않는 환경에 일반화할 수 있는 솔루션을 장려합니다. 실험 결과, 최첨단 비전-언어 모델들은 각 게임의 초반부를 넘어서는 데 어려움을 겪는 것으로 나타났습니다. 실시간 설정에서 추론 지연 시간이 최첨단 모델들의 주요 한계로 확인되었으며, 이에 따라 우리는 LM의 다음 동작을 기다리는 동안 게임이 일시 정지되는 VideoGameBench Lite 설정을 도입했습니다. 가장 성능이 뛰어난 모델인 Gemini 2.5 Pro는 VideoGameBench의 0.48%, VideoGameBench Lite의 1.6%만 완수했습니다. 우리는 앞서 언급한 인간의 기술을 이 벤치마크로 공식화함으로써 이러한 연구 방향의 진전을 촉진하기를 바랍니다.
추론 및 정보 탐색을 위한 사후 학습 기술의 급속한 발전과 함께, 대규모 언어 모델(LLMs)은 복잡한 작업을 해결하기 위해 대량의 검색된 지식을 통합할 수 있게 되었습니다. 그러나 LLM의 제한된 컨텍스트 윈도우는 외부 지식 입력의 규모 확장을 방해하며, 특히 상당한 양의 외부 지식을 요구하는 작업에서의 추가적인 개선을 막고 있습니다. 기존의 컨텍스트 윈도우 확장 방법들은 필연적으로 정보 손실을 초래합니다. LLM 기반의 다중 에이전트 방법은 대량의 입력을 분산적으로 처리하기 위한 새로운 패러다임으로 등장했으며, 여기서 우리는 기존의 지식 동기화 및 추론 과정에서 두 가지 주요 병목 현상을 확인했습니다. 본 연구에서는 이러한 병목 현상을 극복하고 더 긴 컨텍스트 학습 없이도 추론 시 지식 통합의 확장성을 높이기 위한 다중 에이전트 프레임워크인 ExtAgents를 개발했습니다. 우리가 개선한 다중 홉 질문 응답 테스트인 $boldsymbol{inftyBench+}$ 및 긴 설문 생성과 같은 다른 공개 테스트 세트에서 벤치마킹한 결과, ExtAgents는 동일한 양의 외부 지식 입력에 대해 컨텍스트 윈도우 내부 또는 초과 여부와 관계없이 기존의 비학습 방법보다 성능을 크게 향상시켰습니다. 또한, 이 방법은 높은 병렬성으로 인해 높은 효율성을 유지합니다. 외부 지식 입력 증가에 대한 LLM 에이전트의 조율에 대한 추가 연구는 실제 응용 프로그램에 이점을 제공할 수 있습니다.
프레임 인비트위닝(Frame inbetweening)은 주어진 시작 프레임과 종료 프레임을 조건으로 중간 비디오 시퀀스를 합성하는 것을 목표로 합니다. 현재 최신 방법들은 주로 대규모로 사전 학습된 이미지-투-비디오 확산 모델(Image-to-Video Diffusion Models, I2V-DMs)을 확장하여, 직접적인 미세 조정(fine-tuning)이나 훈련 생략을 통해 종료 프레임 제약 조건을 통합합니다. 우리는 이러한 설계에서 중요한 한계를 발견했습니다: 종료 프레임 제약 조건의 주입은 일반적으로 원래 시작 프레임(단일 이미지) 제약 조건을 부과했던 동일한 메커니즘을 사용합니다. 그러나 원래의 I2V-DMs는 시작 프레임 조건에 대해 충분히 사전 훈련되어 있기 때문에, 훨씬 적은(심지어 제로) 전문화된 훈련으로 동일한 메커니즘을 통해 종료 프레임 제약 조건을 도입하는 것은 시작 프레임과 같은 강력한 영향을 중간 콘텐츠에 미치지 못할 가능성이 높습니다. 이 두 프레임의 중간 콘텐츠에 대한 비대칭적인 제어 강도는 생성된 프레임에서 일관되지 않은 모션이나 외형 붕괴를 초래할 가능성이 있습니다. 시작 프레임과 종료 프레임의 대칭적인 제약 조건을 효율적으로 달성하기 위해, 우리는 Sci-Fi라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 더 작은 훈련 규모의 제약 조건에 대해 더 강력한 주입을 적용합니다. 구체적으로, 시작 프레임 제약 조건은 기존과 동일하게 처리하면서, 종료 프레임 제약 조건은 개선된 메커니즘을 통해 도입합니다. 이 새로운 메커니즘은 잘 설계된 경량 모듈인 EF-Net을 기반으로 하며, 이 모듈은 종료 프레임만을 인코딩하고 이를 시간적으로 적응 가능한 프레임별 특징으로 확장하여 I2V-DM에 주입합니다. 이를 통해 종료 프레임 제약 조건이 시작 프레임 제약 조건만큼 강력해지며, 우리의 Sci-Fi가 다양한 시나리오에서 더 조화로운 전환을 생성할 수 있게 됩니다. 광범위한 실험을 통해 우리의 Sci-Fi가 다른 베이스라인과 비교하여 우수함을 입증했습니다.
Diffusion Transformer(DiT) 기반 비디오 확산 모델은 대규모로 고품질 비디오를 생성하지만, 긴 비디오의 경우 처리 지연 시간과 메모리 비용이 과도하게 발생합니다. 이를 해결하기 위해, 우리는 DualParal이라는 새로운 분산 추론 전략을 제안합니다. 핵심 아이디어는 단일 GPU에서 전체 비디오를 생성하는 대신, 시간적 프레임과 모델 레이어를 GPU 간에 병렬화하는 것입니다. 그러나 이러한 분할을 단순히 구현할 경우 주요 한계가 발생합니다: 확산 모델은 프레임 간에 동기화된 노이즈 레벨을 요구하기 때문에, 이 구현은 원래의 병렬성을 직렬화하게 됩니다. 우리는 이를 해결하기 위해 블록 단위 노이즈 제거 방식을 활용합니다. 즉, 점진적으로 감소하는 노이즈 레벨을 통해 프레임 블록 시퀀스를 파이프라인으로 처리합니다. 각 GPU는 특정 블록과 레이어 하위 집합을 처리하면서 이전 결과를 다음 GPU로 전달하여 비동기적 계산과 통신을 가능하게 합니다. 성능을 더욱 최적화하기 위해, 우리는 두 가지 주요 개선 사항을 도입했습니다. 첫째, 각 GPU에 피처 캐시를 구현하여 이전 블록의 피처를 컨텍스트로 저장하고 재사용함으로써 GPU 간 통신과 중복 계산을 최소화합니다. 둘째, 조정된 노이즈 초기화 전략을 사용하여 초기 노이즈 패턴을 GPU 간에 공유함으로써 전역적으로 일관된 시간적 동역학을 보장하며 추가 자원 비용 없이 이를 달성합니다. 이를 통해 빠르고 아티팩트가 없으며 무한히 긴 비디오 생성을 가능하게 합니다. 최신 확산 트랜스포머 비디오 생성기에 적용한 결과, 우리의 방법은 8개의 RTX 4090 GPU에서 1,025 프레임 비디오를 최대 6.54배 낮은 지연 시간과 1.48배 낮은 메모리 비용으로 효율적으로 생성합니다.
사후 학습 압축(post-training compression)은 대규모 언어 모델(LLM)의 계산 및 메모리 비용을 줄여 자원 효율적인 배포를 가능하게 합니다. 그러나 기존의 압축 벤치마크는 언어 모델링(예: 복잡도)과 자연어 이해 작업(예: GLUE 정확도)에만 초점을 맞추고, 에이전트 능력(workflow, 도구 사용/함수 호출, 장문 맥락 이해 및 실제 응용)을 간과하고 있습니다. 우리는 에이전트 압축 벤치마크(ACBench)를 도입하여, 압축이 LLM의 에이전트 능력에 미치는 영향을 평가하는 최초의 포괄적인 벤치마크를 제시합니다. ACBench는 (1) 4가지 능력에 걸친 12개 작업(예: WorfBench - 워크플로 생성, Needle-in-Haystack - 장문 맥락 검색), (2) 양자화(GPTQ, AWQ) 및 가지치기(Wanda, SparseGPT), 그리고 (3) 소형(Gemma-2B), 표준(Qwen2.5 7B-32B), 추론 증류 LLM(DeepSeek-R1-Distill)을 포함한 15개 모델을 다룹니다. 우리의 실험은 압축의 트레이드오프를 보여줍니다: 4비트 양자화는 워크플로 생성과 도구 사용을 보존하지만(1%-3% 하락), 실제 응용 정확도는 10%-15% 저하됩니다. 우리는 ERank, Top-k 순위 상관관계 및 에너지를 도입하여 분석을 체계화합니다. ACBench는 에이전트 시나리오에서 LLM 압축을 최적화하기 위한 실행 가능한 통찰을 제공합니다. 코드는 https://github.com/pprp/ACBench에서 확인할 수 있습니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 텍스트와 이미지와 같은 다양한 모달리티를 통합하는 데 있어 유망한 결과를 보여주고 있습니다. MLLMs는 모달리티 편향에 크게 영향을 받으며, 종종 언어에 의존하면서 시각적 입력과 같은 다른 모달리티를 충분히 활용하지 못하는 경향이 있습니다. 이 포지션 페이퍼는 MLLMs가 모달리티 편향에 깊이 영향을 받는다고 주장합니다. 첫째, 우리는 다양한 작업에서 나타나는 모달리티 편향의 현재 상태를 진단하고 이를 강조합니다. 둘째, MLLMs의 모달리티 편향과 관련된 체계적인 연구 로드맵을 제안합니다. 셋째, MLLMs에서 모달리티 편향의 주요 요인을 식별하고 이를 완화하기 위한 미래 연구를 위한 실행 가능한 제안을 제공합니다. 이러한 발견을 뒷받침하기 위해, 우리는 각 요인의 영향을 보여주는 실험을 수행합니다: 1. 데이터 특성: 언어 데이터는 간결하고 추상적인 반면, 시각 데이터는 중복적이고 복잡하여 학습 역학에서 본질적인 불균형을 초래합니다. 2. 불균형한 백본 능력: MLLMs에서 사전 훈련된 언어 모델의 지배적 역할로 인해 언어에 대한 과도한 의존과 시각 정보의 소홀이 발생합니다. 3. 훈련 목표: 현재의 목표는 종종 균형 잡힌 교차 모달 정렬을 촉진하지 못하여 언어에 편향된 단축 학습을 초래합니다. 이러한 발견은 MLLMs에서 여러 모달리티를 더 잘 통합하기 위해 균형 잡힌 훈련 전략과 모델 아키텍처의 필요성을 강조합니다. 우리는 이러한 도전을 해결하고 MLLM 연구의 혁신을 이끌기 위한 학제 간 노력을 촉구합니다. 우리의 작업은 MLLMs의 모달리티 편향에 대한 새로운 관점을 제공하고, 더 강력하고 일반화 가능한 멀티모달 시스템을 개발하기 위한 통찰을 제공함으로써 인공 일반 지능(AGI)으로의 진전을 촉진합니다.
생명의학 연구자들은 복잡한 분석 작업을 위해 대규모 구조화된 데이터베이스에 점점 더 의존하고 있습니다. 그러나 현재의 텍스트-to-SQL 시스템은 질적 과학적 질문을 실행 가능한 SQL로 매핑하는 데 어려움을 겪으며, 특히 암묵적인 도메인 추론이 필요한 경우 더욱 그러합니다. 우리는 실제 생명의학 지식 기반에 대한 텍스트-to-SQL 생성에서 과학적 추론을 평가하기 위해 명시적으로 설계된 첫 번째 벤치마크인 BiomedSQL을 소개합니다. BiomedSQL은 유전자-질병 연관성, 오믹스 데이터의 인과적 추론, 약물 승인 기록을 통합한 BigQuery 지식 기반에 기반한 68,000개의 질문/SQL 쿼리/답변 삼중항으로 구성됩니다. 각 질문은 모델이 구문적 번역에만 의존하는 대신, 게놈 전체 유의성 임계값, 효과 방향성, 임상 시험 단계 필터링과 같은 도메인 특정 기준을 추론하도록 요구합니다. 우리는 다양한 오픈소스 및 클로즈드소스 LLM을 프롬프트 전략과 상호작용 패러다임에 걸쳐 평가했습니다. 우리의 결과는 상당한 성능 격차를 보여줍니다: GPT-o3-mini는 59.0%의 실행 정확도를 달성한 반면, 우리의 맞춤형 다단계 에이전트인 BMSQL은 62.6%에 도달했으며, 둘 다 전문가 기준선인 90.0%에 훨씬 미치지 못했습니다. BiomedSQL은 구조화된 생명의학 지식 기반에 대한 강력한 추론을 통해 과학적 발견을 지원할 수 있는 텍스트-to-SQL 시스템을 발전시키기 위한 새로운 기반을 제공합니다. 우리의 데이터셋은 https://huggingface.co/datasets/NIH-CARD/BiomedSQL에서 공개적으로 이용 가능하며, 코드는 https://github.com/NIH-CARD/biomedsql에서 오픈소스로 제공됩니다.
대규모 언어 모델(LLMs)은 강력하지만 정적 지식으로 인해 환각 현상에 취약합니다. 검색 증강 생성(RAG)은 외부 정보를 주입하여 이를 보완하지만, 현재의 방법들은 비용이 많이 들거나 일반화가 잘 되지 않으며, 모델의 내부 지식을 무시하는 경우가 많습니다. 본 논문에서는 LLM이 내부 및 외부 지식 소스를 적응적으로 활용하도록 훈련시키는 새로운 프레임워크인 R1-Searcher++를 소개합니다. R1-Searcher++는 두 단계의 훈련 전략을 사용합니다: 초기 SFT 콜드 스타트 단계에서 기본적인 형식 학습을 수행한 후, 동적 지식 획득을 위한 강화 학습(RL) 단계를 진행합니다. RL 단계에서는 결과 감독을 통해 탐색을 촉진하고, 내부 지식 활용을 위한 보상 메커니즘을 통합하며, 검색된 정보를 지속적으로 흡수하여 모델의 내부 지식을 풍부하게 하는 기억 메커니즘을 도입합니다. 내부 지식과 외부 검색 엔진을 활용함으로써, 모델은 지속적으로 능력을 향상시키고 효율적인 검색 증강 추론을 가능하게 합니다. 실험 결과, R1-Searcher++는 기존의 RAG 및 추론 방법들을 능가하며 효율적인 검색을 달성함을 보여줍니다. 코드는 https://github.com/RUCAIBox/R1-Searcher-plus에서 확인할 수 있습니다.
대규모 언어 모델은 인상적인 추론 능력을 보여주지만, 그 지식 저장소에 의해 본질적으로 제한을 받습니다. 검색 강화 추론은 대규모 언어 모델이 외부 자원을 쿼리할 수 있게 함으로써 이러한 한계를 완화하지만, 기존 방법들은 종종 관련성이 없거나 잡음이 많은 정보를 검색하여 정확한 추론을 방해합니다. 본 논문에서는 새로운 "생각하는 동안 검색 및 정제" 패러다임을 채택한 강화 학습 사후 훈련 프레임워크인 AutoRefine을 제안합니다. AutoRefine은 연속적인 검색 호출 사이에 명시적인 지식 정제 단계를 도입하여 모델이 답변을 생성하기 전에 반복적으로 증거를 필터링, 정제 및 조직할 수 있게 합니다. 또한, 그룹 상대 정책 최적화를 사용하여 답변 정확도 보상과 함께 맞춤형 검색 특화 보상을 통합합니다. 단일 홉 및 다중 홉 질의응답 벤치마크에서의 실험은 AutoRefine이 특히 복잡한 다중 홉 추론 시나리오에서 기존 접근법을 크게 능가함을 보여줍니다. 상세 분석은 AutoRefine이 빈번하고 고품질의 검색을 수행하며 증거를 효과적으로 종합한다는 것을 보여줍니다.
2D 이미지와 비디오를 위한 대규모 멀티모달 모델(LMMs)의 급속한 발전은 인간과 유사한 시각-공간 지능을 목표로 이러한 모델을 3D 장면 이해로 확장하는 동기를 부여했습니다. 그러나 인간의 능력에 필적하는 깊은 공간 이해를 달성하는 것은 모델 인코딩과 데이터 획득 측면에서 상당한 도전 과제를 제시합니다. 기존 방법들은 주로 외부 깊이 센서를 사용한 기하학적 정보 획득에 의존하거나, 미리 구축된 3D 맵을 활용하는 기성 알고리즘을 사용함으로써, 특히 단안 비디오 입력과 시간에 민감한 애플리케이션에서 확장성을 제한합니다. 본 연구에서는 3D 재구성 지시 튜닝을 통합한 통합 비전-언어 모델(VLM) 프레임워크인 VLM-3R을 소개합니다. VLM-3R은 단안 비디오 프레임을 처리하기 위해 기하학적 인코더를 사용하여 공간 이해를 나타내는 암묵적 3D 토큰을 도출합니다. 우리의 공간-시각-뷰 융합(Spatial-Visual-View Fusion)과 20만 개 이상의 정제된 3D 재구성 지시 튜닝 질문-답변(QA) 쌍을 활용하여, VLM-3R은 실제 세계의 공간적 맥락과 언어 지시를 효과적으로 정렬합니다. 이를 통해 단안 3D 공간 지원과 구체화된 추론이 가능해집니다. 시간적 추론 평가를 용이하게 하기 위해, 우리는 변화하는 공간 관계에 초점을 맞춘 5가지 독특한 작업에 걸쳐 138.6K 이상의 QA 쌍을 포함한 Vision-Spatial-Temporal Intelligence 벤치마크를 도입했습니다. 광범위한 실험을 통해, 우리의 모델 VLM-3R이 강력한 시각-공간 추론을 가능하게 할 뿐만 아니라 시간적 3D 맥락 변화를 이해하는 데도 탁월하며, 정확성과 확장성 모두에서 뛰어난 성능을 보임을 입증했습니다.
멀티모달 정보 검색(MIR)은 데이터 소스의 이질성과 교차 모달 정렬의 복잡성으로 인해 본질적인 어려움에 직면해 있습니다. 기존 연구에서는 특징 공간에서의 모달 간격을 확인했지만, 이러한 문제를 해결하기 위한 체계적인 접근 방식은 아직 탐구되지 않았습니다. 본 연구에서는 데이터 큐레이션과 모달리티 인지 훈련 구성이라는 두 가지 중요한 측면을 통해 이러한 문제를 해결하는 범용 프레임워크인 UNITE를 소개합니다. 우리의 연구는 다양한 시나리오에서 모달리티별 데이터 속성이 다운스트림 작업 성능에 미치는 영향을 처음으로 포괄적으로 분석합니다. 또한, 서로 다른 모달리티의 인스턴스 간 경쟁 관계를 완화하기 위해 모달리티 인지 마스크 대조 학습(MAMCL)을 제안합니다. 우리의 프레임워크는 여러 멀티모달 검색 벤치마크에서 최첨단 성능을 달성하며, 기존 방법들을 상당한 차이로 능가합니다. 광범위한 실험을 통해 전략적인 모달리티 큐레이션과 맞춤형 훈련 프로토콜이 강력한 교차 모달 표현 학습에 필수적임을 입증합니다. 이 연구는 MIR 성능을 향상시킬 뿐만 아니라, 멀티모달 시스템에 대한 향후 연구를 위한 기초적인 청사진을 제공합니다. 우리의 프로젝트는 https://friedrichor.github.io/projects/UNITE에서 확인할 수 있습니다.
타겟 음성 추출(Target Speech Extraction, TSE)은 일반적으로 보조 오디오(일명 큐 오디오)로 제공되는 화자 특정 단서를 활용하여 여러 화자의 혼합 음성에서 타겟 화자의 목소리를 분리하는 것을 목표로 합니다. 최근 TSE 분야의 발전은 주로 높은 지각적 품질을 제공하는 판별 모델을 중심으로 이루어졌지만, 이러한 모델들은 종종 원치 않는 아티팩트를 유발하고 자연스러움을 저하시키며, 훈련과 테스트 환경 간의 불일치에 민감한 문제를 가지고 있습니다. 반면, TSE를 위한 생성 모델은 지각적 품질과 명료성 측면에서 뒤처지는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 압축, 추출, 재구성 및 보정 과정을 통합한 새로운 캐스케이드 생성 파이프라인인 SoloSpeech를 제안합니다. SoloSpeech는 큐 오디오의 잠재 공간에서 조건 정보를 활용하여 혼합 오디오의 잠재 공간과 정렬함으로써 불일치를 방지하는 화자 임베딩이 없는 타겟 추출기를 특징으로 합니다. 널리 사용되는 Libri2Mix 데이터셋에서 평가된 결과, SoloSpeech는 타겟 음성 추출 및 음성 분리 작업에서 최신의 최고 수준의 명료성과 품질을 달성했으며, 도메인 외 데이터와 실제 시나리오에서도 탁월한 일반화 능력을 보여주었습니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 그 능력을 크게 향상시켰으나, 공간 인식 능력은 여전히 주요한 한계로 남아 있습니다. 이러한 문제를 해결하기 위해 멀티모달 데이터 합성은 유망한 해결책을 제공합니다. 그러나 합성된 데이터가 공간 상식을 준수하도록 하는 것은 사소하지 않은 과제입니다. 본 연구에서는 지식-데이터 생성 개념에 기반한 공간 지식 그래프(SKG)를 활용한 새로운 멀티모달 합성 접근법인 SKG2Data를 소개합니다. SKG2Data는 인간과 유사한 방향 및 거리 인식을 모방하기 위해 공간 지식 그래프(SKG)를 자동으로 구성하고, 이를 멀티모달 데이터 합성을 안내하는 데 활용합니다. 다양한 유형의 공간 지식(방향 및 거리 포함)에서 합성된 데이터는 MLLM의 공간 인식 및 추론 능력을 향상시킬 뿐만 아니라 강력한 일반화 능력을 보여주는 것으로 광범위한 실험을 통해 입증되었습니다. 우리는 지식 기반 데이터 합성의 아이디어가 공간 지능의 발전을 촉진할 수 있기를 기대합니다.
가상 피팅(VTON) 시스템이 대상 인물 이미지에 의류를 렌더링하는 것을 목표로 하는 반면, 본 논문은 그 반대 문제를 다루는 새로운 과제인 가상 탈의(VTOFF)를 제안한다. VTOFF는 옷을 입은 개인의 실제 사진에서 의류의 표준화된 제품 이미지를 생성하는 문제를 해결한다. 다양한 자세와 스타일 변형을 해결해야 하는 VTON과 달리, VTOFF는 일관적이고 잘 정의된 출력 형식(일반적으로 의류의 평평한 누워 있는 스타일 표현)을 활용하여 데이터 생성 및 데이터셋 강화에 유망한 도구로 자리 잡고 있다. 그러나 기존 VTOFF 접근법은 두 가지 주요 한계에 직면해 있다: (i) 가려짐과 복잡한 자세로부터 의류 특징을 분리하는 데 어려움이 있어 시각적 아티팩트가 발생하기 쉽고, (ii) 단일 카테고리 의류(예: 상의만)에만 적용 가능하여 일반화가 제한된다는 점이다. 이러한 문제를 해결하기 위해, 본 논문은 강력한 의류 특징 추출을 위해 수정된 다중 모드 어텐션 메커니즘을 갖춘 이중 DiT 기반 백본을 특징으로 하는 텍스트 강화 다중 카테고리 가상 탈의(TEMU-VTOFF)라는 새로운 아키텍처를 제안한다. 우리의 아키텍처는 이미지, 텍스트, 마스크와 같은 다중 모드로부터 의류 정보를 받아 다중 카테고리 설정에서 작동하도록 설계되었다. 마지막으로, 생성된 시각적 세부 사항을 더욱 정제하기 위한 추가 정렬 모듈을 제안한다. VITON-HD 및 Dress Code 데이터셋에서의 실험 결과, TEMU-VTOFF는 VTOFF 과제에서 새로운 최첨단 기술을 설정하며, 시각적 품질과 대상 의류에 대한 충실도를 크게 향상시킴을 보여준다.
대규모 언어 모델의 능력과 자율성이 증가함에 따라, 안전한 배포를 위해 레드팀을 통해 취약점을 식별하는 것이 중요해졌습니다. 그러나 전통적인 프롬프트 엔지니어링 접근 방식은 레드팀이 약자 대 강자 문제로 전환될 때 비효율적일 수 있습니다. 여기서 대상 모델이 레드팀의 능력을 초과하는 상황을 말합니다. 이러한 변화를 연구하기 위해, 우리는 공격자와 대상 간의 능력 격차라는 관점에서 레드팀을 분석합니다. 다양한 계열, 크기, 능력 수준을 가진 인간 레드팀을 모방한 LLM 기반의 탈옥 공격을 사용하여 500개 이상의 공격자-대상 쌍을 평가했습니다. 세 가지 강력한 경향이 나타났습니다: (i) 더 능력 있는 모델이 더 나은 공격자가 되며, (ii) 대상의 능력이 공격자를 초과하면 공격 성공률이 급격히 감소하며, (iii) 공격 성공률은 MMLU-Pro 벤치마크의 사회과학 분야에서 높은 성능과 상관관계가 있습니다. 이러한 경향을 바탕으로, 우리는 공격자-대상 능력 격차에 기반하여 고정된 대상에 대한 공격 성공률을 예측하는 탈옥 스케일링 법칙을 도출했습니다. 이러한 연구 결과는 고정된 능력을 가진 공격자(예: 인간)가 미래 모델에 대해 비효율적이 될 수 있으며, 점점 더 능력이 향상되는 오픈소스 모델이 기존 시스템에 대한 위험을 증폭시킬 수 있음을 시사합니다. 또한, 모델 제공자는 모델의 설득 및 조작 능력을 정확히 측정하고 제어하여 공격자로서의 효과를 제한해야 합니다.
디지털 포렌식 및 사고 대응(Digital Forensics and Incident Response, DFIR)은 법적 조사를 지원하기 위해 디지털 증거를 분석하는 과정을 포함합니다. 대형 언어 모델(Large Language Models, LLMs)은 로그 분석 및 메모리 포렌식과 같은 DFIR 작업에서 새로운 기회를 제공하지만, 이러한 모델의 오류와 환각(hallucination)에 대한 취약성은 높은 위험을 수반하는 상황에서 우려를 불러일으킵니다. 점점 증가하는 관심에도 불구하고, 이론적 및 실질적인 DFIR 영역 전반에 걸쳐 LLMs를 평가하기 위한 포괄적인 벤치마크가 부재한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 DFIR-Metric이라는 벤치마크를 제안합니다. 이 벤치마크는 세 가지 구성 요소로 이루어져 있습니다: (1) 지식 평가: 산업 표준 인증 및 공식 문서에서 추출한 전문가 검토를 거친 700개의 객관식 질문 세트; (2) 현실적인 포렌식 도전 과제: 다단계 추론 및 증거 상관관계를 테스트하는 150개의 CTF(캡처 더 플래그) 스타일 작업; (3) 실질적 분석: NIST 컴퓨터 포렌식 도구 테스트 프로그램(CFTT)에서 제공한 500개의 디스크 및 메모리 포렌식 사례. 우리는 DFIR-Metric을 사용하여 14개의 LLMs를 평가하고, 정확도와 시행 간 일관성을 분석했습니다. 또한, 모델이 거의 제로에 가까운 정확도를 보이는 시나리오에서 더 효과적으로 평가하기 위해 새로운 지표인 작업 이해 점수(Task Understanding Score, TUS)를 도입했습니다. 이 벤치마크는 디지털 포렌식 분야에서 AI의 발전을 위한 엄격하고 재현 가능한 기반을 제공합니다. 모든 스크립트, 아티팩트 및 결과는 프로젝트 웹사이트(https://github.com/DFIR-Metric)에서 확인할 수 있습니다.
생성 모델의 급속한 발전과 함께, 다중 모달리티 간 다양한 작업을 단일 시스템 내에서 통합하는 유망한 접근법으로서 범용 생성(general-purpose generation)이 점점 더 주목받고 있다. 이러한 진전에도 불구하고, 기존의 오픈소스 프레임워크는 구조화된 워크플로우 계획 및 실행 수준의 피드백 부족으로 인해 여전히 취약하며 복잡한 실세계 애플리케이션을 지원하는 데 어려움을 겪고 있다. 이러한 한계를 해결하기 위해, 우리는 ComfyUI 플랫폼을 기반으로 강력하고 확장 가능한 범용 생성을 가능하게 하는 협업형 AI 시스템인 ComfyMind를 제안한다. ComfyMind는 두 가지 핵심 혁신을 도입한다: 첫째, 자연어로 기술된 호출 가능한 기능 모듈로 저수준 노드 그래프를 추상화하는 Semantic Workflow Interface(SWI)로, 고수준 구성을 가능하게 하고 구조적 오류를 줄인다. 둘째, 지역화된 피드백 실행을 포함한 Search Tree Planning 메커니즘으로, 생성을 계층적 의사결정 프로세스로 모델링하고 각 단계에서 적응형 수정을 허용한다. 이러한 구성 요소들은 복잡한 생성 워크플로우의 안정성과 유연성을 향상시킨다. 우리는 ComfyMind를 세 가지 공개 벤치마크(ComfyBench, GenEval, Reason-Edit)에서 평가하며, 이는 생성, 편집, 추론 작업을 포괄한다. 결과는 ComfyMind가 기존 오픈소스 베이스라인을 지속적으로 능가하며 GPT-Image-1에 필적하는 성능을 달성함을 보여준다. ComfyMind는 오픈소스 범용 생성 AI 시스템 개발을 위한 유망한 길을 열어준다. 프로젝트 페이지: https://github.com/LitaoGuo/ComfyMind
비전-언어 모델(Vision-Language Model, VLM) 기반 웹 에이전트는 웹사이트와의 인간과 유사한 상호작용을 시뮬레이션함으로써 복잡한 작업을 자동화하는 데 있어 중요한 진전을 이루었습니다. 그러나 이러한 에이전트를 통제되지 않은 웹 환경에 배포할 경우 심각한 보안 취약점이 발생합니다. 기존의 적대적 환경 주입 공격에 대한 연구는 종종 직접적인 HTML 조작, 사용자 의도에 대한 지식, 또는 에이전트 모델 파라미터에 대한 접근과 같은 비현실적인 가정에 의존하며, 이는 실용적인 적용성을 제한합니다. 본 논문에서는 인터넷 광고 전달을 활용하여 웹 에이전트의 환경에 악성 콘텐츠를 주입하는 새로운 실질적인 블랙박스 공격 방법인 AdInject를 제안합니다. AdInject는 이전 연구보다 현실적인 위협 모델을 기반으로 동작하며, 블랙박스 에이전트, 정적 악성 콘텐츠 제약, 그리고 사용자 의도에 대한 특정 지식이 없는 상황을 가정합니다. AdInject는 에이전트를 오류로 유도하여 클릭하도록 설계된 악성 광고 콘텐츠 전략과, 대상 웹사이트의 컨텍스트에서 잠재적인 사용자 의도를 추론하고 이를 광고 콘텐츠에 통합하여 에이전트의 작업에 더 관련성이 높거나 중요한 것으로 보이게 하는 VLM 기반 광고 콘텐츠 최적화 기술을 포함합니다. 이를 통해 공격 효과를 극대화합니다. 실험적 평가 결과, AdInject는 대부분의 시나리오에서 60%를 초과하는 공격 성공률을 보였으며, 특정 경우에는 100%에 가까운 성공률을 달성했습니다. 이는 광범위하게 사용되는 광고 전달이 웹 에이전트에 대한 환경 주입 공격의 강력하고 실질적인 벡터임을 강력하게 입증합니다. 이 연구는 실질적인 환경 조작 채널에서 발생하는 웹 에이전트 보안의 중요한 취약점을 강조하며, 이러한 위협에 대한 견고한 방어 메커니즘 개발의 시급한 필요성을 강조합니다. 우리의 코드는 https://github.com/NicerWang/AdInject에서 확인할 수 있습니다.
최첨단 텍스트-모션 생성 모델은 HumanML3D에서 널리 사용된 운동학적 인식(kinematic-aware) 및 로컬 상대 모션 표현에 의존하며, 이는 골반과 이전 프레임에 대한 상대적 모션을 내장된 중복성과 함께 인코딩합니다. 이러한 설계는 초기 생성 모델의 학습을 단순화하지만, 확산 모델(diffusion models)에 있어서는 중요한 한계를 도입하고 하위 작업에의 적용성을 저해합니다. 본 연구에서는 모션 표현을 재검토하고, 텍스트-모션 생성을 위해 글로벌 공간에서의 절대 관절 좌표라는 근본적으로 단순화되고 오랫동안 버려졌던 대안을 제안합니다. 설계 선택에 대한 체계적인 분석을 통해, 우리는 이 표현 방식이 단순한 Transformer 백본과 보조 운동학적 손실 없이도 훨씬 더 높은 모션 충실도, 개선된 텍스트 정렬 및 강력한 확장성을 달성함을 보여줍니다. 더욱이, 우리의 표현 방식은 추가적인 작업별 재설계와 비용이 많이 드는 제어 신호로부터의 분류기 지도 생성 없이도 텍스트 기반 모션 제어 및 시간적/공간적 편집과 같은 하위 작업을 자연스럽게 지원합니다. 마지막으로, 우리는 텍스트로부터 직접 SMPL-H 메쉬 정점을 모션으로 생성하는 유망한 일반화를 보여주며, 향후 연구 및 모션 관련 애플리케이션을 위한 강력한 기반을 마련합니다.
비전-언어 모델(VLMs)은 다양한 작업에서 뛰어난 성능을 보이지만, 추론 과정에서 시간과 메모리 측면에서 높은 비용이 발생한다. 토큰 희소성은 토큰 사용의 비효율성을 완화하고, 뉴런 희소성은 고차원 계산을 줄여 효율성을 향상시키는 유망한 해결책을 제공한다. 최근 이 두 가지 희소성 패러다임은 주로 병렬적으로 발전해 왔으며, 이들이 독립적으로 기능한다는 일반적인 가정을 강화해 왔다. 그러나 근본적이면서도 충분히 탐구되지 않은 질문이 남아 있다: 이들은 정말로 독립적으로 작동하는가, 아니면 아직 밝혀지지 않은 더 깊은 상호작용이 존재하는가? 본 논문에서는 이 질문에 대한 첫 번째 포괄적인 조사를 수행한다. 코어 뉴런과 코어 토큰 간의 매칭 메커니즘을 도입하고 분석함으로써, 추론에 있어 핵심적인 뉴런과 토큰이 서로 영향을 주고 강화한다는 사실을 발견했다. 이러한 통찰을 바탕으로, 토큰과 뉴런 희소성 간의 시너지를 활용하여 추론 효율성을 향상시키는 공동 적응형 희소 추론 프레임워크인 CoreMatching을 제안한다. 이론적 분석과 효율성 평가를 통해 제안된 방법이 10개의 이미지 이해 작업과 3개의 하드웨어 장치에서 최신 기준선을 능가함을 입증했다. 특히, NVIDIA Titan Xp에서 5배의 FLOPs 감소와 10배의 전반적인 속도 향상을 달성했다. 코드는 https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main에서 공개되었다.
DeepSeek-R1은 안정적인 강화 학습(RL)을 통해 텍스트 영역에서 강력한 추론 능력을 입증했습니다. 최근 멀티모달 영역에서는 RL을 직접 적용하여 Visual Question Answering(VQA) 작업을 위한 R1과 유사한 자유형 추론을 생성하는 연구가 시작되었습니다. 그러나 멀티모달 작업은 문제 해결을 위해 입력 이미지의 이해에 크게 의존한다는 점에서 텍스트 작업과 본질적으로 다른 특성을 공유합니다. 따라서 이러한 자유형 추론은 VQA 작업에서 두 가지 중요한 한계에 직면합니다: (1) 확장된 추론 체인이 작업의 핵심 영역에서 시각적 초점을 분산시켜 답변 정확도를 저하시킵니다. (2) 검증할 수 없는 중간 단계가 정책 기울기 분산과 계산 비용 오버헤드를 증폭시킵니다. 이러한 문제를 해결하기 위해 본 논문에서는 VQA를 전역 이미지 캡션 생성, 영역 위치 지정, 답변 예측이라는 세 가지 검증 가능한 단계로 분해하고 각 단계에서 명시적인 보상 신호를 제공하는 SATORI(Spatially Anchored Task Optimization with Reinforcement Learning)를 소개합니다. 또한, 학습을 용이하게 하기 위해 답변과 일치하는 캡션 및 경계 상자로 주석이 달린 12k 데이터셋인 VQA-Verify도 소개합니다. 실험 결과, 7개의 VQA 벤치마크에서 일관된 성능 향상을 보였으며, R1과 유사한 기준선에 비해 정확도에서 최대 15.7%의 향상을 달성했습니다. 주의 맵 분석 결과, 핵심 영역에 대한 초점이 강화되어 정확도가 개선되었음을 확인했습니다. 우리의 코드는 https://github.com/justairr/SATORI-R1에서 확인할 수 있습니다.
전문가 혼합(Mixture-of-experts, MoE) 아키텍처는 대규모 언어 모델(LLMs)을 방대한 매개변수 수준으로 확장하면서도 계산 비용의 비례적 증가 없이 이를 가능하게 한다. 그러나 대형 MoE 모델의 상당한 메모리 요구 사항은 클라우드 서버부터 소비자 기기까지 다양한 계산 환경에서의 배포를 방해한다. 본 연구는 먼저 MoE 레이어 내 전문가 활성화 패턴에서 두드러진 작업 특화 현상을 입증한다. 이를 바탕으로, 메모리가 제한된 환경에서 대규모 MoE 모델의 효율적 배포를 가능하게 하는 새로운 프레임워크인 PreMoe를 소개한다. PreMoe는 두 가지 주요 구성 요소를 특징으로 한다: 확률적 전문가 가지치기(Probabilistic Expert Pruning, PEP)와 작업 적응형 전문가 검색(Task-Adaptive Expert Retrieval, TAER). PEP는 라우터 로짓에서 도출된 작업 조건부 기대 선택 점수(Task-Conditioned Expected Selection Score, TCESS)라는 새로운 메트릭을 사용하여 특정 작업에 대한 전문가 중요도를 정량화함으로써, 최소한의 핵심 전문가 집합을 식별한다. TAER는 이러한 작업 특화 전문가 중요도 프로파일을 활용하여 효율적인 추론을 가능하게 한다. TAER는 다양한 작업에 대한 컴팩트한 전문가 패턴을 사전 계산 및 저장한다. 사용자 쿼리가 수신되면, TAER는 가장 관련성이 높은 저장된 작업 패턴을 신속히 식별하고, 해당 작업에 중요한 소규모 전문가 하위 집합만을 로드하여 모델을 재구성한다. 이 접근 방식은 모든 배포 시나리오에서 메모리 사용량을 극적으로 줄인다. DeepSeek-R1 671B는 MATH500에서 8/128 구성(50% 전문가 감소)으로 가지치기했을 때 97.2%의 정확도를 유지하며, 더 공격적인 8/32 가지치기(87.5% 전문가 감소)에서도 72.0%의 정확도를 달성한다. Pangu-Ultra-MoE 718B는 MATH500에서 8/128 가지치기로 97.15%, AIME24에서 81.3%의 정확도를 달성하며, 더 공격적인 4/64 가지치기(390GB 메모리)에서도 MATH500에서 96.95%의 정확도를 유지한다. 본 연구의 코드는 https://github.com/JarvisPei/PreMoe에서 공개적으로 이용 가능하다.
본 연구에서는 강화 학습(RL)을 통해 다중 모달 대형 언어 모델(MLLM)의 추론 능력을 강화하고, RL 과정에서 발생하는 희소 보상 및 이점 소실 문제를 완화하는 효과적인 접근 방식을 개발하고자 합니다. 이를 위해 우리는 Share-GRPO라는 새로운 RL 접근 방식을 제안합니다. 이 방법은 확장된 질문 공간에서 다양한 추론 경로를 탐색하고 공유함으로써 이러한 문제를 해결합니다. 구체적으로, Share-GRPO는 먼저 데이터 변환 기술을 통해 주어진 질문에 대한 질문 공간을 확장한 다음, MLLM이 확장된 질문 공간에서 다양한 추론 경로를 효과적으로 탐색하도록 장려하고, RL 과정에서 확장된 질문들 간에 발견된 추론 경로를 공유합니다. 또한, Share-GRPO는 이점 계산 과정에서 보상 정보를 공유하여, 질문 변형들 간 및 내부에서 계층적으로 솔루션 이점을 추정함으로써 상대적 이점을 더 정확하게 추정하고 정책 훈련의 안정성을 향상시킵니다. 널리 사용되는 여섯 가지 추론 벤치마크에 대한 광범위한 평가를 통해 우리 방법의 우수한 성능을 입증했습니다. 코드는 https://github.com/HJYao00/R1-ShareVL에서 확인할 수 있습니다.
모델의 예측에 대한 불확실성의 원인을 이해하는 것은 효과적인 인간-AI 협업에 있어 매우 중요합니다. 기존 연구에서는 수치적 불확실성이나 완곡어법("잘 모르겠지만...")을 사용하는 것을 제안했지만, 이는 상충되는 증거로 인해 발생하는 불확실성을 설명하지 못해 사용자가 의견 불일치를 해결하거나 출력에 의존할 수 없게 합니다. 우리는 CLUE(Conflict-and-Agreement-aware Language-model Uncertainty Explanations)를 소개합니다. 이는 (i) 비지도 방식으로 모델의 예측 불확실성을 유발하는 주장-증거 또는 증거 간의 상충 및 일치를 드러내는 텍스트 스팬 간의 관계를 식별하고, (ii) 이러한 중요한 상호작용을 언어화하는 설명을 프롬프팅과 주의 지향을 통해 생성하는 최초의 프레임워크입니다. 세 가지 언어 모델과 두 가지 팩트 체크 데이터셋에서, CLUE는 스팬 상호작용 지침 없이 불확실성 설명을 프롬프팅하는 것보다 모델의 불확실성에 더 충실하고 팩트 체크 결정과 더 일치하는 설명을 생성함을 보여줍니다. 인간 평가자들은 우리의 설명이 이 기준선보다 더 도움이 되고, 더 유익하며, 덜 중복되고, 입력과 더 논리적으로 일치한다고 판단했습니다. CLUE는 미세 조정이나 아키텍처 변경이 필요 없어 어떤 화이트박스 언어 모델에도 플러그 앤 플레이 방식으로 적용할 수 있습니다. 불확실성을 증거 상충과 명시적으로 연결함으로써, 팩트 체크를 위한 실질적인 지원을 제공하며 복잡한 정보에 대한 추론이 필요한 다른 작업으로도 쉽게 일반화됩니다.
조합 최적화 문제를 위한 동적 프로그래밍(DP) 알고리즘은 재귀 알고리즘에서 최대화, 최소화 및 고전적인 덧셈을 사용하여 작동합니다. 관련된 값 함수는 맥스 플러스 반환(max-plus semiring)에서 볼록 다면체에 해당합니다. 그러나 기존의 신경 알고리즘 추론(Neural Algorithmic Reasoning) 모델은 소프트맥스 정규화된 내적 어텐션에 의존하는데, 이는 부드러운 지수 가중치가 이러한 날카로운 다면체 구조를 흐리게 하고, 분포 외(OOD) 설정에서 평가할 때 붕괴됩니다. 우리는 열대 기하학(tropical geometry)의 맥스 플러스 반환에서 기본적으로 작동하는 새로운 어텐션 함수인 열대 어텐션(Tropical attention)을 소개합니다. 우리는 열대 어텐션이 DP 유형의 조합 알고리즘의 열대 회로를 근사할 수 있음을 증명합니다. 그런 다음, 열대 트랜스포머(Tropical transformers)를 사용하면 알고리즘 추론 작업에서 길이 일반화와 값 일반화 모두에서 소프트맥스 기준선을 능가하면서 적대적 공격 하에서도 안정적으로 향상된 OOD 성능을 달성할 수 있음을 제안합니다. 또한, 우리는 신경 알고리즘 추론 벤치마킹을 위한 세 번째 축으로 적대적 공Attack 일반화를 제시합니다. 우리의 결과는 열대 어텐션이 소프트맥스에서 누락된 날카롭고 스케일 불변의 추론을 복원한다는 것을 보여줍니다.
대규모 언어 모델(LLMs)은 특히 분자 과학 분야에서 과학적 발견을 위한 강력한 도구로 점점 더 인식되고 있습니다. 이러한 모델의 기본 요구 사항은 SMILES 표현으로 일반적으로 인코딩된 분자 구조를 정확하게 이해하는 능력입니다. 그러나 현재의 LLMs는 SMILES를 해석하는 데 어려움을 겪으며, 분자 고리 개수를 세는 것과 같은 기본적인 작업조차 수행하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 CLEANMOL이라는 새로운 프레임워크를 소개합니다. CLEANMOL은 SMILES 파싱을 그래프 수준의 분자 이해를 명시적으로 촉진하도록 설계된 일련의 깔끔하고 결정론적인 작업으로 공식화합니다. 이러한 작업은 부분 그래프 매칭부터 전역 그래프 매칭에 이르기까지 분자 구조적 특성과 일치하는 구조화된 지도를 제공합니다. 우리는 적응형 난이도 점수를 가진 분자 사전 학습 데이터셋을 구축하고, 이러한 작업에 대해 오픈소스 LLMs를 사전 학습시킵니다. 우리의 결과는 CLEANMOL이 구조적 이해를 향상시킬 뿐만 아니라 Mol-Instructions 벤치마크에서 최고의 성능을 달성하거나 기준선과 경쟁할 수 있음을 보여줍니다.
검색 강화 생성(Retrieval Augmented Generation)은 외부 코퍼스에서 검색된 구절을 LLM(대형 언어 모델) 프롬프트에 추가함으로써 LLM의 정확성을 향상시킵니다. 본 논문은 위치 편향(positional bias) - LLM이 프롬프트 내 정보의 위치에 따라 다르게 가중치를 부여하는 경향 - 이 관련 구절을 활용하는 LLM의 능력뿐만 아니라 방해 구절에 대한 민감성에도 어떻게 영향을 미치는지 조사합니다. 세 가지 벤치마크에 대한 광범위한 실험을 통해, 최신 검색 파이프라인이 관련 구절을 검색하려 시도하는 과정에서 체계적으로 매우 방해가 되는 구절을 상위 순위로 가져오며, 상위 10개 검색 구절 중 적어도 하나의 고도로 방해되는 구절이 포함된 쿼리가 60% 이상임을 보여줍니다. 결과적으로, 통제된 환경에서 관련 연구들이 종종 매우 두드러진다고 보고하는 LLM의 위치 편향의 영향은 실제 시나리오에서는 관련 구절과 방해 구절이 모두 차례로 불이익을 받기 때문에 사실상 미미합니다. 실제로, 우리의 연구 결과는 LLM의 위치 선호도에 따라 구절을 재배열하려는 정교한 전략들이 무작위 셔플링보다 더 나은 성능을 보이지 않음을 밝혀냅니다.
비전 트랜스포머(ViTs)는 시각 처리 작업을 위한 주요 아키텍처로 부상하며, 증가하는 학습 데이터와 모델 크기에 탁월한 확장성을 입증했습니다. 그러나 최근 연구에서는 ViT에서 지역적 의미와 일치하지 않는 아티팩트 토큰이 발생하는 현상이 확인되었습니다. 이러한 비정상적인 토큰은 세밀한 지역화나 구조적 일관성이 필요한 작업에서 ViT의 성능을 저하시킵니다. 이 문제를 효과적으로 완화하기 위해 ViT에 레지스터 토큰을 추가하는 방법이 제안되었는데, 이는 학습 과정에서 아티팩트 항목을 암묵적으로 "흡수"합니다. 다양한 대규모 사전 학습된 ViT가 존재함을 고려할 때, 본 논문에서는 이러한 모델들을 처음부터 재학습할 필요 없이 레지스터 토큰을 추가하는 방법을 목표로 합니다. 특히, 우리는 추가 레이블 데이터와 전체 재학습 없이 기존 ViT에 레지스터를 통합하는 효율적인 자기 지식 증류 방법인 Post Hoc Registers(PH-Reg)를 제안합니다. PH-Reg는 교사 네트워크와 학생 네트워크를 동일한 사전 학습된 ViT로 초기화합니다. 교사 네트워크는 고정되고 수정되지 않은 상태로 유지되며, 학생 네트워크는 무작위로 초기화된 레지스터 토큰으로 보강됩니다. 교사 네트워크의 입력에 테스트 시간 증강을 적용함으로써 아티팩트가 없는 노이즈 제거된 밀집 임베딩을 생성하고, 이를 통해 학생 네트워크의 잠금 해제된 소수의 가중치만을 최적화합니다. 우리의 접근 방식이 아티팩트 토큰의 수를 효과적으로 줄이고, 제로샷 및 선형 탐색 조건에서 학생 ViT의 세분화 및 깊이 예측 성능을 개선할 수 있음을 보여줍니다.
단백질 언어 모델(PLMs)은 단백질 서열의 복잡한 패턴을 탐지하는 강력한 도구로 부상했습니다. 그러나 단일 사전 학습 작업에 초점을 맞추는 것은 PLMs가 단백질 서열 정보를 완전히 포착하는 능력을 제한할 수 있습니다. 데이터 모달리티나 지도 목적 함수를 추가하면 PLMs의 성능을 향상시킬 수 있지만, 사전 학습은 여전히 손상된 서열의 노이즈 제거에 집중하는 경우가 많습니다. PLMs의 한계를 극복하기 위해, 우리 연구는 다중 작업 사전 학습 전략을 조사했습니다. 우리는 Ankh3라는 모델을 개발했는데, 이 모델은 다양한 마스킹 확률을 가진 마스크 언어 모델링과 단백질 서열만을 입력으로 하는 단백질 서열 완성이라는 두 가지 목적 함수를 공동으로 최적화합니다. 이 다중 작업 사전 학습은 PLMs가 단백질 서열만으로도 더 풍부하고 일반화 가능한 표현을 학습할 수 있음을 입증했습니다. 그 결과, 2차 구조 예측, 형광, GB1 적합성, 접촉 예측과 같은 하위 작업에서 성능이 향상되었습니다. 다중 작업의 통합은 모델이 단백질 특성을 더 포괄적으로 이해하도록 하여 더 견고하고 정확한 예측을 가능하게 했습니다.
단백질-단백질 상호작용(PPIs)은 다양한 세포 과정에서 핵심적인 역할을 하며, 이러한 상호작용을 규명하는 것은 질병 메커니즘을 이해하고 신약 개발을 안내하는 데 필수적입니다. 단백질 언어 모델(PLMs)은 단백질 구조와 기능 예측에서 뛰어난 성과를 보여왔지만, 서열 기반 PPI 결합 친화도 예측에 대한 적용은 상대적으로 덜 탐구된 분야입니다. 이러한 격차는 고품질의 엄격하게 정제된 데이터셋의 부족과 단백질 표현을 연결하는 단순한 전략에 의존하는 데 기인합니다. 본 연구에서는 이러한 한계를 해결하고자 합니다. 먼저, 총 8,207개의 고유한 단백질-단백질 상호작용 항목을 포함한 PPB-Affinity 데이터셋의 정밀하게 정제된 버전을 소개합니다. 이를 위해 주석 불일치와 다중 체인 단백질 상호작용의 중복 항목을 해결하였으며, 30% 이하의 엄격한 서열 동일성 임계값을 적용하여 훈련, 검증, 테스트 세트로의 견고한 분할을 보장하고 데이터 누출을 최소화했습니다. 둘째, PLMs를 PPI 결합 친화도 예측에 적응시키기 위한 네 가지 아키텍처를 제안하고 체계적으로 평가했습니다: 임베딩 연결(EC), 서열 연결(SC), 계층적 풀링(HP), 풀링된 어텐션 추가(PAD). 이러한 아키텍처는 전체 미세 조정과 고정된 PLM 특징 위에 ConvBERT 헤드를 사용한 경량화 접근법이라는 두 가지 훈련 방법으로 평가되었습니다. ProtT5, ESM2, Ankh, Ankh2, ESM3 등 여러 주요 PLMs에 걸친 포괄적인 실험을 통해 HP와 PAD 아키텍처가 기존의 연결 방법을 일관되게 능가하며, Spearman 상관관계 측면에서 최대 12%의 성능 향상을 달성함을 입증했습니다. 이러한 결과는 세밀한 PPI 결합 친화도 예측을 위해 PLMs의 잠재력을 최대한 활용하기 위해서는 정교한 아키텍처 설계가 필요함을 강조합니다.
신경퇴행성 치매의 감별 진단은 주로 증상 발현의 중첩과 구조적 신경영상에서 관찰되는 패턴의 유사성으로 인해 어려운 임상 과제입니다. 진단 효율성과 정확성을 향상시키기 위해, 합성곱 신경망(Convolutional Neural Networks)과 비전 트랜스포머(Vision Transformers)와 같은 딥러닝 기반 방법들이 뇌 MRI의 자동 분류를 위해 제안되었습니다. 그러나 이러한 모델들은 강력한 예측 성능에도 불구하고, 불투명한 의사결정 과정으로 인해 임상적 유용성이 제한적입니다. 본 연구에서는 진단 투명성을 향상시키기 위해 두 가지 핵심 요소를 통합한 프레임워크를 제안합니다. 첫째, 3D T1 강조 뇌 MRI를 텍스트 기반의 방사선학 보고서로 변환하는 모듈식 파이프라인을 소개합니다. 둘째, 생성된 보고서를 기반으로 전두측두엽 치매 하위 유형, 알츠하이머병, 정상 노화를 감별 진단하는 데 현대적 대형 언어 모델(Large Language Models, LLMs)의 잠재력을 탐구합니다. 예측 정확도와 설명 가능성 간의 격차를 해소하기 위해, 우리는 LLMs에서 진단 추론을 장려하기 위해 강화 학습을 활용합니다. 지도된 추론 흔적이나 더 큰 모델로부터의 증류를 요구하지 않고, 우리의 접근 방식은 신경영상 소견에 기반한 구조화된 진단 근거의 출현을 가능하게 합니다. 사후 설명 가능성 방법들이 모델 결정을 사후적으로 정당화하는 것과 달리, 우리의 프레임워크는 추론 과정의 일부로 진단 근거를 생성함으로써 모델의 의사결정 과정을 정보 제공하고 안내하는 인과적 근거를 가진 설명을 생성합니다. 이를 통해, 우리의 프레임워크는 기존 딥러닝 방법들의 진단 성능을 유지하면서도 진단 결론을 지원하는 근거를 제공합니다.