번역이 포함된 일일 선별된 AI 연구 논문
우리는 다목적성, 추론 능력, 그리고 추론 효율성 측면에서 InternVL 시리즈를 크게 발전시킨 새로운 오픈소스 멀티모달 모델 패밀리인 InternVL 3.5를 소개합니다. 주요 혁신은 Cascade Reinforcement Learning(Cascade RL) 프레임워크로, 이는 두 단계 프로세스를 통해 추론 능력을 향상시킵니다: 안정적인 수렴을 위한 오프라인 RL과 세밀한 정렬을 위한 온라인 RL. 이러한 coarse-to-fine 훈련 전략은 MMMU 및 MathVista와 같은 하위 추론 작업에서 상당한 개선을 이끌어냅니다. 효율성을 최적화하기 위해, 우리는 성능 저하 없이 시각적 토큰의 해상도를 동적으로 조정하는 Visual Resolution Router(ViR)를 제안합니다. ViR과 함께, 우리의 Decoupled Vision-Language Deployment(DvD) 전략은 비전 인코더와 언어 모델을 서로 다른 GPU에 분리하여 계산 부하를 효과적으로 균형잡습니다. 이러한 기여들은 종합적으로 InternVL3.5가 이전 버전인 InternVL3에 비해 전체 추론 성능에서 최대 +16.0%의 향상과 4.05배의 추론 속도 향상을 달성할 수 있게 합니다. 또한, InternVL3.5는 GUI 상호작용 및 embodied agency와 같은 새로운 기능을 지원합니다. 특히, 우리의 가장 큰 모델인 InternVL3.5-241B-A28B는 일반 멀티모달, 추론, 텍스트, 그리고 에이전트 작업 전반에 걸쳐 오픈소스 MLLM 중 최첨단 결과를 달성하며 GPT-5와 같은 선도적인 상용 모델과의 성능 격차를 좁혔습니다. 모든 모델과 코드는 공개되었습니다.
최근 자동회귀 모델들이 텍스트-이미지(T2I) 생성 분야에서 유망한 진전을 보이고 있지만, 다중 속성과 모호한 프롬프트를 처리하는 능력은 여전히 제한적입니다. 이러한 한계를 해결하기 위해 기존 연구들은 단계별 시각적 합성을 가능하게 하는 사고의 연쇄(CoT)를 적용하고, 추론 능력을 향상시키기 위해 강화 학습(RL)을 활용해 왔습니다. 그러나 대부분의 모델들은 생성 단계의 마지막에서만 보상 신호를 제공합니다. 이러한 단일적인 최종 지도 방식은 최종 결과에 긍정적으로 기여한 단계를 식별하기 어렵게 만들고, 최적이 아닌 정책을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 시맨틱 추론, 과정 정제, 결과 평가의 세 단계로 구성된 시각적 지도의 연쇄(Visual-CoG) 패러다임을 제안합니다. 이 패러다임은 이미지 생성 파이프라인 전반에 걸쳐 즉각적인 지도를 제공하는 단계별 보상을 포함합니다. 또한, 우리는 시맨틱 추론의 효과를 평가하기 위해 네 가지 하위 작업으로 구성된 시각적 인지 벤치마크, VisCog-Bench를 구축했습니다. GenEval, T2I-CompBench, 그리고 제안된 VisCog-Bench에 대한 종합 평가에서 각각 15%, 5%, 19%의 개선을 보여주며, 제안된 Visual-CoG의 우수한 성능을 입증했습니다. 모든 리소스를 곧 공개할 예정입니다.
텍스트-투-3D 생성 접근법은 사전 학습된 2D 디퓨전 프라이어를 활용하여 크게 발전했으며, 고품질의 3D 일관성 있는 출력물을 생성합니다. 그러나 이러한 방법들은 도메인 외(OOD) 또는 희귀한 개념을 생성하는 데 실패하여 일관성 없거나 부정확한 결과를 내놓는 경우가 많습니다. 이를 해결하기 위해, 우리는 MV-RAG라는 새로운 텍스트-투-3D 파이프라인을 제안합니다. 이 파이프라인은 먼저 대규모 야생 2D 데이터베이스에서 관련 2D 이미지를 검색한 다음, 이러한 이미지를 기반으로 멀티뷰 디퓨전 모델을 조건화하여 일관적이고 정확한 멀티뷰 출력물을 합성합니다. 이러한 검색 조건화 모델의 학습은 구조화된 멀티뷰 데이터와 다양한 2D 이미지 컬렉션을 연결하는 새로운 하이브리드 전략을 통해 이루어집니다. 이는 검색 변동을 시뮬레이션하는 증강 조건화 뷰를 사용하여 멀티뷰 데이터에 대해 학습하는 것과 함께, 검색된 실제 2D 이미지 세트를 사용하여 독특한 홀드아웃 뷰 예측 목표를 통해 학습하는 것을 포함합니다: 모델은 다른 뷰에서 홀드아웃 뷰를 예측하여 2D 데이터에서 3D 일관성을 추론합니다. 엄격한 OOD 평가를 위해, 우리는 도전적인 OOD 프롬프트의 새로운 컬렉션을 소개합니다. 최신 텍스트-투-3D, 이미지-투-3D, 그리고 개인화 베이스라인과의 실험 결과, 우리의 접근법이 OOD/희귀 개념에 대해 3D 일관성, 사진 현실감, 그리고 텍스트 준수를 크게 개선하면서도 표준 벤치마크에서 경쟁력 있는 성능을 유지함을 보여줍니다.
우리는 텍스트-이미지(T2I) 모델의 추론 능력을 평가하는 벤치마크인 T2I-ReasonBench를 제안한다. 이 벤치마크는 네 가지 차원으로 구성된다: 관용어 해석, 텍스트 기반 이미지 디자인, 개체 추론, 그리고 과학적 추론. 우리는 추론 정확도와 이미지 품질을 평가하기 위해 두 단계의 평가 프로토콜을 제안한다. 다양한 T2I 생성 모델을 벤치마킹하고, 그들의 성능에 대한 포괄적인 분석을 제공한다.
비전-언어 모델(VLMs)은 시각적 입력을 비전 토큰으로 변환하여 언어 지시와 함께 시각적 콘텐츠를 이해하는 데 있어 인상적인 성능을 보여줍니다. 그러나 비전 토큰의 중복성은 VLMs의 추론 효율성을 저하시키는 원인이 됩니다. 비전 토큰의 수를 줄이기 위해 많은 알고리즘이 제안되었지만, 대부분은 단일 모달 정보(즉, 비전/텍스트)만을 사용하여 토큰을 제거하고, 비전-언어 작업의 본질적인 다중 모달 특성을 무시합니다. 또한, 다양한 모달리티에 적용할 수 있는 일반적인 기준이 부족합니다. 이러한 한계를 완화하기 위해, 본 연구에서는 커버리지 기준을 통해 비전과 텍스트 토큰을 모두 활용하여 정보가 풍부한 비전 토큰을 선택하는 방법을 제안합니다. 먼저, 부분집합 선택 문제를 최대 커버리지 문제로 공식화합니다. 이후, 비전 토큰의 부분집합이 텍스트 토큰과 원래의 비전 토큰 집합을 동시에 커버하도록 최적화됩니다. 마지막으로, VLM 에이전트를 도입하여 비전 토큰 제거를 안내하는 텍스트 토큰의 품질을 더욱 향상시킬 수 있습니다. 제안된 방법인 MMTok은 다양한 VLMs을 사용한 벤치마크 데이터셋에서 광범위하게 평가되었습니다. 비교 결과, 비전과 텍스트 정보는 상호 보완적이며, 다중 모달 정보를 결합하면 단일 모달 기준선을 명확한 차이로 능가할 수 있음이 입증되었습니다. 또한, POPE 데이터셋에서 최대 커버리지 기준 하에, 우리의 방법은 LLaVA-NeXT-13B에서 원래 성능의 98.7%를 유지하면서 1.87배의 속도 향상을 달성했습니다. 더 나아가, 단 4개의 비전 토큰만으로도 LLaVA-1.5-7B에서 원래 성능의 87.7%를 보존합니다. 이러한 결과는 토큰 선택에서 커버리지의 효과성을 강조합니다.
대규모 언어 모델(LLM)의 최근 발전은 추론 능력의 발현을 촉진하기 위한 강화 학습(RL)의 잠재력을 강조해 왔습니다. 이러한 고무적인 결과에도 불구하고, RL의 개선이 고품질 샘플로부터의 학습에 의존하는 반면, 그러한 샘플의 탐색은 LLM의 본질적인 한계에 의해 제한된다는 근본적인 딜레마가 여전히 존재합니다. 이는 효과적으로 탐색할 수 없는 것은 학습할 수도 없다는 바람직하지 않은 순환을 만들어냅니다. 본 연구에서는 일반적인 LLM 추론을 위한 탐색 병목 현상을 해결하기 위해 새로운 교육적 스캐폴딩 프레임워크인 Rubric-Scaffolded Reinforcement Learning(RuscaRL)을 제안합니다. 구체적으로, RuscaRL은 체크리스트 스타일의 루브릭을 (1) 롤아웃 생성 중 탐색을 위한 명시적 스캐폴딩으로 도입하여, 다양한 고품질 응답을 유도하기 위해 작업 지침 내에서 외부 지침으로 다양한 루브릭을 제공합니다. 이 지침은 시간이 지남에 따라 점차 감소되며, 모델이 기본 추론 패턴을 내재화하도록 장려합니다. (2) 모델 훈련 중 활용을 위한 검증 가능한 보상으로, 루브릭을 참조로 하여 강력한 LLM-as-a-Judge 점수를 얻을 수 있게 함으로써 일반적인 추론 작업에서 효과적인 RL을 가능하게 합니다. 광범위한 실험을 통해 제안된 RuscaRL이 다양한 벤치마크에서 우수성을 입증하며, best-of-N 평가 하에서 추론 경계를 효과적으로 확장함을 보여줍니다. 특히, RuscaRL은 HealthBench-500에서 Qwen-2.5-7B-Instruct의 점수를 23.6에서 50.3으로 크게 향상시켜 GPT-4.1을 능가했습니다. 또한, Qwen3-30B-A3B-Instruct에 대한 미세 조정 변형은 HealthBench-500에서 61.1을 달성하여 OpenAI-o3를 포함한 주요 LLM들을 능가했습니다.
추론은 대규모 언어 모델의 핵심 능력이지만, 이러한 모델이 어떻게 다단계 추론을 학습하고 수행하는지에 대한 이해는 여전히 미해결 문제로 남아 있습니다. 본 연구에서는 다양한 아키텍처와 학습 방법이 셀룰러 오토마타 프레임워크 내에서 모델의 다단계 추론 능력에 미치는 영향을 탐구합니다. 무작위 초기 조건에 대해 무작위 부울 함수로 생성된 상태 시퀀스를 학습시켜 암기 가능성을 배제함으로써, 대부분의 신경망 아키텍처가 기본 규칙을 추상화하는 것을 학습한다는 것을 입증합니다. 모델들은 다음 상태 예측에서는 높은 정확도를 달성하지만, 다단계 추론이 요구될 경우 성능이 급격히 저하됩니다. 모델의 깊이를 증가시키는 것이 순차적 계산에 중요한 역할을 한다는 것을 확인했습니다. 또한, 재귀, 메모리, 그리고 테스트 시간 계산 확장을 통해 효과적인 모델 깊이를 확장함으로써 추론 능력이 크게 향상된다는 것을 입증합니다.
우리는 도구 통합 추론(Tool-Integrated Reasoning, TIR)이 대규모 언어 모델(LLM)의 능력을 어떻게 향상시키는지 연구한다. 파이썬 코드 인터프리터와 같은 도구와 통합된 LLM은 큰 잠재력을 보여주지만, 이러한 패러다임이 효과적인 이유를 설명하는 원칙적인 이론이 부족했다. 본 연구는 TIR이 근본적으로 LLM의 능력을 확장한다는 첫 번째 형식적 증명을 제공한다. 우리는 도구가 모델의 경험적 및 실행 가능한 지원 영역을 엄격하게 확장함으로써, 순수 텍스트 모델의 능력 한계를 극복하고, 그렇지 않으면 불가능하거나 지나치게 장황한 문제 해결 전략을 가능하게 한다는 것을 보여준다. 또한, 훈련 안정성과 성능을 저해하지 않으면서 모델 행동을 유도하기 위해, 이점 함수를 직접 수정하여 정책 행동을 유도하는 새로운 알고리즘인 Advantage Shaping Policy Optimization(ASPO)을 소개한다. 우리는 외부 도구로 파이썬 인터프리터를 활용하여 도전적인 수학 벤치마크에서 포괄적인 실험을 수행한다. 실험 결과, TIR 모델이 순수 텍스트 모델에 비해 pass@k 지표에서 결정적으로 우수한 성능을 보인다. 특히, 이러한 이점은 계산 집약적인 문제에 국한되지 않고 상당한 추상적 통찰을 요구하는 문제로까지 확장된다. 또한, 모델이 도구와 함께 사고하는 방법을 보여주는 새로운 인지 패턴을 식별한다. 마지막으로, ASPO를 통해 초기 코드 호출과 훨씬 더 상호작용적인 턴을 통해 개선된 도구 사용 행동을 보고한다. 전반적으로, 우리의 연구는 TIR의 성공에 대한 첫 번째 원칙적 설명을 제공하며, 도구가 단순히 작동한다는 사실에서 벗어나 왜 그리고 어떻게 더 강력한 추론을 가능하게 하는지에 초점을 맞춘다.
우리는 구조화된 다중 턴 추론과 광범위한 명령 수행 능력을 결합한 하이브리드 추론 모델 패밀리인 Hermes 4를 소개한다. 데이터 큐레이션, 합성, 훈련 및 평가 과정에서 직면한 과제들을 설명하고, 이러한 과제를 대규모로 해결하기 위해 채택한 솔루션들을 개요한다. 수학적 추론, 코딩, 지식, 이해 및 정렬 벤치마크에 걸쳐 포괄적으로 평가를 수행하며, 양적 성능과 질적 행동 분석을 모두 보고한다. 개방형 연구를 지원하기 위해 모든 모델 가중치는 https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728에서 공개적으로 발표되었다.
대형 언어 모델(LLM)을 기반으로 구축된 다중 에이전트 시스템은 복잡한 구성 작업을 해결하는 데 있어 놀라운 능력을 보여주고 있습니다. 본 연구에서는 이러한 패러다임을 학회 준비를 위해 연구자들이 직면하는 실용적이면서도 시간이 많이 소요되는 논문-포스터 생성 문제에 적용합니다. 최근의 접근 방식들이 이 작업을 자동화하려고 시도했지만, 대부분 핵심 디자인과 미학적 원칙을 간과하여 상당한 수작업 개선이 필요한 포스터를 생성합니다. 이러한 디자인적 한계를 해결하기 위해, 우리는 전문 포스터 디자이너의 작업 흐름을 반영한 다중 에이전트 프레임워크인 PosterGen을 제안합니다. 이 프레임워크는 네 가지 협업적 특화 에이전트로 구성됩니다: (1) Parser와 Curator 에이전트는 논문에서 내용을 추출하고 스토리보드를 구성합니다; (2) Layout 에이전트는 내용을 일관된 공간적 레이아웃으로 매핑합니다; (3) Stylist 에이전트는 색상과 타이포그래피와 같은 시각적 디자인 요소를 적용합니다; 그리고 (4) Renderer는 최종 포스터를 구성합니다. 이러한 에이전트들은 함께 의미적으로 근거 있고 시각적으로 매력적인 포스터를 생성합니다. 디자인 품질을 평가하기 위해, 우리는 레이아웃 균형, 가독성, 미학적 일관성을 측정하는 시각-언어 모델(VLM) 기반 평가 기준을 도입했습니다. 실험 결과는 PosterGen이 내용 충실도에서는 일관되게 기존 방법과 동등한 성능을 보이며, 시각적 디자인에서는 기존 방법들을 크게 능가하여 최소한의 인간 개선만으로도 발표 준비가 완료된 포스터를 생성함을 보여줍니다.
벤치마크는 AI 연구의 진보를 이끌어갑니다. 유용한 벤치마크는 어려우면서도 현실적이어야 합니다: 질문은 최첨단 모델에 도전적이면서도 실제 사용 사례를 반영해야 합니다. 그러나 현재의 패러다임은 난이도와 현실성 간의 긴장 관계에 직면해 있습니다: 시험 스타일의 벤치마크는 종종 인위적으로 어렵게 만들어져 실제 가치가 제한적이며, 실제 사용자 상호작용을 기반으로 한 벤치마크는 쉬운 고빈도 문제로 치우치는 경향이 있습니다. 본 연구에서는 근본적으로 다른 패러다임을 탐구합니다: 해결되지 않은 질문에 대해 모델을 평가하는 것입니다. 한 번 점수가 매겨지는 정적 벤치마크 대신, 우리는 해결되지 않은 질문을 선별하고 검증자 지원 스크리닝과 커뮤니티 검증을 통해 시간에 따라 비동기적으로 모델을 평가합니다. 우리는 UQ를 소개합니다. 이는 Stack Exchange에서 수집한 500개의 도전적이고 다양한 질문으로 구성된 테스트베드로, 컴퓨터 과학 이론과 수학부터 공상과학과 역사에 이르기까지 다양한 주제를 다루며 추론, 사실성, 탐색 능력을 탐구합니다. UQ는 설계상 어렵고 현실적입니다: 해결되지 않은 질문은 종종 어렵고 인간이 답을 찾을 때 자연스럽게 발생하므로 이를 해결하면 직접적인 현실적 가치를 얻을 수 있습니다. 우리의 기여는 세 가지입니다: (1) UQ 데이터셋과 질문 품질(예: 명확하고 어려운)을 보장하기 위해 규칙 기반 필터, LLM 판단자, 인간 검토를 결합한 수집 파이프라인; (2) 생성자-검증자 간극을 활용하여 평가 신호를 제공하고 인간 검토를 위한 후보 솔루션을 사전 스크리닝하는 복합 검증 전략인 UQ 검증자; (3) 전문가들이 질문과 솔루션을 집단적으로 검증하는 오픈 플랫폼인 UQ 플랫폼. 최고의 모델도 UQ 검증을 통과한 질문은 15%에 불과하며, 예비 인간 검증에서 이미 통과한 답변 중 정답이 확인되었습니다. UQ는 최첨단 모델을 현실적이고 개방형 도전 과제에 대해 평가하는 길을 제시하며, 성공은 인간 지식의 최전선을 넓힙니다. UQ는 https://uq.stanford.edu에서 공개됩니다.
최근 대형 시각-언어 모델(VLMs)의 발전은 주로 영어에 초점이 맞춰져 있으며, 다른 언어에 대한 관심은 상대적으로 제한적이었습니다. 이러한 격차를 해소하기 위해, 우리는 페르시아어 VLMs를 과학적 추론 및 인간 수준의 이해 과제에서 평가하기 위해 설계된 첫 번째 데이터셋인 MEENA(페르시아어 MMMU로도 알려짐)를 소개합니다. 우리의 데이터셋은 약 7,500개의 페르시아어 질문과 3,000개의 영어 질문으로 구성되어 있으며, 추론, 수학, 물리학, 다이어그램, 차트, 그리고 페르시아 예술과 문학 등 다양한 주제를 다룹니다. MEENA의 주요 특징은 다음과 같습니다: (1) 초등학교부터 고등학교까지 다양한 교육 수준을 아우르는 다양한 주제 범위, (2) 난이도 수준과 설명적 답변을 포함한 풍부한 메타데이터, (3) 문화적 뉘앙스를 보존한 원본 페르시아어 데이터, (4) 교차 언어 성능을 평가하기 위한 이중 언어 구조, (5) 전반적인 성능, 이미지에 주의를 기울이는 모델의 능력, 그리고 환각을 생성하는 경향을 포함한 다양한 능력을 평가하는 일련의 실험. 우리는 이 벤치마크가 영어를 넘어선 VLM의 능력을 향상시키는 데 기여하기를 바랍니다.
실제 애플리케이션(예: 재무 보고서, 의료 기록, 거래 주문)에서 널리 사용되는 반구조화된 테이블은 종종 유연하고 복잡한 레이아웃(예: 계층적 헤더 및 병합된 셀)을 포함합니다. 이러한 테이블은 일반적으로 인간 분석가가 테이블 레이아웃을 해석하고 관련 자연어 질문에 답변하는 데 의존하며, 이는 비용이 많이 들고 비효율적입니다. 이 절차를 자동화하기 위해 기존 방법들은 상당한 어려움에 직면합니다. 첫째, NL2SQL과 같은 방법은 반구조화된 테이블을 구조화된 테이블로 변환해야 하는데, 이는 종종 상당한 정보 손실을 초래합니다. 둘째, NL2Code 및 다중 모달 LLM QA와 같은 방법은 반구조화된 테이블의 복잡한 레이아웃을 이해하는 데 어려움을 겪으며 해당 질문에 정확하게 답변할 수 없습니다. 이를 위해, 우리는 대규모 언어 모델을 사용한 반구조화된 테이블 질의 응답을 위한 트리 기반 프레임워크인 ST-Raptor를 제안합니다. 첫째, 복잡한 반구조화된 테이블 레이아웃을 포착하는 구조적 모델인 계층적 직교 트리(HO-Tree)와 이를 구성하기 위한 효과적인 알고리즘을 소개합니다. 둘째, LLM이 일반적인 QA 작업을 실행할 수 있도록 기본 트리 작업 세트를 정의합니다. 사용자 질문이 주어지면, ST-Raptor는 이를 더 간단한 하위 질문으로 분해하고, 해당 트리 작업 파이프라인을 생성하며, 정확한 파이프라인 실행을 위해 작업-테이블 정렬을 수행합니다. 셋째, 두 단계의 검증 메커니즘을 통합합니다: 순방향 검증은 실행 단계의 정확성을 확인하고, 역방향 검증은 예측된 답변에서 쿼리를 재구성하여 답변의 신뢰성을 평가합니다. 성능을 벤치마킹하기 위해, 우리는 102개의 실제 반구조화된 테이블에 대한 764개의 질문으로 구성된 SSTQA 데이터셋을 제시합니다. 실험 결과, ST-Raptor는 9개의 베이스라인보다 최대 20% 더 높은 답변 정확도를 보였습니다. 코드는 https://github.com/weAIDB/ST-Raptor에서 확인할 수 있습니다.
표면 재구성은 컴퓨터 비전 및 그래픽스 분야에서 널리 연구되어 왔습니다. 그러나 기존의 표면 재구성 연구는 입력 뷰가 극도로 희소할 때 정확한 장면 기하학을 복원하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 Gaussian Splatting을 통한 일반화 가능한 희소 뷰 표면 재구성 프레임워크인 MeshSplat을 제안합니다. 우리의 핵심 아이디어는 2DGS를 새로운 뷰 합성과 학습된 기하학적 사전 지식을 연결한 다음, 이러한 사전 지식을 전달하여 표면 재구성을 달성하는 것입니다. 구체적으로, 우리는 피드포워드 네트워크를 통합하여 뷰별 픽셀 정렬 2DGS를 예측함으로써 네트워크가 새로운 뷰 이미지를 합성할 수 있게 하고, 이를 통해 직접적인 3D 지상 진실(ground-truth) 감독의 필요성을 제거합니다. 2DGS의 위치와 방향 예측의 정확도를 향상시키기 위해, 우리는 깊이 맵을 정규화하기 위한 가중치 첨퍼 거리 손실(Weighted Chamfer Distance Loss)을 제안하며, 특히 입력 뷰의 겹치는 영역에서 이를 적용합니다. 또한, 단안 정규 추정기(monocular normal estimator)에 의해 예측된 법선 벡터와 2DGS의 방향을 정렬하기 위한 법선 예측 네트워크를 제안합니다. 광범위한 실험을 통해 우리가 제안한 개선 사항의 효과를 검증하였으며, 우리의 방법이 일반화 가능한 희소 뷰 메쉬 재구성 작업에서 최첨단 성능을 달성함을 입증하였습니다. 프로젝트 페이지: https://hanzhichang.github.io/meshsplat_web
구성적 시각 추론(compositional visual reasoning)은 다중모드 AI의 주요 연구 분야로 부상하며, 기계가 인간과 유사한 방식으로 시각 장면을 분해하고 중간 개념을 기반으로 다단계 논리적 추론을 수행할 수 있는 능력을 갖추는 것을 목표로 합니다. 초기 연구들은 단일체적(single monolithic) 시각-언어 모델이나 일반적인 다중모드 추론에 초점을 맞추었지만, 빠르게 확장되고 있는 구성적 시각 추론 문헌에 대한 전용 종합 연구는 아직 부족한 상태입니다. 우리는 2023년부터 2025년까지의 260편 이상의 주요 학회(CVPR, ICCV, NeurIPS, ICML, ACL 등) 논문을 체계적으로 검토한 포괄적인 연구를 통해 이 격차를 메웁니다. 먼저, 핵심 정의를 공식화하고 구성적 접근 방식이 인지적 정렬(cognitive alignment), 의미론적 충실도(semantic fidelity), 견고성(robustness), 해석 가능성(interpretability), 데이터 효율성(data efficiency) 측면에서 왜 우수한지를 설명합니다. 다음으로, 프롬프트 강화 언어 중심 파이프라인에서 도구 강화 LLM, 도구 강화 VLM을 거쳐 최근의 사고 연쇄(chain-of-thought) 추론과 통합 에이전트형 VLM에 이르는 다섯 단계의 패러다임 전환을 추적하며, 각각의 아키텍처 설계, 강점 및 한계를 강조합니다. 이후, 우리는 기반 정확도(grounding accuracy), 사고 연쇄 충실도(chain-of-thought faithfulness), 고해상도 인식(high-resolution perception) 등 다양한 차원에서 구성적 시각 추론을 탐구하는 60개 이상의 벤치마크와 해당 메트릭을 분류합니다. 이러한 분석을 바탕으로, 우리는 주요 통찰을 도출하고 개방형 과제(예: LLM 기반 추론의 한계, 환각(hallucination), 연역적 추론에 대한 편향, 확장 가능한 감독, 도구 통합, 벤치마크 한계 등)를 식별하며, 세계 모델 통합(world-model integration), 인간-AI 협업 추론, 더 풍부한 평가 프로토콜을 포함한 미래 방향을 제시합니다. 통합 분류 체계, 역사적 로드맵, 비판적 전망을 제공함으로써, 이 연구는 구성적 시각 추론 연구의 기초 참고 자료로 기능하고 다음 세대의 연구를 영감으로 삼고자 합니다.
음성 토크나이저는 음성 언어 모델의 기초 구성 요소로 작동하지만, 현재의 설계는 여러 가지 한계를 보입니다. 이러한 한계에는 1) 다층 잔차 벡터 양자화 구조 또는 높은 프레임 레이트에 대한 의존성, 2) 의미론적 정제를 위한 보조 사전 훈련 모델의 필요성, 3) 복잡한 두 단계 훈련 프로세스의 요구 사항 등이 포함됩니다. 본 연구에서는 이러한 문제를 극복하기 위해 새로운 접근 방식인 Text-aware Diffusion Transformer Speech Codec(TaDiCodec)를 소개합니다. TaDiCodec은 확산 오토인코더를 통해 양자화 및 재구성을 위한 종단 간 최적화를 수행하며, 확산 디코더에 텍스트 지침을 통합하여 재구성 품질을 향상시키고 최적의 압축을 달성합니다. TaDiCodec은 24kHz 음성에 대해 단일 레이어 코드북을 사용하여 6.25Hz의 극도로 낮은 프레임 레이트와 0.0875kbps의 비트레이트를 달성하면서도, 단어 오류율(WER), 화자 유사성(SIM), 음성 품질(UTMOS)과 같은 중요한 음성 생성 평가 지표에서 우수한 성능을 유지합니다. 특히, TaDiCodec은 단일 단계의 종단 간 훈련 패러다임을 채택하며, 보조 사전 훈련 모델의 필요성을 없앱니다. 또한, TaDiCodec의 호환성을 자동회귀 모델링과 마스크 생성 모델링을 기반으로 하는 언어 모델 기반 제로샷 텍스트-투-스피치에서 검증하여, 음성 언어 모델링에 대한 효과성과 효율성, 그리고 상당히 작은 재구성-생성 간극을 입증합니다. 우리는 코드와 모델 체크포인트를 공개할 예정입니다. 오디오 샘플은 https://tadicodec.github.io/에서 확인할 수 있으며, 코드와 모델 체크포인트는 https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer에서 공개됩니다.
시각적 단서와 텍스트 프롬프트를 모두 조건으로 하는 시각 기반 이미지 편집은 세밀하고 제어 가능한 콘텐츠 생성을 위한 강력한 패러다임으로 부상하고 있습니다. 최근 생성 모델들이 놀라운 능력을 보여주고 있지만, 기존 평가 방식은 단순하며 실제 편집 작업의 도전 과제를 충분히 반영하지 못하고 있습니다. 우리는 SpotEdit를 제안하는데, 이는 다양한 디퓨전, 자기회귀, 그리고 하이브리드 생성 모델에 걸쳐 시각 기반 이미지 편집 방법을 체계적으로 평가하기 위한 포괄적인 벤치마크로, 상당한 성능 차이를 밝혀냅니다. 중요한데도 충분히 탐구되지 않은 도전 과제를 해결하기 위해, 우리의 벤치마크는 환각(hallucination)에 대한 전용 구성 요소를 포함하여 GPT-4o와 같은 주요 모델들이 종종 시각적 단서의 존재를 환각하고 잘못된 편집 작업을 수행하는 방식을 강조합니다. 우리의 코드와 벤치마크는 https://github.com/SaraGhazanfari/SpotEdit에서 공개되었습니다.
자연어 생성(NLG) 시스템 평가는 자연어 처리(NLP)의 핵심 과제로 남아 있으며, 범용성을 목표로 하는 대형 언어 모델(LLM)의 등장으로 더욱 복잡해졌다. 최근에는 대형 언어 모델을 평가자로 활용하는 LLJ(대형 언어 모델 평가자)가 전통적인 평가 지표의 대안으로 주목받고 있지만, 그 타당성은 아직 충분히 탐구되지 않았다. 본 입장 논문은 LLJ에 대한 현재의 열광이 성급할 수 있다고 주장한다. 이는 LLJ의 도입이 평가자로서의 신뢰성과 타당성에 대한 엄격한 검증을 앞지르고 있기 때문이다. 사회과학의 측정 이론을 바탕으로, 우리는 LLJ 사용의 기반이 되는 네 가지 핵심 가정을 식별하고 비판적으로 평가한다: 인간 판단의 대리자로서의 능력, 평가자로서의 역량, 확장성, 그리고 비용 효율성이다. 우리는 이러한 각 가정이 LLM, LLJ 또는 현재의 NLG 평가 관행의 고유한 한계에 의해 어떻게 도전받을 수 있는지 검토한다. 분석을 구체화하기 위해, 우리는 LLJ의 세 가지 응용 분야를 탐구한다: 텍스트 요약, 데이터 주석, 그리고 안전성 정렬. 마지막으로, 우리는 LLJ 평가에서 더 책임 있는 평가 관행의 필요성을 강조하며, 이 분야에서의 점점 더 커지는 역할이 NLG의 진전을 지원하도록 해야 함을 주장한다.
다양한 독자 그룹에 맞춤화할 수 있는 접근성 높은 텍스트를 생성하기 위해서는 다양한 복잡도 수준 간의 텍스트 패러프레이징 능력이 필수적입니다. 이에 따라 우리는 독일어에서 최초로 대규모로 정렬된 가독성 조절 단락 수준 패러프레이즈 데이터셋인 German4All을 소개합니다. 이 데이터셋은 5가지 가독성 수준을 포괄하며 25,000개 이상의 샘플로 구성되어 있습니다. 데이터셋은 GPT-4를 사용해 자동으로 합성되었으며, 인간과 대형 언어 모델(LLM) 기반 평가를 통해 엄격히 검증되었습니다. German4All을 활용하여 우리는 오픈소스 가독성 조절 패러프레이징 모델을 학습시켰으며, 이 모델은 독일어 텍스트 단순화 분야에서 최첨단 성능을 달성하여 더욱 세밀하고 독자 맞춤형 적응을 가능하게 합니다. 우리는 다중 수준 패러프레이징 연구를 촉진하기 위해 데이터셋과 모델 모두를 오픈소스로 공개합니다.
본 논문은 어텐션 메커니즘에서 정규화의 한계를 탐구한다. 우리는 모델의 선택 능력과 토큰 선택에 관여하는 기하학적 분리를 식별할 수 있는 이론적 프레임워크로 시작한다. 우리의 분석은 소프트맥스 스케일링 하에서 토큰 벡터 간 거리와 분리 기준에 대한 명시적 경계를 포함한다. 사전 학습된 GPT-2 모델을 이용한 실험을 통해, 우리는 이론적 결과를 실증적으로 검증하고 어텐션 메커니즘의 주요 동작을 분석한다. 특히, 선택된 토큰의 수가 증가함에 따라 모델이 정보성 있는 토큰을 구별하는 능력이 감소하며, 종종 균일한 선택 패턴으로 수렴함을 보여준다. 또한, 소프트맥스 정규화 하에서의 그래디언트 민감도가 훈련 중에 특히 낮은 온도 설정에서 문제를 야기함을 보인다. 이러한 발견들은 소프트맥스 기반 어텐션 메커니즘에 대한 현재의 이해를 발전시키고, 향후 어텐션 아키텍처에서 더 강력한 정규화 및 선택 전략의 필요성을 제기한다.
심초음파는 심장 영상에서 중심적인 역할을 하며, 진단과 모니터링에 필수적인 심장의 동적 관찰을 제공합니다. 그러나 특히 영상 획득이 어려운 환자에서 다중 경로 반사로 인해 발생하는 안개 현상으로 인해 영상 품질이 크게 저하될 수 있습니다. 본 연구에서는 MICCAI Dehazing Echocardiography Challenge(DehazingEcho2025)를 위해 개발된 의미론적 가이드와 확산 기반의 안개 제거 알고리즘을 제안합니다. 우리의 방법은 안개가 낀 입력 영상의 의미론적 분할에서 도출된 픽셀 단위 잡음 모델을 깨끗한 초음파 데이터에 대해 학습된 생성적 사전 정보로 가이드된 확산 후방 샘플링 프레임워크에 통합합니다. 챌린지 데이터셋에 대한 정량적 평가는 대비 및 충실도 지표에서 강력한 성능을 보여줍니다. 제출된 알고리즘의 코드는 https://github.com/tristan-deep/semantic-diffusion-echo-dehazing에서 확인할 수 있습니다.
포토리얼리즘(Photorealism)은 플레이어 경험을 형성하고 몰입감, 내러티브 참여도, 시각적 충실도에 동시에 영향을 미칠 수 있기 때문에 현대 비디오 게임에서 중요한 요소입니다. 최근 하드웨어 기술의 획기적인 발전과 최첨단 렌더링 기술이 비디오 게임의 시각적 현실감을 크게 향상시켰지만, 시각적 품질과 성능 간의 트레이드오프로 인해 실시간 프레임 속도에서 동적 환경에서의 진정한 포토리얼리즘 달성은 여전히 주요 과제로 남아 있습니다. 본 짧은 논문에서는 생성적 적대 네트워크(GAN)를 사용하여 렌더링된 게임 프레임의 포토리얼리즘을 향상시키는 새로운 접근 방식을 제시합니다. 이를 위해, 우리는 이중 단계 생성 네트워크 프레임워크(REGEN)를 통해 실시간 포토리얼리즘 향상을 제안합니다. 이 프레임워크는 강력한 비짝 이미지-이미지 변환 모델을 사용하여 의미적으로 일관된 포토리얼리즘 프레임을 생성함으로써 문제를 더 단순한 짝 이미지-이미지 변환 작업으로 변환합니다. 이를 통해 시각적 품질을 저하시키지 않으면서 실시간 추론 시간을 달성할 수 있는 경량화된 방법으로 학습이 가능합니다. 우리는 Grand Theft Auto V에서 이 프레임워크의 효과를 입증하며, 이 접근법이 강력한 비짝 Im2Im 방법으로 생성된 결과와 비슷한 시각적 결과를 달성하면서 추론 속도를 32.14배 향상시킨다는 것을 보여줍니다. 또한, 우리의 연구 결과는 비디오 게임 프레임을 실세계 이미지의 시각적 특성으로 변환하기 위해 경량화된 비짝 Im2Im 변환 방법을 직접 학습시켜 생성된 포토리얼리즘 강화 프레임보다 우수한 결과를 보여줍니다. 이 작업의 코드, 사전 학습된 모델, 데모는 https://github.com/stefanos50/REGEN에서 확인할 수 있습니다.
기존 연구에 따르면 생성된 질문의 전제는 검증되지 않은 가정을 도입함으로써 주장 검증에서의 불일치를 초래할 수 있음이 밝혀졌습니다. 또한, 프롬프트 민감도는 대규모 언어 모델(LLM)의 주요 과제로 남아 있으며, 이로 인해 성능 변동이 최대 3-6%까지 발생할 수 있습니다. 최근의 발전으로 이러한 격차가 줄어들었지만, 우리의 연구는 프롬프트 민감도가 여전히 지속적인 문제임을 보여줍니다. 이를 해결하기 위해, 우리는 전제가 없는 분해된 질문을 통해 추론하는 구조적이고 견고한 주장 검증 프레임워크를 제안합니다. 다양한 프롬프트, 데이터셋, 그리고 LLM에 걸친 광범위한 실험을 통해, 최첨단 모델들조차도 프롬프트 변동과 전제에 취약함이 드러났습니다. 우리의 방법은 이러한 문제를 일관되게 완화하며, 최대 2-5%의 성능 향상을 달성했습니다.