번역이 포함된 일일 선별된 AI 연구 논문
아랍어 문서 OCR은 필기체 스크립트, 다양한 폰트, 발음 구별 기호, 그리고 오른쪽에서 왼쪽으로의 방향성으로 인해 여전히 어려운 과제로 남아 있습니다. 현대의 멀티모달 대형 언어 모델(MLLMs)이 고자원 언어에 대한 문서 이해를 크게 발전시켰음에도 불구하고, 아랍어에 대한 성능은 여전히 제한적입니다. 본 연구에서는 아랍어 문서 OCR에 특화된 비전-언어 모델인 Baseer를 소개합니다. 합성 및 실제 문서를 결합한 대규모 데이터셋을 활용하여, Baseer는 사전 훈련된 MLLM을 일반 시각적 특징을 보존하면서 적응시키기 위한 디코더 전용 미세 조정 전략으로 훈련되었습니다. 또한, 아랍어 OCR 시스템의 엄격한 평가를 위해 전문가 검증을 거친 고품질 벤치마크인 Misraj-DocOCR을 제시합니다. 실험 결과, Baseer는 기존의 오픈소스 및 상용 솔루션을 크게 능가하며, WER 0.25를 달성하여 아랍어 문서 OCR 분야에서 새로운 최첨단 기술을 확립했습니다. 본 연구 결과는 범용 MLLM의 도메인 특화적 적응의 이점을 강조하며, 아랍어와 같은 형태학적으로 풍부한 언어에 대한 고정확도 OCR을 위한 강력한 기준을 마련했습니다.
계산 자원의 기하급수적 확장과 고품질 텍스트 데이터의 유한한 성장 간의 격차가 점점 커지면서, 대규모 언어 모델(LLM)의 기존 확장 접근 방식이 제약을 받고 있습니다. 이러한 문제를 해결하기 위해, 우리는 사전 학습 데이터에 대한 강화 학습(Reinforcement Learning on Pre-Training data, RLPT)이라는 새로운 학습 시점 확장 패러다임을 제안합니다. 주로 지도 학습을 통해 학습을 확장해 온 기존 접근 방식과 달리, RLPT는 정책이 사전 학습 데이터를 통해 의미 있는 경로를 자율적으로 탐색하고 강화 학습(RL)을 통해 능력을 향상시킬 수 있도록 합니다. 인간 피드백을 통한 강화 학습(RLHF)이나 검증 가능한 보상을 활용한 강화 학습(RLVR)과 같은 기존 RL 전략은 보상 구성을 위해 인간의 주석에 의존하지만, RLPT는 사전 학습 데이터에서 직접 보상 신호를 도출함으로써 이러한 의존성을 제거합니다. 구체적으로, RLPT는 다음 세그먼트 추론 목표를 채택하여, 이전 문맥을 조건으로 후속 텍스트 세그먼트를 정확히 예측하는 정책에 보상을 제공합니다. 이 공식화는 사전 학습 데이터에 대해 RL을 확장할 수 있도록 하여, 더 넓은 문맥에서 더 풍부한 경로를 탐색하도록 유도함으로써 보다 일반화 가능한 추론 능력을 촉진합니다. 다양한 모델에 대한 일반 도메인 및 수학적 추론 벤치마크에서의 광범위한 실험을 통해 RLPT의 효과가 검증되었습니다. 예를 들어, Qwen3-4B-Base에 RLPT를 적용했을 때, MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24, AIME25에서 각각 3.0, 5.1, 8.1, 6.0, 6.6, 5.3의 절대적 성능 향상을 보였습니다. 이러한 결과는 더 많은 계산 자원을 투입할 경우 지속적인 성능 향상이 가능함을 시사하는 유리한 확장 동작을 보여줍니다. 또한, RLPT는 LLM의 추론 경계를 확장하고 RLVR 성능을 향상시키는 견고한 기반을 제공합니다.
모방 학습 기반 시각운동 정책은 로봇 매니퓰레이션에서 널리 사용되어 왔으며, 정밀한 제어를 위해 일반적으로 시각 관측과 고유수용성 상태를 함께 사용한다. 그러나 본 연구에서는 이러한 일반적인 관행이 정책을 고유수용성 상태 입력에 지나치게 의존하게 만들어 훈련 궤적에 과적합을 일으키고 공간 일반화를 저하시키는 것을 발견했다. 이에 반해, 우리는 고유수용성 상태 입력을 제거하고 시각 관측만을 조건으로 동작을 예측하는 State-free Policy를 제안한다. State-free Policy는 상대적 엔드 이펙터 동작 공간에서 구축되며, 이중 광각 손목 카메라로 제공되는 작업 관련 시각 관측을 완전히 보장해야 한다. 실험 결과는 State-free 정책이 상태 기반 정책보다 훨씬 강력한 공간 일반화를 달성함을 보여준다: 피크 앤 플레이스, 도전적인 셔츠 접기, 복잡한 전신 매니퓰레이션과 같은 실제 작업에서, 높이 일반화의 평균 성공률은 0%에서 85%로, 수평 일반화는 6%에서 64%로 향상되었다. 또한, 데이터 효율성과 교차 구현 적응에서도 이점을 보여 실제 배포를 위한 실용성을 강화했다.
멀티모달 대형 언어 모델(MLLMs)은 빠르게 발전하고 있으며 AI 개발의 최전선을 대표합니다. 그러나 이러한 모델의 학습 및 추론 효율성은 MLLMs를 더욱 접근 가능하고 확장 가능하게 만드는 데 있어 핵심적인 병목 현상으로 부상했습니다. 이러한 문제를 해결하기 위해, 우리는 높은 효율성과 강력한 성능을 위해 설계된 8B 파라미터 모델인 MiniCPM-V 4.5를 제시합니다. 우리는 모델 아키텍처, 데이터 전략 및 학습 방법에서 세 가지 핵심 개선 사항을 도입했습니다: 이미지와 비디오에 대한 고도로 압축된 인코딩을 위한 통합 3D-Resampler 모델 아키텍처, 복잡한 데이터 엔지니어링 없이 문서 지식과 텍스트 인식을 위한 통합 학습 패러다임, 그리고 짧고 긴 추론 모드 모두에 능숙한 하이브리드 강화 학습 전략. OpenCompass 평가에서의 포괄적인 실험 결과는 MiniCPM-V 4.5가 GPT-4o-latest와 같은 널리 사용되는 독점 모델과 Qwen2.5-VL 72B와 같은 훨씬 더 큰 오픈소스 모델을 능가함을 보여줍니다. 특히, 이러한 강력한 성능은 놀라운 효율성과 함께 달성되었습니다. 예를 들어, 널리 채택된 VideoMME 벤치마크에서 MiniCPM-V 4.5는 30B 크기 미만의 모델 중에서 최고의 성능을 달성하며, Qwen2.5-VL 7B의 46.7% GPU 메모리 비용과 8.7% 추론 시간만을 사용합니다.
전체 소프트웨어 저장소를 이해하고 추론하는 능력은 지능형 소프트웨어 엔지니어링 도구에 있어 필수적인 기능입니다. CoSQA와 CodeQA와 같은 기존 벤치마크가 이 분야를 발전시켜 왔지만, 이들은 주로 작고 독립적인 코드 조각에 초점을 맞추고 있습니다. 이러한 설정은 실제 세계의 저장소 복잡성을 포착하지 못하며, 효과적인 이해와 추론은 종종 여러 파일을 탐색하고, 소프트웨어 아키텍처를 이해하며, 장거리 코드 의존성에 기반한 답변을 요구합니다. 본 논문에서는 현실적인 코드 환경에서 자동화된 질문 응답(QA) 시스템 연구를 촉진하기 위해 설계된 저장소 수준의 코드 QA 벤치마크인 SWE-QA를 소개합니다. SWE-QA는 의도 이해, 파일 간 추론, 다중 홉 의존성 분석 등 다양한 범주에 걸친 576개의 고품질 질문-답변 쌍을 포함합니다. SWE-QA를 구축하기 위해, 우리는 먼저 11개의 인기 있는 저장소에서 77,100개의 GitHub 이슈를 크롤링했습니다. 이러한 이슈에서 추출된 자연스럽게 발생하는 개발자 질문을 분석하여, 저장소 수준 질문의 두 단계 분류 체계를 개발하고 각 범주에 대한 시드 질문 세트를 구성했습니다. 각 범주에 대해, 우리는 질문을 수동으로 선별하고 검증하며 해당 답변을 수집했습니다. 프로토타입 애플리케이션으로, 우리는 LLM 에이전트가 자동으로 답변을 찾기 위해 추론하고 행동하는 에이전트 프레임워크인 SWE-QA-Agent를 추가로 개발했습니다. 우리는 다양한 컨텍스트 증강 전략 하에서 SWE-QA에 대해 6개의 고급 LLM을 평가했습니다. 실험 결과는 LLM, 특히 우리의 SWE-QA-Agent 프레임워크가 저장소 수준 QA를 해결하는 데 있어 유망함을 보여주며, 동시에 해결해야 할 과제와 향후 연구 방향을 제시합니다.
시각적 공간 추론(Visual Spatial Reasoning, VSR)은 인간의 핵심 인지 능력이자, 구현된 지능(embodied intelligence)과 자율 시스템의 발전을 위해 필수적인 요구 사항입니다. 최근 비전-언어 모델(Vision-Language Models, VLMs)의 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성으로 인해 인간 수준의 VSR을 달성하는 것은 여전히 매우 어려운 과제로 남아 있습니다. 본 논문에서는 VLMs에서의 VSR에 대한 체계적인 연구를 제시하며, 입력 양식, 모델 아키텍처, 훈련 전략, 추론 메커니즘에 걸친 기존 방법론들을 검토합니다. 더 나아가, 공간 지능을 기본 인지, 공간 이해, 공간 계획이라는 세 가지 능력 수준으로 분류하고, 23가지 작업 설정에 걸친 약 20개의 오픈소스 데이터셋을 포함한 공간 지능 벤치마크인 SIBench를 구성했습니다. 최신 VLMs을 사용한 실험 결과, 모델들은 기본 인지 작업에서는 능력을 보였지만, 특히 수치 추정, 다중 시점 추론, 시간적 동역학, 공간 상상력과 같은 이해 및 계획 작업에서는 지속적으로 낮은 성능을 보이며 인지와 추론 사이에 뚜렷한 격차가 있음이 드러났습니다. 이러한 발견들은 공간 지능 달성에 남아 있는 상당한 과제를 강조하면서, 해당 분야의 미래 연구를 이끌기 위한 체계적인 로드맵과 포괄적인 벤치마크를 제공합니다. 본 연구의 관련 자료는 https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/에서 확인할 수 있습니다.
파운데이션 모델을 위한 강화 학습의 최근 발전, 특히 그룹 상대 정책 최적화(GRPO)는 추론 작업에서 파운데이션 모델의 성능을 크게 향상시켰습니다. 특히, GRPO에서 트랙젝토리 중요도를 순위 매기는 데 있어 이점 함수(advantage function)가 핵심 메커니즘으로 작용합니다. 그러나 기존 연구에서는 이점 역전(advantage reversion)과 이점 미러(advantage mirror) 문제가 발생하며, 이는 다양한 질의 샘플 간의 합리적인 이점 할당을 방해합니다. 본 연구에서는 간단하지만 효과적인 GRPO 전략인 혼합 이점 정책 최적화(MAPO)를 제안합니다. 우리는 트랙젝토리가 서로 다른 확실성(certainty)을 가지고 나타난다는 점을 밝히고, 높은 확실성을 가진 트랙젝토리 샘플에 대해 이점 백분율 편차(advantage percent deviation)를 제안합니다. 더 나아가, 트랙젝토리 확실성이 다양한 샘플에 대해 이점 함수를 동적으로 재가중함으로써, 샘플별 특성을 고려하여 이점 함수를 적응적으로 구성합니다. 관련 최신 방법과의 비교 및 다양한 이점 변형에 대한 절제 연구(ablation study)를 통해 우리 접근법의 효과성을 검증합니다.
피드포워드 3D 가우시안 스플래팅(3DGS)은 새로운 시점 합성(new view synthesis)을 위한 매우 효과적인 솔루션으로 부상했습니다. 기존 방법들은 주로 픽셀 정렬 가우시안 예측 패러다임에 의존하며, 여기서 각 2D 픽셀은 3D 가우시안에 매핑됩니다. 우리는 이 널리 채택된 공식을 재고하고 몇 가지 내재된 한계를 확인했습니다: 이는 재구성된 3D 모델이 입력 뷰의 수에 크게 의존하게 만들고, 뷰 편향된 밀도 분포를 초래하며, 특히 소스 뷰에 가림 현상이나 낮은 텍스처가 포함된 경우 정렬 오류를 유발합니다. 이러한 문제를 해결하기 위해, 우리는 픽셀 정렬을 복셀 정렬 가우시안으로 대체하는 새로운 멀티뷰 피드포워드 패러다임인 VolSplat을 소개합니다. 예측된 3D 복셀 그리드에서 직접 가우시안을 예측함으로써, 이는 오류가 발생하기 쉬운 2D 특징 매칭에 대한 픽셀 정렬의 의존성을 극복하고, 견고한 멀티뷰 일관성을 보장합니다. 더 나아가, 이는 3D 장면 복잡도에 기반한 가우시안 밀도의 적응적 제어를 가능하게 하여, 더 충실한 가우시안 포인트 클라우드, 개선된 기하학적 일관성, 그리고 향상된 새로운 시점 렌더링 품질을 제공합니다. RealEstate10K 및 ScanNet과 같은 널리 사용되는 벤치마크에서의 실험은 VolSplat이 최첨단 성능을 달성하면서 더 그럴듯하고 뷰 일관적인 가우시안 재구성을 생성함을 보여줍니다. 우수한 결과 외에도, 우리의 접근 방식은 더 밀도 높고 견고한 표현을 갖춘 피드포워드 3D 재구성을 위한 더 확장 가능한 프레임워크를 구축하여, 더 넓은 커뮤니티에서의 추가 연구를 위한 길을 열어줍니다. 비디오 결과, 코드 및 훈련된 모델은 우리 프로젝트 페이지에서 확인할 수 있습니다: https://lhmd.top/volsplat.
대규모 추론 모델(LRMs)은 긴 사고의 연쇄(CoT) 추적에 상당한 테스트 시간 계산을 소비하지만, 효과적인 CoT를 *특징짓는* 요소는 여전히 불분명합니다. 기존 연구에서는 CoT를 길게 확장하고 추가된 *대기* 토큰을 통해 이전 단계를 재검토함으로써 성능 향상을 보고했지만, 최근 연구에서는 더 짧은 사고가 더 긴 추적을 능가할 수 있음을 시사합니다. 따라서 우리는 수학 및 과학적 추론에 대해 10개의 LRM을 대상으로 체계적인 평가를 수행했습니다. "길수록 좋다"는 통념과는 달리, 단순한 CoT 길이 확장과 재검토 증가는 모두 *낮은* 정확도와 관련이 있음을 발견했습니다. CoT가 단계별로 전개됨에 따라, 토큰 수준의 메트릭은 장황함과 프로세스 품질을 혼동할 수 있습니다. 우리는 CoT의 구조를 추출하기 위해 그래프 뷰를 도입하고, 모델 간 정확도에 대해 길이와 재검토 비율을 일관되게 능가하는 단일 통계량인 *실패 단계 비율(FSF)*, 즉 포기된 분기에서의 단계 비율을 식별했습니다. 인과 관계를 탐구하기 위해 두 가지 개입을 설계했습니다. 첫째, 테스트 시간에 각 메트릭별로 후보 CoT를 순위 매기면 FSF가 가장 큰 pass@1 향상을 가져옵니다. 둘째, 실패한 분기를 제거하도록 CoT를 편집하면 정확도가 크게 향상되어, 실패한 분기가 후속 추론에 편향을 주는 것을 나타냅니다. 종합적으로, 이러한 결과는 효과적인 CoT를 *실패가 적은* 것으로 특징짓고, 무분별하게 긴 CoT를 생성하는 것보다 *구조를 고려한* 테스트 시간 스케일링을 지원합니다.
가상 환경을 생성하는 능력은 게임부터 로보틱스, 자율 주행, 산업용 AI와 같은 물리적 AI 영역에 이르기까지 다양한 응용 분야에서 중요합니다. 현재의 학습 기반 3D 재구성 방법은 실제 세계의 다중 시점 데이터 캡처가 가능해야 하지만, 이러한 데이터가 항상 쉽게 구할 수 있는 것은 아닙니다. 최근 비디오 확산 모델(video diffusion models)의 발전은 놀라운 상상력을 보여주었지만, 이들의 2D 특성으로 인해 로봇이 환경을 탐색하고 상호작용해야 하는 시뮬레이션 응용에는 한계가 있습니다. 본 논문에서는 비디오 확산 모델에 내재된 3D 지식을 명시적인 3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS) 표현으로 추출하여 다중 시점 학습 데이터의 필요성을 제거하는 자기 증류(self-distillation) 프레임워크를 제안합니다. 구체적으로, 우리는 일반적인 RGB 디코더에 3DGS 디코더를 추가하고, 이 디코더가 RGB 디코더의 출력으로부터 학습되도록 합니다. 이 접근법을 통해 3DGS 디코더는 비디오 확산 모델로 생성된 합성 데이터만으로도 순수하게 학습될 수 있습니다. 추론 시, 우리의 모델은 텍스트 프롬프트나 단일 이미지로부터 실시간 렌더링을 위한 3D 장면을 합성할 수 있습니다. 또한, 우리의 프레임워크는 단안 입력 비디오로부터 동적 3D 장면 생성으로 확장됩니다. 실험 결과는 우리의 프레임워크가 정적 및 동적 3D 장면 생성에서 최첨단 성능을 달성함을 보여줍니다.
통합 멀티모달 모델은 최근 다양한 콘텐츠를 공동으로 이해하고 생성하는 놀라운 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 컨텍스트가 점점 더 많은 인터리브된 멀티모달 토큰을 통합함에 따라, 디퓨전 노이즈 제거와 자기회귀 디코딩의 반복적인 프로세스는 상당한 계산 오버헤드를 초래합니다. 이를 해결하기 위해, 우리는 멀티모달 이해와 생성 작업을 동시에 가속화하도록 설계된 통합 가속 프레임워크인 Hyper-Bagel을 제안합니다. 우리의 접근 방식은 분할 정복 전략을 사용하며, 다음 토큰 예측을 위한 스펙티브 디코딩과 디퓨전 노이즈 제거를 위한 다단계 증류 프로세스를 활용합니다. 이 프레임워크는 멀티모달 이해에서 2배 이상의 성능 향상을 달성합니다. 생성 작업의 경우, 우리가 개발한 무손실 6-NFE 모델은 텍스트-이미지 생성에서 16.67배, 이미지 편집에서 22배의 속도 향상을 제공하며, 원본 모델의 고품질 출력을 유지합니다. 또한, 우리는 실시간에 가까운 인터랙티브 편집과 생성을 가능하게 하는 고효율 1-NFE 모델을 개발했습니다. 이 모델은 고급 적대적 증류와 인간 피드백 학습을 결합하여 궁극적인 비용 효율성과 반응성을 달성함으로써, 복잡한 멀티모달 상호작용을 원활하고 즉각적으로 만듭니다.
최근 사고 연쇄(Chain-of-Thought, CoT) 단계에서 이산 토큰 대신 연속 토큰을 사용하는 대규모 언어 모델(LLM)의 추론 방식이 주목받고 있다. 이는 연속적인 이산 토큰의 혼합이 여러 추론 경로의 중첩을 동시에 시뮬레이션할 수 있다는 직관에 기반한다. 이론적 연구 결과에 따르면, 연속 토큰은 훨씬 더 큰 표현력을 가지며 특정 문제를 더 효율적으로 해결할 수 있음이 공식적으로 입증되었다. 그러나 연속 토큰의 실용적 사용은 강력한 학습 어려움으로 인해 제한되어 왔다: 기존 연구들은 사전 학습된 이산 토큰 모델에서 추론 시에만 연속 토큰을 사용하거나, 참조 이산 CoT에서 연속 CoT를 증류해야 했으며, 이로 인해 계산 비용이 증가하여 CoT를 매우 적은 수의 토큰으로 제한할 수밖에 없었다. 본 연구는 참조 이산 CoT로부터 증류하지 않고도 강화 학습(Reinforcement Learning, RL)을 통해 연속 CoT를 학습할 수 있는 확장 가능한 방법을 최초로 소개한다. 우리는 "소프트" 토큰을 사용한다: 토큰의 혼합과 입력 임베딩에 노이즈를 추가하여 RL 탐색을 제공한다. 계산 오버헤드는 최소화되어 수백 개의 토큰으로 구성된 연속 CoT를 학습할 수 있다. Llama와 Qwen 모델(최대 8B)을 사용한 수학적 추론 벤치마크에서, 연속 CoT로 학습한 모델은 pass@1에서는 이산 토큰 CoT와 동등한 성능을 보였으며, pass@32에서는 이를 능가하여 더 다양한 CoT를 생성함을 보여주었다. 체계적인 비교에서 가장 성능이 좋은 시나리오는 연속 CoT 토큰으로 학습한 후 추론 시 이산 토큰을 사용하는 것이었으며, 이는 "소프트" 모델이 표준 방식으로 배포될 수 있음을 의미한다. 마지막으로, 연속 CoT RL 학습은 기본 모델의 예측을 도메인 외 작업에서 더 잘 보존함을 보여주어, 기본 모델에 더 부드러운 접근을 제공한다.
최근 3D 가우시안 스플래팅(3DGS)이 NeRF 기반 접근법의 강력한 대안으로 부상하며, 명시적이고 최적화 가능한 3D 가우시안을 통해 실시간 고품질의 새로운 시점 합성을 가능하게 하였다. 그러나 3DGS는 시점 의존적 효과와 이방성 형태를 모델링하기 위해 가우시안별 파라미터에 의존함으로써 상당한 메모리 오버헤드를 겪는다. 최근 연구들은 신경망 필드를 이용해 3DGS를 압축하는 방법을 제안했지만, 이러한 방법들은 가우시안 특성의 고주파 공간적 변화를 포착하는 데 어려움을 겪어 미세한 세부 사항의 재구성이 저하된다. 우리는 명시적 가우시안과 신경망 필드의 장점을 결합한 새로운 장면 표현 방식인 하이브리드 방사 필드(HyRF)를 제안한다. HyRF는 장면을 (1) 중요한 고주파 파라미터만 저장하는 간결한 명시적 가우시안 집합과 (2) 나머지 특성을 예측하는 그리드 기반 신경망 필드로 분해한다. 표현 능력을 향상시키기 위해, 우리는 기하학(크기, 불투명도, 회전)과 시점 의존적 색상을 별도로 모델링하는 분리된 신경망 필드 구조를 도입한다. 또한, 우리는 가우시안 스플래팅과 신경망 필드로 예측된 배경을 합성하는 하이브리드 렌더링 기법을 제안하여 원거리 장면 표현의 한계를 해결한다. 실험 결과, HyRF는 3DGS 대비 모델 크기를 20배 이상 줄이면서도 최신 수준의 렌더링 품질을 달성하고 실시간 성능을 유지함을 보여준다. 우리의 프로젝트 페이지는 https://wzpscott.github.io/hyrf/에서 확인할 수 있다.
방언은 인간 문화의 중요한 구성 요소로, 전 세계 모든 지역에서 발견됩니다. 독일에서는 인구의 40% 이상이 지역 방언을 사용합니다(Adler와 Hansen, 2022). 그러나 문화적 중요성에도 불구하고, 방언을 사용하는 개인들은 종종 부정적인 사회적 편견에 직면합니다. 우리는 이러한 편견이 대형 언어 모델(LLMs)에 반영되는지 여부를 조사합니다. 우리는 방언 사용자와 관련된 일반적인 특성을 분석하기 위해 사회언어학적 문헌을 참고합니다. 이러한 특성을 바탕으로, 우리는 두 가지 과제(연관 과제와 결정 과제)에서 LLMs가 나타내는 방언 명명 편향과 방언 사용 편향을 평가합니다. 모델의 방언 사용 편향을 평가하기 위해, 우리는 알레만어와 바이에른어 등 7개 독일 지역 방언의 문장을 표준 독일어 문장과 짝지은 새로운 평가 코퍼스를 구축합니다. 우리는 다음과 같은 결과를 발견했습니다: (1) 연관 과제에서 평가된 모든 LLMs는 독일 방언 사용자에 대한 부정적인 형용사 연관을 통해 방언 명명 및 방언 사용 편향을 크게 나타냈습니다; (2) 모든 모델은 결정 과정에서 이러한 방언 명명 및 방언 사용 편향을 재현했습니다; 그리고 (3) 이전 연구에서 명시적인 인구통계학적 언급이 편견을 최소화한다는 결과와 달리, 우리는 언어적 인구통계학적 요소(독일 방언 사용자)를 명시적으로 표시하는 것이 방언 사용과 같은 암시적 단서보다 편견을 더욱 증폭시킨다는 것을 발견했습니다.
조건부 생성 모델링은 데이터-조건 쌍을 포함한 샘플로부터 조건부 데이터 분포를 학습하는 것을 목표로 합니다. 이를 위해 확산(diffusion) 및 플로우 기반(flow-based) 방법들이 뛰어난 결과를 달성했습니다. 이러한 방법들은 초기 표준 가우시안 노이즈를 조건을 무시한 상태에서 조건부 데이터 분포로 전송하기 위해 학습된 (플로우) 모델을 사용합니다. 따라서 모델은 질량 전송과 조건 주입을 모두 학습해야 합니다. 모델의 요구 사항을 완화하기 위해, 우리는 플로우 매칭을 위한 조건 인식 재매개변수화(Condition-Aware Reparameterization for Flow Matching, CAR-Flow)를 제안합니다. 이는 소스, 타겟 또는 두 분포 모두를 조건화하는 경량의 학습된 이동(shift)입니다. 이러한 분포를 재배치함으로써, CAR-Flow는 모델이 학습해야 할 확률 경로를 단축시켜 실제로 더 빠른 학습을 가능하게 합니다. 저차원의 합성 데이터에서는 CAR의 효과를 시각화하고 정량화했습니다. 고차원의 자연 이미지 데이터(ImageNet-256)에서는 SiT-XL/2에 CAR-Flow를 적용하여 FID를 2.07에서 1.68로 감소시키면서 0.6% 미만의 추가 매개변수만 도입했습니다.
데이터 부족은 로보틱스 분야의 발전을 가로막는 가장 큰 제약 요인 중 하나로 남아 있습니다. 그러나 실제 환경에서 이용 가능한 로보틱스 데이터의 양은 기하급수적으로 증가하며, 대규모 데이터 활용을 위한 새로운 기회를 창출하고 있습니다. 신뢰할 수 있는 시간적 작업 완료 예측은 이러한 데이터를 대규모로 자동 주석 처리하고 관리하는 데 도움을 줄 수 있습니다. 최근 제안된 생성적 가치 학습(Generative Value Learning, GVL) 접근법은 시각-언어 모델(Vision-Language Models, VLMs)에 내재된 지식을 활용하여 시각적 관찰로부터 작업 진행 상황을 예측합니다. GVL을 기반으로, 우리는 로봇과 인간 구현체를 모두 포함한 다양한 도전적인 조작 작업에서 작업 진행 상황을 추정하기 위한 포괄적인 벤치마크인 OpenGVL을 제안합니다. 우리는 공개적으로 이용 가능한 오픈소스 기반 모델의 성능을 평가하며, 오픈소스 모델 계열이 시간적 진행 예측 작업에서 폐쇄형 모델 대비 약 70%의 성능만 달성함을 보여줍니다. 또한, OpenGVL이 대규모 로보틱스 데이터셋의 효율적인 품질 평가를 가능하게 하는 자동화된 데이터 관리 및 필터링을 위한 실용적인 도구로 활용될 수 있음을 입증합니다. 우리는 이 벤치마크와 완전한 코드베이스를 github.com/budzianowski/opengvl{OpenGVL}에서 공개합니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 비디오 이해 능력을 크게 향상시켜 실용적인 응용 분야에 새로운 가능성을 열어주었습니다. 그러나 현재의 비디오 벤치마크는 주로 실내 장면이나 단거리 야외 활동에 초점을 맞추고 있어, 장거리 여행과 관련된 도전 과제는 크게 탐구되지 않고 있습니다. 확장된 지리-시간적 궤적을 마스터하는 것은 차세대 MLLM에 있어 매우 중요하며, 구체화된 AI 계획 및 내비게이션과 같은 실제 세계의 작업을 뒷받침합니다. 이러한 격차를 해소하기 위해, 우리는 200개의 여행 비디오로 구성된 새로운 벤치마크인 VIR-Bench를 제안합니다. 이 벤치마크는 여정 재구성을 MLLM의 지리-시간적 지능을 평가하고 발전시키기 위한 도전적인 과제로 설정합니다. 실험 결과, 최신 MLLM(상용 모델 포함)이 높은 점수를 달성하는 데 어려움을 겪는 것으로 나타나, 확장된 공간 및 시간 규모를 다루는 비디오의 어려움을 강조합니다. 또한, 우리는 VIR-Bench에서 얻은 통찰력을 활용한 프로토타입 여행 계획 에이전트를 개발하는 심층 사례 연구를 수행했습니다. 이 에이전트의 크게 개선된 여정 추천은 우리의 평가 프로토콜이 모델을 효과적으로 벤치마킹할 뿐만 아니라 사용자 중심 응용 프로그램에서 구체적인 성능 향상으로 이어짐을 검증합니다.
방사선 필드를 이용한 정확한 표면 재구성은 최근 몇 년 동안 놀라운 발전을 이루어 왔습니다. 그러나 주로 가우시안 스플래팅(Gaussian Splatting)에 기반한 기존의 접근법들은 점점 더 표현적 병목 현상에 제약을 받고 있습니다. 본 논문에서는 희소 복셀(sparse voxel)의 잠재력을 탐구하고 확장하여 정확하고 세밀하며 완전한 표면 재구성을 달성하는 명시적 복셀 기반 프레임워크인 GeoSVR을 소개합니다. 희소 복셀은 커버리지 완전성과 기하학적 명확성을 유지하는 데 강점을 가지지만, 부재한 장면 제약과 표면 정제의 지역성으로 인한 도전 과제도 존재합니다. 올바른 장면 수렴을 보장하기 위해, 우리는 먼저 단안 깊이 단서의 효과를 극대화하면서 품질 저하를 방지하기 위해 복셀 지향적 불확실성을 제시하는 Voxel-Uncertainty Depth Constraint를 제안합니다. 이를 통해 효과적이고 견고한 장면 제약을 달성하면서도 매우 정확한 기하학적 구조를 유지할 수 있습니다. 이후, Sparse Voxel Surface Regularization을 설계하여 미세 복셀에 대한 기하학적 일관성을 강화하고, 날카롭고 정확한 표면의 복셀 기반 형성을 촉진합니다. 다양한 도전적인 시나리오에서 기존 방법들에 비해 우수한 성능을 보여주는 광범위한 실험을 통해, 우리의 방법은 기하학적 정확성, 세부 보존, 재구성 완전성에서 탁월한 성과를 거두면서도 높은 효율성을 유지함을 입증합니다. 코드는 https://github.com/Fictionarry/GeoSVR에서 확인할 수 있습니다.
동시 음성-텍스트 번역(SimulST) 시스템은 번역 품질과 지연 시간(음성 입력과 번역된 출력 사이의 시간 차이) 사이의 균형을 맞춰야 합니다. 품질 평가는 잘 정립되어 있지만, 정확한 지연 시간 측정은 여전히 어려운 과제로 남아 있습니다. 기존의 지표들은 종종 일관되지 않거나 오해의 소지가 있는 결과를 내놓는데, 특히 음성이 인위적으로 사전 분할된 널리 사용되는 단편(short-form) 설정에서 더욱 그러합니다. 본 논문에서는 다양한 언어 쌍, 시스템, 그리고 단편 및 장편(long-form) 설정에 걸쳐 SimulST 지연 시간 지표에 대한 첫 번째 포괄적인 분석을 제시합니다. 우리는 분할과 관련된 현재 지표들의 구조적 편향을 발견했는데, 이는 공정하고 의미 있는 비교를 훼손합니다. 이를 해결하기 위해, 단편 설정에서 더 정확한 평가를 제공하는 개선된 지연 시간 지표인 YAAL(Yet Another Average Lagging)을 소개합니다. 또한, YAAL을 비분할 오디오에 적용한 LongYAAL을 확장하고, 단어 수준 정렬을 기반으로 한 새로운 재분할 도구인 SoftSegmenter를 제안합니다. 우리의 실험 결과, YAAL과 LongYAAL은 널리 사용되는 지연 시간 지표들을 능가하며, SoftSegmenter는 장편 평가에서 정렬 품질을 향상시켜, SimulST 시스템의 더 신뢰할 수 있는 평가를 가능하게 합니다.
본 논문은 폼 필드 감지를 위한 웹 스케일 데이터셋인 CommonForms를 소개한다. 이 연구는 폼 필드 감지 문제를 객체 감지 문제로 재구성한다: 페이지 이미지가 주어졌을 때, 폼 필드의 위치와 유형(텍스트 입력, 선택 버튼, 서명)을 예측하는 것이다. 이 데이터셋은 Common Crawl에서 채울 수 있는 요소가 있는 PDF를 필터링하여 구축되었다. 800만 개의 문서로 시작하여, 필터링 과정을 통해 최종적으로 약 55,000개의 문서와 450,000페이지 이상을 포함하는 데이터셋을 확보했다. 분석 결과, 이 데이터셋은 다양한 언어와 도메인을 포함하고 있으며, 페이지의 1/3은 비영어권이며, 14개의 분류된 도메인 중 어느 도메인도 데이터셋의 25% 이상을 차지하지 않는다. 또한, 본 논문은 CommonForms 테스트 세트에서 매우 높은 평균 정밀도를 달성한 폼 필드 감지기 패밀리인 FFDNet-Small과 FFDNet-Large를 제시한다. 각 모델의 학습 비용은 500달러 미만이다. 제거 실험 결과, 고해상도 입력은 고품질 폼 필드 감지에 매우 중요하며, 클리닝 과정은 Common Crawl에서 채울 수 있는 모든 PDF를 사용하는 것보다 데이터 효율성을 향상시킨다. 정성적 분석 결과, 이 모델들은 폼을 준비할 수 있는 상용 PDF 리더보다 우수한 성능을 보인다. 가장 인기 있는 상용 솔루션과 달리, FFDNet은 텍스트와 서명 필드 외에도 체크박스를 예측할 수 있다. 우리가 아는 한, 이는 폼 필드 감지를 위해 공개된 첫 번째 대규모 데이터셋이자 첫 번째 오픈 소스 모델이다. 데이터셋, 모델, 코드는 https://github.com/jbarrow/commonforms에서 공개될 예정이다.
다중 스펙트럼 이미지는 토지 이용 분류, 환경 모니터링, 도시 계획 등 다양한 원격 감응 응용 분야에서 중요한 역할을 합니다. 이러한 이미지는 지상의 물리적 물질(예: 얼음, 물, 식생)과 강한 상관관계를 가지는 추가적인 스펙트럼 밴드를 제공하기 때문에 널리 사용됩니다. 이를 통해 더 정확한 식별이 가능하며, Sentinel-2 및 Landsat과 같은 임무에서 공개적으로 제공되므로 그 가치가 더욱 높아집니다. 현재, 이러한 데이터의 자동 분석은 주로 다중 스펙트럼 입력에 특화된 머신러닝 모델을 통해 이루어지는데, 이 모델들은 학습 및 지원에 많은 비용이 듭니다. 또한, 원격 감응에 많은 유용성을 제공하지만, 이러한 추가 입력은 강력한 일반적인 대형 다중 모달 모델과 함께 사용할 수 없습니다. 이러한 모델들은 많은 시각적 문제를 해결할 수 있지만, 특수화된 다중 스펙트럼 신호를 이해할 수는 없습니다. 이 문제를 해결하기 위해, 우리는 RGB 입력만으로 학습된 일반적인 다중 모달 모델에 새로운 다중 스펙트럼 데이터를 제로샷 모드로 입력하는 학습 없는 접근 방식을 제안합니다. 우리의 접근 방식은 다중 모달 모델의 시각적 공간 이해를 활용하고, 해당 공간에 입력을 적응시키며, 도메인 특정 정보를 모델에 지시사항으로 주입하는 것을 제안합니다. 우리는 이 아이디어를 Gemini2.5 모델로 예시를 들어, 토지 피복 및 토지 이용 분류를 위한 인기 있는 원격 감응 벤치마크에서 이 접근 방식의 강력한 제로샷 성능 향상을 관찰하고, Gemini2.5가 새로운 입력에 쉽게 적응할 수 있음을 보여줍니다. 이러한 결과는 비표준 특수 입력을 다루는 지리공간 전문가들이 Gemini2.5와 같은 강력한 다중 모달 모델을 쉽게 활용하여 작업을 가속화하고, 특수 센서 데이터에 기반한 풍부한 추론 및 문맥적 능력을 활용할 수 있는 잠재력을 강조합니다.
로봇 조작 정책은 종종 주의를 기울여야 할 위치, 수행해야 할 동작, 그리고 이를 실행하는 방법을 동시에 학습해야 하기 때문에 일반화에 실패하는 경우가 많습니다. 우리는 어디에 주의를 기울이고 무엇을 해야 하는지에 대한 고수준의 추론을 시각-언어 모델(VLMs)에 위임함으로써 정책이 어떻게 행동해야 하는지에만 집중할 수 있도록 해야 한다고 주장합니다. 우리는 PEEK(Policy-agnostic Extraction of Essential Keypoints)를 제안하며, 이는 VLMs를 미세 조정하여 통합된 포인트 기반 중간 표현을 예측하도록 합니다: 1. 수행해야 할 동작을 지정하는 엔드 이펙터 경로, 2. 주의를 기울여야 할 위치를 나타내는 작업 관련 마스크. 이러한 주석은 로봇 관측에 직접 오버레이되어 표현을 정책에 독립적이고 아키텍처 간에 전이 가능하게 만듭니다. 확장 가능한 학습을 위해, 우리는 9가지 구현체에 걸친 20개 이상의 로봇 데이터셋에서 레이블이 지정된 데이터를 생성하는 자동 주석 파이프라인을 도입했습니다. 실제 환경 평가에서 PEEK는 제로샷 일반화를 지속적으로 향상시켰으며, 시뮬레이션에서만 학습된 3D 정책의 경우 실제 환경에서 41.4배의 개선을 보였고, 대형 VLAs와 소형 조작 정책 모두에서 2-3.5배의 성능 향상을 달성했습니다. VLMs가 시맨틱 및 시각적 복잡성을 흡수하도록 함으로써, PEEK는 조작 정책에 필요한 최소한의 단서—어디에, 무엇을, 어떻게—를 제공합니다. 웹사이트: https://peek-robot.github.io/.
우리는 방사선학 텍스트 평가를 위한 통합 오픈소스 프레임워크인 RadEval을 소개한다. RadEval은 고전적인 n-gram 중첩 지표(BLEU, ROUGE)와 문맥 기반 측정(BERTScore)부터 임상 개념 기반 점수(F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) 및 고급 LLM 기반 평가자(GREEN)에 이르기까지 다양한 메트릭을 통합한다. 우리는 구현을 개선하고 표준화하며, GREEN을 더 가벼운 모델로 확장하여 다중 영상 양식을 지원하고, 도메인 특화 방사선학 인코더를 사전 학습하여 강력한 제로샷 검색 성능을 입증한다. 또한 450개 이상의 임상적으로 중요한 오류 레이블이 포함된 전문가 주석 데이터셋을 공개하고, 다양한 메트릭이 방사선 전문가의 판단과 어떻게 상관관계를 가지는지 보여준다. 마지막으로, RadEval은 통계적 검증 도구와 공개적으로 이용 가능한 다중 데이터셋에 대한 베이스라인 모델 평가를 제공함으로써 방사선학 보고서 생성 분야에서 재현성과 견고한 벤치마킹을 용이하게 한다.
우리는 인도 문화에 초점을 맞춘 최초의 다중모달 및 다국어 벤치마크인 DRISHTIKON을 소개한다. 이 벤치마크는 생성형 AI 시스템의 문화적 이해력을 평가하기 위해 설계되었다. 일반적이거나 글로벌 범위를 다루는 기존 벤치마크와 달리, DRISHTIKON은 인도의 다양한 지역에 걸쳐 깊이 있고 세밀한 커버리지를 제공하며, 15개 언어를 아우르고 모든 주와 연방 지역을 포함하며, 64,000개 이상의 정렬된 텍스트-이미지 쌍을 통합한다. 이 데이터셋은 축제, 의상, 요리, 예술 형태, 역사적 유산 등 풍부한 문화적 주제를 포착한다. 우리는 오픈소스 소형 및 대형 모델, 독점 시스템, 추론 전용 다중모달 모델, 인도에 초점을 맞춘 모델 등 다양한 비전-언어 모델(VLM)을 제로샷 및 사고 연쇄 설정에서 평가한다. 우리의 결과는 특히 저자원 언어와 덜 문서화된 전통에 대해 문화적으로 기반을 둔 다중모달 입력을 추론하는 현재 모델의 주요 한계를 드러낸다. DRISHTIKON은 포용적 AI 연구에서 중요한 공백을 메우며, 문화적으로 인식된 다중모달 언어 기술을 발전시키기 위한 강력한 테스트베드를 제공한다.