번역이 포함된 일일 선별된 AI 연구 논문
Bielik v3를 소개합니다. 이는 폴란드어 처리에 최적화된 파라미터 효율적 생성 텍스트 모델 시리즈(1.5B 및 4.5B)입니다. 이 모델들은 더 작으면서도 잘 최적화된 아키텍처가 훨씬 더 큰 모델들과 비슷한 성능을 달성할 수 있음을 보여주며, 동시에 상당히 적은 계산 자원을 요구합니다. 우리의 접근 방식에는 몇 가지 주요 혁신이 포함됩니다: 토큰 효율성을 크게 향상시키는 맞춤형 폴란드어 토크나이저(APT4), 다양한 명령 유형 간 학습 균형을 맞추기 위한 가중치 명령 교차 엔트로피 손실(Weighted Instruction Cross-Entropy Loss), 그리고 학습 진행 상황에 따라 동적으로 조정되는 적응형 학습률(Adaptive Learning Rate) 등이 있습니다. 3억 300만 개의 문서에 걸쳐 2,920억 개의 토큰으로 구성된 신중하게 선별된 코퍼스로 학습된 이 모델들은 Open PL LLM 리더보드, 복잡한 폴란드어 텍스트 이해 벤치마크(Complex Polish Text Understanding Benchmark), 폴란드어 EQ-Bench, 폴란드어 의료 리더보드(Polish Medical Leaderboard) 등 여러 벤치마크에서 뛰어난 성능을 보입니다. 4.5B 파라미터 모델은 자신의 크기보다 2~3배 큰 모델들과 경쟁력 있는 결과를 달성하며, 1.5B 모델은 매우 컴팩트한 프로필에도 불구하고 강력한 성능을 제공합니다. 이러한 발전들은 덜 대표적인 언어들에 대한 파라미터 효율적 언어 모델링의 새로운 벤치마크를 설정하며, 자원이 제한된 애플리케이션에서도 고품질의 폴란드어 AI를 더욱 접근 가능하게 만듭니다.
우리는 폴란드어 텍스트 처리에 최적화된 최첨단 언어 모델인 Bielik 11B v2를 소개한다. 이 모델은 Mistral 7B v0.2 아키텍처를 기반으로 구축되었으며, 깊이 확장(depth up-scaling)을 통해 11B 파라미터로 확장되었다. 이 모델은 폴란드어 벤치마크에서 탁월한 성능을 보이는 동시에 강력한 다국어 능력을 유지한다. 우리는 두 가지 주요 기술 혁신을 도입했다: 첫째, 다양한 명령 유형에 걸쳐 학습을 최적화하기 위해 훈련 예제에 품질 기반 가중치를 부여하는 Weighted Instruction Cross-Entropy Loss와, 둘째, 컨텍스트 길이에 따라 동적으로 조정되는 Adaptive Learning Rate이다. 다중 벤치마크에 걸친 포괄적인 평가 결과, Bielik 11B v2는 파라미터 수가 2~6배 더 많은 대형 모델들을 능가하며, 언어 이해부터 복잡한 추론에 이르는 다양한 작업에서 다른 전문화된 폴란드어 언어 모델들을 크게 앞섰다. 이 모델의 파라미터 효율성과 광범위한 양자화 옵션은 다양한 하드웨어 구성에 걸쳐 배포를 가능하게 하여, 폴란드어 AI 역량을 발전시키고, 덜 대표되는 언어에서의 자원 효율적인 언어 모델링을 위한 새로운 벤치마크를 확립한다.
범용 로봇은 다양한 환경에서 효과적으로 작동해야 합니다. 그러나 기존의 대부분의 접근 방식은 능력을 향상시키기 위해 액션 주석 데이터의 확장에 크게 의존하고 있습니다. 결과적으로, 이러한 방식들은 단일 물리적 사양에 제한되며, 다양한 구현체와 환경 간에 전이 가능한 지식을 학습하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 우리는 교차 구현체 비전-언어-액션(VLA) 정책을 학습하기 위한 새로운 프레임워크인 UniVLA를 제안합니다. 우리의 핵심 혁신은 잠재 액션 모델을 통해 비디오에서 작업 중심의 액션 표현을 도출하는 것입니다. 이를 통해 다양한 구현체와 관점에 걸친 광범위한 데이터를 활용할 수 있습니다. 작업과 무관한 동적 특성의 영향을 완화하기 위해, 우리는 언어 지시를 통합하고 DINO 특징 공간 내에 잠재 액션 모델을 구축합니다. 인터넷 규모의 비디오로부터 학습된 이 범용 정책은 효율적인 잠재 액션 디코딩을 통해 다양한 로봇에 배포될 수 있습니다. 우리는 여러 조작 및 탐색 벤치마크와 실제 로봇 배포에서 최첨단 결과를 얻었습니다. UniVLA는 사전 학습 계산량의 1/20 미만과 하류 데이터의 1/10로 OpenVLA를 능가하는 성능을 달성합니다. 인간 비디오를 포함한 이질적인 데이터가 학습 파이프라인에 통합됨에 따라 지속적인 성능 개선이 관찰됩니다. 이러한 결과는 UniVLA가 확장 가능하고 효율적인 로봇 정책 학습을 촉진할 잠재력을 가지고 있음을 강조합니다.
사용자 인터페이스(UI) 설계의 효과를 평가하는 것은 미적 요소를 넘어 사용자 행동에 영향을 미치는 데까지 확장되며, 이는 설계 설득력(Design Persuasiveness)의 핵심 원칙이다. A/B 테스트는 어떤 UI 변형이 더 높은 사용자 참여를 이끌어내는지 결정하는 주요 방법이지만, 비용과 시간이 많이 소요된다. 최근 비전-언어 모델(VLMs)이 자동화된 UI 분석을 처리할 수 있게 되었지만, 현재의 접근 방식은 사용자 상호작용 최적화의 핵심 요소인 비교적 설득력보다는 고립된 설계 속성에 초점을 맞추고 있다. 이를 해결하기 위해, 우리는 실제 UI 이미지 쌍 300개를 A/B 테스트 결과와 전문가의 근거와 함께 라벨링한 Pairwise UI Design Persuasiveness Assessment 작업을 위한 벤치마크인 WiserUI-Bench를 소개한다. 또한, 위치 편향을 줄이고 평가 정확도를 향상시켜 VLM 기반 설득력 평가를 강화하는 새로운 추론 시 전략인 G-FOCUS를 제안한다. 실험 결과는 G-FOCUS가 pairwise UI 평가에서 기존 추론 전략을 일관성과 정확도 면에서 능가함을 보여준다. VLM 기반 UI 설득력 평가를 촉진함으로써, 우리의 연구는 A/B 테스트를 보완할 수 있는 접근 방식을 제공하며, 확장 가능한 UI 선호도 모델링 및 설계 최적화의 진전을 이끌어낼 것이다. 코드와 데이터는 공개될 예정이다.
대형 언어 모델(LLMs)의 최근 발전은 사전 학습 규모 확장에서 사후 학습 및 테스트 시점 규모 확장으로 전환되고 있다. 이러한 발전 과정에서 주요 통합 패러다임이 등장하였는데, 이는 '보상으로부터 학습하기(Learning from Rewards)'로, 보상 신호가 LLM의 행동을 이끄는 지침 역할을 한다. 이 패러다임은 강화 학습(RLHF, DPO, GRPO 등), 보상 기반 디코딩, 사후 수정과 같은 다양한 주요 기술의 기반이 되었다. 특히, 이 패러다임은 정적 데이터로부터의 수동 학습에서 동적 피드백으로부터의 능동 학습으로의 전환을 가능하게 한다. 이를 통해 LLM은 정렬된 선호도와 심층 추론 능력을 갖추게 된다. 본 논문에서는 보상으로부터 학습하기 패러다임에 대한 포괄적인 개요를 제시한다. 이 패러다임 하에서의 전략을 학습, 추론, 사후 추론 단계로 분류하고 분석한다. 또한, 보상 모델을 위한 벤치마크와 주요 응용 분야에 대해 논의한다. 마지막으로, 이 분야의 도전 과제와 미래 방향성을 강조한다. 관련 논문 목록은 https://github.com/bobxwu/learning-from-rewards-llm-papers에서 확인할 수 있다.
대형 언어 모델(LLMs)이 널리 접근 가능해짐에 따라, 특정 도메인 내에서의 지식에 대한 상세한 이해는 실제 세계에서의 성공적인 활용을 위해 필수적입니다. 이는 특히 공중보건 분야에서 중요하며, 관련성 있고 정확하며 최신 정보를 검색하지 못할 경우 영국 주민들에게 큰 영향을 미칠 수 있습니다. 그러나 현재 영국 정부의 공중보건 정보에 대한 LLM의 지식은 거의 알려져 있지 않습니다. 이 문제를 해결하기 위해, 본 논문은 8000개 이상의 질문으로 구성된 새로운 벤치마크인 PubHealthBench를 소개합니다. 이 벤치마크는 LLM의 객관식 질문 답변(MCQA)과 자유 형식 응답을 평가하기 위해 자동화된 파이프라인을 통해 생성되었습니다. 또한 PubHealthBench의 소스 텍스트로 사용된 영국 정부 공중보건 지침 문서의 새로운 데이터셋도 공개합니다. PubHealthBench에서 24개의 LLM을 평가한 결과, 최신 사설 LLM(GPT-4.5, GPT-4.1 및 o1)은 높은 수준의 지식을 보유하고 있으며, MCQA 설정에서 90% 이상의 성적을 달성하고, 간단한 검색 엔진 사용을 통한 인간을 능가하는 것으로 나타났습니다. 그러나 자유 형식 설정에서는 75% 이상의 점수를 기록한 모델이 없어 낮은 성능을 보였습니다. 따라서, 최첨단(SOTA) LLM이 공중보건 정보의 점점 더 정확한 소스로 자리 잡고 있다는 긍정적인 신호가 있음에도 불구하고, 공중보건 주제에 대한 자유 형식 응답을 제공할 때 추가적인 안전장치나 도구가 여전히 필요할 수 있습니다.
OpenAI의 GPT-4o 모델은 자동회귀 아키텍처 내에서 다중 모달 입력과 출력을 통합하여 이미지 생성 분야에서 전례 없는 성능을 보여주었다. 본 연구에서는 GPT-4o가 이미지 복원 커뮤니티에 미칠 잠재적 영향을 조사한다. 우리는 다양한 복원 작업에 걸쳐 GPT-4o의 첫 번째 체계적인 평가를 제시한다. 실험 결과, GPT-4o의 복원 출력물은 시각적으로 매력적이지만, 실제 이미지와 비교할 때 픽셀 수준의 구조적 충실도가 종종 떨어지는 것으로 나타났다. 일반적인 문제로는 이미지 비율의 변화, 객체 위치와 수량의 이동, 그리고 시점의 변화 등이 있다. 이를 해결하기 위해, 이미지 안개 제거, 비 제거, 저조도 향상을 대표적인 사례 연구로 삼아 GPT-4o의 출력물이 강력한 시각적 사전 정보로 작용하여 기존 안개 제거 네트워크의 성능을 크게 향상시킬 수 있음을 보여준다. 이는 GPT-4o를 미래의 이미지 복원 파이프라인에 통합하기 위한 실용적인 지침과 기준 프레임워크를 제공한다. 우리는 GPT-4o 이미지 복원에 대한 연구가 더 넓은 이미지 생성 분야의 혁신을 가속화할 것을 기대한다. 추가 연구를 지원하기 위해, 우리는 10개 이상의 널리 사용되는 이미지 복원 데이터셋에서 GPT-4o로 복원된 이미지를 공개할 예정이다.
포인트 클라우드 강체 등록(Point cloud rigid registration)은 3D 컴퓨터 비전의 기본적인 문제 중 하나이다. 다중 뷰(multiview) 상황에서는 일련의 객체를 정렬하기 위한 6D 포즈 집합을 찾는 것을 목표로 한다. 쌍별 등록(pairwise registration)에 기반한 방법들은 후속 동기화 알고리즘에 의존하므로, 뷰의 수가 증가함에 따라 확장성이 떨어진다. 생성적 접근법은 이러한 한계를 극복하지만, 가우시안 혼합 모델(Gaussian Mixture Models)을 기반으로 하며 기대값 최대화(Expectation-Maximization) 알고리즘을 사용한다. 따라서 큰 변환을 처리하는 데 적합하지 않다. 또한, 대부분의 기존 방법들은 높은 수준의 열화(degradation)를 처리할 수 없다. 본 논문에서는 POLAR(POint cloud LAtent Registration)를 소개한다. 이는 다중 뷰 등록 방법으로, 많은 수의 뷰를 효율적으로 처리할 수 있으며, 높은 수준의 열화와 큰 초기 각도에 대해 강건하다. 이를 위해, 등록 문제를 사전 훈련된 오토인코더의 잠재 공간으로 전환하고, 열화를 고려한 손실 함수를 설계하며, 효율적인 다중 시작 최적화 전략을 개발하였다. 제안된 방법은 합성 데이터와 실제 데이터에서 최신 기술을 크게 능가한다. POLAR는 github.com/pypolar/polar에서 확인할 수 있으며, pip install polaregistration 명령어로 설치 가능한 독립형 패키지로도 제공된다.