번역이 포함된 일일 선별된 AI 연구 논문
대규모 비전-언어 모델(VLMs)은 뛰어난 성능을 제공하지만 상당한 컴퓨팅 자원을 필요로 하여 모바일 및 에지 디바이스에의 배포가 제한됩니다. 소형 VLMs은 일반적으로 대형 모델의 설계 선택을 그대로 반영하는데, 이는 과도한 이미지 토큰화로 인해 GPU 메모리 사용이 비효율적이고 온디바이스 애플리케이션의 실용성이 제한됩니다. 우리는 자원 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다. 우리는 낮은 컴퓨팅 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으로 탐구했습니다. 이를 통해 최소한의 메모리 사용량으로 이미지 및 비디오 작업에서 상당한 성능 향상을 가져오는 핵심 설계 선택을 확인했습니다. 가장 작은 모델인 SmolVLM-256M은 추론 중 1GB 미만의 GPU 메모리를 사용하며, 18개월의 개발 격차에도 불구하고 300배 더 큰 Idefics-80B 모델을 능가합니다. 가장 큰 모델은 2.2B 파라미터로, 두 배의 GPU 메모리를 소비하는 최첨단 VLMs에 필적합니다. SmolVLM 모델은 정적 이미지를 넘어 강력한 비디오 이해 능력을 보여줍니다. 우리의 결과는 전략적인 아키텍처 최적화, 공격적이면서도 효율적인 토큰화, 그리고 신중하게 큐레이션된 훈련 데이터가 멀티모달 성능을 크게 향상시키며, 상당히 작은 규모에서도 실용적이고 에너지 효율적인 배포를 가능하게 한다는 점을 강조합니다.
오늘날 트랜스포머(Transformers)는 여전히 1분 길이의 비디오를 생성하는 데 어려움을 겪고 있습니다. 이는 긴 문맥을 처리하는 데 있어서 self-attention 레이어가 비효율적이기 때문입니다. Mamba 레이어와 같은 대안들은 복잡한 다중 장면 스토리를 처리하는 데 어려움을 겪는데, 이는 그들의 hidden state가 표현력이 떨어지기 때문입니다. 우리는 Test-Time Training (TTT) 레이어를 실험해 보았는데, 이 레이어의 hidden state 자체가 신경망이 될 수 있어 더 표현력이 뛰어납니다. 사전 학습된 트랜스포머에 TTT 레이어를 추가하면 텍스트 스토리보드에서 1분 길이의 비디오를 생성할 수 있습니다. 개념 증명을 위해, 우리는 톰과 제리 만화를 기반으로 데이터셋을 구축했습니다. Mamba~2, Gated DeltaNet, 슬라이딩 윈도우 attention 레이어와 같은 베이스라인과 비교했을 때, TTT 레이어는 훨씬 더 일관된 비디오를 생성하며 복잡한 스토리를 전달합니다. 각 방법당 100개의 비디오를 대상으로 한 인간 평가에서 34 Elo 점수 차이로 앞섰습니다. 유망한 결과이지만, 여전히 아티팩트가 포함되어 있는데, 이는 사전 학습된 5B 모델의 한계 때문일 가능성이 큽니다. 우리 구현의 효율성도 개선될 여지가 있습니다. 자원 제약으로 인해 1분 길이의 비디오만 실험했지만, 이 접근법은 더 긴 비디오와 더 복잡한 스토리로 확장될 수 있습니다. 샘플 비디오, 코드 및 주석은 https://test-time-training.github.io/video-dit에서 확인할 수 있습니다.
언어 모델이 자신의 추론 과정을 반영할 수 있는 능력은 복잡한 문제 해결에 있어 핵심적인 이점을 제공합니다. 최근 연구 대부분은 강화 학습 과정에서 이러한 능력이 어떻게 발달하는지에 초점을 맞추고 있지만, 우리는 이 능력이 실제로 훨씬 이전인 모델의 사전 학습(pre-training) 단계에서부터 나타나기 시작함을 보여줍니다. 이를 연구하기 위해, 우리는 사고의 연쇄(chain-of-thought)에 의도적인 오류를 도입하고, 모델이 이러한 실수를 인식하고 수정함으로써 여전히 정답에 도달할 수 있는지 테스트합니다. 사전 학습의 다양한 단계에서 성능을 추적함으로써, 우리는 이러한 자기 수정 능력이 초기에 나타나고 시간이 지남에 따라 꾸준히 향상됨을 관찰합니다. 예를 들어, 4조 개의 토큰으로 사전 학습된 OLMo2-7B 모델은 우리가 설계한 여섯 가지 자기 반영(self-reflection) 과제에서 자기 수정 능력을 보여줍니다.
최근 연구들은 테스트 시점 계산 자원 확장(test-time compute scaling)이 소규모 언어 모델(sLMs)의 성능을 효과적으로 향상시킨다는 것을 입증했습니다. 그러나 기존 연구는 주로 더 큰 모델을 검증자(verifier)로 사용하여 테스트 시점 계산 자원 확장을 검토했으며, sLMs의 자체 검증(self-verification)은 충분히 탐구되지 않았습니다. 본 연구에서는 sLMs가 테스트 시점 확장 하에서 자신의 출력을 신뢰할 수 있게 검증할 수 있는지 조사합니다. 우리는 더 큰 검증자로부터의 지식 증류(knowledge distillation)가 있더라도, sLMs가 수치 계산 및 사실 확인과 같은 암기(memorization)가 필요한 검증 작업에 어려움을 겪는다는 것을 발견했습니다. 이러한 한계를 해결하기 위해, 우리는 외부 도구(예: 코드 인터프리터)에 암기 집약적인 검증 단계를 위임하는 도구 통합 자체 검증(Tool-integrated self-verification, T1)을 제안합니다. 이론적 분석에 따르면, 도구 통합은 암기 요구를 줄이고 테스트 시점 확장 성능을 개선합니다. MATH 벤치마크에서의 실험은 T1을 통해 테스트 시점 확장 하에서 Llama-3.2 1B 모델이 훨씬 더 큰 Llama-3.1 8B 모델을 능가한다는 것을 보여줍니다. 또한, T1은 수학적 작업(MATH500)과 다중 도메인 지식 집약적 작업(MMLU-Pro) 모두에 효과적으로 일반화됩니다. 우리의 연구 결과는 도구 통합이 sLMs의 자체 검증 능력을 크게 향상시킬 잠재력을 강조합니다.
지역 수준 캡셔닝은 특정 이미지 영역에 대한 자연어 설명을 생성하면서 해당 영역의 특징을 강조하는 것을 목표로 합니다. 그러나 기존 방법들은 다양한 세분화 수준에서 고유한 캡션을 생성하는 데 어려움을 겪으며, 이는 실제 적용 가능성을 제한합니다. 이러한 세부적인 지역 수준 이해의 필요성을 해결하기 위해, 우리는 다중 세분화 지역 캡셔닝을 위해 특화된 대규모 데이터셋인 URECA 데이터셋을 소개합니다. 주요 객체에 초점을 맞춘 기존 데이터셋과 달리, URECA 데이터셋은 다양한 객체, 부분, 배경 요소를 포함함으로써 지역과 캡션 간의 고유하고 일관된 매핑을 보장합니다. 이의 핵심은 단계별 데이터 정제 파이프라인으로, 각 단계에서 지역 선택과 캡션 생성을 점진적으로 개선합니다. 각 단계에서 다중 모달 대형 언어 모델(MLLM)을 활용함으로써, 우리의 파이프라인은 정확성과 의미적 다양성이 향상된 독특하고 문맥에 기반한 캡션을 생성합니다. 이 데이터셋을 기반으로, 우리는 다중 세분화 지역을 효과적으로 인코딩하도록 설계된 새로운 캡셔닝 모델인 URECA를 제시합니다. URECA는 기존 MLLM에 간단하지만 영향력 있는 수정을 통해 위치와 형태와 같은 필수적인 공간 속성을 유지하며, 세밀하고 의미적으로 풍부한 지역 설명을 가능하게 합니다. 우리의 접근 방식은 캡션의 고유성을 향상시키기 위해 동적 마스크 모델링과 고해상도 마스크 인코더를 도입합니다. 실험 결과, URECA는 URECA 데이터셋에서 최첨단 성능을 달성하며, 기존 지역 수준 캡셔닝 벤치마크에서도 잘 일반화됨을 보여줍니다.
최근 추론 언어 모델의 발전은 복잡한 작업에서 뛰어난 성능을 보여주고 있지만, 확장된 사고 사슬(chain-of-thought) 추론 과정은 추론 오버헤드를 증가시킵니다. 양자화(quantization)는 대형 언어 모델의 추론 비용을 줄이기 위해 널리 채택되었지만, 추론 모델에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 양자화된 추론 모델에 대한 첫 번째 체계적인 연구를 수행하며, 1.5B에서 70B 파라미터 범위의 오픈소스 DeepSeek-R1-Distilled Qwen 및 LLaMA 계열 모델과 QwQ-32B를 평가합니다. 우리의 연구는 최신 알고리즘을 사용하여 다양한 비트 폭에서 가중치, KV 캐시 및 활성화 양자화를 다루며, 수학(AIME, MATH-500), 과학(GPQA) 및 프로그래밍(LiveCodeBench) 추론 벤치마크에 걸친 광범위한 평가를 포함합니다. 연구 결과, W8A8 또는 W4A16 양자화를 통해 무손실 양자화가 가능하지만, 더 낮은 비트 폭은 상당한 정확도 위험을 초래한다는 것을 밝혔습니다. 또한 모델 크기, 모델 출처 및 작업 난이도가 성능의 중요한 결정 요인임을 확인했습니다. 예상과 달리, 양자화된 모델은 출력 길이가 증가하지 않았습니다. 또한 모델 크기나 추론 단계를 전략적으로 확장하면 성능을 효과적으로 향상시킬 수 있습니다. 모든 양자화된 모델과 코드는 https://github.com/ruikangliu/Quantized-Reasoning-Models에서 오픈소스로 공개될 예정입니다.
우리는 가치 기반 패러다임 내에서 추론 모델을 위해 특별히 설계된 새로운 프레임워크인 VAPO(Value-based Augmented Proximal Policy Optimization)를 소개합니다. AIME 2024 데이터셋을 기준으로 평가한 VAPO는 Qwen 32B 사전 학습 모델을 기반으로 구축되어 60.4라는 최첨단 점수를 달성했습니다. 동일한 실험 설정에서 직접 비교했을 때, VAPO는 이전에 보고된 DeepSeek-R1-Zero-Qwen-32B 및 DAPO의 결과를 10점 이상 앞질렀습니다. VAPO의 학습 과정은 안정성과 효율성에서 두드러집니다. 단 5,000단계 만에 최첨단 성능에 도달하며, 여러 독립적인 실행에서도 학습 중단이 발생하지 않아 그 신뢰성을 입증했습니다. 본 연구는 가치 기반 강화 학습 프레임워크를 사용한 긴 사고 연쇄(long chain-of-thought, long-CoT) 추론을 심층적으로 탐구합니다. 우리는 가치 기반 방법을 괴롭히는 세 가지 주요 문제점, 즉 가치 모델 편향, 이질적 시퀀스 길이의 존재, 그리고 보상 신호의 희소성을 명확히 지적했습니다. 체계적인 설계를 통해 VAPO는 이러한 문제를 효과적으로 완화하는 통합 솔루션을 제공하며, long-CoT 추론 작업에서 향상된 성능을 가능하게 합니다.
디퓨전 모델은 이미지 편집 작업에 널리 사용됩니다. 기존 편집 방법들은 주로 텍스트 임베딩 또는 스코어 공간에서 편집 방향을 설계하여 표현 조작 절차를 구성합니다. 그러나 이러한 절차는 주요 문제에 직면합니다: 편집 강도를 과대평가하면 시각적 일관성이 해치고, 과소평가하면 편집 작업이 실패합니다. 특히, 각 소스 이미지는 서로 다른 편집 강도를 요구할 수 있으며, 시행착오를 통해 적절한 강도를 찾는 것은 비용이 많이 듭니다. 이 문제를 해결하기 위해, 우리는 디퓨전 기반 이미지 편집에서 원칙적인 표현 조작을 위한 제로샷 플러그앤플레이 프레임워크인 Concept Lancet(CoLan)을 제안합니다. 추론 시, 소스 입력을 잠재(텍스트 임베딩 또는 디퓨전 스코어) 공간에서 수집된 시각적 개념들의 표현들의 희소 선형 결합으로 분해합니다. 이를 통해 각 이미지에서 개념의 존재를 정확히 추정할 수 있으며, 이는 편집을 안내합니다. 편집 작업(교체/추가/제거)에 따라, 맞춤형 개념 이식 과정을 수행하여 해당 편집 방향을 부여합니다. 개념 공간을 충분히 모델링하기 위해, 잠재 사전을 위한 다양한 시각적 용어와 구문의 설명 및 시나리오를 포함한 개념적 표현 데이터셋인 CoLan-150K를 구축했습니다. 여러 디퓨전 기반 이미지 편집 베이스라인에서의 실험 결과, CoLan을 장착한 방법들이 편집 효과성과 일관성 보존 측면에서 최첨단 성능을 달성함을 보여줍니다.
최신 시각적 지식을 인터넷에서 자동으로 수집하고 합성된 VQA 문제로 구성된 LiveVQA 데이터셋을 소개합니다. LiveVQA는 14개 뉴스 카테고리에서 6개 뉴스 웹사이트를 통해 수집된 3,602개의 단일 및 다중 홉 시각적 질문으로 구성되어 있으며, 높은 품질의 이미지-텍스트 일관성과 신뢰할 수 있는 정보를 특징으로 합니다. GPT-4o, Gemma-3, Qwen-2.5-VL 패밀리 등 15개의 MLLM을 대상으로 한 평가 결과, 더 강력한 모델들이 전반적으로 더 나은 성능을 보였으며, 특히 복잡한 다중 홉 질문에서는 고급 시각적 추론 능력이 중요한 것으로 나타났습니다. 텍스트 문제에서는 우수한 성능을 보이는 모델들도 검색 엔진과 같은 도구를 사용할 때 최신 시각적 지식을 요구하는 시각적 질문을 해결하는 데 있어 상당한 격차를 보였으며, 이는 향후 연구를 위한 중요한 영역을 강조합니다.
블랙박스 API를 통해 접근 가능한 대규모 언어 모델(LLM)의 확산은 중요한 신뢰 문제를 야기합니다: 사용자는 광고된 모델의 능력(예: 크기, 성능)을 기반으로 서비스에 대한 비용을 지불하지만, 제공자는 운영 비용을 절감하기 위해 지정된 모델을 더 저렴하고 낮은 품질의 대안으로 은밀히 대체할 수 있습니다. 이러한 투명성의 부족은 공정성을 훼손하고 신뢰를 약화시키며 신뢰할 수 있는 벤치마킹을 복잡하게 만듭니다. 블랙박스 특성으로 인해 이러한 대체를 감지하는 것은 어렵고, 일반적으로 입력-출력 쿼리로 상호작용이 제한됩니다. 본 논문은 LLM API에서의 모델 대체 감지 문제를 공식화합니다. 우리는 모델 양자화, 무작위 대체, 벤치마크 회피와 같은 다양한 현실적인 공격 시나리오 하에서 출력 기반 통계 테스트, 벤치마크 평가, 로그 확률 분석을 포함한 기존 검증 기술을 체계적으로 평가합니다. 연구 결과, 특히 미묘하거나 적응형 공격에 대해 텍스트 출력에만 의존하는 방법의 한계를 밝혔습니다. 로그 확률 분석은 사용 가능할 때 더 강력한 보장을 제공하지만, 그 접근성은 종종 제한적입니다. 우리는 신뢰 실행 환경(TEE)과 같은 하드웨어 기반 솔루션의 잠재력을 논의하며, 보안, 성능, 제공자 채택 간의 균형을 강조하며 검증 가능한 모델 무결성을 향한 길을 제시합니다. 코드는 https://github.com/sunblaze-ucb/llm-api-audit에서 확인할 수 있습니다.
추론은 인간 지능의 핵심으로, 다양한 작업에 걸쳐 구조화된 문제 해결을 가능하게 합니다. 최근 대형 언어 모델(LLM)의 발전은 산술, 상식, 그리고 기호 영역에서의 추론 능력을 크게 향상시켰습니다. 그러나 이러한 능력을 시각적 및 텍스트 입력을 모두 통합해야 하는 다중모달 환경으로 효과적으로 확장하는 것은 여전히 중요한 과제로 남아 있습니다. 다중모달 추론은 모달리티 간의 상충되는 정보를 처리하는 것과 같은 복잡성을 도입하며, 이는 모델이 고급 해석 전략을 채택해야 함을 의미합니다. 이러한 과제를 해결하기 위해서는 정교한 알고리즘뿐만 아니라 추론의 정확성과 일관성을 평가하기 위한 견고한 방법론이 필요합니다. 본 논문은 텍스트 및 다중모달 LLM에서의 추론 기법에 대한 간결하면서도 통찰력 있는 개요를 제공합니다. 철저하고 최신의 비교를 통해, 우리는 핵심적인 추론 과제와 기회를 명확히 정식화하며, 사후 훈련 최적화 및 테스트 시 추론을 위한 실용적인 방법을 강조합니다. 우리의 연구는 이론적 프레임워크와 실제 구현을 연결하는 가치 있는 통찰과 지침을 제공하며, 향후 연구를 위한 명확한 방향을 설정합니다.
디퓨전 모델은 노이즈 제거 분포를 가우시안으로 근사하고 그 평균을 예측하는 반면, 플로우 매칭 모델은 가우시안 평균을 플로우 속도로 재매개변수화합니다. 그러나 이들은 이산화 오류로 인해 적은 단계 샘플링에서 성능이 떨어지며, 분류자 없는 가이던스(CFG) 하에서 과포화된 색상을 생성하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 가우시안 혼합 플로우 매칭(GMFlow) 모델을 제안합니다: GMFlow는 평균을 예측하는 대신 다중 모드 플로우 속도 분포를 포착하기 위해 동적 가우시안 혼합(GM) 매개변수를 예측하며, 이는 KL 발산 손실로 학습될 수 있습니다. 우리는 GMFlow가 단일 가우시안을 L_2 노이즈 제거 손실로 학습하는 기존의 디퓨전 및 플로우 매칭 모델을 일반화함을 보여줍니다. 추론을 위해, 우리는 정확한 적은 단계 샘플링을 위해 분석적 노이즈 제거 분포와 속도 필드를 활용하는 GM-SDE/ODE 솔버를 도출합니다. 더 나아가, 우리는 CFG의 과포화 문제를 완화하고 이미지 생성 품질을 개선하는 새로운 확률적 가이던스 기법을 소개합니다. 광범위한 실험을 통해 GMFlow가 생성 품질에서 플로우 매칭 베이스라인을 지속적으로 능가하며, ImageNet 256×256에서 단 6개의 샘플링 단계로 0.942의 정밀도를 달성함을 입증합니다.
도구 강화 대형 언어 모델(TA-LLMs)은 실제 응용 분야에서 유망한 성과를 보여주고 있지만, 불완전한 질의와 범위를 벗어난 요청을 처리하는 데 어려움을 겪고 있습니다. 기존 접근 방식이 주로 전문가 궤적을 활용한 지도 미세 조정에 의존하는 반면, 우리는 직접 선호 최적화(Direct Preference Optimization)를 통해 TA-LLM의 대화 능력을 향상시키는 새로운 방법인 DiaTool-DPO를 제안합니다. 우리는 TA-LLM 상호작용을 5개의 독특한 대화 상태를 가진 마르코프 결정 과정으로 모델링하고, 사용자 질의를 상태 전이 궤적에 따라 3가지 유형으로 분류합니다. 올바른 대화 흐름과 잘못된 대화 흐름의 짝지어진 궤적 데이터셋을 자동으로 구축하고, 대화 제어를 위한 특화된 목적 손실 함수를 도입합니다. 포괄적인 평가 결과, DiaTool-DPO는 GPT-4o의 성능(정보 수집에서 94.8%, 도구 호출 거부에서 91%)에 근접하면서도 기준선 대비 상당한 개선(각각 44%와 9.6%)을 보이며 핵심 기능을 유지합니다. 우리의 접근 방식은 추가적인 전문가 시연이나 인간 라벨링 없이도 다양한 실제 시나리오를 처리할 수 있는 TA-LLM 개발에 새로운 가능성을 열어줍니다.
우리는 대규모 생물의학 문헌, 임상 노트, 의학 온톨로지를 기반으로 사전 학습된 트랜스포머 기반 인코더인 Clinical ModernBERT를 소개합니다. 이 모델은 PubMed 초록, MIMIC IV 임상 데이터, 그리고 텍스트 설명이 포함된 의학 코드를 통합하여 구축되었습니다. 최신 자연어 텍스트 인코더인 ModernBERT를 기반으로, 회전 위치 임베딩(RoPE), Flash Attention, 그리고 최대 8,192 토큰까지 확장된 컨텍스트 길이와 같은 아키텍처 업그레이드를 포함한 최신 기술을 생물의학 및 임상 도메인에 특화하여 적용했습니다. Clinical ModernBERT는 장문 컨텍스트 작업에 적합한 의미론적으로 풍부한 표현을 생성하는 데 탁월한 성능을 보입니다. 우리는 사전 학습된 가중치를 분석하고, 포괄적인 임상 NLP 벤치마크를 통해 실험적으로 평가함으로써 이를 검증했습니다.
단일 이미지에서의 3D 장면 이해는 컴퓨터 비전 분야에서 그래픽스, 증강 현실, 로보틱스 등 다양한 하위 응용 분야에 있어 핵심적인 문제입니다. 확산 기반 모델링 접근법이 유망한 성과를 보여주고 있지만, 특히 복잡한 실제 세계 시나리오에서 객체와 장면의 일관성을 유지하는 데 어려움을 겪는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 지역 패치 양자화와 무작위 순서 시퀀스 생성을 사용하는 Local Random Access Sequence(LRAS) 모델링이라는 자기회귀적 생성 접근법을 제안합니다. 광학 흐름을 3D 장면 편집을 위한 중간 표현으로 활용함으로써, 우리의 실험은 LRAS가 최신의 새로운 시점 합성 및 3D 객체 조작 능력을 달성함을 보여줍니다. 더 나아가, 우리의 프레임워크는 시퀀스 설계의 간단한 수정을 통해 자기 지도 깊이 추정으로 자연스럽게 확장될 수 있음을 보여줍니다. 여러 3D 장면 이해 작업에서 강력한 성능을 달성함으로써, LRAS는 차세대 3D 비전 모델을 구축하기 위한 통합적이고 효과적인 프레임워크를 제공합니다.
비전 파운데이션 모델(VFMs)과 비전-언어 모델(VLMs)은 강력한 일반화 능력으로 인해 도메인 일반화 의미 분할(DGSS) 분야에서 주목받고 있습니다. 그러나 기존의 DGSS 방법들은 주로 VFMs나 VLMs 중 하나에만 의존하며, 이들의 상호 보완적 강점을 간과하는 경향이 있습니다. VFMs(예: DINOv2)는 세밀한 특징을 포착하는 데 뛰어나지만, VLMs(예: CLIP)은 텍스트 정렬에 강점을 보이면서도 거친 세분성에는 어려움을 겪습니다. 이러한 상호 보완적 강점에도 불구하고, VFMs와 VLMs를 어텐션 메커니즘과 효과적으로 통합하는 것은 패치 토큰의 증가로 인해 장기 시퀀스 모델링이 복잡해지는 문제로 인해 어려운 과제입니다. 이를 해결하기 위해, 우리는 VFMs와 VLMs의 강점을 효율적으로 결합하면서 시퀀스 길이에 대한 선형 확장성을 유지하는 새로운 Mamba 기반 융합 프레임워크인 MFuser를 제안합니다. MFuser는 두 가지 주요 구성 요소로 이루어져 있습니다: MVFuser는 순차적 및 공간적 동역학을 포착하여 두 모델을 공동으로 미세 조정하는 코-어댑터 역할을 하며, MTEnhancer는 이미지 사전 정보를 통합하여 텍스트 임베딩을 개선하는 하이브리드 어텐션-Mamba 모듈입니다. 우리의 접근 방식은 상당한 계산 오버헤드 없이 정확한 특징 지역성과 강력한 텍스트 정렬을 달성합니다. 광범위한 실험을 통해 MFuser가 최신 DGSS 방법들을 크게 능가하며, 합성-대-실제 벤치마크에서 68.20 mIoU, 실제-대-실제 벤치마크에서 71.87 mIoU를 달성함을 입증했습니다. 코드는 https://github.com/devinxzhang/MFuser에서 확인할 수 있습니다.
BOP 챌린지 2024의 평가 방법론, 데이터셋 및 결과를 소개합니다. 이는 6D 객체 포즈 추정 및 관련 작업의 최신 기술 수준을 파악하기 위해 조직된 일련의 공개 경쟁 중 여섯 번째입니다. 2024년에는 BOP를 실험실 환경에서 실제 시나리오로 전환하는 것을 목표로 했습니다. 첫째, 3D 객체 모델이 제공되지 않고 참조 비디오만으로 객체를 등록해야 하는 새로운 모델 프리 작업을 도입했습니다. 둘째, 테스트 이미지에서 보이는 객체의 식별 정보가 입력으로 제공되지 않는 더 실용적인 6D 객체 탐지 작업을 정의했습니다. 셋째, 고해상도 센서와 AR/VR 헤드셋으로 기록된 BOP-H3 데이터셋을 도입하여 실제 시나리오와 유사한 환경을 조성했습니다. BOP-H3는 모델 기반 및 모델 프리 작업을 모두 지원하기 위해 3D 모델과 등록 비디오를 포함합니다. 참가자들은 작업, 객체 등록 설정 및 데이터셋 그룹으로 정의된 7개의 챌린지 트랙에서 경쟁했습니다. 특히, 2024년에 미확인 객체에 대한 모델 기반 6D 위치 추정에서 최고의 방법(FreeZeV2.1)은 BOP-Classic-Core에서 2023년 최고의 방법(GenFlow)보다 22% 더 높은 정확도를 달성했으며, 확인된 객체에 대한 2023년 최고의 방법(GPose2023)보다 단지 4% 뒤처졌습니다. 그러나 처리 속도는 상당히 느렸습니다(이미지당 24.9초 대 2.7초). 이 작업에 대한 더 실용적인 2024년 방법은 Co-op으로, 이미지당 0.8초만 소요되며 GenFlow보다 25배 빠르고 13% 더 정확합니다. 6D 탐지에서의 방법 순위는 6D 위치 추정과 유사하지만 실행 시간이 더 깁니다. 미확인 객체에 대한 모델 기반 2D 탐지에서 2024년 최고의 방법(MUSE)은 2023년 최고의 방법(CNOS)에 비해 21%의 상대적 개선을 달성했습니다. 그러나 미확인 객체에 대한 2D 탐지 정확도는 여전히 확인된 객체(GDet2023)에 비해 눈에 띄게(-53%) 낮습니다. 온라인 평가 시스템은 계속 열려 있으며 http://bop.felk.cvut.cz/에서 이용 가능합니다.
추론 집약적인 문서 순위화를 위한 소형 언어 모델을 훈련시키는 새로운 접근 방식을 제시합니다. 이 방법은 지식 증류와 강화 학습 최적화를 결합합니다. 기존 방법들이 비용이 많이 드는 인간 주석이나 대형 블랙박스 언어 모델에 의존하는 반면, 우리의 방법론은 웹 데이터와 교사 LLM을 활용하여 관련성 설명과 함께 고품질의 훈련 예제를 자동으로 생성합니다. 문서 순위화를 강화 학습 문제로 설정하고 명시적 추론 능력을 장려함으로써, 우리는 BRIGHT 벤치마크에서 최첨단 성능을 달성하는 3B 파라미터의 컴팩트한 언어 모델을 훈련시켰습니다. 우리 모델은 리더보드에서 3위를 차지하면서도 다른 접근 방식보다 훨씬 적은 파라미터를 사용하며, 20배 이상 큰 모델들을 능가합니다. 광범위한 실험을 통해, 관련성 점수를 직접 예측하는 대신 추론 과정에서 설명을 생성하는 것이 더 작은 언어 모델로 더 효과적인 추론을 가능하게 한다는 것을 입증했습니다. 우리 방법의 자기 지도적 특성은 현대 정보 검색 시스템을 위한 확장 가능하고 해석 가능한 솔루션을 제공합니다.
멀티모달 대형 언어 모델(MLLMs)은 시각-언어 작업에서 뛰어난 성능을 보이지만, 특히 재크브레이크(jailbreak) 공격을 통해 유해한 콘텐츠를 생성할 수 있는 상당한 위험도 내포하고 있습니다. 재크브레이크 공격은 모델의 안전 메커니즘을 우회하여 부적절하거나 안전하지 않은 콘텐츠를 생성하도록 의도적으로 조작하는 것을 의미합니다. 이러한 공격을 탐지하는 것은 MLLMs의 책임 있는 배포를 보장하기 위해 매우 중요합니다. 기존의 재크브레이크 탐지 방법은 세 가지 주요 과제에 직면해 있습니다: (1) 많은 방법이 모델의 은닉 상태(hidden states)나 그래디언트(gradients)에 의존하여, 모델의 내부 작동에 접근할 수 있는 화이트박스(white-box) 모델에만 적용 가능하다는 점, (2) 불확실성 기반 분석으로 인한 높은 계산 오버헤드로 실시간 탐지가 제한된다는 점, 그리고 (3) 완전히 라벨링된 유해 데이터셋이 필요한데, 이러한 데이터셋은 실제 환경에서 흔치 않다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 JAILDAM이라는 테스트 시간 적응형 프레임워크를 소개합니다. 우리의 방법은 정책 기반의 안전하지 않은 지식 표현을 통해 메모리 기반 접근 방식을 활용하여, 유해 데이터에 명시적으로 노출될 필요를 없앱니다. 테스트 시간 동안 안전하지 않은 지식을 동적으로 업데이트함으로써, 우리의 프레임워크는 효율성을 유지하면서도 보이지 않는 재크브레이크 전략에 대한 일반화를 개선합니다. 여러 VLM 재크브레이크 벤치마크에서의 실험 결과, JAILDAM은 유해 콘텐츠 탐지에서 최첨단 성능을 보여주며 정확도와 속도 모두를 개선했습니다.
테스트 시간 계산량을 증가시키는 것은, 특히 모델 미세조정이 계산적 제약이나 비공개 모델 가중치로 인해 실현 불가능하거나 불가한 시나리오에서, 언어 모델 성능을 향상시키는 유망한 방향으로 부상했습니다. 그러나 보상 모델(RM)을 사용하는 기존의 테스트 시간 탐색 방법은 본질적으로 불완전한 보상 프록시를 과도하게 최적화함으로써 계산량이 증가함에 따라 품질이 저하되는 경우가 많습니다. 우리는 QAlign라는 새로운 테스트 시간 정렬 접근 방식을 소개합니다. 테스트 시간 계산량을 확장함에 따라 QAlign는 각 개별 프롬프트에 대해 최적의 정렬된 분포에서 샘플링하는 방식으로 수렴합니다. 텍스트 생성을 위한 Markov chain Monte Carlo의 최신 발전을 채택함으로써, 우리의 방법은 기본 모델을 수정하거나 로짓 접근 권한조차 필요로 하지 않고도 더 잘 정렬된 출력을 가능하게 합니다. 우리는 작업 특화적 RM을 사용하여 수학적 추론 벤치마크(GSM8K 및 GSM-Symbolic)에서 QAlign의 효과를 입증하며, best-of-n 및 다수결 투표와 같은 기존의 테스트 시간 계산 방법에 비해 일관된 개선을 보여줍니다. 더 나아가, Tulu 3 선호 데이터셋으로 훈련된 더 현실적인 RM과 함께 적용했을 때, QAlign는 다양한 데이터셋(GSM8K, MATH500, IFEval, MMLU-Redux, TruthfulQA)에서 직접 선호 최적화(DPO), best-of-n, 다수결 투표 및 가중 다수결 투표를 능가하는 성능을 보였습니다. 추가 계산을 사용하여 테스트 시간에 언어 모델을 정렬하는 실용적인 해결책으로, 우리의 접근 방식은 추가 훈련 없이도 기성 언어 모델에서 얻을 수 있는 능력의 한계를 확장합니다.
대형 언어 모델(LLM)은 전 세계적으로 전례 없는 속도로 발전하고 있으며, 각 지역은 이러한 모델을 주요 언어로 응용하기 위해 점점 더 많이 도입하고 있습니다. 특히 저자원 언어를 포함한 다양한 언어 환경에서 이러한 모델을 평가하는 것은 학계와 산업계 모두에게 주요한 과제가 되었습니다. 기존의 평가 프레임워크는 영어와 소수의 고자원 언어에 지나치게 초점을 맞추고 있어, 다국어 및 저자원 시나리오에서의 LLM 성능을 현실적으로 파악하는 데 한계가 있습니다. 이러한 격차를 해결하기 위해, 우리는 대규모 다국어 평가를 위해 설계된 경량 프레임워크인 GlotEval을 소개합니다. GlotEval은 기계 번역, 텍스트 분류, 요약, 개방형 생성, 독해, 시퀀스 레이블링, 내재적 평가 등 7가지 주요 작업을 지원하며, 수십 개에서 수백 개의 언어에 걸쳐 일관된 다국어 벤치마킹, 언어별 프롬프트 템플릿, 비영어 중심의 기계 번역을 강조합니다. 이를 통해 다양한 언어적 맥락에서 모델의 강점과 약점을 정확히 진단할 수 있습니다. 다국어 번역 사례 연구는 GlotEval이 다국어 및 언어별 평가에 적용 가능함을 보여줍니다.
대형 언어 모델(LLMs)은 언어 간 성능에서 상당한 격차를 보이며, 주로 고자원 언어에서 이점을 얻는 반면 저자원 언어는 소외되는 경향이 있습니다. 이러한 불균형을 해결하기 위해 지속적 사전학습(CPT)이 유망한 접근법으로 부상했지만, 단일 언어, 이중 언어 및 코드 보강 데이터 전략의 상대적 효과는 여전히 명확하지 않습니다. 본 연구는 다양한 자원 수준에 걸쳐 이타적, 이기적 및 정체된 범주로 분류된 30개 이상의 언어에 대해 세 가지 다국어 기본 모델을 포함한 36가지 CPT 구성을 체계적으로 평가했습니다. 연구 결과는 다음과 같은 세 가지 주요 통찰을 제공합니다: (1) 이중 언어 CPT는 다국어 분류를 개선하지만, 생성 과정에서 언어 혼합 문제를 자주 유발합니다. (2) CPT 중 프로그래밍 코드 데이터를 포함하면 다국어 분류 정확도가 지속적으로 향상되며, 특히 저자원 언어에 유리하지만, 생성 품질이 약간 저하되는 트레이드오프가 발생합니다. (3) 이전 연구와 달리, 교차 언어 전이에 미치는 영향에 따른 언어 분류에서 상당한 편차를 관찰했습니다: 이타적으로 분류된 언어는 관련 언어에 부정적인 영향을 미치는 경우가 많고, 이기적 언어는 조건 및 구성에 따라 다르게 행동하며, 정체된 언어는 특정 CPT 조건에서 놀라운 적응력을 보입니다. 이러한 미묘한 상호작용은 다국어 표현 학습의 복잡성을 강조하며, 미래의 다국어 CPT 전략을 위한 일반화 가능한 언어 분류에 대한 체계적인 연구의 중요성을 부각시킵니다.