번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 범용 모델로서 인상적인 다재다능성을 보여주고 있습니다. 그러나 이러한 광범위한 적용 가능성은 높은 계산 비용, 특히 자동회귀 디코딩 과정에서 각 단계마다 순방향 전달이 필요한 경우에 큰 부담으로 작용합니다. 도메인 특화 환경에서는 범용 기능이 불필요하며, 이를 효율성과 교환할 수 있습니다. 본 연구에서는 도메인 적응에 대한 새로운 관점을 제시하며, 관심 도메인에 맞춰 어휘를 조정함으로써 지연 시간과 계산 비용을 줄이는 방법을 탐구합니다. 우리는 AdaptiVocab이라는 종단 간 어휘 적응 접근법을 소개합니다. 이는 저자원 도메인에서 LLM의 효율성을 향상시키기 위해 설계되었습니다. AdaptiVocab은 어떤 토크나이저와 아키텍처에도 적용 가능하며, 도메인 특화 n-gram 기반 토큰으로 기존 토큰을 대체함으로써 입력 처리와 출력 생성에 필요한 토큰 수를 줄입니다. AdaptiVocab은 기존 임베딩의 지수 가중치 조합을 사용하여 새로운 n-토큰 임베딩을 초기화하고, 단일 GPU에서 효율적으로 수행할 수 있는 경량 미세 조정 단계를 사용합니다. 우리는 두 개의 7B LLM을 세 개의 특수 도메인에서 평가하며, 효율성, 생성 품질 및 최종 작업 성능을 측정했습니다. 그 결과, AdaptiVocab은 성능 저하 없이 토큰 사용량을 25% 이상 줄이는 것으로 나타났습니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델을 인간의 선호에 맞추는 데 있어 핵심적인 역할을 합니다. 최근 연구는 주로 알고리즘 개선에 초점을 맞추어 왔지만, 프롬프트 데이터 구성의 중요성은 간과되어 왔습니다. 본 논문은 이러한 격차를 해소하기 위해 RLHF 성능 확장에서의 데이터 기반 병목 현상, 특히 보상 해킹과 응답 다양성 감소를 탐구합니다. 우리는 보상 해킹을 완화하기 위해 추론 작업 검증기(RTV)와 생성적 보상 모델(GenRM)을 결합한 하이브리드 보상 시스템을 도입했습니다. 또한, 응답 다양성을 유지하고 학습 효과를 향상시키기 위한 새로운 프롬프트 선택 방법인 Pre-PPO를 제안합니다. 추가적으로, RLHF 훈련 초기에 수학 및 코딩 작업을 우선적으로 다루는 것이 성능을 크게 개선한다는 사실을 발견했습니다. 두 가지 모델 크기에 걸친 실험을 통해 우리의 방법의 효과성과 확장성을 검증했습니다. 결과에 따르면, RTV가 보상 해킹에 가장 강력한 저항력을 보였으며, 그 다음으로는 ground truth를 사용한 GenRM, 그리고 SFT Best-of-N 응답을 사용한 GenRM 순으로 나타났습니다. 우리의 전략은 작업별 미묘한 차이를 신속하게 포착할 수 있게 하여 전반적인 RLHF 성능을 크게 개선했습니다. 이 연구는 신중한 데이터 구성의 중요성을 강조하고, RLHF의 성능 장벽을 극복하기 위한 실용적인 방법을 제공합니다.
최근 DeepSeek-R1과 OpenAI o1과 같은 대규모 추론 모델(Large Reasoning Models, LRMs)은 추론 과정에서 사고의 연쇄(Chain-of-Thought, CoT) 길이를 확장함으로써 강력한 성능 향상을 보여주었습니다. 그러나 이러한 모델들은 과도하게 긴 추론 흔적을 생성하는 경향이 있으며, 이는 종종 중복된 내용(예: 반복된 정의), 간단한 문제에 대한 과도한 분석, 그리고 어려운 작업에 대한 피상적인 다중 추론 경로 탐색으로 가득 차 있습니다. 이러한 비효율성은 토큰 경제가 중요한 훈련, 추론 및 실제 배포(예: 에이전트 기반 시스템)에서 상당한 도전 과제를 야기합니다. 본 조사에서는 이 새로운 패러다임에서 발생하는 독특한 도전 과제에 특히 초점을 맞춰 LRMs의 추론 효율성을 개선하기 위한 최근의 노력을 포괄적으로 개관합니다. 우리는 비효율성의 일반적인 패턴을 식별하고, LRM 생애주기(즉, 사전 훈련부터 추론까지)에서 제안된 방법들을 검토하며, 연구의 유망한 미래 방향에 대해 논의합니다. 지속적인 개발을 지원하기 위해, 우리는 또한 이 분야의 최근 진행 상황을 추적하는 실시간 GitHub 저장소를 유지합니다. 우리는 이 조사가 더 깊은 탐구의 기초가 되고 이 빠르게 진화하는 분야에서 혁신을 고무하기를 바랍니다.
순차 추천(Sequential Recommendation, SeqRec)은 사용자의 과거 상호작용에서 순차적 패턴을 포착하여 다음 아이템을 예측하는 것을 목표로 하며, 실제 세계의 많은 추천 시스템에서 중요한 역할을 합니다. 그러나 기존 접근 방식은 주로 직접적인 순방향 계산 패러다임을 채택하고 있으며, 여기서 시퀀스 인코더의 최종 은닉 상태가 사용자 표현으로 사용됩니다. 우리는 이러한 추론 패러다임이 제한된 계산 깊이로 인해 사용자 선호도의 복잡한 진화 특성을 모델링하는 데 어려움을 겪고, 롱테일 아이템에 대한 미묘한 이해가 부족하여 최적의 성능을 달성하지 못한다고 주장합니다. 이 문제를 해결하기 위해, 우리는 추천 시스템을 위한 첫 번째 추론 시점 계산 프레임워크인 ReaRec를 제안합니다. ReaRec는 암시적 다단계 추론을 통해 사용자 표현을 강화합니다. 구체적으로, ReaRec는 시퀀스의 마지막 은닉 상태를 순차 추천기에 자동회귀적으로 입력하면서, 특수한 추론 위치 임베딩을 통합하여 원래 아이템 인코딩 공간과 다단계 추론 공간을 분리합니다. 또한, 우리는 ReaRec의 추론 잠재력을 효과적으로 활용하기 위해 두 가지 경량화된 추론 기반 학습 방법인 앙상블 추론 학습(Ensemble Reasoning Learning, ERL)과 점진적 추론 학습(Progressive Reasoning Learning, PRL)을 도입했습니다. 다섯 개의 공개된 실제 데이터셋과 다양한 SeqRec 아키텍처에 대한 광범위한 실험을 통해 우리가 제안한 ReaRec의 일반성과 효과성을 입증했습니다. 특히, 사후 분석 결과 ReaRec가 여러 순차 추천 백본의 성능 한계를 약 30\%-50\%까지 크게 높이는 것으로 나타났습니다. 따라서, 우리는 이 연구가 순차 추천을 위한 추론 시점 계산 분야에서 새로운 유망한 연구 방향을 열 수 있을 것으로 믿습니다.
멀티모달 대형 언어 모델(MLLMs)은 다양한 입력 데이터 유형을 처리하고 여러 응용 분야에서 일관적이고 문맥적으로 적절한 출력을 생성할 수 있는 능력으로 인해 상당한 주목을 받고 있습니다. 작업별 최적화를 통해 MLLM의 능력을 향상시키기 위해 지도 미세 조정(SFT)이 주된 접근 방식으로 사용되어 왔지만, 이는 중요한 일반화된 추론 능력을 키우는 데 있어서 종종 한계를 보입니다. 강화 학습(RL)은 이러한 한계를 극복할 수 있는 큰 잠재력을 가지고 있지만, 두 가지 중요한 과제에 직면합니다: (1) 멀티모달 작업에서의 일반화된 능력이 크게 탐구되지 않았으며, (2) Kullback-Leibler 발산이나 클램프 전략과 같은 훈련 제약으로 인해 종종 최적이 아닌 병목 현상이 발생합니다. 이러한 과제를 해결하기 위해, 우리는 멀티모달 작업에서 깊은 이해와 추론 능력을 갖춘 고급 MLLM인 OThink-MR1을 제안합니다. 특히, 동적 Kullback-Leibler 전략을 포함한 그룹 상대 정책 최적화(GRPO-D)를 도입하여 강화 학습(RL) 성능을 크게 향상시켰습니다. Qwen2-VL-2B-Instruct의 경우, GRPO-D는 두 개의 적응된 데이터셋에서 동일 작업 평가에서 SFT 대비 5.72% 이상, GRPO 대비 13.59% 이상의 상대적 개선을 달성했습니다. 또한, GRPO-D는 작업 간 일반화 능력에서도 뛰어난 성과를 보였으며, 작업 간 평가에서 SFT 대비 평균 61.63% 이상의 상대적 개선을 보였습니다. 이러한 결과는 GRPO-D로 훈련된 MLLM이 하나의 멀티모달 작업에서 다른 작업으로 효과적으로 전이될 수 있음을 보여주며, 제안된 OThink-MR1 모델의 우수한 일반화된 추론 능력을 강조합니다.
우리는 다중 객체와 다양한 카테고리에 걸쳐 텍스트-이미지 생성에서 3D 방향 기반을 위한 최초의 제로샷 방법인 ORIGEN을 소개합니다. 이미지 생성에서 공간 기반에 대한 기존 연구는 주로 2D 위치 지정에 초점을 맞추었으며, 3D 방향에 대한 제어가 부족했습니다. 이를 해결하기 위해, 우리는 3D 방향 추정을 위한 사전 학습된 판별 모델과 단일 단계 텍스트-이미지 생성 흐름 모델을 사용한 보안-가이드 샘플링 접근법을 제안합니다. 경사 상승 기반 최적화는 보안 기반 가이드를 위한 자연스러운 선택이지만, 이미지의 현실성을 유지하는 데 어려움을 겪습니다. 대신, 우리는 단순히 무작위 노이즈를 주입하는 방식으로 경사 상승을 확장하는 Langevin dynamics를 사용한 샘플링 기반 접근법을 채택했습니다. 이는 단일 추가 코드 라인만 필요로 합니다. 또한, 우리는 수렴 속도를 가속화하기 위해 보안 함수를 기반으로 한 적응형 시간 재조정을 도입했습니다. 실험 결과, ORIGEN은 양적 지표와 사용자 연구 모두에서 학습 기반 및 테스트 시간 가이드 방법을 능가하는 성능을 보여주었습니다.
최근 음성 기반 3D 토킹 헤드 생성 기술은 입술 동기화 측면에서 상당한 진전을 이루었습니다. 그러나 기존 모델들은 다양한 음성 특성과 이에 상응하는 입술 움직임 간의 지각적 정렬을 포착하는 데 여전히 어려움을 겪고 있습니다. 본 연구에서는 시간적 동기화(Temporal Synchronization), 입술 가독성(Lip Readability), 표현력(Expressiveness)이라는 세 가지 기준이 지각적으로 정확한 입술 움직임을 달성하는 데 중요하다고 주장합니다. 이 세 가지 기준을 충족할 수 있는 이상적인 표현 공간이 존재한다는 가설에 기반하여, 우리는 음성 신호와 3D 얼굴 메쉬 간의 복잡한 상관관계를 포착하는 음성-메쉬 동기화 표현을 제안합니다. 학습된 이 표현이 바람직한 특성을 보임을 확인하고, 이를 기존 모델에 지각적 손실(perceptual loss)로 적용하여 주어진 음성에 맞춰 입술 움직임을 더 잘 정렬할 수 있도록 했습니다. 또한, 이 표현을 지각적 지표로 활용하고, 물리적으로 타당한 두 가지 입술 동기화 지표를 추가로 도입하여 생성된 3D 토킹 헤드가 이 세 가지 기준에 얼마나 잘 부합하는지 평가합니다. 실험 결과, 우리의 지각적 손실을 사용하여 3D 토킹 헤드 생성 모델을 학습시키면 지각적으로 정확한 입술 동기화의 세 가지 측면 모두에서 상당한 개선이 이루어짐을 확인했습니다. 코드와 데이터셋은 https://perceptual-3d-talking-head.github.io/에서 확인할 수 있습니다.
단일 이미지로부터 4D 장면을 생성하기 위한 새로운 튜닝 프리 프레임워크인 Free4D를 소개합니다. 기존 방법들은 객체 수준 생성에 초점을 맞춰 장면 수준 생성을 불가능하게 하거나, 대규모 다중 뷰 비디오 데이터셋에 의존한 고비용 훈련을 필요로 하며, 4D 장면 데이터의 부족으로 인해 일반화 능력이 제한적이었습니다. 이와 대조적으로, 우리의 핵심 통찰은 사전 훈련된 파운데이션 모델을 일관된 4D 장면 표현으로 증류하는 것으로, 이는 효율성과 일반화 가능성과 같은 유망한 장점을 제공합니다. 1) 이를 달성하기 위해, 먼저 이미지-투-비디오 확산 모델을 사용하여 입력 이미지를 애니메이션화한 후 4D 기하학적 구조 초기화를 수행합니다. 2) 이 거친 구조를 공간-시간적으로 일관된 다중 뷰 비디오로 변환하기 위해, 공간 일관성을 위한 포인트 가이드 노이즈 제거 전략과 시간적 일관성을 위한 새로운 잠재 교체 전략을 포함한 적응형 가이던스 메커니즘을 설계합니다. 3) 생성된 관측치를 일관된 4D 표현으로 끌어올리기 위해, 생성된 정보를 최대한 활용하면서 불일치를 완화하는 변조 기반 정제 방법을 제안합니다. 결과적으로 얻은 4D 표현은 실시간 제어 가능한 렌더링을 가능하게 하여, 단일 이미지 기반 4D 장면 생성에서 중요한 진전을 이루었습니다.
비전 트랜스포머(ViTs)는 다양한 컴퓨터 비전 작업에서 뛰어난 성능과 확장성을 보여주고 있습니다. 단일 스케일 ViT를 이미지 세그멘테이션에 적용하기 위해, 기존 방법들은 다중 스케일 특징을 생성하기 위한 컨볼루션 어댑터, 이러한 특징을 융합하기 위한 픽셀 디코더, 그리고 융합된 특징을 사용하여 예측을 수행하는 트랜스포머 디코더를 채택했습니다. 본 논문에서는 이러한 작업별 구성 요소가 도입한 귀납적 편향이 충분히 큰 모델과 광범위한 사전 학습이 주어진다면 ViT 자체에 의해 학습될 수 있음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 일반적인 ViT 아키텍처를 재활용하여 이미지 세그멘테이션을 수행하는 인코더 전용 마스크 트랜스포머(EoMT)를 소개합니다. 대규모 모델과 사전 학습을 통해 EoMT는 작업별 구성 요소를 사용하는 최첨단 모델과 유사한 세그멘테이션 정확도를 달성합니다. 동시에 EoMT는 아키텍처의 단순성으로 인해 이러한 방법들보다 훨씬 빠릅니다. 예를 들어, ViT-L을 사용할 경우 최대 4배 빠릅니다. 다양한 모델 크기에 걸쳐 EoMT는 세그멘테이션 정확도와 예측 속도 사이의 최적의 균형을 보여주며, 컴퓨팅 자원을 아키텍처의 복잡성을 추가하는 대신 ViT 자체를 확장하는 데 사용하는 것이 더 나음을 시사합니다. 코드: https://www.tue-mps.org/eomt/.
다차원으로 확장될 때 요약 정제 작업은 여러 도전에 직면합니다. 본 논문에서는 피드백에 대한 반성적 추론을 통해 다차원을 강화하는 강력한 요약 정제 파이프라인인 ReFeed를 소개합니다. 이를 위해, 반성적 추론이 가능한 경량 모델을 훈련시키기 위해 최적화된 대규모 Long-CoT 기반 데이터셋인 SumFeed-CoT를 공개합니다. 우리의 실험은 차원의 수, 피드백 노출, 그리고 추론 정책이 정제 성능에 미치는 영향을 밝혀내며, 반성적 추론과 다중 피드백의 동시 처리가 차원 간의 트레이드오프를 완화하는 데 중요함을 강조합니다. 더 나아가, ReFeed는 노이즈가 있는 피드백과 피드백 순서에 대해 강건함을 보입니다. 마지막으로, 적절한 목표와 가이드라인을 갖춘 데이터 생성이 효과적인 추론의 근본적인 기둥을 구성한다는 점을 강조합니다. 데이터셋과 모델은 공개될 예정입니다.
최근 멀티뷰 또는 4D 비디오 생성이 중요한 연구 주제로 부상하고 있습니다. 그러나 최근의 4D 생성 접근법들은 여전히 근본적인 한계에 직면해 있는데, 이는 주로 여러 비디오 확산 모델을 활용하거나 제한된 실세계 4D 데이터와 큰 계산 비용을 요구하는 완전한 4D 확산 모델의 집중적인 훈련에 의존하기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 기성 비디오 확산 모델을 활용하여 단일 입력 비디오에서 멀티뷰 비디오를 생성하는 최초의 훈련이 필요 없는 4D 비디오 생성 방법을 제안합니다. 우리의 접근 방식은 두 가지 주요 단계로 구성됩니다: (1) 시공간 샘플링 그리드의 가장자리 프레임을 키 프레임으로 지정하고, 깊이 기반 워핑 기법을 활용하여 비디오 확산 모델을 사용해 이들을 먼저 합성합니다. 이 방법은 생성된 프레임들 간의 구조적 일관성을 보장하며, 공간적 및 시간적 일관성을 유지합니다. (2) 그런 다음 비디오 확산 모델을 사용하여 나머지 프레임들을 보간함으로써, 공간적 및 시간적 일관성을 유지하면서 완전히 채워진 시간적 일관성을 가진 샘플링 그리드를 구성합니다. 이를 통해 단일 비디오를 새로운 카메라 궤적을 따라 멀티뷰 비디오로 확장하면서 시공간적 일관성을 유지합니다. 우리의 방법은 훈련이 필요 없으며 기성 비디오 확산 모델을 완전히 활용하여, 멀티뷰 비디오 생성을 위한 실용적이고 효과적인 해결책을 제공합니다.
움직이는 객체 분할은 시각적 장면에 대한 고수준의 이해를 달성하기 위한 중요한 과제이며, 다양한 하위 응용 프로그램을 가지고 있습니다. 인간은 비디오에서 움직이는 객체를 쉽게 분할할 수 있습니다. 기존 연구는 주로 광학 흐름을 사용하여 움직임 단서를 제공했지만, 이 방법은 부분적 움직임, 복잡한 변형, 움직임 흐림 및 배경 방해와 같은 문제로 인해 불완전한 예측 결과를 초래하는 경우가 많았습니다. 우리는 장거리 궤적 움직임 단서와 DINO 기반의 의미론적 특징을 결합하고, SAM2를 활용한 반복적인 프롬프트 전략을 통해 픽셀 수준의 마스크 밀집화를 수행하는 새로운 움직이는 객체 분할 접근 방식을 제안합니다. 우리의 모델은 공간-시간 궤적 주의(Spatio-Temporal Trajectory Attention)와 움직임-의미론 분리 임베딩(Motion-Semantic Decoupled Embedding)을 사용하여 움직임을 우선시하면서 의미론적 지원을 통합합니다. 다양한 데이터셋에 대한 광범위한 테스트를 통해 최첨단 성능을 입증했으며, 특히 도전적인 시나리오와 다중 객체의 세밀한 분할에서 뛰어난 성과를 보였습니다. 우리의 코드는 https://motion-seg.github.io/에서 확인할 수 있습니다.
우리는 대학 수준의 물리학 문제 해결을 위한 포괄적인 벤치마크인 PHYSICS를 소개한다. 이 벤치마크는 고전역학, 양자역학, 열역학 및 통계역학, 전자기학, 원자물리학, 광학 등 6가지 핵심 영역을 아우르는 1,297개의 전문가 주석이 달린 문제로 구성되어 있다. 각 문제는 고급 물리학 지식과 수학적 추론을 요구한다. 우리는 정확하고 신뢰할 수 있는 검증을 위해 견고한 자동 평가 시스템을 개발했다. 주요 기초 모델에 대한 평가 결과, 상당한 한계가 드러났다. 가장 발전된 모델인 o3-mini조차도 59.9%의 정확도만 달성하며, 고급 과학 문제 해결에 있어 상당한 도전 과제가 있음을 보여준다. 포괄적인 오류 분석, 다양한 프롬프트 전략 탐색, 그리고 검색-증강 생성(Retrieval-Augmented Generation, RAG) 기반 지식 증강을 통해, 우리는 향후 발전을 위한 개선이 필요한 주요 영역을 식별하고 이를 위한 기반을 마련했다.
저정밀도 학습 및 양자화와의 관련성에 부분적으로 동기를 받아, 대규모 언어 모델(LLMs)에서의 대규모 활성화가 최근 관심 주제로 부상했습니다. 그러나 기존 분석은 범위가 제한적이며, 아키텍처 간 일반화 가능성은 불분명합니다. 본 논문은 GLU 기반 및 비 GLU 기반 아키텍처를 포함한 다양한 LLMs에 걸친 대규모 활성화 분석을 수행함으로써 이러한 격차 중 일부를 해소하는 데 기여합니다. 우리의 연구 결과는 여러 사전 가정에 도전하는데, 가장 중요한 것은 다음과 같습니다: (1) 모든 대규모 활성화가 해로운 것은 아니며, 이를 억제하더라도 perplexity의 폭발적 증가나 하위 작업 성능의 붕괴로 이어지지 않는다는 점; (2) Attention KV bias와 같은 제안된 완화 전략은 모델 특정적이며 특정 경우에는 효과적이지 않다는 점. 이에 따라 우리는 새로운 하이브리드 완화 전략을 조사했습니다; 특히 Target Variance Rescaling (TVR)을 Attention KV bias 또는 Dynamic Tanh (DyT)과 결합하는 것이 대규모 활성화 완화와 하위 모델 성능 보존 사이의 균형을 성공적으로 유지하는 것으로 나타났습니다. 우리의 코드는 https://github.com/bluorion-com/refine_massive_activations에서 확인할 수 있습니다.
2D 이미지에서 고해상도 3D 모델에 대한 수요가 증가함에 따라, 기존 방법들은 도메인 간격의 한계와 RGB 이미지의 본질적인 모호성으로 인해 미세한 기하학적 디테일을 정확하게 재현하는 데 여전히 상당한 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 노멀 맵을 중간 표현으로 활용하여 이미지로부터 고해상도 3D 기하학을 생성하는 새로운 프레임워크인 Hi3DGen을 제안합니다. Hi3DGen은 세 가지 주요 구성 요소로 이루어져 있습니다: (1) 노이즈 주입과 듀얼 스트림 학습을 통해 저주파-고주파 이미지 패턴을 분리하여 일반화 가능하고 안정적이며 선명한 추정을 달성하는 이미지-투-노멀 추정기, (2) 노멀 정규화된 잠재 확산 학습을 사용하여 3D 기하학 생성의 충실도를 향상시키는 노멀-투-기하학 학습 접근법, 그리고 (3) 고품질 데이터셋을 구축하여 학습을 지원하는 3D 데이터 합성 파이프라인. 광범위한 실험을 통해 우리의 프레임워크가 풍부한 기하학적 디테일을 생성하는 데 있어서의 효과성과 우수성을 입증하였으며, 충실도 측면에서 최신 기술을 능가하는 성능을 보였습니다. 우리의 연구는 노멀 맵을 중간 표현으로 활용함으로써 이미지로부터 고해상도 3D 기하학을 생성하는 새로운 방향을 제시합니다.
본 논문에서는 생체역학적으로 정확한 골격 모델을 사용하여 단일 이미지로부터 3D 인간을 재구성하는 방법을 소개합니다. 이를 위해, 이미지를 입력으로 받아 모델의 파라미터를 추정하는 트랜스포머를 학습시킵니다. 이 작업을 위한 학습 데이터가 부족한 문제를 해결하기 위해, 단일 이미지에 대한 가상의 정답(ground truth) 모델 파라미터를 생성하는 파이프라인을 구축하고, 이러한 가상 레이블을 반복적으로 개선하는 학습 절차를 구현합니다. 3D 인간 메쉬 복원을 위한 최신 방법들과 비교했을 때, 우리의 모델은 표준 벤치마크에서 경쟁력 있는 성능을 보이면서도, 극단적인 3D 자세와 시점 설정에서 이들을 크게 능가합니다. 또한, 기존의 재구성 방법들이 종종 관절 각도 제한을 위반하여 비자연스러운 회전을 초래하는 반면, 우리의 접근 방식은 생체역학적으로 타당한 자유도를 활용하여 더 현실적인 관절 회전 추정치를 제공합니다. 우리는 여러 인간 자세 추정 벤치마크를 통해 이 접근 방식을 검증합니다. 코드, 모델 및 데이터는 https://isshikihugh.github.io/HSMR/에서 공개합니다.
임의의 토폴로지를 가진 고해상도 3D 메시 생성, 특히 열린 표면과 복잡한 내부 구조를 포함하는 경우는 여전히 큰 과제로 남아 있습니다. 기존의 암시적 필드 방법은 비용이 많이 들고 디테일이 저하되는 수밀 변환을 필요로 하는 반면, 다른 접근법들은 고해상도에서 어려움을 겪습니다. 본 논문에서는 렌더링 손실로부터 직접 최대 1024^3 해상도까지의 미분 가능한 메시 재구성을 가능하게 하는 새로운 희소 구조 아이소서피스 표현인 SparseFlex을 소개합니다. SparseFlex은 Flexicubes의 정확도와 희소 복셀 구조를 결합하여, 표면 인접 영역에 계산을 집중시키고 열린 표면을 효율적으로 처리합니다. 특히, 렌더링 중에 관련된 복셀만 활성화하는 프러스텀 인식 섹셔널 복셀 훈련 전략을 도입하여 메모리 소비를 극적으로 줄이고 고해상도 훈련을 가능하게 합니다. 이를 통해 렌더링 감독만을 사용하여 메시 내부 구조를 재구성하는 것이 처음으로 가능해졌습니다. 이를 기반으로, 고품질 3D 형태 생성을 위해 변분 오토인코더(VAE)와 정류 흐름 트랜스포머를 훈련시킨 완전한 형태 모델링 파이프라인을 시연합니다. 실험 결과, 이전 방법 대비 Chamfer Distance가 약 82% 감소하고 F-score가 약 88% 증가한 최첨단 재구성 정확도를 보여주며, 임의의 토폴로지를 가진 고해상도, 세부적인 3D 형태 생성을 입증합니다. SparseFlex은 렌더링 손실을 통한 고해상도, 미분 가능한 메시 재구성 및 생성을 가능하게 함으로써 3D 형태 표현 및 모델링 분야의 최신 기술을 크게 발전시켰습니다.
멀티모달 대형 언어 모델(MLLMs)은 2D 이미지/비디오 이해 능력에서 인상적인 성과를 보여왔습니다. 그러나 4D 객체(시간에 따라 진화하는 3D 객체)를 이해하는 MLLMs의 능력을 평가하기 위한 공개적으로 표준화된 벤치마크는 존재하지 않습니다. 본 논문에서는 4D 객체 이해 능력을 평가하기 위한 첫 번째 벤치마크인 4D-Bench를 소개합니다. 4D-Bench는 4D 객체 질의응답(4D object QA)과 4D 객체 캡셔닝 작업을 포함하며, 다양한 카테고리의 4D 객체, 고품질의 주석, 그리고 다중 시점의 시공간적 이해를 요구하는 작업을 제공합니다. 이는 기존의 2D 이미지/비디오 기반 벤치마크와 차별화됩니다. 4D-Bench를 통해 오픈소스 및 클로즈드소스 MLLMs를 광범위하게 평가했습니다. 4D 객체 캡셔닝 실험 결과, MLLMs는 일반적으로 외형 이해에 비해 시간적 이해가 약한 것으로 나타났으며, 특히 오픈소스 모델들은 외형 이해에서는 클로즈드소스 모델에 근접한 성능을 보였지만, 시간적 이해에서는 더 큰 성능 격차를 보였습니다. 4D 객체 QA에서는 놀라운 발견이 있었습니다: 단순한 단일 객체 비디오에서도 MLLMs의 성능이 저조했으며, 최첨단 GPT-4o는 인간 기준 91%에 비해 63%의 정확도만 달성했습니다. 이러한 결과는 4D 객체 이해에서 상당한 격차가 존재하며, MLLMs의 추가적인 발전이 필요함을 강조합니다.
다양한 의료 진단 분야에서 인간 임상의를 보조할 수 있는 신뢰할 수 있는 AI 시스템을 개발하는 것은 오랫동안 연구자들의 주요 목표로 여겨져 왔습니다. 최근, 다중 모드 대형 언어 모델(MLLMs)이 다양한 분야에서 주목받으며 성공을 거두고 있습니다. 강력한 추론 능력과 사용자 지시에 따라 다양한 작업을 수행할 수 있는 능력을 갖춘 MLLMs는 의료 진단을 향상시킬 수 있는 큰 잠재력을 가지고 있습니다. 그러나 MLLMs를 의료 분야에 직접 적용하는 것은 여전히 도전 과제로 남아 있습니다. MLLMs는 시각적 입력에 대한 세부적인 인식이 부족하여 의료 진단에 필수적인 정량적 이미지 분석을 수행하는 데 한계가 있습니다. 또한, MLLMs는 종종 환각과 추론의 불일치를 보이는 반면, 임상 진단은 엄격하게 정해진 기준을 따라야 합니다. 이러한 문제를 해결하기 위해, 우리는 신뢰할 수 있고 설명 가능하며 정확한 의료 진단을 달성하기 위해 설계된 증거 기반 추론 에이전트 시스템인 MedAgent-Pro를 제안합니다. 이는 계층적 워크플로우를 통해 이루어집니다: 작업 수준에서는 지식 기반 추론이 특정 질병에 대한 신뢰할 수 있는 진단 계획을 검색된 임상 기준에 따라 생성합니다. 반면, 사례 수준에서는 여러 도구 에이전트가 다중 모드 입력을 처리하고, 계획에 따라 다양한 지표를 분석하며, 정량적 및 정성적 증거를 기반으로 최종 진단을 제공합니다. 2D 및 3D 의료 진단 작업에 대한 포괄적인 실험은 MedAgent-Pro의 우수성과 효과를 입증하며, 사례 연구는 그 신뢰성과 해석 가능성을 더욱 강조합니다. 코드는 https://github.com/jinlab-imvr/MedAgent-Pro에서 확인할 수 있습니다.
전통적인 이미지 분류는 사전에 정의된 의미론적 카테고리 목록을 필요로 합니다. 반면, 대규모 멀티모달 모델(Large Multimodal Models, LMMs)은 이러한 요구 사항을 우회하여 자연어를 직접 사용하여 이미지를 분류할 수 있습니다(예: "이미지의 주요 객체는 무엇인가요?"라는 프롬프트에 답변). 이 놀라운 능력에도 불구하고, LMM의 분류 성능에 대한 기존 연구 대부분은 놀랍게도 범위가 제한적이며, 종종 사전 정의된 카테고리 집합을 가진 폐쇄형 환경을 가정합니다. 본 연구에서는 진정한 오픈월드 환경에서 LMM의 분류 성능을 철저히 평가함으로써 이 격차를 해소하고자 합니다. 먼저, 이 작업을 공식화하고 평가 프로토콜을 소개하며, 예측된 클래스와 실제 클래스 간의 일치를 평가하기 위한 다양한 메트릭을 정의합니다. 그런 다음, 10개의 벤치마크에서 13개의 모델을 평가하여 프로토타입적, 비프로토타입적, 세분화된, 그리고 매우 세분화된 클래스를 포괄하며, 이 작업에서 LMM이 직면하는 도전 과제를 보여줍니다. 제안된 메트릭을 기반으로 한 추가 분석은 LMM이 범하는 오류 유형을 밝히고, 세분화 및 세밀한 능력과 관련된 도전 과제를 강조하며, 맞춤형 프롬프팅과 추론이 이를 어떻게 완화할 수 있는지를 보여줍니다.
소프트웨어 엔지니어링을 위한 AI는 최근 눈부신 발전을 이루며 생성형 AI 분야에서 주목할 만한 성공을 거두었습니다. 그럼에도 불구하고, 자동화된 소프트웨어 엔지니어링이 그 잠재력을 완전히 발휘하기 위해서는 여전히 해결해야 할 많은 과제들이 남아 있습니다. 인간이 무엇을 구축할지와 어려운 트레이드오프를 어떻게 균형 잡을지와 같은 중요한 결정에 집중하는 동안 대부분의 일상적인 개발 작업이 자동화되는 높은 수준의 자동화에 도달하는 것이 가능해야 합니다. 이러한 수준의 자동화에 도달하기 위해서는 학계와 산업 전반에 걸쳐 상당한 연구와 엔지니어링 노력이 필요할 것입니다. 본 논문에서는 이를 세 가지 측면에서 논의하고자 합니다. 첫째, 코드 생성 및 완성 외에도 소프트웨어 엔지니어링에서 수행되는 다양한 작업을 강조하며, 소프트웨어 엔지니어링을 위한 AI의 구체적인 작업에 대한 구조화된 분류 체계를 제공합니다. 둘째, 현재 접근법을 제한하는 여러 주요 병목 현상을 개요합니다. 마지막으로, 이러한 병목 현상을 해결하기 위한 유망한 연구 방향에 대한 의견을 제시하며, 이 빠르게 성숙해지는 분야에서의 미래 연구에 영감을 주고자 합니다.
4차원 컴퓨터 단층촬영(4D CT) 재구성은 동적인 해부학적 변화를 포착하는 데 필수적이지만, 기존의 위상 분할(phase-binning) 워크플로우로 인해 본질적인 한계에 직면해 있습니다. 현재의 방법들은 호흡 게이팅 장치를 사용하여 시간 해상도를 고정된 위상으로 이산화함으로써 움직임의 불일치를 초래하고 임상적 실용성을 제한합니다. 본 논문에서는 동적 방사형 가우시안 스플래팅과 자기 지도 학습 기반 호흡 운동 학습을 통합하여 연속 시간 4D-CT 재구성을 가능하게 하는 새로운 프레임워크인 X^2-Gaussian을 제안합니다. 우리의 접근법은 시공간적 인코더-디코더 아키텍처를 통해 시간에 따라 변화하는 가우시안 변형을 예측함으로써 해부학적 동역학을 모델링하고, 위상 이산화를 제거합니다. 또한, 외부 게이팅 장치에 대한 의존성을 없애기 위해 미분 가능한 최적화를 통해 투영 데이터로부터 환자별 호흡 주기를 직접 학습하는 생리학 기반 주기 일관성 손실 함수를 도입했습니다. 광범위한 실험을 통해 기존 방법 대비 9.93 dB의 PSNR 향상과 이전 가우시안 스플래팅 기술 대비 2.25 dB의 개선을 달성하며 최첨단 성능을 입증했습니다. 연속적인 움직임 모델링과 하드웨어 없는 주기 학습을 통합함으로써, X^2-Gaussian은 동적 임상 영상을 위한 고품질 4D CT 재구성을 한 단계 발전시켰습니다. 프로젝트 웹사이트: https://x2-gaussian.github.io/.
의도는 일반적으로 명확하게 정형화되고 계획된 것으로, 추론과 문제 해결을 위한 인지적 틀로 기능합니다. 본 논문은 대규모 언어 모델(LLMs)에서 '의도를 갖고 말하기(Speaking with Intent, SWI)' 개념을 소개합니다. 여기서 명시적으로 생성된 의도는 모델의 근본적인 의도를 포괄하며, 후속 분석과 의사소통을 안내하는 고수준의 계획을 제공합니다. 인간의 마음속에서 의도적이고 목적이 있는 사고를 모방함으로써, SWI는 LLM의 추론 능력과 생성 품질을 향상시킬 것으로 가정됩니다. 수학적 추론 벤치마크에서의 광범위한 실험은 SWI가 명시적 의도 없이 생성하는 베이스라인에 비해 우수함을 일관되게 입증합니다. 더 나아가, SWI는 Chain-of-Thought 및 Plan-and-Solve와 같은 답변 유도 프롬프트 방법을 능가하며, 강력한 방법인 ARR(Analyzing, Retrieving, and Reasoning)과도 경쟁력 있는 성능을 유지합니다. 또한, SWI의 효과성과 일반화 가능성은 추론 집약적인 질의응답(QA) 및 텍스트 요약 벤치마크에서도 확고히 입증되었으며, SWI는 베이스라인 생성에 지속적인 개선을 가져옵니다. 텍스트 요약에서 SWI가 생성한 요약문은 더 높은 정확성, 간결성, 사실적 정확성을 보이며, 환각(hallucination) 현상도 적게 나타납니다. 더불어, 인간 평가를 통해 SWI가 생성한 의도의 일관성, 효과성, 해석 가능성이 검증되었습니다. 이 개념 검증 연구는 인지적 개념을 활용하여 LLM의 추론 능력을 향상시키는 새로운 방향을 제시합니다.