애플 SHARP AI, 한 장의 사진으로 3D 장면을 1초 만에 만드는 놀라운 기술

박스쿤
박스쿤
읽음 26

최근 애플에서 공개한 SHARP 모델을 접하고 나서, AI의 후발 주자라고 무시하고 있었던 생각이 조금 달라졌습니다. 한 장의 2D 사진만으로 photorealistic한 3D 장면을 1초도 안 되는 시간에 만들어 내는 이 기술은, 애플이 아직 AI를 포기하지 않았다는 모습을 제대로 보여줍니다.

AI 기술이 빠르게 발전하는 요즘, 이런 모델이 등장한 이유는 컴퓨터 비전 분야에서 단일 이미지 기반의 3D 재구성이 오랜 과제였기 때문입니다. 애플의 연구팀은 이 문제를 해결하기 위해 새로운 접근을 시도했는데, 그 결과가 바로 SHARP입니다. 제가 처음 이 모델의 논문을 읽었을 때, 그 속도와 정확성에 놀라움을 금치 못했습니다. 바로 만나보시죠.


SHARP는 Sharp Monocular View Synthesis의 약자로, 단일 이미지로부터 photorealistic한 뷰 합성을 목표로 합니다. 기본적으로 한 장의 사진을 입력으로 받아, 그 안에 담긴 장면을 3D 가우시안 표현으로 변환합니다. 이 표현은 실제 메트릭 스케일을 가지며, 카메라 움직임을 지원하는 절대적인 규모를 반영합니다.

SHARP Demo
SHARP Demo

특히 재밌는 점은 기존의 3D 생성 기법들이 여러 장의 이미지를 필요로 했던 반면, SHARP는 단 한 장으로 충분합니다. 이 기능은 특히 모바일 기기나 실시간 애플리케이션에서 강력한 장점을 발휘할 것으로 보입니다. 모델의 핵심은 신경망을 통한 단일 피드포워드 패스로, 표준 GPU에서 1초 미만에 처리됩니다. 진짜 놀랍죠.

이 모델의 출력은 실시간 렌더링이 가능해, 100FPS 이상의 속도로 고품질 이미지를 생성합니다. 이러한 기능들은 애플의 연구팀이 오랜 기간 데이터셋을 활용해 훈련한 결과물입니다.

SHARP 동작 방식 비교

이 과정에서 메트릭 스케일이 유지되어, 카메라의 실제 움직임을 시뮬레이션할 수 있습니다. 예측 단계에서 입력 이미지를 처리한 후 출력 폴더에 .ply 파일 형식으로 3D 가우시안이 저장됩니다. 이 파일은 공공 3DGS 렌더러와 호환되며, OpenCV 좌표 convention을 따릅니다. 렌더링 시 CUDA GPU를 사용하면 비디오 트라젝트리를 생성할 수 있는데, 초기화에 약간의 시간이 걸리지만 이후에는 부드럽게 작동합니다. 모델의 훈련 과정은 여러 데이터셋에서 zero-shot generalization을 보장하도록 설계되었습니다. 이 덕분에 다양한 장면에서robust하게 적용됩니다.

성능 면에서 SHARP는 기존 모델을 압도합니다. 논문에 따르면, 여러 데이터셋에서 LPIPS를 25-34% 줄이고 DISTS를 21-43% 낮추었습니다. 합성 시간은 세 자릿수나 줄어들어, 이전 모델들의 한계를 극복합니다. 특히, zero-shot generalization이 강점으로, 훈련되지 않은 데이터셋에서도 우수한 성능을 보입니다.

무료로 이용해보기

사용 방법은 간단합니다. 애플의 GitHub 저장소에서 코드를 다운로드할 수 있으며, Python 3.13 환경을 추천합니다. conda로 환경을 생성한 후 requirements.txt를 설치하면 됩니다.

환경 준비

Text
1 2 3 4 5
conda create -n sharp python=3.13

pip install -r requirements.txt

sharp --help

모델 준비

더 자세한 정보 : https://github.com/apple/ml-sharp


설치가 직관적이며 문서가 잘 되어 있습니다. 평가를 위해 논문의 정성적 예시를 참조할 수 있으며, 웹페이지에 비디오 비교가 있습니다.

잠재적 응용 분야는 다양합니다. AR/VR 콘텐츠 제작에서 한 장의 사진으로 3D 장면을 빠르게 생성할 수 있습니다. 게임 개발이나 영화 산업에서도 유용할 것입니다. 제가 상상해 본 바에 따르면, 스마트폰 카메라와 결합하면 실시간 3D 매핑이 가능합니다. 의료 영상이나 자율주행 차량의 센서 데이터 처리에도 적용될 수 있습니다. 또한, 교육 분야에서 역사적 사진을 3D로 재현하는 데 쓰일 수 있습니다.

단, 속도와 품질이 뛰어나지만, GPU 의존성이 높아 모든 환경에서 접근하기 어렵습니다. 제가 테스트 중 느꼈던 점은, 입력 이미지의 품질에 따라 출력이 달라진다는 것입니다. 고해상도 이미지가 더 좋은 결과를 줍니다. 또한, 오픈소스이지만 상업적 사용 시 라이선스를 주의해야 합니다.

댓글 0

댓글 0개

댓글을 남기시면 관리자가 최대한 빠르게 확인 후 답글을 남겨드립니다.
구글 간편 로그인 후 댓글 작성시 포인트가 누적되며, 회원전용글 열람이 가능합니다.

댓글 남기기

이 글이 마음에 드시나요?

최신 소식과 유용한 정보를 메일함으로
무료로 받아보세요!

이미 구독 중이신가요? 로그인