Stable Diffusion은 잘 작동하는 네트워크이지만, 이미지 한장에 지나지 않는다.

LDM 모델의 아이디어는 좋지만, https://arxiv.org/pdf/2012.09841.pdf의 Encoder와 Decoder를 이용하여, 조건을 추가로 부여하는 모델이다.

즉 잘 작동하지만, 학습 시키기 까다롭고 여러 단계를 걸쳐서 학습해야한다.

마지막으로 비디오의 시퀀셜 정보를 주기 까다롭다.

Auto Encoder부분 까지 성공했으나, 논문화 전 다른 연구 투입으로 연구 종료