My Blog

다양한 정보 – 스타크래프트, 그림AI, 동물, 파이썬 등

ComfyUI그림AI

Wan2.1 T2V 텍스트로 영상 만들기

저번 글에서 Wan2.1 T2V 1.3B 모델을 사용해서 텍스트로 영상을 생성했습니다. 13억개의 매개변수를 가진 모델이여서 140억개의 매개변수를 가진 14B 모델보다 성능이 부족합니다. 이번 글에서는 Wan2.1 I2V 글과 유사한 워크플로를 이용해 무료 코랩 T4 환경에서 양자화 된14B 모델로 영상을 생성해보겠습니다.

아래의 주피터노트북 파일과 워크플로를 사용하겠습니다. Wan2.1 I2V 글과 사용하는 모델이 다른 것을 빼고는 동일합니다. 워크플로도 거의 유사한데 I2V와 달리 이미지를 불러오지 않으므로 더 간단합니다.

코랩에서 순서대로 셀들을 실행해 ComfyUI를 실행하고 클라우드플레어에서 제공하는 주소로 접속합니다. 그리고 워크플로를 불러옵니다. 단축키는 Ctrl + O이고 워크플로 파일을 끌어서 ComfyUI 화면에 두어도 불러와집니다.

커스텀노드 설치

커스텀노드를 설치하기 위해 화면우측상단의 Manager를 클릭해 ComfyUI Manager를 열어줍니다.

ComfyUI Manager
ComfyUI Manager

Install Missing Custom Nodes를 클릭해 커스텀노드들을 설치해줍니다. 노드의 실행시간을 보려면 Custom Nodes Manager에 들어가 Dev Utils를 검색해 설치하면 됩니다. 다 설치했으면 안내에 따라 버튼을 클릭해 재시작과 새로고침을 해줍니다.

Install Missing Custom Nodes
Install Missing Custom Nodes
Custom Nodes Manager
Custom Nodes Manager

모델 로드

gguf 파일을 불러오고 TorchCompileModelWanVideo, Patch Sage Attention KJ, WanVideo Tea Cache (native) 등의 노드를 통해 속도를 개선합니다. 생성 속도가 빨라지는 대신 성능이 떨어질 수 있습니다. teacache의 경우 thresh값이 높을수록 생성속도가 빨라집니다. 만약 LoRA가 있다면 노드를 활성화해서 사용하면 됩니다. LoRA는 추가적인 학습에 대한 파일로 Civitai 같은 사이트에서 찾을 수 있습니다.

clip, vae도 불러옵니다.

T2V 모델 로드
T2V 모델 로드

Shift, CFG, 스텝 수, 시드

Shift는 생성결과에 영향을 주는 값인데 해상도에 따라 적당한 값이 다른 것으로 보입니다. cfg의 경우 값이 높을수록 프롬프트를 잘 따르고 결과가 화려해집니다. https://replicate.com/blog/wan-21-parameter-sweep 이 링크에 shift와 cfg에 따른 비교가 나와있습니다.

샘플러의 스텝 수가 높으면 생성결과의 품질이 좋지만 시간이 오래걸립니다. 그리고 스텝수에 따라서도 결과가 바뀝니다.

시드가 바뀌면 프롬프트가 같아도 결과가 달라집니다.

Shift
Shift
Sampler
Sampler

프롬프트

긍정프롬프트와 부정프롬프트를 입력합니다. 프롬프트는 자연어로 입력하고 한국어를 포함한 다양한 언어를 지원하지만 영어와 중국어가 좋다고 알려져 있습니다.

프롬프트
프롬프트

영상 너비, 높이, 길이

생성할 영상의 너비, 높이, 길이를 입력합니다. 길이는 영상의 총 프레임수와 같습니다. 영상 크기가 크고 길이가 길수록 생성하는데 시간이 많이 걸립니다. 너비, 높이는 임의의 값으로 두어도 상관없는 것 같지만 480p나 720p에 맞추는 게 좋습니다. 14B 모델은 480p, 720p 다 괜찮지만 1.3B 모델은 480p를 생성하는 것이 좋습니다.

하지만 무료 코랩에서는 너무 크게 하면 셀이 종료되므로 안정적으로 사용하기 위해서는 너비, 높이, 길이를 작은 값으로 하는 것이 좋습니다. 832*480, 길이 33 정도에서는 잘 동작했습니다. 현재 설정된 너비, 높이, 길이로 영상을 만들 수 있는 지 테스트 해보려면 스텝수를 1로 두고 실행해서 셀이 종료 안되고 영상이 생성되는지 보면 됩니다.

결과 저장

Video 노드
Video 노드

결과를 어떻게 저장할지 지정합니다. 16fps의 mp4 파일로 설정되어 있습니다. 초당 16프레임으로 길이 33의 영상을 생성했다면 2초정도가 됩니다. 파일은 ComfyUI/output 경로에 저장됩니다.

생성 결과

프롬프트를 입력 해 영상을 만든 결과입니다.

프롬프트

Dark storm clouds fill the sky as strong winds shake the trees. Gusts of wind roar while a sudden lightning bolt flashes across the sky, followed by a delayed thunderclap. The lightning spreads naturally, emitting a bright bluish-white glow before fading back into deep darkness. Heavy rain pours down, creating ripples in puddles that reflect the flashes. In the distance, faint echoes of wind and rain add to the immersive atmosphere.

번개 영상

프롬프트

A dynamic third-person shot from below, capturing a person sliding down a thrilling water slide at a water park. The scene shows water splashing as they approach the end of the slide, with their body slightly airborne before making a big splash into the pool. The camera angle emphasizes the height and speed of the descent, with bright sunlight reflecting off the water. The background features other water park attractions and people having fun.

워터파크 미끄럼틀 영상

프롬프트

A serene spring scene capturing people walking along a street lined with fully bloomed cherry blossom trees. Soft pink petals gently fall from the branches, creating a dreamy atmosphere. The people are dressed in light spring clothing, casually strolling, chatting, and taking photos of the beautiful scenery. Sunlight filters through the blossoms, casting a warm glow on the pavement. A gentle breeze rustles the petals, adding movement to the scene.

T2V벚꽃

영상크기와 길이, 스텝에 따라 생성시간이 다른데 832*480, 길이 33, 20스텝에서 처음 돌릴 때 14분 정도가 걸렸습니다. 이후 시드만 바꿔서 돌리면 로딩시간이 추가로 필요하지 않아서 12분 정도 걸렸습니다.

셀이 종료된 경우에는 셀을 다시 시작하고 ComfyUI화면에서 연결되었다고 나오면 새로운 주소로 접속하지 않고 이전 화면에서 작업을 할 수 있습니다. 프롬프트를 바꿔서 생성했을 때 끊기는 현상이 발생하는 것 같습니다.

Civitai에서 다른 워크플로와 Lora를 찾아서 사용해보는 것도 좋습니다.

이 글에서는 5비트로 양자화 된 wan2.1-t2v-14b-Q5_K_M.gguf을 이용했습니다. 숫자가 낮을수록 경량화 되고 숫자가 높을수록 성능이 좋습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

error: Content is protected !!