🎵VIETNAMESE RVC🎵

Công cụ huấn luyện, chuyển đổi giọng nói chất lượng và hiệu suất cao đơn giản

Tách Nhạc

Một hệ thống tách nhạc đơn giản có thể tách được 4 phần: Nhạc, giọng, giọng chính, giọng bè

Khử tách nhạc

Tách giọng bè

Tách vang

Tăng cường suy luận

Xử lí dải cao

Hậu xử lí

Mô hình tách nhạc

Mô hình tách bè

Mô hình tách vang

Mô hình khử nhiễu

Số lượng dự đoán

Càng cao chất lượng càng tốt nhưng tốn tài nguyên

1 20

Kích thước lô

Số lượng mẫu được xử lí cùng một lúc. Việc chia thành các lô giúp tối ưu hóa quá trình tính toán

1 64

Kích Thước Phân Đoạn

Càng cao chất lượng càng tốt nhưng tốn tài nguyên

32 3072

Mức độ mạnh tay

Cường độ chiết xuất thân chính.

1 50

Thả âm thanh vào đây

Đường dẫn liên kết đến âm thanh

Chồng chéo

Số lượng chồng chéo giữa các cửa sổ dự đoán

0.25 0.5 0.75 0.99

Kích thước cửa sổ

Kích thước cửa sổ nhỏ hơn sẽ mang lại chất lượng đầu ra cao hơn, nhưng sẽ mất nhiều thời gian xử lí hơn.

320 1024

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 8192

Ngưỡng hậu xử lí

Mức độ xử lí hậu kỳ sau khi tách nhạc.

0.1 0.3

Tốc độ lấy mẫu

LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TRÊN 48000

8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đường dẫn đầu vào âm thanh

Đường dẫn thư mục đầu ra âm thanh

Nhập đường dẫn thư mục âm thanh sẽ xuất ra ở đó

Đầu vào âm thanh

Âm thanh đã được tách

Nhạc nền

Giọng gốc

Giọng chính

Giọng bè

Chuyển Đổi Âm Thanh

Chuyển đổi âm thanh bằng mô hình giọng nói đã được huấn luyện

Làm sạch âm thanh

Tự động điều chỉnh

Sử dụng âm thanh vừa tách

Sử dụng hiệu quả bộ nhớ

Chuyển đổi giọng gốc

Chuyển đổi giọng bè

Không kết hợp giọng bè

Kết hợp nhạc nền

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Chọn bản tách

Thả âm thanh vào đây

Đầu vào âm thanh

Tệp mô hình

Tệp chỉ mục

Ảnh hưởng của chỉ mục

Càng cao ảnh hưởng càng lớn. Tuy nhiên, việc chọn giá trị thấp hơn có thể giảm hiện tượng giả trong âm thanh

0 1

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Mã nhận dạng giọng nói

Mã nhận dạng giọng nói đối với mô hình đa giọng nói

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Đường dẫn đầu ra âm thanh

Nhập đường dẫn đầu ra(cứ để định dạng .wav khi chuyển đổi nó tự sửa)

Trích xuất cao độ bằng mô hình ONNX có thể giúp tăng tốc độ

Chế độ F0 ONNX

Mở khóa toàn bộ phương pháp trích xuất cao độ

Mở khóa tất cả

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin hybrid

Phương pháp trích xuất HYBRID

Sự kết hợp của hai hoặc nhiều loại trích xuất khác nhau

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 512

Mức trộn của các phương thức

Mức trộn các cao độ của các phương thức trích xuất với nhau

0.1 1

Tải lên tệp F0

Tệp F0

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

Các tầng thấp (1-6): Chủ yếu mã hóa các chi tiết âm học/ngữ âm.
Các tầng giữa (7-9): Giàu thông tin ngữ âm, phù hợp tốt với các đơn vị ngôn ngữ như âm vị.
Các tầng trên (10-12): Nắm bắt các khái niệm trừu tượng cấp cao hơn — gần với ngữ nghĩa và nội dung ngôn ngữ độc lập với người nói, nhưng ít chi tiết âm học thô hơn.

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Tệp cài đặt trước

Lưu làm sạch

Lưu tự điều chỉnh

Lưu cao độ

Lưu ảnh hưởng chỉ mục

Lưu lấy mẫu lại

Lưu trung vị

Lưu đường bao âm

Lưu bảo vệ âm

Lưu cắt âm

Dịch chuyển cao độ và âm sắc

Tên khi lưu tệp

Tải lên tệp cài đặt

Cắt âm thanh

Dịch chuyển cao độ và âm sắc

Tự động đề xuất cao độ

Xử lí âm thanh đầu vào ra

Sử dụng mô hình máy học để sinh thêm phổ tầng giúp âm thanh đầu ra có thể đạt tốc độ lấy mẫu thật thay vì ảo như lấy lại mẫu.

Tăng độ phân giải âm thanh

Lấy mẫu lại

Lấy mẫu lại sau xử lí đến tốc độ lấy mẫu cuối cùng, 0 có nghĩa là không lấy mẫu lại, LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TỐC ĐỘ TRÊN 48000

0 8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Tỷ lệ trộn RMS

Xác định tỷ lệ pha trộn giữa năng lượng RMS của giọng gốc và giọng đã chuyển đổi

0 1

Bảo vệ phụ âm

Bảo vệ các phụ âm riêng biệt và âm thanh thở ngăn chặn việc rách điện âm và các hiện tượng giả khác. Việc chỉnh tối đa sẽ bảo vệ toàn diện. Việc giảm giá trị này có thể giảm độ bảo vệ, đồng thời có khả năng giảm thiểu hiệu ứng lập chỉ mục

0 1

Tỉ lệ độ ồn

Tùy chỉnh đặc biệt gây ảnh hưởng trực tiếp đến chất lượng của âm thanh, bạn không nên điều chỉnh nó.

0.1 1

Tần số cho dịch chuyển định dạng

0 16

Âm sắc để chuyển đổi định dạng

0 16

Âm thanh đã được chuyển đổi

Chuyển đổi giọng chính

Chuyển đổi giọng bè

Giọng chính + Giọng bè

Chuyển đổi giọng gốc

Giọng + Nhạc nền

Chuyển Đổi Âm Thanh Với Bộ Phát Hiện Giọng Nói

Sử dụng bộ phát hiện giọng nói (Voice Activity Detection) kết hợp với mô hình SpeechBrain để tự động nhận diện các giọng nói trong tệp âm thanh. Sau đó, tiến hành cắt và chia nhỏ âm thanh thành từng đoạn riêng biệt sau đó sẽ áp dụng chuyển đổi bằng mô hình giọng nói.

Làm sạch âm thanh

Tự động điều chỉnh

Sử dụng hiệu quả bộ nhớ

Dịch chuyển cao độ và âm sắc

Tự động đề xuất cao độ

Xử lí âm thanh đầu vào ra

Số lượng giọng

Số lượng giọng nói có trong âm thanh

2 8

Tệp mô hình

Tệp chỉ mục

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Ảnh hưởng của chỉ mục

Càng cao ảnh hưởng càng lớn. Tuy nhiên, việc chọn giá trị thấp hơn có thể giảm hiện tượng giả trong âm thanh

0 1

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Mã nhận dạng giọng nói

Mã nhận dạng giọng nói đối với mô hình đa giọng nói

Tỉ lệ độ ồn

Tùy chỉnh đặc biệt gây ảnh hưởng trực tiếp đến chất lượng của âm thanh, bạn không nên điều chỉnh nó.

0.1 1

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Đường dẫn đầu ra âm thanh

Nhập đường dẫn đầu ra(cứ để định dạng .wav khi chuyển đổi nó tự sửa)

Thả âm thanh vào đây

Tệp mô hình

Tệp chỉ mục

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Ảnh hưởng của chỉ mục

Càng cao ảnh hưởng càng lớn. Tuy nhiên, việc chọn giá trị thấp hơn có thể giảm hiện tượng giả trong âm thanh

0 1

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Mã nhận dạng giọng nói

Mã nhận dạng giọng nói đối với mô hình đa giọng nói

Tỉ lệ độ ồn

Tùy chỉnh đặc biệt gây ảnh hưởng trực tiếp đến chất lượng của âm thanh, bạn không nên điều chỉnh nó.

0.1 1

Trích xuất cao độ bằng mô hình ONNX có thể giúp tăng tốc độ

Chế độ F0 ONNX

Mở khóa toàn bộ phương pháp trích xuất cao độ

Mở khóa tất cả

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin hybrid

Phương pháp trích xuất HYBRID

Sự kết hợp của hai hoặc nhiều loại trích xuất khác nhau

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 512

Mức trộn của các phương thức

Mức trộn các cao độ của các phương thức trích xuất với nhau

0.1 1

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Lấy mẫu lại

Lấy mẫu lại sau xử lí đến tốc độ lấy mẫu cuối cùng, 0 có nghĩa là không lấy mẫu lại, LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TỐC ĐỘ TRÊN 48000

0 8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Tỷ lệ trộn RMS

Xác định tỷ lệ pha trộn giữa năng lượng RMS của giọng gốc và giọng đã chuyển đổi

0 1

Bảo vệ phụ âm

0 1

Độ nhạy VAD

Độ nhạy VAD. 0 ít nhạy, 3 rất nhạy.

0 3

Kích thước khung

Kích thước khung xử lí cho VAD (ms).

10 30

Tần số cho dịch chuyển định dạng 1

Tần số cho dịch chuyển định dạng

0 16

Âm sắc để chuyển đổi định dạng 1

Âm sắc để chuyển đổi định dạng

0 16

Tần số cho dịch chuyển định dạng 2

Tần số cho dịch chuyển định dạng

0 16

Âm sắc để chuyển đổi định dạng 2

Âm sắc để chuyển đổi định dạng

0 16

Đầu vào, đầu ra âm thanh

Đầu vào âm thanh

Giọng được chuyển đổi bởi mô hình

Chuyển Đổi Văn Bản Thành Giọng Nói

Chuyển văn bản thành giọng nói và đọc lại bằng mô hình giọng nói được huấn luyện

Nhập dữ liệu từ tệp văn bản

Chuyển đổi văn bản bằng google

Văn bản cần đọc

Tốc độ đọc

Tốc độ đọc của giọng nói

-100 100

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Thả tệp văn bản vào đây

Giọng nói của các nước

Dịch chuyển cao độ

Cao độ giọng nói của bộ chuyển đổi văn bản

-24 24

Ngôn ngữ đầu vào

Ngôn ngữ đầu ra

Tệp mô hình

Tệp chỉ mục

Ảnh hưởng của chỉ mục

Càng cao ảnh hưởng càng lớn. Tuy nhiên, việc chọn giá trị thấp hơn có thể giảm hiện tượng giả trong âm thanh

0 1

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Mã nhận dạng giọng nói

Mã nhận dạng giọng nói đối với mô hình đa giọng nói

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đường dẫn đầu ra giọng nói

Nhập đường dẫn đầu ra

Đường dẫn đầu ra giọng chuyển đổi

Nhập đường dẫn đầu ra

Trích xuất cao độ bằng mô hình ONNX có thể giúp tăng tốc độ

Chế độ F0 ONNX

Mở khóa toàn bộ phương pháp trích xuất cao độ

Mở khóa tất cả

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin hybrid

Phương pháp trích xuất HYBRID

Sự kết hợp của hai hoặc nhiều loại trích xuất khác nhau

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 512

Mức trộn của các phương thức

Mức trộn các cao độ của các phương thức trích xuất với nhau

0.1 1

Tải lên tệp F0

Tệp F0

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Tệp cài đặt trước

Lưu làm sạch

Lưu tự điều chỉnh

Lưu cao độ

Lưu ảnh hưởng chỉ mục

Lưu lấy mẫu lại

Lưu trung vị

Lưu đường bao âm

Lưu bảo vệ âm

Lưu cắt âm

Dịch chuyển cao độ và âm sắc

Tên khi lưu tệp

Tải lên tệp cài đặt

Xử lí âm thanh đầu vào ra

Dịch chuyển cao độ và âm sắc

Cắt âm thanh

Làm sạch âm thanh

Tự động điều chỉnh

Sử dụng hiệu quả bộ nhớ

Tự động đề xuất cao độ

Sử dụng mô hình máy học để sinh thêm phổ tầng giúp âm thanh đầu ra có thể đạt tốc độ lấy mẫu thật thay vì ảo như lấy lại mẫu.

Tăng độ phân giải âm thanh

Lấy mẫu lại

Lấy mẫu lại sau xử lí đến tốc độ lấy mẫu cuối cùng, 0 có nghĩa là không lấy mẫu lại, LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TỐC ĐỘ TRÊN 48000

0 8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Tỷ lệ trộn RMS

Xác định tỷ lệ pha trộn giữa năng lượng RMS của giọng gốc và giọng đã chuyển đổi

0 1

Bảo vệ phụ âm

0 1

Tỉ lệ độ ồn

Tùy chỉnh đặc biệt gây ảnh hưởng trực tiếp đến chất lượng của âm thanh, bạn không nên điều chỉnh nó.

0.1 1

Tần số cho dịch chuyển định dạng

0 16

Âm sắc để chuyển đổi định dạng

0 16

Âm thanh chưa được chuyển đổi và âm thanh đã được chuyển đổi

Giọng được tạo bởi chuyển đổi văn bản thành giọng nói

Giọng được chuyển đổi bởi mô hình

Áp Dụng Thêm Hiệu Ứng Cho Âm Thanh

Chỉnh sửa thêm hiệu ứng cho âm thanh

Hiệu ứng vọng âm

Hiệu ứng hòa âm

Hiệu ứng độ trễ

Hiệu ứng xoay pha

Hiệu ứng nén

Tùy chọn thêm

Thả âm thanh vào đây

Đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Đầu ra âm thanh

Nhập đường dẫn đầu ra

Kết hợp nhạc nền

Đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Âm lượng tệp âm thanh chính

Âm lượng tệp âm thanh chính. Nên để từ -4 đến 0.

-80 80

Âm lượng tệp âm thanh kết hợp

Âm lượng tệp âm thanh kết hợp. Nên để âm lượng của tệp kết hợp nhỏ hơn âm thanh chính.

-80 80

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Tệp cài đặt trước

Tên khi lưu tệp

Tải lên tệp cài đặt

Tạo hiệu ứng vang liên tục khi bật chế độ này

Chế độ đóng băng

Kích thước phòng

Điều chỉnh không gian của phòng để tạo độ vang

0 1

Giảm âm

Điều chỉnh độ hút âm, kiểm soát mức độ vang

0 1

Mức độ tín hiệu vang

Điều chỉnh mức độ của tín hiệu có hiệu ứng vọng âm

0 1

Mức độ tín hiệu gốc

Điều chỉnh mức độ của tín hiệu không có hiệu ứng

0 1

Chiều rộng âm thanh

Điều chỉnh độ rộng của không gian âm thanh

0 1

Độ sâu hòa âm

Điều chỉnh cường độ hòa âm, tạo ra cảm giác rộng cho âm thanh

0 1

Tần số

Điều chỉnh tốc độ dao động của hòa âm

0.1 10

Trộn tín hiệu

Điều chỉnh mức độ trộn giữa âm gốc và âm có hiệu ứng

0 1

Độ trễ trung tâm (mili giây)

Khoảng thời gian trễ giữa các kênh stereo để tạo hiệu ứng hòa âm

0 50

Phản hồi

Điều chỉnh lượng tín hiệu hiệu ứng được quay lại vào tín hiệu gốc

-1 1

Thời gian trễ

Điều chỉnh khoảng thời gian trễ giữa âm gốc và âm có hiệu ứng

0 5

Phản hồi độ trễ

Điều chỉnh lượng tín hiệu được quay lại, tạo hiệu ứng lặp lại

0 1

Trộn tín hiệu độ trễ

Điều chỉnh mức độ trộn giữa âm gốc và âm trễ

0 1

Độ sâu

Điều chỉnh độ sâu của hiệu ứng, ảnh hưởng đến cường độ của hiệu ứng xoay pha

0 1

Tần số

Điều chỉnh tốc độ của hiệu ứng hiệu ứng xoay pha

0.1 10

Trộn tín hiệu

Điều chỉnh mức độ trộn giữa tín hiệu gốc và tín hiệu đã qua xử lí

0 1

Tần số trung tâm

Tần số trung tâm của hiệu ứng xoay pha, ảnh hưởng đến tần số bị điều chỉnh

50 5000

Phản hồi

Điều chỉnh lượng phản hồi tín hiệu, tạo cảm giác xoay pha mạnh hoặc nhẹ

-1 1

Ngưỡng nén

Ngưỡng mức âm thanh sẽ bị nén khi vượt qua ngưỡng này

-60 0

Tỉ lệ nén

Điều chỉnh mức độ nén âm thanh khi vượt qua ngưỡng

1 20

Thời gian tấn công (mili giây)

Khoảng thời gian nén bắt đầu tác dụng sau khi âm thanh vượt ngưỡng

0.1 100

Thời gian thả

Thời gian để âm thanh trở lại trạng thái bình thường sau khi bị nén

10 1000

Hiệu ứng mờ dần

Âm trầm và âm cao

Giới hạn ngưỡng

Lấy mẫu lại

Hiệu ứng nhiễu âm

Cường độ âm

Hiệu ứng giảm bits

Hiệu ứng méo âm

Hiệu ứng mờ dần vào (mili giây)

Thời gian mà âm thanh sẽ tăng dần từ mức 0 đến mức bình thường

0 10000

Hiệu ứng mờ dần ra (mili giây)

thời gian mà âm thanh sẽ giảm dần từ bình thường xuống mức 0

0 10000

Độ khuếch đại âm trầm (db)

mức độ tăng cường âm trầm trong đoạn âm thanh

0 20

Tần số cắt của bộ lọc thông thấp (Hz)

tần số bị giảm. Tần số thấp sẽ làm âm trầm rõ hơn

20 200

Độ khuếch đại âm cao (db)

mức độ tăng cường âm cao trong đoạn âm thanh

0 20

Tần số cắt của bộ lọc thông cao (Hz)

tần số sẽ lọc bỏ. Tần số càng cao thì giữ lại âm càng cao

1000 10000

Ngưỡng giới hạn

Giới hạn mức độ âm thanh tối đa, ngăn không cho vượt quá ngưỡng

-60 0

Thời gian thả

Khoảng thời gian để âm thanh trở lại sau khi bị giới hạn (Mili Giây)

10 1000

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-20 20

Lấy mẫu lại

Lấy mẫu lại sau xử lí đến tốc độ lấy mẫu cuối cùng, 0 có nghĩa là không lấy mẫu lại, LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TỐC ĐỘ TRÊN 48000

0 8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Hiệu ứng nhiễu âm

Điều chỉnh mức độ nhiễu âm, tạo hiệu ứng méo tiếng

0 50

Cường độ âm

Tăng giảm âm lượng của tín hiệu

-60 60

Ngưỡng cắt

Cắt bớt tín hiệu vượt quá ngưỡng, tạo âm thanh méo

-60 0

Độ sâu bit

Giảm chất lượng âm thanh bằng cách giảm số bit, tạo hiệu ứng âm thanh bị méo

1 24

Đầu ra âm thanh

Đầu vào âm thanh

Đầu ra âm thanh

Những Hiệu Ứng Kỳ Quặc Dành Cho Âm Thanh

Áp dụng những hiệu ứng kỳ quặc cho âm thanh của bạn để chúng chở nên kỳ quặc dị dạng.

Đầu vào âm thanh

Các hiệu ứng kỳ quặc

Các hiệu ứng kỳ quặc có thể sử dụng để áp dụng vào âm thanh

Ngẫu Nhiên Vỡ Âm Kinh Dị Người Máy Em bé Trầm Giật Giọng Người Già Vọng Âm Quỷ Dữ Méo Giọng Bán Hàng Trực Tuyến Kéo Lê Khó Chịu Rè Lỗi Mạng Rối Loạn

Thả âm thanh vào đây

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Đường dẫn đầu ra âm thanh

Nhập đường dẫn đầu ra(cứ để định dạng .wav khi chuyển đổi nó tự sửa)

Đầu ra âm thanh

Chuyển Đổi Thời Gian Thực

Chuyển đổi giọng nói theo thời gian thực

Độ trễ thời gian thực

Chưa bắt đầu thời gian thực

Sử dụng thiết bị nghe lại

Giảm trễ thiết bị

Phát hiện giọng nói VAD

Làm sạch âm thanh

Thiết bị âm thanh đầu vào

Thiết bị âm thanh đầu vào, Khuyên dùng WASAPI hoặc ASIO vì độ trễ thấp

Thiết bị âm thanh đầu ra

Thiết bị âm thanh đầu ra, thiết bị phát âm thanh đầu ra ví dụ: Loa, tai nghe,...

Thiết bị âm thanh nghe lại

Thiết bị âm thanh đầu ra thứ hai dùng để nghe lại âm thanh

Âm lượng đầu vào

Âm lượng của thiết bị đầu vào

0 2500

Âm lượng đầu ra

Âm lượng của thiết bị đầu ra

0 4000

Âm lượng nghe lại

Âm lượng của thiết bị nghe lại

0 4000

Tốc độ lấy mẫu thiết bị đầu vào

Tốc độ lấy mẫu của thiết bị, hãy chắc chắn rằng tốc độ lấy mẫu phù hợp với thiết bị để tránh gây ra lỗi. Nếu không thông thạo hãy để mặc định là 48000.

8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Tốc độ lấy mẫu thiết bị đầu ra

8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Tốc độ lấy mẫu thiết bị nghe lại

8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Thiết bị đầu ra Stereo

Thiết bị nghe lại Stereo

Kênh ASIO đầu vào

Số kênh của thiết bị âm thanh ASIO đầu vào

-1 128

Kênh ASIO đầu ra

Số kênh của thiết bị âm thanh ASIO đầu ra

-1 128

Kênh ASIO nghe lại

Số kênh của thiết bị âm thanh ASIO nghe lại

-1 128

Đường dẫn đầu ra âm thanh

Nhập đường dẫn đầu ra(cứ để định dạng .wav khi chuyển đổi nó tự sửa)

Định dạng âm thanh

Định dạng âm thanh khi xuất tệp âm thanh ra

wav mp3 flac ogg opus m4a mp4 aac alac wma aiff webm ac3

Đầu ra âm thanh

Kích thước đoạn

Kích thước đoạn chuyển đổi thời gian thực, giá trị là (ms)

2.7 2730.7

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Tệp mô hình

Tệp chỉ mục

Ảnh hưởng của chỉ mục

Càng cao ảnh hưởng càng lớn. Tuy nhiên, việc chọn giá trị thấp hơn có thể giảm hiện tượng giả trong âm thanh

0 1

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Mã nhận dạng giọng nói

Mã nhận dạng giọng nói đối với mô hình đa giọng nói

Trích xuất cao độ bằng mô hình ONNX có thể giúp tăng tốc độ

Chế độ F0 ONNX

Mở khóa toàn bộ phương pháp trích xuất cao độ

Mở khóa tất cả

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 512

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Tự động điều chỉnh

Tự động đề xuất cao độ

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Tỷ lệ trộn RMS

Xác định tỷ lệ pha trộn giữa năng lượng RMS của giọng gốc và giọng đã chuyển đổi

0 1

Bảo vệ phụ âm

0 1

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Ngưỡng im lặng

Ngưỡng âm thanh được cho là im lặng

-90 -60

Mức đệm thêm

Mức đệm thêm vào khi chuyển đổi tránh hao hụt khi lấy mẫu lại

0.1 5

Chồng chéo mờ dần

Mức chồng chéo khi ghép các đoạn âm thanh đầu ra

0.05 0.2

Tỉ lệ độ ồn

Tùy chỉnh đặc biệt gây ảnh hưởng trực tiếp đến chất lượng của âm thanh, bạn không nên điều chỉnh nó.

0.1 1

Độ nhạy VAD

Độ nhạy VAD. 0 ít nhạy, 3 rất nhạy.

0 3

Kích thước khung

Kích thước khung xử lí cho VAD (ms).

10 30

Hiệu Ứng Âm Thanh

Hiệu ứng vọng âm

Hiệu ứng hòa âm

Hiệu ứng độ trễ

Hiệu ứng xoay pha

Hiệu ứng nén

Giới hạn ngưỡng

Hiệu ứng nhiễu âm

Dịch chuyển cao độ

Cường độ âm

Hiệu ứng giảm bits

Hiệu ứng méo âm

Tạo hiệu ứng vang liên tục khi bật chế độ này

Chế độ đóng băng

Kích thước phòng

Điều chỉnh không gian của phòng để tạo độ vang

0 1

Giảm âm

Điều chỉnh độ hút âm, kiểm soát mức độ vang

0 1

Mức độ tín hiệu vang

Điều chỉnh mức độ của tín hiệu có hiệu ứng vọng âm

0 1

Mức độ tín hiệu gốc

Điều chỉnh mức độ của tín hiệu không có hiệu ứng

0 1

Chiều rộng âm thanh

Điều chỉnh độ rộng của không gian âm thanh

0 1

Độ sâu hòa âm

Điều chỉnh cường độ hòa âm, tạo ra cảm giác rộng cho âm thanh

0 1

Tần số

Điều chỉnh tốc độ dao động của hòa âm

0.1 10

Trộn tín hiệu

Điều chỉnh mức độ trộn giữa âm gốc và âm có hiệu ứng

0 1

Độ trễ trung tâm (mili giây)

Khoảng thời gian trễ giữa các kênh stereo để tạo hiệu ứng hòa âm

0 50

Phản hồi

Điều chỉnh lượng tín hiệu hiệu ứng được quay lại vào tín hiệu gốc

-1 1

Độ sâu

Điều chỉnh độ sâu của hiệu ứng, ảnh hưởng đến cường độ của hiệu ứng xoay pha

0 1

Tần số

Điều chỉnh tốc độ của hiệu ứng hiệu ứng xoay pha

0.1 10

Trộn tín hiệu

Điều chỉnh mức độ trộn giữa tín hiệu gốc và tín hiệu đã qua xử lí

0 1

Tần số trung tâm

Tần số trung tâm của hiệu ứng xoay pha, ảnh hưởng đến tần số bị điều chỉnh

50 5000

Phản hồi

Điều chỉnh lượng phản hồi tín hiệu, tạo cảm giác xoay pha mạnh hoặc nhẹ

-1 1

Thời gian trễ

Điều chỉnh khoảng thời gian trễ giữa âm gốc và âm có hiệu ứng

0 5

Phản hồi độ trễ

Điều chỉnh lượng tín hiệu được quay lại, tạo hiệu ứng lặp lại

0 1

Trộn tín hiệu độ trễ

Điều chỉnh mức độ trộn giữa âm gốc và âm trễ

0 1

Ngưỡng nén

Ngưỡng mức âm thanh sẽ bị nén khi vượt qua ngưỡng này

-60 0

Tỉ lệ nén

Điều chỉnh mức độ nén âm thanh khi vượt qua ngưỡng

1 20

Thời gian tấn công (mili giây)

Khoảng thời gian nén bắt đầu tác dụng sau khi âm thanh vượt ngưỡng

0.1 100

Thời gian thả

Thời gian để âm thanh trở lại trạng thái bình thường sau khi bị nén

10 1000

Ngưỡng giới hạn

Giới hạn mức độ âm thanh tối đa, ngăn không cho vượt quá ngưỡng

-60 0

Thời gian thả

Khoảng thời gian để âm thanh trở lại sau khi bị giới hạn (Mili Giây)

10 1000

Hiệu ứng nhiễu âm

Điều chỉnh mức độ nhiễu âm, tạo hiệu ứng méo tiếng

0 50

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Cường độ âm

Tăng giảm âm lượng của tín hiệu

-60 60

Độ sâu bit

Giảm chất lượng âm thanh bằng cách giảm số bit, tạo hiệu ứng âm thanh bị méo

1 24

Ngưỡng cắt

Cắt bớt tín hiệu vượt quá ngưỡng, tạo âm thanh méo

-60 0

Tệp cài đặt trước

Tên khi lưu tệp

Tải lên tệp cài đặt

Huấn Luyện Mô Hình

Huấn luyện và đào tạo mô hình giọng nói bằng một lượng dữ liệu giọng nói

Tên của mô hình

Tên của mô hình khi huấn luyện(không sử dụng ký tự đặc biệt hay dấu cách)

Tốc độ lấy mẫu

Tốc độ lấy mẫu của mô hình

24k 32k 40k 44.1k 48k

Phiên bản mô hình

Phiên bản mô hình khi huấn luyện

v1 v2

Làm sạch dữ liệu

Xử lí hậu kỳ

Huấn luyện cao độ

Tùy chỉnh bộ tham chiếu

Sử dụng hiệu quả bộ nhớ

Tải lên dữ liệu huấn luyện

Tùy chỉnh cắt âm thanh

Bộ cắt được sử dụng để xử lí tệp âm thanh

Automatic Simple Skip

Chuẩn hóa âm lượng

Chuẩn hóa âm lượng dữ liệu huấn luyện

none pre post

Tên của bộ tham chiếu

Tên được đặt cho bộ tham chiếu đầu ra dùng để kiểm tra mô hình

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Thả âm thanh vào đây

Thông tin phần tiền xử lí trước

Chế độ F0 ONNX

Mở khóa tất cả

Tự động điều chỉnh

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin hybrid

Phương pháp trích xuất HYBRID

Sự kết hợp của hai hoặc nhiều loại trích xuất khác nhau

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 512

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Mức trộn của các phương thức

Mức trộn các cao độ của các phương thức trích xuất với nhau

0.1 1

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Thông tin phần trích xuất dữ liệu

Tổng số kỷ nguyên

Tổng số kỷ nguyên huấn luyện đào tạo

1 10000

Tần suất lưu

Tần suất lưu mô hình khi huấn luyện, giúp việc huấn luyện lại mô hình

1 10000

Thuật toán chỉ mục

Thuật toán tạo chỉ mục

Auto Faiss KMeans

Số lượng cụm thăm dò

Số lượng cụm mà thuật toán sẽ kiểm tra khi tìm kiếm gần đúng. Giá trị thấp sẽ nhanh nhưng kém chính xác, còn giá trị cao chính xác hơn và chậm hơn.

1 64

Lưu mô hình vào bộ nhớ đệm gpu

Lưu mô hình vào đệm

Huấn luyện mô hình với năng lượng RMS

Huấn luyện năng lượng

Kiểm tra huấn luyện mô hình quá sức

Kiểm tra quá sức

Tùy chọn thư mục dữ liệu huấn luyện

Tùy chọn thư mục

Chỉ lưu mô hình D và G mới nhất

Chỉ lưu mới nhất

Lưu mọi mô hình sau mỗi lượt kỷ nguyên

Lưu mọi mô hình

Dọn dẹp và huấn luyện lại từ đầu

Làm sạch huấn luyện

Không dùng huấn luyện trước

Không dùng huấn luyện

Tùy chỉnh huấn luyện trước

Tùy chỉnh huấn luyện

Thư mục chứa dữ liệu

Số tệp im lặng

Số lượng tệp im lặng được sử dụng khi huấn luyện mô hình có thể học các đoạn im lặng

0 10

Chiều dài đoạn (s)

Độ dài của đoạn âm thanh cho phương pháp 'Simple'.

0.5 5

Chiều dài chồng chéo

Độ dài của phần chồng chéo giữa các lát cắt đối với phương pháp 'Simple'.

0 0.4

Ngưỡng huấn luyện quá sức

Đặt số ngưỡng kỷ nguyên tối đa mà bạn muốn mô hình ngừng huấn luyện nếu không phát hiện thấy sự cải thiện nào.

1 100

Kiến trúc mô hình

Nếu bạn muốn hiệu năng với chất lượng âm thanh tốt hãy sử dụng RVC, nếu bạn muốn chất lượng cao hơn hãy thử SVC với mức tiêu thụ điện toán cực lớn có thể làm GPU của bạn trở thành 1 chiếc lò nướng bánh mì.

RVC SVC

Số gpu được sử dụng

Số thứ tự của GPU được sử dụng trong huấn luyện. (Lưu ý: Hiện chỉ GPU NVIDIA mới hỗ trợ huấn luyện đa GPU)

Thông tin của GPU

Thông tin của GPU được sử dụng trong huấn luyện

Số lõi xử lí có thể sử dụng

Số lõi được sử dụng trong việc huấn luyện

1 16

Kích thước lô

Số lượng mẫu xử lí đồng thời trong một lần huấn luyện. Cao có thể gây tràn bộ nhớ

1 64

So sánh phổ Mel của âm thanh thật và âm thanh giả ở nhiều thang độ khác nhau. Giúp mô hình học được chi tiết âm sắc, độ sáng và cấu trúc tần số tốt hơn, từ đó cải thiện chất lượng và độ tự nhiên của giọng nói đầu ra.

Sử dụng tổn thất Mel đa tần

Bắt buộc sử dụng phương pháp giảm LR bằng Cosine Annealing có thể giúp cải thiện chất lượng phát âm.

Sử dụng phương pháp giảm LR Cosine

Bộ mã hóa

Bộ mã hóa giọng nói dùng để phân tích và tổng hợp tín hiệu giọng nói của con người để chuyển đổi giọng nói.

Default: Tùy chọn này là HiFi-GAN-NSF, tương thích với tất cả các RVC.

MRF-HiFi-GAN: Độ trung thực cao hơn.

RefineGAN: Chất lượng âm thanh vượt trội.

BigVGAN: Được cho là có chất lượng siêu cao, nhưng sẽ biến GPU của bạn thành lò nướng.

Default MRF-HiFi-GAN RefineGAN BigVGAN

Khi bật sẽ sử dụng các thuật toán có tính xác định cao, đảm bảo rằng mỗi lần chạy cùng một dữ liệu đầu vào sẽ cho kết quả giống nhau.

Khi tắt có thể chọn các thuật toán tối ưu hơn nhưng có thể không hoàn toàn xác định, dẫn đến kết quả huấn luyện có sự khác biệt giữa các lần chạy.

Thuật toán xác định

Khi bật sẽ thử nghiệm và chọn thuật toán tối ưu nhất cho phần cứng và kích thước cụ thể. Điều này có thể giúp tăng tốc độ huấn luyện.

Khi tắt sẽ không thực hiện tối ưu thuật toán này, có thể làm giảm tốc độ nhưng đảm bảo rằng mỗi lần chạy sử dụng cùng một thuật toán, điều này hữu ích nếu bạn muốn tái tạo chính xác.

Thuật toán điểm chuẩn

Trình tối ưu hóa

Trình tối ưu hóa trong huấn luyện, AdamW là mặc định.

AdamW RAdam AnyPrecisionAdamW AdaBelief AdaBeliefV2

Tên chủ mô hình

Nếu bạn muốn ghi công mô hình hãy nhập tên của bạn vào đây

Tệp mô hình huấn luyện trước D

Tệp mô hình huấn luyện trước G

Thông tin phần huấn luyện

Tệp mô hình

Tệp chỉ mục

Đầu ra tệp khi nén

Tạo Dữ Liệu Huấn Luyện Từ Youtube

Xử lí và tạo tập tin dữ liệu huấn luyện bằng đường dẫn youtube

Tách Nhạc

Làm sạch âm thanh

Bỏ qua giây

Tách vang

Tăng cường suy luận

Xử lí dải cao

Hậu xử lí

Khử tách nhạc

Đường dẫn liên kết đến âm thanh

Đường dẫn liên kết đến âm thanh(sử dụng dấu , để sử dụng nhiều liên kết)

Đầu ra dữ liệu

Đầu ra dữ liệu sau khi tạo xong dữ liệu

Mô hình tách nhạc

Mô hình tách vang

Mô hình khử nhiễu

Chồng chéo

Số lượng chồng chéo giữa các cửa sổ dự đoán

0.25 0.5 0.75 0.99

Kích thước cửa sổ

Kích thước cửa sổ nhỏ hơn sẽ mang lại chất lượng đầu ra cao hơn, nhưng sẽ mất nhiều thời gian xử lí hơn.

320 1024

Số lượng dự đoán

Càng cao chất lượng càng tốt nhưng tốn tài nguyên

1 20

Kích Thước Phân Đoạn

Càng cao chất lượng càng tốt nhưng tốn tài nguyên

32 3072

Kích thước lô

Số lượng mẫu được xử lí cùng một lúc. Việc chia thành các lô giúp tối ưu hóa quá trình tính toán

1 64

Độ dịch chuyển khung

Khoảng thời gian chuyển cửa sổ phân tích khi thực hiện phép biến đổi. Giá trị nhỏ độ chi tiết cao nhưng cần tính toán nhiều hơn

64 8192

Ngưỡng hậu xử lí

Mức độ xử lí hậu kỳ sau khi tách nhạc.

0.1 0.3

Mức độ mạnh tay

Cường độ chiết xuất thân chính.

1 50

Tốc độ lấy mẫu

LƯU Ý: MỘT SỐ ĐỊNH DẠNG KHÔNG HỖ TRỢ TRÊN 48000

8000 11025 12000 16000 22050 24000 32000 44100 48000 88200 96000 176400 192000 352800 384000

Mức độ làm sạch âm thanh

Mức độ của bộ làm sạch âm thanh để lọc giọng hát khi xuất

0 1

Bỏ qua phần đầu

Bỏ qua số giây đầu của âm thanh, dùng dấu , để sử dụng cho nhiều âm thanh

Bỏ qua phần cuối

Bỏ qua số giây cuối của âm thanh, dùng dấu , để sử dụng cho nhiều âm thanh

Thông tin tạo dữ liệu

Tạo Dữ Liệu Tham Chiếu Huấn Luyện

Tạo một tập dữ liệu tham chiếu nhỏ dùng để kiểm tra huấn luyện mô hình thông qua tensorboard

Huấn luyện cao độ

Huấn luyện năng lượng

Tự động điều chỉnh

Tự động đề xuất cao độ

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Tên của bộ tham chiếu

Tên được đặt cho bộ tham chiếu đầu ra dùng để kiểm tra mô hình

Thả âm thanh vào đây

Đầu vào âm thanh

Chế độ F0 ONNX

Mở khóa tất cả

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin hybrid

Phương pháp trích xuất HYBRID

Sự kết hợp của hai hoặc nhiều loại trích xuất khác nhau

Mức trộn của các phương thức

Mức trộn các cao độ của các phương thức trích xuất với nhau

0.1 1

Hòa trộn các tầng của mô hình nhúng lại với nhau nhằm mục đích cải thiện chất lượng âm thanh.

Hòa trộn tầng

Phiên bản mô hình

Phiên bản mô hình khi huấn luyện

v1 v2

Chế độ nhúng

Trích xuất nhúng bằng các mô hình khác nhau

fairseq onnx transformers whisper

Mô hình nhúng

Mô hình được huấn luyện trước để giúp nhúng

hubert_base contentvec_base vietnamese_hubert_base japanese_hubert_base korean_hubert_base chinese_hubert_base portuguese_hubert_base spin-v1 spin-v2 custom

Tên của mô hình

Nếu bạn có mô hình riêng chỉ cần tải và nhập tên của mô hình vào đây

Tầng hòa trộn

1 12

Tỉ lệ hòa trộn

Tỉ lệ hòa trộn các tầng của mô hình nhúng, giá trị càng cao tỉ lệ của tầng càng cao

0.1 1

Thông tin tạo bộ tham chiếu

Tải Xuống Mô Hình

Tải xuống mô hình giọng nói, mô hình huấn luyện trước

Chọn cách tải mô hình

Tải từ đường dẫn liên kết Tải từ kho mô hình csv Tìm kiếm mô hình Tải lên

Đường dẫn liên kết đến mô hình

Tên của mô hình

Kho mô hình

Tên để tìm kiếm

Chọn mô hình đã được tìm kiếm(Bấm vào để chọn)

Thả mô hình vào đây

Chọn cách tải mô hình

Tải từ đường dẫn liên kết Danh sách mô hình Tải lên

Đường dẫn liên kết đến mô hình huấn luyện trước D

Đường dẫn liên kết đến mô hình huấn luyện trước G

Chọn mô hình huấn luyện trước

Chọn mô hình huấn luyện trước để cài đặt về

Tốc độ lấy mẫu của mô hình

Thả mô hình huấn luyện trước G, D vào đây

Dung Hợp Hai Mô Hình Với Nhau

Dung hợp hai mô hình giọng nói lại với nhau để tạo thành một mô hình duy nhất

Tên của mô hình

Tệp mô hình 1

Tệp mô hình 2

Tệp mô hình 1

Tệp mô hình 2

Tỉ lệ mô hình

Chỉnh hướng về bên nào sẽ làm cho mô hình giống với bên đó

0 1

Đầu ra mô hình

Đọc Thông Tin Của Mô Hình

Đọc các thông tin được ghi trong mô hình

Thả mô hình vào đây

Tệp mô hình

Thông Tin Mô Hình

Chuyển Đổi Mô Hình PYTORCH Sang ONNX

Chuyển đổi mô hình RVC từ dạng pytorch sang onnx để tối ưu cho việc chuyển đổi âm thanh

Thả mô hình vào đây

Tệp mô hình

Đầu ra mô hình

Chuyển đổi mô hình SVC sang định dạng dự án có thể đọc

Chuyển đổi các mô hình SVC được huấn luyện từ Sovits SVC 4.1 thành định dạng mà dự án có thể đọc được. Hiện tại chỉ hỗ trợ mô hình với cấu hình gốc.

Xóa các tệp gốc khi hoàn thành

Thả mô hình vào đây

Thả tệp cấu hình vào đây

Tệp mô hình

Đường dẫn tệp cấu hình SVC

Tên của mô hình

Đầu ra mô hình

Trích Xuất Cao Độ

Trích xuất cao độ F0 nhằm mục đích sử dụng cho suy luận chuyển đổi âm thanh

Thả âm thanh vào đây

Đầu vào âm thanh

Chế độ F0 ONNX

Mở khóa tất cả

Tự động điều chỉnh

Tự động đề xuất cao độ

Phương pháp trích xuất

Phương pháp để trích xuất dữ liệu

mangio-crepe-full crepe-full fcpe rmvpe harvest-stonemask pyin

Dịch chuyển cao độ

Khuyến cáo: chỉnh lên 12 để chuyển giọng nam thành nữ và ngược lại

-24 24

Mức độ điều chỉnh

Mức độ điều chỉnh tự động

0 1

Ngưỡng tần số ước tính

Ngưỡng tần số ước tính cao độ, đối với mô hình nam sử dụng ở mức 155.0 và mô hình nữ với mức 255.0

50 1200

Lọc trung vị

Nếu giá trị lớn hơn ba sẽ áp dụng tính năng lọc trung vị. Giá trị đại diện cho bán kính bộ lọc và có thể làm giảm hơi thở hoặc tắt thở.

0 7

Đường dẫn đầu vào âm thanh

File

Image

Tạo Tệp SRT Từ Tệp Âm Thanh

Sử dụng Whisper để chuyển đổi tệp âm thanh sang văn bản và tạo tệp srt

Nội dung tệp SRT

Ngôn ngữ đầu vào

Đặt ngôn ngữ đầu vào để tránh mô hình xác nhận ngôn ngữ sai

Kích thước mô hình Whisper

Các mô hình large có thể đưa ra các đầu ra kì lạ

tiny tiny.en base base.en small small.en medium medium.en large-v1 large-v2 large-v3 large-v3-turbo

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Đường dẫn tệp SRT đầu ra

Thả âm thanh vào đây

Đầu vào âm thanh

Tệp SRT đầu ra

Phân tích Thông Tin Âm Thanh

Phân tích thông tin của tệp âm thanh

Đường dẫn đầu vào âm thanh

Nhập đường dẫn đến tệp âm thanh

Thả âm thanh vào đây

Đầu vào âm thanh

Thông tin đầu ra

Image

Tùy Chỉnh Thêm

Tùy chỉnh thêm một số tính năng của dự án

Ngôn ngữ

Ngôn ngữ được hiển thị trong dự án (Khi thay đổi cần khởi động lại hệ thống để áp dụng)

Chủ đề

Loại Chủ đề của giao diện được hiển thị (Khi thay đổi cần khởi động lại hệ thống để áp dụng)

Phông chữ

Truy cập vào Google Font để lựa phông (Khi thay đổi cần khởi động lại hệ thống để áp dụng).

Sử dụng BF16 cho huấn luyện.

Sử dụng TF32 cho huấn luyện.

Độ chính xác

Độ chính xác của suy luận và huấn luyện mô hình

Lưu ý: CPU, OPENCL Không hỗ trợ fp16

fp16 fp32

Lệnh

Sử dụng các lệnh phụ trợ đễ hỗ trợ phát triển.

Tên của mô hình

Tên của mô hình khi huấn luyện(không sử dụng ký tự đặc biệt hay dấu cách)

Bấm vào đây nếu bạn muốn bị Rick Roll:) ---> RickRoll

Vui lòng không sử dụng Dự án với bất kỳ mục đích nào vi phạm đạo đức, pháp luật, hoặc gây tổn hại đến cá nhân, tổ chức...

Trong trường hợp người sử dụng không tuân thủ các điều khoản hoặc vi phạm, tôi sẽ không chịu trách nhiệm về bất kỳ khiếu nại, thiệt hại, hay trách nhiệm pháp lý nào, dù là trong hợp đồng, do sơ suất, hay các lý do khác, phát sinh từ, ngoài, hoặc liên quan đến phần mềm, việc sử dụng phần mềm hoặc các giao dịch khác liên quan đến phần mềm.

Built with Gradio logo