パラメータ名 モデル内部の役割 音声的な影響・特徴 ブレンド比率の調整で起こること
enc_q
(Encoder Quantizer) 音声を離散的特徴(音素や発音構造)に変換する層 発音・口の形・言語的癖・声の芯の輪郭 高くするとAモデルの発音傾向・舌の動き・言語感を継承
低くするとBモデルの発音やリズムに寄る
flow
(Flow Module) 音素系列を自然な波形生成に整える層(時間的変形) 話し方・イントネーション・滑らかさ・抑揚 高くするとAの「しゃべり方」やテンポが強くなる
低くするとBの滑舌・抑揚に近くなる
dec
(Decoder / Vocoder前段) 音声波形を生成する層 音質・マイク感・音の密度 高くするとAの録音質・明るさ・空気感
低くするとBの質感・ノイズ特性に寄る
emb_g
(Speaker Embedding) 話者IDを表す潜在ベクトル 声の“誰っぽさ”・声帯特性 高くするとAの声質(声色)が強まる低くするとBの声に似てくる
dec_postnet
(Post Decoder) Vocoder出力の高域補正・ノイズ除去 音圧・高域の抜け・仕上げの滑らかさ 高くするとAの音圧感・明瞭さ
低くするとBの落ち着いたトーンになる

実用例

目的 設定例 解説
🎙️ Aモデルの発音を活かして、Bの声質にしたい enc_q=0.8, flow=0.7, dec=0.3, emb_g=0.3, dec_postnet=0.4 発音部分(enc_q, flow)をA寄り → 話し方・イントネーションはAのまま。声質(emb_g, dec)はB寄りで“声だけ入れ替え”。
🎵 Bモデルの音質(録音環境・ハイエンド)を取り入れたい enc_q=0.6, flow=0.6, dec=0.8, emb_g=0.7, dec_postnet=0.9 発音はAをベースに、Bの音質と明瞭さを融合。スタジオ感・抜けの良さを強調。
🗣️ Aの声質で、Bの発音(リズム)にしたい enc_q=0.3, flow=0.3, dec=0.8, emb_g=0.9, dec_postnet=0.8 flowとenc_qをB寄りに → 発音リズム・しゃべり方がBのものに。声色はAを維持。
🪄 自然で中間的なブレンド(ハーフ) enc_q=0.5, flow=0.5, dec=0.5, emb_g=0.5, dec_postnet=0.5 AとBの中間。特定方向に寄らない汎用ブレンド。テスト用途にも◎。
🎧 発音はA、音質もA、でも高域の明るさだけBから enc_q=0.9, flow=0.9, dec=0.7, emb_g=0.9, dec_postnet=0.3 dec_postnetをB寄りにすると高域のヌケだけ変化。微妙な「明るさ」「透明感」を調整できる。