NAM WaveNet Configurations

REVySTD

Colab / Jupyter

TONE3000

data_config = {
    "train": {
        "x_path": "drive/MyDrive/x_train.wav",
        "y_path": "drive/MyDrive/y_train.wav",
        "ny": 8192
    },
    "validation": {
        "x_path": "drive/MyDrive/x_test.wav",
        "y_path": "drive/MyDrive/y_test.wav",
        "ny": None
    },
    "common": {
        "delay": int(input("What is the latency (in samples) of your reamp? "))
    }
}
model_config = { # rickard@tutanota.com
    "net": {
        "name": "WaveNet",
        "config": {
  "layers_configs": [
    {
      "input_size": 1,
      "condition_size": 1,
      "channels": 8,
      "head_size": 8,
      "kernel_size": 5,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 8,
      "channels": 8,
      "head_size": 8,
      "kernel_size": 5,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 8,
      "channels": 8,
      "head_size": 8,
      "kernel_size": 5,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 8,
      "channels": 8,
      "head_size": 8,
      "kernel_size": 5,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 8,
      "channels": 8,
      "head_size": 1,
      "kernel_size": 5,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": True
    }
  ],
  "head_scale": 0.99
        }
    },
    "loss": {
        "val_loss": "esr",
        "pre_emph_mrstft_weight": 0.0002,
        "pre_emph_mrstft_coef": 0.85
    },
    "optimizer": {
    "lr": 0.002,
    },
            "lr_scheduler": {
                "class": "ExponentialLR",
                "seed": 42,
                "kwargs": {"gamma": 0.9985},
                }
    }
learning_config = {
    "train_dataloader": {
        "batch_size": 16,
        "shuffle": True,
        "pin_memory": True,
        "drop_last": True,
        "num_workers": 8,
    },
    "val_dataloader": {},
    "trainer": {
        "accelerator": "gpu",
        "devices": 1,
        "max_epochs": 1500
    }
}

{
"head_scale": 0.99,
"layers_configs": [
{
"gated": false,
"channels": 8,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 8,
"activation": "Tanh",
"input_size": 1,
"kernel_size": 5,
"condition_size": 1
},
{
"gated": false,
"channels": 8,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 8,
"activation": "Tanh",
"input_size": 8,
"kernel_size": 5,
"condition_size": 1
},
{
"gated": false,
"channels": 8,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 8,
"activation": "Tanh",
"input_size": 8,
"kernel_size": 5,
"condition_size": 1
},
{
"gated": false,
"channels": 8,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 8,
"activation": "Tanh",
"input_size": 8,
"kernel_size": 5,
"condition_size": 1
},
{
"gated": false,
"channels": 8,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": true,
"head_size": 1,
"activation": "Tanh",
"input_size": 8,
"kernel_size": 5,
"condition_size": 1
}
]
}

REVyHI

Colab / Jupyter

TONE3000

data_config = {
    "train": {
        "x_path": "drive/MyDrive/x_train.wav",
        "y_path": "drive/MyDrive/y_train.wav",
        "ny": 8192
    },
    "validation": {
        "x_path": "drive/MyDrive/x_test.wav",
        "y_path": "drive/MyDrive/y_test.wav",
        "ny": None
    },
    "common": {
        "delay": int(input("What is the latency (in samples) of your reamp? "))
    }
}
model_config = { # rickard@tutanota.com
    "net": {
        "name": "WaveNet",
        "config": {
  "layers_configs": [
    {
      "input_size": 1,
      "condition_size": 1,
      "channels": 10,
      "head_size": 10,
      "kernel_size": 6,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 10,
      "channels": 10,
      "head_size": 10,
      "kernel_size": 6,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 10,
      "channels": 10,
      "head_size": 10,
      "kernel_size": 6,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 10,
      "channels": 10,
      "head_size": 10,
      "kernel_size": 6,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": False
    },
    {
      "condition_size": 1,
      "input_size": 10,
      "channels": 10,
      "head_size": 1,
      "kernel_size": 6,
      "dilations": [
        1024,
        256,
        64,
        16,
        4,
        1
      ],
      "activation": "Tanh",
      "gated": False,
      "head_bias": True
    }
  ],
  "head_scale": 0.99
        }
    },
    "loss": {
        "val_loss": "esr",
        "pre_emph_mrstft_weight": 0.0002,
        "pre_emph_mrstft_coef": 0.85
    },
    "optimizer": {
    "lr": 0.002,
    },
            "lr_scheduler": {
                "class": "ExponentialLR",
                "seed": 42,
                "kwargs": {"gamma": 0.9985},
                }
    }
learning_config = {
    "train_dataloader": {
        "batch_size": 16,
        "shuffle": True,
        "pin_memory": True,
        "drop_last": True,
        "num_workers": 8,
    },
    "val_dataloader": {},
    "trainer": {
        "accelerator": "gpu",
        "devices": 1,
        "max_epochs": 1500
    }
}

{
"head_scale": 0.99,
"layers_configs": [
{
"gated": false,
"channels": 10,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 10,
"activation": "Tanh",
"input_size": 1,
"kernel_size": 6,
"condition_size": 1
},
{
"gated": false,
"channels": 10,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 10,
"activation": "Tanh",
"input_size": 10,
"kernel_size": 6,
"condition_size": 1
},
{
"gated": false,
"channels": 10,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 10,
"activation": "Tanh",
"input_size": 10,
"kernel_size": 6,
"condition_size": 1
},
{
"gated": false,
"channels": 10,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": false,
"head_size": 10,
"activation": "Tanh",
"input_size": 10,
"kernel_size": 6,
"condition_size": 1
},
{
"gated": false,
"channels": 10,
"dilations": [
1024,
256,
64,
16,
4,
1
],
"head_bias": true,
"head_size": 1,
"activation": "Tanh",
"input_size": 10,
"kernel_size": 6,
"condition_size": 1
}
]
}

(C)(R) 20251213, R Gerthsson