Embeddings and Positional Encoding

1 / 6

Token embeddings

2 / 6

Only rows that were used get gradients. Unused tokens keep their weights unchanged.

3 / 6

4 / 6

input[i] = token_emb[i] + pos_emb[i]

Shape: (T, D)

5 / 6

We use character-level tokens in this pack for simplicity.

6 / 6

Use arrow keys or click edges to navigate. Press H to toggle help, F for fullscreen.