GPT-2 (124 M parameters, 2019-11-05)

Vocabulary size (V): 50,257
Hidden size (d_model): 768
Context length (n_ctx): 1024
Q V size: (d_head): 64
Attention heads (h): 12
FFN inner size (d_ff): 3072
Layers (L): 12

Table of contents

Language Models are Unsupervised Multitask Learners (GPT-2 paper)

cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

GPT-2 implementation

GPT-2 implementation in PyTorch

nanoGPT

github.com/karpathy/nanoGPT

GPT-2 variant

GPT-2 medium (355 M parameters)

GPT-2 large (774 M parameters)

GPT-2 XL

 Articles by others on the same topic (0)

There are currently no matching articles.

  See all articles in the same topic Create my own version