Skip to main content

总结

Token 是 LLM 读取、理解和生成文本时使用的最小文本单位。

解释

LLM Token 是大语言模型处理文本的基本单位,可以理解为模型眼里的“文字片段”。 它可能是:
  • 一个字:
  • 一个词:苹果
  • 一个词的一部分:Transformer
  • 一个标点:
  • 一个空格或换行
例如:
我喜欢人工智能
可能会被切成:
我 / 喜欢 / 人工智能
因此这一句话里就有三个Token 英文:
unbelievable
可能会被切成:
un / believable
LLM 并不是直接理解整句话,而是先把文本切成 token,再把 token 转成数字向量进行计算。