什么是token？理解AI工作方式的第一步

基本概念

Token 是 AI 处理信息时使用的基本单位。

Token有点像：

文章的字数
网络流量的MB、GB
时间中的“秒”

AI在处理文字时，不会以字或者单词为单位，而是token。

英文中，token通常是单词或词根。比如“unbelievably”这个词，AI可能会拆成“un-”（否定前缀）、“believe”（相信）和“-ably”（副词后缀）共3个token。也有消息指出，行业惯例一般是3-4个字符为1个token（1个字母为1个字符）。

中文token怎么计算

中文环境中，1个汉字约等于1个token。例如“人工智能”可能会被拆分为“人工”，“智能”，也可能会被拆分为“人”，“工”，“智”，“能”。不同AI公司对文字的拆分方式可能不同，可以按1000字中文约等于800至1300个token进行估算（一般情况下，1个标点符号需要消耗1个token，同时，空格也可能会计入token）。

另外，每个汉字使用的 token 数目也可能不同。例如，单个汉字“夔”可能会被拆分为多个 token，而像“智能”这样短且常见的短语则可能会使用单个 token。

Token按量计费

下文特指付费的AI接口（API）服务，免费AI工具不需要按token付费（免费AI同样消耗token，但不收费）。

一些服务商会提供AI模型“调用”服务，如果我想在个人电脑上安装一个智能助理，但是电脑性能较差，运行不了AI模型，这时就可以通过网络，远程调用服务商提供的AI接口，来“租用”AI大模型。这种使用方式称为API（接口）调用。

使用这类API服务时，服务商会根据实际的token消耗数进行计费。按最简单的情况计算，Token消耗数为输入token+输出token之和，例如你发送给AI模型的内容为1000 tokens，AI回复的内容为5000 tokens，那么这一轮对话总共消费6000 tokens。

这只是单次对话下最简单的计算方式，总Token消耗数一般还会包含上下文token和推理token。

上下文token：一个聊天窗口中，如果用户与AI进行了多次对话，那么每次对话时，AI都会“回忆”一下前面的对话内容。例如第一次对话时用户问AI“我不小心闯红灯了，会面临什么处罚”；第二次对话，用户继续提问“我接下来应该怎么查询罚单”，这时，如果AI不“回忆”前面第一次对话的内容，根本不知道用户说的“罚单”指交通罚单还是其他罚单。

如果用户发起第3次对话，AI将回忆第1次+第2次对话内容。这里的上下文token就是指AI“回忆内容”所消耗的token，需要回忆的内容越多，上下文token的消耗也就越多。

推理token：大模型一般都具备推理能力，推理过程（思考过程）同样会消耗token。

所以，当对话次数较多，或提问的问题较复杂时，这些“回忆”过程和推理过程会产生不少费用。

此外，如果有图片、音频、视频等内容，也会计入token。

图片计算方式例如：图片中每32*32像素对应1个token；

音频计算方式例如：Token消耗数=音频时长（单位：秒）* 25；

视频计算方式例如：视频帧数*每帧图像块数量，每32*32像素为1个图像块。

字词拆分没有统一标准，如果某个AI厂商将每个字母都单独作为1个token，用户岂不是要承担成倍费用？

AI厂商几乎不可能这么做：

（1）Token越碎，模型越笨。现有的AI模型都有记忆力上限，用户跟AI对话时，AI短时间内的记忆力是以token为单位的，处理一篇1000字的文章，如果用“字”作token，可能需要1200个token，而如果用“词”作token，可能只需要800个。后者可以让AI记住更多内容，在处理内容较多的任务时，不容易出现“读了下文，忘记上文”的情况。

（2）成本暴涨，竞争力下滑。如果给大模型一盒20个碎片的拼图，和一盒只有5个碎片的拼图，后者肯定更容易被准确合成。Token过于碎片化会直接导致模型思考（性能）成本暴涨。另外，用户调用AI模型的性价比变低也会使AI厂商失去竞争力。