深入解析 Token：人工智能的语言与货币

在每一款人工智能应用的底层，都有算法在以其独特的语言处理数据，这种语言建立在一个由 Token 构成的基本单元之上。

Token 是将大段信息分解后得到的微小数据单元。AI 模型通过处理 Token 来学习它们之间的关系，从而获得预测、生成和推理等能力。Token 的处理速度越快，模型的学习和响应速度也就越快。

一种新型数据中心——AI 工厂——专为加速 AI 工作负载而设计，能高效处理 Token，将它们从 AI 的语言转换为 AI 的货币，也就是“智能”。

借助 AI 工厂，企业可以利用最新的全栈计算解决方案，以更低的计算成本处理更多 Token，👉 探索更多智能优化策略，为客户创造更多价值。例如，在某些案例中，通过集成软件优化并采用最新一代 GPU，相比上一代 GPU 上未经优化的流程，单 Token 处理成本降低至 1/20，并在短短四周内实现了 25 倍的收入增长。

高效处理 Token 的过程，实质上就是 AI 工厂在生产智能——这场由 AI 驱动的新工业革命中最宝贵的资产。

什么是 Token 化？

无论 Transformer AI 模型处理的是文本、图像、音频、视频还是其他类型的数据，它都会首先将数据转换为 Token。这个过程被称为“Token 化”。

高效的 Token 化有助于减少训练和推理所需的计算资源。存在多种 Token 化的方法，针对特定数据类型和用例定制的 Token 化器可能只需要较小的词汇表，这意味着需要处理的 Token 数量更少。

对于大语言模型（LLM）而言，短单词可能仅对应一个 Token，而较长的单词可能会被拆分为两个或更多 Token。

例如，单词“darkness”可能会被拆分为两个 Token：“dark”和“ness”，每个 Token 都对应一个数字表示，例如 217 和 655。相反的单词“brightness”也会被类似地拆分为“bright”和“ness”，对应的数字可能是 491 和 655。

在这个例子中，“ness”共享的数值可以帮助 AI 模型理解这些单词之间可能存在某种关联。在其他情况下，根据上下文含义的不同，同一个单词也可能被赋予不同的数值表示。

例如，单词“lie”既可以指“躺下”，也可以指“说谎”。在训练过程中，模型会学习区分这两种含义，并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型，Token 化器可以帮助将像素或体素等视觉输入映射为一系列离散的 Token。

处理音频的模型可能会将短音频片段转换为频谱图——一种声波随时间变化的可视化表示，然后将其作为图像进行处理。其他音频应用则可能侧重于捕捉包含语音的声音片段的含义，并使用另一种能够捕捉语义 Token 的 Token 化器，这些 Token 代表语言或上下文信息，而不仅仅是声学信息。

Token 在 AI 训练中如何发挥作用？

训练 AI 模型始于对训练数据集的 Token 化。

根据训练数据的规模，Token 的数量可能达到数十亿甚至数万亿。根据预训练扩展定律，用于训练的 Token 越多，AI 模型的质量就越好。

在模型预训练过程中，它会接受测试：模型被输入一组样本 Token，并被要求预测下一个 Token。根据预测正确与否，模型会自我更新以改进下一次的猜测。这个过程不断重复，直到模型从错误中学习并达到目标精度水平，即所谓的“模型收敛”。

预训练之后，模型通过后训练继续改进。它们会在与部署用例相关的 Token 子集上继续学习。这些可能是包含法律、医学或商业领域特定信息的 Token，或者是帮助模型适应特定任务（如推理、聊天或翻译）的 Token。最终目标是让模型能够生成正确的 Token，根据用户的查询提供准确的响应——这种技能更广为人知的名称是“推理”。

Token 在 AI 推理与思考中扮演什么角色？

在推理阶段，AI 接收一个提示（根据模型的不同，可能是文本、图像、音频、视频、传感器数据甚至基因序列），并将其转换为一串 Token。模型处理这些输入 Token，将其响应生成为一组 Token，然后将其转换回用户期望的格式。

输入和输出的语言可以不同，例如将英语翻译成日语的模型，或将文本提示转换为图像的模型。

为了理解完整的提示，AI 模型必须能够同时处理多个 Token。许多模型都有一个指定的限制，称为“上下文窗口”——不同的用例需要不同大小的上下文窗口。

一个能同时处理几千个 Token 的模型或许可以处理一张高分辨率图像或几页文本。而具备数万 Token 上下文长度的另一模型，可能可以总结一整部小说或一小时的播客内容。有些模型甚至提供百万 Token 级别的上下文长度，允许用户输入海量数据源供 AI 分析。

推理 AI 模型作为 LLM 的最新进展，通过以不同于以往的方式处理 Token，能够应对更复杂的查询。在这里，除了输入和输出 Token 之外，模型在思考如何解决给定问题的几分钟或几小时内，还会生成大量“推理 Token”。

这些推理 Token 允许模型对复杂问题给出更好的回答，就像一个人如果有时间思考问题，就能给出更出色的答案一样。相应的，每个提示所需的 Token 数量可能比传统 LLM 的单次推理过程多出 100 倍以上——这是“测试时扩展”（也称为“长思考”）的一个例子。

Token 如何驱动 AI 经济学？

在预训练和后训练阶段，Token 等同于对智能的投资；在推理阶段，它们则驱动着成本与收入。因此，随着 AI 应用的激增，新的 AI 经济学原理正在浮现。

AI 工厂的构建旨在支持高吞吐量的推理，通过将 Token 转化为可货币化的洞察来为用户生产智能。这就是为什么越来越多的 AI 服务根据消耗和生成的 Token 数量来衡量其产品价值，并根据模型的 Token 输入和输出速率提供定价计划。

一些 Token 定价计划为用户提供可在输入和输出之间共享的固定数量的 Token。根据这些 Token 限制，客户可以使用只消耗几个 Token 的简短文本提示，来生成需要数千个 Token 的冗长 AI 响应；或者用户也可以将大部分 Token 用于输入，向 AI 模型提供一组文档，并将其总结为几个要点。

为了服务大量并发用户，一些 AI 服务还设置了 Token 限制，即单个用户每分钟生成的最大 Token 数量。

Token 也定义了 AI 服务的用户体验。“首 Token 时间”（用户提交提示到 AI 模型开始响应之间的延迟）和“Token 间延迟”（后续输出 Token 的生成速率）决定了最终用户如何体验 AI 应用的输出。

每个指标都涉及权衡，而正确的平衡取决于具体用例。

对于基于 LLM 的聊天机器人，缩短首 Token 时间有助于保持对话节奏，避免不自然的停顿，从而提高用户参与度。优化 Token 间延迟可以使文本生成模型匹配普通人的阅读速度，或使视频生成模型达到所需的帧率。对于进行长思考和研究的 AI 模型，则更侧重于生成高质量的 Token，即使这会增加延迟。

开发者必须在这些指标之间取得平衡，以提供高质量的用户体验和最优的吞吐量——即 AI 工厂能够生成的 Token 数量。

常见问题

Token 在 AI 中的基本作用是什么？
Token 是 AI 模型处理信息的基本单元，无论是文本、图像还是声音，都需要先转换成 Token 才能被模型理解和处理。它们承载语义和关系信息，是模型学习和生成的基础。

为什么 Token 的处理速度如此重要？
更快的 Token 处理速度意味着模型可以更高效地学习和响应，直接降低计算成本并提升用户体验。这对于实时应用和高并发服务尤为关键，直接影响 AI 服务的可行性与经济性。

不同类型的数据是如何被 Token 化的？
文本通常根据词汇或子词进行分割；图像和视频可能通过分割区域或视觉词元；音频则可转为频谱图或语义单元。每种数据类型有最适合的 Token 化方法，以保持信息完整性并提升处理效率。

什么是上下文窗口？为什么它很重要？
上下文窗口是指模型单次处理所能容纳的 Token 数量上限。它决定了模型能否理解长文档、复杂查询或大数据源，是评估模型能力的关键指标之一。

Token 如何影响 AI 服务的成本？
许多 AI 服务按 Token 使用量计费，输入和输出 Token 数量直接影响成本。高效利用 Token、优化提示长度和输出需求，有助于控制使用费用并提升投资回报。

企业在构建 AI 工厂时应考虑哪些因素？
需平衡计算基础设施的吞吐量、延迟和成本，选择适合的软件栈与硬件加速方案，👉 查看实时优化工具，并持续优化 Token 处理效率以支撑大规模智能生产。

通过深入理解并优化 Token 在不同任务中的使用，开发者、企业乃至最终用户都能从其 AI 应用中获取最大价值。