额度、Token 与限流说明

理解 Token、请求频率和额度消耗,有助于更稳定地接入 AI API 服务。

常见指标

指标含义
RPM每分钟请求数限制。
TPM每分钟 Token 数限制。
输入 Token提示词、上下文和请求内容消耗。
输出 Token模型生成内容消耗。
TTFT首个 Token 返回时间,长上下文请求通常更高。

接入建议

正式业务前先做低并发测试,观察请求成功率、首包时间、平均耗时和额度消耗。长上下文、图片、工具调用和高并发请求会显著增加耗时。