额度、Token 与限流说明
理解 Token、请求频率和额度消耗,有助于更稳定地接入 AI API 服务。
常见指标
| 指标 | 含义 |
|---|---|
| RPM | 每分钟请求数限制。 |
| TPM | 每分钟 Token 数限制。 |
| 输入 Token | 提示词、上下文和请求内容消耗。 |
| 输出 Token | 模型生成内容消耗。 |
| TTFT | 首个 Token 返回时间,长上下文请求通常更高。 |
接入建议
正式业务前先做低并发测试,观察请求成功率、首包时间、平均耗时和额度消耗。长上下文、图片、工具调用和高并发请求会显著增加耗时。
理解 Token、请求频率和额度消耗,有助于更稳定地接入 AI API 服务。
| 指标 | 含义 |
|---|---|
| RPM | 每分钟请求数限制。 |
| TPM | 每分钟 Token 数限制。 |
| 输入 Token | 提示词、上下文和请求内容消耗。 |
| 输出 Token | 模型生成内容消耗。 |
| TTFT | 首个 Token 返回时间,长上下文请求通常更高。 |
正式业务前先做低并发测试,观察请求成功率、首包时间、平均耗时和额度消耗。长上下文、图片、工具调用和高并发请求会显著增加耗时。