火山引擎是字节跳动旗下的云服务平台。前些天,火山引擎也上线了 DeepSeek-r1、v3 模型(包括满血版和一些蒸馏版),并且还向用户赠送了 50 万 Token 的免费额度。用完后“续杯”的价格也不贵- 目前 DeepSeek-R1 满血版仍然半价优惠-每 100 万 Token 输入 2 元、输出 8 元。更重要的是,火山引擎不仅将模型的初始吞吐量(TPM)提升至500万,还成功将推理延迟压缩至 30 毫秒,极大增强了用户体验与应用的灵活性。在官网动辄“服务器繁忙,请稍后重试”以及其他商家对话卡顿甚至失败的情况下,火山引擎的 Deepseek-R1 在线推理服务恰逢其时。本文不做过多介绍,仅将如何开通火山引擎 deepseek 推理服务和第三方应用接入进行记录。
首先,点击「这里」即可打开火山方舟。在火山方舟首页,直接点击『马上体验』,进入登录页,没有注册火山引擎的可以在在此过程中注册。
登录后的首页为『模型广场』,我们点击左侧导航栏中的『在线推理』开始接入 deepseek-r1 并创建 api-key。
在『在线推理』页面,点击『创建推理接入点』,开始创建接入点。『创建推理接入点』按钮会有免费 token 提示,火山引擎每个后付费模型赠送 50 万 token。赠送量很少,只适合尝鲜体验。
接下来填写接入信息,以下为填写完成状态。注意两点:
1. 模型选择:点击『添加模型』后,在弹出的对话框中切换到 deepseek,然后选择模型、版本,最后点击右下角的『确定』。
2. 开通模型:模型添加后,我们还需要开通。点击提示信息右侧的『立即开通』。然后选中需要开通的模型,并勾选同意协议条款,点右下角的『提交』。
开通模型之后,就可以在接入点信息页面点击『提交』以创建模型接入点。创建完成后,会在接入点列表中列出。
左侧的接入点名称就是在 cline、沉浸式翻译要填写的 Model ID。API Key 我们需要点击右侧的『API 调用』创建并复制出来。在 API 调用页,无论是否已创建 API Key,都可以点击『选择 API Key 并复制』。尚未创建 API Key 的可以在对话框中尽心刚创建,火山引擎的 API Key 并不会按照大模型单独进行格式设置,不会是 “sk-xxxxxx” 这样的 OpenAI 兼容“样式”,而是火山引擎/字节统一的格式。
获取 API Key 之后,就可以在第三方应用(如 vscode cline、AI 翻译插件等)中填入了。
API Provider:OpenAI 兼容
Base-URL:https://ark.cn-beijing.volces.com/api/v3
API Key:你的 api key
Model ID:你的接入点名称(ep-2025nnmmm-xxxxx)
这样就可以在第三方应用中使用火山方舟提供的满血版、无截断 Deepseek R1 推理服务了,火山引擎部署的 deepseek v3/r1 应该是响应最快的了,并且不会截断推理过程。但是,50 万 token 无论是翻译还是编程,很快就会消耗完,务必实时监测 token 消耗情况。以下是一个简单的代码块搜索,主要是 cline 发送的输入 token 过多。作者个人认为,新版的 cline 不适合接入推理模型。
另外需要特别提示的是,50 万 token 消耗很快,字节会把思维链(推理过程)也计入,所以赠送的 toekn 秒归 0,控制台显示会有延迟。作者接入 cline 仅一天,就额外产生了费用,而且字节的 tokens 单价很高。停止、删除火山方舟接入点,继续忍受 NVidia NIM 和「硅基流动」。
评论前必须登录!
立即登录 注册