为什么在 VPS 上跑 AI?

把 AI 跑在自己的 VPS 上有三个好处:数据不离开你的服务器(隐私)、不需要 API 密钥(省钱)、7×24 在线(随时用)。VPS 的 CPU 推理速度虽然慢于 GPU,但 1-4B 的量化模型已经可以做到实用。

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

选模型(基于内存限制)

内存推荐模型能力水平
2GBqwen3:0.6b基础对话
4GBqwen3:1.7b / minicpm5一般问答
8GBqwen3:4b良好(≈Qwen2.5-7B)
16GBqwen3:8b优秀(≈Qwen2.5-14B)

基本使用

# 拉取模型
ollama pull qwen3:4b

# 命令行对话
ollama run qwen3:4b

# API 调用(兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3:4b","messages":[{"role":"user","content":"你好"}]}'

搭 Web 界面(Open WebUI)

docker run -d --name open-webui   -p 3000:8080   -v open-webui:/app/backend/data   ghcr.io/open-webui/open-webui:main

访问 http://你的IP:3000,注册账号,选择模型,跟 ChatGPT 几乎一样的体验。

性能优化

  • 模型加载需要几十秒,用 OLLAMA_KEEP_ALIVE=24h 让模型常驻内存
  • 加 swap(至少同等于模型大小)防止 OOM
  • 设置 num_ctx=4096 或 8192 控制上下文窗口,越长越吃内存