AI 大模型本地部署：Ollama + DeepSeek / Qwen 实战

为什么在 VPS 上跑 AI？

把 AI 跑在自己的 VPS 上有三个好处：数据不离开你的服务器（隐私）、不需要 API 密钥（省钱）、7×24 在线（随时用）。VPS 的 CPU 推理速度虽然慢于 GPU，但 1-4B 的量化模型已经可以做到实用。

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

选模型（基于内存限制）

内存	推荐模型	能力水平
2GB	qwen3:0.6b	基础对话
4GB	qwen3:1.7b / minicpm5	一般问答
8GB	qwen3:4b	良好（≈Qwen2.5-7B）
16GB	qwen3:8b	优秀（≈Qwen2.5-14B）

基本使用

# 拉取模型
ollama pull qwen3:4b

# 命令行对话
ollama run qwen3:4b

# API 调用（兼容 OpenAI 格式）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3:4b","messages":[{"role":"user","content":"你好"}]}'

搭 Web 界面（Open WebUI）

docker run -d --name open-webui   -p 3000:8080   -v open-webui:/app/backend/data   ghcr.io/open-webui/open-webui:main

访问 http://你的IP:3000，注册账号，选择模型，跟 ChatGPT 几乎一样的体验。

性能优化

模型加载需要几十秒，用 OLLAMA_KEEP_ALIVE=24h 让模型常驻内存
加 swap（至少同等于模型大小）防止 OOM
设置 num_ctx=4096 或 8192 控制上下文窗口，越长越吃内存