‌Ollama本地部署大模型

前言

随着人工智能技术的快速发展，大语言模型(LLM)已经成为AI领域的重要组成部分。虽然云端服务如ChatGPT、Claude等提供了便捷的访问方式，但本地部署大模型具有隐私保护、离线使用、降低成本等诸多优势。本文将详细介绍如何使用Ollama在本地部署和运行各种大模型，特别是DeepSeek系列模型。

Ollama简介

Ollama是一个强大的开源框架，旨在为本地运行大型语言模型提供便利。它不仅仅是简单地封装llama.cpp，而是将繁多的参数与对应的模型打包，提供了简洁的命令行工具和稳定的服务端API，极大地简化了大模型的本地部署流程。

Ollama的主要特点

简单易用：通过简单的命令即可下载和运行各种大模型
支持多种模型：包括Llama 2、Mistral、DeepSeek等众多开源模型
GPU加速：自动利用GPU进行加速（如果设备支持）
API接口：提供REST API，方便与其他应用集成
轻量级：在CPU环境也可高效完成推理

安装Ollama

macOS安装

访问Ollama官网下载macOS安装包
打开下载的.dmg文件，将Ollama拖入Applications文件夹
从Applications文件夹启动Ollama

Windows安装

访问Ollama官网下载Windows安装包
运行安装程序，按照提示完成安装
安装完成后，Ollama会自动启动

Linux安装

使用以下命令安装：

1

curl -fsSL https://ollama.com/install.sh | sh

Docker安装

Docker是部署Ollama的另一种流行方式，特别适合服务器环境或希望隔离运行环境的用户。

基本安装

1
2
3
4
5


# 拉取官方镜像
docker pull ollama/ollama

# 运行Ollama容器
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

数据卷挂载

为了持久化存储模型和配置，建议使用数据卷：

1
2
3
4
5
6
7
8


# 创建本地目录用于存储模型
mkdir -p ~/ollama/models

# 使用本地目录挂载
docker run -d --gpus=all \
  -v ~/ollama/models:/root/.ollama \
  -p 11434:11434 \
  --name ollama ollama/ollama

GPU支持配置

如果您的服务器有NVIDIA GPU，确保已安装NVIDIA Container Toolkit，然后使用--gpus=all参数启用GPU支持。

对于不需要GPU的环境，可以省略--gpus=all参数：

1

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

与其他容器集成

在Docker Compose环境中，可以将Ollama与其他服务（如前端界面）集成：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36


# docker-compose.yml
version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ollama_data:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - open-webui_data:/app/backend/data
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_API_BASE_URL=http://ollama:11434/api
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama_data:
  open-webui_data:

运行以下命令启动服务：

1

docker-compose up -d

Docker环境下使用Ollama

在Docker容器中使用Ollama与本地安装的命令略有不同：

1
2
3
4
5
6
7
8


# 在容器中运行模型
docker exec -it ollama ollama run deepseek-r1:7b

# 列出容器中已安装的模型
docker exec -it ollama ollama list

# 在容器中拉取新模型
docker exec -it ollama ollama pull mistral:7b

容器环境变量配置

可以通过环境变量自定义Ollama容器的行为：

1
2
3
4
5
6


docker run -d --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  -e OLLAMA_HOST=0.0.0.0 \
  -e OLLAMA_ORIGINS="*" \
  --name ollama ollama/ollama

常用环境变量：

OLLAMA_HOST：指定Ollama服务监听的地址（默认为127.0.0.1，设置为0.0.0.0可允许远程访问）
OLLAMA_ORIGINS：允许跨域请求的来源
OLLAMA_MODELS：模型存储路径

Docker部署性能优化

为了获得最佳性能，可以考虑以下优化措施：

资源分配：为Docker容器分配足够的CPU和内存资源

1
2
3
4
5
6


docker run -d --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --cpus=4 \
  --memory=16g \
  --name ollama ollama/ollama

使用特定版本镜像：根据硬件环境选择合适的镜像版本

1
2
3
4
5


# CPU或NVIDIA GPU环境
docker pull ollama/ollama:latest

# AMD GPU环境
docker pull ollama/ollama:rocm

网络配置：使用host网络模式可以提高性能（但会降低隔离性）

1
2
3
4


docker run -d --gpus=all \
  -v ollama:/root/.ollama \
  --network host \
  --name ollama ollama/ollama

Docker安全注意事项

由于Ollama本身不提供鉴权机制，在Docker部署时需要注意以下安全问题：

限制访问范围：避免将Ollama服务暴露到公网
- 使用防火墙限制访问IP
- 考虑使用反向代理（如Nginx）添加基本认证
使用非特权用户：避免在容器内使用root用户运行服务
定期更新镜像：保持Ollama镜像为最新版本，修复潜在安全漏洞

常见问题与解决方案

容器无法访问GPU
- 确保已正确安装NVIDIA Container Toolkit
- 验证GPU驱动版本与CUDA兼容性
- 使用nvidia-smi命令检查GPU状态
Docker容器内无法连接Ollama服务
- 在Docker Compose环境中，使用服务名称而非localhost
- 对于跨容器访问，使用host.docker.internal替代localhost
1 2

environment: - OLLAMA_API_BASE_URL=http://ollama:11434/api
模型下载速度慢
- 考虑使用预先下载的模型文件，通过挂载卷导入
- 在网络条件好的环境下预先拉取模型

修改模型存储位置（可选）

默认情况下，Ollama将模型存储在以下位置：

macOS: ~/.ollama/models
Windows: C:\Users\用户名\.ollama\models
Linux: ~/.ollama/models

如果不想将模型存储在默认位置（特别是C盘空间有限的Windows用户），可以通过设置环境变量来修改存储位置：

Windows修改存储位置

创建新的存储目录，例如：D:\Ollama\Models
设置环境变量：
- 右键点击"此电脑"→“属性”→“高级系统设置”→“环境变量”
- 在"系统变量"部分，点击"新建"
- 变量名：OLLAMA_MODELS
- 变量值：D:\Ollama\Models
重启Ollama服务

Ollama常用命令

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


# 列出已下载的模型
ollama list

# 运行模型（交互式）
ollama run <模型名称>

# 查看模型状态
ollama ps

# 删除模型
ollama rm <模型名称>

# 启动API服务
ollama serve

# 查看帮助信息
ollama help

部署DeepSeek模型

DeepSeek是由深度求索团队推出的高性能大模型系列，包括通用的DeepSeek-LLM和专注于代码的DeepSeek-Coder。

下载并运行DeepSeek-R1模型

DeepSeek-R1是DeepSeek团队推出的最新模型之一，在Ollama中有多个版本可供选择：

1
2
3
4
5
6
7
8


# 下载并运行1.5B参数版本（适合低配置设备）
ollama run deepseek-r1:1.5b

# 下载并运行7B参数版本（平衡性能和资源消耗）
ollama run deepseek-r1:7b

# 下载并运行更大参数版本（需要更高配置）
ollama run deepseek-r1:14b

首次运行时，Ollama会自动下载模型文件，这可能需要一些时间，取决于您的网络速度和模型大小。下载完成后，模型会自动启动并进入交互模式。

硬件要求参考

不同参数规模的模型对硬件要求不同：

1.5B模型：最低配置，几乎所有现代电脑都能运行
7B模型：建议8GB以上内存
14B模型：建议16GB以上内存
32B模型：建议32GB以上内存

Ollama生态与前端界面

Ollama提供了命令行界面和API，但对于普通用户来说，可能更喜欢图形化界面。以下是一些常用的Ollama前端界面：

1. OpenWebUI

一个开源的Web界面，提供聊天、文件上传、多模型切换等功能。

安装方法：

1

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

2. Raycast插件（macOS）

Raycast Ollama是macOS用户的绝佳选择，继承了Raycast的优势，能在选中或复制语句后直接调用命令，体验丝滑。

3. LM Studio

类似Ollama，但更偏向桌面端用户，提供了友好的图形界面。

高级配置

允许远程访问

默认情况下，Ollama只允许本地访问。如果希望其他设备也能访问，需要设置环境变量：

1
2
3
4
5


# 允许所有来源访问
export OLLAMA_ORIGINS="*"

# 或者指定特定来源
export OLLAMA_ORIGINS="http://example.com,https://example.org"

自定义模型参数

可以通过创建Modelfile来自定义模型参数：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


# 创建Modelfile
FROM deepseek-r1:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40

# 创建自定义模型
ollama create my-deepseek -f Modelfile

# 运行自定义模型
ollama run my-deepseek

常见问题与解决方案

1. 模型下载速度慢

尝试使用代理或VPN
选择较小参数的模型版本
在网络良好的环境下下载

2. 运行时内存不足

关闭其他占用内存的应用
选择较小参数的模型版本
增加系统虚拟内存/交换空间

3. 模型响应速度慢

确保系统有足够的资源
调整模型参数，如降低temperature值
如有GPU，确保Ollama正在使用GPU加速

总结

Ollama为本地部署大模型提供了一种简单高效的方式，特别是对于DeepSeek等高性能模型。通过本文的指导，您应该能够轻松地在本地设备上部署和运行这些模型，享受AI带来的便利，同时保护您的隐私和数据安全。

随着大模型技术的不断发展和硬件性能的提升，本地部署大模型将变得越来越普及和实用。希望本文能够帮助您踏上本地AI之旅！