Ubuntu 24.04 从 0 到 YOLO 跑通图片/视频/视频流 的最短可执行路线(含验证 GPU、安装、调用、输出 JSON)。
1)装好 NVIDIA 驱动并确认 GPU 可用
你只需要驱动,不一定要单独装 CUDA Toolkit。PyTorch 的 pip 包会自带 CUDA 运行时(关键是驱动要正常)。
sudo apt updatesudo apt install -y ubuntu-drivers-commonsudo ubuntu-drivers autoinstallsudo reboot
重启后检查:
nvidia-smi
看到你的 GeForce RTX 3050 和驱动版本就 OK。(Ubuntu 24.04 上驱动版本会随时间更新,按 ubuntu-drivers 推荐即可。)
2)创建 Python 环境并安装 PyTorch(带 CUDA)+ Ultralytics
2.1 基础依赖 + venv
sudo apt install -y python3-venv python3-pipmkdir -p ~/yolo && cd ~/yolo python3 -m venv .venvsource .venv/bin/activate python -m pip install -U pip
2.2 安装 PyTorch(GPU 版)
我建议先用 CUDA 12.6 的 wheel(最省事,兼容性好):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
这个命令来自 PyTorch 官方提供的 CUDA wheel 索引方式。
验证 PyTorch 是否看到 GPU:
python - << 'PY'import torchprint("torch:", torch.__version__)print("cuda available:", torch.cuda.is_available())print("gpu:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else None)
PY2.3 安装 Ultralytics(YOLO)
pip install ultralytics opencv-python
Ultralytics 官方 Quickstart 就是 pip 安装 ultralytics。
3)第一次推理:图片 / 视频 / 摄像头 / RTSP
device=0表示用第 1 张 GPU(你的 3050)。
3.1 图片推理
yolo predict model=yolo11n.pt source="test.jpg" device=0
3.2 视频文件推理
yolo predict model=yolo11n.pt source="test.mp4" device=0
3.3 摄像头推理
yolo predict model=yolo11n.pt source=0 device=0
3.4 RTSP 推理(有流就用)
yolo predict model=yolo11n.pt source="rtsp://user:pass@ip:554/xxx" device=0
Ultralytics 的 predict 模式支持图片、视频、以及实时流等输入。
4)用 Python 调用并输出 JSON(你后面接 Go/Telegram 最常用)
新建 detect_image.py:
from ultralytics import YOLOimport json
model = YOLO("yolo11n.pt") # 先用预训练模型测试流程results = model("test.jpg", device=0) # 返回 Results 列表r = results[0]
out = []for b in r.boxes:
x1, y1, x2, y2 = b.xyxy[0].tolist()
conf = float(b.conf[0])
cls = int(b.cls[0])
out.append({ "cls": cls, "conf": conf, "xyxy": [x1, y1, x2, y2],
})print(json.dumps(out, ensure_ascii=False, indent=2))运行:
python detect_image.py
Results / Boxes / xyxy / conf / cls 这些结构在官方 Results 文档里有说明。
评论列表