FastChat推理环境部署
FastChat 是一个开放平台,用于训练、推理和评估基于 LLM 的 ChatBot。FastChat 的核心功能包括: 优秀的大语言模型训练和评估代码。
具有 Web UI 和 OpenAI 兼容的 RESTful API 的分布式多模型服务系统。
支持的模型列表:…
LLM 模型支持列表
本地模型 本地 LLM 模型接入基于 FastChat 实现,支持模型如下:
ChatGLM 全系类对话模型
Orion 全系列对话模型,必须安装 flash-attn 才能使用
Qwen 全系列对话模型
internlm 全系列对话模型
Baichuan…
Ollama + Open WebUI 本地部署
Copy # 下载并运行 Ollama 容器服务
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# 下载并运行本地模型
docker…