Llama 3.1 8B Private Cluster
## 基于 Llama 3.1:8b Qwen2.5:7b的高性能 LLM API 服务 本 API 提供与 OpenAI 兼容的聊天补全接口,底层采用 **Llama 3.1 8B Instruct** 模型,部署于 **Apple Silicon Mac Mini M4 集群**,通过 **MLX 框架**加速推理,速度与质量兼具。 ### 模型信息 - **模型**: Meta Llama 3.1 8b Qwen2.5:7b - **量化**: Q4_K_M(平衡速度与精度) - **上下文长度**: 4096 tokens - **推理加速**: Ollama框架 + Metal GPU - **部署节点**: 中国香港调度中心 + 本地边缘节点集群,低延迟覆盖亚洲 ### 支持功能 - ✅ 多轮对话(支持 system/user/assistant 角色) - ✅…
Llama 3.1 8B Private Cluster endpoints
| Method | Endpoint | Description |
|---|---|---|
| POST |
Chat Completions /v1/chat/completions |
OpenAI-compatible chat endpoint for LLM inference |
| POST |
Text Completions /v1/chat/completions |
OpenAI-compatible text completion endpoint |