如果你正在用 LLM 构建任何东西,2026 年你不应该还在为推理成本付钱。
Gemini 免费额度、Groq、Cerebras、OpenRouter 以及十几家小型提供商,足以让你以 $0/月 跑起真实的生产工作负载——聊天机器人、Agent、研究 Pipeline 全都不在话下。
本文是截至 2026 年 4 月所有仍活跃免费 LLM API 的完整地图,涵盖速率限制、模型权限、到期规则,以及哪些甚至不需要信用卡。此外,本文还额外补充了 AI Gateway 高级路由玩法本地模型(Ollama / LM Studio) 方案,帮你把免费额度和私有推理能力结合到极致。


一览对比表

提供商可用模型免费额度是否需要信用卡最适合场景
Google Gemini APIGemini 2.5 Flash(免费层)1,500 次/天,10 RPM最易上手的免费基线
GroqLlama 3.1、Mixtral、Gemma 230 RPM,6K TPM,1,000 次/天速度敏感型应用(315 TPS)
CerebrasLlama 3.1 70B / 8B30 RPM,60K TPM,1M tokens/天超长上下文
NVIDIA NIM多种开源 + 专有模型免费原型层需要账号,无需信用卡试用新模型架构
OpenRouter聚合(50+ 模型)多个免费路由模型一个 Key 多家提供商
OpenAIGPT-4o、GPT-5 系列$5 试用额度,3 个月有效期一次性评估测试
Anthropic ClaudeClaude 3.5/4 系列$5 试用;OSS 项目最高 6 个月 Max顶级推理能力
Mistral La PlateformeMistral Small / Large注册试用积分欧盟合规场景
CohereCommand R / R+试用积分,评估较慷慨RAG 优先的技术栈
DeepSeekDeepSeek V3 / R1慷慨免费层,付费也便宜低成本高质量推理
xAI GrokGrok 2 / 3有限免费积分X(Twitter)集成
Hugging Face开源模型库限速免费访问无需自建 GPU 的开源推理
Together AI100+ 开源模型少量起始积分开源模型微调
本地模型Ollama / LM Studio完全免费,无限制离线、隐私、无延迟抖动

各提供商详细介绍

1. Google Gemini API

  • 可用模型: Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.5 Flash-Lite、Gemini 2.0 系列
  • 免费额度: 免费层提供 Gemini 2.5 Flash,每天 1,500 次请求,10 RPM。Google 在 2025 年末大幅削减了免费层配额,使用前请在 ai.google.dev 确认最新限制。
  • 是否需要信用卡: 不需要,Google 账号即可
  • 快速上手: ai.google.dev → 获取 API Key → 立即使用
  • 最适合: 不想花钱但需要持续工作负载的场景

Gemini Flash 每天 1,500 次即使在削减之后依然足够原型开发。若需要更大的持续流量,可以将 Gemini Flash 与 Cerebras(每天 1M tokens)和 Groq 叠加使用。


2. Groq

  • 可用模型: Llama 3.1 70B / 8B、Mixtral 8x7B、Gemma 2
  • 免费额度: 30 RPM、6,000 TPM、1,000 次/天;速度约 315 tokens/秒(Llama 70B,无出其右)
  • 核心优势: LPU(语言处理单元)比 GPU 集群推理速度快得多,70B 级别模型可实现亚秒响应
  • 是否需要信用卡: 不需要
  • 快速上手: console.groq.com → 注册 → 获取 API Key
  • 最适合: 实时 UX(语音、流式聊天)、高吞吐批处理任务

对延迟敏感的应用,Groq 免费层本身就足以支撑到真正规模化之前。


3. Cerebras

  • 可用模型: Llama 3.1 70B、Llama 3.1 8B
  • 免费额度: 30 RPM、60K TPM、每天 1M tokens(最慷慨的无卡免费额度)
  • 核心优势: 晶圆级芯片专为推理设计,超长上下文处理能力强,Llama 3.1 70B 吞吐具竞争力
  • 是否需要信用卡: 不需要
  • 快速上手: cloud.cerebras.ai
  • 最适合: 长上下文任务(大文档分析、RAG)、日配额内的批量推理

4. NVIDIA NIM (build.nvidia.com)

  • 可用模型: 宽泛——Llama、Mistral、NVIDIA 调优模型、视觉模型、Embedding 模型
  • 免费额度: 原型阶段免费,转生产通常需要 NVIDIA Inception 计划或付费层
  • 是否需要信用卡: 需要账号,免费层无需信用卡
  • 快速上手: build.nvidia.com → 登录 → 获取 API Key
  • 最适合: 承诺某个提供商前先试用新模型架构

5. OpenRouter

  • 可用模型: 聚合路由到 50+ 模型(主要提供商 + 若干直接免费路由)
  • 免费额度: Mistral 7B Free、Gemma 2 9B Free 等,严格限速但可用于评估
  • 是否需要信用卡: 免费模型不需要
  • 定价: 付费模型按 token 计费,透明定价
  • 快速上手: openrouter.ai
  • 最适合: 用单个 API Key 替代 5+ 家提供商集成

OpenRouter 是后文 AI Gateway 玩法的重要一环——当主力提供商触发限速时,立即切换到 OpenRouter 免费模型兜底。


6. OpenAI

  • 可用模型: GPT-4o、GPT-5 系列、o 系列推理模型、Embedding
  • 免费额度: 新账号约 $5 试用积分,激活后 3 个月有效,可用于所有模型
  • 是否需要信用卡:
  • 叠加方案: OpenAI for Startups 计划可申请更大积分(需单独申请)
  • 最适合: 一次性评估;不适合免付费的生产场景

7. Anthropic Claude

  • 可用模型: Claude 4.x 系列(Opus、Sonnet、Haiku)
  • 免费额度: 新账号约 $5 起始积分
  • 特别项目: Claude for Open Source(2026 年 2 月启动)——符合条件的开源项目维护者可免费获得 6 个月 Claude Max 20x,价值 $1,200,共 10,000 个名额。这是 2026 年最大的 Claude 免费授予项目。
  • 是否需要信用卡: 是(试用之外的 API 访问)
  • 快速上手: console.anthropic.com;OSS 申请在 Claude for Open Source 计划页面
  • 最适合: 有开源项目资质时获取最高质量推理,或不介意付费的场景

8. Mistral La Plateforme

  • 可用模型: Mistral Small、Mistral Large、Codestral、Embed
  • 免费额度: 注册时有试用积分,额度适中
  • 是否需要信用卡:
  • 最适合: 欧盟合规场景、多语言生成

9. Cohere

  • 可用模型: Command R、Command R+、Embed、Rerank
  • 免费额度: 试用积分,评估阶段较慷慨
  • 是否需要信用卡:
  • 最适合: RAG 优先应用(Cohere 的 Rerank 尤为强大)

10. DeepSeek

  • 可用模型: DeepSeek V3、DeepSeek R1(推理模型)
  • 免费额度: 慷慨的免费层;超出后付费价格也是同类最便宜之一
  • 是否需要信用卡:
  • 最适合: 大批量推理工作负载,追求极低成本

11. xAI Grok

  • 可用模型: Grok 2、Grok 3
  • 免费额度: 有限免费积分,主要是评估层
  • 是否需要信用卡:
  • 最适合: 集成 X(Twitter)平台、需要 Grok 实时数据的场景

12. Hugging Face Inference API

  • 可用模型: Hub 上托管的数千个开源模型
  • 免费额度: 限速免费访问;生产使用需要 Inference Endpoints 或 PRO 订阅
  • 是否需要信用卡: 不需要
  • 最适合: 不搭建自有 GPU 就能试用开源权重模型

13. Together AI

  • 可用模型: 100+ 开源模型(Llama、Mixtral、Qwen,支持微调)
  • 免费额度: 少量起始积分
  • 是否需要信用卡:
  • 最适合: 在开源权重上微调自己的模型

本地模型方案:Ollama 与 LM Studio

云端免费 API 有速率限制,而本地模型没有。当你的需求涉及隐私数据、离线场景、低延迟内网服务或者只是不想受限速折磨时,本地推理是最终答案。

Ollama

Ollama 是目前最流行的本地 LLM 运行工具,提供类 Docker 的模型管理体验。

快速上手:

# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行模型(类似 docker pull)
ollama pull llama3.1:8b
ollama run llama3.1:8b

# 查看所有本地模型
ollama list

本地 API 服务(默认兼容 OpenAI 格式):

# Ollama 默认监听 http://localhost:11434
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "你好!"}]
  }'

推荐模型(按显存分级):

模型显存需求适合场景
Llama 3.2 3B~2 GB低端设备、快速响应
Llama 3.1 8B~5 GB日常对话、代码辅助
Qwen2.5 14B~9 GB中文优化、复杂推理
Llama 3.1 70B (Q4)~40 GB高质量,需要好显卡
DeepSeek-R1 7B~5 GB本地推理任务

优点:

  • 完全免费,无速率限制
  • 数据不离本机,天然隐私保护
  • 兼容 OpenAI API 格式,现有代码改一行 base_url 即可切换
  • 支持 CPU 推理(慢但可用)

LM Studio

LM Studio 提供图形化界面,适合不想敲命令行的用户,同时支持 GGUF 格式模型的一键下载与运行。

核心功能:

  • 内置模型搜索与下载(Hugging Face 直连)
  • 图形化对话界面,可直接测试模型
  • 本地 OpenAI 兼容服务器,一键启动
  • 自动检测 GPU,支持 Metal(macOS)/ CUDA(Windows/Linux)

启动本地服务器:

  1. 下载并安装 LM Studio
  2. 在 “Discover” 页面搜索并下载模型(如 Mistral 7B Instruct
  3. 切换到 “Local Server” 选项卡,点击 “Start Server”
  4. 默认监听 http://localhost:1234,兼容 OpenAI API

代码集成示例(Python):

from openai import OpenAI

# 只需改 base_url,其余代码不变
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="mistral-7b-instruct",
    messages=[{"role": "user", "content": "解释一下向量数据库"}]
)
print(response.choices[0].message.content)

本地模型 vs 云端 API:如何选择

维度本地模型云端免费 API
成本硬件一次性投入$0,但有速率限制
隐私✅ 数据不出机器⚠️ 数据上传至第三方
速率限制有,且随时可能变更
模型质量受硬件限制可用 GPT-5 / Claude Opus 等顶级模型
部署难度需要配置本机环境即开即用
网络依赖无(完全离线)需要稳定网络

推荐策略:本地 + 云端混用——本地模型处理高频低风险任务(分类、摘要、初稿),云端顶级模型处理高价值关键任务。


快速上手:OmniRoute——零配置 AI Gateway

在进入正式的 AI Gateway 架构之前,先介绍一个面向个人开发者的轻量入门选项:OmniRoute

OmniRoute 是开源工具,本地运行,Dashboard 图形界面操作,安装一条命令即可把 160+ 家提供商接入统一端点 localhost:20128/v1。它有一套四层自动 Fallback

Subscription(Claude Code、Codex 等付费订阅)
    ↓ 额度耗尽
API Key(Groq、Gemini、DeepSeek 等你的 Key)
    ↓ 超限
Cheap(DeepSeek、SiliconFlow 等极低价付费)
    ↓ 超限
Free(OpenRouter 35+ 免费模型、Pollinations 等无需 Key)
# 安装
npm install -g omniroute

# 启动(默认 20128 端口)
omniroute

# 或 Docker
docker run -d -p 20128:20128 \
  -v omniroute-data:/app/data \
  diegosouzapw/omniroute:latest

打开 Dashboard,添加你的 API Keys,然后把 Claude Code / Cursor / Cline / Codex 的 API base 改为 http://localhost:20128/v1,之后 OmniRoute 自动负责切换——你无需再关心"哪家限速了"

OmniRoute 额外支持:提示词压缩(节省 15–75% tokens)、MCP Server(29 个工具)、多模态 API(图像/音频/视频)、A2A 协议,以及接入本地 Ollama。

OmniRoute 的定位是"个人开发者的 AI 路由器",适合不想自建服务器的场景。而下面要讲的,是更进一步:把 AI Gateway 真正变成家庭 AI 基础设施的核心。


什么是真正的 AI Gateway

很多人对 AI Gateway 有误解,这里先澄清:

误解现实
AI Gateway = API 聚合站❌ 那只是代理转发
AI Gateway = OpenAI Key 中转器❌ 那只是反代
AI Gateway = 托管服务,用别人的❌ 你完全可以自建

真正的 AI Gateway 具备以下能力:

  • Routing:按延迟、成本、任务类型智能选择模型
  • Fallback:主力提供商限速或宕机时自动切换,零停机
  • Load Balancing:多个 Key / 多个账号之间均衡流量
  • Observability:每次请求的延迟、Token 消耗、成本、成功率全量日志
  • Model Abstraction:上层只看到 model: "primary",底层随时换提供商
  • Local / Cloud Hybrid:本地 Ollama 和云端 API 在同一个路由里
  • Unified OpenAI-Compatible Endpoint:所有设备、所有工具对接同一个地址
  • Policy / Quota / Auth:多用户、多 Key、按 Budget 限流、API Key 鉴权

这套能力合在一起,叫做 AI 基础设施,而不是"换个 API 转发地址"。


家庭 AI 中枢:部署到 QNAP NAS

2026 年,最值得个人玩家投入的方案不是订阅更多服务——而是在家里跑一套真正的 AI 基础设施。QNAP NAS 24 小时开机、低功耗、有 Docker 支持,是最理想的家庭 AI 服务器。

为什么 LiteLLM 特别适合 NAS

和同类项目相比,LiteLLM 在 NAS 场景的优势明显:

项目内存占用部署难度NAS 适配
Dify高(多服务)中等一般
Langflow中高中等一般
Flowise简单还行
LiteLLM极低极简最佳

LiteLLM 核心只是一个轻量 Python 代理,单容器运行,配置即 YAML,没有数据库依赖也能跑。对于内存有限的 NAS 来说,这是决定性优势。


目录结构

在 QNAP 的 Container Station 里,按如下结构组织文件:

/share/Container/ai-gateway/
├── docker-compose.yml
├── .env                    # 所有 API Key 集中管理
├── litellm/
│   └── config.yaml
├── open-webui/             # Web UI 数据持久化
├── qdrant/                 # 向量数据库
└── redis/                  # 缓存层

Docker Compose 完整配置

version: "3.9"

services:

  # ── AI Gateway 核心 ──────────────────────────────
  litellm:
    image: ghcr.io/berriai/litellm:main
    container_name: litellm
    restart: unless-stopped
    ports:
      - "4000:4000"
    volumes:
      - ./litellm/config.yaml:/app/config.yaml
    env_file:
      - .env
    command:
      - "--config=/app/config.yaml"
      - "--detailed_debug"
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:4000/health"]
      interval: 30s
      timeout: 10s
      retries: 3

  # ── Web UI(所有设备的对话入口)────────────────
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    environment:
      - OPENAI_API_BASE_URL=http://litellm:4000/v1
      - OPENAI_API_KEY=sk-local           # LiteLLM 内部认证 Key
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - litellm

  # ── 本地推理(隐私 / 无限制)──────────────────
  ollama:
    image: ollama/ollama
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    # QNAP 有 GPU 的型号可以加:
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - capabilities: [gpu]

  # ── 向量数据库(RAG / 知识库)──────────────────
  qdrant:
    image: qdrant/qdrant
    container_name: qdrant
    restart: unless-stopped
    ports:
      - "6333:6333"
    volumes:
      - ./qdrant:/qdrant/storage

  # ── Redis 缓存(LiteLLM 语义缓存)─────────────
  redis:
    image: redis:7-alpine
    container_name: redis
    restart: unless-stopped
    ports:
      - "6379:6379"
    volumes:
      - ./redis:/data

.env 文件(所有 Key 集中存放,不要提交到 Git):

GEMINI_API_KEY=your_gemini_key
GROQ_API_KEY=your_groq_key
ANTHROPIC_API_KEY=your_claude_key
OPENROUTER_API_KEY=your_openrouter_key
DEEPSEEK_API_KEY=your_deepseek_key
LITELLM_MASTER_KEY=sk-local   # 内部认证,自定义

LiteLLM 配置:真正的 AI Gateway 玩法

# /share/Container/ai-gateway/litellm/config.yaml

model_list:

  # ── 免费主力:Gemini Flash ─────────────────────
  - model_name: primary
    litellm_params:
      model: gemini/gemini-2.5-flash
      api_key: os.environ/GEMINI_API_KEY
      rpm: 10        # 告知 LiteLLM 实际限速,自动限流
      tpm: 1000000

  # ── 极速响应:Groq ─────────────────────────────
  - model_name: fast
    litellm_params:
      model: groq/llama-3.1-70b-versatile
      api_key: os.environ/GROQ_API_KEY
      rpm: 30
      tpm: 6000

  # ── 高级推理:Claude(付费,按需触发)──────────
  - model_name: smart
    litellm_params:
      model: anthropic/claude-sonnet-4-5
      api_key: os.environ/ANTHROPIC_API_KEY

  # ── 低成本推理:DeepSeek R1 ───────────────────
  - model_name: reasoning
    litellm_params:
      model: deepseek/deepseek-r1
      api_key: os.environ/DEEPSEEK_API_KEY

  # ── 本地隐私:Ollama(NAS 内网,零延迟)───────
  - model_name: local
    litellm_params:
      model: ollama/qwen3:14b
      api_base: http://ollama:11434   # Docker 内网直连

  # ── 兜底:OpenRouter 免费模型 ─────────────────
  - model_name: fallback
    litellm_params:
      model: openrouter/mistralai/mistral-7b-instruct:free
      api_key: os.environ/OPENROUTER_API_KEY


router_settings:
  routing_strategy: latency-based-routing   # 按实测延迟选最快的
  fallbacks:
    - {"primary":   ["fast", "local", "fallback"]}
    - {"fast":      ["primary", "local", "fallback"]}
    - {"smart":     ["reasoning", "primary", "local"]}
    - {"reasoning": ["smart", "primary", "local"]}
  num_retries: 2
  timeout: 30
  retry_after: 5


# Redis 语义缓存:相似问题直接命中缓存,不消耗 Token
cache:
  type: redis
  host: redis
  port: 6379
  similarity_threshold: 0.85   # 85% 相似就直接返回缓存


# 可观测性:全量请求日志
litellm_settings:
  success_callback: ["langfuse"]   # 可选,接入 Langfuse 看板
  set_verbose: false
  store_model_in_db: true


# 多用户 / 多 Key 管理(可选)
general_settings:
  master_key: os.environ/LITELLM_MASTER_KEY
  database_url: "sqlite:///litellm.db"   # 轻量本地数据库

启动整套服务:

cd /share/Container/ai-gateway
docker compose up -d

# 查看日志
docker compose logs -f litellm

家庭 AI 中枢架构图

                  ┌─────────────────────────────────┐
                  │         QNAP NAS                │
                  │                                 │
所有设备           │  ┌──────────┐  ┌─────────────┐ │
──────────►       │  │ LiteLLM  │  │  Open WebUI │ │
:4000/v1          │  │ Gateway  │◄─│  :3000      │ │
                  │  └────┬─────┘  └─────────────┘ │
                  │       │                         │
                  │  ┌────▼──────────────────────┐  │
                  │  │      智能路由层            │  │
                  │  │  latency-based-routing    │  │
                  │  │  + auto fallback          │  │
                  │  │  + semantic cache (Redis) │  │
                  │  └────┬──────────────────────┘  │
                  │       │                         │
                  │  ┌────┼──────────────────────┐  │
                  │  │    │  Qdrant 向量数据库    │  │
                  │  │    │  :6333 (RAG 知识库)  │  │
                  │  └────┼──────────────────────┘  │
                  └───────┼─────────────────────────┘
                          │
            ┌─────────────┼─────────────┐
            ▼             ▼             ▼
      Ollama:11434   Gemini/Groq    Claude/DeepSeek
      (内网本地)     (免费 API)     (付费按需)

所有设备统一接入

部署完成后,局域网内所有设备对接 http://nas-ip:4000/v1 即可,模型切换、failback、缓存全部透明:

设备 / 工具接入配置
VSCode ContinueapiBase: http://nas-ip:4000/v1
Cursor / ClineOpenAI Compatible → http://nas-ip:4000/v1
Claude CodeANTHROPIC_BASE_URL=http://nas-ip:4000
手机 / 平板浏览器打开 http://nas-ip:3000(Open WebUI)
Hexo AI 插件api_base: http://nas-ip:4000/v1
ComfyUIOpenAI API Node → http://nas-ip:4000/v1
任意 MCP 客户端http://nas-ip:4000/v1
自定义脚本base_url="http://nas-ip:4000/v1"

免费 API 叠加策略:$0/月 跑真实产品

通过上面的 NAS Gateway,整体流量架构变成:

[所有设备]
    │
    ▼
[QNAP NAS: LiteLLM :4000]
    │
    ├── Redis 语义缓存(命中则直接返回,零 Token 消耗)
    │
    ├──► 日常对话  → Gemini Flash(免费,1,500 次/天)
    ├──► 极速任务  → Groq Llama 70B(免费,315 TPS)
    ├──► 低成本推理→ DeepSeek R1(极便宜付费)
    ├──► 隐私数据  → Ollama / NAS 本地(零成本,零泄露)
    ├──► 额度耗尽  → OpenRouter 免费兜底
    └──► 关键任务  → Claude Sonnet/Opus(付费,仅 top 10%)

推荐叠加顺序(按成本从低到高触发):

  1. Redis 缓存命中 → 零 Token 成本,相似请求直接返回
  2. Ollama 本地 → 隐私数据、高频低风险任务,无任何费用
  3. Gemini Flash → 通用对话,1,500 次/天,不要信用卡
  4. Groq → 延迟敏感任务,每天 1,000 次,无需信用卡
  5. OpenRouter 免费 → 以上全部超限时的最后免费兜底
  6. DeepSeek / Claude → 真正需要高质量推理时才触发付费

实践建议与常见坑

建议做的:

  • NAS 挂 SSD 存 Ollama 模型——7B 模型文件 5 GB,HDD 加载慢且频繁读写伤寿命,SSD 是必选
  • 配置 num_ctx 别用默认值——Ollama 默认上下文 2048 tokens,RAG 场景必须显式设为 8192+
  • LiteLLM 的 rpm/tpm 字段填真实限速——填了之后 Gateway 会主动限流,不会等到 429 再切换,体验更丝滑
  • Redis 缓存的 similarity_threshold 不要设太低——低于 0.8 会出现不相关回答命中缓存的情况
  • Open WebUI 绑定到内网 IP——不要暴露到公网,或者加 Nginx 反代 + 认证再做外网访问

常见坑:

  • API Key 明文写进 docker-compose.yml——一定用 .env 文件,.gitignore 掉它
  • Ollama 冷启动——首次加载模型要时间,可以在 compose 里加 OLLAMA_KEEP_ALIVE=24h 让模型常驻内存
  • LiteLLM 版本更新频繁——image: ghcr.io/berriai/litellm:main 是滚动更新,生产建议锁定版本号如 :v1.40.0
  • QNAP Container Station 的网络模式——默认 bridge 模式容器间可互通,但 host 模式在某些 QNAP 固件上有 BUG,出现连不上 Ollama 时检查这里

常见问题解答

Q:有哪些不需要信用卡的 LLM API?
A:Google Gemini API、Groq、Cerebras、NVIDIA NIM 以及大多数 OpenRouter 免费模型——用邮箱或 Google 账号注册即可立即获得 API 访问权限。

Q:2026 年哪家免费 API 额度最慷慨?
A:Cerebras 在每日 Token 量上领先——Llama 3.1 70B 每天 1M tokens,无需信用卡。Gemini Flash 是最易上手的基线(每天 1,500 次请求)。速度上 Groq 无敌,Llama 70B 约 315 tokens/秒。

Q:可以把多家免费 API 叠加使用吗?
A:完全可以,而且强烈建议这样做。各家提供商有独立的速率限制,通过 LiteLLM 的 fallback 配置,多家免费层叠加后可用容量倍增,整套方案几乎不需要付费。

Q:QNAP NAS 配置要求?
A:运行完整这套栈(LiteLLM + Open WebUI + Ollama 7B + Qdrant + Redis)建议至少 16 GB 内存,32 GB 更稳。Ollama 跑 14B 模型需要约 10 GB 内存。CPU 推理够用但慢,有 GPU 的 QNAP 型号(如搭载 NVIDIA 显卡的机型)体验明显更好。

Q:Anthropic Claude 对开源维护者有特别政策吗?
A:有。Claude for Open Source 计划(2026 年 2 月启动)为符合资质的开源项目维护者提供 6 个月 Claude Max 20x 免费访问,价值 $1,200,共 10,000 个名额。


总结

2026 年,真正成熟的 AI 工作流已经不再是"选哪个模型"的问题,而是如何构建自己的 AI 基础设施

一台 QNAP NAS,加上 LiteLLM + Ollama + 免费 API 叠加,你能得到的是:

  • 一个家庭 AI 中枢,所有设备统一接入
  • 本地模型处理隐私数据,云端 API 处理高价值任务
  • 自动 Fallback,任何一家提供商限速都不影响使用
  • 语义缓存大幅降低重复 Token 消耗
  • Open WebUI 提供手机、电脑随时可用的对话界面
  • Qdrant 向量数据库支撑私有知识库 RAG
  • 全量可观测性,知道每次请求花了多少钱、走了哪个模型

这是目前成本最低、稳定性最高、扩展性最强的个人 AI 基础设施方案。90% 的日常请求走免费层,只有最关键的 10% 才触发付费模型——这才是把免费 API 用到极致的正确姿势。


本文持续更新,如有配额变动或新提供商欢迎评论区反馈。

相关阅读:


作者: 夜法之书
版权声明: 本博客所有文章除特別声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 夜法之书 !
评论
数据加载中 ...
 本篇

阅读全文

2026 年免费 LLM API 完全指南:13 家提供商 + AI 网关高级玩法 + 本地模型
2026 年免费 LLM API 完全指南:13 家提供商 + AI 网关高级玩法 + 本地模型 2026 年免费 LLM API 完全指南:13 家提供商 + AI 网关高级玩法 + 本地模型
2026 年最全免费 LLM API 汇总,涵盖 Google Gemini、Groq、Cerebras、Anthropic Claude、OpenAI 等 13 家提供商,以及 AI Gateway 高级路由、Ollama/LM Studio 本地模型方案,教你用 $0 跑起真实生产工作流。
2026-05-19
下一篇 

阅读全文

信息的战场之传播媒介进化史
信息的战场之传播媒介进化史 信息的战场之传播媒介进化史
社会认知篇:信息传播控制竞争是社会观察重要的角度之一,只有了解信息进化的历史、背景和原因,才能理解现代社会的各种社会现象,并对背后的原因、逻辑、以及后续影响有清醒的认识,才不会被各种宣传洗脑,进而抓住这背后的各种投资,市场机会!本文以美国总统竞选为镜,介绍传播媒介进化史
2026-03-08
  目录