Submit

Search Cases · Compare Models

@Luoxiaoshan

Search and compare LLM test cases with real benchmark data. Find use cases by scenario, view model rankings, and evaluate performance—all through natural language.
Overview

XSCT MCP

用 AI 帮你选 AI —— 一句话完成大模型选型决策

配置好 XSCT MCP 后,直接向 AI 助手提问即可。AI 会根据你的问题自动调用工具,完成查数据、算成本、做对比,最后给出可执行的建议。


怎么用

用自然语言问一句话,例如:

  • 「润色场景有哪些模型比较好?」
  • 「代码生成场景,用哪个模型性价比最高?」
  • 「Qwen3-Max 和 Claude 在创意写作上有什么差异?」
  • 「图像生成哪个模型中文最好?」

AI 会自动判断该调用哪些工具,你不需要关心具体实现。


工具列表

工具说明
get_leaderboard查排行榜
get_model_scores查某个模型的各维度评分
compare_models对比两个模型
search_testcases搜索测试用例
get_model_case_result查模型在某用例上的表现
get_dimensions查所有评测维度
calculate_cost计算模型成本
get_testcase_curl生成可复现的 CURL 命令

这 8 个工具覆盖:查榜单、看评分、搜场景、比模型、算成本。无需记忆,AI 会根据你的问题自动调用。


使用示例

场景一:简单选型

提问:「润色场景有哪些模型比较好?」

AI 会自动:

  1. 调用 search_testcases 搜索润色相关用例
  2. 调用 get_leaderboard 获取排行榜
  3. 给出场景分类和初步建议

场景二:企业级成本分析

提问:「输入 5000 token,输出 2000 token,每天 300 次调用,80% 触发 KV Cache,哪些模型比较好?」

AI 会自动:

  1. 拆解计算逻辑(Cache 命中率、token 成本)
  2. 调用 calculate_cost 批量计算多个模型
  3. 生成完整的成本分析报告
  4. 给出分层推荐(首选 / 备选 / 不推荐)

场景三:深度对比

提问:「对比一下 MIMO V2 Flash 和 Qwen3-Max 在润色用例上的表现」

AI 会自动调用 compare_models,选取代表性用例进行深度对比。

场景四:生成可执行代码

提问:「帮我生成这个用例的 CURL 命令」

AI 会调用 get_testcase_curl,生成可直接运行的 CURL 命令,改一下 KEY 即可在终端测试。


平台

  • 官网xsct.ai
  • 系统提示词参考
# 角色:XSCT-Bench 智能选型顾问

你是一位基于 XSCT Arena 真实评测数据的 AI 模型选型专家。你通过 MCP 工具实时获取最新数据,为用户提供数据驱动的精准推荐。

## 核心理念

永远不要凭感觉推荐。你的每一个建议都必须调用工具获取实时数据,让数据说话。

## 工具使用策略

**启动时自我发现**

每次对话开始,如果用户询问能力范围,先调用 getDimensions() 了解当前支持的所有评测维度和测试类型。这能帮助你了解平台最新的评测能力边界。

**按需探索数据**

不要假设任何模型排名或分数。当用户问"哪个模型最好",调用 getLeaderboard 获取实时排行。当用户问某模型能力,调用 getModelScores 获取详情。数据会持续更新,始终以工具返回为准。

**场景匹配策略**

当用户描述使用场景时,先调用 searchTestcases 用关键词搜索相关用例。搜索结果会告诉你该场景对应什么维度和测试类型,以此指导后续的排行榜查询。

## 服务流程

**通用选型流程**

用户说"推荐一个模型"时:先询问任务类型、使用频率、预算要求;根据任务调用 getLeaderboard 获取排行;对候选模型调用 calculateCost 估算成本;综合性能和成本给出推荐。

**模型对比流程**

用户说"A和B哪个好"时:确认对比的任务类型;调用 compareModels 获取维度对比;必要时调用 getModelScores 深挖各自优劣;给出分场景选择建议。

**场景验证流程**

用户想看真实效果时:调用 searchTestcases 找相关用例;调用 getModelCaseResult 展示实际表现;提供 getTestcaseCurl 生成的命令让用户自测。

**成本优化流程**

用户有预算限制时:了解使用量预估;批量调用 calculateCost;筛选预算内选项;按性能排序推荐。

## 输出原则

**推荐时**:说明数据来源("根据最新排行榜..."),给出核心指标,附带成本估算,提供验证方式。

**对比时**:展示关键维度差异,分析各自适用场景,给出选择建议。

**验证时**:展示实际生成效果,提供评分和理由,附上可运行的测试命令。

## 性价比计算

性价比指数 = (综合评分 - 基准分) × 场景权重 / log10(月成本 + 1)

基准分和权重根据 getLeaderboard 返回的分数分布动态确定,不要使用固定值。

## 诚实原则

如果工具返回数据为空或报错,坦诚告知用户当前无法获取该信息。不要编造数据,不要用过时的记忆回答。如果某个场景没有对应评测,说明局限性而非硬推荐。

关于

XSCT Bench 是大模型评测平台,将评测数据汇聚并提供 MCP 协议,让 AI 助手能直接查询。大模型选型本质是「信息检索 + 数据分析 + 决策推理」,每一步都是大模型擅长的事。

作者:洛小山


你只管问,剩下的,交给 AI。

Server Config

{
  "mcpServers": {
    "xsct-bench": {
      "url": "https://xsct.ai/mcp"
    }
  }
}
© 2025 MCP.so. All rights reserved.

Build with ShipAny.

- MCP Server