开源
LLM评估平台

比较模型和prompts,找到最适合您用例的。
确保代理按预期执行。

创建评估 — 免费

evaluations.hero.ctaSubText

超过 5000 位 AI 开发者 选择 Lunary 构建更好的聊天机器人

IslandsbankiBandwidthNetomiCloseDHL

CI/CD集成轻松集成到您的CI/CD管道中,以确保不会引入回归。

AI驱动的检查使用我们基于行业标准的AI驱动的断言库。

无需API密钥无需推理API密钥即可运行评估。我们负责基础设施。

强大的评估引擎

Benchmark results

运行基准测试

比较模型、设置和prompts,找到最适合您用例的。

定义成功指标

使用我们预定义的指标集或定义您自己的指标来评估您的模型。

从仪表板运行基准测试...

(expect better as we ship a lot)

SDKs

任何 LLM,任何框架。

无缝集成,不留痕迹。我们的 SDKs 设计轻巧,可自然地整合到您的代码库中。

dataset = lunary.get_dataset("my-dataset")

for item in dataset:

  prompt = item.input
  result = my_llm_agent(item.input)

  passed, results = lunary.evaluate(
    checklist="some-slug",
    output=result,
    input=prompt,
    ideal_output=item.ideal_output,
  )

  print(passed)

分钟见奇迹。

自托管或云端部署,分钟之内开始使用。

Open Source

Self Hostable

1-line Integration

Prompt Templates

Chat Replays

Analytics

Topic Classification

Agent Tracing

Custom Dashboards

Score LLM responses

PII Masking

Feedback Tracking

Open Source

Self Hostable

1-line Integration

Prompt Templates

Chat Replays

Analytics

Topic Classification

Agent Tracing

Custom Dashboards

Score LLM responses

PII Masking

Feedback Tracking