Keyword: llm-evaluation

oh-my-knowledge
Released
5d ago
Version
0.45.0
Evaluation framework for LLM knowledge inputs — prompts, RAG corpora, skills, agent workflows. Fix the model, vary the artifact. Built-in statistical rigor: bootstrap CI, Krippendorff α, length-debias, saturation curves.
llm-evaluation evaluation-framework prompt-evaluation prompt-testing prompt-regression-testing rag-evaluation +14
@metaharness/redblue
Released
yesterday
Version
0.1.3
AI red-teaming for the AI agents & LLM apps you own: stress-test them with adversarial models to find security failures (prompt injection, tool misuse / excessive agency, data leakage, jailbreaks, denial-of-wallet), auto-patch (blue team), retest, and get
llm red-team blue-team adversarial ai-security ai-red-teaming +14