DeepEval
Framework đánh giá LLM như Pytest — 50+ metrics, CI/CD integration, red-teaming
"Pytest cho LLMs" với 12.6K+ ⭐. Unit testing framework chuyên biệt cho LLM outputs: 50+ metrics dựa trên nghiên cứu (G-Eval, hallucination detection, faithfulness, relevancy, RAGAs). Tích hợp CI/CD...