Ragas

📚 Core Concepts

vibrantlabsai/ragas

Ragas

vibrantlabsai/ragas

🚀 Get Started
🚀 Get Started
- Installation
- Quick Start
- Tutorials
  Tutorials
📚 Core Concepts
📚 Core Concepts
- Experimentation
- Datasets
- Metrics
  Metrics
  - Overview
  - Available Metrics
    
    Available Metrics
    
    Retrieval Augmented Generation
    Retrieval Augmented Generation
    
    Context Precision
    
    Context Recall
    
    Context Entities Recall
    
    Noise Sensitivity
    
    Response Relevancy
    
    Faithfulness
    
    Nvidia Metrics
    Nvidia Metrics
    
    Answer Accuracy
    
    Context Relevance
    
    Response Groundedness
    
    Agents or Tool Use Cases
    Agents or Tool Use Cases
    
    Agentic or Tool use
    
    Topic Adherence
    
    Tool Call Accuracy
    
    Tool Call F1
    
    Agent Goal Accuracy
    
    Natural Language Comparison
    Natural Language Comparison
    
    Factual Correctness
    
    Semantic Similarity
    
    Traditional non LLM metrics
    Traditional non LLM metrics
    
    Traditional NLP Metrics
    
    Non LLM String Similarity
    
    BLEU Score
    
    CHRF Score
    
    ROUGE Score
    
    String Presence
    
    Exact Match
    
    SQL
    SQL
    
    SQL
    
    Execution based Datacompy Score
    
    SQL Query Equivalence
    
    General Purpose
    General Purpose
    
    General Purpose Metrics
    
    Aspect Critic
    
    Simple Criteria Scoring
    
    Rubrics Based Scoring
    
    Instance Specific Rubrics Scoring
    
    Other Tasks
    Other Tasks
    
    Summarization
- Test Data Generation
  Test Data Generation
  - RAG
    RAG
    
    Testset Generation for RAG
    
    KG Building
    
    Scenario Generation
  - Agents or tool use
    Agents or tool use
    
    Testset Generation for Agents or Tool use cases
- Components
  Components
  - General
    General
    
    Prompt
  - Evaluation
    Evaluation
    
    Evaluation Sample
    
    Evaluation Dataset
🛠️ How-to Guides
🛠️ How-to Guides
- Customizations
  Customizations
  - General
    General
    
    Customise models
    
    Run Config
    
    Caching
    
    Cancelling Tasks
  - LLM Adapters
  - Metrics
    Metrics
    
    Modify Prompts
    
    Adapt Metrics to Languages
    
    Train and Align Metrics
  - Testset Generation
    Testset Generation
    
    Non-English Testset Generation
    
    Persona Generation
    
    Custom Single-hop Query
    
    Custom Multi-hop Query
    
    Using Pre-chunked Data
  - Optimizers
    
    Optimizers
- Applications
  Applications
  - Prompt Evaluation
    Prompt Evaluation
    
    Iterate and Improve Prompts
    
    Systematic Prompt Optimization
  - Metrics
    Metrics
    
    Cost Analysis
    
    Evaluating Multi-turn Conversations
    
    Evaluations with Vertex AI models
  - Testset Generation
    Testset Generation
    
    Single-hop Query Testset
  - Benchmarking
    Benchmarking
    
    Evaluate a New LLM
  - Agent Evaluation
    Agent Evaluation
    
    Evaluate a Text-to-SQL Agent
    
    Align an LLM as a Judge
  - RAG Evaluation
    RAG Evaluation
    
    Evaluate and Improve a RAG App
- CLI
  CLI
  - RAG Evaluation
  - Improve RAG
- Integrations
  Integrations
  - Observability
    Observability
    
    Arize
    
    LangSmith
  - LLM Providers
    LLM Providers
    
    Amazon Bedrock
    
    Google Gemini
    
    OCI Gen AI
  - Frameworks
    Frameworks
    
    AG-UI
    
    Griptape
    
    Haystack
    
    LangChain
    
    LangGraph
    
    LlamaIndex
    
    LlamaIndex Agents
    
    LlamaStack
    
    R2R
    
    Swarm
- Migrations
  Migrations
  - From v0.1 to v0.2
  - From v0.3 to v0.4
📖 References
📖 References
- Core
  Core
  - Prompt
  - LLMs
  - Embeddings
  - Tokenizers
  - RunConfig
  - Executor
  - Cache
  - Optimizers
- Evaluation
  Evaluation
- Testset Generation
  Testset Generation
  - Schemas
  - Graph
  - Transforms
  - Synthesizers
  - Generation
- Integrations
❤️ Community

📚 Core Concepts

Experimentation

Learn how to systematically evaluate your AI applications using experiments.

Track changes, measure improvements, and compare results across different versions of your application.
Datasets

Understand how to create, manage, and use evaluation datasets.

Learn about dataset structure, storage backends, and best practices for maintaining your test data.
: Ragas Metrics

Use our library of available metrics or create custom metrics tailored to your use case.

Metrics for evaluating RAG, Agentic workflows and more...
Test Data Generation

Generate high-quality datasets for comprehensive testing.

Algorithms for synthesizing data to test RAG, Agentic workflows