Evaluation Center

Benchmark models, compare versions, and track improvement across iterations.

● Evaluations

total eval runs

● Running

none active

● Models

available for evaluation

● KPIs

5 metrics

LV · DT · CM · CA · CO

Evaluation KPIs

Logical Validity

Reasoning chain correctness and step validity

Decision Transparency

Clarity of decision points and trade-offs

Completeness

Full coverage of requirements and edge cases

Calibration

Confidence alignment with actual accuracy

Correctness

Final answer accuracy against ground truth

Evaluation History

No evaluations yet. Fine-tune a model first, then run evaluations to benchmark performance.