Error in Custom Evaluator: Returning EvaluationResult instead of Dict

·Aug 30, 2025 03:09 PM

getting an issue where I've defined a custom evaluator and am returning an EvaluationResult object but get an error because a dict is expected

"""
Accuracy evaluation using structured AI output.
"""

from typing import Any, Dict
from phoenix.experiments.evaluators import create_evaluator
from phoenix.experiments.types import EvaluationResult
from src.ai.prompt_runner import PromptRunner


@create_evaluator(kind="llm")
async def accuracy(input: Dict[str, Any], output: str, expected: str) -> Dict[str, Any]:
    """
    Evaluate accuracy using structured AI output.

    Args:
        input: Input data containing doc_path
        output: Generated summary string from the task
        expected: Expected summary string

    Returns:
        Dict with label, explanation, and score
    """

    prompt_runner = PromptRunner()

    # Handle case where expected might be a dict or string
    reference_answer = (
        expected
        if isinstance(expected, str)
        else expected.get("expected_summary", str(expected))
    )

    eval_result = await prompt_runner.evaluate_accuracy(
        input_text=input["doc_path"],
        reference_answer=reference_answer,
        answer=output,
    )

    return EvaluationResult(
        label=eval_result.label,
        explanation=eval_result.explanation,
        score=eval_result.score,
    )

code where it errors out:

if result:
                # Filter out None values for OpenTelemetry attributes
                attributes: dict[str, Any] = {}
                if (score := result.get("score")) is not None:
                    attributes["evaluation.score"] = score
                if (label := result.get("label")) is not None:
                    attributes["evaluation.label"] = label
                if attributes:
                    span.set_attributes(attributes)
            span.set_attribute(OPENINFERENCE_SPAN_KIND, EVALUATOR)
            span.set_status(status)

error:

AttributeError: 'EvaluationResult' object has no attribute 'get'

before I was returning a dict rather than an EvaluationResult object but ended up with a different issue

""" Accuracy evaluation using structured AI output. """ from typing import Any, Dict from phoenix.experiments.evaluators import create_evaluator from phoenix.experiments.types import EvaluationResult from src.ai.prompt_runner import PromptRunner @create_evaluator(kind="llm") async def accuracy(input: Dict[str, Any], output: str, expected: str) -> Dict[str, Any]: """ Evaluate accuracy using structured AI output. Args: input: Input data containing doc_path output: Generated summary string from the task expected: Expected summary string Returns: Dict with label, explanation, and score """ prompt_runner = PromptRunner() # Handle case where expected might be a dict or string reference_answer = ( expected if isinstance(expected, str) else expected.get("expected_summary", str(expected)) ) eval_result = await prompt_runner.evaluate_accuracy( input_text=input["doc_path"], reference_answer=reference_answer, answer=output, ) return EvaluationResult( label=eval_result.label, explanation=eval_result.explanation, score=eval_result.score, )

if result: # Filter out None values for OpenTelemetry attributes attributes: dict[str, Any] = {} if (score := result.get("score")) is not None: attributes["evaluation.score"] = score if (label := result.get("label")) is not None: attributes["evaluation.label"] = label if attributes: span.set_attributes(attributes) span.set_attribute(OPENINFERENCE_SPAN_KIND, EVALUATOR) span.set_status(status)

{ "label": eval_result.label, "explanation": eval_result.explanation, "score": eval_result.score, } type(eval_result.score) <class 'float'> type(eval_result.explanation) <class 'str'> type(eval_result.label) <class 'str'>

from phoenix.experiments.evaluators import create_evaluator from phoenix.client.experiments import run_experiment from phoenix.client import Client, AsyncClient run_experiment( dataset=dataset, task=task, experiment_name="initial-experiment", evaluators=[accuracy], client=AsyncClient(), )

from typing import Any, Dict from openai import OpenAI from phoenix import Client from phoenix.experiments import run_experiment from phoenix.experiments.types import EvaluationResult client = Client() openai_client = OpenAI() dataset = client.upload_dataset( dataset_name="experiment-quickstart-dataset", inputs=[{"question": "What is Paul Graham known for?"}], outputs=[{"answer": "Co-founding Y Combinator and writing on startups and techology."}], metadata=[{"topic": "tech"}], ) def jaccard_similarity(output: str, expected: Dict[str, Any]) -> float: # https://en.wikipedia.org/wiki/Jaccard_index actual_words = set(output.lower().split(" ")) expected_words = set(expected["answer"].lower().split(" ")) words_in_common = actual_words.intersection(expected_words) all_words = actual_words.union(expected_words) return EvaluationResult( score=len(words_in_common) / len(all_words), label="good", explanation="The answer is accurate and contains the expected keywords.", ) task_prompt_template = "Answer in a few words: {question}" def task(input: Any) -> str: question = input["question"] message_content = task_prompt_template.format(question=question) response = openai_client.chat.completions.create( model="gpt-4o", messages=[{"role": "user", "content": message_content}] ) return response.choices[0].message.content or "" experiment = run_experiment( dataset=dataset, task=task, experiment_name="initial-experiment", evaluators=[jaccard_similarity], )

Error in Custom Evaluator: Returning EvaluationResult instead of Dict

11 comments

Error in Custom Evaluator: Returning EvaluationResult instead of Dict

11 comments