Framework Overview¶

이 문서는 lm-eval-so 프레임워크의 큰 그림을 설명합니다.

1. Core 도메인 모델¶

프레임워크 전역에서 공유하는 공통 모델은 대략 다음과 같습니다.

TestSample
id: 샘플 ID
messages: 대화 맥락 (role, content 로 구성된 메시지 리스트)
expected: 기대 출력(있을 수도, 없을 수도 있음)
tags: 태그 리스트 (task, domain, language 등)
metadata: 길이, 토픽, 난이도 등의 부가 정보
TestCase (선택적 개념)
여러 TestSample 을 하나의 시나리오로 묶을 때 사용
RunConfig
어떤 백엔드/모델을 어떤 설정으로 돌릴지에 대한 구성
예: backend="openai", model="gpt-4o-mini", parameters={"temperature": 0.0}
RunResult
단일 TestSample 에 대해 실제 챗봇/모델을 호출한 결과
포함 정보 예시:
- sample_id, dataset_id, backend, run_config
- 요청 메시지(request_messages), 응답 텍스트/토큰 사용량
- status (ok / timeout / error / retry 등)
- latency_ms, trace_id, error 정보
EvalScore
한 metric에 대한 단일 샘플의 점수
metric_name, value, detail(예: expected/answer 페어, 키워드 매칭 수, LLM Judge 세부 정보 등)

이 공통 모델을 기준으로 Generator/Runner/Evaluator가 느슨하게 결합됩니다.

목표: 다양한 포맷의 원천 데이터를 canonical TestSample 리스트로 정규화하고, 버전이 붙은 Dataset으로 관리합니다.

전형적인 플로우:

원천 데이터 로딩
CSV / JSONL / DB 등에서 row 단위로 불러오기
정규화 (Canonicalization)
각 row를 TestSample 구조로 매핑
예: system, user, expected, tags, lang 컬럼 → messages/expected/tags/metadata
필터링 / 샘플링
길이, 언어, 태그 기준 필터
랜덤 샘플링 또는 전략적 샘플링
출력
test.jsonl: TestSample.to_dict() 리스트
metadata.json: dataset_id, name, version, created_at, sample_count, tag/language 분포 등
schema.json: TestSample JSON Schema

Quick Start 예제에서는:

example/quickstart/data/toy_support_qa.csv → toy_support_qa_v1/test.jsonl + metadata.json

목표: (Dataset × Backend × RunConfig) 조합에 대해 실제 챗봇/모델을 호출하고, RunResult 레코드 집합을 생성합니다.

전형적인 플로우:

Quick Start 예제에서는:

목표: Dataset + RunResult를 조합해 다양한 metric을 계산하고, per-sample score + aggregate report 를 생성합니다.

전형적인 플로우:

Quick Start 예제에서 생성되는 대표 출력:

리포트는 보통 다음과 같은 구조를 가집니다.

이 구조를 지키면, 여러 실험/모델을 비교하는 리포트를 작성할 때도 일관성을 유지할 수 있습니다.

다음으로는 각 모듈별 사용법 문서를 참고하세요.