← Docs hub

A2A Benchmark and Router Evolution

이 페이지는 A2A family router 성능을 어떻게 해석해야 하는지 정리한다.

A2A Benchmark Router Diagram

Family 성능을 볼 때의 기준

단순 전체 정확도만 보면 안 된다. 각 family는 실패 비용이 다르다.

Family 특히 중요한 실패
ODL 지원하지 않는 외부/불명확 명령을 기기 실행으로 오판
FRG 외부 정보/추천을 DEF 또는 STT_NULL로 놓침
DEF 자연스러운 대화를 STT_NULL로 과도하게 버림
STT_NULL 깨진 STT를 DEF로 억지 복구하거나, 반대로 자연스러운 발화를 버림
UNS unsupported execution을 ODL/DEF로 잘못 처리

DEF와 STT_NULL 경계

DEF/STT_NULL은 대표적인 회색지대다. 중요한 질문은 “지금 바로 bounded reply를 시작할 수 있는가”다.

FRG 경계

FRG는 public/outside target이 살아 있는지가 핵심이다.

예:

요트북 추천해줘
눈이 언제 와
드래곤 길들이기

이런 발화는 public recommendation, weather, title lookup 가능성이 있으므로 DEF/STT_NULL로 너무 빨리 닫으면 성능이 무너진다.

ODL 경계

ODL은 기기 실행 또는 local live state query가 명확해야 한다. 명령형이라는 이유만으로 ODL을 고르면 unsupported external action까지 기기 실행으로 오판할 수 있다.

Benchmark 운영 원칙