A2A Benchmark and Router Evolution
이 페이지는 A2A family router 성능을 어떻게 해석해야 하는지 정리한다.
Family 성능을 볼 때의 기준
단순 전체 정확도만 보면 안 된다. 각 family는 실패 비용이 다르다.
| Family | 특히 중요한 실패 |
|---|---|
ODL |
지원하지 않는 외부/불명확 명령을 기기 실행으로 오판 |
FRG |
외부 정보/추천을 DEF 또는 STT_NULL로 놓침 |
DEF |
자연스러운 대화를 STT_NULL로 과도하게 버림 |
STT_NULL |
깨진 STT를 DEF로 억지 복구하거나, 반대로 자연스러운 발화를 버림 |
UNS |
unsupported execution을 ODL/DEF로 잘못 처리 |
DEF와 STT_NULL 경계
DEF/STT_NULL은 대표적인 회색지대다. 중요한 질문은 “지금 바로 bounded reply를 시작할 수 있는가”다.
- 가능하면
DEF. - target이 없고 whole-intent repair가 필요하면
STT_NULL. - 단순히 짧거나 noisy하다는 이유만으로 STT_NULL을 선택하면 안 된다.
FRG 경계
FRG는 public/outside target이 살아 있는지가 핵심이다.
예:
요트북 추천해줘
눈이 언제 와
드래곤 길들이기
이런 발화는 public recommendation, weather, title lookup 가능성이 있으므로 DEF/STT_NULL로 너무 빨리 닫으면 성능이 무너진다.
ODL 경계
ODL은 기기 실행 또는 local live state query가 명확해야 한다. 명령형이라는 이유만으로 ODL을 고르면 unsupported external action까지 기기 실행으로 오판할 수 있다.
Benchmark 운영 원칙
- full-test와 sample-test를 구분한다.
- prompt 변경 전후 family별 성공률을 비교한다.
- 얻는 family와 잃는 family를 함께 본다.
- DEF/STT_NULL 수용 가능 오차는 별도 보정 지표로 관리한다.
- 롤백 가능한 snapshot을 항상 남긴다.