B2A 인프라는 AI가 상품을 읽게 만듭니다. 그러나 더 중요한 질문은 읽은 뒤에 무엇이 일어났는가입니다. 사용자가 ChatGPT에서 상품을 묻고, AI가 카탈로그를 조회하고, 세 브랜드를 추천하고, 사용자가 클릭하고, Shopify에서 주문하는 전체 흐름을 한 참여자가 모두 보지는 못합니다.
ChatGPT는 추천 내용을 알지만 구매 여부는 모릅니다. Shopify는 주문을 알지만 어떤 AI 추천이 출발점이었는지 모릅니다. GA4는 일부 referrer를 보지만 질문 맥락과 경쟁 후보를 보지 못합니다. UCP는 카탈로그 요청을 보지만 사이트 행동을 보지 못합니다. 이것이 증거 공백입니다.
이 공백은 설계 실수가 아니라 구조적 결과입니다. 프로토콜은 상호운용성을 해결하고, AI 플랫폼은 외부 이동 후 행동을 추적하지 않으며, 판매자 분석 도구는 AI 상류 맥락을 이해하지 못합니다. 그래서 AI 매출 기여가 과소평가됩니다.
CitationGraph는 AIAA 5계층으로 이 중간을 채웁니다. Answer는 AI 답변, Request는 Agent 요청, Visit은 AI 유입, Commerce는 사이트 행동, Attribution은 주문 연결입니다. GEO 도구가 상류만 보고 attribution 도구가 하류만 본다면 CitationGraph는 둘을 증거 체인으로 연결합니다.
브랜드는 프로토콜 성숙을 기다릴 필요가 없습니다. 먼저 first-party JS로 AI 유입을 식별하고, Edge Lite로 서버 요청을 관찰하고, session-to-order join으로 매출까지 연결해야 합니다.
실무 관점에서 AI 추천부터 주문까지의 증거 공백는 단발성 콘텐츠 과제가 아닙니다. 상품 데이터, AI 답변에서의 표현, Agent 요청, 유입 이후 행동, 주문 연결을 하나의 증거선으로 봐야 합니다. 그렇지 않으면 팀은 “AI 쪽에서 뭔가 늘고 있다”는 말 이상으로 예산과 우선순위를 결정할 수 없습니다.
또 하나 중요한 점은 과도한 단정을 피하는 것입니다. AI 검색과 Agentic Commerce 측정은 아직 성숙 중입니다. prompt sampling, referrer, server log, Shopify order는 각각 장단점이 있습니다. 여러 약한 신호를 단순히 합산하기보다 계층별 신뢰도를 명확히 두고 개선 순서를 정해야 합니다.
보강: 증거 공백을 단계별로 쪼개야 한다
증거 공백은 추상적인 문제가 아닙니다. 하나의 구매 여정에서 각 시스템이 서로 다른 조각만 보유하기 때문에 생깁니다.
단계 | 보는 주체 | 보지 못하는 것 |
|---|---|---|
사용자가 AI에 질문 | AI 플랫폼 | 브랜드, GA4, Shopify |
AI가 카탈로그나 페이지를 읽음 | AI 플랫폼, 일부 Edge log | 일반 브라우저 분석 |
AI가 후보를 추천 | AI 플랫폼 | 판매자 매출 시스템 |
사용자가 사이트에 도착 | GA4, first-party JS | 원 질문과 비교 후보 |
상품을 보고 비교 | GA4, Shopify Pixel | AI 추천 이유 |
장바구니 추가 | Shopify, Web Pixel | AI 플랫폼 |
주문 완료 | Shopify, 결제 시스템 | 상류 AI 맥락 |
주문 후 재방문 | CRM, support | 처음 AI 접점 |
하나의 완벽한 로그로 이 문제를 해결하기는 어렵습니다. 필요한 것은 증거 강도를 구분해 연결하는 것입니다. Answer는 추천 존재, Request는 Agent 접근, Visit은 도착, Commerce는 행동, Attribution은 주문 연결을 의미합니다.
비어 있는 증거 | CitationGraph 역할 | 주요 데이터 |
|---|---|---|
AI가 우리를 추천했는가 | Answer evidence와 SOV 저장 | Prompt sampling, 답변 snapshot |
AI Agent가 읽었는가 | Request visibility 생성 | Edge Lite, server log, bot signature |
사용자가 AI에서 왔는가 | AI referrer와 first-party visit 식별 | JS, UTM, referrer, landing path |
도착 후 무엇을 했는가 | Commerce 행동 연결 | Shopify Pixel, GA4, event stream |
매출로 이어졌는가 | Session-to-order join 수행 | Order, session id, campaign context |
중요한 원칙은 약한 증거를 강한 증거처럼 말하지 않는 것입니다. AI 답변 노출은 인과가 아닙니다. AI referrer는 방문 증거이지 매출 증거가 아닙니다. 주문 연결은 강하지만 추천 이유를 단독 설명하지 못합니다. 계층을 나누면 의사결정은 더 명확해집니다.
이 공백을 방치하면 조직 내 해석이 갈라집니다. 콘텐츠 팀은 AI 언급이 늘었다고 말하고, 퍼포먼스 팀은 GA4에서 매출이 보이지 않는다고 말하며, 데이터 팀은 referrer 품질이 낮다고 말합니다. 모두 일부는 맞지만 전체를 설명하지 못합니다. 그래서 보고서는 단일 숫자보다 계층별 표준 정의가 먼저 필요합니다. 어떤 지표가 노출인지, 방문인지, 보조인지, 매출인지 구분해야 예산 논의가 성립합니다.
이 기준이 있어야 다음 실험도 설계할 수 있습니다. 예를 들어 llms.txt를 고친 뒤에는 Answer와 Request를 먼저 보고, landing page를 고친 뒤에는 Visit과 Commerce를 보고, order join을 고친 뒤에는 Attribution을 봐야 합니다. 모든 실험을 매출 하나로만 판단하면 개선 효과가 나타난 위치를 잃어버립니다.
보강: AI 상거래의 증거 공백를 실무에서 판단하는 법
이 주제를 현장에서 다룰 때는 AI 상거래의 증거 공백를 유행어가 아니라 운영 의사결정으로 보아야 합니다. 특히 추천, 방문, 행동, 주문의 분절가 어느 팀의 책임인지, 어떤 데이터로 뒷받침되는지, 얼마나 자주 갱신되는지를 먼저 정해야 합니다. 이 부분이 모호하면 글과 FAQ를 늘려도 AI가 참고할 증거는 안정되지 않습니다.
첫 단계는 “AI가 읽을 수 있는 것”과 “사람이 화면에서 이해하는 것”을 분리하는 일입니다. 상세 페이지가 좋아 보여도 구조화 데이터, feed, 정책, 리뷰, 내부 링크가 약하면 Agent는 강하게 추천하기 어렵습니다. 반대로 대형 캠페인이 없어도 Answer, Request, Visit, Commerce, Attribution가 잘 정리되어 있으면 비교형 질문에서 후보로 남을 가능성이 생깁니다.
측정도 같은 방식으로 쪼개야 합니다. 주간 리포트에서는 노출, Agent request, AI 유입 visit, 사이트 행동, 주문 연결을 따로 봅니다. 월간 리포트에서는 같은 정의로 비교 가능한 숫자만 성장으로 봅니다. 새 태그나 Edge 측정을 넣은 직후의 증가는 실제 수요 증가가 아니라 관측 범위 확장일 수 있습니다.
개선 순서도 고정해야 합니다. 먼저 AI의 오해를 줄이고, 다음으로 읽을 수 있는 데이터를 늘리고, 그다음 도착 이후 경험을 정리하며, 마지막에 매출 연결을 강화합니다. 이 순서를 지키면 단기 숫자가 흔들려도 팀은 어떤 계층을 개선하고 있는지 잃지 않습니다.
한국어 버전에서도 단순 번역은 충분하지 않습니다. Naver, Google, 커뮤니티, 리뷰, 마켓플레이스, 자사몰이 함께 작동하기 때문에 각 접점의 증거가 맞아야 합니다. AI가 한국어 질문에서 브랜드를 설명할 때 실제 포지셔닝과 가격, 배송, 반품 조건을 틀리지 않는 것이 기본입니다.
FAQ
Q1: 증거 공백이란 무엇인가요?
A: AI 추천부터 주문까지 이어지는 중간 측정 체인의 공백입니다.
Q2: 프로토콜이 성숙하면 해결되나요?
A: 아닙니다. 프로토콜은 상호운용성이고 측정 시스템이 아닙니다.
Q3: 어디서 시작해야 하나요?
A: Visit 계층, Edge Lite, session-to-order join 순서가 현실적입니다.
Q4: 광고팀에는 어떤 의미인가요?
A: AI 기여가 Direct나 Organic으로 흡수되어 예산 경쟁에서 저평가됩니다.