判斷資料庫：專家型 AI Agent 背後真正的資產

當我們在一份營運工作裡累積多年經驗，會慢慢學會怎麼處理難搞的客戶、模稜兩可的案例，以及那些看起來很簡單、其實一點也不簡單的問題。到了某個階段，我們會希望這種工作品質能擴展到整個團隊，而不是只有少數資深的人做得到。

於是我們開始把事情寫下來。我們建立 SOP、整理內部 wiki、親自訓練新人，有時甚至一對一帶。到了今天，我們也可能把這些文件全部丟進 AI Agent，期待它立刻變成最強營運同事的數位版本。

但結果常常不是這樣。AI 會編出不存在的政策，或把一個需要細緻判斷的問題，回答得像是在照課本唸。

為什麼？因為我們規模化了文件，卻沒有規模化真正重要的東西：判斷。

這些靜態形式有用，但它們不會反過來檢查我們。它們不會主動產生新的案例讓我們處理，也不會把真實客戶對話收集起來，指出內部方法在哪裡開始失效。它們保存的是我們寫下它們那一刻的知識，卻無法讓知識跟著現實一起更新。

專業不會因為被寫成文件就變得可靠。它必須活在一個會持續浮現新情境、收集專家判斷、並迫使方法不斷改善的系統裡。

靜態知識承載不了判斷

一本手冊或一門訓練課，可以說明我們的理論，也可以示範幾個案例。但實際工作的人還是得把它套用到自己的情境裡，而真實世界的變化，永遠比任何 wiki 能涵蓋的範圍多得多。

SOP 記錄的是步驟，卻記錄不了「這件事到底有沒有做對」的判斷。團隊成員可能完成了每一個步驟，卻仍然錯過重點。指示是單向流動的，專家的判斷訊號沒有流回來。

直接訓練會好一些，前提是它包含真實案例的審查。專家可以看到具體成果、指出錯誤、解釋差別。但這種訓練很難規模化。一位專家能檢查的案例就那麼多。

這就是過去的取捨：

形式	能超越團隊規模	能保留判斷
書本／課程	✓	✗
SOP／wiki	✓	✗
直接訓練	✗	✓
Agent + 判斷	✓	✓

現在最常見的捷徑，是跳過手冊，直接把所有東西倒進 AI：對話紀錄、email、文件、過去的回答。

但這沒有真正解決問題。它多半只是教 AI 模仿那一整堆資料。

那些過去的回答，有些很好，有些很趕，有些已經過時。AI 本身不知道哪些是我們真正願意背書的。它也只會複製說出口的話，而不是當時背後的思考。我們真正的專業，藏在我們權衡過的脈絡、默默排除掉的選項，以及知道何時該停下來轉交的邊界裡。

核心問題不只是規模，而是缺少一套回饋系統：一套能持續浮現新情境、指出現有方法在哪裡失效，並把專家判斷重新帶回劇本裡的系統。沒有這個迴圈，知識就會停在原地。它可以被保存，卻不能隨著真實世界的狀況一起演化。

我們其實已經有了關鍵材料

多數營運團隊，其實早就擁有一套可靠系統需要的兩種材料。

第一種是原則：那些我們慢下來時說得清楚的規則、區分與標準。我們知道什麼重要、什麼要避免、界線在哪裡。

第二種是已經發生過的判斷時刻：那些我們看得出好答案長什麼樣子的具體案例。也許是一次處理得很乾淨的客訴，也許是某個政策例外做得剛剛好，也許是看到一份草稿時立刻知道：「不對，這不是我們應該這樣說的方式。」

問題是，這兩種材料很少真正接上。原則不一定會在工作發生的當下派上用場；而那些精準的判斷時刻，也很少被收回系統裡。知識明明存在，卻沒有累積起來。

專業的基本單位：情境 + 判斷

要把這兩種材料接起來，我們需要改變對「知識」的定義。不是只寫下規則，而是捕捉「具體脈絡」和「判斷標準」交會的地方：

情境：團隊或 Agent 可能真的會遇到的狀況。
判斷：在這個狀況裡，一個好回覆必須達到的標準。

實際上會像這樣：

情境（測試）： 客戶因為航班取消，要求例外退費。
基準回答（理論）：「不好意思，我們的政策規定超過 30 天不能退費。」
我們的判斷（標準）： 不通過。 Agent 必須先承認航班取消這個特殊狀況，指出可能適用的不可抗力例外流程，並轉交給真人處理，而不是直接拒絕。

再看一個技術支援機器人的例子：

情境： 使用者問了一個模糊的技術問題，可能代表兩種完全不同的意思。
基準回答： Agent 猜一個最可能的意圖，然後自信地給出五段技術說明。
我們的判斷： 不通過。 Agent 在提供任何步驟前，必須先問一個明確的釐清問題，縮小使用者真正想問的是什麼。

這就是專業開始能被系統使用的地方。情境保留了真實世界的混亂，判斷保留了我們對「好」的標準。兩者合在一起，就能把一次性的專家修正，變成可以重複使用、可以自動檢查的標準。

Agent 照劇本執行，判斷負責驗證

用這種方式打造的智能系統，有兩個不同的部分。

劇本（Agent 設定）——我們的指示、system prompt 和知識庫。這是我們目前對「工作應該怎麼做」的最佳理解。

驗證標準（情境與判斷）——一個具體、真實的狀況，搭配一個好回覆必須達到的標準。它用來證明這份劇本是不是真的有效。

真正有力量的不是其中任何一邊，而是兩者之間的迴圈。Agent 根據目前的劇本回答；情境與判斷檢查這個回答是否符合我們的標準。當它沒達標時，那不只是錯誤，而是一個精準訊號，告訴我們方法哪裡需要改。

可執行的迴圈

1劇本開始運行Agent 依照目前的文件與指示產生回答。

2判斷進行檢查這個回答，有達到我們為這個情境設定的標準嗎？

3落差浮現我們看見自動化回答和專家做法之間，具體差在哪裡。

4修正劇本把方法修好，然後讓迴圈再次運行，在機器規模下驗證修正是否有效。

這會徹底改變營運專家的角色。我們不需要親自 QA 每一場對話，也不需要盲目相信 SOP 有被正確執行。系統負責日常執行，而我們把時間放在更重要的地方：檢查系統哪裡薄弱、補上新的判斷、持續改善劇本。

真正的資產是判斷資料庫

有了判斷，我們可以重建 Agent；只有 Agent，卻還原不出那些判斷。

多數平台把 Agent 設定當成主要資產，把評估當成事後補上的 QA。我們認為這剛好反了。

判斷，才是團隊真正標準所在。Agent 設定只是我們目前為了達到這個標準，做出的最佳嘗試。

Agent 會改變。我們會學到新東西，商業現實會改變，底層模型會更新，prompt、文件和工作流程也都會被重寫。穿過這些變化時，判斷資料庫才是穩定的錨點，告訴我們每個新版本到底有沒有變好。

只要有一套夠完整的情境與判斷，我們就能從零重建 Agent，因為這套資料庫已經清楚定義了什麼叫做「好」。但如果只有 Agent，我們無法反推出那些判斷。我們不知道哪些行為最重要、哪些錯誤不能接受，也不知道改一段 prompt 會不會破壞原本重要的表現。

這也符合專家判斷實際運作的方式。要坐下來寫出一套完整、毫無漏洞的理論，非常困難。但看著一個具體輸入和輸出，然後說「不對，這裡錯了，因為……」通常容易得多。

情境與判斷就是利用這個自然優勢。我們不需要先寫出完美劇本，只需要持續判斷系統有沒有達到我們的標準。

系統是如何改善的

一個失敗的 AI 回答不是死路。它是一個精準的診斷工具，會指出我們寫下來的指示缺了哪些原本只存在於腦中的專業。

我們執行一個情境。Agent 忠實照著指示做，也確實做了我們叫它做的事，但結果仍然沒有達到標準。

這個失敗非常有價值。它揭露了我們寫下來的方法，和我們真正想表達的方法之間的落差。這時候，我們可以問一個更有用的問題：我們真正的意思是什麼，而我們之前沒有把它說清楚？

有時候，修正是一份缺少的文件。有時候，是 wiki 裡有一條互相矛盾的指示。有時候，是團隊一直放在腦中、卻從來沒有明確命名的細微差別。一旦這個差別被寫進劇本，其他許多情境也會一起改善。

真實營運會讓這個迴圈更強。客戶問了一個我們沒預期到的問題；Agent 轉交、答錯，或暴露出內部流程裡一個令人困惑的地方。這些混亂的現實會變成新的情境，而我們的人工修正會變成新的判斷。系統之所以會進步，是因為現實不斷提供新的案例，逼它一起演化。

先打造判斷資料庫

Codeer 還很早期，這套工作方式也還很早期。但如果你正在嘗試自動化一個團隊，或打造一套內部專業系統，下一步其實很清楚：不要只是不斷微調 system prompt，而是開始累積情境與判斷。

不要把它們當成事後的 QA 或普通測試。它們是你的營運護城河。它們定義品質標準，在底層 AI 模型改變時保護你的團隊，也把每一次混亂的真實對話，轉化成系統性的改善。

如果你準備好停止打造靜態 Agent，開始真正規模化專家判斷，可以免費開始使用 Codeer 或預約示範。