📘《半導體人才培育白皮書》職位詳述版
AI GPU IC 設計人才體系|2. Subsystem Owner(L2)
(承接 L1 → L2 的關鍵躍遷,屬於「從會做 → 能負責」的核心層)
________________________________________
🔹 2. Subsystem Owner(L2)詳細敘述
________________________________________
一、職位定位
Subsystem Owner(L2)是 AI GPU IC 設計體系中的第一個「責任節點」,其本質已從單純執行者(L1)升級為「模組整體負責人」。該職位負責一個完整子系統(Subsystem)的設計、整合與交付,常見範圍包括:
• Cache subsystem(L1/L2 Cache)
• NoC(Network-on-Chip)
• Memory Controller(HBM / DRAM)
• DMA Engine
• Interconnect fabric
• Command processor / scheduler
• Queue / buffer system
Subsystem Owner 不僅負責 RTL 撰寫,更需對該子系統的功能正確性、時序收斂、介面一致性與整合穩定性負最終責任。
👉 關鍵轉變:
• L1:寫模組
• L2:負責一整塊系統(含多模組協同)
________________________________________
二、職位使命
Subsystem Owner 的使命可歸納為三大核心:
(一)確保子系統「可整合」
子系統不只是功能正確,更需與上層(Block)與下層(Module)無縫整合。
(二)確保時序與功能同時收斂
在 AI GPU 高頻設計中,Timing closure 與功能正確同樣重要,L2 必須同時兼顧兩者。
(三)成為跨角色接口樞紐
需與以下角色高度互動:
• Verification(驗證)
• PD(實體設計)
• STA(時序分析)
• Architecture(架構)
• Firmware / Driver(部分情境)
________________________________________
三、在 AI GPU 專案中的角色價值
在 GPU 架構中,Subsystem 是「Block 的構成單元」,也是設計複雜度急速上升的分界點。Subsystem Owner 的價值主要體現在:
1. 系統穩定性的第一層保證
Block Owner 無法深入每個子系統細節,Subsystem Owner 是第一層防止整體崩潰的關鍵。
2. Timing 收斂的關鍵節點
多數 timing violation 來源於 subsystem 邊界與內部設計,L2 是 timing 問題的主要處理者。
3. 整合成本控制者
若 subsystem interface 不穩定,將導致 integration cost 指數級上升。
4. GPU 效能的隱性決定者
例如:
• Cache latency
• NoC bandwidth
• Arbitration policy
這些多由 L2 設計實現細節決定。
________________________________________
四、日常工作詳細說明
Subsystem Owner 的工作已從「寫 code」轉為「管理一塊工程」。
________________________________________
(一)Subsystem 架構劃分與設計
• 定義子系統內部模組分工
• 設計資料路徑(Datapath)與控制路徑(Control)
• 確認 pipeline 深度
• 設計 buffer / queue 策略
• 定義 arbitration / scheduling 機制
________________________________________
(二)Interface 定義與管理
• 定義與其他 subsystem/block 的 interface
• 明確:
o valid / ready protocol
o latency
o ordering
o backpressure 行為
• 維護 interface version control
👉 Subsystem 最大風險通常來自 interface 不一致
________________________________________
(三)Timing Closure 管控
• 分析 critical path
• pipeline 調整
• logic restructuring
• 與 PD 討論 placement / routing
• 協助 STA 分析 violation
👉 L2 必須能回答:
• 為什麼 timing fail?
• 要用哪種方法解?
________________________________________
(四)CDC / Reset / Power Domain 管理
• 定義 clock domain crossing 策略
• reset sequence(cold / warm reset)
• power gating / clock gating 協調
• 確保跨 domain 安全性
________________________________________
(五)Verification 協作
• 定義 test plan
• 提供 golden model 或行為描述
• 協助 debug regression failure
• 確認 coverage 達標
________________________________________
(六)Integration 支援
• 與 Block Owner 對齊
• 解決 integration mismatch
• 修正 interface timing / protocol 問題
________________________________________
(七)問題追蹤與風險管理
• 建立 bug tracking
• 分級(Critical / Major / Minor)
• 設定 closure timeline
• 定期 review risk status
________________________________________
五、核心能力詳細敘述
Subsystem Owner 的能力是 L1 → L3 的關鍵轉折點。
________________________________________
(一)Subsystem Architecture 能力
需能:
• 切分 module
• 定義資料流
• 控制 flow
• 預估 latency / throughput
👉 不只是「怎麼寫」,而是「怎麼設計」
________________________________________
(二)Timing Closure 能力
需掌握:
• Critical path 分析
• Setup / Hold violation root cause
• Pipeline insertion
• Logic simplification
• Clock gating 影響
👉 Timing 是 L2 最核心能力之一
________________________________________
(三)Interface 設計能力
需確保:
• Protocol 清晰(valid/ready)
• 無隱性 timing 假設
• latency 可預測
• 可擴展性
________________________________________
(四)跨團隊協作能力
需與:
• Verification → test coverage
• PD → physical constraint
• Architecture → spec alignment
👉 L2 是第一個需要「橫向溝通」的角色
________________________________________
(五)問題分析能力(Debug Mindset)
需具備:
• waveform 分析能力
• log correlation
• root cause analysis
• 假設驗證能力
________________________________________
六、決策權詳細敘述
Subsystem Owner 已具備「局部架構決策權」。
________________________________________
可決策:
• Subsystem 架構(module partition)
• Pipeline 深度
• Arbitration policy
• Buffer / queue 設計
• Timing 解法(pipeline / restructure)
________________________________________
不可決策:
• Block architecture
• Chip-level clock strategy
• Power architecture(全域)
• Tape-out 時機
________________________________________
👉 本質:
L2 可以決定「怎麼做」,但不能決定「做什麼產品」
________________________________________
七、風險責任詳細敘述
L2 開始承擔「系統級風險」。
________________________________________
(一)Timing 失敗風險
• Critical path 未收斂
• pipeline 設計錯誤
________________________________________
(二)Integration failure
• interface mismatch
• latency 不一致
• protocol violation
________________________________________
(三)功能錯誤(跨模組)
• race condition
• ordering 問題
• deadlock
________________________________________
(四)CDC / Reset 風險
• metastability
• reset sequence 錯誤
________________________________________
(五)設計複雜度失控
• 過度設計
• 不可維護
________________________________________
八、KPI 詳細敘述
Subsystem Owner KPI 必須同時涵蓋功能、時序與整合。
________________________________________
(一)Timing closure 成功率
• 無 critical violation
• 或在 deadline 前收斂
________________________________________
(二)Integration success rate
• integration bug 最小化
________________________________________
(三)Bug density
• regression failure 次數
________________________________________
(四)Schedule adherence
• subsystem 準時交付
________________________________________
(五)Power / Performance 指標
• latency
• bandwidth
• efficiency
________________________________________
(六)Code quality
• lint clean
• CDC clean
________________________________________
九、認證標準詳細敘述
________________________________________
(一)Subsystem 實作專案
需完成完整 subsystem:
包含:
• architecture spec
• RTL
• testbench
• timing report
• integration report
________________________________________
(二)Timing closure 驗證
需展示:
• violation → root cause → 解法
• pipeline / restructuring
________________________________________
(三)Integration 測試
需通過:
• interface correctness
• multi-module interaction
________________________________________
(四)Debug 能力測試
給定 failure case,需能:
• 找 root cause
• 提出修正方案
________________________________________
(五)Code review / Design review
需通過:
• 架構合理性
• coding quality
________________________________________
十、升級路徑(L2 → L3)
________________________________________
L2 完成標準:
• 能獨立負責 subsystem
• 能完成 timing closure
• 能處理 integration 問題
• 能跨團隊溝通
________________________________________
升級至 L3 必備能力:
• Block architecture
• Risk matrix
• Tape-out decision support
• Power / IR 深度理解
________________________________________
十一、常見失敗模式
________________________________________
1. 只會寫 RTL,不會設計
→ 無法升 L3
2. 忽略 timing
→ tape-out 失敗
3. interface 定義模糊
→ integration 崩潰
4. 無法 debug 複雜問題
→ 成長停滯
5. 不與 PD / Verification 溝通
→ 系統失敗
________________________________________
十二、白皮書式總結
Subsystem Owner(L2)是半導體設計體系中第一個真正的「責任工程師」,其核心價值在於將多個模組整合為一個可運作、可收斂、可交付的子系統。該角色同時承擔設計、整合、時序與風險控制,是整體設計品質的關鍵節點。
在 AI GPU 設計中,Subsystem Owner 的能力將直接決定系統效能、功耗與可量產性。因此,L2 的培育應以「架構思維 + timing 能力 + 整合能力」為核心,而非僅強化 coding 技術。
________________________________________