標準 LLM 是一次性前向推導 — 像閉卷考試不能回頭修改。遇到多重約束相互衝突時,沒有重推機制,產出看似合理但邏輯錯誤的答案。
例: 「找出滿足 A ∩ ¬B ∩ C 且時間複雜度 O(n log n) 的演算法」— 標準模式常忽略 ¬B 約束
直覺反應 · ONE-PASS GENERATION
深度推理 · CHAIN-OF-THOUGHT
多個約束組合 → 解空間呈指數增長,標準模式「猜第一個合理解」就停止。
Thinking 模式: 系統性剪枝搜索樹,找到真正滿足所有約束的解。
A 成立 → B 不成立,需找折衷或回溯;標準模式選最先遇到的約束,忽略衝突。
Thinking 模式: 偵測衝突 → 重新規劃,直到所有約束同時成立。
步驟 10 的結論必須與步驟 2 一致;標準模式跨步驟一致性常在此失效。
Thinking 模式: 全局狀態追蹤 + 回溯,確保推理鏈首尾一致。
| Benchmark | 💬 GPT-4o | 🧠 o3 (High) | 增幅 |
|---|---|---|---|
| AIME 2024(數學競賽) | 9.3% | 96.7% 🔥 | +940% |
| GPQA Diamond(博士級科學) | 53.6% | 87.7% ✦ | +64% |
| SWE-bench(真實 Bug 修復) | 38.8% | 69.1% ✦ | +78% |
| Codeforces(競程約束優化) | ELO 808 | ELO 2727 🤯 | 大師級 |
| 回應速度 | 即時 ✦ | 需等待推理 | 複雜度越高越慢 |
| Token 成本 | 1× 基準 ✦ | 3–10× 更多 | 推理 token 計費 |
✦ = 該項目贏家 · o4-mini 在成本效益上更佳,o3 為旗艦推理模型
約束越多、越相互衝突 → Thinking 模式的優勢越大 因為它在輸出前先「做數學」,而不是「猜答案」。
使用策略: