Elon Musk 領導的 xAI 即將推出全新 AI 模型 Grok 4!這款 AI 被 Elon Musk 譽為 xAI 的「最新、最強大旗艦模型」又有幾強大呢?讓 Etopia 帶你一起來看看 Grok 4 的亮點、與 Grok 3 的比較!

Grok 4 發佈時間與直播詳情

image 48

根據 Elon Musk 在 X 平台上的最新公告,Grok 4 將於 2025 年 7 月 9 日(星期三)晚上 8 點太平洋時間(PT)正式發佈,屆時將透過 xAI 的 X 官方帳號進行直播(直播詳情)。對於香港讀者來說,這相當於 2025 年 7 月 10 日(星期四)上午 11 點香港時間(HKT)。記得標記日曆,準備好見證 AI 技術的新里程碑!

這次發佈原定於 7 月 4 日後進行,xAI 最終選擇在 7 月 9 日推出,跳過了原計劃的 Grok 3.5 版本,直接帶來更強大的 Grok 4。這顯示了 xAI 在 AI 競爭日益激烈的環境下,力求快速推出更先進的技術。

Grok 4 的亮點

image 49

根據 xAI 的官方消息,Grok 4 是他們的最新旗艦模型,擁有「Thinking—Bigger and Smarter」的特色,專注於自然語言處理、數學計算和邏輯推理。Grok 4 分為兩個版本:通用模型和專為程式設計打造的 Grok 4 Code。通用模型適用於寫作、研究、翻譯和邏輯推理等任務,而 Grok 4 Code 則是開發者的最佳夥伴,能與程式設計工具(如 Cursor)整合,提供程式碼生成、錯誤檢測和軟件開發支援。

Grok 4 的多模態支持令人期待。雖然目前以文字處理為主,但 xAI 計劃很快加入視覺、圖像生成,甚至可能包括視頻和音頻處理功能。這意味著 Grok 4 將能應對更複雜的任務,為香港用戶在學術、商業或創意領域提供更全面的 AI 體驗。

在基準測試中,Grok 4 表現亮眼。以下是其在主要測試中的成績:

測試項目Grok 4 分數備註
2025 AIME(美國數學邀請賽)95%顯示出色的數學能力,超越前代 Grok 3 的 93.3%
GPQA(畢業生級別專家推理)87%(標準)/ 88%(推理)展現強大的邏輯推理能力
HLE(Humanity’s Last Exam)45%(標準)/ 45%(推理)比前代模型(如 Gemini 2.5 Pro 的 21%)高出顯著
SWE-Bench(程式設計基準)72%(標準)/ 75%(推理)顯示程式設計能力的提升,特別是 Grok 4 Code 版本

此外,Grok 4 的上下文窗口達到 130,000 tokens,雖然不如 GPT-5 的預期規模,但已足以應對大多數複雜任務。xAI 還強調 Grok 4 在速度、邏輯性和多語言支持上的改進,特別適合香港這樣的多語言環境。

Grok 4 與 GPT-5 和 Gemini-3 的比較

GPT-5:OpenAI 的下一代巨頭

image 50

OpenAI 的 GPT-5 預計於 2025 年夏天發佈,據 OpenAI 執行長 Sam Altman 的路線圖,GPT-5 將擁有超過 100 萬 tokens 的上下文窗口,遠超 Grok 4 的 130,000 tokens。這意味著 GPT-5 能處理更長的文本和更複雜的任務,可能在學術研究或長篇內容生成中佔優勢。然而,目前沒有 GPT-5 的具體基準數據,僅能推測其性能將超越 GPT-4o(現有模型,AIME 分數約 53.6%)。

Gemini-3:Google 的多模態未來

image 51

Google 的 Gemini-3 尚未有明確發佈日期,但根據 Google 的發展趨勢,Gemini-3 可能專注於多模態整合,特別是在視覺、圖像和可能的視頻處理方面。Google 的前代模型 Gemini 2.5 Pro 已展現出色的多模態能力(例如文字和圖像處理),並使用 TPU v5p 加速運算。Gemini-3 可能進一步提升這些功能,但目前缺乏具體基準數據。

Google Veo 3 正式推出:Google最新AI影片生成工具功能、收費|美國付費用戶率先試用 (附官方示範AI影片)

Grok 4 的競爭優勢

Grok 4 在當前基準測試中表現出色,特別是在數學和程式設計領域。它的 Grok 4 Code 版本專為開發者設計,與 IDE(如 Cursor)的整合使其在程式設計應用中具有獨特優勢。此外,Grok 4 的多語言支持和即將推出的多模態功能,使其在香港這樣的多文化市場中具備競爭力。