🔥 今日头条
1. OpenAI 发布 GPT-5.5-Cyber + Patch the Planet
OpenAI 今日正式发布三项网络安全产品: - GPT-5.5-Cyber:在 CyberGym 基准达 85.6%(普通 GPT-5.5 为 81.8%),专为授权防御性安全任务优化,支持深度代码分析、漏洞追踪、补丁开发 - Codex Security 插件:将漏洞扫描嵌入开发者 IDE 工作流 - Patch the Planet 计划:与 Trail of Bits、HackerOne 合作,已覆盖 30+ 开源项目(cURL、Go、Python、Sigstore 等),5 天冲刺发现数百个安全问题并合并数十个补丁
这是 OpenAI 对 Anthropic Project Glasswing 的直接回应,战略逻辑相同:修复关键基础设施漏洞,赢得政府信任。
2. GPT-5.6 预计本周四(6月25日)发布
OpenAI 首席科学家确认 GPT-5.6 是"有意义的飞跃"。泄露信息显示: - 上下文窗口达 150 万 tokens(较 GPT-5.5 提升 43%) - 代号 iris-alpha 已在 Codex 后端日志中出现 - 可能包含 UltraFast Codex 模式和 Playwright 集成 - 同时泄露的还有 GPT-5.6 Pro 版本
3. SpaceX 签署 63 亿美元 Reflection AI 算力协议
Reflection AI 将从 2026 年 7 月起每月支付 1.5 亿美元,至 2029 年,用于 GB300 算力接入 Colossus 2 超算集群。SpaceX 自 IPO 以来已签署 800 亿美元+ 的承诺算力收入。
🏆 模型竞赛
Anthropic Claude Opus 4.8 登顶
- ScienceQA 平均分 76.4,首个突破 75 分的 AI 模型
- 科学推理 77.19 分,全球第一
- SWE-Bench Pro 编程基准 69.2%,超越 GPT-5.5
- 速度提升 2.5 倍,价格降低约 2/3
- Claude Code 年化收入接近 63 亿美元,AI 编程 Agent 市占率 54%
- Anthropic 估值达 9650 亿美元,首次超越 OpenAI
OpenAI GPT-5.5 Instant
- 已设为 ChatGPT 默认模型,面向 10 亿用户
- 幻觉率降低 52.5%,支持 100 万 tokens 上下文
- Codex 核心能力即将整合进 ChatGPT
Google Gemini 系列
- Gemini 3.5 Flash 全面上线,推理速度 284-289 tokens/秒
- Gemini Omni:世界模型,原生支持视频生成
- Gemini Spark:常驻 AI Agent / 数字分身
微软 MAI 系列
- Build 2026 发布 7 款自研 MAI 模型
- MAI-Thinking-1:350 亿参数,稀疏 MoE 架构,256K 上下文
- 战略定位:加速脱离 OpenAI 依赖
🇨🇳 中国 AI 军团
| 厂商 | 模型/产品 | 亮点 |
|---|---|---|
| 阿里云 | Qwen3.7-Plus | 视觉能力全球第五、中国第一,多模态智能体闭环 |
| DeepSeek | V4 | 百万上下文,全面开源,成本仅为 GPT-5 的 1/30 |
| MiniMax | M3 | 编程能力号称超 GPT-5.5,启动 A 股 IPO 辅导 |
| 月之暗面 | Kimi K2.6 / Kimi Work | 原生多模态,ARR 破 1 亿美金,Kimi Work 内测 |
| 字节跳动 | Seedance 2.0 | 视频模型保持领先,计划投入约 2000 亿布局 AI |
| 普渡机器人 | PUDU D7 | 端到端数据收集架构,具身智能新方向 |
行业标准里程碑
6 月 1 日,国内首份具身智能行业标准 YD/T 6770—2026 正式实施,标志着具身智能从实验室走向产业化。
🍎 Apple 全面重构 Siri
苹果在 WWDC 上展示全新 Siri: - 理解屏幕上下文 - 搜索消息和照片 - 执行多步骤操作 - 跨应用导航 - 保持对话记忆 - 跨设备无缝切换(iPhone、iPad、Mac)
苹果控制着超过 10 亿台活跃设备,这是历史上最大规模的 AI 部署之一。
🤖 AI 编程 Agent 排行榜(截至 6 月 18 日)
| 排名 | 工具 | Terminal-Bench v2 | 特点 |
|---|---|---|---|
| 1 | Codex + GPT-5.5 | 83.4% | OpenAI 生态 |
| 2 | Claude Code + Fable 5 | 83.1% | Anthropic 生态 |
| 3 | Cursor 3.5 | - | 编辑器集成 |
| 4 | Copilot | - | GitHub 生态 |
| 5 | OpenCode | - | 开源方案 |
💡 行业洞见
- AI 安全竞赛白热化:OpenAI 和 Anthropic 竞相通过网络安全赢得政府信任和保护
- 多极格局形成:微软自研 MAI、Google Gemini、Anthropic、OpenAI 四强并立
- AI 编程 Agent 成为主战场:Claude Code 年化 63 亿美元,Codex 整合 ChatGPT
- 中国 AI 加速追赶:Qwen3.7、DeepSeek V4、MiniMax M3 齐发,具身智能标准落地
- GPT-5.6 即将发布:150 万上下文、迭代速度惊人(GPT-5.5 发布仅 3 周后)
数据来源:OpenAI、Anthropic、Google、微软、阿里云、DeepSeek、MiniMax、月之暗面、字节跳动等公开信息