接近2025年底,概括总结了一下2025这一年的一些AI关键事件。

时间 事项 备注
2025.12.16 OpenAI GPT-Image-1.5 不管是从零生成,还是对图片进行局部编辑,更接近你脑子里想的那个结果;并且生成速度最高可达 4 倍提升。实测:比配套Nano Banana Pro强。
2025.12.11 OpenAI GPT 5.2 GPT-5.2 能够在真实复杂工作流程中高效协作,从代码分析、财务建模、工程设计,到研究论文分析、实验结果推理,都能提供高质量辅助。
2025.11.21 Google Nano Banana Pro
(aka Gemini 3.0 Pro Image)
全球首个“推理至像引擎”,不仅是绘画,更是理解物理规律与空间逻辑。作为 Nano Banana 的旗舰升级版,它像人类一样“思考”和“规划”场景,生成前所未有的逻辑一致性,完美文本和高分辨率的视觉作品。
2025.11.16 Google Gemini 3.0 pro 全面高刷。同时发布Antigravity 编程IDE,生成式前端UI能力遥遥领先,可以快速实现各种交互式H5应用。
2025.11.12 OpenAI GPT 5.1 将GPT-5 和 GPT-5 Mini 合并为一个能适应问题难度的自适应调整思考用量的模型。相比GPT5,语气更亲切、更幽默,更善于遵循指令。整体性能介于GPT-5 和 GPT-5 Mini 之间。
2025.10.16 Google Veo 3.1 主打更强叙事与音频控制、音乐韵律与多参考图拼接,接入 Gemini API与Vertex AI。Flow与Gemini可用。可合成多人物场景、语音同步,片段最长约146秒;规格至1080p/24fps。
2025.10.01 OpenAI Sora2 非常好的物理世界理解能力,同时推出了Sora APP,定位AI短影音。号称视频领域的GPT-3.5时刻。
2025.09.09 字节发布 Seedream 4.0 定位“生成与编辑一体化”专业工具。编辑能力强甚至部分超过nano banana。
2025.08.27 Google Nano Banana
(aka Gemini 2.5 Flash Image)
具有极好的编辑能力,能够多图融合、强一致性,替代GPT4o成为图片编辑的王者。SOTA of 图像模型。
2025.08.26 通义万相 Wan2.2-S2V-14B 一个可以跑动的14B视频模型,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级叙事/人视频。
2025.08.26 即梦AI智能多模 传统的拼接是两个团队,各干各的,最后硬拼在一起。而堆叠多帧是一个全真全参数带上下文的团队,大家各让一步处理,因此能做到四宽的一致性。堆叠多帧背后的底层逻辑:即一体的全局考虑。
2025.08.21 GenSpark AI Designer 一款革命性的AI设计工具,能够一键生成完整的多屏设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛。
2025.08.20 DeepSeek V3.1 代码能力极高,但文本能力并未提高,甚至有某些下降。
2025.08.19 Qwen-Image-Edit 全能图像编辑。
2025.08.08 OpenAI GPT5 一个统一的系统,包含一个能够解决大多数问题的智能快速模型、一个能够解决复杂长问题的深度推理模型,以及一个实时语音器。可以根据对话类型、复杂性、工具需求判断意图并快速决定使用哪个模型。
2025.08.06 OpenAI 开源模型
GPT-oss-120b和GPT-oss-20b
性能与兼容性兼具,非英文表现不好。
2025.08.05 Google Genie3 新一代生成式世界模型——Genie3。根据文本创造一个可以实时交互的世界。
2025.08.04 Qwen-image 通义千问团队开源的首个图像生成基础模型,在解决传统文生图模型文字渲染难题上实现了突破性进展,尤其在中文场景下表现突出。
2025.07.23 Qwen3-coder 拥有卓越的代码Agent能力,在Agentic Coding、Agentic Browser-Use 和 Foundational Coding Tasks 上均取得了开源模型的 SOTA 效果。
2025.07.12 Kimi K2 将模型权重代码全量开源。大模型竞技场LMArena排行榜中,Kimi K2综合排名斩获全球第五,在开源大模型中位居全球第一。
2025.07.09 xAI Grok 4 极其激进的快速迭代。推出 Grok 4 Heavy,引入多智能体架构,针对复杂科研任务优化,算力规模再创新高。
2025.07.05 Gemini CLI 开源命令行界面工具,它将谷歌强大的 Gemini AI 模型直接集成到开发者常用的终端环境中,更擅长服务于编程。
2025.07.02 Flux图像模型
Kontext Dev模型正式开始
强一致性、强理解力。
2025.06.24 Imagen4 显著改善文本渲染效果,进一步提升了文本转图像的生成质量。
2025.06.22 Gemini 2.5 Flash/Pro
2025.06.11 Seedance1.0 字节跳动推出的一款高性能和推理极致的视频语言生成模型。
2025.05.23 Claude code 智能化辅助写代码工具,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库,前端编程领域无人能敌。
2025.05.21 Veo3 首个可生成视频背景音效模型,体会画面感、配合感、生成人物对话,物理模拟与口型同步表现优异。
2025.04.29 Qwen3 国产最强开源模型。
2025年5月 Loverr设计Agent 2025年7月28日正式上线。
2025.04.05 Meta Llama 4 Meta发布开源模型 Llama 4(包含Scout和Maverick版本)。
2025.03.26 GPT4o改图能力 一致性能力好,响应慢。
2025.03.06 通用Agent
Manus, GenSpark, Flowith
2025.02.17 xAI Grok 3 Elon Musk 发布 Grok 3,宣称其为“地球上最聪明的AI”。
2025.01.20 DeepSeek R1 国产开源推理模型,媲美OpenAI o1。