AI大事记@2025 - 后端技术杂谈

接近2025年底，概括总结了一下2025这一年的一些AI关键事件。

时间	事项	备注
2025.12.16	OpenAI GPT-Image-1.5	不管是从零生成，还是对图片进行局部编辑，更接近你脑子里想的那个结果；并且生成速度最高可达 4 倍提升。实测：比配套Nano Banana Pro强。
2025.12.11	OpenAI GPT 5.2	GPT-5.2 能够在真实复杂工作流程中高效协作，从代码分析、财务建模、工程设计，到研究论文分析、实验结果推理，都能提供高质量辅助。
2025.11.21	Google Nano Banana Pro (aka Gemini 3.0 Pro Image)	全球首个“推理至像引擎”，不仅是绘画，更是理解物理规律与空间逻辑。作为 Nano Banana 的旗舰升级版，它像人类一样“思考”和“规划”场景，生成前所未有的逻辑一致性，完美文本和高分辨率的视觉作品。
2025.11.16	Google Gemini 3.0 pro	全面高刷。同时发布Antigravity 编程IDE，生成式前端UI能力遥遥领先，可以快速实现各种交互式H5应用。
2025.11.12	OpenAI GPT 5.1	将GPT-5 和 GPT-5 Mini 合并为一个能适应问题难度的自适应调整思考用量的模型。相比GPT5，语气更亲切、更幽默，更善于遵循指令。整体性能介于GPT-5 和 GPT-5 Mini 之间。
2025.10.16	Google Veo 3.1	主打更强叙事与音频控制、音乐韵律与多参考图拼接，接入 Gemini API与Vertex AI。Flow与Gemini可用。可合成多人物场景、语音同步，片段最长约146秒；规格至1080p/24fps。
2025.10.01	OpenAI Sora2	非常好的物理世界理解能力，同时推出了Sora APP，定位AI短影音。号称视频领域的GPT-3.5时刻。
2025.09.09	字节发布 Seedream 4.0	定位“生成与编辑一体化”专业工具。编辑能力强甚至部分超过nano banana。
2025.08.27	Google Nano Banana (aka Gemini 2.5 Flash Image)	具有极好的编辑能力，能够多图融合、强一致性，替代GPT4o成为图片编辑的王者。SOTA of 图像模型。
2025.08.26	通义万相 Wan2.2-S2V-14B	一个可以跑动的14B视频模型，仅需一张图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑的电影级叙事/人视频。
2025.08.26	即梦AI智能多模	传统的拼接是两个团队，各干各的，最后硬拼在一起。而堆叠多帧是一个全真全参数带上下文的团队，大家各让一步处理，因此能做到四宽的一致性。堆叠多帧背后的底层逻辑：即一体的全局考虑。
2025.08.21	GenSpark AI Designer	一款革命性的AI设计工具，能够一键生成完整的多屏设计方案，涵盖Logo、包装、网站设计等多个领域，极大地降低了设计门槛。
2025.08.20	DeepSeek V3.1	代码能力极高，但文本能力并未提高，甚至有某些下降。
2025.08.19	Qwen-Image-Edit	全能图像编辑。
2025.08.08	OpenAI GPT5	一个统一的系统，包含一个能够解决大多数问题的智能快速模型、一个能够解决复杂长问题的深度推理模型，以及一个实时语音器。可以根据对话类型、复杂性、工具需求判断意图并快速决定使用哪个模型。
2025.08.06	OpenAI 开源模型 GPT-oss-120b和GPT-oss-20b	性能与兼容性兼具，非英文表现不好。
2025.08.05	Google Genie3	新一代生成式世界模型——Genie3。根据文本创造一个可以实时交互的世界。
2025.08.04	Qwen-image	通义千问团队开源的首个图像生成基础模型，在解决传统文生图模型文字渲染难题上实现了突破性进展，尤其在中文场景下表现突出。
2025.07.23	Qwen3-coder	拥有卓越的代码Agent能力，在Agentic Coding、Agentic Browser-Use 和 Foundational Coding Tasks 上均取得了开源模型的 SOTA 效果。
2025.07.12	Kimi K2	将模型权重代码全量开源。大模型竞技场LMArena排行榜中，Kimi K2综合排名斩获全球第五，在开源大模型中位居全球第一。
2025.07.09	xAI Grok 4	极其激进的快速迭代。推出 Grok 4 Heavy，引入多智能体架构，针对复杂科研任务优化，算力规模再创新高。
2025.07.05	Gemini CLI	开源命令行界面工具，它将谷歌强大的 Gemini AI 模型直接集成到开发者常用的终端环境中，更擅长服务于编程。
2025.07.02	Flux图像模型 Kontext Dev模型正式开始	强一致性、强理解力。
2025.06.24	Imagen4	显著改善文本渲染效果，进一步提升了文本转图像的生成质量。
2025.06.22	Gemini 2.5 Flash/Pro
2025.06.11	Seedance1.0	字节跳动推出的一款高性能和推理极致的视频语言生成模型。
2025.05.23	Claude code	智能化辅助写代码工具，旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库，前端编程领域无人能敌。
2025.05.21	Veo3	首个可生成视频背景音效模型，体会画面感、配合感、生成人物对话，物理模拟与口型同步表现优异。
2025.04.29	Qwen3	国产最强开源模型。
2025年5月	Loverr设计Agent	2025年7月28日正式上线。
2025.04.05	Meta Llama 4	Meta发布开源模型 Llama 4（包含Scout和Maverick版本）。
2025.03.26	GPT4o改图能力	一致性能力好，响应慢。
2025.03.06	通用Agent Manus, GenSpark, Flowith
2025.02.17	xAI Grok 3	Elon Musk 发布 Grok 3，宣称其为“地球上最聪明的AI”。
2025.01.20	DeepSeek R1	国产开源推理模型，媲美OpenAI o1。

评论