探索 AI 技术发展历程

记录文生图、文生视频、大语言模型等技术在发展过程中的重要时间点

GitHub 交流群

文生图/视频 LLM（即将到来）新标签打开

AI 生图模型发展史

一个记录了生成式 AI 中的文生图、文生视频模型等不同技术重要时间点的发展史。 Fork 自 Fabian Mosele

LeNet-5

1998年

最早的卷积神经网络之一，设计用于手写和机器打印字符识别。

媒体来源

论文

ImageNet

2009年6月 20日 — 2009年6月 25日

包含超过1400万张图像的数据集，所有图像都有人工标注的内容描述。当时最大的图像数据集，推动了计算机视觉研究的发展。

媒体来源

论文

AlexNet

2012年9月 12日

在2012年ImageNet竞赛（ILSVRC12）中，这个卷积神经网络革新了图像分类的方式。

加载中

Microsoft COCO

2014年5月 1日

大规模目标检测、分割和描述数据集，包含超过20万张标注图像。

加载中

General Adversarial Network (GAN)

2014年6月 10日

一个用于在两个对抗神经网络之间生成图像的机器学习框架。

加载中

GoogLeNet

2014年9月 17日

谷歌在ILSVRC14上提出的卷积神经网络。

加载中

DeepDream

2015年7月 1日

谷歌的计算机程序以其迷幻的视觉效果为特征。是可视化神经网络如何识别和生成图像模式的首个用例之一。

加载中

alignDRAW

2015年11月 9日

最早的文生图模型之一，是DRAW网络（深度递归注意力写入器）的扩展。该模型在微软COCO数据集上训练。

加载中

StyleTransfer

2016年 5月

一个能够分离图像内容和风格并将不同的内容和风格结合的深度神经网络。

加载中

Pix2Pix

2016年11月 21日

一个条件对抗网络，可以从特定类别的标签图生成图像。

加载中

StackGAN

2016年12月 10日

最早基于生成对抗网络（GAN）的文生图模型之一，通过将工作负载分成两个独立的阶段生成256x256图像。

加载中

CycleGAN

2017年3月 30日

一种能够将图像内容更改为另一个类别的GAN类型。

加载中

AttnGAN

2017年11月 28日

最早基于生成对抗网络（GAN）的文生图模型之一。

加载中

BigGAN

2018年9月 28日

一个能够生成多个类别图像的大规模GAN。

加载中

StyleGAN

2018年12月 12日

NVIDIA受风格迁移技术启发的GAN。首次生成的面孔看起来异常真实，通过thispersondoesnotexist.com/网站（现由StyleGAN2提供支持）变得流行。

加载中

GauGAN

2019年3月 18日

NVIDIA通过标签图生成真实景观的GAN。2021年发布的GauGAN2现由NVIDIA Canvas提供支持。

加载中

Artbreeder (GANBreeder)

2019年11月 19日

一个工具，能够在现实肖像或动漫面孔等类别中通过图像和特征参数进行杂交。由StyleGAN和BigGAN提供支持。

加载中

StyleGAN2

2019年12月 3日

NVIDIA更新版StyleGAN。可以在任何数据集上训练，但最知名的是thispersondoesnotexist.com/。

加载中

CLIP

2021年1月 5日

对比语言-图像预训练是一个在图像和文本关系上训练的神经网络。这个模型对公众开放，开启了文生图模型的文艺复兴。

加载中

DALL·E

2021年1月 5日

OpenAI的首个文生图模型，是其CLIP模型的首次实现。由于代码未发布，这为各种试图模仿它的开源模型铺平了道路。

加载中

DeepDaze

2021年1月 10日

首个使用CLIP的开源模型，与SIREN（正弦表示网络）配对。由Ryan Murdock（@advadnoun）创建。

加载中

Big Sleep

2021年1月 18日

Ryan Murdock（@advadnoun）的Colab笔记本，将CLIP连接到BigGAN。第一个使用CLIP从文本生成图像的流行笔记本。

加载中

Aphantasia

2021年2月 18日

Vadim Epstein（@eps969）的Colab笔记本，将CLIP连接到Lucent库。

加载中

Aleph2Image

2021年2月 27日

Ryan Murdock（@advadnoun）的Colab笔记本，使用CLIP和DALLE的解码器生成图像。

加载中

VQGAN+CLIP

2021年4月 11日

Katherine Crowson（@RiversHaveWings）的Colab笔记本，使文生图模型普及。受Big Sleep启发，这个笔记本是普通用户可以尝试这些工具的最早实例之一。

加载中

CogView

2021年5月 26日

类似DALL·E的简体中文文生图模型。

加载中

CLIP Guided Diffusion

2021年6月 26日

虽然是指与CLIP一起工作的扩散模型的通用术语，但这是第一个CLIP引导的扩散模型。由Katherine Crowson（@RiversHaveWings）创建。

加载中

LAION-400M

2021年8月 8日

一个开放的数据集，包含2014年至2021年间随机网页的文本图像对，通过OpenAI的CLIP过滤。

加载中

Disco Diffusion

2021年10月 29日

从Crowson的CLIP引导扩散模型演变而来，Disco Diffusion是一个流行的文生图模型，可以创建画风图像。

加载中

JAX Guided Diffusion

2021年11月 9日

由@RiversHaveWings和@jd_pressman创建的扩散模型。

加载中

RuDALLE

2021年11月 17日

一个俄罗斯版的DALLE，在架构模型上有所不同。使用俄罗斯语言版本的CLIP，ruCLIP进行训练。

加载中

Pytti 5

2021年11月 20日

一个由sportsracer48创建的基于VQGAN的笔记本，在Patreon上作为封闭测试版提供。基于Katherine Crowson的笔记本，Pytti 5以创建迷幻动画而闻名。

加载中

GauGAN 2

2021年11月 22日

GauGAN的续集，现称为NVIDIA Canvas。可以从更细粒度的标签图生成景观。

加载中

NÜWA

2021年11月 24日

微软的多模态文生图和文生视频模型。

加载中

Latent Diffusion

2021年12月 20日

由CompVis开发的文生图模型。

加载中

GLIDE

2021年12月 22日

由OpenAI开发的扩散模型。它将成为DALLE 2架构的基础之一。

加载中

Midjourney

2022年3月 13日

先前为封闭测试版，Midjourney现为开放测试版文生图模型，通过其Discord服务器的订阅模式工作。

加载中

DALL·E 2

2022年4月 7日

OpenAI最大规模的文生图模型发布。可以通过付费积分系统生成。

加载中

Centipede Diffusion

2022年4月 20日

正如名字所暗示的，这个笔记本结合了两个扩散模型的优势。潜在扩散在连贯性方面表现良好，而Disco Diffusion在艺术性方面更好，结合后它们创造了一个中间地带。

加载中

DALL·E Mini (Craiyon)

2022年4月 21日

由Boris Dayma开发的文生图模型，试图成为DALL·E 2的开源版本。因模因在AI社区之外获得人气，因与OpenAI的法律纠纷后更名为Craiyon。

加载中

CogView2

2022年4月 28日

CogView的继任者，这个文生图模型支持中文和英语。

加载中

Imagen

2022年5月 23日

谷歌的DALL·E竞争对手，虽然尚未向公众开放。

加载中

LAION-5B

2022年5月 27日

LAION最大的开放数据集，包含58.5亿个CLIP过滤的图像-文本对，比其前身LAION-400M大14倍。

加载中

CogVideo

2022年5月 29日

由CogView的创建者开发，CogVideo是一个可以生成短GIF的中文文生视频模型。

加载中

Parti

2022年6月 22日

谷歌的文生图模型，是OpenAI的DALL·E的竞争对手。

加载中

Make-A-Scene

2022年7月 14日

更强大的GauGAN版本。Meta的带有标签图的文生图模型。

加载中

NUWA_Infinity

2022年7月 20日

微软的自回归视觉合成预训练模型，用于文生图和文生视频。

加载中

Stable Diffusion

2022年8月 22日

Stability AI和CompVis开发的开源文生图模型。

加载中

DreamBooth

2022年8月 25日

谷歌通过微调文生图模型输出特定连贯对象。

加载中

Make-A-Video

2022年9月 29日

Meta的文生视频模型。

加载中

Phenaki

2022年9月 29日

一个用于从文本生成视频的模型，提示可以随时间变化，视频可以长达数分钟。

加载中

Imagen Video

2022年10月 5日

谷歌的文生视频模型，是他们的T2I模型Imagen的继任者。

加载中

ERNIE ViLG 2.0

2022年10月 27日

百度的文生图模型。参数少于DALLE或Stable Diffusion，但在空间理解和颜色匹配方面表现出色。

加载中

Niji Journey

2022年11月 7日

Midjourney和Spellbrush合作的漫画/动漫图像模型。使用修改后的Midjourney模型。

加载中

InstructPix2Pix

2022年11月 17日

一个通过Stable Diffusion和GPT-3生成的数据训练的模型，可以根据人类指令编辑图像。

加载中

Stable Diffusion 2

2022年11月 24日

Stable Diffusion的更新版本，与v1相比一切都是开源的。v1使用OpenAI的CLIP，v2使用由LAION开发并由Stability AI支持的OpenCLIP。

加载中

Riffusion

2022年12月 15日

一个微调在可翻译为音频文件的频谱图像上的文生图Stable Diffusion模型。

加载中

Muse

2023年1月 2日

一个使用LLM的令牌潜在空间而不是扩散模型的文生图Transformer模型。

加载中

Gen-1

2023年2月 6日

RunwayML的video2video工具，通过文本或图像提示用生成视觉效果编辑视频。其公开发布在2023年3月27日。3月20日宣布了Gen-2，一个基于同一论文的文生视频工具。

加载中

ControlNet

2023年2月 10日

一种用于通过不同技术控制扩散模型的神经网络结构。它允许通过img2img对图像结构进行更多控制。不同技术包括边缘检测、深度图、分割图和人体姿态。

加载中

ModelScope Text2Video Synthesis

2023年3月 19日

一个通过英语提示生成2秒视频的文生视频模型。由同名的中国模型即服务库发布，由阿里巴巴拥有。

加载中

Gen-2

2023年3月 20日

RunwayML的文生视频工具。基于与一个月前发布的video2video工具Gen-1相同的论文。

加载中

Adobe Firefly

2023年3月 21日

Firefly是Adobe开发的生成文本到图像工具系列。

加载中

NUWA-XL

2023年3月 22日

一个多模态文生视频模型，通过不同的扩散模型架构生成长视频。

加载中

Midjourney v5

2023年3月 30日

Midjourney发布的第五版。

加载中

Würstchen

2023年6月 1日

一个生成成本更低的文生图模型，因为其高度压缩的潜在空间（名字很搞笑）。

加载中

Zeroscope

2023年6月 3日

一个基于Modelscope的开源文生视频模型。不同版本可用，质量和大小不断增加。由Spencer Sterling开发。

加载中

Potat1

2023年6月 5日

一个文生视频模型，第一个开源生成1024x576视频的模型。由Camenduru开发，以Modelscope为基础模型。

加载中

Pika Labs

2023年6月 28日

通过Discord服务器运行的文生视频模型。Pika 1.0于2023年11月28日宣布拥有自己的网站。

加载中

AnimateDiff

2023年7月 10日

通过Stable Diffusion模型生成视频的文生视频模型。

加载中

SDXL

2023年7月 26日

Stability AI开发的更大规模的Stable Diffusion文生图模型，这次训练了1024像素的图像而不是512像素。

加载中

DALL·E 3

2023年9月 20日

OpenAI开发的第三代DALLE。由于改进了数据集图像的描述，这个模型对文本有更细致的理解，并且能够更好地遵循提示中的描述。

加载中

Show-1

2023年9月 27日

Showlab 在新加坡国立大学开发的文生视频模型，具有更高效的GPU使用率。

加载中

Latent Consistency Model

2023年10月 6日

一个替代潜在扩散模型的文生图模型，能够在几个推理步骤中生成高质量的图像。一个流行的应用是LCM LoRAs，发布于2023年11月9日，可以加速Stable Diffusion模型中的生成过程。

加载中

MagicAnimate

2023年11月 27日

一个视频生成模型，将图像的主体转移到视频的人物主体的动作上。

加载中

Imagen 2

2023年12月 13日

谷歌的文生图模型。这个是首个Imagen的继任者，用于各种谷歌生成服务，如Gemini。

加载中

Midjourney v6

2023年12月 21日

Midjourney发布的第六版。这个版本更善于处理详细的提示。

加载中

Lumiere

2024年1月 23日

谷歌的生成视频扩散模型。

加载中

Boximator

2024年2月 13日

ByteDance开发的用于视频扩散模型的运动控制插件。通过框定不同元素的运动的边界框，可以详细控制生成视频的运动。

加载中

Sora

2024年2月 15日

OpenAI开发的生成视频扩散模型，能够生成一分钟的生成视频，在现实主义和一致性方面超越了所有前代模型。目前仅对少数人开放。

加载中

Snap Video

2024年2月 22日

Snapchat开发的文生视频模型。公司在图像/视频生成领域的首次尝试。

加载中

Stable Diffusion 3

2024年2月 22日

Stability AI开发的最受欢迎的开源图像生成模型Stable Diffusion的第三代。虽然模型尚未发布，但已开放早期预览候补名单。

加载中

Imagen 3

2024年5月 14日

谷歌的第三代文生图模型Imagen，可在其ImageFX网站上使用。

加载中

Veo

2024年5月 14日

谷歌的文生视频模型，能够从文本、图像和视频输入生成视频。目前仅通过加入候补名单可用。

加载中

ToonCrafter

2024年5月 28日

生成动画插帧的生成模型，能够生成两帧或多帧图像之间的插帧。与其他插帧模型不同，这是由生成视频模型驱动的，能够预测更准确的运动。它还可以为草图上色。

加载中

KLING

2024年6月 6日

快手开发的文生视频模型，第一个严肃的Sora竞争对手，能够生成长达2分钟的视频。此外可以通过OpenPose骨架输入提示（主要用于舞蹈）。在其应用内加入候补名单的用户可用。

加载中

Dream Machine

2024年6月 13日

Luma Labs开发的文生视频模型，通过文本或图像提示生成视频。通过其网站向公众开放。

加载中

Gen-3 Alpha

2024年6月 17日

Runway开发的生成视频模型，继Gen-1和Gen-2之后。其两个前辈的改进版本，Gen-3 Alpha承诺可以自定义模型以进行风格控制。仅对其网站上的付费用户开放。

加载中

Midjourney v6.1

2024年7月 30日

Midjourney 第 6 版的小升级，图像质量、处理速度和个性化体验的显著提升。

加载中

Vidu

2024年7月 31日

生数科技携手清华大学研发出的视频生成模型，早在4月28号时就公布了演示，号称国内第一个类 Sora 模型，上线后免费用户支持生成4秒视频

加载中

FLUX.1

2024年8月 1日

FLUX.1由前 SAI 开发者组成的Black Forest Labs团队推出首个文本到图像生成模型。现有三个不同版本：Pro，效果最好只支持API调用；Dev，开放权重模型，可用于非商业应用；Schnell，速度最快，基于 Apache 2.0

加载中

CogVideoX

2024年8月 6日

CogVideoX 是由智谱开源的与其清影模型同源的文生视频系列模型，目前只开源了 2B 模型，能生成 6 秒长，8帧/秒的视频

加载中

Hailuo AI

2024年9月 1日

由创业公司MiniMax开发的文本到视频模型，可在其网站上使用。相比之前的视频生成模型有明显升级，在灵活性和提示词遵循方面表现出色。

加载中

Firefly Video Model

2024年9月 11日

Adobe开发的文本到视频模型。目前尚未发布，只能通过加入等待列表。这是一个商业安全的模型，不同之处在于它还能生成与图像在风格上相似的视频，将来还会集成到Adobe Premiere中。

加载中

Meta Movie Gen

2024年10月 4日

Meta开发的视频生成模型，可从文本创建视频、编辑现有视频，并通过人脸输入将人物放入生成的场景中。目前尚未发布。

加载中

Pyramid Flow

2024年10月 10日

基于Flow Matching的开源自回归视频生成方法。仅在开源数据集上训练。

加载中

Oasis

2024年10月 31日

基于实时用户输入生成下一帧的交互式视频生成模型。演示版本在Minecraft游戏视频和键盘输入上训练。首个此类开源交互式实时视频生成模型。

加载中

LTX-Video

2024年11月 22日

开源视频生成模型，可在768x512分辨率下生成24 FPS视频，他们声称生成速度比观看视频的时间还要快。

加载中

Hunyuan

2024年12月 3日

腾讯发布的开源视频生成模型，是该公司首个此类模型。生成过程较长，但迄今为止拥有最佳的开源视频生成效果。

加载中

Sora (发布)

2024年12月 9日

OpenAI早在2月就宣布的视频生成扩散模型。迄今为止最受期待的视觉生成模型，通过20美元或200美元订阅提供。发布版本是之前模型的turbo版本。虽然与大多数其他视频模型类似，但其故事板界面是首创，允许对一个动作接一个动作进行关键帧设置，并无缝融合两个视频。

加载中

Veo 2

2024年12月 16日

Google DeepMind开发的视频生成模型，在质量、提示词遵循和因果关系方面超越其他视频模型。目前仅通过VideoFX的封闭等待列表或在Fal等不同网站付费使用。

加载中

OmniHuman-1

2025年2月 3日

字节跳动开发的专门制作逼真角色唇同步和动作的视频生成模型。允许图像和音频输入，该模型致力于生成自然的人类唇同步和相应的身体动作。

加载中

VideoJAM

2025年2月 4日

Meta开发的框架，为任何视频生成模型注入强烈的运动先验，通过增强模型运动的真实感来提升效果。

加载中

SkyReels V1

2025年2月 18日

通过在高质量影视片段大数据集上微调Hunyuan视频模型创建的视频生成模型。

加载中

Wan

2025年2月 22日

Wan2.1，原名WanX，是阿里巴巴发布的开源视频生成模型。通过LoRA微调实现的高度个性化视频模型。

加载中

Gen-4

2025年3月 31日

Runway视频模型的第四代。相比前代产品，具有更强的提示词遵循能力和运动灵活性。与Runway的图像生成器Frames结合使用，现在可以使用参考图像来组合和生成新视频。

加载中

Veo 3

2025年5月 20日

Google DeepMind开发的视频生成模型，还可以原生生成声音和语音。首个具备这些一体化功能的模型，Veo 3允许使用图像参考生成视频，可在Google的服务如Flow和Gemini聊天界面中使用。

加载中

Seedance 1.0

2025年6月 12日

字节跳动开发的视频生成模型，据说具有与Veo 3相同的功能，但生成成本更低。一个显著特点是可以轻松创建多镜头生成。

加载中

Marey

2025年7月 8日

由Moonvalley和Asteria Film开发的仅使用授权数据训练的生成视频模型。首批不使用未经同意数据收集进行训练的视频模型之一。作为封闭模型，它具有多种控制功能，如姿态控制、风格转换、图像参考和起始-结束帧。仅通过其付费计划提供。该模型之前在3月曾预告，7月正式发布。

加载中

Wan2.2

2025年7月 28日

Wan2.2，阿里巴巴发布的开源视频生成模型，是 Wan 基础视频模型的重大升级。

加载中

LeNet-5

ImageNet

AlexNet

Microsoft COCO

General Adversarial Network (GAN)

GoogLeNet

DeepDream

alignDRAW

StyleTransfer

Pix2Pix

StackGAN

CycleGAN

AttnGAN

BigGAN

StyleGAN

GauGAN

Artbreeder (GANBreeder)

StyleGAN2

CLIP

DALL·E

DeepDaze

Big Sleep

Aphantasia

Aleph2Image

VQGAN+CLIP

CogView

CLIP Guided Diffusion

LAION-400M

Disco Diffusion

JAX Guided Diffusion

RuDALLE

Pytti 5

GauGAN 2

NÜWA

Latent Diffusion

GLIDE

Midjourney

DALL·E 2

Centipede Diffusion

DALL·E Mini (Craiyon)

CogView2

Imagen

LAION-5B

CogVideo

Parti

Make-A-Scene

NUWA_Infinity

Stable Diffusion

DreamBooth

Make-A-Video

Phenaki

Imagen Video

ERNIE ViLG 2.0

Niji Journey

InstructPix2Pix

Stable Diffusion 2

Riffusion

Muse

Gen-1

ControlNet

ModelScope Text2Video Synthesis

Gen-2

Adobe Firefly

NUWA-XL

Midjourney v5

Würstchen

Zeroscope

Potat1

Pika Labs

AnimateDiff

SDXL

DALL·E 3

Show-1

Latent Consistency Model

MagicAnimate

Imagen 2

Midjourney v6

Lumiere

Boximator

Sora

Snap Video

Stable Diffusion 3

Imagen 3

Veo

ToonCrafter

KLING

Dream Machine

Gen-3 Alpha

Midjourney v6.1

Vidu

FLUX.1

CogVideoX

Hailuo AI

Firefly Video Model

Meta Movie Gen

Pyramid Flow

Oasis

LTX-Video

Hunyuan

Sora (发布)

Veo 2

OmniHuman-1

VideoJAM

SkyReels V1

Wan

Gen-4

Veo 3

Seedance 1.0

Marey

Wan2.2

1930年

1940年

1950年

1960年

1970年

1980年

1990年

2000年

2010年

2020年

2030年

2040年

2050年

2060年

2070年

2080年

1992年

1993年

1994年

1995年

1996年

1997年

1998年

1999年

2001年

2002年

2003年

2004年

2005年

2006年

2007年

2008年

2009年

2011年

2012年

2013年

2014年

2015年

2016年

2017年

2018年

2019年

2021年

2022年

2023年

2024年

2025年

2026年

2027年

2028年

2029年

2031年

CNN Model

Dataset

GAN

Other

VQ-VAE

Diffusion Model

Text-To-Video

TimelineJS