Thread by @AlchainHust

title: “Thread by @AlchainHust2025-10-21T14:09:35+08:00” source: “https://x.com/AlchainHust/status/1980492106801262955” author:

“@AlchainHust” published: 2025-10-21 created: 2025-10-21 description: tags:
“clippings” tags:
“readings”

AI进化论-花生 @AlchainHust 2025-10-20

Andrej Karpathy提出了一个很激进的想法：所有LLM的输入都应该是图像，包括纯文本。

什么意思？

传统的大语言模型：文本 → tokenizer → LLM → 输出

Andrej的vision：文本 → 渲染成图片 → LLM → 输出

即使你要输入的就是纯文本，也先把它渲染成图片，再喂给模型。

为什么这么做？

他给了4个理由：

1. 信息压缩更高效

这正是DeepSeek-OCR证明的。一页文档，传统方式可能需要2000个text tokens，用vision tokens只要64个。压缩率30倍。

文本tokens很浪费，图像tokens更密集。

2. 更通用

Text tokens只能表达文字。但现实世界的信息不只是文字：

- 粗体、斜体

- 彩色文字

- 表格、图表

- 任意图像

全部渲染成图像输入，模型天然就能处理这些。

3. 可以用双向注意力

这是技术细节。传统的text-to-text是自回归的（从左到右）。图像输入可以用双向注意力，看到全局信息，更强大。

4. 删除tokenizer（重点！）

Andrej很讨厌tokenizer。
Andrej 很讨厌 tokenizer。

他的吐槽：

- Tokenizer是一个丑陋的、独立的、非端到端的阶段

- 它继承了Unicode、字节编码的所有历史包袱

- 有安全风险（如continuation bytes攻击）

- 两个看起来一样的字符，在tokenizer眼里可能完全不同

- 😊这个emoji在tokenizer里只是一个奇怪的token，不是一张真正的笑脸图片

他希望tokenizer消失。

他的vision是什么

- 输入：全部是图像（即使原本是文本）

- 输出：还是文本（因为输出像素不现实）

OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。

我的理解

Andrej这个观点很激进，但确实有道理。

从信息论角度，图像确实比文本更高效。DeepSeek-OCR证明了这一点：64个vision tokens就能表达2000个文本tokens的信息。

从通用性角度，图像输入天然支持各种格式（粗体、颜色、图表），不需要tokenizer这个中间层。

但问题是：

1. 计算成本：处理vision tokens比text tokens贵。虽然token数量少了，但每个vision token的计算量更大。

2. 训练数据：现有的大部分训练数据都是纯文本。要全部渲染成图像，成本很高。

3. 输出问题：他也承认，输出像素不现实。所以只能是图像输入→文本输出的混合模式。

但长远看，这个方向可能是对的。

特别是考虑到：

- 人类的输入本来就是多模态的（文字、图片、视频）

- Tokenizer确实有很多问题（安全、Unicode、历史包袱）

- 未来的AI应该能直接理解像素，而不是把一切都变成token

DeepSeek-OCR可能只是开始。它证明了”上下文光学压缩”是可行的。

Andrej看到的是更远的未来：一个没有tokenizer的世界，所有输入都是图像，所有输出都是文本。

这会不会成为现实？不知道。

但至少，这个方向值得探索。

2025-10-20

I quite like the new DeepSeek-OCR paper. It’s a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn’t matter.

The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language x.com/vllm_project/s…
我相当喜欢这篇新的 DeepSeek-OCR 论文。它是一个不错的 OCR 模型（可能比点阵略差），是的，数据收集等，但无论如何，这并不重要。

对我来说更有趣的部分（尤其是作为一个内心深处是计算机视觉的人，现在暂时伪装成自然语言 x.com/vllm_project/s…

Yolonotes

Explorer

Thread by @AlchainHust

Graph View