技术博客阅读分享 26-04-22

Posted Apr 22, 2026

5 min read

技术博客阅读分享 26-04-22

《 Qwen3.6-Plus：编码智能体能力全面跃升！》通义大模型
《 This is ChatGPT Images 2.0 》OpenAI
《 MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式》Minimax稀宇科技
《 MiniMax 发布 MMX-CLI：为 Agent 设计的全模态命令行工具》Minimax稀宇科技
《实测GPT-image-2，设计行业真的完蛋了吗？》数字生命卡兹克

今天阅读的几篇博客都有关最近各大厂商释出的最新的模型。首先是OpenAI的Images 2.0，图像生成模型的一大飞跃，在图像生成过程中加入了思考能力，且能支持多张图像的同时生成，让AI创作漫画，全篇杂志等成为可能。看了卡兹克对Images2的实测，确实被震撼了，生成出来的图片真假难辨，且生成文字十分精准，不像我之前使用大模型试图生成带中文的图片，生成出来的文字部分都是乱码。同时丰富准确的世界知识，甚至还有审美，不得不感叹，也许我们以后对信息真伪的判断已经不再准确了，甚至当AI生成的内容越来越多，判断真假已经成为一个没有答案的命题。

Qwen3.6放出的最新模型在编码能力上大大加强，当然我还没体验，不知道实际使用效果如何。

最让我惊喜的是Minimax最新的桌面端Agent和MMX-CLI，首先MMX-CLI，支持从终端调用Minimax的多模态能力，且专门做了体验相关的优化，比如视频，声音的产出。桌面端Agent推出的Pocket功能，通过手机命令agent操作电脑桌面。如何准确的操作电脑桌面一直是一个难题，包括对截图的解读与坐标定位，如何执行等等，但Minimax在这个方向是迈出了一大步，同时关于权限的把控也挺精准，确保每一次操作都有用户介入，这在agent能力还不够强时是必须的。

摘抄

模型不只是「看见」图像和视频，而是真正具备从感知、理解、推理到执行任务的完整能力闭环，逐步走向更实用的原生多模态智能体。
命令行是 Agent 在终端中完成工作的常见形态，但用户的工作并不只发生在命令行内，电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。
我们将桌面操作拆成四个独立的工具域：Desktop Control、Window Manager、Browser Engine、Clipboard。这样做的原因是：不同任务的最优执行路径不一样。
模型不直接输出像素坐标，而是输出一个 0 到 1 之间的相对位置，由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕，操作精度在所有设备上保持一致。
我们给每一步桌面操作都接上了一个验证环节：操作执行完，立刻自动截图，让模型看一眼‘刚才那一步真的做到了吗’。
当 Agent 准备执行文件删除等操作时，会暂停下来，把这一步的具体内容推送到用户的 IM 对话里……用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。

个人感悟技术成长

This post is licensed under CC BY 4.0 by the author.

摘抄

Trending Tags