🤖 AI资讯速报

机器之心 · 新智元 · 智东西  |  2026年4月9日

机器之心 · 9篇
1
4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了
🕐 3小时前
核心:研究人员提出TDM-R1推理框架,将GenEval从61%大幅提升至92%,超越GPT-4o。Gen-Searcher作为配套Agent,将生图任务拆解为"检索-推理-验证"四步闭环,实现精准控制。
TDM-R1GenEval 92%推理框架
2
顶会论文抢先看!机器之心ICLR 2026论文分享会,下周六北京见
🕐 3小时前
核心:机器之心举办ICLR 2026论文分享会,报名通道已开启,聚焦生成模型、强化学习、机器人控制等前沿方向。
ICLR 2026线下活动
3
告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher
🕐 7小时前
核心:港中文+伯克利联合开源Gen-Searcher,将文生图从"直接生成"升级为"检索→推理→生成→验证"的Agent工作流,解决精准控制难题。代码已开源。
Gen-Searcher港中文伯克利Agent生图
4
让你「鞭打」Claude,被Anthropic直接发「律师函」了吧
🕐 7小时前
核心:某用户通过"鞭打"(jailbreak)提示词操控Claude,遭Anthropic发律师函警告。此事件引发AI安全边界大讨论,Anthropic法务强硬表态。
AnthropicClaude法律风险
5
清华发布AutoSOTA:一周刷新105个顶会SOTA,推动AI科研回归创新本质
🕐 10小时前
核心:清华大学发布AutoSOTA自动化评测框架,一周内在多个顶会上刷新105项SOTA。核心思路是消除"刷榜文化",推动真正有影响力的研究创新。
AutoSOTA清华大学自动化评测
6
读代码前先跑5个「Git命令」?方法火了,网友却吵起来了
🕐 10小时前
核心:开发者社区流行一种新方法:阅读代码前先用5个Git命令(log/blame/diff等)理解代码演进历史,被指"过度工程化",但也有人认为这是深度代码审查的有效手段。
Git代码审查工程实践
7
帮普通人「驯服」Agent,这支硅谷初创团队冲上了X全球热搜
🕐 10小时前
核心:硅谷初创Fello.ai主打"驯服AI Agent"工具,让普通用户也能精准控制AI执行复杂任务,在X平台引发热议并登热搜。
Fello.aiAgent控制硅谷创业
8
让机器人学会手往哪儿伸、怎么操作,东大团队给了新解法
🕐 14小时前
核心:东北大学团队提出新操作框架,让机器人学会"手往哪儿伸"和"怎么操作"的决策问题,在仿真和真机上验证了方法有效性。
机器人操作东北大学具身智能
9
突然袭击!刚刚,Meta超级智能团队首个大模型来了
🕐 14小时前
核心:Meta突然发布超级智能团队首个模型,官方未提前预告即上线,引发行业震动。性能对标GPT-4.5,参数规模和训练细节暂未公布。
Meta超级智能大模型
新智元 · 9篇
1
狂揽4万星!换掉OpenClaw太爽了,5美元就能养个AI打工人
🕐 3小时前
核心:开源项目OpenClaw(GitHub星标破4万)受到热捧,用户称用5美元/月的成本替代Claude Opus完成日常任务。它是OpenClaw的核心替代方案,主打低成本本地部署。
OpenClaw4万星低成本AI
2
Claude Opus 4.6差评如潮!思考深度暴跌67%,AMD总监6852次日志打脸
🕐 3小时前
核心:Anthropic发布Claude Opus 4.6后遭大规模差评,核心问题:思考深度从4.5的256K token暴降至32K(跌67%),AMD总监连发6852条日志指其"降智",用户大规模转向Gemini和GPT-5。
Claude Opus 4.6降智门Anthropic
3
刚刚,豆包「成精」了!一夜告别机械感,上亿人手机全量上线
🕐 10小时前
核心:字节跳动豆包App全量推送重大更新,语音交互告别"机械感",自然度和情感表达大幅提升,覆盖上亿台设备,被评"中国版GPT-4o语音模式的强敌"。
豆包字节跳动语音AI
4
开源屠刀!400美元炼成「代码副脑」,硅谷天价模型成废铁
🕐 10小时前
核心:开发者用400美元成本在消费级GPU上微调出"代码副脑",在多项编程基准测试中与Claude Opus 4.6持平,推理成本仅为商业模型的1/50,再次验证开源模型"性价比碾压"趋势。
开源模型代码副脑低成本微调
5
RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘
🕐 13小时前
核心:研究者通过强化学习微调(RL Fine-tuning)让模型成为"押题大师"——擅长应对特定领域难题,但代价是丧失多样性并出现灾难性遗忘。文章深入分析RL微调中的两大核心矛盾及解法。
强化学习微调灾难性遗忘模型优化
6
国产AI营销工具来了!工作流被Agent重构,营销物料一键即出
🕐 13小时前
核心:国内团队推出AI营销Agent产品,将文案、海报、投放策略等工作流全链路自动化,一键生成营销物料,被认为是"AI Native营销"的重要落地场景。
AI营销Agent工作流自动化
7
黄仁勋刚讲完AI「五层蛋糕」,他们就跑通了!算力、模型、Agent一次打穿
🕐 13小时前
核心:NVIDIA CEO黄仁勋提出AI"五层蛋糕"(应用→模型→中间件→算力→硬件),某团队在演讲后数天内便跑通全链路,实现算力-模型-Agent端到端整合。
黄仁勋NVIDIA五层蛋糕
8
刚刚,小扎砸143亿的「牛油果」来了!硬刚GPT-5.4,硅谷最贵华人首作
🕐 15小时前
核心:Meta CEO扎克伯格砸143亿美元研发经费推出"牛油果"(Avocado)模型,由华人团队主导,参数规模创纪录,硬刚GPT-5.4,被业界称为"硅谷最贵华人首作"。
Meta牛油果模型华人团队
9
普利策得主万字起底奥特曼,Anthropic CEO:OpenAI问题就在他身上
🕐 15小时前
核心:普利策奖得主发布深度长文揭露OpenAI CEO奥特曼,Anthropic CEO随即发声支持,指出OpenAI内部问题的根源在于奥特曼的领导风格和管理决策。
奥特曼OpenAIAnthropic管理争议
智东西 · 10篇
1
DeepMind创始人最新专访:AGI或5年内实现,规模是工业革命10倍,上一波思想已被"榨干"
🕐 1小时前
核心:DeepMind联合创始人Demis Hassabis接受专访,称AGI可能在5年内实现,AI带来的变革规模将是工业革命的10倍,同时警示"上一波AI思想红利已被榨干",下一步需要全新的研究方向。
Demis HassabisDeepMindAGI工业革命
2
林俊旸点赞,干翻字节Seedance 2.0的"欢乐马"模型,阿里造?
🕐 1小时前
核心:阿里发布开源视频生成模型"欢乐马"(Happyle)引发热议,评测显示全面超越字节Seedance 2.0,团队成员林俊旸(花名)公开点赞,再次印证阿里在视频AI领域的突破。
欢乐马阿里视频生成Seedance
3
暴走30000步!我在85万平米的家博会里,挖出了AI家居的"真心脏"
🕐 10小时前
核心:作者逛完超大型家博会(85万平米),发现AI家居真正落地的"心脏"是传感器+边缘AI芯片,而非大模型。嵌入式AI正在悄然改变智能家居行业格局。
AI家居边缘AI传感器
4
未来医生对话凯文·凯利:人类突破120岁的技术密码是什么?
🕐 10小时前
核心:未来医生与《失控》作者KK对谈,讨论AI+基因编辑+细胞修复三项技术合力,或让人类寿命突破120岁。KK认为AI将是延长健康寿命最关键的工具。
凯文·凯利寿命延长AI+生物
5
我用Meta"华人天团"打造的新模型,一张图复刻了一个"豆包App"
🕐 11小时前
核心:开发者使用Meta华人团队新发布的模型,仅凭一张截图就完整复刻出"豆包App"的核心交互,证明该模型在UI理解+代码生成上的惊人能力。
Meta华人团队UI生成
6
国内首个浏览器"龙虾"上线,微信扫码就能免费用
🕐 昨天
核心:WorkBuddy推出浏览器版"龙虾"(Claw),用户可通过微信扫码直接使用,零门槛体验AI助手功能,被视为AI桌面智能体向大众普及的重要一步。
WorkBuddy龙虾微信扫码
7
Claude Mythos:我太强了,强到不敢让你们用
🕐 昨天
核心:Anthropic内部泄露文件显示Claude Mythos(系列代号)性能远超当前商用版本,团队担心"能力过强导致滥用"而暂缓发布。引发AI安全与开放之间的深层讨论。
Claude MythosAnthropicAI安全
8
苹果折叠屏顶配或超2万元,9月iPhone 18同期发,设计细节曝光
🕐 昨天
核心:苹果折叠屏手机更多设计细节曝光:内折+外屏双设计,折叠厚度7.2mm,售价预计超2万元,9月与iPhone 18同期发布,剑指三星折叠屏市场。
苹果折叠屏iPhone 18
9
正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个"绊子",它居然…
🕐 昨天
核心:智东西对国产GLM-5.1(智谱AI)与Claude Opus 4.6进行正面PK,用三个专业场景"绊子"测试,结果GLM-5.1在中文场景下表现接近甚至超越Claude,英文逻辑推理仍有一定差距。
GLM-5.1智谱AIClaude Opus 4.6国产模型
10
DeepSeek突然更新:专家模式实测效果亮眼,V4要来了?
🕐 昨天
核心:DeepSeek发布"专家模式"更新,在特定领域任务(代码/数学/推理)上效果显著提升,引发社区对DeepSeek V4即将发布的猜测。V3推理效率已大幅优化,V4或将在架构上带来更大惊喜。
DeepSeek专家模式V4