AI News

Last updated: 2026-06-01 19:22 UTC


Week 2026-05-25 – 2026-06-01

34 items

Models

  • Turing Award winner Richard Sutton says pure generative AI can't do real science

    Лауреат премії Тюрінга Річард Саттон стверджує, що звичайні генеративні моделі не можуть здійснювати справжні наукові відкриття, оскільки їм бракує ключової здатності до оцінювання та розвитку власних результатів. На відміну від систем на кшталт AlphaGo, AlphaFold та Claude Code, які мають цикли оцінювання та можуть відбирати кращі рішення, чисті генеративні моделі лише імітують корисні речі або випадково продукують нові, не маючи змоги відрізнити дійсно хороші ідеї. Саттон закликає до створення AI-систем, які б автоматизували повний цикл творчості: варіацію, оцінювання та селективне утримання успішних підходів.

    the-decoder
  • MiniMax M3: Open-weight model with a million-token context challenges proprietary leaders

    Китайська компанія MiniMax випустила M3 — першу відкриту модель з ваговими коефіцієнтами, яка поєднує високу продуктивність у програмуванні, нативну мультимодальність та контекстне вікно на мільйон токенів. Нова архітектура "MiniMax Sparse Attention" обробляє лише релевантні блоки даних, скорочуючи обчислення до однієї двадцятої та прискорюючи обробку вводу більш ніж у дев'ять разів. У бенчмарках M3 досягає результатів на рівні топових моделей як Opus 4.7 та GPT-5.5, демонструючи автономну роботу протягом десятків годин при оптимізації обчислювальних ядер та відтворенні наукових досліджень.

    the-decoder
  • Nvidia's Nemotron 3 Ultra becomes the smartest open US model, but China still leads

    Нова модель Nvidia Nemotron 3 Ultra стала найпотужнішою відкритою AI-моделлю зі США, набравши 48 балів у рейтингу Artificial Analysis, що значно перевищує інші американські відкриті моделі. Проте вона все ще поступається китайським моделям, зокрема Kimi K2.6, яка набирає 54 бали. З приблизно 550 мільярдами загальних параметрів і 55 мільярдами активних одночасно, Nemotron 3 Ultra також демонструє вражаючу швидкість генерації понад 300 токенів на секунду.

    the-decoder
  • Import AI 459: AI oversight is difficult; scaling laws for protein folding models; and pricing the extinction risk of AI systems

    Випуск Import AI висвітлює три ключові теми: складність автоматизованого вирівнювання AI-систем, стрімке зростання AI-економіки в США (приблизно 2600% на рік у реальних термінах з урахуванням якості) та економічний аналіз екзистенційних ризиків від AI. Дослідження від UK AI Security Institute пояснює, чому AI-нагляд складніший за людський базовий рівень через оптимізаційний тиск та некорельовану невизначеність, пропонуючи втручання для покращення вимірювання та узагальнення. Австралійський політик-економіст Ендрю Лі закликає економістів краще оцінювати ризики вимирання від AI-систем, стверджуючи, що суспільство, яке подвоює ВВП та подвоює ризик вимирання, укладає набагато менш вражаючу угоду, ніж показує національна статистика.

    import-ai
  • Nvidia bets big on physical AI at GTC Taipei with a new world model, driving brain, and open humanoid robot

    На конференції GTC Taipei компанія Nvidia представила серію моделей для роботів, автономних транспортних засобів та відеосистем, включаючи світову модель Cosmos 3, систему автономного водіння Alpamayo 2 Super та відкриту референсну платформу для гуманоїдних роботів. Cosmos 3 є "омнімоделлю", яка обробляє текст, зображення, відео, звук та дані про дії в єдиній системі, використовуючи архітектуру mixture-of-transformers для генерації фотореалістичних відеопослідовностей рідкісних ситуацій. Alpamayo 2 Super з 32 мільярдами параметрів призначена для автономного водіння рівня 4 (роботаксі) та включає текстові ланцюжки обґрунтувань для документування безпеки, тоді як референсний гуманоїдний робот базується на шасі Unitree H2 Plus з чіпом Jetson AGX Thor.

    the-decoder
  • Ask AI what goes with chicken and the answer depends on whether it learned from recipes or molecules

    Стартап Kaikaku.AI створив три майже ідентичні AI-моделі під назвою "Epicure", які відрізняються лише навчальними даними: одна навчена на рецептах, друга — на хімічних молекулах смаку, третя поєднує обидва підходи. Модель, тренована на хімії, повертає інгредієнти зі схожим смаковим профілем (наприклад, яловичина для курки, орегано для базиліка), тоді як модель на рецептах видає типові кулінарні супутники (часник для курки, оливкову олію для базиліка). Система навчена на 4,14 мільйонах багатомовних рецептів і дозволяє користувачам зміщувати інгредієнти в бік цільових напрямків, як-от "солодкі страви" чи "південноазіатська кухня".

    the-decoder
  • Anthropic study finds men use AI coding agents more than twice as often as women in social science research

    Дослідження Anthropic виявило значний гендерний розрив у використанні кодувальних AI-агентів у соціальних науках: дослідники з типово чоловічими іменами використовують такі інструменти більш ніж удвічі частіше за колег з жіночими іменами. Розрив зберігається навіть у межах однакових дисциплін та кар'єрних рівнів, при цьому економісти лідирують із 39% прийняття, тоді як дослідники освіти — лише 4%. Респонденти оптимістично оцінюють вплив AI на власну продуктивність (88% ставлять оцінку вище 5 з 10), але 70% більш песимістичні щодо впливу на соціальні науки в цілому, побоюючись перевантаження системи рецензування та посилення конкуренції.

    the-decoder
  • AI search agents often confirm what they already know instead of actually researching the web

    Нове дослідження від Харбінського технологічного інституту та Xiaohongshu показує, що провідні AI-агенти пошуку в основному використовують веб для підтвердження відповідей, які вже знають, замість справжнього дослідження. Навіть без доступу до інтернету моделі вирішують до 62% завдань бенчмарку BrowseComp лише з пам'яті, а коли підтверджувальні документи видаляються з пошукового індексу, продуктивність падає нижче рівня без інструментів взагалі. Новий бенчмарк LiveBrowseComp, який містить питання про події останніх 90 днів, показує падіння показників на 25-40 пунктів порівняно зі статичним BrowseComp, демонструючи, що моделі значною мірою покладаються на внутрішні знання замість доказової роботи.

    the-decoder
  • A shared playbook for trustworthy third party evaluations

    OpenAI оприлюднила настанови щодо незалежного оцінювання AI третіми сторонами, охоплюючи методологію оцінки можливостей моделей, захисних механізмів та валідності для передових систем. Документ надає спільну структуру для проведення надійних оцінок, які можуть використовувати дослідники та регулятори.

    openai-blog
  • TiesPetersen/SkillBenchmark

    SkillBenchmark — це інструмент для систематичного оцінювання того, чи дійсно Agent Skills (файли SKILL.md) покращують якість виводу LLM і наскільки, використовуючи сліпе суддівське оцінювання та довірчі інтервали. Система виконує кожне завдання N разів з навичкою та без неї, використовує LLM-суддю для оцінювання обох виводів за рубрикою, а потім обчислює статистичні довірчі інтервали для визначення реального впливу навички. Репозиторій включає готовий приклад із навичкою Caveman, який демонструє, що жодна з трьох тестованих задач не показала статистично підтвердженої різниці на рівні 95% при п'яти запусках із трьома суддями.

    github-trending-llm

Open Source

  • myklovenyzforever/chem-pdf-extractor

    Відкритий інструмент для витягування структурованих експериментальних даних із наукових PDF-статей у галузі хімічної інженерії, каталізу та матеріалознавства. Підтримує пакетну обробку, перетворення PDF у Markdown, конфігуровані LLM-поля для екстракції та експорт у Excel/CSV, працюючи як з OpenAI-сумісними API, так і з локальними Ollama-моделями. Інструмент надає локальний, перевіряємий workflow для побудови структурованих датасетів, які все ж потребують людської перевірки.

    github-trending-llm
  • PanisHandsome/ai-rules-sync

    Універсальний інструмент синхронізації конфігураційних файлів для різних AI-кодувальних агентів (Codex, Claude Code, Cursor, Copilot та інших). Дозволяє підтримувати єдине джерело правил у AGENTS.md і автоматично генерувати відповідні файли для кожної платформи, усуваючи необхідність ручного копіювання. Працює без залежностей, підтримує pre-commit хуки та має веб-playground для швидкого тестування конверсій.

    github-trending-ai
  • exmergo/research-llm-car-wash-test

    Дослідження того, як frontier LLM справляються з контекстною неоднозначністю на прикладі питання «Автомийка за 100 метрів — іти пішки чи їхати?». З 400 викликів (4 моделі × 100 разів) лише Gemini 3.1 Pro правильно відповів у 100% випадків завдяки найглибшому reasoning (~450 токенів), тоді як GPT-5.5 з reasoning провалився в 74%, а Claude Opus 4.8 і Llama 4 — у 100%. Benchmark підкреслює, що навіть експліцитне міркування не гарантує уникнення семантичних пасток.

    github-trending-llm
  • Agent-Field/reels-af

    AI-native система для створення вірусних вертикальних відео (reels) на основі AgentField з 20+ спеціалізованих агентів. Перетворює URL статті або тему на готовий 1080×1920 ролик із word-burst караоке за ~80 секунд і вартістю ~$0.10 (або ~$1.20 з Veo motion). Включає 6 движків новизни, 10 адверсаріальних рев'юверів, sample-accurate TTS синхронізацію та нульову кількість галюцинованих цитат або AI-патернів.

    github-trending-llm
  • OtShelniko/site-context-pipeline

    Python CLI для перетворення обходів веб-сайтів та URL-інвентарів у структуровані context packs для LLM-асистованих контентних workflow з обов'язковою людською перевіркою. Класифікує сторінки, будує граф внутрішніх посилань, імпортує метрики ключових слів і продуктивність пошуку з локальних CSV, агрегуючи все в один vendor-neutral дайджест без залежностей. Pipeline детермінований і працює без виклику LLM, надаючи аудитований слід походження кожного факту.

    github-trending-llm
  • johnbean393/KeyType

    Відкрита on-device системна утиліта tab-автодоповнення для macOS, що працює в будь-якій програмі. Спостерігає за фокусним текстовим полем, передбачає коротке продовження за допомогою локальної LLM і пропонує його як ghost text, який приймається клавішею Tab. Є MIT-ліцензованою альтернативою закритому Cotypist.

    github-trending-ai
  • Senora-dev/aquifer-ai

    Відкрите Context Lake — нейтральна інфраструктура для AI-агентів, що агрегує інженерний контекст (спочатку GitHub) у векторне сховище OpenSearch всередині вашого VPC. Надає стандартний MCP API для прямих запитів агентів, включаючи semantic k-NN пошук і обхід зв'язків між сутностями, з нульовим витоком даних назовні. Розгортається одним CDK-стеком і залишається нейтральним: надає об'єктивний контекст, але не робить висновків — reasoning лишається за агентом.

    github-trending-ai
  • IlyaGrebenschikov/ai_agent_article_researcher

    CLI-агент для дослідження, що шукає веб за допомогою Tavily і генерує стислу відповідь із посиланнями на джерела для заданої теми або питання. Використовує LangGraph для простого pipeline: пошук вебу, збір та дедуплікація джерел, генерація резюме через OpenAI-сумісну LLM і виведення відповіді з релевантними джерелами.

    github-trending-llm
  • argahv/sisyphus-academica

    Самокоординований рій із 20+ спеціалізованих агентів для написання академічних статей, готових до публікації, з реальною новизною та нульовою кількістю галюцинованих цитат. Включає 6 движків генерації новизни, 10 адверсаріальних рев'юверів і 41 паттерн гуманізації для усунення AI-детектованих патернів, виводячи LaTeX PDF з верифікованими BibTeX-посиланнями. На відміну від GPT-4/NotebookLM, обробляє 500+ статей, має 0% галюцинацій цитат і вбудовану детекцію AI-текстів під час генерації.

    github-trending-llm
  • Aajil-Labs/arabic-pii-py

    Локальний privacy-шар для роботи з арабськими та GCC-документами, що знаходить чутливі дані (імена, національні ID, IBAN, телефони, адреси, VAT-номери) і замінює їх оборотними токенами перед відправкою до AI-моделі. Реальні значення залишаються зашифрованими локально та відновлюються після отримання відповіді, з підтримкою арабських імен, арабсько-індійських цифр і right-to-left тексту. Включає CLI, streaming proxy, on-device NER і підтримку форматів документів без обов'язкових зовнішніх залежностей.

    github-trending-llm
  • SumanD18/sentinel

    Відкритий observability та trust-шар для AI-агентів: трейсить кожен крок, оцінює кожен вихід і виявляє галюцинації та runaway-цикли в реальному часі. Самохостований рішення для моніторингу та перевірки роботи агентів.

    github-trending-llm
  • karlmehta/trustmodel

    Інструмент для оцінювання довіри до будь-якої AI за 10 вимірами довіри з можливостями Eval, Monitor і Govern. Надає безкоштовний API-ключ з 5 кредитами ($500 вартості) для початкової оцінки моделей.

    github-trending-llm

Industry

  • Claude maker Anthropic files for IPO with the SEC

    Anthropic конфіденційно подала заявку на первинне публічне розміщення акцій (IPO) до Комісії з цінних паперів США. Після останнього раунду фінансування компанія оцінюється майже в $1 трільйон, а IPO може підняти цю цифру ще вище. Компанія структурована як Public Benefit Corporation, що намагається збалансувати соціальну користь і прибуток.

    the-decoder
  • Nvidia pitches RTX Spark as the chip that finally makes local AI agents practical on Windows devices

    Nvidia анонсувала RTX Spark — чіп Grace Blackwell для Windows-ноутбуків з до 128 ГБ об'єднаної пам'яті та 1 петафлопом обчислень для ШІ, конкуруючи з Apple Silicon та Qualcomm Snapdragon. Чіп орієнтований на локальне виконання ШІ-агентів з новими інструментами безпеки, включаючи OpenShell Runtime для ізоляції агентів. Пристрої від ASUS, Dell, HP, Lenovo, Microsoft Surface та MSI з'являться восени 2026 року.

    the-decoder
  • OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

    OpenAI відновлює свою робототехнічну команду після закриття підрозділу у 2020 році, з довгостроковою метою створити персональних роботів для кожного. У короткостроковій перспективі компанія фокусується на роботах для будівництва інфраструктури, наймаючи інженерів для апаратного забезпечення, операцій та машинного навчання. Команда виросла з дослідницької програми симуляції світу, яка також поглинула команду Sora після закриття додатку.

    the-decoder
  • Anthropic bans AI tools during job interviews to see how candidates actually think

    Anthropic забороняє використання інструментів ШІ під час співбесід, щоб оцінити реальне мислення кандидатів. Кандидати проходять до п'яти раундів інтерв'ю, включаючи інтенсивну «культурну співбесіду» про цінності та етичні дилеми. Зарплати сягають $850,000 плюс акції, що призводить до того, що деякі кандидати витрачають у середньому $4,600 на коучинг для підготовки.

    the-decoder
  • SoftBank plans 75 billion euro AI data center buildout in France

    SoftBank планує побудувати дата-центри для ШІ загальною потужністю 5 гігават у Франції, інвестуючи до 75 мільярдів євро. Перша фаза передбачає 45 мільярдів євро на дата-центри потужністю 3,1 гігават у регіоні О-де-Франс до 2031 року. Це найбільша інвестиція SoftBank у ШІ-інфраструктуру в Європі, яка має створити тисячі робочих місць та виробничий кластер для компонентів дата-центрів разом зі Schneider Electric.

    the-decoder
  • Boston Children's uses AI to unlock new diagnoses

    Бостонська дитяча лікарня використовує технології OpenAI для покращення догляду за пацієнтами та зменшення операційного навантаження. Завдяки впровадженню ШІ заклад зміг діагностувати понад 40 випадків рідкісних захворювань. Це демонструє практичне застосування великих мовних моделей у медичній сфері.

    openai-blog
  • How Braintrust turns customer requests into code with Codex

    Інженери Braintrust використовують Codex разом з GPT-5.5 для прискорення експериментів та кодування. Інструмент дозволяє швидше перетворювати запити клієнтів у робочий код. Це приклад того, як ШІ-асистенти інтегруються у робочі процеси розробки програмного забезпечення.

    openai-blog
  • Strengthening societal resilience with Rosalind Biodefense

    OpenAI запустила Rosalind Biodefense, розширюючи довірений доступ до GPT-Rosalind для перевірених розробників та урядових партнерів США. Ініціатива спрямована на розвиток біозахисту, громадського здоров'я та готовності до пандемій за допомогою передових технологій ШІ. Це демонструє зростаючу роль ШІ у національній безпеці та охороні здоров'я.

    openai-blog
  • How Endava builds an agentic organization with Codex

    Endava використовує Codex для побудови агентної організації, прискорюючи розробку програмного забезпечення. Компанія скоротила аналіз вимог з тижнів до годин завдяки впровадженню ШІ-інструментів. Це приклад трансформації бізнес-процесів у великій технологічній компанії.

    openai-blog
  • OpenAI's Frontier Governance Framework

    OpenAI представила свою Frontier Governance Framework, описуючи практики безпеки, захисту та управління ризиками ШІ. Фреймворк узгоджується з новими регуляціями ЄС та Каліфорнії. Документ демонструє підхід компанії до відповідального розвитку передових ШІ-систем.

    openai-blog
  • MUFG aims to become AI-native with OpenAI

    Японська фінансова група MUFG використовує ChatGPT Enterprise для побудови ШІ-орієнтованої організації. Банк впроваджує технології для покращення робочих процесів та надання нових фінансових послуг на базі ШІ у великих масштабах. Це приклад цифрової трансформації у традиційному банківському секторі.

    openai-blog
  • Building self-improving tax agents with Codex

    OpenAI, Thrive та Crete створили самовдосконалюваного податкового агента на базі Codex. Система автоматизує подання декларацій, покращує точність та прискорює робочі процеси. Це демонструє потенціал ШІ-агентів у автоматизації складних регуляторних завдань.

    openai-blog

Week 2026-05-25 – 2026-06-01

33 items

Models

  • Turing Award winner Richard Sutton says pure generative AI can't do real science

    Лауреат премії Тюрінга Річард Саттон стверджує, що звичайні генеративні моделі ШІ не здатні до справжніх наукових відкриттів, оскільки їм бракує можливості оцінювати власні результати. Саттон описує справжнє відкриття як триетапний процес: варіація, оцінка та селективне збереження, де генеративному ШІ найбільше бракує саме оцінки. Системи на кшталт AlphaGo, AlphaFold та Claude Code демонструють справжню креативність завдяки петлі оцінки, яка виходить за межі простої генерації тексту чи зображень.

    the-decoder
  • MiniMax M3: Open-weight model with a million-token context challenges proprietary leaders

    Китайська компанія MiniMax випустила модель M3 з відкритими вагами, яка поєднує високу продуктивність у програмуванні, нативну мультимодальність та контекстне вікно на мільйон токенів. Нова архітектура MiniMax Sparse Attention скорочує обчислення до однієї двадцятої та прискорює обробку вхідних даних у дев'ять разів. У бенчмарках M3 досягає результатів, порівнянних з топовими моделями на кшталт Opus 4.7 та GPT-5.5, а в тестах на тривалу автономність модель успішно виконувала завдання протягом 12-24 годин.

    the-decoder
  • Nvidia's Nemotron 3 Ultra becomes the smartest open US model, but China still leads

    Nvidia представила Nemotron 3 Ultra з приблизно 550 мільярдами параметрів, що стала найпотужнішою відкритою моделлю зі США, набравши 48 балів у рейтингу Artificial Analysis. Проте модель все ще поступається китайським аналогам, зокрема Kimi K2.6 з 54 балами. Nemotron 3 Ultra також демонструє вражаючу швидкість генерації понад 300 токенів на секунду на платформі DeepInfra.

    the-decoder
  • Import AI 459: AI oversight is difficult; scaling laws for protein folding models; and pricing the extinction risk of AI systems

    Дослідники UK AI Security Institute пояснюють, чому автоматизоване дослідження вирівнювання ШІ є складнішим, ніж здається, через проблеми з виявленням помилок та корельованою невизначеністю. Економісти стверджують, що економіка ШІ в США росте на 2600% на рік у термінах якості, але це зростання майже невидиме в традиційних статистиках ВВП. Австралійський політик-економіст закликає економістів краще оцінювати ризики вимирання від ШІ-систем, аргументуючи, що стійкість цивілізації має розглядатися як форма капіталу.

    import-ai
  • Nvidia bets big on physical AI at GTC Taipei with a new world model, driving brain, and open humanoid robot

    Nvidia на GTC Taipei представила Cosmos 3 — world-модель для роботів та автономних транспортних засобів, Alpamayo 2 Super з 32 мільярдами параметрів для автономного водіння четвертого рівня та відкриту референсну платформу для гуманоїдних роботів. Cosmos 3 обробляє текст, зображення, відео, аудіо та дані про дії в єдиній системі, дозволяючи генерувати синтетичні тренувальні дані та прогнозувати майбутні стани світу. Alpamayo 2 Super призначена як модель-вчитель для навчання менших моделей, які працюватимуть на чіпах Drive AGX Thor.

    the-decoder
  • Ask AI what goes with chicken and the answer depends on whether it learned from recipes or molecules

    Стартап Kaikaku.AI представив дослідження Epicure, де три ідентичні моделі навчалися на різних даних: рецептах, хімічному складі інгредієнтів та їхній комбінації. Модель, тренована на рецептах, пропонує типові кулінарні поєднання, тоді як модель на основі хімії знаходить інгредієнти зі схожим смаковим профілем. Epicure обробляє 4,14 мільйона рецептів з одинадцяти джерел сімома мовами, що робить її найбільшою багатомовною продуктовою моделлю.

    the-decoder
  • Anthropic study finds men use AI coding agents more than twice as often as women in social science research

    Дослідження Anthropic виявило значний гендерний розрив у використанні ШІ-агентів для програмування в соціальних науках: дослідники з чоловічими іменами використовують ці інструменти більш ніж удвічі частіше за колег з жіночими іменами. Економісти лідирують у впровадженні кодувальних агентів з 39%, тоді як дослідники в освіті — лише 4%. Респонденти оптимістичні щодо впливу ШІ на власну продуктивність, але скептичні щодо впливу на соціальні науки загалом.

    the-decoder
  • AI search agents often confirm what they already know instead of actually researching the web

    Дослідження з Харбінського технологічного інституту показало, що провідні ШІ-агенти для пошуку не проводять справжнього дослідження на встановлених бенчмарках, а переважно підтверджують відповіді, які вже знають. Деякі моделі досягають понад 60% точності на BrowseComp без доступу до інтернету, а їхня продуктивність падає на 25-40 пунктів на новому бенчмарку LiveBrowseComp з питаннями про події останніх 90 днів. Дослідники створили LiveBrowseComp для оцінки реальних здібностей до пошуку за межами тренувальних знань моделей.

    the-decoder
  • A shared playbook for trustworthy third party evaluations

    OpenAI опублікувала керівництво щодо незалежних оцінок ШІ-моделей третіми сторонами, що охоплює методи оцінки можливостей моделей, механізмів безпеки та валідності для передових систем. Документ є спробою стандартизувати підходи до незалежної перевірки можливостей та ризиків фронтир-моделей. Це важливий крок до більшої прозорості та відповідальності в індустрії ШІ.

    openai-blog

Open Source

  • myklovenyzforever/chem-pdf-extractor

    Open-source інструмент для витягування структурованих експериментальних даних з наукових PDF-статей, орієнтований на хімічну інженерію, каталіз та матеріалознавство. Підтримує пакетну обробку PDF, конвертацію в Markdown, конфігуровані LLM-поля для екстракції, експорт у Excel/CSV, а також роботу з OpenAI-сумісними API та локальними Ollama-моделями. Розроблено для китайськомовних дослідників, але має англійську документацію та інтерфейс.

    github-trending-llm
  • PanisHandsome/ai-rules-sync

    Інструмент синхронізації конфігурацій AI-агентів між платформами: одне джерело правди (AGENTS.md) автоматично конвертується в формати Cursor, Claude Code, GitHub Copilot, Windsurf, Cline та інших. Підтримує двосторонню синхронізацію через git pre-commit hooks, має веб-playground для перевірки конвертації та працює без залежностей. Вирішує проблему ручної підтримки різних форматів rule-файлів, що часто призводить до їх розбіжності.

    github-trending-ai
  • exmergo/research-llm-car-wash-test

    Дослідження чотирьох frontier LLM на здатність розуміти контекстну неоднозначність через тест «автомийка за 100 метрів — йти пішки чи їхати?». З 400 викликів тільки Gemini 3.1 Pro пройшов тест у 100% випадків (450 reasoning tokens), GPT-5.5 — у 26% (незважаючи на reasoning), а Claude Opus 4.8 та Llama 4 Maverick провалили всі спроби. Результати показують, що навіть явне міркування не гарантує уникнення семантичних пасток, а адаптивне мислення може вирішити не думати зовсім.

    github-trending-llm
  • Agent-Field/reels-af

    AI-native система для створення вірусних відео-reels: від URL статті або теми до готового 1080×1920 вертикального ролика за ~80 секунд при вартості $0.10 (або $1.20 з Veo 3.1 Lite i2v). Використовує 18+ спеціалізованих агентів на платформі AgentField для пошуку літератури, генерації новизни через 6 движків, створення word-burst караоке з sample-accurate синхронізацією, та проходження через 10 adversarial reviewers. Повністю працює через OpenRouter без vendor lock-in, з детермінованими перевірками на AI-паттерни та нульовою hallucination rate для цитувань.

    github-trending-llm
  • OtShelniko/site-context-pipeline

    Python CLI для перетворення crawl-даних сайту, URL-інвентаря та редакційних нотаток у structured context packs для LLM-асистованих контент-workflow з обов'язковим людським review. Детермінований pipeline без LLM-викликів будує inventory зі класифікацією сторінок, внутрішній граф посилань, імпортує keyword metrics та search performance з локальних CSV, агрегує все в agent context pack (JSON + Markdown) та генерує content opportunities звіт. Vendor-neutral архітектура з опціональними provider-адаптерами для Google Ads, Search Console та інших джерел даних.

    github-trending-llm
  • johnbean393/KeyType

    Open-source on-device системний tab-autocomplete для macOS, який відстежує фокусоване текстове поле в будь-якому застосунку, передбачає коротке продовження за допомогою локальної LLM та пропонує його як ghost text з прийняттям через Tab. MIT-ліцензована альтернатива закритому Cotypist, працює повністю локально без відправки даних назовні. Вимагає macOS 14+ та останню версію Xcode для збірки з джерел.

    github-trending-ai
  • Senora-dev/aquifer-ai

    Open-source Context Lake для AI-агентів у власному VPC: headless інфраструктура (без UI, без reasoning engine), яка агрегує інженерний контекст (GitHub-first) в OpenSearch vector store та надає стандартний MCP API для прямих запитів агентів. Виконує semantic indexing на етапі інгестування — витягує об'єктивні метадані (typed entities, factual relationships) через модульний per-source prompt registry та індексує їх як queryable fields. Neutral принцип: надає факти, не робить висновків; агент сам міркує на основі отриманого контексту.

    github-trending-ai
  • IlyaGrebenschikov/ai_agent_article_researcher

    CLI research агент, який шукає в інтернеті та генерує стислу відповідь з посиланнями на джерела для заданої теми або питання. Використовує LangGraph для простого pipeline: пошук через Tavily, збір та дедуплікація джерел, генерація summary через OpenAI-сумісну LLM, виведення відповіді та релевантних джерел. Мінімалістичний інструмент для швидкого дослідження тем з автоматичним збором та верифікацією джерел.

    github-trending-llm
  • argahv/sisyphus-academica

    Самокоординуючий swarm з 20+ спеціалізованих агентів для створення publication-ready наукових статей з genuine новизною, нульовою hallucination rate цитувань та відсутністю AI-паттернів. Включає 6 novelty engines (Contrarian, Cross-Pollinator, Assumption Excavator та ін.), 10 adversarial reviewers з різними персонами, та academic humanizer з 41 паттерном. Кожна стаття проходить 5 hard gates: citation verification (2+ API), statistical audit, AI-pattern detection, style audit та adversarial review (всі 10 reviewers мають схвалити), виводить LaTeX PDF з verified BibTeX.

    github-trending-llm
  • Aajil-Labs/arabic-pii-py

    Локальний privacy layer для Arabic та Gulf документів: знаходить sensitive дані (імена, national IDs, IBANs, телефони, адреси, VAT, commercial-registration numbers) та замінює кожне значення на reversible token перед відправкою до AI моделі, зберігаючи реальні дані encrypted локально. Побудовано спеціально для арабської мови з підтримкою Arabic-Indic цифр, RTL тексту, checksum-валідацією structured IDs (IBAN ISO-7064 MOD-97), працює повністю offline з on-device NER. Підтримує чотири режими інтеграції: streaming proxy, Claude Code hooks, portable skill, та Python SDK.

    github-trending-llm
  • SumanD18/sentinel

    Open-source observability та trust layer для AI-агентів: trace кожного кроку, score кожного виводу, виявлення hallucinations та runaway loops в реальному часі. Self-hostable рішення для моніторингу та контролю поведінки AI-систем.

    github-trending-llm
  • karlmehta/trustmodel

    Інструмент для скорингу будь-якої AI за довірою через три компоненти: Eval, Monitor, Govern. Оцінює 10 trust dimensions, надає безкоштовний API key з 5 credits ($500 вартістю) для початку роботи.

    github-trending-llm

Industry

  • Claude maker Anthropic files for IPO with the SEC

    Anthropic конфіденційно подала заявку на первинне публічне розміщення акцій (IPO) до Комісії з цінних паперів США. Після останнього раунду фінансування компанія оцінена майже в $1 трільйон, а IPO може підняти цю цифру ще вище. Компанія структурована як Public Benefit Corporation, що намагається балансувати між соціальною користю та прибутком.

    the-decoder
  • Nvidia pitches RTX Spark as the chip that finally makes local AI agents practical on Windows devices

    Nvidia анонсувала RTX Spark — чіп Grace Blackwell для ноутбуків Windows з до 128 ГБ уніфікованої пам'яті та 1 петафлопом обчислювальної потужності FP4, конкуруючи з Apple Silicon та Qualcomm Snapdragon. Чіп призначений для локального виконання AI-агентів з новими інструментами безпеки, такими як OpenShell Runtime для ізоляції агентів. Пристрої від провідних виробників ASUS, Dell, HP, Lenovo та Microsoft Surface з'являться восени 2026 року.

    the-decoder
  • Building the infrastructure for the Intelligence Age in Michigan

    OpenAI розпочала будівництво дата-центру потужністю 1 гігават у Мічигані в рамках проєкту Stargate. Ця AI-інфраструктура має на меті розширити доступ до технологій, створити робочі місця та підтримати місцеві громади.

    openai-blog
  • OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

    Генеральний директор OpenAI Сем Альтман хоче, щоб у кожного колись був персональний робот, і компанія наймає інженерів для роботи над обладнанням та машинним навчанням. У короткостроковій перспективі роботи допомагатимуть спеціалістам будувати інфраструктуру, а в довгостроковій OpenAI уявляє «персонального робота для кожного, здатного робити все необхідне». Команда з робототехніки виросла з програми дослідження світової симуляції, яка також поглинула команду Sora після закриття додатку AI-відео.

    the-decoder
  • Anthropic bans AI tools during job interviews to see how candidates actually think

    Anthropic забороняє використання AI-інструментів під час співбесід, якщо інше не вказано явно. Кандидати проходять до п'яти раундів інтерв'ю, включаючи так зване «культурне інтерв'ю», де вони стикаються з питаннями про цінності, світогляд та етичні дилеми. Зарплати досягають $850,000 плюс акційна компенсація, а деякі кандидати витрачають у середньому $4,600 на підготовчий коучинг.

    the-decoder
  • SoftBank plans 75 billion euro AI data center buildout in France

    SoftBank планує побудувати AI-дата-центри загальною потужністю 5 гігават у Франції, інвестиція вартістю до 75 мільярдів євро. Перша фаза передбачає 45 мільярдів євро в дата-центри потужністю 3.1 гігавата в регіоні О-де-Франс до 2031 року на майданчиках у Дюнкерку, Боскелі та Бушані. Разом зі Schneider Electric компанія планує створити виробничий кластер для компонентів дата-центрів у Дюнкерку, що має створити тисячі робочих місць.

    the-decoder
  • Boston Children's uses AI to unlock new diagnoses

    Дитяча лікарня Бостона використовує технології OpenAI для покращення догляду за пацієнтами, зниження операційного навантаження та діагностики більше 40 випадків рідкісних захворювань. Це демонструє практичне застосування AI в критично важливій медичній сфері.

    openai-blog
  • How Braintrust turns customer requests into code with Codex

    Інженери Braintrust використовують Codex з GPT-5.5 для прискорення експериментів та написання коду. Це ілюструє, як AI-інструменти безпосередньо інтегруються в процеси розробки програмного забезпечення.

    openai-blog
  • Strengthening societal resilience with Rosalind Biodefense

    OpenAI запускає Rosalind Biodefense, розширюючи довірчий доступ до GPT-Rosalind для перевірених розробників та партнерів з уряду США. Програма спрямована на просування біозахисту, громадського здоров'я та готовності до пандемій через використання передових AI-технологій.

    openai-blog
  • How Endava builds an agentic organization with Codex

    Endava використовує Codex для побудови агентної організації, прискорюючи постачання програмного забезпечення та скорочуючи аналіз вимог з тижнів до годин. Це демонструє трансформаційний вплив AI на корпоративні процеси розробки.

    openai-blog
  • OpenAI's Frontier Governance Framework

    OpenAI представила свою Frontier Governance Framework, описуючи, як практики безпеки, захисту та управління ризиками компанії узгоджуються з новими регуляціями ЄС та Каліфорнії. Це відображає зростаючу увагу до врядування та відповідальності в галузі AI.

    openai-blog
  • MUFG aims to become AI-native with OpenAI

    MUFG використовує ChatGPT Enterprise для побудови AI-нативної організації, покращення робочих процесів та надання нових AI-керованих фінансових послуг у масштабі. Це приклад того, як великі фінансові установи впроваджують AI в свої основні операції.

    openai-blog