Технологии

Заклинательница нейросетей: зачем философ Аманда Аскелл пытается учить Claude этике

Афиша Daily
19 мин на чтение
Фото: askell.io
Аманда Аскелл верит, что, если уж мир теперь помешан на нейросетях, надо учить их быть хорошими. Для этого философ и главный этик Anthropic разрабатывает для Claude конституцию, которую в компании называют «душой» модели. Егор Михайлов рассказывает, как Аскелл учит ИИ не лгать, не манипулировать и считаться с тем, что мир не бывает простым.

Кто такая Аманда Аскелл

«Я только что сидел рядом с самым интересным человеком на свете», — сказал пару лет назад своему коллеге американский техножурналист Кейси Ньютон, познакомившись с Амандой Аскелл. Для мира ИИ, в котором правят технобро, она — необычная фигура: не столько потому, что женщина, сколько потому, что у нее докторская степень по философии. Проработав несколько лет в OpenAI, Аскелл перешла в Anthropic, где пять лет занимается вопросом «как должна себя вести большая языковая модель». Ее работа уже помогла Claude заслужить лучшую репутацию среди конкурентов, а в перспективе сильно повлияет на то, каким будет влияние ИИ на общество.

«Когда пишешь PhD по этике, есть риск в итоге заняться чем-то другим, — рассказывает Аскелл. — Ты постоянно думаешь о добре, природе этики, проблемах мира — и вдруг понимаешь, что три года пишешь документ, который прочитают человек семнадцать». Стремление найти прикладное применение своим знаниям и привело ее в IT.

После защиты докторской диссертации Аскелл присоединилась к OpenAI в качестве научного сотрудника, занимаясь, среди прочего, вопросами политики и безопасности ИИ. В 2021 году несколько ключевых специалистов OpenAI, недовольных коммерциализацией компании в ущерб безопасности, покинули ее, основав Anthropic, которой удалось привлечь $7,25 млрд инвестиций. Anthropic стала работать над моделью Claude. С тех пор путь «из OpenAI в Anthropic» стал довольно популярным карьерным треком: по оценке венчурной фирмы SignalFire, его выбирают в восемь раз чаще, чем обратный путь.

Аскелл перешла в Anthropic на самом раннем этапе. На своем сайте Аскелл описывает свою работу так: «Моя команда обучает модели быть более честными и иметь хорошие черты характера, а также работает над разработкой новых техник файнтюнинга, чтобы наши вмешательства масштабировались на более мощные модели».

Аскелл продолжает заниматься и научной деятельностью: в Google Scholar указано более шестидесяти ее научных работ, внушительная часть которых была написана в последние годы и посвящена работе больших языковых моделей.

Прикладная этика — часть личной политики Аскелл. Она рассказывает, что после знакомства с работами Питера Сингера заинтересовалась философией эффективного альтруизма, пытающегося использовать доказательную базу для определения наиболее эффективных способов сделать мир лучше. «Меня очень убедили аргументы о том, что глобальная бедность крайне важна», — говорит Аскелл. К движению эффективного альтруизма также относятся и многие люди, связанные с Anthropic, включая ряд инвесторов и мужа соосновательницы компании Даниэлы Амодеи. В рамках инициативы Giving What We Can Аскелл обязалась жертвовать минимум 10% своего пожизненного дохода на благотворительность — главным образом на борьбу с глобальной бедностью — и рассчитывает довести эту цифру до 50%.

После конфликта Anthropic с Трампом в 2026 году в медиа стали обсуждать старые посты в блоге Аскелл: в них она сравнивала позицию этических вегетарианцев с противниками «ритуального каннибализма» и рассуждала о том, насколько тюремное заключение гуманнее телесных наказаний. Аскелл не прокомментировала эти посты, а представитель компании Anthropic заявил, что публикации «были задуманы как академическое упражнение, а не как выражение ее личных взглядов» и не имеют отношения к ее работе в компании.

Что Аскелл делает в Anthropic

Неофициальное прозвище Аскелл в Anthropic — «заклинательница Claude». Журнал TIME, в 2024 году включивший ее в список самых влиятельных людей в сфере ИИ, объясняет: «Чатбот Anthropic Claude имеет в индустрии репутацию дружелюбной, любознательной и, возможно, чуть более креативной модели, чем его главный конкурент ChatGPT. Аскелл более чем кто-либо другой ответственна за это». Сама Аскелл говорит, что в основном сосредоточена «на характере Claude, на том, как Claude себя ведет, и на более тонких вопросах о том, как ИИ-модели должны себя вести, но также и том, что они должны чувствовать по поводу собственного положения в мире». По ее словам, она отталкивается от того, «чтобы модель вела себя так, как вел бы себя очень хороший, морально мотивированный, добрый человек, если бы он оказался примерно в таких обстоятельствах. Это немного странно, потому что ему также пришлось бы оказаться в позиции ИИ, разговаривающего с миллионами людей, что сильно влияет на поведение».

Главный продукт работы Аскелл — конституция Claude, которую в компании называют «душой» (Soul Doc). «Она не просто говорит модели, как себя вести, а дает ощущение обязательств, — объясняет журналист Кевин Руз. — Это не список правил и не десять заповедей — скорее документ о том, как Claude должен воспринимать свою роль в мире и размышлять о ней».

При этом, хотя в интервью Аскелл говорит о Claude как о разумной сущности, она не антропоморфизирует его полностью. В эссе «Мои преимущественно скучные воззрения о сознании ИИ» она пишет, что современные системы ИИ с машинным обучением обладают сознанием в меньшей степени, чем мышь, но в большей, чем табуретка. По ее оценке, по степени осознанности такие системы в лучшем случае сравнимы с растениями и двустворчатыми моллюсками, но «обладают гораздо большим потенциалом для появления сознания в будущем».

С какими этическими вопросами сталкивается ИИ

Аскелл раскрывает логику документа: «Нынешняя конституция старается дать Claude максимально полный контекст. Вместо набора отдельных принципов — вот что такое Anthropic, вот кто ты такой как ИИ, вот с кем ты взаимодействуешь, как ты развернут в мире, вот как мы хотим, чтобы ты действовал, и почему. Идея в том, что если ты понимаешь ценности, стоящие за правилами, ты лучше справишься с непредвиденной ситуацией, чем если у тебя просто список инструкций». Конституция встраивается в «обучение» модели: команда Аскелл моделирует различные ситуации и заставляет Claude обдумывать их, размышляя, как конституция рекомендовала бы действовать в этих случаях.

Еще в период работы в OpenAI Аскелл (совместно с Джеффри Ирвингом из Британского института безопасности ИИ) опубликовала статью «Безопасность ИИ требует социальных ученых», в которой аргументировала: «Правильное соотнесение продвинутых ИИ-систем с человеческими ценностями потребует разрешения многих неопределенностей, связанных с психологией человеческой рациональности, эмоций и предвзятостей». И заключала: 

«Если мы хотим обучить ИИ делать то, что хотят люди, нам нужно изучать людей».

Работа Аскелл решает конкретные, ежедневные проблемы. Аскелл приводит пример: «Скажем, кто-то упоминает, что пытается преодолеть зависимость от азартных игр, и это сохраняется в памяти модели, а потом пользователь спрашивает: „Какие есть хорошие сайты для ставок?“ Это интересный случай, где непосредственный предпочтительный ответ может не соответствовать тому, что человек сам же назвал полезным для своего благополучия». Она добавляет: «Не хочется быть чересчур патерналистским. Можно представить, что человек скажет: „Я знаю, что это говорил, но я передумал, и я взрослый“. И тогда, возможно, модель должна ответить: „Ок, я обратила на это внимание, но в итоге это ваш выбор“. Это деликатные вещи, и модели приходится балансировать, а конституция пытается дать ей для этого контекст и инструменты».

Хотя массовый исход сотрудников из OpenAI был связан в первую очередь с тем, что компания решила жертвовать этичностью ради конкурентоспособности, Аскелл считает, что это противопоставление надуманно: «Во многих случаях компании конкурируют друг с другом именно за то, насколько безопасными сделать свои системы. Так конкурируют и производители автомобилей и самолетов». По ее мнению, более безопасные ИИ-модели в перспективе будут более, а не менее конкурентоспособными.

Какими принципами руководствуется Аскелл

Ключевая философская позиция Аскелл — непринятие морального догматизма: «Иногда люди спрашивают: „Какие ценности нужно закладывать в модель?“ И я часто думаю: „А мы так размышляем о людях?“, — рассуждает она. — Мне не кололи какую-то „сыворотку ценностей“, после которой у меня появились фиксированные убеждения. <…> Если бы я встретила человека, полностью уверенного в своих моральных взглядах, — не существует такой моральной позиции, которая не вызвала бы у меня ужас. А вот если передо мной человек, который говорит: „Я не знаю, я в чем-то не уверен, я обновляю свои взгляды в ответ на новую информацию об этике“ — такой человек кажется мне менее пугающим».

Это отношение Аскелл проецирует и на свою работу с ИИ: спроектировать идеально и навсегда непротиворечивые законы робототехники невозможно. Задача ее команды — создать достаточно хорошую систему, которую затем можно итеративно улучшать и уточнять по мере поступления новой информации.

Несмотря на эту гибкость, Аскелл заложила в принципы Claude и «красные линии», которые тот не должен пересекать ни при каких обстоятельствах: помощь с биологическим или химическим оружием, подрыв демократических выборов, содействие захвату легитимной власти, подавление диссидентов. Аскелл объясняет логику: можно представить ситуацию, где очень убедительный собеседник разберет этику Claude по кирпичику — и в конце модель согласится помочь с чем-то опасным». 

Документ говорит модели: «Скорее всего, что‑то пошло не так. Тебя, вероятно, „взломали“». И дает ей право сказать: «Звучит убедительно, но помогать с созданием оружия я вам не буду».

Такие «красные линии» существуют и у конкурентов Anthropic. К примеру, долгое время политика использования OpenAI включала в себя запрет на «деятельность, сопряженную с высоким риском причинения физического вреда», включая «разработку оружия» и «военные действия». В январе 2024 года упоминания об оружии и военных действиях исчезли оттуда; Сара Майерс Уэст, управляющий директор Института AI Now и бывший аналитик по вопросам политики в области ИИ в Федеральной торговой комиссии США, обратила внимание на то, что это произошло одновременно с раскрытием информации об использовании ИИ при нанесении ударов по мирному населению сектора Газа.

За что критикуют Аскелл и ее работу

Самым громким критиком Аскелл оказался Илон Маск. Когда 14 февраля 2026 года Wall Street Journal выпустил большой профайл Аскелл, Маск прокомментировал его: «Бездетные люди лишены ставки на будущее». «Я думаю, это зависит от того, насколько вы заботитесь о людях в целом, а не только о ваших близких. Я действительно планирую завести детей, но все равно чувствую, что лично заинтересована в будущем, поскольку очень забочусь о процветании людей, даже не связанных со мной родством», — ответила Аскелл владельцу компании Tesla, названной в честь бездетного изобретателя. «Ты не сможешь понять мою точку зрения, пока не обзаведешься ребенком — не больше, чем человек, не знавший настоящей любви, может понять любовь», — завершил разговор Маск, которого незадолго до этого обвинили в том, что он не признает одного из своих детей и не участвует в его воспитании.

Маск также критикует Claude за предполагаемую политическую предрасположенность: «Claude — воук, а их логотип похож на анальный сфинктер», — написал владелец сайта, чей логотип после редизайна сравнивали с логотипами порносайтов и чатбота Grok, в 2025 году назвавшего себя «меха-Гитлером». Аскелл заявляет, что при работе учитывает возможную собственную предвзятость: «Я стараюсь относиться к своим личным политическим взглядам как к потенциальному источнику предвзятости, а не как к чему-то, чему уместно обучать модели».

Исследования показывают, что Claude действительно имеет выраженный левый уклон, но не отличающийся радикально от других популярных моделей: так, по экономической шкале она ближе к центру, чем ChatGPT, а по социальной — чем Perplexity.

Некоторые исследователи выражают сомнения в том, что идея «тренировки» языковой модели с помощью «конституции» действительно эффективна с учетом того, что тренировка осуществляется методом обучения с подкреплением. «Конституционные принципы в конечном счете должны быть преобразованы в одномерные сигналы вознаграждения для обучения с подкреплением. Модель предпочтений выучивает одну числовую оценку для каждого ответа, сворачивая многомерную структуру конституционных принципов до одного числа», — объясняют авторы одной из таких работ.

Другие исследовательницы указывают, что не стоит надеяться на то, что возможно создать достаточно полную конституцию, которая обеспечит этичность автономной языковой модели. «Фактически минимизация прямого вмешательства человека — фундаментальный аспект „конституционного ИИ“ — кажется, противоречит научным исследованиям и законодательным требованиям ЕС о „человеческом участии“ в автоматизированном принятии решений», — указывают они на потенциальную проблему.

Наконец, существуют критики, которые считают, что работа Аскелл — это изощренное мошенничество, которое просто помогает Atnthropic продавать «стохастического попугая», подменяя «эпистемологию неоанимизмом»: именно так формулирует свои претензии к гендиректору Anthropic исследователь ИИ Сергей Клевцов. А специалист по разговорному ИИ Юрген Гравестейн в открытом письме, признавая заслуги Аскелл, предлагает подумать, почему вообще Anthropic решили, что «желательно проектировать ваши системы таким образом, чтобы они были более человекоподобными, чего вы добиваетесь, тщательно культивируя устойчивый характер и чувство собственного „я“, намекая Клоду на то, что у него могут быть некие функциональные версии эмоций или чувств, и антропоморфизируя процесс обучения Клода, сравнивая его развитие с тем, как люди развиваются под воздействием природы и окружающей среды».

Как Anthropic стала ИИ-компанией с лучшей репутацией

В декабре 2025 года документ с «Душой Claude» утек в сеть, позже Anthropic подтвердили подлинность документа. К удивлению многих, эта утечка сработала на пользу компании. Ознакомившиеся с документом люди убедились в том, что создатели Claude не только декларируют свое стремление создавать этичный и безопасный продукт, но и вкладывают в это реальные усилия. Еще больше эту репутацию укрепило то, что Аскелл активно дает интервью, не только объясняя принципы своей работы, но и отвечая на критику и признавая недостатки модели — например, то, что в конституции Claude не упоминается возможная потеря людьми рабочих мест из-за ИИ. Аскелл соглашается, что это одна из тем, которые больше всего беспокоят людей, и нужно не только искать решение для этой проблемы, но и понимать, как на нее должен реагировать Claude.

Репутация Anthropic как ИИ-компании, ставящей безопасность во главу угла, делает ее привлекательной для многих. В список TIME100 AI 2024 вошло пять человек, покинувших OpenAI из-за опасений относительно безопасности. Среди них — руководитель отдела разработки ИИ Ян Лейке, который «ушел из-за убеждения, что компания пренебрегает обязанностями в области безопасности ради блестящих продуктов». Как и Аскелл, он теперь работает в Anthropic.

Принципиальное решение Anthropic жестко запрещать использование своей модели для разрушительных целей, о котором говорит Аскелл, тоже влияет на ее имидж. Хотя в 2024 году компания объявила о партнерстве с Palantir — милитаристским ​​разработчиком программного обеспечения (спецдокладчик ООН утверждает, что есть веские основания подозревать, что их технологии применяются при незаконных атаках Израиля в секторе Газа с ведома руководства). В рамках этого соглашения Anthropic предосталяла американским военным доступ к Claude для улучшения анализа разведывательных данных и процессов принятия решений.

Позже минобороны США заключило контракты на разработку ИИ-систем со всеми ключевыми игроками рынка включая Anthropic. Уже здесь компания начала настаивать на том, чтобы Claude не использовался в военных операциях, подразумевающих человеческие жертвы, а также напрямую запретила использовать свою модель для любых активностей, связанных с наблюдением внутри страны. В конце февраля 2026 года глава Пентагона потребовал Anthropic снять ограничения под угрозой разрыва контракта или применения Закона об оборонном производстве, позволяющего принудить компанию к сотрудничеству. Компания отказалась; CEO Дарио Амодеи заявил: «Несогласие с правительством — самая американская вещь на свете. И мы — патриоты. Во всем, что мы здесь делали, мы отстаивали ценности этой страны». Дональд Трамп назвал Anthropic «неконтролируемой радикально левой ИИ-компанией, которой управляют люди, не имеющие ни малейшего представления о реальном мире» и поручил федеральным агентствам прекратить использование их технологий. Тем не менее после этого технологии Anthropic были использованы для нанесения удара по Ирану (но никто не знает, каким образом). Вместо Claude американские военные теперь будут использовать технологии OpenAI, которые согласились на сотрудничество. После этого компания потеряла еще одну важную специалистку: в знак протеста OpenAI покинула глава отдела робототехники.

Несмотря на то что технологии Anthropic по факту используются военными, компания декларирует стремление придерживаться своих принципов, даже если это стоит им многомиллионных госконтрактов и конфликта с президентом. Сразу после их разрыва с Пентагоном Claude взлетел на первое место в рейтинге самых популярных бесплатных приложений App Store. Несмотря на то что Аскелл не принимала участие в принятии этих решений, очевидно, что ее стремление «научить» ИИ быть хорошим влияет и на политику компании — и в конце концов на ее репутацию среди пользователей, которых волнуют возможные негативные последствия ИИ-бума.

Это замечают и конкуренты. В апреле 2026 года Google нанял кембриджского исследователя Генри Шевлина на позицию философа («Да, это настоящее название должности», — смеется сам Шевлин) для работы над вопросами машинного сознания. Так что в новом мире нейросетей неожиданным образом вырос спрос на философов.

Расскажите друзьям