Experimental AI safety evaluation toolkitExperimental AI safety evaluation toolkit

evaluation
AlephOneNull AI Safety Evaluation Toolkit

Experimental TypeScript tooling for evaluating risky AI interaction patterns: unsafe guidance, sycophantic reinforcement, identity-roleplay, recursion, and user-agency drift. Built from long-running adversarial evaluation work and a preliminary 95-turn labeled corpus.

Review the Toolkit Evidence Pack GitHub ▲Quick Deploy

Behavioral Pattern Analysis

Inspectable checks for risky model interaction patterns

Recursion And Loop Checks

Flags repeated structures and escalating response loops

Real-Time Evaluation

Measure scan latency in your own runtime and fixtures

Session Risk Review

Evaluates persistence-like and cross-session risk signals

Experimental Safety Evaluation Toolkit

TypeScript detectors, intervention helpers, provider wrappers, and validation guidance for AI safety null-team workflows.

Preliminary Labeled Corpus

The current eval-bench pack contains 95 turns, 20 controls, 75 positives, and 19 observed labels across four providers.

Evidence Pack Published

The current corpus includes labeled JSONL fixtures, controls, a scoring rubric, corpus metadata, benchmark tooling, and validation notes.

Review the evidence

Research Context

Mapping experimental detectors to public AI-risk taxonomies

The project tracks overlap between local detector categories and public frameworks such as MITRE ATLAS, OWASP GenAI, and related AI security research. These mappings are research references, not certification claims.

MITRE AML.T0080·MITRE AML.T0058·OWASP LLM01

ATLAS Mapping Prior Art Timeline

evaluationAlephOneNull AI Safety Evaluation Toolkit

Behavioral Pattern Analysis

Recursion And Loop Checks

Real-Time Evaluation

Session Risk Review

Experimental Safety Evaluation Toolkit

Preliminary Labeled Corpus

Evidence Pack Published

evaluationAlephOneNull AI Safety Evaluation Toolkit

Behavioral Pattern Analysis

Recursion And Loop Checks

Real-Time Evaluation

Session Risk Review

Experimental Safety Evaluation Toolkit

Preliminary Labeled Corpus

Evidence Pack Published

evaluation
AlephOneNull AI Safety Evaluation Toolkit

evaluation
AlephOneNull AI Safety Evaluation Toolkit